国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VLA模型是基于預(yù)置規(guī)則來指導(dǎo)行動(dòng)嗎?

0
分享至

[首發(fā)于智駕最前沿微信公眾號(hào)]今天繼續(xù)來回答小伙伴的提問,最近有一位小伙伴提問,VLA模型中的理解是不是也基于一些預(yù)置的規(guī)則指導(dǎo)行動(dòng)的?其實(shí)這個(gè)問題非常值得討論,今天智駕最前沿就帶大家詳細(xì)聊一聊。



視覺-語(yǔ)言-動(dòng)作(VLA)模型是什么?

在講今天的內(nèi)容之前,要先把VLA講清楚。視覺-語(yǔ)言-動(dòng)作模型(Vision-Language-Action Model,簡(jiǎn)稱VLA)是近年來機(jī)器人和人工智能領(lǐng)域興起的一類模型。它的目標(biāo)是讓一臺(tái)機(jī)器“看懂世界”、“理解任務(wù)指令”,然后自己去執(zhí)行動(dòng)作。



圖片源自:網(wǎng)絡(luò)

舉個(gè)例子,一臺(tái)機(jī)器人面對(duì)一個(gè)裝滿玩具的桌子,你用語(yǔ)言告訴它“把紅色球放進(jìn)盒子里”,它就需要先“看見”桌子上的東西,分辨出哪個(gè)是紅色球和盒子;然后它要理解你說的這句話的意思;最后它得控制自己的機(jī)械臂抓起球并放到指定位置。VLA模型的意義就在于把這三個(gè)任務(wù)整合起來,而不是像傳統(tǒng)機(jī)械那樣把每個(gè)步驟拆開做。

一個(gè)典型的VLA模型會(huì)包括兩個(gè)核心部分,一個(gè)是視覺-語(yǔ)言編碼器(Vision-Language Encoder),負(fù)責(zé)把圖像和語(yǔ)言輸入映射成機(jī)器內(nèi)部可以處理的表示;另一個(gè)是動(dòng)作解碼器(Action Decoder),負(fù)責(zé)根據(jù)這種內(nèi)部表示生成具體執(zhí)行動(dòng)作的命令。這樣的架構(gòu)可以在一次前向計(jì)算中把視覺信息和語(yǔ)言指令結(jié)合起來,直接輸出機(jī)械動(dòng)作或控制信號(hào)。

之所以會(huì)提出VLA模型,是因?yàn)閭鹘y(tǒng)機(jī)器人系統(tǒng)會(huì)將視覺感知、語(yǔ)言理解和動(dòng)作規(guī)劃拆成不同模塊,這種模塊化系統(tǒng)在復(fù)雜環(huán)境下很難協(xié)同,而且對(duì)場(chǎng)景變化的適應(yīng)性較差。VLA模型的端到端方法試圖讓感知、理解和行動(dòng)融成一個(gè)整體,從而具備更自然、更接近人類操作的能力。



VLA模型里所謂的“理解”到底是什么?

很多人聽到AI具備“理解能力”,就會(huì)自然而然聯(lián)想到傳統(tǒng)程序里如“如果看到紅色球,就執(zhí)行抓取動(dòng)作”這樣的規(guī)則判斷。這種規(guī)則式的思考可以讓行為動(dòng)作有據(jù)可循,但VLA模型的理解并不是這種有明確規(guī)則的程序邏輯。恰恰相反,它沒有預(yù)定義的、用編程手寫的規(guī)則來指導(dǎo)每一次動(dòng)作如何執(zhí)行。它的理解來自于大量示例學(xué)習(xí)出來的關(guān)聯(lián)模式。



圖片源自:網(wǎng)絡(luò)

換句話說,VLA模型的“理解”不是提前寫好的指令集,而是一種端到端學(xué)習(xí)得到的內(nèi)部能力。在訓(xùn)練階段,模型會(huì)被喂入大規(guī)模的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)是由很多真實(shí)或模擬場(chǎng)景組成的三元組,即視覺輸入+自然語(yǔ)言指令+與之對(duì)應(yīng)的動(dòng)作軌跡。如在數(shù)據(jù)里可能有這樣的記錄,“圖像是桌面場(chǎng)景,語(yǔ)言是把杯子放進(jìn)箱子,動(dòng)作序列是機(jī)械手臂移動(dòng)并完成抓取動(dòng)作”。模型通過反復(fù)“看見+讀懂+對(duì)比正確動(dòng)作”這樣的樣本,逐漸學(xué)習(xí)出視覺特征、語(yǔ)言表征和動(dòng)作輸出之間的統(tǒng)計(jì)關(guān)系。

這種學(xué)習(xí)是統(tǒng)計(jì)意義上的,而不是邏輯規(guī)則式的。模型并沒有一個(gè)明確的代碼告訴它“紅色就是要抓取”,它只是從數(shù)據(jù)里看到在大量場(chǎng)景中,當(dāng)出現(xiàn)“紅色球”和相關(guān)指令時(shí),執(zhí)行某些動(dòng)作是合適的。

從這個(gè)角度看,“理解”在VLA中更像是一種統(tǒng)計(jì)上的推斷能力,模型不是在判斷一個(gè)明確的規(guī)則是否滿足,而是在根據(jù)它已經(jīng)學(xué)到的多模態(tài)關(guān)聯(lián)進(jìn)行預(yù)測(cè)。理解語(yǔ)言成分時(shí),就類似人類語(yǔ)言模型的方式;理解視覺信息時(shí),責(zé)利用視覺編碼器提取場(chǎng)景特征;動(dòng)作的輸出則是在學(xué)習(xí)中形成的概率式策略。這種能力的組成是多種網(wǎng)絡(luò)層結(jié)構(gòu)和訓(xùn)練方法協(xié)同的結(jié)果,而不是單個(gè)模塊的規(guī)則引擎決定的。



VLA模型內(nèi)部是怎么做到“理解”的?

為了更清楚地解釋VLA模型內(nèi)部“理解”是怎么發(fā)生的,可以把VLA模型拆成幾個(gè)部分來簡(jiǎn)單理解。



圖片源自:網(wǎng)絡(luò)

在視覺模塊,計(jì)算機(jī)視覺網(wǎng)絡(luò)會(huì)把攝像頭捕獲的畫面轉(zhuǎn)換成一組高維特征,這些特征描述了場(chǎng)景里物體的位置、顏色、形狀等信息,而且這種轉(zhuǎn)換過程不是通過預(yù)定義規(guī)則實(shí)現(xiàn)的,而是通過視覺編碼器(比如Transformer或深度學(xué)習(xí)某些架構(gòu))學(xué)習(xí)得到的。這些視覺編碼器能夠把像素轉(zhuǎn)換成更抽象、對(duì)任務(wù)有意義的表示,這是一種由數(shù)據(jù)學(xué)習(xí)出來的視覺理解能力。

語(yǔ)言模塊和現(xiàn)在流行的大語(yǔ)言模型類似,它會(huì)把自然語(yǔ)言指令轉(zhuǎn)換成機(jī)器內(nèi)部可以處理的語(yǔ)義向量。語(yǔ)言模塊并不把指令拆成明確步驟,而是把語(yǔ)言映射成一種語(yǔ)義空間表示,在這個(gè)表示里任務(wù)目標(biāo)、動(dòng)作意圖等信息可以被進(jìn)一步處理。這樣的語(yǔ)言編碼能力本身也是從大量文本和指令數(shù)據(jù)中學(xué)習(xí)出來的。

在視覺和語(yǔ)言的編碼結(jié)果都轉(zhuǎn)化成內(nèi)部表示之后,模型內(nèi)部有一個(gè)融合層或者共同的潛在空間表示,它把兩種不同模態(tài)的表示合并起來,使視覺信息和語(yǔ)言目標(biāo)能夠結(jié)合成一個(gè)綜合的表示。在這一層,模型學(xué)習(xí)到視覺場(chǎng)景中的哪些對(duì)象和語(yǔ)義指令相關(guān)聯(lián)。就拿前文中機(jī)器人拿紅球的例子來簡(jiǎn)單理解下,如果語(yǔ)言里提到了“紅色球”,視覺編碼器的特征里有一種與紅色物體相關(guān)的高維向量,模型就會(huì)將它們關(guān)聯(lián)起來。

融合后的內(nèi)部表示會(huì)傳到動(dòng)作解碼器,這一步負(fù)責(zé)將綜合表達(dá)轉(zhuǎn)化成具體的動(dòng)作命令。動(dòng)作解碼器的輸出可以是機(jī)器人關(guān)節(jié)的控制信號(hào)、路徑規(guī)劃參數(shù)等。在訓(xùn)練時(shí)模型已經(jīng)見過大量這樣的輸入—輸出對(duì),所以它能學(xué)會(huì)在給定視覺和語(yǔ)言條件下如何輸出正確動(dòng)作。這樣的輸出并不是由預(yù)設(shè)規(guī)則決定的,而是由模型內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重計(jì)算得到的最優(yōu)動(dòng)作預(yù)測(cè)。

上面說的整個(gè)過程看上去像一個(gè)黑箱,輸入是一張圖像和一句話,輸出是一組動(dòng)作命令,中間有大量的矩陣乘法和非線性變換在發(fā)生,而這些都是統(tǒng)計(jì)學(xué)習(xí)得到的映射關(guān)系。



最后的話

回到最初的問題,VLA模型里的理解是不是基于一些預(yù)置的規(guī)則來指導(dǎo)行動(dòng)?

答案是:不是。VLA模型內(nèi)部不依賴傳統(tǒng)意義上的預(yù)先寫好的規(guī)則。它的理解和動(dòng)作生成能力來自于對(duì)大量視覺—語(yǔ)言—?jiǎng)幼魇纠膶W(xué)習(xí)過程。在學(xué)習(xí)結(jié)束后,模型能在看到新的圖像和語(yǔ)言指令時(shí),通過內(nèi)部的潛在空間表示和映射關(guān)系生成合理的動(dòng)作輸出,這種能力更像是一種通過數(shù)據(jù)訓(xùn)練出來的模式匹配和策略生成能力,而不是靠寫好的規(guī)則集合。

這樣的設(shè)計(jì)讓VLA模型具備了更強(qiáng)的泛化能力和適應(yīng)性,但同時(shí)也意味著它不像規(guī)則驅(qū)動(dòng)系統(tǒng)那樣容易解釋或明確驗(yàn)證。這種“學(xué)習(xí)出來的理解”是一種統(tǒng)計(jì)形式的能力,這類模型有望在更多復(fù)雜任務(wù)中表現(xiàn)得越來越像我們所理解的“智能體”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
賈玲為張小斐慶生!本人沒復(fù)胖目測(cè)100斤,私下沒架子超級(jí)好相處

賈玲為張小斐慶生!本人沒復(fù)胖目測(cè)100斤,私下沒架子超級(jí)好相處

章眽八卦
2026-01-11 13:23:59
相聲演員笑林:不抽煙,不喝酒,一天100個(gè)俯臥撐,59歲驟然離世

相聲演員笑林:不抽煙,不喝酒,一天100個(gè)俯臥撐,59歲驟然離世

林雁飛
2026-01-10 15:24:20
44歲秦嵐同居實(shí)錘!情侶拖鞋+見家長(zhǎng),偏不領(lǐng)證太清醒

44歲秦嵐同居實(shí)錘!情侶拖鞋+見家長(zhǎng),偏不領(lǐng)證太清醒

陳意小可愛
2026-01-09 08:29:47
突發(fā)!山東一地120調(diào)度員集中離職!4人已離職、2人提出辭職……

突發(fā)!山東一地120調(diào)度員集中離職!4人已離職、2人提出辭職……

醫(yī)脈圈
2026-01-11 12:16:08
零度的上海夜晚,女孩街頭跪地行走,母親竟在一旁監(jiān)督……多方已介入

零度的上海夜晚,女孩街頭跪地行走,母親竟在一旁監(jiān)督……多方已介入

環(huán)球網(wǎng)資訊
2026-01-11 20:05:43
滇池旁14車一夜變廢鐵!重慶游客返程前心碎,以后再也不來了!

滇池旁14車一夜變廢鐵!重慶游客返程前心碎,以后再也不來了!

游者走天下
2026-01-09 10:55:20
地鐵直達(dá)!上海又一座巨無霸商場(chǎng)!6500㎡星空露臺(tái)+10000㎡中央公園

地鐵直達(dá)!上海又一座巨無霸商場(chǎng)!6500㎡星空露臺(tái)+10000㎡中央公園

上觀新聞
2026-01-11 14:24:24
閆學(xué)晶多平臺(tái)賬號(hào)被禁止關(guān)注,馮鞏刪除所有相關(guān)視頻

閆學(xué)晶多平臺(tái)賬號(hào)被禁止關(guān)注,馮鞏刪除所有相關(guān)視頻

映射生活的身影
2026-01-10 10:38:36
考官問“什么門永遠(yuǎn)關(guān)不上”在場(chǎng)考生答錯(cuò),7歲小朋友出正確答案

考官問“什么門永遠(yuǎn)關(guān)不上”在場(chǎng)考生答錯(cuò),7歲小朋友出正確答案

蘭姐說故事
2026-01-09 20:05:03
決議生效!芬蘭正式“退群”

決議生效!芬蘭正式“退群”

環(huán)球時(shí)報(bào)國(guó)際
2026-01-10 22:57:42
中美合作 斬殺日本

中美合作 斬殺日本

云石
2026-01-11 11:33:01
明搶5000萬桶石油后,特朗普轉(zhuǎn)頭才發(fā)現(xiàn):中國(guó)連一桶都不肯買了?

明搶5000萬桶石油后,特朗普轉(zhuǎn)頭才發(fā)現(xiàn):中國(guó)連一桶都不肯買了?

書紀(jì)文譚
2026-01-11 19:36:13
越南不恨美國(guó),不恨日本,連殖民幾十年的法國(guó)都不恨,就只恨中國(guó)

越南不恨美國(guó),不恨日本,連殖民幾十年的法國(guó)都不恨,就只恨中國(guó)

我心縱橫天地間
2026-01-07 19:17:18
中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒辦法保護(hù)他們

中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒辦法保護(hù)他們

肖茲探秘說
2026-01-01 20:16:34
年內(nèi)跌的最慘股票之一,跌了10個(gè)月,從28跌到5塊,這還怎么玩!

年內(nèi)跌的最慘股票之一,跌了10個(gè)月,從28跌到5塊,這還怎么玩!

財(cái)經(jīng)市界
2026-01-11 17:26:52
俄羅斯榛樹導(dǎo)彈故意不裝彈頭,烏方承認(rèn):雷達(dá)完全失效,看不見

俄羅斯榛樹導(dǎo)彈故意不裝彈頭,烏方承認(rèn):雷達(dá)完全失效,看不見

科普100克克
2026-01-11 11:44:23
科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

徐德文科學(xué)頻道
2026-01-06 19:51:55
國(guó)乒四大主力全傷了!男隊(duì)無人可用全軍覆沒,王皓爭(zhēng)議舉動(dòng)太落魄

國(guó)乒四大主力全傷了!男隊(duì)無人可用全軍覆沒,王皓爭(zhēng)議舉動(dòng)太落魄

三十年萊斯特城球迷
2026-01-11 20:39:33
官媒發(fā)文,揭開王思聰與秦嵐真實(shí)關(guān)系,原來汪小菲一個(gè)字都沒說錯(cuò)

官媒發(fā)文,揭開王思聰與秦嵐真實(shí)關(guān)系,原來汪小菲一個(gè)字都沒說錯(cuò)

郭蛹包工頭
2026-01-08 18:19:09
歐媒:中國(guó)都上桌了,500年來頭一次,瓜分世界怎能沒有歐洲的份

歐媒:中國(guó)都上桌了,500年來頭一次,瓜分世界怎能沒有歐洲的份

阿器談史
2025-12-25 21:09:35
2026-01-11 21:16:49
智駕最前沿
智駕最前沿
自動(dòng)駕駛領(lǐng)域?qū)I(yè)的技術(shù)、資訊分享平臺(tái)。我們的slogan是:聚焦智能駕駛 ,緊盯行業(yè)前沿。
322文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

零度天母親罰女兒在街頭跪地行走 還對(duì)勸阻者出言不遜

頭條要聞

零度天母親罰女兒在街頭跪地行走 還對(duì)勸阻者出言不遜

體育要聞

詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無誤判

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

房產(chǎn)
親子
家居
旅游
軍事航空

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

親子要聞

現(xiàn)在覺得滑梯還好玩不

家居要聞

木色留白 演繹現(xiàn)代自由

旅游要聞

“適老化”服務(wù)助力銀發(fā)旅游品質(zhì)提升

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒人

無障礙瀏覽 進(jìn)入關(guān)懷版