国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VLA這條技術(shù)線能走通嗎?

0
分享至

當(dāng)GPT-4V、Claude這類視覺語言模型在互聯(lián)網(wǎng)圖文數(shù)據(jù)的海洋里乘風(fēng)破浪時(shí),機(jī)器人領(lǐng)域的研究者們正試圖把這套玩法搬到機(jī)械臂和移動(dòng)機(jī)器人身上。視覺語言動(dòng)作模型(VLA)應(yīng)運(yùn)而生,它被寄予厚望,被看作是打通人機(jī)交互、實(shí)現(xiàn)通用機(jī)器人的關(guān)鍵路徑。



但喧囂之下,行業(yè)當(dāng)中也出現(xiàn)了一些質(zhì)疑與思考,機(jī)器人領(lǐng)域的真實(shí)數(shù)據(jù),真的能做到像 VLM 訓(xùn)練那樣的超大規(guī)模量級(jí)嗎?如果做不到,又該如何僅憑有限數(shù)據(jù),去論證 VLA 這條技術(shù)路線本身就走不通?

靠超大規(guī)模參數(shù)對(duì)機(jī)器人數(shù)據(jù)進(jìn)行暴力擬合,訓(xùn)出來的模型真的能在真機(jī)上實(shí)現(xiàn)有效泛化嗎?VLA 和成熟的 VLM 之間,真正的技術(shù)鴻溝到底在哪?

現(xiàn)在的 VLA 還都停留在做一些即插即用的簡(jiǎn)單任務(wù),這樣的推理速度,真的能支撐現(xiàn)實(shí)中高動(dòng)態(tài)、高實(shí)時(shí)性的復(fù)雜任務(wù)嗎?

01.

數(shù)據(jù)量是天然的鴻溝!百萬級(jí)軌跡依舊難以實(shí)現(xiàn)高效泛化能力

提到VLM的訓(xùn)練,動(dòng)輒數(shù)十億的圖文對(duì)是標(biāo)配。這些數(shù)據(jù)唾手可得,從互聯(lián)網(wǎng)的海量網(wǎng)頁到Y(jié)ouTube的視頻庫(kù),只要有足夠的算力,就能源源不斷地抓取投喂。反觀機(jī)器人領(lǐng)域,即便是號(hào)稱史上最大規(guī)模的Open X-Embodiment數(shù)據(jù)集,也只有170萬條軌跡,涵蓋22款不同機(jī)器人。



這個(gè)數(shù)字聽起來不算小,但放到深度學(xué)習(xí)的尺度里,連VLM數(shù)據(jù)量的零頭都?jí)虿簧稀8P(guān)鍵的是,機(jī)器人數(shù)據(jù)的采集成本高得離譜。有業(yè)內(nèi)資深人士表示,依靠機(jī)器人專家示教一小時(shí),往往只能產(chǎn)出幾十條有效數(shù)據(jù),人力和時(shí)間成本加起來高達(dá)數(shù)千元。而且這些數(shù)據(jù)大多集中在pick-and-place這類重復(fù)性任務(wù)上,任務(wù)多樣性遠(yuǎn)不如互聯(lián)網(wǎng)上五花八門的圖文內(nèi)容。

有人寄希望于仿真平臺(tái)破局。PhysX、MuJoCo、Isaac Sim這些工具確實(shí)能批量生成機(jī)器人運(yùn)動(dòng)數(shù)據(jù),但Sim2Real的鴻溝始終橫亙?cè)谇?。仿真環(huán)境里的物理參數(shù)、物體摩擦力、材質(zhì)反射率都是理想化設(shè)定,和真實(shí)世界的復(fù)雜情況相去甚遠(yuǎn)。就算用上Domain Randomization、Domain Adaptation這些技術(shù)來縮小差距,最終效果也充滿不確定性,能不能在真機(jī)上穩(wěn)定復(fù)現(xiàn),全看運(yùn)氣。



深度學(xué)習(xí)的Scaling Law是繞不開的鐵律,數(shù)據(jù)量、模型參數(shù)、計(jì)算資源三者缺一不可。用遠(yuǎn)達(dá)不到要求的少量數(shù)據(jù)去訓(xùn)練VLA,最后模型性能不佳,到底是數(shù)據(jù)不夠的鍋,還是VLA架構(gòu)本身不適用?這個(gè)問題,沒人能給出確切答案。

有行業(yè)人士提出兩個(gè)觀察指標(biāo),一是泛化性測(cè)試,如果在少量多樣化任務(wù)中,VLA的泛化能力明顯弱于模仿學(xué)習(xí)加微調(diào)的傳統(tǒng)方法,那或許能說明架構(gòu)存在缺陷。二是看邊際收益,要是數(shù)據(jù)量從1k漲到10k時(shí),模型性能提升明顯,但從10k擴(kuò)增到100k后,提升變得微乎其微,那大概率是架構(gòu)容量不足,或者是數(shù)據(jù)質(zhì)量跟不上了。不過這些都只是間接證據(jù),要徹底證明VLA走不通,需要大規(guī)模實(shí)驗(yàn)的負(fù)面結(jié)果支撐。但在追求正向成果的科研圈,誰又會(huì)主動(dòng)發(fā)布負(fù)面結(jié)果呢?這本質(zhì)上更像是一個(gè)負(fù)面的悖論。

02.

暴力堆參行不通?機(jī)器人需要的是物理因果 不是統(tǒng)計(jì)關(guān)聯(lián)

既然數(shù)據(jù)量不夠,那能不能像NLP領(lǐng)域那樣,靠超大規(guī)模參數(shù)暴力擬合機(jī)器人數(shù)據(jù)?畢竟GPT系列已經(jīng)證明,參數(shù)和數(shù)據(jù)量到位后,模型會(huì)涌現(xiàn)出意想不到的能力,從GPT-3的少樣本學(xué)習(xí)到GPT-4的復(fù)雜推理,都是Scaling Law的功勞。

但機(jī)器人領(lǐng)域和NLP領(lǐng)域有著本質(zhì)區(qū)別。語言是離散符號(hào)系統(tǒng),即便組合方式再多,也有內(nèi)在規(guī)律可循。物理世界卻是連續(xù)、高維且非線性的,一個(gè)普通的杯子,材質(zhì)、重量、形狀的變化就能衍生出無數(shù)種情況,靠模型死記硬背根本不現(xiàn)實(shí)。



更關(guān)鍵的是,機(jī)器人模型的精度要求遠(yuǎn)比語言模型高。語言模型產(chǎn)生幻覺,輸出幾句錯(cuò)誤內(nèi)容,用戶大概率能理解??蓹C(jī)器人要是出現(xiàn)“幻覺”,抓取位置偏差2厘米,就是成功和失敗的天壤之別。語言模型可以靠統(tǒng)計(jì)關(guān)聯(lián)蒙混過關(guān),機(jī)器人卻必須理解真實(shí)的物理因果關(guān)系,否則稍微受到外力干擾,就會(huì)當(dāng)場(chǎng)“翻車”。

這意味著,單純靠堆參數(shù)和數(shù)據(jù)的scale思路,在機(jī)器人領(lǐng)域可能行不通。VLA需要引入更強(qiáng)的歸納偏置,才能真正適配物理世界的任務(wù)需求。

03.

VLA與VLM的核心鴻溝 不止是輸出那么簡(jiǎn)單

很多人以為,VLA只是VLM的延伸,無非是把輸出從文本token換成了機(jī)器人動(dòng)作。但實(shí)際上,兩者的差距遠(yuǎn)比想象中要大。

首先是輸出空間的差異。VLM輸出的是離散的token序列,有明確的概率分布可以遵循。VLA輸出的是連續(xù)的動(dòng)作信號(hào),比如關(guān)節(jié)角度、末端位姿,連續(xù)分布的建模難度本身就遠(yuǎn)超離散分布。

其次是反饋機(jī)制的不同。VLM訓(xùn)練時(shí),文本反饋清晰明確,對(duì)錯(cuò)一目了然。VLA的訓(xùn)練卻只有稀疏的成功或失敗信號(hào),大部分時(shí)候需要靠強(qiáng)化學(xué)習(xí)反復(fù)試錯(cuò),才能調(diào)整動(dòng)作策略。這種低效的反饋方式,極大增加了訓(xùn)練難度。

還有一個(gè)容易被忽視的點(diǎn),就是時(shí)序依賴的重要性。VLA需要處理動(dòng)力學(xué)層面的時(shí)序關(guān)聯(lián),t時(shí)刻的動(dòng)作會(huì)直接影響t+1時(shí)刻的機(jī)器人狀態(tài),誤差會(huì)隨著時(shí)間不斷累積。這對(duì)模型的時(shí)序建模能力提出了極高要求,也是VLM不需要面對(duì)的挑戰(zhàn)。

正因如此,把VLM的那套架構(gòu)直接照搬過來做VLA,顯然是行不通的。研究者們也在探索各種解決方案,比如用VQ-VAE把連續(xù)動(dòng)作離散化,或者在模型中引入接觸動(dòng)力學(xué)、穩(wěn)定性約束等物理先驗(yàn)。但目前來看,這些嘗試都還處于初步階段,離真正解決問題還有很長(zhǎng)的路要走。

04.

推理速度的致命傷:高動(dòng)態(tài)任務(wù)面前,VLA根本跟不上

除了訓(xùn)練層面的難題,VLA的推理速度更是卡在了實(shí)際應(yīng)用的門檻上。

目前典型的VLA模型,參數(shù)量大多在70億到800億之間,參考RT-2基于PaLM-E的架構(gòu)就能看出端倪。在A100這種頂級(jí)算力平臺(tái)上,單次推理的延遲也需要50到200毫秒。



但機(jī)器人的控制頻率要求,遠(yuǎn)比這個(gè)數(shù)字要苛刻。低動(dòng)態(tài)的工業(yè)機(jī)械臂,比如UR系列、Franka Emika,操作任務(wù)的控制頻率在10到20Hz,也就是50到100毫秒一次,VLA的推理速度勉強(qiáng)能跟上??傻搅酥袆?dòng)態(tài)任務(wù),比如PR2、Fetch這類移動(dòng)操作機(jī)器人,控制頻率提升到50到100Hz,需要10到20毫秒完成一次推理,VLA就顯得力不從心了。

至于高動(dòng)態(tài)任務(wù),像波士頓動(dòng)力的Atlas機(jī)器人、MIT的Cheetah獵豹機(jī)器人,控制頻率高達(dá)100到1000Hz,要求1到10毫秒內(nèi)完成決策。這個(gè)速度下,VLA想要完成視覺-語言-動(dòng)作的全流程推理,無異于天方夜譚。



有人說可以通過技術(shù)手段優(yōu)化推理速度。模型剪枝、量化確實(shí)能提速,但代價(jià)是精度下降;換用小模型,泛化能力又會(huì)大打折扣;異步推理的方案,在需要實(shí)時(shí)反饋的高動(dòng)態(tài)任務(wù)面前,更是毫無用處。

高動(dòng)態(tài)任務(wù)需要的是反應(yīng)式控制,機(jī)器人要根據(jù)環(huán)境的快速變化實(shí)時(shí)調(diào)整動(dòng)作。而VLA本質(zhì)上是個(gè)“黑盒”模型,想要讓它在毫秒級(jí)時(shí)間內(nèi)完成復(fù)雜決策,難度堪比讓帕金森患者去參加奧運(yùn)會(huì)。

05.

分層架構(gòu):是無奈的折中,還是最終的出路?

為了解決推理延遲的問題,不少研究團(tuán)隊(duì)把目光投向了分層架構(gòu)。這個(gè)思路很直接:把VLA放在高層做決策規(guī)劃,底層用傳統(tǒng)控制器負(fù)責(zé)精細(xì)控制。



具體來說,高層VLA只需要理解“把紅色方塊放到藍(lán)色碗里”這類自然語言指令,輸出粗粒度的軌跡航路點(diǎn)就行,推理速度可以放寬到100毫秒級(jí)別。底層則用PID、MPC這些成熟的傳統(tǒng)控制算法,以毫秒級(jí)的速度跟蹤航路點(diǎn),完成精準(zhǔn)動(dòng)作。

不得不說,這個(gè)方案確實(shí)能緩解實(shí)時(shí)性的問題,但隨之而來的質(zhì)疑也很尖銳:這樣的架構(gòu),還算得上end-to-end的VLA嗎?這和VLA最初的設(shè)計(jì)初衷背道而馳。如果最終還是要依賴傳統(tǒng)控制器,那VLA的價(jià)值到底在哪里?難道只是一個(gè)花里胡哨的任務(wù)規(guī)劃器?和傳統(tǒng)的任務(wù)規(guī)劃加運(yùn)動(dòng)規(guī)劃方案,又有什么本質(zhì)區(qū)別?

翻看當(dāng)下的VLA論文,這種感覺會(huì)更加強(qiáng)烈。很多研究都存在嚴(yán)重的選擇性篩選問題,只展示成功的實(shí)驗(yàn)案例,對(duì)失敗率絕口不提。而且實(shí)驗(yàn)場(chǎng)景大多限定在固定的實(shí)驗(yàn)室環(huán)境里,用幾個(gè)固定物體反復(fù)測(cè)試,得出的成功率看似亮眼,卻經(jīng)不起真實(shí)場(chǎng)景的考驗(yàn)。

真要把這樣的機(jī)器人放到陌生的廚房做飯,或者送到工廠車間搬運(yùn)零件,能穩(wěn)定完成任務(wù)的寥寥無幾。

06.

VLA到底過渡方案 還是未來方向?

站在當(dāng)下看VLA,更像是具身智能發(fā)展路上的一個(gè)過渡方案。就像深度學(xué)習(xí)早期,研究者們?cè)囘^DBN、RBM、Autoencoder等各種架構(gòu),最后才沉淀出CNN、Transformer這樣的經(jīng)典模型。

VLA現(xiàn)在的火爆,很大程度上是沾了Transformer在其他領(lǐng)域的光??吹絋ransformer在NLP、CV領(lǐng)域大放異彩,研究者們自然想把它搬到機(jī)器人領(lǐng)域試試水。再加上大廠有足夠的資源堆數(shù)據(jù)、堆算力,能做出令人眼前一亮的demo,進(jìn)一步帶動(dòng)了學(xué)術(shù)界的跟風(fēng)熱潮。畢竟在科研圈,跟著熱點(diǎn)走更容易發(fā)論文,這也是無可厚非的現(xiàn)實(shí)。

但從長(zhǎng)遠(yuǎn)來看,機(jī)器人領(lǐng)域終究要回歸自身特性。VLA或許能在特定場(chǎng)景下發(fā)揮作用,但想要實(shí)現(xiàn)真正的通用機(jī)器人,大概率需要研究者們跳出Transformer的固有框架,設(shè)計(jì)出更貼合機(jī)器人動(dòng)力學(xué)、物理規(guī)律的專用架構(gòu)。

當(dāng)然,我們也不能完全否定VLA的潛力。畢竟GPT-4的出現(xiàn),已經(jīng)讓我們見識(shí)到了Scaling Law的巨大威力。誰也不敢保證,當(dāng)VLA的參數(shù)和數(shù)據(jù)量達(dá)到某個(gè)臨界點(diǎn)時(shí),不會(huì)涌現(xiàn)出意想不到的能力。

只是在這個(gè)過程中,盲目迷信Scaling Law,忽視機(jī)器人領(lǐng)域的特殊性,無疑是危險(xiǎn)的。因此VLA到底靠譜不靠譜,現(xiàn)在下結(jié)論還為時(shí)過早。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
許世友離休后收入縮水,茅臺(tái)的價(jià)格卻連翻3倍,沒錢喝酒可咋辦?

許世友離休后收入縮水,茅臺(tái)的價(jià)格卻連翻3倍,沒錢喝酒可咋辦?

芊芊子吟
2026-03-03 15:10:03
赫魯曉夫政變?nèi)^程!朱可夫在會(huì)議上掏出手槍,當(dāng)眾扣押貝利亞

赫魯曉夫政變?nèi)^程!朱可夫在會(huì)議上掏出手槍,當(dāng)眾扣押貝利亞

搜史君
2026-03-03 15:25:06
全國(guó)政協(xié)委員:停止"內(nèi)卷式"加班 要讓政府出手

全國(guó)政協(xié)委員:停止"內(nèi)卷式"加班 要讓政府出手

看看新聞Knews
2026-03-02 11:47:43
男子出軌女同事雙雙感染艾滋病,真相隱情被曝,一細(xì)節(jié)難以啟齒

男子出軌女同事雙雙感染艾滋病,真相隱情被曝,一細(xì)節(jié)難以啟齒

筆尖下的人生
2026-03-03 17:14:09
再一次上了美以的當(dāng),伊朗群龍無首?哈梅內(nèi)伊提前留了“后手”

再一次上了美以的當(dāng),伊朗群龍無首?哈梅內(nèi)伊提前留了“后手”

絕對(duì)軍評(píng)
2026-03-03 15:40:52
塞浦路斯傳出爆炸聲

塞浦路斯傳出爆炸聲

環(huán)球網(wǎng)資訊
2026-03-03 07:00:15
鴻蒙智行處罰違規(guī)營(yíng)銷門店

鴻蒙智行處罰違規(guī)營(yíng)銷門店

每日經(jīng)濟(jì)新聞
2026-03-02 17:08:50
中國(guó)50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

中國(guó)50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

深度報(bào)
2026-02-27 21:36:50
外媒:初步報(bào)告稱伊朗革命衛(wèi)隊(duì)損失慘重,多名革命衛(wèi)隊(duì)成員死傷

外媒:初步報(bào)告稱伊朗革命衛(wèi)隊(duì)損失慘重,多名革命衛(wèi)隊(duì)成員死傷

中國(guó)網(wǎng)
2026-02-28 16:09:08
特朗普火力全開:拜登把家底白送烏克蘭,澤連斯基是頂級(jí)推銷員!

特朗普火力全開:拜登把家底白送烏克蘭,澤連斯基是頂級(jí)推銷員!

老馬拉車莫少裝
2026-03-03 16:58:13
特朗普稱將于本月晚些時(shí)候訪華,外交部回應(yīng)

特朗普稱將于本月晚些時(shí)候訪華,外交部回應(yīng)

中國(guó)網(wǎng)
2026-03-02 16:00:16
伊朗導(dǎo)彈越打越少,美以卻開始慌了?第三天戰(zhàn)況:誰先頂不???

瞳眼天下
2026-03-03 10:47:04

再見,皇馬!“頭號(hào)廢柴”遭遇逐客令!欽點(diǎn)簽下1.5億“頂星”

再見,皇馬!“頭號(hào)廢柴”遭遇逐客令!欽點(diǎn)簽下1.5億“頂星”

頭狼追球
2026-03-03 09:19:09
我國(guó)著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

我國(guó)著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

阿訊說天下
2026-02-21 12:35:11
亞洲杯!韓國(guó)3:0伊朗打樣,中國(guó)女足表示不服,9個(gè)亞洲杯冠軍壓陣

亞洲杯!韓國(guó)3:0伊朗打樣,中國(guó)女足表示不服,9個(gè)亞洲杯冠軍壓陣

林子說事
2026-03-03 13:57:32
190cm模特福德莉奇大長(zhǎng)腿,黑色蕾絲內(nèi)衣透露著嫵媚的性感?

190cm模特福德莉奇大長(zhǎng)腿,黑色蕾絲內(nèi)衣透露著嫵媚的性感?

娛樂領(lǐng)航家
2026-03-02 21:00:03
追夢(mèng)在場(chǎng)真贏不了,波杰姆斯基沮喪癱坐,科爾無奈表態(tài)

追夢(mèng)在場(chǎng)真贏不了,波杰姆斯基沮喪癱坐,科爾無奈表態(tài)

大飛說籃球
2026-03-03 16:38:24
迪拜機(jī)場(chǎng)再次被炸!被困女星已失聯(lián),工作室一言不發(fā),后果不敢想

迪拜機(jī)場(chǎng)再次被炸!被困女星已失聯(lián),工作室一言不發(fā),后果不敢想

冷紫葉
2026-03-03 17:14:32
臺(tái)專家預(yù)言:一旦美以伊開戰(zhàn),中國(guó)將獲得長(zhǎng)達(dá)20年的戰(zhàn)略緩沖時(shí)間

臺(tái)專家預(yù)言:一旦美以伊開戰(zhàn),中國(guó)將獲得長(zhǎng)達(dá)20年的戰(zhàn)略緩沖時(shí)間

健身狂人
2026-03-03 15:44:06
560名美軍死傷,彈藥庫(kù)劇烈大爆炸,伊朗導(dǎo)彈雨把以色列炸成火海

560名美軍死傷,彈藥庫(kù)劇烈大爆炸,伊朗導(dǎo)彈雨把以色列炸成火海

策略述
2026-03-02 14:41:25
2026-03-03 18:03:00
機(jī)器人大講堂 incentive-icons
機(jī)器人大講堂
立德機(jī)器人平臺(tái),是一個(gè)集媒體品牌、智庫(kù)咨詢、投資孵化、引智招商為一體的機(jī)器人垂直領(lǐng)域服務(wù)平臺(tái)
6317文章數(shù) 4577關(guān)注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費(fèi)"上班

頭條要聞

襲擊伊朗后 特朗普首次發(fā)表白宮講話:將不惜一切代價(jià)

頭條要聞

襲擊伊朗后 特朗普首次發(fā)表白宮講話:將不惜一切代價(jià)

體育要聞

35輪后積分-7,他們?cè)庥鍪飞献钤绲慕导?jí)

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財(cái)經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車要聞

第一梯隊(duì)輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

藝術(shù)
家居
親子
時(shí)尚
公開課

藝術(shù)要聞

Nihad Aghazada:當(dāng)代阿塞拜疆畫家

家居要聞

萬物互聯(lián) 享科技福祉

親子要聞

萌娃竟想當(dāng)爸爸?童言童語惹爸爸媽媽爆笑

普通人穿衣真的很簡(jiǎn)單!單品選對(duì)、搭配合理,大方舒適又得體

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版