網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)兩篇論文，帶來了VLA之后具身智能的新范式

2026-02-12 15:39:55　來源: 硅星人

北京舉報(bào)

分享至

文章轉(zhuǎn)載于騰訊科技
作者：博陽

2025年，具身智能領(lǐng)域最火的詞就是VLA（視覺-語言-動(dòng)作模型）。

它成了一種席卷全行業(yè)的共識(shí)，一個(gè)關(guān)于具身基礎(chǔ)模型的標(biāo)準(zhǔn)答案。在過去的一年里，資本和算力瘋狂涌入這條賽道，基本上所有的模型大廠，都在用這套范式。

但很快，現(xiàn)實(shí)的物理世界給所有從業(yè)者潑了一盆冷水。因?yàn)閂LA在物理動(dòng)作執(zhí)行上很弱。

它能懂極其復(fù)雜的文字指令。但當(dāng)機(jī)械臂真正去抓取時(shí)，它可能連如何調(diào)整手腕姿態(tài)以避開杯柄的阻擋都做不好，更別提讓它去執(zhí)行解開鞋帶這種涉及復(fù)雜物理形變的動(dòng)作了。

VLA的另一個(gè)致命痛點(diǎn)是泛化。本來之所以大家要做模型更新，為的就是不用為每個(gè)特殊環(huán)境編程，看重的正是大模型的泛化能力。結(jié)果現(xiàn)在，任何超越訓(xùn)練規(guī)定環(huán)境的動(dòng)作，VLA基本都無法泛化，甚至出了訓(xùn)練環(huán)境類似的環(huán)境都做不了。

整個(gè)行業(yè)把泛化的無力，歸結(jié)于數(shù)據(jù)的不足。大廠們開始投入億萬資金，用各種方式去采集數(shù)據(jù)，試圖用海量的模擬演示來填補(bǔ)VLA的常識(shí)空缺。

但2026年初，英偉達(dá)（NVIDIA）發(fā)布了兩篇論文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》兩篇論文，構(gòu)建了一套全新的具身智能基礎(chǔ)模型范式，打破了數(shù)據(jù)內(nèi)卷的僵局。

它們一起，給出了一個(gè)完全從視頻里學(xué)習(xí)，Zero-shot（零樣本）就能泛化執(zhí)行不同工作的具身模型的可能。

VLA缺的不是數(shù)據(jù)，而是世界模型

要理解DreamZero和Dream Dojo的顛覆性，必須先從底層剖析VLA的系統(tǒng)性缺陷。

VLA的最大問題，就是缺乏世界模型。VLA的底層架構(gòu)限制了它的認(rèn)知方式。從譜系上看，VLA和LLM的親緣更強(qiáng)，反而和純視覺、純物理的親緣較弱。它通過交叉注意力機(jī)制（Cross-Attention）將圖像的像素塊映射到文本的語義空間中，在這個(gè)空間里，它理解了杯子和桌子的概念，理解了它們?cè)诙S畫面中的相對(duì)位置。

但物理世界不是二維的語義切片。物理世界是連續(xù)的，充滿了質(zhì)量、摩擦力、重力和幾何碰撞。

VLA對(duì)物理動(dòng)作和世界的理解相對(duì)較弱，因?yàn)樗举|(zhì)上是一個(gè)「翻譯器」。

我們可以用物理學(xué)中的狀態(tài)轉(zhuǎn)移方程來解釋。一個(gè)完整的世界模型，本質(zhì)上是在學(xué)習(xí)一個(gè)條件概率分布。它能在給定當(dāng)前世界的狀態(tài)（視覺觀測(cè)）和機(jī)器人即將執(zhí)行的動(dòng)作，預(yù)測(cè)世界下一秒會(huì)變成什么樣。

VLA從來沒有學(xué)過這個(gè)方程。VLA學(xué)習(xí)的是靜態(tài)視覺觀測(cè)+語言指令直接映射到可執(zhí)行動(dòng)作的函數(shù)關(guān)系；卻沒被系統(tǒng)性地訓(xùn)練去預(yù)測(cè)動(dòng)作后果、做反事實(shí)試錯(cuò)。所以一旦環(huán)境、材質(zhì)、約束關(guān)系稍微變形，性能就會(huì)斷崖式下滑。

這就好比讓一個(gè)人在不理解幾何原理的情況下，去死記硬背一萬道幾何題的答案。遇到原題，他能快速寫出完美答案；遇到條件稍微變動(dòng)的新題，他就徹底宕機(jī)。

VLA的泛化，本質(zhì)上只是高維語義空間中的插值。當(dāng)物理形態(tài)超出訓(xùn)練集的包絡(luò)面時(shí)，插值就會(huì)失效。

與之對(duì)比的，是視頻生成模型。在Veo3、Sora 2和最近大火的Seedance 2生成的物理交互畫面已經(jīng)相當(dāng)逼真，流體、剛體、柔性材料的動(dòng)作如此連貫，幾乎與現(xiàn)實(shí)世界難以區(qū)分。這說明，大規(guī)模視頻生成模型在海量的互聯(lián)網(wǎng)視頻中，很可能已經(jīng)隱式地壓縮并內(nèi)化了物理世界的基礎(chǔ)運(yùn)行規(guī)律，形成了一些世界模型。

即使強(qiáng)大如斯，視頻生成之前仍然主要被用在給VLA提供模擬數(shù)據(jù)，而不是整合進(jìn)機(jī)器人的工作流中。

其實(shí)，大家想利用視頻生成模型來控制機(jī)器人的念頭并不是從此開始的。在DreamZero之前，學(xué)術(shù)界和工業(yè)界也提出了多個(gè)解決方法。但這些方法無一例外地陷入了工程和邏輯的死胡同。

比如 LVP（大規(guī)模視頻規(guī)劃器）。它的思路是從一張圖和一句話，直接生成應(yīng)該如何完成任務(wù)的未來視頻計(jì)劃。再把視頻中的人手運(yùn)動(dòng)重建成 3D 軌跡。是用視頻預(yù)訓(xùn)練，而不是語言預(yù)訓(xùn)練，作為機(jī)器人基礎(chǔ)能力的主軸。

第二種則是類似英偉達(dá)自己的DreamGen這種，生成視頻后，再反推動(dòng)作。這是之前被寄予厚望的路線。它把整個(gè)基礎(chǔ)模型的架構(gòu)切分為兩半，上半部分是一個(gè)視頻模型，負(fù)責(zé)預(yù)測(cè)未來；下半部分是一個(gè)獨(dú)立訓(xùn)練的IDM網(wǎng)絡(luò)，負(fù)責(zé)看著預(yù)測(cè)出來的視頻，反推并輸出動(dòng)作。

以上兩種分階段的模式，最大的問題就是動(dòng)作和視頻生成對(duì)不齊。動(dòng)作那塊要求特別準(zhǔn)確，但視頻生成很難完美。一旦它產(chǎn)生的未來畫面帶有微小的像素偽影或物理幻覺，那不管是IDM或者點(diǎn)追蹤，都直接懵圈，成倍放大錯(cuò)誤。視頻里機(jī)器人的手指位置偏了一微米，現(xiàn)實(shí)中機(jī)器人就根本什么都抓不住了。魯棒性極差。

第三種是Unified Video-Action（UVA，聯(lián)合視頻-動(dòng)作生成）。這算是最先進(jìn)的方法了，它嘗試把視頻和動(dòng)作放在同一個(gè)擴(kuò)散模型里的潛空間里學(xué)習(xí)，兼顧了視頻預(yù)測(cè)和動(dòng)作預(yù)測(cè)。而推理時(shí)又通過「解碼解耦」跳過視頻生成，以保證速度。但它的架構(gòu)使用了雙向擴(kuò)散（Bidirectional Diffusion）架構(gòu)。為了匹配語言指令的長(zhǎng)度，必須對(duì)生成的視頻序列進(jìn)行大幅壓縮。這種做法徹底扭曲了原生的視頻時(shí)間流。時(shí)間都扭曲了，動(dòng)作指令與視覺畫面的對(duì)齊幾乎就不可能了，所以這種方式的泛化性自然極差。

除此之外，這些方法都有一個(gè)致命的共同缺陷，就是太慢。視頻擴(kuò)散模型需要多步迭代去噪，生成幾秒鐘的動(dòng)作往往需要幾十秒的計(jì)算。要是一個(gè)機(jī)器人把碗放進(jìn)碗柜要5分鐘，你怕是在邊上看著都得急瘋。

因此在2026年前所有新具身智能企業(yè)中，幾乎只有前一陣剛推出家用機(jī)器人的1X Technologies在嘗試這種視頻預(yù)測(cè)的方法。他們利用海量的“影子模式”（Shadow Mode）數(shù)據(jù)，即在人類遙操作時(shí)，讓模型在后臺(tái)同步運(yùn)行預(yù)測(cè)，用這種極高質(zhì)量的配對(duì)數(shù)據(jù)去硬生生訓(xùn)練那個(gè)脆弱的IDM。

但一時(shí)的失敗，并不意味著方向被否定。

在去年的機(jī)器人大會(huì)上，我采訪了很多國(guó)內(nèi)的具身智能學(xué)者。彼時(shí)正是谷歌 Veo 3和 Genie 3剛剛發(fā)布不久之時(shí)。大多數(shù)學(xué)者都對(duì)此印象深刻，意識(shí)到了視頻生成模型的世界理解能力。

因此在交流中，他們幾乎是以一種共識(shí)的口吻，提出生成可能是后續(xù)具身智能最靠譜的路徑。這比在模擬環(huán)境下（Simulation）產(chǎn)生數(shù)據(jù)要可能性更高。模擬器（如Isaac Gym或MuJoCo）受限于人類硬編碼的物理引擎，永遠(yuǎn)無法窮盡真實(shí)世界材質(zhì)的復(fù)雜性、光影的多變性和接觸力的非線性。而吸收了全人類視頻數(shù)據(jù)的生成模型，才是那個(gè)真正包含了萬物物理法則的超級(jí)模擬器。

但當(dāng)時(shí)，這個(gè)思維還是停留在「數(shù)據(jù)」這個(gè)層面上，視頻生成取代VLA這個(gè)講法，基本還沒進(jìn)入視野。

但英偉達(dá)的研究，很可能就是讓這個(gè)想法，第一次變成有效的工程化路徑的轉(zhuǎn)折點(diǎn)。

DreamZero，以世界模型為基地的具身智能

前面已經(jīng)講了，過去利用視頻生成模型去構(gòu)建機(jī)器人動(dòng)作所面對(duì)的三個(gè)主要問題。

一是分步導(dǎo)致的對(duì)齊問題。二是合一模式太差，沒法用的問題。三是太慢的問題。針對(duì)于此，英偉達(dá)先用DreamZero，給出了一條解決方法。

首先，DreamZero采用了視頻和動(dòng)作預(yù)測(cè)同步端到端訓(xùn)練的方式。這就解決了過去分階段模式的不對(duì)齊問題。

其次，針對(duì)UVA的時(shí)空錯(cuò)亂問題，DreamZero徹底拋棄了早期的雙向架構(gòu)，轉(zhuǎn)而構(gòu)建了一個(gè)14B參數(shù)的自回歸 Diffusion Transformer (DiT)。這是目前標(biāo)準(zhǔn)的視頻生成模型架構(gòu)。它像語言模型生成文本一樣，嚴(yán)格按照時(shí)間順序，從左到右預(yù)測(cè)視頻和動(dòng)作。在同一次擴(kuò)散前向里，同時(shí)預(yù)測(cè)視頻與動(dòng)作。

這帶來了兩個(gè)好處。第一，保留了原生幀率，動(dòng)作和畫面在時(shí)間軸上實(shí)現(xiàn)了絕對(duì)對(duì)齊。第二，它利用了KV Cache（鍵值緩存）技術(shù)。模型不需要每次都從頭計(jì)算歷史畫面，極大地節(jié)省了算力。

之后，為了解決自回歸導(dǎo)致的“誤差累積”和幻覺問題。DreamZero還引入了真實(shí)觀測(cè)注入。

模型預(yù)測(cè)出未來1.6秒的畫面和動(dòng)作，機(jī)器人執(zhí)行完畢。而在動(dòng)作執(zhí)行完的瞬間，獲取攝像頭拍下的絕對(duì)真實(shí)的當(dāng)前物理世界畫面，直接編碼并塞入KV Cache，覆蓋、替換掉模型剛才生成的假畫面。

這一步，瞬間斬?cái)嗔苏`差積累的因果鏈。模型被迫永遠(yuǎn)站在絕對(duì)真實(shí)的物理基石上，去思考下一步。

最后，也是最重要的一步，是解決生成慢的問題。

為了達(dá)到機(jī)器人控制需要的頻率，DreamZero發(fā)明了DreamZero-Flash技術(shù)。擴(kuò)散模型慢，是因?yàn)橥评頃r(shí)需要走完漫長(zhǎng)的去噪鏈。如果強(qiáng)行減少步數(shù)（比如只用1步去噪），生成的動(dòng)作質(zhì)量會(huì)斷崖式下跌，因?yàn)楫嬅孢€處在充滿噪點(diǎn)的模糊狀態(tài)，模型無法從中提取精確的動(dòng)作。

DreamZero-Flash的解法是「解耦噪聲調(diào)度」。在訓(xùn)練時(shí)，它不再讓視頻和動(dòng)作處于相同的噪聲級(jí)別。它強(qiáng)制模型看著極度模糊、充滿高強(qiáng)度噪聲的視覺畫面，去預(yù)測(cè)完全干凈、精準(zhǔn)的動(dòng)作信號(hào)。這等于是在訓(xùn)練模型在看不清未來的情況下，憑借物理直覺做出正確反應(yīng)。

對(duì)于人來講，這是不可能的任務(wù)，看不清就是做不了動(dòng)作。但對(duì)模型來講，這似乎完全行得通。經(jīng)過這一訓(xùn)練，到了推理階段，模型只需要進(jìn)行僅僅1步去噪就能生成準(zhǔn)確動(dòng)作。推理時(shí)間從350毫秒瞬間壓縮到了150毫秒。

這使得系統(tǒng)能夠以7Hz的頻率輸出動(dòng)作塊，結(jié)合底層控制器，實(shí)現(xiàn)了相對(duì)平滑的實(shí)時(shí)執(zhí)行。

經(jīng)過了這一系列改造。DreamZero展現(xiàn)出了視頻生成世界模型的恐怖潛力。

最突出的是泛化能力。在AgiBot雙臂機(jī)器人的測(cè)試中，研究人員拋出了訓(xùn)練集里完全沒有見過的任務(wù)解開打結(jié)的鞋帶、從假人模型頭上摘下帽子、拿著刷子畫畫。

讓從頭訓(xùn)練的VLA來做，任務(wù)進(jìn)度幾乎為零，開始的地方都做不好。但DreamZero的平均任務(wù)進(jìn)度達(dá)到了39.5%，某些特定任務(wù)（如摘帽子）甚至高達(dá)85.7%。

這是因?yàn)镈reamZero的學(xué)習(xí)過程是顛覆性的。在訓(xùn)練時(shí)聯(lián)合預(yù)測(cè)視頻和動(dòng)作，它被迫在潛空間中建立事物演變的因果鏈條。它知道如果不松開夾爪，被夾住的物體就不會(huì)掉落；它知道如果向前推倒一杯水，水會(huì)灑出來。

因?yàn)轭A(yù)設(shè)了基于視頻的世界模型，WAMs擁有了物理直覺。當(dāng)遇到未見過的任務(wù)時(shí)，它不是在記憶庫里搜索類似的動(dòng)作，而是在腦海中模擬出了動(dòng)作的物理后果。只要這個(gè)物理后果符合語言指令的語義目標(biāo)，它就能直接涌現(xiàn)出執(zhí)行動(dòng)作。

這就是為什么它能在Zero-shot的情況下完成解鞋帶這種復(fù)雜任務(wù)。

更讓人震撼的是跨機(jī)體（Cross-Embodiment）能力。

在傳統(tǒng)的VLA范式下，你要讓一臺(tái)新形態(tài)的機(jī)器人干活，就必須雇人去給這臺(tái)機(jī)器人錄制專屬的遙操作數(shù)據(jù)。但在DreamZero中，研究人員只讓模型觀看了人類視角的錄像（純視頻，沒有任何電機(jī)動(dòng)作參數(shù)），僅僅看了12分鐘。模型在未見任務(wù)上的表現(xiàn)就實(shí)現(xiàn)了42%的相對(duì)提升。

隨后，他們把在AgiBot上訓(xùn)練的模型，直接遷移到一臺(tái)完全不同的YAM機(jī)器人上。僅僅給它喂了30分鐘的非結(jié)構(gòu)化「玩耍數(shù)據(jù)」（Play Data），模型就完成了軀體適應(yīng)，并且完美保留了零樣本泛化執(zhí)行復(fù)雜指令的能力。

這就是世界模型的降維打擊。物理規(guī)律是通用的，它只需要極少的數(shù)據(jù)去微調(diào)自己對(duì)新軀體運(yùn)動(dòng)學(xué)邊界的認(rèn)知。

VLA最大的問題，DreamZero這樣預(yù)設(shè)了世界模型的動(dòng)作模型 WAM（World Action Model）完美解決了。它不需要海量的機(jī)器人數(shù)據(jù)訓(xùn)練就能達(dá)成很好的泛化。

但我們必須保持清醒。基于視頻生成的工程化路徑，其實(shí)依然有很多卡點(diǎn)。

相對(duì)于VLA動(dòng)輒在消費(fèi)級(jí)顯卡上跑出20Hz、30Hz的驚人速度，DreamZero拼盡全力優(yōu)化后的7Hz依然很慢。并且，它對(duì)硬件要求更高，依賴于H100或GB200這樣的頂級(jí)芯片組成的計(jì)算集群來進(jìn)行并行推理。對(duì)于邊緣端部署的獨(dú)立機(jī)器人來說，這在目前的算力成本下是不可接受的。

不過，算力成本的下降服從摩爾定律，而算法架構(gòu)的物理認(rèn)知上限則是天花板。用昂貴的算力去換取原本根本不存在的泛化能力，這筆交易在技術(shù)演進(jìn)的長(zhǎng)期視角下是絕對(duì)劃算的。

DreamZero的成功，意味著從VLA轉(zhuǎn)向視頻世界模型，不再是一個(gè)學(xué)術(shù)幻想，而是一個(gè)已經(jīng)跑通的可能。

世界模型需要的數(shù)據(jù)，和VLA不一樣

在 DreamZero 的實(shí)驗(yàn)中，英偉達(dá)發(fā)現(xiàn)了一個(gè)反直覺的結(jié)論。

我們通常認(rèn)為數(shù)據(jù)越多越好。如果機(jī)器人學(xué)不會(huì)，那就再采集一萬小時(shí)數(shù)據(jù)。但在世界模型的語境下，這個(gè)定律失效了。

DreamZero 揭示了新的法則 數(shù)據(jù)多樣性 > 數(shù)據(jù)重復(fù)量。

研究人員做了一組對(duì)照實(shí)驗(yàn) ，準(zhǔn)備了兩份數(shù)據(jù)，總時(shí)長(zhǎng)都是 500 小時(shí)。

● 數(shù)據(jù)集 A（重復(fù)組）：包含 70 個(gè)任務(wù)，每個(gè)任務(wù)有大量重復(fù)的演示，位置和環(huán)境變化很小。這是傳統(tǒng) VLA 喜歡的“刷題”模式。

● 數(shù)據(jù)集 B（多樣組）：包含 22 個(gè)不同環(huán)境、數(shù)百個(gè)任務(wù)，數(shù)據(jù)極其雜亂，幾乎不重復(fù)。

結(jié)果使用雜亂數(shù)據(jù)訓(xùn)練的 DreamZero，在未見任務(wù)上的泛化成功率達(dá)到了 50%。而使用精美重復(fù)數(shù)據(jù)訓(xùn)練的模型，成功率只有 33%。

為什么？ 這是因?yàn)?VLA 和 WAM 的學(xué)習(xí)邏輯根本不同。 VLA 是在背誦。WAM 是在學(xué)物理。

DreamZero 證明了對(duì)于學(xué)習(xí)物理規(guī)律而言，看 1 次在火星上煎蛋，比看 1000 次在廚房里煎蛋更有價(jià)值。

因?yàn)榍罢咛峁┝诵碌奈锢磉吔鐥l件，而后者只是在通過重復(fù)增加冗余。世界模型需要的是覆蓋率，而不是重復(fù)率。

下一步，是把世界模型訓(xùn)練的更好

DreamZero 的意義，是證明了WAM這條路完全能走通，還能非常好的泛化。

但想要持續(xù)提升DreamZero這樣模型的能力，我們還需要對(duì)它加以訓(xùn)練。盡可能強(qiáng)化它基于視頻生成的世界模型，最好還有個(gè)更嚴(yán)格的后驗(yàn)裁判，能夠指導(dǎo)它在后訓(xùn)練中持續(xù)提升準(zhǔn)確性。

這就是另一篇論文中 Dream Dojo 的作用。DreamZero 造出了引擎，DreamDojo 煉出了持續(xù)優(yōu)化這個(gè)引擎的燃油。

正如其名，它像是一座道場(chǎng)，要把世界模型訓(xùn)練這件事，從DreamZero這種一次性的科研 demo，豐富成一套可重復(fù)的工業(yè)流程。這套流程涵蓋了從數(shù)據(jù)攝入、表征對(duì)齊，到滾動(dòng)預(yù)測(cè)、誤差診斷的全生命周期。

在 DreamDojo 出現(xiàn)之前，VLA（視覺-語言-動(dòng)作）模型在數(shù)據(jù)上總是碰壁，面臨三重死穴。

1. 標(biāo)簽稀缺：互聯(lián)網(wǎng)視頻浩如煙海，但只有畫面，沒有動(dòng)作數(shù)據(jù)（Action Labels）。

2. 工程地獄：機(jī)器人的身體千奇百怪。不同的自由度（DOF）、不同的控制頻率、不同的接口格式。試圖統(tǒng)一這些數(shù)據(jù)，是工程師的噩夢(mèng)。

3. 不可控：很多模型生成的視頻看著像，但在物理因果上是錯(cuò)的。如果動(dòng)作和后果不對(duì)齊，模型就無法進(jìn)行反事實(shí)（Counterfactual）推演。無法推演，就無法規(guī)劃。

但現(xiàn)在，因?yàn)橛辛艘曨l生成模型，這些就都不是問題了。DreamDojo 不是從零做 world model，它是站在「視頻基礎(chǔ)模型已經(jīng)把世界的視覺與時(shí)空規(guī)律學(xué)到一定程度」的臺(tái)階上，再強(qiáng)化對(duì)于具身智能來講，至關(guān)重要的交互因果和可控性。

既然人類視頻里沒有電機(jī)數(shù)據(jù)，那我們就不要電機(jī)數(shù)據(jù)了。

DreamDojo 不再執(zhí)著于傳感器里的讀數(shù)，而是去尋找動(dòng)作的物理本質(zhì)。動(dòng)作，本質(zhì)上就是一種讓世界狀態(tài)發(fā)生改變的力。

DreamDojo 設(shè)計(jì)了一個(gè)自監(jiān)督編碼器，專門盯著視頻的前后幀看。它在不斷地問自己一個(gè)問題，到底是什么力量，讓上一幀變成了下一幀？

機(jī)器自動(dòng)提取出來的這個(gè)答案，就是連續(xù)潛在動(dòng)作。

DreamDojo 不再記錄絕對(duì)的關(guān)節(jié)姿態(tài)。因?yàn)榻^對(duì)姿態(tài)在高維空間里太稀疏、太難學(xué)。它記錄的是變化量。每一幀都以當(dāng)前狀態(tài)為基準(zhǔn)歸零。這讓動(dòng)作的分布變得更窄、更集中，模型更容易學(xué)會(huì)向左移一點(diǎn)這種通用的物理規(guī)律，而不是死記坐標(biāo)。

這就好比不需要知道一個(gè)人用了哪塊肌肉（傳感器數(shù)據(jù)），只要看他揮手砸杯子，杯子碎了，模型提取出揮手擊碎這個(gè)潛在動(dòng)作的整個(gè)過程。

同時(shí)，為了增強(qiáng)可控性。DreamDojo 不把整段動(dòng)作軌跡當(dāng)作全局條件灌進(jìn)去，而是把連續(xù) 4 個(gè)動(dòng)作拼成 chunk，只注入到對(duì)應(yīng)的 latent frame。通過這樣的拆分，模型被強(qiáng)制要求理解是這一個(gè)微小的動(dòng)作切片，導(dǎo)致了下一刻的畫面變化。讓世界模型不會(huì)造成因果混淆。

視頻模型在這個(gè)過程中，把訓(xùn)練目標(biāo)從預(yù)測(cè)未來像不像，推向動(dòng)作改變未來的方向與幅度是否一致。

這徹底打通了不同具身體之間物種隔離。 不同身體、不同場(chǎng)景做同一種動(dòng)作，潛動(dòng)作會(huì)趨于相近。模型不再需要知道手肘電機(jī)轉(zhuǎn)動(dòng) 30 度，它只需要知道這個(gè)潛在動(dòng)作會(huì)導(dǎo)致杯子被拿起。

而因?yàn)檫@個(gè)潛空間的動(dòng)作規(guī)律對(duì)誰都一樣，不存在空間異構(gòu)，不存在數(shù)據(jù)格式不通。

DreamDojo 在視頻生成這個(gè)世界模型的基礎(chǔ)上，用連續(xù)潛在動(dòng)作這個(gè)數(shù)學(xué)上的通用語，把全人類的視頻資產(chǎn)轉(zhuǎn)換成了機(jī)器人可以理解的經(jīng)驗(yàn)。

為了達(dá)成這個(gè)目標(biāo)，英偉達(dá)團(tuán)隊(duì)構(gòu)建了一個(gè) DreamDojo-HV（加上 In-lab 與 EgoDex）的數(shù)據(jù)集，是一個(gè)約 44,711 小時(shí)的第一視角人類交互混合數(shù)據(jù)集，覆蓋極其廣的日常場(chǎng)景與技能分布。包含上萬級(jí)場(chǎng)景、數(shù)千級(jí)任務(wù)、數(shù)萬級(jí)對(duì)象的長(zhǎng)尾分布。

這個(gè)規(guī)模，比之前最大的機(jī)器人世界模型數(shù)據(jù)集大了 15 倍，場(chǎng)景豐富度高了 2000 倍。

結(jié)果 DreamDojo 在沒見過任何真機(jī)器人的情況下，僅憑看人類視頻預(yù)訓(xùn)練，就能在極少量的微調(diào)后，操控真機(jī)器人完成從未見過的任務(wù)。再通過蒸餾技術(shù)，他們把這個(gè)龐大的世界模型壓縮到了能跑 10 FPS 的實(shí)時(shí)速度。

至此，結(jié)合Dream Dojo和DreamZero，這套建立在世界模型上的具身智能的閉環(huán)終于合上了。

它的底座是視頻生成模型，因?yàn)樗锢?。?gòu)架是DreamZero 代表的世界動(dòng)作模型（WAM），它能通過預(yù)測(cè)未來來決策，而且讓可執(zhí)行與低延遲夠薄，能用。而其進(jìn)步的燃料，是DreamDojo 把物理與可檢驗(yàn)性做厚，讓全網(wǎng)的人類視頻，通過潛在動(dòng)作轉(zhuǎn)化為機(jī)器人的經(jīng)驗(yàn)。

我們不再需要讓幾萬個(gè)博士去遙操作機(jī)器人了。只要讓機(jī)器人坐在那里，日夜不停地看人類干活的視頻，它就能學(xué)會(huì)關(guān)于物理世界的一切。

這，很可能是具身智能的范式轉(zhuǎn)變

DreamZero的出現(xiàn)，敲響了具身智能純VLA時(shí)代的喪鐘。

這場(chǎng)范式的轉(zhuǎn)變可能，將深刻地重塑整個(gè)行業(yè)的生態(tài)。

首先是數(shù)據(jù)采集哲學(xué)的顛覆。在VLA范式下，從業(yè)者陷入了遙操作數(shù)據(jù)的囚徒困境，認(rèn)為只有花重金采集幾萬小時(shí)的精準(zhǔn)動(dòng)作配對(duì)數(shù)據(jù)，機(jī)器人才能變聰明。但DreamZero展示了跨機(jī)體學(xué)習(xí)的恐怖潛力，僅僅通過觀看人類行為的純視頻，模型就能汲取物理策略。

而Dream Dojo則意味著，YouTube、TikTok上那數(shù)以百億計(jì)的人類生活視頻，那座原本被認(rèn)為缺乏動(dòng)作標(biāo)簽而對(duì)機(jī)器人無用的數(shù)據(jù)金礦，將被徹底解鎖。

從高成本的實(shí)體遙操作，轉(zhuǎn)向低成本的互聯(lián)網(wǎng)視頻挖掘，這是獲取常識(shí)的降維打擊。

最重要的是，我們對(duì)機(jī)器智能的認(rèn)知正在發(fā)生根本性轉(zhuǎn)移。

VLA時(shí)代，我們?cè)噲D通過教會(huì)機(jī)器認(rèn)字來讓它干活，結(jié)果得到了一個(gè)笨拙的翻譯官。現(xiàn)在，我們開始教會(huì)機(jī)器做夢(mèng)，在腦海中生成、預(yù)測(cè)、模擬物理世界的演變。

當(dāng)一臺(tái)機(jī)器不再是機(jī)械地復(fù)讀數(shù)據(jù)，而是能夠在內(nèi)部構(gòu)建一個(gè)符合物理定律的微縮宇宙，并在其中推演自己的行為后果時(shí)，我們就已經(jīng)站在了通用具身智能的真正起點(diǎn)上。

這是一條更陡峭的路徑，但也必定通往更廣闊的未來。

點(diǎn)個(gè)“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.