国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)兩篇論文,帶來了VLA之后具身智能的新范式

0
分享至


文章轉(zhuǎn)載于騰訊科技
作者: 博陽

2025年,具身智能領(lǐng)域最火的詞就是VLA(視覺-語言-動(dòng)作模型)。

它成了一種席卷全行業(yè)的共識(shí),一個(gè)關(guān)于具身基礎(chǔ)模型的標(biāo)準(zhǔn)答案。在過去的一年里,資本和算力瘋狂涌入這條賽道,基本上所有的模型大廠,都在用這套范式。

但很快,現(xiàn)實(shí)的物理世界給所有從業(yè)者潑了一盆冷水。因?yàn)閂LA在物理動(dòng)作執(zhí)行上很弱。

它能懂極其復(fù)雜的文字指令。但當(dāng)機(jī)械臂真正去抓取時(shí),它可能連如何調(diào)整手腕姿態(tài)以避開杯柄的阻擋都做不好,更別提讓它去執(zhí)行解開鞋帶這種涉及復(fù)雜物理形變的動(dòng)作了。

VLA的另一個(gè)致命痛點(diǎn)是泛化。本來之所以大家要做模型更新,為的就是不用為每個(gè)特殊環(huán)境編程,看重的正是大模型的泛化能力。結(jié)果現(xiàn)在,任何超越訓(xùn)練規(guī)定環(huán)境的動(dòng)作,VLA基本都無法泛化,甚至出了訓(xùn)練環(huán)境類似的環(huán)境都做不了。

整個(gè)行業(yè)把泛化的無力,歸結(jié)于數(shù)據(jù)的不足。大廠們開始投入億萬資金,用各種方式去采集數(shù)據(jù),試圖用海量的模擬演示來填補(bǔ)VLA的常識(shí)空缺。

但2026年初,英偉達(dá)(NVIDIA)發(fā)布了兩篇論文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》兩篇論文,構(gòu)建了一套全新的具身智能基礎(chǔ)模型范式,打破了數(shù)據(jù)內(nèi)卷的僵局。


它們一起,給出了一個(gè)完全從視頻里學(xué)習(xí),Zero-shot(零樣本)就能泛化執(zhí)行不同工作的具身模型的可能。

1

VLA缺的不是數(shù)據(jù),而是世界模型

要理解DreamZero和Dream Dojo的顛覆性,必須先從底層剖析VLA的系統(tǒng)性缺陷。

VLA的最大問題,就是缺乏世界模型。VLA的底層架構(gòu)限制了它的認(rèn)知方式。從譜系上看,VLA和LLM的親緣更強(qiáng),反而和純視覺、純物理的親緣較弱。它通過交叉注意力機(jī)制(Cross-Attention)將圖像的像素塊映射到文本的語義空間中,在這個(gè)空間里,它理解了杯子和桌子的概念,理解了它們?cè)诙S畫面中的相對(duì)位置。

但物理世界不是二維的語義切片。物理世界是連續(xù)的,充滿了質(zhì)量、摩擦力、重力和幾何碰撞。

VLA對(duì)物理動(dòng)作和世界的理解相對(duì)較弱,因?yàn)樗举|(zhì)上是一個(gè)「翻譯器」。

我們可以用物理學(xué)中的狀態(tài)轉(zhuǎn)移方程來解釋。一個(gè)完整的世界模型,本質(zhì)上是在學(xué)習(xí)一個(gè)條件概率分布。它能在給定當(dāng)前世界的狀態(tài)(視覺觀測(cè))和機(jī)器人即將執(zhí)行的動(dòng)作,預(yù)測(cè)世界下一秒會(huì)變成什么樣。

VLA從來沒有學(xué)過這個(gè)方程。VLA學(xué)習(xí)的是靜態(tài)視覺觀測(cè)+語言指令直接映射到可執(zhí)行動(dòng)作的函數(shù)關(guān)系;卻沒被系統(tǒng)性地訓(xùn)練去預(yù)測(cè)動(dòng)作后果、做反事實(shí)試錯(cuò)。所以一旦環(huán)境、材質(zhì)、約束關(guān)系稍微變形,性能就會(huì)斷崖式下滑。

這就好比讓一個(gè)人在不理解幾何原理的情況下,去死記硬背一萬道幾何題的答案。遇到原題,他能快速寫出完美答案;遇到條件稍微變動(dòng)的新題,他就徹底宕機(jī)。

VLA的泛化,本質(zhì)上只是高維語義空間中的插值。當(dāng)物理形態(tài)超出訓(xùn)練集的包絡(luò)面時(shí),插值就會(huì)失效。

與之對(duì)比的,是視頻生成模型。在Veo3、Sora 2和最近大火的Seedance 2生成的物理交互畫面已經(jīng)相當(dāng)逼真,流體、剛體、柔性材料的動(dòng)作如此連貫,幾乎與現(xiàn)實(shí)世界難以區(qū)分。這說明,大規(guī)模視頻生成模型在海量的互聯(lián)網(wǎng)視頻中,很可能已經(jīng)隱式地壓縮并內(nèi)化了物理世界的基礎(chǔ)運(yùn)行規(guī)律,形成了一些世界模型。

即使強(qiáng)大如斯,視頻生成之前仍然主要被用在給VLA提供模擬數(shù)據(jù),而不是整合進(jìn)機(jī)器人的工作流中。

其實(shí),大家想利用視頻生成模型來控制機(jī)器人的念頭并不是從此開始的。在DreamZero之前,學(xué)術(shù)界和工業(yè)界也提出了多個(gè)解決方法。但這些方法無一例外地陷入了工程和邏輯的死胡同。

比如 LVP(大規(guī)模視頻規(guī)劃器)。它的思路是從一張圖和一句話,直接生成應(yīng)該如何完成任務(wù)的未來視頻計(jì)劃。再把視頻中的人手運(yùn)動(dòng)重建成 3D 軌跡。是用視頻預(yù)訓(xùn)練,而不是語言預(yù)訓(xùn)練,作為機(jī)器人基礎(chǔ)能力的主軸。


第二種則是類似英偉達(dá)自己的DreamGen這種,生成視頻后,再反推動(dòng)作。這是之前被寄予厚望的路線。它把整個(gè)基礎(chǔ)模型的架構(gòu)切分為兩半,上半部分是一個(gè)視頻模型,負(fù)責(zé)預(yù)測(cè)未來;下半部分是一個(gè)獨(dú)立訓(xùn)練的IDM網(wǎng)絡(luò),負(fù)責(zé)看著預(yù)測(cè)出來的視頻,反推并輸出動(dòng)作。


以上兩種分階段的模式,最大的問題就是動(dòng)作和視頻生成對(duì)不齊。動(dòng)作那塊要求特別準(zhǔn)確,但視頻生成很難完美。一旦它產(chǎn)生的未來畫面帶有微小的像素偽影或物理幻覺,那不管是IDM或者點(diǎn)追蹤,都直接懵圈,成倍放大錯(cuò)誤。視頻里機(jī)器人的手指位置偏了一微米,現(xiàn)實(shí)中機(jī)器人就根本什么都抓不住了。魯棒性極差。

第三種是Unified Video-Action(UVA,聯(lián)合視頻-動(dòng)作生成)。這算是最先進(jìn)的方法了,它嘗試把視頻和動(dòng)作放在同一個(gè)擴(kuò)散模型里的潛空間里學(xué)習(xí),兼顧了視頻預(yù)測(cè)和動(dòng)作預(yù)測(cè)。而推理時(shí)又通過「解碼解耦」跳過視頻生成,以保證速度。但它的架構(gòu)使用了雙向擴(kuò)散(Bidirectional Diffusion)架構(gòu)。為了匹配語言指令的長(zhǎng)度,必須對(duì)生成的視頻序列進(jìn)行大幅壓縮。這種做法徹底扭曲了原生的視頻時(shí)間流。時(shí)間都扭曲了,動(dòng)作指令與視覺畫面的對(duì)齊幾乎就不可能了,所以這種方式的泛化性自然極差。


除此之外,這些方法都有一個(gè)致命的共同缺陷,就是太慢。視頻擴(kuò)散模型需要多步迭代去噪,生成幾秒鐘的動(dòng)作往往需要幾十秒的計(jì)算。要是一個(gè)機(jī)器人把碗放進(jìn)碗柜要5分鐘,你怕是在邊上看著都得急瘋。

因此在2026年前所有新具身智能企業(yè)中,幾乎只有前一陣剛推出家用機(jī)器人的1X Technologies在嘗試這種視頻預(yù)測(cè)的方法。他們利用海量的“影子模式”(Shadow Mode)數(shù)據(jù),即在人類遙操作時(shí),讓模型在后臺(tái)同步運(yùn)行預(yù)測(cè),用這種極高質(zhì)量的配對(duì)數(shù)據(jù)去硬生生訓(xùn)練那個(gè)脆弱的IDM。

但一時(shí)的失敗,并不意味著方向被否定。

在去年的機(jī)器人大會(huì)上,我采訪了很多國(guó)內(nèi)的具身智能學(xué)者。彼時(shí)正是谷歌 Veo 3和 Genie 3剛剛發(fā)布不久之時(shí)。大多數(shù)學(xué)者都對(duì)此印象深刻,意識(shí)到了視頻生成模型的世界理解能力。

因此在交流中,他們幾乎是以一種共識(shí)的口吻,提出生成可能是后續(xù)具身智能最靠譜的路徑。這比在模擬環(huán)境下(Simulation)產(chǎn)生數(shù)據(jù)要可能性更高。模擬器(如Isaac Gym或MuJoCo)受限于人類硬編碼的物理引擎,永遠(yuǎn)無法窮盡真實(shí)世界材質(zhì)的復(fù)雜性、光影的多變性和接觸力的非線性。而吸收了全人類視頻數(shù)據(jù)的生成模型,才是那個(gè)真正包含了萬物物理法則的超級(jí)模擬器。

但當(dāng)時(shí),這個(gè)思維還是停留在「數(shù)據(jù)」這個(gè)層面上,視頻生成取代VLA這個(gè)講法,基本還沒進(jìn)入視野。

但英偉達(dá)的研究,很可能就是讓這個(gè)想法,第一次變成有效的工程化路徑的轉(zhuǎn)折點(diǎn)。

1

DreamZero,以世界模型為基地的具身智能

前面已經(jīng)講了,過去利用視頻生成模型去構(gòu)建機(jī)器人動(dòng)作所面對(duì)的三個(gè)主要問題。

一是分步導(dǎo)致的對(duì)齊問題。二是合一模式太差,沒法用的問題。三是太慢的問題。針對(duì)于此,英偉達(dá)先用DreamZero,給出了一條解決方法。


首先,DreamZero采用了視頻和動(dòng)作預(yù)測(cè)同步端到端訓(xùn)練的方式。這就解決了過去分階段模式的不對(duì)齊問題。


其次,針對(duì)UVA的時(shí)空錯(cuò)亂問題,DreamZero徹底拋棄了早期的雙向架構(gòu),轉(zhuǎn)而構(gòu)建了一個(gè)14B參數(shù)的自回歸 Diffusion Transformer (DiT)。這是目前標(biāo)準(zhǔn)的視頻生成模型架構(gòu)。它像語言模型生成文本一樣,嚴(yán)格按照時(shí)間順序,從左到右預(yù)測(cè)視頻和動(dòng)作。在同一次擴(kuò)散前向里,同時(shí)預(yù)測(cè)視頻與動(dòng)作。


這帶來了兩個(gè)好處。第一,保留了原生幀率,動(dòng)作和畫面在時(shí)間軸上實(shí)現(xiàn)了絕對(duì)對(duì)齊。第二,它利用了KV Cache(鍵值緩存)技術(shù)。模型不需要每次都從頭計(jì)算歷史畫面,極大地節(jié)省了算力。

之后,為了解決自回歸導(dǎo)致的“誤差累積”和幻覺問題。DreamZero還引入了真實(shí)觀測(cè)注入。

模型預(yù)測(cè)出未來1.6秒的畫面和動(dòng)作,機(jī)器人執(zhí)行完畢。而在動(dòng)作執(zhí)行完的瞬間,獲取攝像頭拍下的絕對(duì)真實(shí)的當(dāng)前物理世界畫面,直接編碼并塞入KV Cache,覆蓋、替換掉模型剛才生成的假畫面。

這一步,瞬間斬?cái)嗔苏`差積累的因果鏈。模型被迫永遠(yuǎn)站在絕對(duì)真實(shí)的物理基石上,去思考下一步。

最后,也是最重要的一步,是解決生成慢的問題。

為了達(dá)到機(jī)器人控制需要的頻率,DreamZero發(fā)明了DreamZero-Flash技術(shù)。擴(kuò)散模型慢,是因?yàn)橥评頃r(shí)需要走完漫長(zhǎng)的去噪鏈。如果強(qiáng)行減少步數(shù)(比如只用1步去噪),生成的動(dòng)作質(zhì)量會(huì)斷崖式下跌,因?yàn)楫嬅孢€處在充滿噪點(diǎn)的模糊狀態(tài),模型無法從中提取精確的動(dòng)作。

DreamZero-Flash的解法是「解耦噪聲調(diào)度」。在訓(xùn)練時(shí),它不再讓視頻和動(dòng)作處于相同的噪聲級(jí)別。它強(qiáng)制模型看著極度模糊、充滿高強(qiáng)度噪聲的視覺畫面,去預(yù)測(cè)完全干凈、精準(zhǔn)的動(dòng)作信號(hào)。這等于是在訓(xùn)練模型在看不清未來的情況下,憑借物理直覺做出正確反應(yīng)。


對(duì)于人來講,這是不可能的任務(wù),看不清就是做不了動(dòng)作。但對(duì)模型來講,這似乎完全行得通。經(jīng)過這一訓(xùn)練,到了推理階段,模型只需要進(jìn)行僅僅1步去噪就能生成準(zhǔn)確動(dòng)作。推理時(shí)間從350毫秒瞬間壓縮到了150毫秒。

這使得系統(tǒng)能夠以7Hz的頻率輸出動(dòng)作塊,結(jié)合底層控制器,實(shí)現(xiàn)了相對(duì)平滑的實(shí)時(shí)執(zhí)行。

經(jīng)過了這一系列改造。DreamZero展現(xiàn)出了視頻生成世界模型的恐怖潛力。

最突出的是泛化能力。在AgiBot雙臂機(jī)器人的測(cè)試中,研究人員拋出了訓(xùn)練集里完全沒有見過的任務(wù)解開打結(jié)的鞋帶、從假人模型頭上摘下帽子、拿著刷子畫畫。

讓從頭訓(xùn)練的VLA來做,任務(wù)進(jìn)度幾乎為零,開始的地方都做不好。但DreamZero的平均任務(wù)進(jìn)度達(dá)到了39.5%,某些特定任務(wù)(如摘帽子)甚至高達(dá)85.7%。


這是因?yàn)镈reamZero的學(xué)習(xí)過程是顛覆性的。在訓(xùn)練時(shí)聯(lián)合預(yù)測(cè)視頻和動(dòng)作,它被迫在潛空間中建立事物演變的因果鏈條。它知道如果不松開夾爪,被夾住的物體就不會(huì)掉落;它知道如果向前推倒一杯水,水會(huì)灑出來。

因?yàn)轭A(yù)設(shè)了基于視頻的世界模型,WAMs擁有了物理直覺。當(dāng)遇到未見過的任務(wù)時(shí),它不是在記憶庫里搜索類似的動(dòng)作,而是在腦海中模擬出了動(dòng)作的物理后果。只要這個(gè)物理后果符合語言指令的語義目標(biāo),它就能直接涌現(xiàn)出執(zhí)行動(dòng)作。

這就是為什么它能在Zero-shot的情況下完成解鞋帶這種復(fù)雜任務(wù)。

更讓人震撼的是跨機(jī)體(Cross-Embodiment)能力。

在傳統(tǒng)的VLA范式下,你要讓一臺(tái)新形態(tài)的機(jī)器人干活,就必須雇人去給這臺(tái)機(jī)器人錄制專屬的遙操作數(shù)據(jù)。但在DreamZero中,研究人員只讓模型觀看了人類視角的錄像(純視頻,沒有任何電機(jī)動(dòng)作參數(shù)),僅僅看了12分鐘。模型在未見任務(wù)上的表現(xiàn)就實(shí)現(xiàn)了42%的相對(duì)提升。

隨后,他們把在AgiBot上訓(xùn)練的模型,直接遷移到一臺(tái)完全不同的YAM機(jī)器人上。僅僅給它喂了30分鐘的非結(jié)構(gòu)化「玩耍數(shù)據(jù)」(Play Data),模型就完成了軀體適應(yīng),并且完美保留了零樣本泛化執(zhí)行復(fù)雜指令的能力。


這就是世界模型的降維打擊。物理規(guī)律是通用的,它只需要極少的數(shù)據(jù)去微調(diào)自己對(duì)新軀體運(yùn)動(dòng)學(xué)邊界的認(rèn)知。

VLA最大的問題,DreamZero這樣預(yù)設(shè)了世界模型的動(dòng)作模型 WAM(World Action Model)完美解決了。它不需要海量的機(jī)器人數(shù)據(jù)訓(xùn)練就能達(dá)成很好的泛化。

但我們必須保持清醒。基于視頻生成的工程化路徑,其實(shí)依然有很多卡點(diǎn)。

相對(duì)于VLA動(dòng)輒在消費(fèi)級(jí)顯卡上跑出20Hz、30Hz的驚人速度,DreamZero拼盡全力優(yōu)化后的7Hz依然很慢。并且,它對(duì)硬件要求更高,依賴于H100或GB200這樣的頂級(jí)芯片組成的計(jì)算集群來進(jìn)行并行推理。對(duì)于邊緣端部署的獨(dú)立機(jī)器人來說,這在目前的算力成本下是不可接受的。

不過,算力成本的下降服從摩爾定律,而算法架構(gòu)的物理認(rèn)知上限則是天花板。用昂貴的算力去換取原本根本不存在的泛化能力,這筆交易在技術(shù)演進(jìn)的長(zhǎng)期視角下是絕對(duì)劃算的。

DreamZero的成功,意味著從VLA轉(zhuǎn)向視頻世界模型,不再是一個(gè)學(xué)術(shù)幻想,而是一個(gè)已經(jīng)跑通的可能。

1

世界模型需要的數(shù)據(jù),和VLA不一樣

在 DreamZero 的實(shí)驗(yàn)中,英偉達(dá)發(fā)現(xiàn)了一個(gè)反直覺的結(jié)論。

我們通常認(rèn)為數(shù)據(jù)越多越好。如果機(jī)器人學(xué)不會(huì),那就再采集一萬小時(shí)數(shù)據(jù)。 但在世界模型的語境下,這個(gè)定律失效了。

DreamZero 揭示了新的法則 數(shù)據(jù)多樣性 > 數(shù)據(jù)重復(fù)量。

研究人員做了一組對(duì)照實(shí)驗(yàn) ,準(zhǔn)備了兩份數(shù)據(jù),總時(shí)長(zhǎng)都是 500 小時(shí)。

數(shù)據(jù)集 A(重復(fù)組):包含 70 個(gè)任務(wù),每個(gè)任務(wù)有大量重復(fù)的演示,位置和環(huán)境變化很小。這是傳統(tǒng) VLA 喜歡的“刷題”模式。

數(shù)據(jù)集 B(多樣組):包含 22 個(gè)不同環(huán)境、數(shù)百個(gè)任務(wù),數(shù)據(jù)極其雜亂,幾乎不重復(fù)。

結(jié)果使用雜亂數(shù)據(jù)訓(xùn)練的 DreamZero,在未見任務(wù)上的泛化成功率達(dá)到了 50%。 而使用精美重復(fù)數(shù)據(jù)訓(xùn)練的模型,成功率只有 33%。

為什么? 這是因?yàn)?VLA 和 WAM 的學(xué)習(xí)邏輯根本不同。 VLA 是在背誦。WAM 是在學(xué)物理

DreamZero 證明了對(duì)于學(xué)習(xí)物理規(guī)律而言,看 1 次在火星上煎蛋,比看 1000 次在廚房里煎蛋更有價(jià)值。

因?yàn)榍罢咛峁┝诵碌奈锢磉吔鐥l件,而后者只是在通過重復(fù)增加冗余。世界模型需要的是覆蓋率,而不是重復(fù)率。

1

下一步,是把世界模型訓(xùn)練的更好

DreamZero 的意義,是證明了WAM這條路完全能走通,還能非常好的泛化。

但想要持續(xù)提升DreamZero這樣模型的能力,我們還需要對(duì)它加以訓(xùn)練。盡可能強(qiáng)化它基于視頻生成的世界模型,最好還有個(gè)更嚴(yán)格的后驗(yàn)裁判,能夠指導(dǎo)它在后訓(xùn)練中持續(xù)提升準(zhǔn)確性。

這就是另一篇論文中 Dream Dojo 的作用。DreamZero 造出了引擎,DreamDojo 煉出了持續(xù)優(yōu)化這個(gè)引擎的燃油。

正如其名,它像是一座道場(chǎng),要把世界模型訓(xùn)練這件事,從DreamZero這種一次性的科研 demo,豐富成一套可重復(fù)的工業(yè)流程。這套流程涵蓋了從數(shù)據(jù)攝入、表征對(duì)齊,到滾動(dòng)預(yù)測(cè)、誤差診斷的全生命周期。

在 DreamDojo 出現(xiàn)之前,VLA(視覺-語言-動(dòng)作)模型在數(shù)據(jù)上總是碰壁,面臨三重死穴。

1. 標(biāo)簽稀缺:互聯(lián)網(wǎng)視頻浩如煙海,但只有畫面,沒有動(dòng)作數(shù)據(jù)(Action Labels)。

2. 工程地獄:機(jī)器人的身體千奇百怪。不同的自由度(DOF)、不同的控制頻率、不同的接口格式。試圖統(tǒng)一這些數(shù)據(jù),是工程師的噩夢(mèng)。

3. 不可控:很多模型生成的視頻看著像,但在物理因果上是錯(cuò)的。如果動(dòng)作和后果不對(duì)齊,模型就無法進(jìn)行反事實(shí)(Counterfactual)推演。無法推演,就無法規(guī)劃。

但現(xiàn)在,因?yàn)橛辛艘曨l生成模型,這些就都不是問題了。DreamDojo 不是從零做 world model,它是站在「視頻基礎(chǔ)模型已經(jīng)把世界的視覺與時(shí)空規(guī)律學(xué)到一定程度」的臺(tái)階上,再強(qiáng)化對(duì)于具身智能來講,至關(guān)重要的交互因果和可控性。


既然人類視頻里沒有電機(jī)數(shù)據(jù),那我們就不要電機(jī)數(shù)據(jù)了。

DreamDojo 不再執(zhí)著于傳感器里的讀數(shù),而是去尋找動(dòng)作的物理本質(zhì)。動(dòng)作,本質(zhì)上就是一種讓世界狀態(tài)發(fā)生改變的力。

DreamDojo 設(shè)計(jì)了一個(gè)自監(jiān)督編碼器,專門盯著視頻的前后幀看。它在不斷地問自己一個(gè)問題,到底是什么力量,讓上一幀變成了下一幀?

機(jī)器自動(dòng)提取出來的這個(gè)答案,就是連續(xù)潛在動(dòng)作。


DreamDojo 不再記錄絕對(duì)的關(guān)節(jié)姿態(tài)。因?yàn)榻^對(duì)姿態(tài)在高維空間里太稀疏、太難學(xué)。 它記錄的是變化量。每一幀都以當(dāng)前狀態(tài)為基準(zhǔn)歸零。這讓動(dòng)作的分布變得更窄、更集中,模型更容易學(xué)會(huì)向左移一點(diǎn)這種通用的物理規(guī)律,而不是死記坐標(biāo)。

這就好比不需要知道一個(gè)人用了哪塊肌肉(傳感器數(shù)據(jù)),只要看他揮手砸杯子,杯子碎了,模型提取出揮手擊碎這個(gè)潛在動(dòng)作的整個(gè)過程。

同時(shí),為了增強(qiáng)可控性。DreamDojo 不把整段動(dòng)作軌跡當(dāng)作全局條件灌進(jìn)去,而是把連續(xù) 4 個(gè)動(dòng)作拼成 chunk,只注入到對(duì)應(yīng)的 latent frame。通過這樣的拆分,模型被強(qiáng)制要求理解是這一個(gè)微小的動(dòng)作切片,導(dǎo)致了下一刻的畫面變化。讓世界模型不會(huì)造成因果混淆。

視頻模型在這個(gè)過程中,把訓(xùn)練目標(biāo)從預(yù)測(cè)未來像不像,推向動(dòng)作改變未來的方向與幅度是否一致。

這徹底打通了不同具身體之間物種隔離。 不同身體、不同場(chǎng)景做同一種動(dòng)作,潛動(dòng)作會(huì)趨于相近。模型不再需要知道手肘電機(jī)轉(zhuǎn)動(dòng) 30 度,它只需要知道這個(gè)潛在動(dòng)作會(huì)導(dǎo)致杯子被拿起。

而因?yàn)檫@個(gè)潛空間的動(dòng)作規(guī)律對(duì)誰都一樣,不存在空間異構(gòu),不存在數(shù)據(jù)格式不通。

DreamDojo 在視頻生成這個(gè)世界模型的基礎(chǔ)上,用連續(xù)潛在動(dòng)作這個(gè)數(shù)學(xué)上的通用語,把全人類的視頻資產(chǎn)轉(zhuǎn)換成了機(jī)器人可以理解的經(jīng)驗(yàn)。

為了達(dá)成這個(gè)目標(biāo),英偉達(dá)團(tuán)隊(duì)構(gòu)建了一個(gè) DreamDojo-HV(加上 In-lab 與 EgoDex)的數(shù)據(jù)集,是一個(gè)約 44,711 小時(shí)的第一視角人類交互混合數(shù)據(jù)集,覆蓋極其廣的日常場(chǎng)景與技能分布。包含上萬級(jí)場(chǎng)景、數(shù)千級(jí)任務(wù)、數(shù)萬級(jí)對(duì)象的長(zhǎng)尾分布。


這個(gè)規(guī)模,比之前最大的機(jī)器人世界模型數(shù)據(jù)集大了 15 倍,場(chǎng)景豐富度高了 2000 倍。

結(jié)果 DreamDojo 在沒見過任何真機(jī)器人的情況下,僅憑看人類視頻預(yù)訓(xùn)練,就能在極少量的微調(diào)后,操控真機(jī)器人完成從未見過的任務(wù)。再通過蒸餾技術(shù),他們把這個(gè)龐大的世界模型壓縮到了能跑 10 FPS 的實(shí)時(shí)速度。


至此,結(jié)合Dream Dojo和DreamZero,這套建立在世界模型上的具身智能的閉環(huán)終于合上了。

它的底座是視頻生成模型,因?yàn)樗锢?。?gòu)架是DreamZero 代表的世界動(dòng)作模型(WAM),它能通過預(yù)測(cè)未來來決策,而且讓可執(zhí)行與低延遲夠薄,能用。而其進(jìn)步的燃料,是DreamDojo 把物理與可檢驗(yàn)性做厚,讓全網(wǎng)的人類視頻,通過潛在動(dòng)作轉(zhuǎn)化為機(jī)器人的經(jīng)驗(yàn)。

我們不再需要讓幾萬個(gè)博士去遙操作機(jī)器人了。只要讓機(jī)器人坐在那里,日夜不停地看人類干活的視頻,它就能學(xué)會(huì)關(guān)于物理世界的一切。

1

這,很可能是具身智能的范式轉(zhuǎn)變

DreamZero的出現(xiàn),敲響了具身智能純VLA時(shí)代的喪鐘。

這場(chǎng)范式的轉(zhuǎn)變可能,將深刻地重塑整個(gè)行業(yè)的生態(tài)。

首先是數(shù)據(jù)采集哲學(xué)的顛覆。在VLA范式下,從業(yè)者陷入了遙操作數(shù)據(jù)的囚徒困境,認(rèn)為只有花重金采集幾萬小時(shí)的精準(zhǔn)動(dòng)作配對(duì)數(shù)據(jù),機(jī)器人才能變聰明。但DreamZero展示了跨機(jī)體學(xué)習(xí)的恐怖潛力,僅僅通過觀看人類行為的純視頻,模型就能汲取物理策略。

而Dream Dojo則意味著,YouTube、TikTok上那數(shù)以百億計(jì)的人類生活視頻,那座原本被認(rèn)為缺乏動(dòng)作標(biāo)簽而對(duì)機(jī)器人無用的數(shù)據(jù)金礦,將被徹底解鎖。

從高成本的實(shí)體遙操作,轉(zhuǎn)向低成本的互聯(lián)網(wǎng)視頻挖掘,這是獲取常識(shí)的降維打擊。

最重要的是,我們對(duì)機(jī)器智能的認(rèn)知正在發(fā)生根本性轉(zhuǎn)移。

VLA時(shí)代,我們?cè)噲D通過教會(huì)機(jī)器認(rèn)字來讓它干活,結(jié)果得到了一個(gè)笨拙的翻譯官。現(xiàn)在,我們開始教會(huì)機(jī)器做夢(mèng),在腦海中生成、預(yù)測(cè)、模擬物理世界的演變。

當(dāng)一臺(tái)機(jī)器不再是機(jī)械地復(fù)讀數(shù)據(jù),而是能夠在內(nèi)部構(gòu)建一個(gè)符合物理定律的微縮宇宙,并在其中推演自己的行為后果時(shí),我們就已經(jīng)站在了通用具身智能的真正起點(diǎn)上。

這是一條更陡峭的路徑,但也必定通往更廣闊的未來。

點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
Anthropic妥協(xié)了

Anthropic妥協(xié)了

虎嗅APP
2026-02-27 06:00:07
77年李德生探望葉劍英,席間葉帥突然提點(diǎn):你去看看你們的老政委

77年李德生探望葉劍英,席間葉帥突然提點(diǎn):你去看看你們的老政委

談古論今歷史有道
2026-02-28 08:15:03
日本防長(zhǎng)的會(huì)議剛結(jié)束,馬來西亞發(fā)話:南海問題將無視中方的主張

日本防長(zhǎng)的會(huì)議剛結(jié)束,馬來西亞發(fā)話:南海問題將無視中方的主張

吃貨的分享
2026-03-01 09:17:14
34歲東北姑娘拿下81歲全球首富,長(zhǎng)的很漂亮,一年抱倆娃身價(jià)上億

34歲東北姑娘拿下81歲全球首富,長(zhǎng)的很漂亮,一年抱倆娃身價(jià)上億

云舟史策
2025-09-13 07:37:04
【李國(guó)豪】南京長(zhǎng)江大橋設(shè)計(jì)時(shí),他主張6車道,當(dāng)?shù)卣畧?jiān)持4車道

【李國(guó)豪】南京長(zhǎng)江大橋設(shè)計(jì)時(shí),他主張6車道,當(dāng)?shù)卣畧?jiān)持4車道

年之父
2026-02-23 09:10:06
中美局勢(shì)可能發(fā)生大反轉(zhuǎn),最先超過美國(guó)的竟不是經(jīng)濟(jì)

中美局勢(shì)可能發(fā)生大反轉(zhuǎn),最先超過美國(guó)的竟不是經(jīng)濟(jì)

華人星光
2026-01-07 13:32:47
一夜過去,美伊最新戰(zhàn)事進(jìn)展匯總

一夜過去,美伊最新戰(zhàn)事進(jìn)展匯總

起喜電影
2026-03-01 09:18:01
伊朗伊斯蘭革命衛(wèi)隊(duì)指揮官:伊朗目前使用的只是“廢舊導(dǎo)彈”

伊朗伊斯蘭革命衛(wèi)隊(duì)指揮官:伊朗目前使用的只是“廢舊導(dǎo)彈”

參考消息
2026-03-01 01:29:04
巴拿馬總統(tǒng)警告中國(guó)不要反制,否則報(bào)復(fù),結(jié)果中國(guó)反手就是三連擊

巴拿馬總統(tǒng)警告中國(guó)不要反制,否則報(bào)復(fù),結(jié)果中國(guó)反手就是三連擊

時(shí)尚的弄潮
2026-03-01 08:51:10
王曼昱贏了球,卻用一句話讓對(duì)手紅了眼眶!這才是大將風(fēng)范!

王曼昱贏了球,卻用一句話讓對(duì)手紅了眼眶!這才是大將風(fēng)范!

眼界縱橫
2026-02-28 20:58:39
神算子大伯料事如神,住我家16年,卻不愿將本事傳我,多年后釋然

神算子大伯料事如神,住我家16年,卻不愿將本事傳我,多年后釋然

人間百態(tài)大全
2026-02-28 06:40:03
億萬國(guó)人破防!90歲院士平靜宣布,中國(guó)導(dǎo)彈從此沒有任何死角!

億萬國(guó)人破防!90歲院士平靜宣布,中國(guó)導(dǎo)彈從此沒有任何死角!

Thurman在昆明
2026-02-28 20:53:27
慘烈的仗,要打到2030年?

慘烈的仗,要打到2030年?

中國(guó)新聞周刊
2026-02-26 22:44:14
18連勝!孫穎莎4-2擊敗早田希娜!賽后日本媒體集體陷入驚恐,發(fā)出一陣陣哀鳴

18連勝!孫穎莎4-2擊敗早田希娜!賽后日本媒體集體陷入驚恐,發(fā)出一陣陣哀鳴

寒律
2026-03-01 02:01:28
史詩級(jí)封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

史詩級(jí)封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

互聯(lián)網(wǎng)品牌官
2026-02-12 01:17:23
“農(nóng)村太子爺含金量堪比兩斤雞屎!”6個(gè)姐姐給弟弟征婚,被群嘲

“農(nóng)村太子爺含金量堪比兩斤雞屎!”6個(gè)姐姐給弟弟征婚,被群嘲

妍妍教育日記
2026-02-26 19:52:39
天道好輪回!馬筱梅生子后首表態(tài),小S怒罵,前夫里子面子都丟了

天道好輪回!馬筱梅生子后首表態(tài),小S怒罵,前夫里子面子都丟了

有范又有料
2026-02-28 14:43:18
山姆被曝大降價(jià)!深圳門店最新回應(yīng)

山姆被曝大降價(jià)!深圳門店最新回應(yīng)

深圳晚報(bào)
2026-02-28 14:40:56
毛岸英究竟怎么犧牲的?2020年彭德懷發(fā)的絕密電報(bào)公開,寫了什么

毛岸英究竟怎么犧牲的?2020年彭德懷發(fā)的絕密電報(bào)公開,寫了什么

楚風(fēng)說歷史
2026-02-18 07:25:03
武漢嵐圖汽車的公積金工資曝光!

武漢嵐圖汽車的公積金工資曝光!

趣味萌寵的日常
2026-02-28 21:00:18
2026-03-01 10:32:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2894文章數(shù) 10458關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:中東大戰(zhàn)開始 有三個(gè)可怕的后果

頭條要聞

牛彈琴:中東大戰(zhàn)開始 有三個(gè)可怕的后果

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財(cái)經(jīng)要聞

沖突爆發(fā) 市場(chǎng)變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

數(shù)碼
健康
本地
教育
時(shí)尚

數(shù)碼要聞

小米Watch 5智能手表海外發(fā)布,搭載谷歌Wear OS系統(tǒng)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

本地新聞

津南好·四時(shí)總相宜

教育要聞

專業(yè)排名百分比揭秘!別再理解錯(cuò)了

普通人穿衣不需要太復(fù)雜!顏色恰當(dāng)、搭配和諧,高級(jí)又耐看

無障礙瀏覽 進(jìn)入關(guān)懷版