国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

訓(xùn)練機(jī)器人方式對(duì)了嗎?英偉達(dá)DreamZero雙榜第一新反思

0
分享至

機(jī)器之心編輯部

近日,NVIDIA 發(fā)布的世界 - 動(dòng)作模型 DreamZero,在兩項(xiàng)頗具代表性的機(jī)器人基準(zhǔn)測(cè)試 RoboArena 、MolmoSpaces 上雙雙登頂。



DreamZero 核心思想是:在同一個(gè)模型里,同時(shí)預(yù)測(cè)未來(lái)視頻和機(jī)器人動(dòng)作。也就是說(shuō),DreamZero 讓機(jī)器人在行動(dòng)前,先在模型內(nèi)部想象未來(lái)。

但問(wèn)題也隨之而來(lái)。

為什么這種邊預(yù)測(cè)世界、邊預(yù)測(cè)動(dòng)作的設(shè)計(jì),會(huì)帶來(lái)如此顯著的性能提升?它到底比傳統(tǒng)策略模型或世界模型強(qiáng)在哪里?是真正的范式突破,還是數(shù)據(jù)與模型規(guī)模的勝利?

圍繞這些問(wèn)題,近期一篇頗具討論度的分析文章《Why is DreamZero so good at robotics?》給出了一個(gè)更深入的解讀:在訓(xùn)練一個(gè)通用機(jī)器人策略時(shí),你的數(shù)據(jù)和模型架構(gòu)需要具備哪些特征?這篇文章的解讀,正在對(duì)以往的認(rèn)知提出質(zhì)疑。

文章作者是一位名叫 Chris Paxton 機(jī)器人與人工智能研究者,曾在 Hello Robot 負(fù)責(zé)具身智能(Embodied AI)方向的研究工作。此前,Paxton 在 NVIDIA Research 以及 Meta 旗下的基礎(chǔ)人工智能研究機(jī)構(gòu) FAIR 工作過(guò)。



這篇文章從模型介紹、訓(xùn)練數(shù)據(jù)分布、模型主干規(guī)模、時(shí)間上下文長(zhǎng)度,以及視頻生成作為輔助監(jiān)督信號(hào)等多個(gè)維度,拆解了 DreamZero 表現(xiàn)突出的可能原因。



文章地址:https://itcanthink.substack.com/p/why-is-dreamzero-so-good-at-robotics

接下來(lái)是文章主要內(nèi)容。

DreamZero 是什么?



DreamZero 是 NVIDIA 提出的「世界 — 動(dòng)作模型」(world-action model)。它借鑒了世界模型中的許多核心思想,尤其是視頻生成對(duì)機(jī)器人任務(wù)有價(jià)值這一理念,但在關(guān)鍵設(shè)計(jì)上做了幾處重要改動(dòng)。其中最關(guān)鍵的一點(diǎn)是:它聯(lián)合建模動(dòng)作生成與視頻生成。

通常來(lái)說(shuō),世界模型大致可以分為兩類:

動(dòng)作條件世界模型:學(xué)習(xí)狀態(tài)與動(dòng)作到下一狀態(tài)的映射,即 x′=f (x,a)。其中 x 表示當(dāng)前觀測(cè)狀態(tài),a 表示動(dòng)作。例如 V-JEPA 2 或近期 RISE 論文中的世界模型就屬于這一類。

逆動(dòng)力學(xué)世界模型(inverse dynamics world models):例如 NVIDIA 的 DreamGen 或 1X 的世界模型。這類方法先學(xué)習(xí) x′=f (x),然后再通過(guò)一個(gè)逆動(dòng)力學(xué)模型學(xué)習(xí) a=g (x,x′)。

相比之下,DreamZero 更像一個(gè)傳統(tǒng)的機(jī)器人策略模型,但它同時(shí)還會(huì)預(yù)測(cè)未來(lái)視頻。因此,它學(xué)習(xí)的更接近于:(x′,a)=f (x)。

也就是說(shuō),它在同一個(gè)模型中同時(shí)預(yù)測(cè)未來(lái)狀態(tài)和對(duì)應(yīng)動(dòng)作

我們也可以把它與傳統(tǒng)的視覺 — 語(yǔ)言 — 動(dòng)作模型(vision-language-action model)進(jìn)行對(duì)比:DreamZero 不僅預(yù)測(cè)動(dòng)作,還預(yù)測(cè)未來(lái)畫面。這為模型提供了一種更豐富的監(jiān)督信號(hào),不僅告訴它該做什么,還告訴它世界接下來(lái)會(huì)變成什么樣,從而幫助模型更好地學(xué)習(xí)環(huán)境演化的規(guī)律。

基準(zhǔn)



RoboArena 是一個(gè)基于 Droid 構(gòu)建的分布式真實(shí)世界基準(zhǔn)測(cè)試。全球各地的評(píng)測(cè)者擁有相對(duì)相似的機(jī)器人和實(shí)驗(yàn)設(shè)置,并根據(jù)不同的自然語(yǔ)言指令,運(yùn)行一系列開放式的機(jī)器人任務(wù)評(píng)測(cè)。

這意味著,從數(shù)據(jù)分布的角度來(lái)看,它在某種程度上屬于 DreamZero 的分布內(nèi)(in-distribution)場(chǎng)景。因?yàn)?DreamZero 本身就是在 Droid 數(shù)據(jù)上訓(xùn)練的,而 Droid 中包含了非常相似的任務(wù)和實(shí)驗(yàn)環(huán)境。但與此同時(shí),這仍然是一個(gè)真實(shí)世界的評(píng)估環(huán)境,意味著會(huì)存在各種現(xiàn)實(shí)中的復(fù)雜性和變化;而且具體任務(wù)是由評(píng)測(cè)者自行選擇的。

RoboArena 還是一個(gè) head-to-head 式的比較基準(zhǔn),有點(diǎn)類似于在大模型發(fā)展中產(chǎn)生重要影響的 Chatbot Arena。



MolmoSpaces 是一個(gè)新的基準(zhǔn)測(cè)試平臺(tái),具備高保真物理模擬能力和多樣化、程序化生成的環(huán)境。

其中,MolmoSpaces-Bench 重點(diǎn)測(cè)試在多種受控變化條件下的任務(wù)表現(xiàn),包括抓?。╬ick)、放置(place)、開合(open and close)等基礎(chǔ)操作,以及這些操作的組合任務(wù)。

這是一個(gè)尚未接近性能飽和的新基準(zhǔn),也就是說(shuō),模型之間仍然存在明顯差距,仍有較大提升空間。而 DreamZero 在這些測(cè)試中都取得了優(yōu)異表現(xiàn)。

我們能從中學(xué)到什么?

我們可以具體對(duì)比一下 DreamZero 和 pi-0.5,因?yàn)?pi-0.5 是目前排名第二的模型。

訓(xùn)練數(shù)據(jù)方面

pi-0.5 使用了超過(guò) 1 萬(wàn)小時(shí)的真實(shí)機(jī)器人數(shù)據(jù)、視覺語(yǔ)言模型(VLM)數(shù)據(jù),以及 Droid 數(shù)據(jù)集進(jìn)行訓(xùn)練。而 DreamZero 則根據(jù)不同的模型版本(checkpoint),使用 DROID 數(shù)據(jù)或 AgiBot 數(shù)據(jù)進(jìn)行訓(xùn)練。

訓(xùn)練數(shù)據(jù)的分布很可能在這里起到了至關(guān)重要的作用??梢宰⒁獾?,在 DreamZero 的論文中,它在 AgiBot 數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于 pi-0.5(而 AgiBot 并不包含在 pi-0.5 的訓(xùn)練數(shù)據(jù)中);但在雙方都使用過(guò)的 DROID-Franka 設(shè)置下,兩者的性能差距則要小得多。



這似乎也在暗示:那額外的 1 萬(wàn)小時(shí)機(jī)器人數(shù)據(jù),可能并不像人們想象中那樣萬(wàn)能有效。

更關(guān)鍵的,或許不是數(shù)據(jù)量本身,而是是否在正確分布的機(jī)器人數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。在另一篇近期博客文章中,Physical Intelligence 展示了一個(gè)非常顯著的結(jié)果:當(dāng)模型在與目標(biāo)任務(wù)分布高度一致的合作方數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練時(shí),性能會(huì)出現(xiàn)大幅提升



因此,也許從另一種機(jī)器人身上額外增加 1 萬(wàn)小時(shí)的數(shù)據(jù),并不一定比使用手頭那些廉價(jià)、充足的第一視角視頻數(shù)據(jù)更有效。對(duì)于那些希望訓(xùn)練跨機(jī)體通用機(jī)器人大腦的研究者來(lái)說(shuō),這可能并不是一個(gè)好消息。換句話說(shuō),從不同機(jī)器人形態(tài)中獲得的收益,可能并不會(huì)比單純加入大量低成本的第一視角視頻數(shù)據(jù)更多。

模型主干

首先是主干模型規(guī)模之差。

DreamZero 基于 Wan2.1-I2V-14B-480P 構(gòu)建,是一個(gè) 140 億參數(shù)的視頻生成模型,相比之下,pi-0.5 基于 30 億參數(shù)的開源視覺語(yǔ)言模型 PaliGemma 進(jìn)行訓(xùn)練,參數(shù)規(guī)模差了將近 5 倍。

其次是信息輸入方式不同。

DreamZero 最多可以接收 8 幀上下文輸入,等于讓模型看一個(gè)短視頻片段。pi-0.5 只能輸入單幀圖像,每次決策只看當(dāng)前一張照片。

在真實(shí)世界中,機(jī)器人任務(wù)幾乎都具備幾個(gè)典型特征:環(huán)境往往是部分可觀測(cè)的,存在復(fù)雜的物理動(dòng)態(tài)過(guò)程,并且高度依賴對(duì)時(shí)間連續(xù)性的理解。例如,一扇門可能剛剛被推開了一點(diǎn)、某個(gè)物體正在滑動(dòng)、機(jī)械臂上一刻的速度和加速度都會(huì)影響下一步動(dòng)作的結(jié)果。

如果模型只能看到單幀圖像,它往往無(wú)法判斷物體是在運(yùn)動(dòng)還是靜止,也難以推斷當(dāng)前狀態(tài)是否由之前的動(dòng)作所引發(fā),更無(wú)法理解慣性等物理效應(yīng)。

而如果模型能夠觀察連續(xù)的多幀畫面,比如 8 幀歷史信息,它就能捕捉到運(yùn)動(dòng)趨勢(shì)和狀態(tài)變化,更容易學(xué)習(xí)到潛在的物理規(guī)律,從而在控制和決策上表現(xiàn)得更加穩(wěn)定和準(zhǔn)確。

模型規(guī)模

DreamZero 是一個(gè)體量巨大的模型,而論文中相當(dāng)一部分工作其實(shí)是在解決如何讓這個(gè) 140 億參數(shù)的龐然大物實(shí)現(xiàn)實(shí)時(shí)運(yùn)行。論文中的消融實(shí)驗(yàn)似乎表明,模型規(guī)模在性能表現(xiàn)上起到了非常關(guān)鍵的作用。



同時(shí)引入更長(zhǎng)的歷史信息、擴(kuò)大模型規(guī)模,通常都會(huì)帶來(lái)一個(gè)問(wèn)題:模型更難訓(xùn)練,而且在低數(shù)據(jù)環(huán)境下更容易過(guò)擬合。與大語(yǔ)言模型不同,后者由于擁有海量數(shù)據(jù),幾乎不用擔(dān)心過(guò)擬合問(wèn)題。機(jī)器人領(lǐng)域本質(zhì)上始終處于一個(gè)低數(shù)據(jù)環(huán)境中。即便是現(xiàn)在,DROID 數(shù)據(jù)集相比最小規(guī)模的 LLM 數(shù)據(jù)集,也依然小得多。

因此可以提出一個(gè)猜想:視頻生成目標(biāo)在這里充當(dāng)了一種輔助損失(auxiliary loss)。它為 DreamZero 模型施加了一種結(jié)構(gòu)約束,迫使模型學(xué)習(xí)某種內(nèi)部的世界模型。與來(lái)自機(jī)器人動(dòng)作的稀疏信號(hào)相比,視頻預(yù)測(cè)提供了一種更強(qiáng)、更密集的監(jiān)督信號(hào)。這可能使模型更容易適應(yīng)那些它并未直接訓(xùn)練過(guò)的、多樣化的 MolmoSpaces 環(huán)境。

最后的思考

僅憑這些論文,我們?nèi)匀粺o(wú)法得出全部結(jié)論。我們無(wú)法獲得 Physical Intelligence 所使用的全部數(shù)據(jù);NVIDIA 用于推理的 GB200 設(shè)備目前也并不容易獲取。但對(duì)很多人來(lái)說(shuō),可以得出一個(gè)經(jīng)驗(yàn),也許我們并不需要此前認(rèn)為那么多的數(shù)據(jù),就能夠在真實(shí)世界機(jī)器人任務(wù)中取得強(qiáng)勁表現(xiàn)。

最后,作者表示,接下來(lái)幾周會(huì)推出一期 RoboPapers 播客節(jié)目,專門討論 DreamZero;此外,下周也會(huì)發(fā)布一篇更深入的分析報(bào)告,感興趣的讀者可以關(guān)注一下。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以軍說(shuō)襲擊一名伊朗高級(jí)指揮官

以軍說(shuō)襲擊一名伊朗高級(jí)指揮官

界面新聞
2026-03-03 20:28:28
一新能源車高速上兩次突然斷電 轉(zhuǎn)向、動(dòng)力全部丟失!車主:不敢開了

一新能源車高速上兩次突然斷電 轉(zhuǎn)向、動(dòng)力全部丟失!車主:不敢開了

快科技
2026-03-03 17:21:04
35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

丫頭舫
2026-03-03 21:33:10
靠100個(gè)車位的“睡后收入”?巴黎男子提前退休!

靠100個(gè)車位的“睡后收入”?巴黎男子提前退休!

新歐洲
2026-02-17 19:38:49
本世紀(jì)第一艘航母被擊沉,反艦導(dǎo)彈密集爆炸:美伊爆發(fā)大規(guī)模激戰(zhàn)

本世紀(jì)第一艘航母被擊沉,反艦導(dǎo)彈密集爆炸:美伊爆發(fā)大規(guī)模激戰(zhàn)

凡知
2026-03-04 02:06:45
iPhone 17e 發(fā)布,4499 元起售;馬斯克:10 年內(nèi)上班將全憑自愿;盧偉冰:5 年內(nèi)機(jī)器人進(jìn)小米產(chǎn)線

iPhone 17e 發(fā)布,4499 元起售;馬斯克:10 年內(nèi)上班將全憑自愿;盧偉冰:5 年內(nèi)機(jī)器人進(jìn)小米產(chǎn)線

極客公園
2026-03-03 09:01:58
春節(jié)檔票房跌回2018,6700萬(wàn)影迷消失:人們?yōu)樯恫豢措娪傲耍?>
    </a>
        <h3>
      <a href=時(shí)評(píng)人李文君
2026-03-03 20:56:57
票價(jià)漲9倍!脫衣舞和NBA結(jié)合!就是好使啊!

票價(jià)漲9倍!脫衣舞和NBA結(jié)合!就是好使??!

柚子說(shuō)球
2026-03-03 09:43:46
你有知道哪些炸裂的秘密?網(wǎng)友:我有個(gè)秘密說(shuō)出來(lái)肯定大家要笑死

你有知道哪些炸裂的秘密?網(wǎng)友:我有個(gè)秘密說(shuō)出來(lái)肯定大家要笑死

帶你感受人間冷暖
2026-01-29 00:10:05
跟隊(duì):帕爾默狀態(tài)下滑和身體透支有關(guān),他已經(jīng)連續(xù)三年無(wú)夏休

跟隊(duì):帕爾默狀態(tài)下滑和身體透支有關(guān),他已經(jīng)連續(xù)三年無(wú)夏休

懂球帝
2026-03-03 16:59:25
悲催!單親爸爸打鐵花成網(wǎng)紅后中毒去世,留下2個(gè)人未成年孩子

悲催!單親爸爸打鐵花成網(wǎng)紅后中毒去世,留下2個(gè)人未成年孩子

恪守原則和底線
2026-03-04 06:00:03
多年后才懂,為何岳不群起初對(duì)令狐沖很好,后來(lái)卻越瞧他越不順眼

多年后才懂,為何岳不群起初對(duì)令狐沖很好,后來(lái)卻越瞧他越不順眼

武俠百曉生
2026-03-01 00:02:54
學(xué)生返校被逐個(gè)開包檢查 還用金屬探測(cè)儀掃描

學(xué)生返校被逐個(gè)開包檢查 還用金屬探測(cè)儀掃描

閃電新聞
2026-03-03 15:05:21
徹底癱瘓!兩年了為何許家印遲遲不判刑?真相比你想象的更復(fù)雜

徹底癱瘓!兩年了為何許家印遲遲不判刑?真相比你想象的更復(fù)雜

歷史偉人錄
2026-02-24 18:19:45
民間“瘋婆婆”的預(yù)言全部應(yīng)驗(yàn),人類將遭大劫!

民間“瘋婆婆”的預(yù)言全部應(yīng)驗(yàn),人類將遭大劫!

神奇故事
2026-02-12 04:56:40
谷愛凌社媒:代表中國(guó)參賽,意味著有機(jī)會(huì)通過(guò)體育去激勵(lì)他人

谷愛凌社媒:代表中國(guó)參賽,意味著有機(jī)會(huì)通過(guò)體育去激勵(lì)他人

懂球帝
2026-03-03 16:38:16
你見過(guò)的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬(wàn)人的奇跡

你見過(guò)的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬(wàn)人的奇跡

夜深愛雜談
2026-01-04 23:05:06
機(jī)構(gòu):華為奪2025中國(guó)手機(jī)銷量第一 蘋果全球第一

機(jī)構(gòu):華為奪2025中國(guó)手機(jī)銷量第一 蘋果全球第一

快科技
2026-03-03 15:35:06
段奕宏苦追九載娶妻,妻子怕疼丁克十三載,余生寵妻不渝

段奕宏苦追九載娶妻,妻子怕疼丁克十三載,余生寵妻不渝

日落于西
2026-03-03 09:36:26
蘋果正式官宣:3月11日,新機(jī)全面開售!

蘋果正式官宣:3月11日,新機(jī)全面開售!

科技堡壘
2026-03-03 11:04:28
2026-03-04 09:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12403文章數(shù) 142578關(guān)注度
往期回顧 全部

科技要聞

新MacBook Pro首發(fā)M5 Pro/Max芯片 17999起

頭條要聞

美國(guó)會(huì)將就限制總統(tǒng)戰(zhàn)爭(zhēng)權(quán)力投票 魯比奧解釋動(dòng)武原因

頭條要聞

美國(guó)會(huì)將就限制總統(tǒng)戰(zhàn)爭(zhēng)權(quán)力投票 魯比奧解釋動(dòng)武原因

體育要聞

35輪后積分-7,他們?cè)庥鍪飞献钤绲慕导?jí)

娛樂(lè)要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財(cái)經(jīng)要聞

伊朗,正在打破特朗普的幻想

汽車要聞

第一梯隊(duì)輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

健康
教育
旅游
時(shí)尚
數(shù)碼

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

高校分類改革,對(duì)考生和家長(zhǎng)意味著什么?

旅游要聞

渝見好“村”光|萬(wàn)盛王家壩村:“抗戰(zhàn)煤都”變身詩(shī)意原鄉(xiāng)

今年春天的半裙,很“?!?!

數(shù)碼要聞

53.7%份額一騎絕塵!小米音箱坐穩(wěn)線上銷量第一

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版