国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達(dá)研究:看完44000小時人類視頻后,機(jī)器人學(xué)會想象物理世界

0
分享至

在走向通用人工智能的道路上,機(jī)器人領(lǐng)域長期面臨著“莫拉維克悖論”的限制:許多對人類來說很困難的事,AI 卻很擅長;而許多對人類來說輕而易舉的事,AI 反而做不到。

例如,讓計算機(jī)在智力測試或棋類游戲中擊敗人類或許相對容易,但要讓機(jī)器人像一歲孩子那樣具備對物理世界的感知和運動本能,卻難如登天。

近年來,大語言模型展現(xiàn)了對人類知識的壓縮與生成能力,但在物理交互層面,如何讓智能體理解“動作”與“環(huán)境”之間復(fù)雜的因果關(guān)系,始終是具身智能尚未攻克的難題。

近日,英偉達(dá)(NVIDIA)與其通用具身智能研究團(tuán)隊(GEAR)共 30 個作者聯(lián)合發(fā)布了一項代號為 DreamDojo 的最新研究成果,試圖從根本上影響機(jī)器人學(xué)習(xí)物理世界的方式。


(來源:GitHub)

這項工作并沒有依賴傳統(tǒng)的、昂貴的機(jī)器人遙操作數(shù)據(jù)堆疊,而是另辟蹊徑,構(gòu)建了一個包含 44,000 小時、第一人稱視角人類視頻的龐大數(shù)據(jù)庫,并以此訓(xùn)練出了一個能夠通用化的機(jī)器人世界模型。

這一模型不僅能夠逼真地生成物理交互視頻,更關(guān)鍵的是,它讓機(jī)器人首次具備了可控的“想象力”。即在執(zhí)行動作之前,在潛意識中預(yù)演人類世界物理后果的能力。


(來源:論文)

世界模型的概念已經(jīng)并不新鮮。從早期的游戲環(huán)境模擬到自動駕駛中的軌跡預(yù)測,預(yù)測未來狀態(tài)一直是智能決策的核心。然而,在開放世界的機(jī)器人操作任務(wù)中,世界模型的構(gòu)建面臨著獨特的挑戰(zhàn)。與有著清晰規(guī)則的電子游戲或結(jié)構(gòu)化道路不同,家庭、工廠或辦公室等非結(jié)構(gòu)化環(huán)境充滿了不確定性。

例如一個看似簡單的“抓取水杯”動作,涉及物體材質(zhì)、摩擦力、液體晃動以及機(jī)械臂動力學(xué)等無數(shù)變量。此前的視頻生成模型,如 OpenAI 的 Sora 或 Google 的 Genie,雖然在畫面生成質(zhì)量上取得了突破,但它們大多缺乏精確的動作控制接口,難以直接服務(wù)于機(jī)器人的決策回路。

而此次 DreamDojo 的核心突破就在于此,它證明了通過大規(guī)模的人類視頻預(yù)訓(xùn)練,結(jié)合創(chuàng)新的“潛在動作”(Latent Actions)表征,可以有效地彌合人類與機(jī)器人之間的“具身差異”(Embodiment Gap),從而讓機(jī)器人獲得對物理規(guī)律的通用理解。

借力人類視頻突破數(shù)據(jù)缺口

長期以來,制約機(jī)器人基礎(chǔ)模型發(fā)展的最大瓶頸在于數(shù)據(jù)。盡管互聯(lián)網(wǎng)上充斥著萬億級別的文本和圖像數(shù)據(jù),但高質(zhì)量的“機(jī)器人操作數(shù)據(jù)”。即包含精確動作指令(Action Labels)和環(huán)境反饋的序列數(shù)據(jù)卻極度稀缺。目前主流的機(jī)器人數(shù)據(jù)集,如 Open X-Embodiment,雖然匯集了多個實驗室的數(shù)據(jù),但在場景多樣性和物理交互的豐富度上,仍遠(yuǎn)不足以覆蓋真實世界的復(fù)雜性。

英偉達(dá)團(tuán)隊意識到,單純依靠擴(kuò)大機(jī)器人實體數(shù)據(jù)的采集規(guī)模是不現(xiàn)實的。采集成本高昂、硬件損耗大、場景布置繁瑣,這些因素限制了數(shù)據(jù)的增長速度。相比之下,人類在日常生活中每時每刻都在與物理世界交互,而這些交互過程如果被記錄下來,本身就是蘊(yùn)含著豐富物理知識的寶庫。

為了挖掘這一寶庫,研究團(tuán)隊構(gòu)建了名為 DreamDojo-HV(Human Videos)的數(shù)據(jù)集。這是一個規(guī)模驚人的數(shù)據(jù)集合,包含了約 44,711 小時的第一人稱視角視頻。

這些視頻并非來自于受控的實驗室環(huán)境,而是廣泛采集自真實世界,涵蓋了家庭烹飪、工業(yè)維修、手工制作、日常清潔等超過 6,000 種獨特的技能和 1,000 多種不同的場景。為了保證數(shù)據(jù)的多樣性,團(tuán)隊還特別整合了 EgoDex 等現(xiàn)有的高質(zhì)量數(shù)據(jù)集,使得 DreamDojo-HV 在規(guī)模上比此前機(jī)器人學(xué)習(xí)中使用的最大視頻數(shù)據(jù)集還要大出幾個數(shù)量級。


(來源:論文)

然而,直接使用人類視頻訓(xùn)練機(jī)器人模型也面臨著一定困難。最直觀的問題是:人類的手臂結(jié)構(gòu)與機(jī)器人的機(jī)械臂完全不同,且人類視頻中并不包含機(jī)器人的關(guān)節(jié)角度、力矩等控制信號。這種缺失導(dǎo)致模型難以直接學(xué)習(xí)“動作”與“結(jié)果”之間的映射關(guān)系。

逐幀推理下一個動作

為了解決無標(biāo)簽人類視頻的利用問題,DreamDojo 引入了一項關(guān)鍵技術(shù):連續(xù)潛在動作(Continuous Latent Actions)。

在傳統(tǒng)的機(jī)器人學(xué)習(xí)中,模型通常直接預(yù)測離散的關(guān)節(jié)動作或末端執(zhí)行器位姿。但在處理海量無標(biāo)注的人類視頻時,這種方法行不通了。因此,研究人員設(shè)計了一個基于時空 Transformer 的變分自編碼器(VAE)作為“潛在動作模型”。

這個模型的作用類似于一個能夠理解動作本質(zhì)的“翻譯官”。它不關(guān)注具體的關(guān)節(jié)如何旋轉(zhuǎn),而是通過觀察視頻中連續(xù)幀的變化,提取出一個低維的、連續(xù)的潛在向量。這個向量代表了導(dǎo)致環(huán)境發(fā)生變化的“意圖”或“力學(xué)特征”。


圖 | 潛在動作模型(來源:論文)

通過這種設(shè)計,潛在動作成為了連接人類視頻與機(jī)器人控制的通用橋梁。在預(yù)訓(xùn)練階段,模型通過自我監(jiān)督的方式,學(xué)習(xí)如何從像素變化中推斷出潛在動作,并利用這些潛在動作預(yù)測下一幀畫面。

這使得 DreamDojo 能夠在沒有顯式動作標(biāo)簽的情況下,從 44,000 小時的視頻中汲取物理世界的因果邏輯。例如,它通過觀察無數(shù)次“手推開門”的視頻,學(xué)會了“施加推力”這一潛在動作會導(dǎo)致“門打開”這一視覺結(jié)果的物理規(guī)律,而這種規(guī)律對于機(jī)器人來說同樣適用。

在具體的模型架構(gòu)上,DreamDojo 建立在英偉達(dá)此前發(fā)布的 Cosmos-Predict2.5 基礎(chǔ)之上。這是一個強(qiáng)大的潛在視頻擴(kuò)散模型(Latent Video Diffusion Model),原本用于通用的視頻生成。為了適應(yīng)機(jī)器人的實時控制需求,研究團(tuán)隊對其進(jìn)行了深度的改造。

為了提高動作的可控性,團(tuán)隊放棄了絕對關(guān)節(jié)位置的輸入方式,轉(zhuǎn)而采用“相對動作”(Relative Actions)作為條件。實驗表明,相對動作能夠更好地聚焦于物體與手部的交互變化,減少了背景環(huán)境對模型注意力的分散。

同時,針對視頻生成中常見的“因果混淆”問題,即模型難以區(qū)分動作是原因還是結(jié)果。研究團(tuán)隊提出了一種“分塊注入”(Chunked Injection)策略。

他們將未來的動作序列打包成塊,一次性輸入到模型的每一幀生成過程中。這種強(qiáng)先驗信息強(qiáng)制模型關(guān)注長時程的動作影響,從而顯著提升了生成視頻的邏輯連貫性。

此外,為了確保生成的物理過程符合現(xiàn)實世界的連續(xù)性,研究團(tuán)隊還引入了專門的時間一致性損失函數(shù)(Temporal Consistency Loss)。這一函數(shù)約束了物體在時間軸上的運動軌跡,防止了視頻生成中常見的物體閃爍、憑空消失或形狀突變等偽影現(xiàn)象,確保了物理模擬的高保真度。

從慢速擴(kuò)散到超快實時“想象”

擁有一個懂物理的模型只是第一步,對于機(jī)器人應(yīng)用來說,推理速度至關(guān)重要。傳統(tǒng)的視頻擴(kuò)散模型生成一幀高質(zhì)量畫面往往需要數(shù)十次迭代,耗時數(shù)秒,這對于需要毫秒級響應(yīng)的機(jī)器人控制回路來說是不可接受的。

為了解決這一難題,DreamDojo 采用了一種名為“自強(qiáng)迫”(Self Forcing)的蒸餾技術(shù),成功將原本笨重的雙向注意力擴(kuò)散模型轉(zhuǎn)化為高效的自回歸模型。

這一過程通過“教師-學(xué)生”訓(xùn)練模式實現(xiàn):首先利用高精度的教師模型生成大量的軌跡數(shù)據(jù),然后訓(xùn)練學(xué)生模型去模仿這些軌跡。但在蒸餾過程中,學(xué)生模型不僅要學(xué)習(xí)單幀的生成,還要學(xué)習(xí)如何在僅有極短歷史上下文的情況下,預(yù)測未來的長期演變。

這一蒸餾過程將模型的推理步數(shù)從原本的 35 步大幅壓縮至 4 步。最終,DreamDojo 在單張 NVIDIA H100 GPU 上實現(xiàn)了 10.81 FPS(幀/秒)的實時推理速度。這意味著機(jī)器人可以在不到 0.1 秒的時間內(nèi),在“腦?!敝猩晌磥淼囊曈X反饋。

這不僅滿足了實時控制的要求,更讓長時程的交互模擬成為可能。實驗顯示,經(jīng)過蒸餾后的模型能夠連續(xù)生成長達(dá) 1 分鐘(約 600 幀)的穩(wěn)定視頻,且在長時間跨度下依然保持對物體及其物理屬性的記憶,沒有出現(xiàn)常見的畫面崩壞。

打通“虛實”邊界的實際應(yīng)用

DreamDojo 的價值遠(yuǎn)不止于生成逼真的視頻,其實質(zhì)是為機(jī)器人提供了一個低成本、高保真的“試錯空間”。基于這一世界模型,英偉達(dá)團(tuán)隊展示了三項核心應(yīng)用,充分證明了其在機(jī)器人研發(fā)與部署流程中的潛力。

首先是策略評估(Policy Evaluation)。在機(jī)器人開發(fā)中,驗證一個新的控制策略通常需要實機(jī)測試,這不僅效率低下,還伴隨著硬件損壞的風(fēng)險。DreamDojo 提供了一個替代方案:將策略部署在世界模型中,讓機(jī)器人在虛擬的視頻流中執(zhí)行任務(wù)。

研究人員在 AgiBot 機(jī)器人的水果包裝任務(wù)中進(jìn)行了驗證,結(jié)果令人振奮:DreamDojo 模擬出的任務(wù)成功率與真實世界的成功率呈現(xiàn)出極高的線性相關(guān)性(Pearson 相關(guān)系數(shù)高達(dá) 0.995)。這意味著開發(fā)者可以放心地在模擬環(huán)境中篩選最優(yōu)策略,而無需在現(xiàn)實世界中進(jìn)行成百上千次的物理實驗。

其次是基于模型的規(guī)劃(Model-based Planning)。利用 DreamDojo 的預(yù)測能力,機(jī)器人可以在執(zhí)行動作之前,在“思維”中并行推演多種動作方案的結(jié)果。

例如,在抓取一個被遮擋的蘋果時,機(jī)器人可以預(yù)演直接抓取和先移開遮擋物兩種方案,DreamDojo 會即時生成相應(yīng)的未來視頻。通過評估視頻中的任務(wù)完成度,機(jī)器人可以選擇最優(yōu)路徑。實驗表明,在引入這種在線規(guī)劃機(jī)制后,機(jī)器人在復(fù)雜長程任務(wù)中的成功率相比直接執(zhí)行策略提升了近兩倍。

最后是實時遙操作(Live Teleoperation)。借助蒸餾后的高推理速度,操作員可以通過 VR 手柄實時驅(qū)動虛擬環(huán)境中的機(jī)器人。DreamDojo 能夠即時響應(yīng)操作員的動作,并生成相應(yīng)的視覺反饋。這種“所見即所得”的零延遲體驗,不僅為遠(yuǎn)程控制提供了新的界面,也為人類向機(jī)器人演示復(fù)雜技能提供了更直觀的數(shù)據(jù)收集方式。


(來源:論文)

當(dāng)然,DreamDojo 并非完美無缺。英偉達(dá)團(tuán)隊在報告中坦誠地指出了當(dāng)前模型的局限性。盡管在大部分日常場景中表現(xiàn)優(yōu)異,但在面對一些極端動態(tài)(如快速揮手、物體高速碰撞)或涉及復(fù)雜流體動力學(xué)(如倒水時的水流湍流)的場景時,生成的視頻仍會出現(xiàn)物理失真或模糊。

此外,雖然模型在未見過的物體上展現(xiàn)了良好的泛化性,但對于完全陌生的物理機(jī)制(例如具有特殊彈性的軟體材料),其預(yù)測能力依然有限。

此外,目前的 DreamDojo 主要側(cè)重于視覺層面的物理模擬,尚未整合觸覺、聽覺等多模態(tài)信息。對于像“盲插鑰匙”或“判斷物體重量”這樣極度依賴觸覺反饋的精細(xì)操作任務(wù),單純依靠視覺預(yù)測的世界模型仍顯得力不從心。未來的研究方向可能需要探索如何將觸覺信號引入潛在動作空間,構(gòu)建更加全能的多模態(tài)世界模型。

https://arxiv.org/abs/2602.06949

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報銷

傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報銷

小虎新車推薦員
2026-02-26 18:49:24
男子在順風(fēng)車上排便后“失聯(lián)”,車主無奈報警!平臺回應(yīng):賠償車主519元,涉事乘客已被封號

男子在順風(fēng)車上排便后“失聯(lián)”,車主無奈報警!平臺回應(yīng):賠償車主519元,涉事乘客已被封號

揚子晚報
2026-02-25 22:20:40
德國總理默茨一行見了10位浙江企業(yè)家代表,他們是誰?

德國總理默茨一行見了10位浙江企業(yè)家代表,他們是誰?

都市快報橙柿互動
2026-02-26 21:32:19
升破6.85!人民幣創(chuàng)兩年新高背后,外資正在瘋狂抄底你的“命脈”

升破6.85!人民幣創(chuàng)兩年新高背后,外資正在瘋狂抄底你的“命脈”

王二哥老搞笑
2026-02-26 14:08:07
令人窒息!公公掀翻飯桌燙傷3歲孫子,就因一句咱們先吃,不等了

令人窒息!公公掀翻飯桌燙傷3歲孫子,就因一句咱們先吃,不等了

丫頭舫
2026-02-26 16:42:46
深夜,黃金白銀走低!美聯(lián)儲降息,大消息!美伊談判暫停,美軍最大航母駛向中東!

深夜,黃金白銀走低!美聯(lián)儲降息,大消息!美伊談判暫停,美軍最大航母駛向中東!

證券時報e公司
2026-02-26 23:20:04
2026春節(jié)走訪思考:高速服務(wù)區(qū)取消加油站,真的好嗎?

2026春節(jié)走訪思考:高速服務(wù)區(qū)取消加油站,真的好嗎?

丁道師
2026-02-25 19:04:45
曾被吹捧上天,如今卻淪為笑柄的7個坑人設(shè)計,你家裝了幾個?

曾被吹捧上天,如今卻淪為笑柄的7個坑人設(shè)計,你家裝了幾個?

Home范
2026-02-26 12:44:21
印陸軍前參謀長終于承認(rèn):印軍白死了!加勒萬那夜,輸?shù)牟皇悄懥?>
    </a>
        <h3>
      <a href=梁濆愛玩車
2026-02-26 00:45:15
亞洲第一帥又胖了!香港頂流姜濤過完年演出,腿粗肚子大跳舞笨拙

亞洲第一帥又胖了!香港頂流姜濤過完年演出,腿粗肚子大跳舞笨拙

冷紫葉
2026-02-25 18:19:24
這么成熟的臉來演初中生?都可以演初中生他媽了,這部劇瘋了吧?

這么成熟的臉來演初中生?都可以演初中生他媽了,這部劇瘋了吧?

星宿影視鴨
2026-02-26 11:17:18
俄烏犧牲士兵們的平凡愿望,如今只能在AI里實現(xiàn)了

俄烏犧牲士兵們的平凡愿望,如今只能在AI里實現(xiàn)了

網(wǎng)易新聞出品
2026-02-24 10:00:05
廣東主持區(qū)志航現(xiàn)狀:66歲很油膩,轉(zhuǎn)行成行為藝術(shù)家,女兒很漂亮

廣東主持區(qū)志航現(xiàn)狀:66歲很油膩,轉(zhuǎn)行成行為藝術(shù)家,女兒很漂亮

白面書誏
2026-02-26 19:24:47
一路走好!2026年春晚才過10天,已有4位名人接連去世,令人唏噓

一路走好!2026年春晚才過10天,已有4位名人接連去世,令人唏噓

阿訊說天下
2026-02-26 11:23:19
一覺醒來,全球都在瘋搶稀缺金屬

一覺醒來,全球都在瘋搶稀缺金屬

販財局
2026-02-26 08:28:20
張鎮(zhèn)麟3中0!男籃客場贏日本,3新人沒亮點,賀希寧隊友首發(fā)拿2分

張鎮(zhèn)麟3中0!男籃客場贏日本,3新人沒亮點,賀希寧隊友首發(fā)拿2分

體壇大事記
2026-02-26 22:50:38
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

漢史趣聞
2025-11-08 09:27:32
司機(jī):“不好意思,你差評有點多,不敢接”,乘客當(dāng)場破防!

司機(jī):“不好意思,你差評有點多,不敢接”,乘客當(dāng)場破防!

寶哥精彩賽事
2026-02-27 01:37:35
隨著中國贏日本 澳大利亞3連勝 韓國翻車 男籃世預(yù)賽晉級形勢出爐

隨著中國贏日本 澳大利亞3連勝 韓國翻車 男籃世預(yù)賽晉級形勢出爐

侃球熊弟
2026-02-26 21:58:43
湖人內(nèi)訌升級!東契奇唇語曝光!甩鍋詹姆斯,球迷:想逼走goat

湖人內(nèi)訌升級!東契奇唇語曝光!甩鍋詹姆斯,球迷:想逼走goat

阿泰希特
2026-02-26 15:54:56
2026-02-27 07:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16325文章數(shù) 514660關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

美國政府對外交官下令:開始行動

頭條要聞

美國政府對外交官下令:開始行動

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強(qiáng)公開表態(tài) 財產(chǎn)留給兒媳婦郭碧婷

財經(jīng)要聞

中國AI調(diào)用量超美國 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

教育
旅游
手機(jī)
房產(chǎn)
數(shù)碼

教育要聞

高考100天倒計時!3招寄語助孩子沖刺金榜

旅游要聞

海南三亞民宿8499元房間取消訂單,被罰35萬元:營業(yè)執(zhí)照沒保住

手機(jī)要聞

折痕幾乎看不見:榮耀王飛展示Magic V6折疊屏手機(jī)內(nèi)屏

房產(chǎn)要聞

2.2萬/m2起!三亞主城性價比標(biāo)桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

數(shù)碼要聞

三星Galaxy S26全球新品發(fā)布

無障礙瀏覽 進(jìn)入關(guān)懷版