国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

視頻模型能解決機(jī)器人“預(yù)測(cè)未來”的問題嗎?短期能,長(zhǎng)期不行

0
分享至

2026 年 2 月 12 日,普林斯頓大學(xué)機(jī)械與航空航天工程系副教授 Anirudha Majumdar 在 X 上發(fā)表了一篇長(zhǎng)博文,直面一個(gè)正在機(jī)器人學(xué)界升溫的核心爭(zhēng)論:為具身智能構(gòu)建世界模型,到底應(yīng)不應(yīng)該去“預(yù)測(cè)像素”?

Majumdar 是普林斯頓機(jī)器人研究倡議(Princeton Robotics Initiative)的聯(lián)合主任,同時(shí)在 Google DeepMind 擔(dān)任兼職訪問研究科學(xué)家。他的研究聚焦于讓機(jī)器人在以人為中心的環(huán)境中安全、可靠地泛化到新場(chǎng)景,曾獲斯隆研究獎(jiǎng)(Sloan Fellowship)、兩次 Google 教授研究獎(jiǎng),以及《國(guó)際機(jī)器人研究期刊》(IJRR)年度最佳論文等榮譽(yù)。


圖丨Anirudha Majumdar(來源:Princeton MAE)

他本人也是去年 12 月 Google DeepMind 那篇引發(fā)廣泛關(guān)注的 Veo 機(jī)器人策略評(píng)估工作的合作者之一,該研究展示了如何用前沿視頻生成模型 Veo 作為機(jī)器人策略的“世界仿真器”,通過 1,600 多次真實(shí)世界評(píng)估驗(yàn)證了其有效性。

在文章中,Majumdar 表示當(dāng)前機(jī)器人領(lǐng)域的世界模型幾乎等同于視頻生成模型,這條路線在概念簡(jiǎn)潔性、評(píng)估便利性、商業(yè)推動(dòng)力等方面擁有不容低估的短期優(yōu)勢(shì);但 Yann LeCun 倡導(dǎo)多年的潛在世界模型(以 JEPA 架構(gòu)為代表)在長(zhǎng)時(shí)域規(guī)劃上更具前景,可能在五年左右的時(shí)間尺度上成為關(guān)鍵組件。兩者并非你死我活的替代關(guān)系,更可能走向協(xié)同。

以下是這篇博文的全文編譯。

機(jī)器人的世界模型

在機(jī)器人學(xué)界,一個(gè)大致的共識(shí)似乎正彌漫在空氣中:未來的通用策略將建立在“世界建?!钡呐浞街?,而非迄今為止占主導(dǎo)地位的 VLM(Vision-Language Model,視覺語言模型)骨架方案。

論點(diǎn)如下:VLM 沒有被顯式地訓(xùn)練來預(yù)測(cè)未來,因此在幾何、空間和物理推理能力上,也就是預(yù)測(cè)動(dòng)作精細(xì)后果所需的那類能力并不可靠。相比之下,世界模型允許機(jī)器人“想象”未來以進(jìn)行規(guī)劃,例如:(1)生成一段想象中成功執(zhí)行的視頻,再用逆動(dòng)力學(xué)模型推斷所需動(dòng)作;或者(2)直接使用一個(gè)以動(dòng)作為條件的世界模型來優(yōu)化規(guī)劃。

2026 年初的機(jī)器人學(xué):世界模型=視頻模型

在 2026 年初,機(jī)器人領(lǐng)域的世界建模由視頻世界模型主導(dǎo),即那些被訓(xùn)練來預(yù)測(cè)未來視頻幀(以文本以及潛在的動(dòng)作為條件)的生成式模型。這些模型建立在視頻建模領(lǐng)域巨大進(jìn)步的基礎(chǔ)之上:在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上訓(xùn)練的基于擴(kuò)散的架構(gòu),能夠生成驚人逼真的視頻,包含復(fù)雜的物理交互,例如來自 Veo、Cosmos 和 Wan 的視頻。

僅在過去一年中,我們就已經(jīng)看到經(jīng)過機(jī)器人數(shù)據(jù)微調(diào)的視頻模型能夠執(zhí)行策略評(píng)估、數(shù)據(jù)生成和推理時(shí)規(guī)劃生成;相關(guān)綜述可參閱文獻(xiàn)[1]。就我個(gè)人而言,參與 Veo 的策略評(píng)估工作提供了一次巨大的認(rèn)知更新,看到如下所示的視頻模型“仿真”,讓我確信視頻模型終于到了可以在機(jī)器人領(lǐng)域大展身手的時(shí)刻。

視頻模型的挑戰(zhàn)

盡管結(jié)果令人振奮,當(dāng)前所有用于機(jī)器人的視頻模型都受到同一組幻覺問題的困擾:物體憑空復(fù)制、無中生有、憑空消失,或者在自發(fā)地或在被遮擋后重新出現(xiàn)時(shí)發(fā)生形變。

此外,長(zhǎng)時(shí)域生成是一個(gè)重大挑戰(zhàn):當(dāng)前機(jī)器人領(lǐng)域的視頻模型很難在超過 20-30 秒之后仍能產(chǎn)出高質(zhì)量的生成結(jié)果。

潛在世界模型:不要預(yù)測(cè)像素

從直覺上看,視頻建模對(duì)于世界模型而言似乎是一個(gè)不必要地困難的任務(wù)。預(yù)測(cè)背景中樹葉運(yùn)動(dòng)的像素級(jí)細(xì)節(jié),或者預(yù)測(cè)即將出現(xiàn)在我辦公室門口的人的精確面部特征,顯然是沒有必要的。

我們可以轉(zhuǎn)而構(gòu)建一個(gè)潛在世界模型(latent world model),只預(yù)測(cè)環(huán)境的某些特征。具體來說,通過預(yù)測(cè)可預(yù)測(cè)之物,我們可以將表征能力集中在真正重要的事情上,而不是那些細(xì)枝末節(jié),比如在特定光照條件下物體的精確外觀。

Yann LeCun 多年來已經(jīng)非常有力地闡述了這一論點(diǎn)(參見他在普林斯頓機(jī)器人研討會(huì)上的演講)。他在 Meta 和 NYU 的團(tuán)隊(duì)開發(fā)了多種形式的 JEPA(Joint-Embedding Predictive Architecture,聯(lián)合嵌入預(yù)測(cè)架構(gòu)),這種架構(gòu)學(xué)習(xí)觀測(cè)的潛在表征,以預(yù)測(cè)其他(例如未來)觀測(cè)的表征。

V-JEPA 2 展示了這種自監(jiān)督學(xué)習(xí)如何涌現(xiàn)出有用的視頻特征。此外,該工作還展示了模型的動(dòng)作條件版本如何通過在推理時(shí)優(yōu)化動(dòng)作序列來實(shí)現(xiàn)機(jī)器人規(guī)劃。

潛在世界模型的論點(diǎn)在長(zhǎng)時(shí)域任務(wù)上尤其有說服力。預(yù)測(cè)世界在未來 10-20 秒內(nèi)如何在像素層面演化似乎還說得過去,但將這一尺度擴(kuò)展到分鐘或小時(shí)級(jí)別,既極其困難,又完全沒有必要。

為什么視頻模型將在短期內(nèi)勝出

在接觸視頻模型之前,我曾被上述潛在世界模型的論點(diǎn)所說服;只預(yù)測(cè)世界顯著特征的極簡(jiǎn)主義方法確實(shí)很有吸引力。然而,我想要論證的是,視頻建模在技術(shù)和實(shí)踐上有一些不應(yīng)被低估的顯著優(yōu)勢(shì)。這些優(yōu)勢(shì)在一年前對(duì)我來說并不顯而易見,我希望在這里把它們明確寫出來能對(duì)其他人有所幫助。

概念上的簡(jiǎn)潔性。視頻建模的任務(wù)是明確無歧義的:預(yù)測(cè)未來幀。類似于 LLM(Large Language Model,大語言模型)的下一個(gè) token 預(yù)測(cè),一個(gè)清晰的監(jiān)督信號(hào)可以為下游任務(wù)帶來良好的特征,以及諸如物體分割、視頻編輯和視覺推理等涌現(xiàn)能力。

這與 JEPA 形成鮮明對(duì)比:預(yù)測(cè)可預(yù)測(cè)之物這一任務(wù)并非完全指定的(not fully specified),如果實(shí)現(xiàn)不當(dāng)會(huì)導(dǎo)致表征坍縮——構(gòu)建一個(gè)可預(yù)測(cè)嵌入的最簡(jiǎn)單方式就是讓它成為常數(shù)。

清晰的評(píng)估指標(biāo)。對(duì)視頻模型進(jìn)行爬坡優(yōu)化(hill-climbing)是直截了當(dāng)?shù)?。有?biāo)準(zhǔn)指標(biāo)(如 LPIPS 或 FID)可以用來評(píng)估視頻生成的質(zhì)量。JEPA 則不然,它優(yōu)化的損失函數(shù)并不一定與下游性能相關(guān)(不過最近的 LeJepa 論文在這方面展現(xiàn)了一些積極跡象)。

推理時(shí)縮放與驗(yàn)證器。視頻模型允許 VLM 被直接用作驗(yàn)證器。通過生成多段視頻并用 VLM 打分,我們可以過濾掉不真實(shí)或低質(zhì)量的生成結(jié)果。這提供了一個(gè)簡(jiǎn)潔的推理時(shí)縮放配方。

視頻模型賦能策略評(píng)估。視頻模型可以充當(dāng)機(jī)器人策略的完整仿真器。為了執(zhí)行閉環(huán) rollout,仿真器的輸出必須與策略的輸入匹配。對(duì)于視覺運(yùn)動(dòng)控制(visuomotor control),這就要求生成完整的圖像(除非策略被迫在潛在世界模型的潛在空間中接收輸入)。

視頻模型與圖像編輯器的天然組合。視頻模型可以接受編輯后的幀作為輸入。正如我們?cè)?Veo 工作中所展示的,這提供了一個(gè)簡(jiǎn)潔的配方,用于在分布外(out-of-distribution)場(chǎng)景中進(jìn)行策略評(píng)估。

真實(shí)世界的觀測(cè)可以被編輯(例如引入新物體或背景),然后用于條件化策略 rollout??梢韵胂?,類似的策略也能用于視頻模型在分布外場(chǎng)景中的數(shù)據(jù)生成(類似于 DreamGen)。

巨大的商業(yè)激勵(lì)。支持視頻模型的主要論點(diǎn)實(shí)際上是一個(gè)非技術(shù)性的。開發(fā)好的視頻生成模型面臨著巨大的商業(yè)壓力。從社交媒體應(yīng)用到電影制作,視頻模型將以獨(dú)立于機(jī)器人領(lǐng)域的速度快速發(fā)展。

我們已經(jīng)反復(fù)看到這部電影的劇情,從用于游戲的深度相機(jī),到用于智能手機(jī)的 IMU(Inertial Measurement Unit,慣性測(cè)量單元),再到用于 NLP(Natural Language Processing,自然語言處理)的 LLM——因獨(dú)立商業(yè)原因開發(fā)的技術(shù),最終革新了機(jī)器人學(xué)。同樣的事情很可能也會(huì)發(fā)生在視頻模型身上。

在近期(2-3 年),我預(yù)計(jì)視頻模型將繼續(xù)作為機(jī)器人世界建模的主導(dǎo)力量。尤其是對(duì)于短時(shí)域操作任務(wù),這仍然是當(dāng)今機(jī)器人學(xué)大部分研究的北極星,我預(yù)計(jì)上述優(yōu)勢(shì)將超過潛在世界模型的潛在收益。

JEPA 會(huì)在長(zhǎng)期勝出嗎?

JEPA 用于機(jī)器人的核心未解技術(shù)問題是:JEPA 學(xué)到的"可預(yù)測(cè)特征"是否等同于對(duì)機(jī)器人有用的特征?可預(yù)測(cè)的特征本身并不一定有用——我們總是可以預(yù)測(cè)那個(gè)將任何圖像映射為常數(shù)的特征。然而,DINO 的存在提供了一個(gè)強(qiáng)有力的證據(jù),它可以說是 JEPA 風(fēng)格自監(jiān)督學(xué)習(xí)最大的成功案例。

DINO 特征在廣泛的下游視覺任務(wù)中取得了最先進(jìn)的結(jié)果,如分割、深度預(yù)測(cè)和物體檢測(cè)。類似的收益能否在機(jī)器人世界建模中實(shí)現(xiàn),仍然是一個(gè)開放問題。

為了超越視頻模型,JEPA 還需要克服我上面強(qiáng)調(diào)的一些商業(yè)壓力。然而,LeCun 的 AMI 初創(chuàng)公司似乎有可能積聚足夠的資源來跨越這一障礙,并展示 JEPA 在世界建模方面的威力。

如果讓我在大約 5 年的時(shí)間線上下注,我會(huì)押注 JEPA 成為機(jī)器人世界模型的關(guān)鍵組成部分。我懷疑,一旦我們?cè)诨A(chǔ)操作技能上取得進(jìn)展,超過幾秒的時(shí)間跨度將真正開始在機(jī)器人學(xué)中變得重要,屆時(shí) JEPA 在規(guī)劃方面的優(yōu)勢(shì)應(yīng)該會(huì)顯現(xiàn)出來。

然而,基于上一節(jié)強(qiáng)調(diào)的原因,我不認(rèn)為 JEPA 會(huì)一對(duì)一地替代視頻模型。首先,JEPA 和視頻模型可以協(xié)同工作。事實(shí)上,我們已經(jīng)看到了將兩者結(jié)合的工作,例如用潛在世界模型在推理時(shí)改進(jìn)視頻模型。此外,JEPA 的表征學(xué)習(xí)目標(biāo)也可以與視頻重建目標(biāo)同時(shí)應(yīng)用。最后,對(duì)于策略評(píng)估等用例,視頻生成有非常明確的優(yōu)勢(shì)(例如使用圖像編輯來生成場(chǎng)景變體)。

無論事情最終如何發(fā)展,這都是一個(gè)非常激動(dòng)人心的時(shí)刻,不同的實(shí)體正在下注不同的路線,還有一些根本性的開放問題等待解決。

參考資料:

1.https://x.com/Majumdar_Ani/status/2021242532517040560

2.Mei et al., 2026, "Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions".

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
奧運(yùn)會(huì)為什么要用掉那么多避孕套?頂尖運(yùn)動(dòng)員旺盛精力更需要滿足

奧運(yùn)會(huì)為什么要用掉那么多避孕套?頂尖運(yùn)動(dòng)員旺盛精力更需要滿足

我心縱橫天地間
2026-02-24 08:45:28
可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國(guó)人40年的努力毀掉!

可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國(guó)人40年的努力毀掉!

王曉愛體彩
2026-02-27 02:43:53
非洲55國(guó)聯(lián)手禁驢15年,掐斷阿膠命脈,背后真相太現(xiàn)實(shí)

非洲55國(guó)聯(lián)手禁驢15年,掐斷阿膠命脈,背后真相太現(xiàn)實(shí)

流蘇晚晴
2026-02-26 18:17:45
聽說,俄羅斯連長(zhǎng)期居留的外國(guó)人也要強(qiáng)制兵役了?

聽說,俄羅斯連長(zhǎng)期居留的外國(guó)人也要強(qiáng)制兵役了?

黑噪音
2026-02-26 22:51:38
王晶大侃萬梓良晚年凄涼!他不懂江湖規(guī)矩,演戲夸張對(duì)手很難接

王晶大侃萬梓良晚年凄涼!他不懂江湖規(guī)矩,演戲夸張對(duì)手很難接

小徐講八卦
2026-02-11 11:40:12
老牌本幫菜斷尾求生:上海小南國(guó)10店停業(yè)背后的“白菜價(jià)”重組

老牌本幫菜斷尾求生:上海小南國(guó)10店停業(yè)背后的“白菜價(jià)”重組

商業(yè)不許冷
2026-02-26 22:10:05
越南砸巨款在橫店拍開國(guó)太祖,仔細(xì)一看,不就是我們家王爺嘛

越南砸巨款在橫店拍開國(guó)太祖,仔細(xì)一看,不就是我們家王爺嘛

我心縱橫天地間
2026-02-24 21:10:15
至少在已經(jīng)過去的25年里,中國(guó)的“財(cái)神”不是趙公明,而是WTO!

至少在已經(jīng)過去的25年里,中國(guó)的“財(cái)神”不是趙公明,而是WTO!

細(xì)雨中的呼喊
2026-02-21 06:59:07
央視曝光!深夜崩潰的不止你一個(gè):網(wǎng)游正在“吃掉”整整一代孩子

央視曝光!深夜崩潰的不止你一個(gè):網(wǎng)游正在“吃掉”整整一代孩子

娛樂圈見解說
2026-02-27 07:54:59
太狠了!特朗普官宣紐森出局:已退出2028年總統(tǒng)競(jìng)選;紐森:糊涂

太狠了!特朗普官宣紐森出局:已退出2028年總統(tǒng)競(jìng)選;紐森:糊涂

天氣觀察站
2026-02-26 08:04:02
電影《飛馳人生3》票房破30億元 光線傳媒:從該片收入約5000萬元

電影《飛馳人生3》票房破30億元 光線傳媒:從該片收入約5000萬元

快科技
2026-02-24 22:37:13
北斗七星都是些什么恒星?它們分別有多大?距離地球有多遠(yuǎn)?

北斗七星都是些什么恒星?它們分別有多大?距離地球有多遠(yuǎn)?

心中的麥田
2026-02-24 18:53:58
中方第五波反制,巴拿馬以為接管港口就高枕無憂,結(jié)果自斷后路!

中方第五波反制,巴拿馬以為接管港口就高枕無憂,結(jié)果自斷后路!

真的好愛你
2026-02-26 10:33:10
突發(fā)!阿森納王牌被主帥主動(dòng)甩賣,巴薩準(zhǔn)備 2600 萬撿漏

突發(fā)!阿森納王牌被主帥主動(dòng)甩賣,巴薩準(zhǔn)備 2600 萬撿漏

奶蓋熊本熊
2026-02-27 06:47:20
張鎮(zhèn)麟3中0!男籃客場(chǎng)贏日本,3新人沒亮點(diǎn),賀希寧隊(duì)友首發(fā)拿2分

張鎮(zhèn)麟3中0!男籃客場(chǎng)贏日本,3新人沒亮點(diǎn),賀希寧隊(duì)友首發(fā)拿2分

體壇大事記
2026-02-26 22:50:38
曼聯(lián)坐擁當(dāng)下英超天選門神!撲救稍遜德赫亞,卻獲譽(yù)夏窗最佳引援

曼聯(lián)坐擁當(dāng)下英超天選門神!撲救稍遜德赫亞,卻獲譽(yù)夏窗最佳引援

羅米的曼聯(lián)博客
2026-02-27 07:12:04
攤牌了!黃曉明不再隱瞞,澳門輸10億真相大白,周杰倫也被拉下水

攤牌了!黃曉明不再隱瞞,澳門輸10億真相大白,周杰倫也被拉下水

天天熱點(diǎn)見聞
2026-02-25 05:36:20
男子春節(jié)前將一碗牛肉飯遺忘在辦公室,返工后發(fā)現(xiàn)其發(fā)霉長(zhǎng)出15厘米高“黑色叢林”

男子春節(jié)前將一碗牛肉飯遺忘在辦公室,返工后發(fā)現(xiàn)其發(fā)霉長(zhǎng)出15厘米高“黑色叢林”

環(huán)球網(wǎng)資訊
2026-02-26 14:11:46
叛逃臺(tái)灣的將領(lǐng)張清榮:蔣介石親自迎接,為何不到一年就被槍決?

叛逃臺(tái)灣的將領(lǐng)張清榮:蔣介石親自迎接,為何不到一年就被槍決?

秀心文雅
2026-02-12 09:29:55
拾石村媽祖被替后續(xù): 女孩賬號(hào)曝光,當(dāng)了八年被選定,今年滿18歲

拾石村媽祖被替后續(xù): 女孩賬號(hào)曝光,當(dāng)了八年被選定,今年滿18歲

離離言幾許
2026-02-20 14:02:55
2026-02-27 08:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16325文章數(shù) 514660關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)業(yè)績(jī)亮眼仍跌5% 兩大因素成核心隱憂

頭條要聞

牛彈琴:中國(guó)的兩個(gè)鄰國(guó)大打出手 傷亡相當(dāng)慘重

頭條要聞

牛彈琴:中國(guó)的兩個(gè)鄰國(guó)大打出手 傷亡相當(dāng)慘重

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強(qiáng)公開表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

魅族手機(jī),終成棄子?

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

健康
時(shí)尚
旅游
手機(jī)
本地

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

今年春天最美搭配:西裝+半裙,怎么穿都好看!

旅游要聞

建在180米高的“煙囪”上,上海唯一的高空秋千運(yùn)營(yíng)即將滿月

手機(jī)要聞

蘋果iPhone和iPad首批獲準(zhǔn)處理北約機(jī)密信息

本地新聞

津南好·四時(shí)總相宜

無障礙瀏覽 進(jìn)入關(guān)懷版