網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

萬(wàn)字長(zhǎng)文實(shí)錄：RL 界與 CV 界的“世界模型”有什么不同？丨GAIR Live

2025-08-17 11:25:24　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

無(wú)論是自動(dòng)駕駛還是具身智能，都在走向大規(guī)?；谑澜缒Ｐ偷挠?xùn)練之路。

作者丨劉欣

編輯丨馬曉寧、陳彩嫻

世界模型在人工智能領(lǐng)域中扮演著重要角色，能夠有效為智能體提供對(duì)復(fù)雜現(xiàn)實(shí)世界的內(nèi)在表征，使其像人類(lèi)一樣理解世界運(yùn)行的邏輯與因果關(guān)系，對(duì)自動(dòng)駕駛、具身智能的突破性發(fā)展至關(guān)重要，它已成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。

2015年8月5日，雷峰網(wǎng)、AI 科技評(píng)論 GAIR Live 品牌舉辦了一場(chǎng)主題為“世界模型——通向通用智能的關(guān)鍵拼圖”的線上圓桌沙龍。

圓桌主持人為清華大學(xué)智能產(chǎn)業(yè)研究院（ AIR ）助理教授、智源學(xué)者趙昊，并邀請(qǐng)了寧波東方理工大學(xué)助理教授金鑫、浙江大學(xué)特聘研究員廖依伊、布里斯托大學(xué)助理教授楊夢(mèng)月、伯克利人工智能實(shí)驗(yàn)室博士后研究員鄭文釗一起進(jìn)行了一場(chǎng)深度的討論。

會(huì)上主持人趙昊帶頭討論世界模型，先是探討其定義、范圍，接著分析強(qiáng)化學(xué)習(xí)界與計(jì)算機(jī)視覺(jué)界的世界模型的不同，隨后圍繞視頻生成、三維重建等內(nèi)容，剖析通用視頻生成模型向真正的世界模型的發(fā)展路徑，最后關(guān)注于落地場(chǎng)景，聚焦于自動(dòng)駕駛以及具身智能，并探討構(gòu)建其世界模型的難點(diǎn)和方向。

其中，四位嘉賓圍繞具身智能世界模型的構(gòu)建分別提出了自己的獨(dú)到見(jiàn)解：

鄭文釗認(rèn)為具身智能的問(wèn)題與自動(dòng)駕駛相似，未來(lái)應(yīng)該實(shí)現(xiàn)重建與生成的結(jié)合、提升三維建模精度，以及更精準(zhǔn)地判斷因果性，使因果性與物理規(guī)律更好契合，但由于具身智能的數(shù)據(jù)稀缺，純數(shù)據(jù)驅(qū)動(dòng)很難訓(xùn)練出符合物理規(guī)律的世界模型，因此需要更好地建模物理規(guī)律，甚至將其“注入”模型。除了“真實(shí)到仿真再到真實(shí)”的路徑，更優(yōu)的方向可能是數(shù)據(jù)驅(qū)動(dòng)與物理規(guī)律結(jié)合——探索如何通過(guò)某種方式將物理規(guī)律注入數(shù)據(jù)驅(qū)動(dòng)模型，這可能是未來(lái)的趨勢(shì)。

金鑫也表示物理規(guī)律、物理真實(shí)性（ physical world intelligence ）對(duì)具身智能的世界模型很重要，探索方向不僅依賴(lài)數(shù)據(jù)驅(qū)動(dòng)，還借鑒了傳統(tǒng)仿真領(lǐng)域的經(jīng)驗(yàn)，結(jié)合圖形學(xué)中的物理建模方法（如楊氏模量、彈簧 - 質(zhì)量模型等基于規(guī)則的物理仿真）與數(shù)據(jù)驅(qū)動(dòng)的生成模型（如 AIGC 生成模型），希望讓具身智能的世界模型既能保證物理真實(shí)性，又能實(shí)現(xiàn)外觀真實(shí)。

楊夢(mèng)月則提出了她自己的思路，在具身場(chǎng)景中，通過(guò)某種機(jī)制或智能體捕捉物理規(guī)律，將其整合成因果模型，再利用該模型進(jìn)行反事實(shí)預(yù)測(cè)或推斷。

最后廖依伊對(duì)金鑫和鄭文釗的觀點(diǎn)表示贊同，還發(fā)出了路線選擇的疑問(wèn)，她認(rèn)為核心問(wèn)題在于：是否必須顯式建模 3D ？在 2D 層面能否學(xué)好交互？若有足夠訓(xùn)練數(shù)據(jù)，2D 學(xué)習(xí)交互可能更簡(jiǎn)單——比如疊衣服、泥巴落地等非剛性物體場(chǎng)景，在 3D 中建模難度極大。如何做好 2D 與 3D 的結(jié)合，仍是難題。

以下是此次圓桌討論的精彩分享，AI 科技評(píng)論進(jìn)行了不改原意的編輯整理：

如何定義世界模型？

趙昊：大家好，歡迎來(lái)到本次線上研討會(huì)。我們將圍繞“世界模型——通向通用智能的關(guān)鍵拼圖”這一主題展開(kāi)討論。我是趙昊，此前曾在北京大學(xué)和英特爾研究院工作，目前任職于清華大學(xué)智能產(chǎn)業(yè)研究院（ AIR ），主要從事計(jì)算機(jī)視覺(jué)、圖形學(xué)與機(jī)器人的交叉研究。世界模型作為串聯(lián)這些領(lǐng)域的核心技術(shù)，我對(duì)其始終秉持堅(jiān)定的信念。

在正式開(kāi)始前，我想先界定一下世界模型的范疇。從最狹義的角度來(lái)看，是自動(dòng)駕駛領(lǐng)域的世界模型，這也是目前研究較多的方向；進(jìn)一步拓展，則是具身智能的世界模型；再往上，第三層可涵蓋通用視頻生成或傳感器生成模型；而最廣義的層面，我認(rèn)為是訓(xùn)練智能體的世界模型。

今天參與討論的幾位老師雖多來(lái)自計(jì)算機(jī)視覺(jué)領(lǐng)域，但考慮到AI科技評(píng)論的廣泛視野，我們的討論范圍應(yīng)當(dāng)進(jìn)一步擴(kuò)大。盡管部分領(lǐng)域，如自然語(yǔ)言處理（ NLP ）、智能體（ Agent ）等，我個(gè)人并非深耕其中，但既然舉辦此次線上研討會(huì)，就應(yīng)當(dāng)拓展討論邊界，最終聚焦到第四層級(jí)的核心議題——通用智能如何在世界模型中誕生。

當(dāng)然，考慮到今天受邀的幾位老師多具備計(jì)算機(jī)視覺(jué)（ CV ）背景，我們的討論可以從自動(dòng)駕駛領(lǐng)域切入，再逐步向外延伸。畢竟不同領(lǐng)域的科學(xué)原理在本質(zhì)上存在共通之處。

金鑫：謝謝趙老師的開(kāi)場(chǎng)。大家好，我是金鑫，目前任職于寧波東方理工大學(xué)信息學(xué)部。寧波東方理工大學(xué)是一所新型研究型大學(xué)，目前正在全球范圍內(nèi)廣納賢才。

我是中國(guó)科學(xué)技術(shù)大學(xué)博士，研究方向包括空間智能及世界模型相關(guān)工作，一直與趙老師團(tuán)隊(duì)合作推進(jìn)自動(dòng)駕駛相關(guān)研究，涉及基于 Occupancy-based 的生成等方向等等。

廖依伊：大家好，我是浙江大學(xué)特聘研究員廖依伊。我的求學(xué)和工作經(jīng)歷如下：我在浙江大學(xué)獲得博士學(xué)位，在德國(guó)馬普所從事博士后研究，所在組是搭建 KITTI 數(shù)據(jù)集的 Autonomous Vision Group ，在組里期間我主導(dǎo)了 KITTI-360 數(shù)據(jù)集的構(gòu)建工作，所以開(kāi)始涉足自動(dòng)駕駛相關(guān)研究。圍繞世界模型的方案，我們做了街景重建與生成。

我們近期研發(fā)的 HUGSIM 是一款基于 3D 高斯的仿真器，能夠與自動(dòng)駕駛算法實(shí)現(xiàn)互動(dòng)。正如趙老師所說(shuō)，這屬于狹義的世界模型研究。今天非常期待能與各位老師探討，從狹義到廣義的世界模型發(fā)展。

楊夢(mèng)月：我是楊夢(mèng)月，去年10月加入布里斯托大學(xué)擔(dān)任助理教授，之前在 UCL 攻讀博士學(xué)位，導(dǎo)師是汪軍教授。我的研究方向最初是因果表征學(xué)習(xí)，后來(lái)結(jié)合強(qiáng)化學(xué)習(xí)（ RL ）相關(guān)內(nèi)容，近期轉(zhuǎn)向世界模型研究，尤其聚焦于世界模型對(duì)世界規(guī)則的理解。我的研究方向可能不太偏向 CV ，更多側(cè)重于因果理解和表征學(xué)習(xí)。

鄭文釗：我是鄭文釗，目前在伯克利人工智能實(shí)驗(yàn)室從事博士后研究。我本科和博士均畢業(yè)于清華大學(xué)，本科就讀于物理系。博士期間，我主要從事相似性度量等基礎(chǔ)研究，后期也涉足自動(dòng)駕駛領(lǐng)域。我們始終堅(jiān)持基于世界模型的自動(dòng)駕駛，之后也會(huì)將世界模型拓展至更通用的智能領(lǐng)。

趙昊：接下來(lái)我們正式進(jìn)入討論環(huán)節(jié)。開(kāi)頭的這兩個(gè)話題，我想把我們討論的世界模型的 Scope 變得更大一點(diǎn)。

剛剛結(jié)束的智源大會(huì)也讓我學(xué)到了很多新知識(shí)。我個(gè)人主要是做 CV 的，CV 領(lǐng)域長(zhǎng)期以來(lái)的觀點(diǎn)是通過(guò)重建物理世界、再做仿真和渲染來(lái)構(gòu)建世界模型，但在這次大會(huì)上，許多 senior 學(xué)者從更抽象的角度看待世界模型，將其視為通向通用智能的關(guān)鍵拼圖。盡管我們可能從自動(dòng)駕駛汽車(chē)、機(jī)器人的角度出發(fā)，但第一部分，我想從更通用的人工智能角度來(lái)思考這個(gè)問(wèn)題。

GPT 為代表的 LLM 無(wú)疑是當(dāng)前人工智能領(lǐng)域的典范，但它也面臨一些問(wèn)題。首先是數(shù)據(jù)短缺，數(shù)據(jù)耗盡后 GPT 的發(fā)展可能會(huì)停滯；其次，GPT 距離通用智能還有差距，它存在一些無(wú)法完成的任務(wù)。在智源大會(huì)上，我發(fā)現(xiàn)許多通用人工智能研究者也在關(guān)注世界模型，盡管他們心中的世界模型可能與我們 CV 領(lǐng)域狹義的虛擬世界模型不同，但他們都暢想，未來(lái)像 GPT 這樣的 Agent 能夠在真實(shí)物理世界中不斷探索學(xué)習(xí)，從而實(shí)現(xiàn)通用人工智能。這是一個(gè) bigger scope 。

我們可以將范圍稍作限制，聚焦于 LeCun 團(tuán)隊(duì)的世界模型研究，如 JEPA 、 V-JEPA 等，這些研究更 grounded ，方便我們展開(kāi)討論。

經(jīng)常有人問(wèn)我，CV所做的視頻生成、三維重建等世界模型，與 LeCun 所說(shuō)的通用世界模型有何區(qū)別與聯(lián)系。二者確實(shí)存在較大差異。了解 LeCun 學(xué)術(shù)流派的人知道，他創(chuàng)辦 ICLR 會(huì)議的核心關(guān)注點(diǎn)是表征學(xué)習(xí)。他所研究的世界模型更多是一種能夠表達(dá)和預(yù)測(cè)世界的通用表征思路，這種思路也更易被不具備太多三維視覺(jué)知識(shí)的通用人工智能研究者所理解。所以，我想從最寬泛的表征學(xué)習(xí)視角出發(fā)，聽(tīng)聽(tīng)大家的看法。我隨機(jī)點(diǎn)一位，有請(qǐng)楊老師。

楊夢(mèng)月：我一直從事表征學(xué)習(xí)相關(guān)研究。在我看來(lái)，CV與表征學(xué)習(xí)之間存在gap。表征學(xué)習(xí)的本質(zhì)是理解圖像或視頻背后的構(gòu)成的 factor。圖像和視頻是高維空間的表現(xiàn)，而控制這種表現(xiàn)的其實(shí)是低維feature space （特征空間）中的特征。

我們可以有多種方式來(lái)表示特征空間，例如大模型的 embedding （嵌入）是一種表現(xiàn)；我們也可以將特征空間完全可解釋化，明確某個(gè)具體嵌入所對(duì)應(yīng)的物理概念和語(yǔ)義含義。

當(dāng)前大模型的訓(xùn)練方式本質(zhì)上是對(duì)數(shù)據(jù)的模仿，并不關(guān)注表征學(xué)習(xí)層面，因此可能僅學(xué)到數(shù)據(jù)表面的樣子，容易出現(xiàn)“幻覺(jué)”問(wèn)題，無(wú)法真正理解世界正在發(fā)生的事情，也不清楚自身行為及其可能導(dǎo)致的結(jié)果。

表征學(xué)習(xí)更偏向于可解釋的范疇。也就是說(shuō)，我們希望 Agent 是真正理解世界背后的規(guī)則，——這個(gè)世界由哪些 factor 構(gòu)成，這些 factor 之間又存在怎樣的關(guān)系。一旦理解了這些，智能體在做決策時(shí)，就不會(huì)僅僅基于像素級(jí)的圖像進(jìn)行預(yù)測(cè)并以此決策，而是通過(guò)理解事件背后的邏輯來(lái)行動(dòng)。例如，知曉?xún)蓚€(gè)因素之間的關(guān)聯(lián)：當(dāng)機(jī)械臂要將小球運(yùn)到終點(diǎn)時(shí)，有兩種選擇——推球或者抓球。若它掌握了物理規(guī)則，就會(huì)知道當(dāng)?shù)孛婺Σ亮^高時(shí)，推球并非最佳選擇，轉(zhuǎn)而選擇抓起小球直接送至終點(diǎn)，從而達(dá)成目標(biāo)狀態(tài)。

世界模型的定義一直較為模糊，視頻生成、 VLA 乃至空間智能等相關(guān)技術(shù)都被籠統(tǒng)地歸為世界模型范疇。但現(xiàn)在越來(lái)越多的研究者認(rèn)為，若要讓智能體真正具備決策能力，必須讓它理解世界的運(yùn)行邏輯，否則決策可能因“幻覺(jué)”失效，尤其在高安全性場(chǎng)景中，看似無(wú)害的動(dòng)作可能導(dǎo)致一些比較危險(xiǎn)的狀態(tài)。

因此，要實(shí)現(xiàn)通用智能、讓智能體理解世界，還是要走表征學(xué)習(xí)的路子。表征學(xué)習(xí)包含多種技術(shù)，我們所研究的因果分析便是其中之一。這種技術(shù)不僅關(guān)注 factor 間的相關(guān)關(guān)系，更著重探究因果關(guān)系，而掌握因果關(guān)系能幫助智能體做出更優(yōu)決策。以上就是我的觀點(diǎn)。

趙昊：楊老師的觀點(diǎn)很有意思，即當(dāng)前的表征可能只有 correlation ，而缺乏因果關(guān)系，這確實(shí)是值得深入研究的方向。那么，楊老師認(rèn)為完整的三維或四維世界表示作為一種 factor 表示方式，是否是必需的呢？

楊夢(mèng)月：我認(rèn)為構(gòu)建 3D 或 4D 表示是一種新視角，對(duì)幫助到智能體理解世界，但它們之間的聯(lián)系還需進(jìn)一步探索，目前這方面的研究還比較匱乏。

在世界模型層面，我們通常對(duì)其有明確的界定標(biāo)準(zhǔn)。普通的預(yù)測(cè)模型（比如視頻生成過(guò)程）往往是基于當(dāng)前狀態(tài)預(yù)測(cè)下一個(gè)狀態(tài)，而世界模型要有智能體交互的屬性。具體來(lái)說(shuō)，能被統(tǒng)稱(chēng)為世界模型的模型，其邏輯應(yīng)該是“當(dāng)前狀態(tài) + 智能體動(dòng)作”通過(guò)模型函數(shù)映射到“下一狀態(tài)”。這里的動(dòng)作既可以是顯性的，也可以是隱性的，關(guān)鍵是模型要能明確回答“當(dāng)前采取某動(dòng)作后，下一步會(huì)呈現(xiàn)什么狀態(tài)”。

按照這個(gè)定義，當(dāng)前的3D、4D 生成技術(shù)雖然實(shí)現(xiàn)了對(duì)世界的重建，但尚未充分融入動(dòng)作因素，也沒(méi)有考慮到動(dòng)作對(duì)空間內(nèi)部各因素相互作用的影響，因此與嚴(yán)格意義上的世界模型仍有差距。

當(dāng)然，目前世界模型的定義還比較寬泛，但如果要進(jìn)一步明確其核心內(nèi)涵，就必須在模型中構(gòu)建交互層面的建模，這是不可或缺的關(guān)鍵環(huán)節(jié)。

趙昊：我完全同意。我們 CV 領(lǐng)域的研究者常常關(guān)注傳感器數(shù)據(jù)的渲染質(zhì)量，卻不太重視交互輸入，這是我們領(lǐng)域存在的一個(gè)較大問(wèn)題。不過(guò)，目前在自動(dòng)駕駛和機(jī)器人領(lǐng)域，已有不少視覺(jué)模型研究引入了動(dòng)作因素。

聽(tīng)到楊老師的觀點(diǎn)，她認(rèn)為我們當(dāng)前研究的最大問(wèn)題是缺乏動(dòng)作因素，我自己也意識(shí)到了這一點(diǎn)。我也分享一個(gè)觀點(diǎn)：我們真的必須依賴(lài) 3D 表征嗎？看起來(lái) 3D 表征并非在所有場(chǎng)景下都是必需的，比如我們根據(jù)牛頓定律建模了以后，模型就可以根據(jù)物理規(guī)律來(lái)運(yùn)行輸出，這就不需要表征學(xué)習(xí)。但是物理規(guī)律也可能失效，比如現(xiàn)在有了極限情況，你必須引入相對(duì)論來(lái)修正。

我們計(jì)算機(jī)視覺(jué)和圖形學(xué)領(lǐng)域的研究者可能存在一種幻覺(jué)，認(rèn)為只要重建并仿真世界，就能完全掌握其規(guī)律，但物理模型永遠(yuǎn)不可能達(dá)到完美。所以從宏觀意義上看，或許完全數(shù)據(jù)驅(qū)動(dòng)的表征學(xué)習(xí)反而是更正確的路徑。這一點(diǎn)我想聽(tīng)聽(tīng)鄭文釗的看法，因?yàn)槲抑浪行┱撐膬H在占用率（ occupancy ）層面開(kāi)展研究，不會(huì)對(duì)傳感器數(shù)據(jù)進(jìn)行真實(shí)渲染。

鄭文釗：謝謝趙老師。我接著剛才的話題談?wù)勎业挠^點(diǎn)。如前所述，狹義的世界模型是對(duì)環(huán)境的建模，核心是接收智能體的交互動(dòng)作作為輸入，并輸出對(duì)應(yīng)的反饋。

我們?cè)缙诨谡加寐实氖澜缒Ｐ脱芯恐芯鸵肓?action ，當(dāng)時(shí)我們認(rèn)為世界模型不僅要對(duì)行為做出反饋，還應(yīng)輸出動(dòng)作，因此在論文中將其定義為“泛化的世界模型”，但這一觀點(diǎn)在審稿人中存在爭(zhēng)議。直到現(xiàn)在，大家對(duì)世界模型的定義仍有分歧：它僅僅是對(duì)世界環(huán)境的建模并提供反饋，還是需要包含對(duì)世界運(yùn)行規(guī)律的自主建模？

但我認(rèn)為，若要邁向通用智能，世界模型的定義必須更泛化一些。這也是我認(rèn)同 LeCun 觀點(diǎn)的原因，他所強(qiáng)調(diào)的世界模型偏向通用范疇。從 LeCun 對(duì)智能系統(tǒng)的描述來(lái)看，其中包含世界模型、記憶模塊、行為模塊等，分別對(duì)應(yīng)空間智能、行為智能等能力，可見(jiàn)世界模型在通用智能中扮演著重要角色。

盡管存在爭(zhēng)議，但從宏觀角度而言，我們的核心目標(biāo)是結(jié)合動(dòng)作對(duì)環(huán)境進(jìn)行建模。接下來(lái)我想談?wù)勈澜缒Ｐ团c表征的關(guān)系：世界模型在某種程度上是更具泛化性的語(yǔ)言模型。大語(yǔ)言模型的核心范式是 next token prediction ，當(dāng)然現(xiàn)在有一些不同的語(yǔ)言模型并非采用這種范式。語(yǔ)言并不是數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)到的表征方式，它是人類(lèi)通過(guò)數(shù)千年文化歷史凝練而成的對(duì)世界的描述，是人類(lèi)定義好的認(rèn)知框架。從這個(gè)角度來(lái)看，語(yǔ)言模型其實(shí)也是在預(yù)測(cè)未來(lái)會(huì)發(fā)生什么。

除了語(yǔ)言之外，是否存在其他更完備、更細(xì)節(jié)的世界表征方式？這也是我認(rèn)為世界模型能成為比大語(yǔ)言模型更通用的基礎(chǔ)模型的原因——如果 CV 領(lǐng)域未來(lái)會(huì)出現(xiàn)類(lèi)似大語(yǔ)言模型的核心模型，其形態(tài)很可能是世界模型，而其中最核心的就是表征的選擇。在 NLP 中，表征選擇很直接，就是語(yǔ)言本身。但在視覺(jué)領(lǐng)域或更通用的場(chǎng)景中，表征選擇需要更深入的考量：可以選擇像素，但像素僅能反映二維空間信息；我們之前的研究選擇占用率作為表征，因?yàn)槭澜绫举|(zhì)是三維的，可以稱(chēng)為三維空間中的“像素”，類(lèi)似于體素（ Voxel ），能更底層地描述三維空間。

不過(guò)，是否存在更高層次的表征？這也是 LeCun 團(tuán)隊(duì)的研究方向。我推測(cè)他們可能認(rèn)為僅在像素空間建模不夠完善，更傾向于類(lèi)似大語(yǔ)言模型選擇語(yǔ)言模態(tài)的思路——在視覺(jué)領(lǐng)域選擇更合適的表征。例如 JEPA 、 V-JEPA 通過(guò)自監(jiān)督學(xué)習(xí)提取特征，而他們最近發(fā)布的 DINO-World ，則選擇 DINO 作為世界表征，因?yàn)?DINO 本身已包含對(duì)世界的語(yǔ)義提取。這些思路的共性是：世界模型的表征未必局限于像素，完全可以是更高層次的 feature 。

因此，若要將大語(yǔ)言模型的范式泛化至通用智能，世界模型是核心路徑，而表征選擇是關(guān)鍵。像 JEPA 、 DINO 等模型在語(yǔ)義描述上表現(xiàn)出色，但一個(gè)理想的世界模型表征還需具備其他特性：一方面要能對(duì)世界進(jìn)行抽象的語(yǔ)義描述，另一方面要具備三維建模能力。因?yàn)槲覀兯幍氖澜缡侨S的，未來(lái)邁向通用智能的話，要把三維空間最本質(zhì)的東西建模出來(lái)。

廖依伊：我非常贊成鄭老師剛才的觀點(diǎn)。不同的世界模型，包括 LeCun 提出的世界模型，我們基于純視頻生成的世界模型，核心區(qū)別其實(shí)在于對(duì)“ x ”的定義。正如楊老師之前強(qiáng)調(diào)的，如果我們將世界模型定義為“當(dāng)前狀態(tài) x(t) + 動(dòng)作 a(t) → 下一狀態(tài) x(t+1) ”的映射關(guān)系，那么它們的核心差異就在于如何定義“ x(t+1) ”這個(gè)輸出目標(biāo)。

以視頻生成為例，我們并非直接在像素空間操作，而是在潛空間（ latent space ）中進(jìn)行，比如 VAE 的潛在空間。但 VAE 的潛在空間設(shè)計(jì)目標(biāo)是服務(wù)于像素解碼，因此未必能充分學(xué)習(xí)到語(yǔ)義信息。這也是鄭老師提到的 JEPA 、 V-JEPA 及 V-JEPA 2 等工作的價(jià)值——它們通過(guò)自監(jiān)督學(xué)習(xí)，目標(biāo)是獲取更具語(yǔ)義的特征。

LeCun 在 V-JEPA 2 中的思路也是如此：先通過(guò)無(wú)監(jiān)督學(xué)習(xí)得到潛空間，再引入動(dòng)作監(jiān)督進(jìn)行 post training ，最終將其轉(zhuǎn)化為世界模型?？梢?jiàn)在這一框架下，表征學(xué)習(xí)與世界模型是相輔相成的：良好的表征學(xué)習(xí)是構(gòu)建高性能世界模型的基礎(chǔ)。

一個(gè)值得探討的問(wèn)題是，語(yǔ)義更豐富的世界表征是否更合理？從直觀上看，若潛空間的特征能實(shí)現(xiàn)更好的解耦并蘊(yùn)含更豐富的語(yǔ)義，后續(xù)的世界模型學(xué)習(xí)確實(shí)會(huì)更高效，這一點(diǎn)我非常認(rèn)同楊老師的觀點(diǎn)。

關(guān)于是否需要引入 3D 建模，我的看法是：如果僅考慮最簡(jiǎn)單的動(dòng)作場(chǎng)景——即自身的剛性運(yùn)動(dòng)（ rigid motion ）（比如相機(jī)位姿變化），那么 3D 重建本身就能發(fā)揮重要作用。在 3D 重建任務(wù)中，一旦完成建模，就相當(dāng)于將動(dòng)作因素（這里的相機(jī)位姿變化）從狀態(tài)中完全解耦出來(lái)。這意味著我們無(wú)需再通過(guò)學(xué)習(xí)的方式額外建模相機(jī)位姿，而是可以直接基于新的視角進(jìn)行渲染，這與楊老師提到的“潛空間中可解耦因素”的思路是一致的。因此，3D 建模的一大優(yōu)勢(shì)在于能夠顯式地將這類(lèi)可解耦的因素（如相機(jī)位姿）完全解耦。當(dāng)然，對(duì)于一些難以解耦的復(fù)雜特征，仍然可以保留。

趙昊：廖老師說(shuō)得非常好。我一直在思考，盡管潛在向量沒(méi)有顯式的 3D 信息，但作為一種抽象表征，或許能找到其與物理屬性的關(guān)聯(lián)。比如512維的 token 中，某些維度可能對(duì)應(yīng)材料屬性，某些對(duì)應(yīng)幾何結(jié)構(gòu)，甚至可能包含表達(dá)復(fù)雜運(yùn)動(dòng)的向量。這是一個(gè)很有潛力的研究方向。

不過(guò)關(guān)于是否引入 3D 信息，核心爭(zhēng)議在于“是否讓模型更好學(xué)”。廖老師的思路是引入 3D 表征，讓剩余維度專(zhuān)注學(xué)習(xí)物理建模難以覆蓋的復(fù)雜特征，這很合理。但也有學(xué)者持不同觀點(diǎn)，比如彭老師推崇 large view synthesis network ，認(rèn)為未來(lái)無(wú)需依賴(lài) 3D 歸納偏置。這個(gè)話題比較專(zhuān)業(yè)，我們先從更宏觀的層面繼續(xù)討論。有請(qǐng)金老師分享對(duì)世界模型表征學(xué)習(xí)思路的看法。

金鑫：Richard Feynman 所說(shuō)的“ I could never create something I didn’t understand. ”，我無(wú)法創(chuàng)造我不理解的東西。所以剛才楊老師等幾位老師提到的內(nèi)容，核心其實(shí)都指向表征學(xué)習(xí)——我們首先要理解世界，找到合適的表征，這個(gè)表征可能是3D的，也可能不是，比如 V-JEPA 、 I-JEPA 這類(lèi)模型最初針對(duì)圖像構(gòu)建表征，就是在做這樣的探索。

找到合適的表征后，再基于它建立蘊(yùn)含物理規(guī)律和機(jī)制的世界模型。這條路徑的核心是“先理解再構(gòu)建”，把表征學(xué)習(xí)放在第一步，也就是先實(shí)現(xiàn)對(duì)世界的理解。

我們團(tuán)隊(duì)近期一直在研究的“解耦表征學(xué)習(xí)”概念，源自2013年 Bengio 的研究，剛才廖老師也提到了這個(gè)關(guān)鍵詞——希望把 3D 相機(jī)位姿、 3D 歸納偏置解耦出來(lái)。今年我們?cè)?ICCV 2025 舉辦了一個(gè) workshop ，主題是“解耦表征學(xué)習(xí)與可控生成”，雖然聚焦可控生成，但仍被歸入表征學(xué)習(xí)專(zhuān)題。

我對(duì)楊夢(mèng)月老師那篇引用率很高的 Causal VAE 論文非常熟悉，經(jīng)常讓學(xué)生以它為 baseline 對(duì)比表征解耦的性能。我們做了很多表征解耦的工作，因?yàn)槲覀冋J(rèn)為理解世界的方式有很多，自監(jiān)督學(xué)習(xí)、 MIM 等都是，而表征解耦也是其中一種，能將特征層面、特征域、特征空間中的因素分離，找到關(guān)鍵因素并讓它們保持正交。比如在圖像中，將物體的大小、顏色、屬性等在特征域中明確解耦，這不僅能提升 AI 的可解釋性，還能為后續(xù)的生成、世界模型構(gòu)建、高層規(guī)劃等任務(wù)提供便利。

趙老師從 JEPA 思路出發(fā)探討世界模型，我覺(jué)得很有道理。 JEPA 也是先通過(guò)感知理解世界，再建立世界模型，這與“先理解再創(chuàng)造/生成”的邏輯一致?，F(xiàn)在大模型也強(qiáng)調(diào)融合理解與生成能力，包括我們后面要討論的“生成與理解、重建是否需要統(tǒng)一”，這些概念和思路其實(shí)是相通的。

我再補(bǔ)充一個(gè)觀點(diǎn)，我之前做過(guò)很多圖像視頻編碼壓縮的研究，有句話印象很深——“壓縮即智能”。深度學(xué)習(xí)的本質(zhì)是一個(gè)熵減的過(guò)程，去除圖像、視頻中的冗余和相關(guān)性，保留最核心、最原始的關(guān)鍵信息。

在編碼壓縮領(lǐng)域，那些無(wú)法再進(jìn)行熵估計(jì)和冗余去除的信息，就是我們理想中的表征。做世界模型時(shí)也是如此，需要找到這些關(guān)鍵因素和表征，它們可能無(wú)法完全理想化解耦，正如楊老師所說(shuō)，可能存在關(guān)聯(lián)和因果關(guān)系。這就是我的觀點(diǎn)。

RL 與 CV 的世界模型有何不同？

趙昊：接下來(lái)我們進(jìn)入下一個(gè)問(wèn)題。楊老師剛才提到，當(dāng)前許多視頻生成工作因缺乏動(dòng)作因素而存在不足。那么 RL 界與 CV 界的世界模型有哪些不同？我認(rèn)為動(dòng)作因素可能是主要差異。接下來(lái)我們具體探討技術(shù)路徑，如何讓世界模型真正對(duì)動(dòng)作、決策制定發(fā)揮作用。有請(qǐng)金老師先發(fā)言。

金鑫：雖然我自己親手寫(xiě) RL 代碼的經(jīng)驗(yàn)不多，但通過(guò)和學(xué)生的討論（我的學(xué)生中有做 RL 的），我了解到強(qiáng) RL 分為基于模型（ model-based ）和無(wú)模型（ model-free ）兩種類(lèi)型。其中，基于模型的 RL 所構(gòu)建的“模型”，我的理解是對(duì)環(huán)境的一種代理或模擬。簡(jiǎn)單來(lái)說(shuō)，就是建立一個(gè)環(huán)境模型，然后用這個(gè)模型輸出環(huán)境的轉(zhuǎn)移函數(shù)等信息，智能體基于這些信息進(jìn)行學(xué)習(xí)。

2018 年 David Ha 和 Jürgen Schmidhuber 關(guān)于世界模型的那篇論文，就和強(qiáng)化學(xué)習(xí)做了一些對(duì)比。所以我個(gè)人理解，強(qiáng)化學(xué)習(xí)中基于模型的“模型”，與 CV 領(lǐng)域用于自動(dòng)駕駛等場(chǎng)景的世界模型模擬器，核心都是通過(guò)模擬環(huán)境讓智能體進(jìn)行交互訓(xùn)練。

我們CV里面經(jīng)常會(huì)用到 “ simulator ”（模擬器）這個(gè)詞，它本質(zhì)上就是對(duì)環(huán)境的模擬 —— 構(gòu)建出環(huán)境后，讓智能體在里面通過(guò)動(dòng)作交互進(jìn)行訓(xùn)練，這和趙老師一直強(qiáng)調(diào)的“ action ”是相呼應(yīng)的。這只是我的個(gè)人理解，可能不一定準(zhǔn)確，歡迎大家交流指正。

楊夢(mèng)月：我在強(qiáng)化學(xué)習(xí)方面的研究相對(duì)多一些。我認(rèn)為 RL 與 CV 的世界模型的核心區(qū)別在于服務(wù)對(duì)象不同。 CV 界的核心是建模世界本身，關(guān)注如何刻畫(huà)世界的形態(tài)；而 RL 界的核心是智能體，建模世界的最終目的是服務(wù)于智能體，讓它掌握世界知識(shí)，進(jìn)而提升自身的決策策略 policy 。

正如趙老師所說(shuō)， NLP 領(lǐng)域面臨數(shù)據(jù)有限的問(wèn)題， CV 領(lǐng)域雖然數(shù)據(jù)量更大，但也可能存在類(lèi)似瓶頸。我們近期在世界模型研究中使用了一個(gè)較新的觀點(diǎn)，名為“開(kāi)放性”（ open endedness ），其實(shí)質(zhì)是“自我提升智能體”（ self-improve agent ）。具體來(lái)說(shuō)，若想提升智能體性能，我們可以通過(guò)數(shù)據(jù)訓(xùn)練，但當(dāng)數(shù)據(jù)量有限，無(wú)法支撐智能體理解世界上所有事件間的關(guān)系時(shí)，就需要讓智能體主動(dòng)探索，比如通過(guò)自問(wèn)自答的方式學(xué)習(xí)。

例如在代碼生成領(lǐng)域，讓智能體自己提出新的代碼問(wèn)題；在開(kāi)放世界游戲中，讓它自主構(gòu)建 task 。生成 task 的過(guò)程本身就是世界模型的建模過(guò)程，但其最終目標(biāo)是提升智能體的決策能力和泛化能力，而非讓智能體簡(jiǎn)單過(guò)擬合于某個(gè)特定環(huán)境，而是使其具備理解世界、自主構(gòu)建世界模型的能力。

趙昊：比如做 RL 的研究者，就算沒(méi)有圖像，他們將編碼環(huán)境中“智能體自己給自己出題”的過(guò)程也稱(chēng)為世界模型嗎？

楊夢(mèng)月：最廣義的世界模型，可以建模任何規(guī)則，這些規(guī)則不一定局限于物理規(guī)則，數(shù)學(xué)規(guī)則、代碼運(yùn)行機(jī)制等也屬于規(guī)則范疇。世界模型的核心目標(biāo)是讓智能體在特定環(huán)境或任務(wù)中，具備理解該環(huán)境或任務(wù)規(guī)則的能力。

世界模型的建模方式具有多樣性，生物、化學(xué)等領(lǐng)域都有其獨(dú)特規(guī)則。但這些規(guī)則未必都像物理規(guī)則那樣明顯，也未必有成熟的模擬器支持訓(xùn)練。許多環(huán)境中的規(guī)則是隱性的，比如 ChatGPT ，它的生成規(guī)則也屬于一種世界規(guī)則，但這種規(guī)則的概率屬性就非常大。

所以對(duì)于不同的環(huán)境，可能都有其對(duì)應(yīng)的世界模型建模方法，這些方法都可以統(tǒng)稱(chēng)為世界模型。

我今年在 ICLR 上組織了一個(gè)關(guān)于世界模型的研討會(huì)，當(dāng)時(shí)我們希望征集的稿件能覆蓋各個(gè)領(lǐng)域，比如自然科學(xué)、社會(huì)科學(xué)、數(shù)學(xué)等。實(shí)際上，我們也收到了一些比較特別的投稿，它們都將自己的研究稱(chēng)為世界模型。我認(rèn)為世界模型最核心的特質(zhì)是能夠建模世界背后的規(guī)律，并且智能體能夠借此與世界進(jìn)行交互。

廖依伊：我覺(jué)得楊老師剛剛的觀點(diǎn)非常有意思，這讓我想到一個(gè)問(wèn)題：CV 所說(shuō)的世界模型是否無(wú)法服務(wù)于 Agent 的訓(xùn)練呢？可能有的也未必。

RL 界的世界模型和 CV 界的世界模型有什么不同？我的理解是這樣的，一方面，正如我們之前討論的“ x(t) + a(t) → x(t+1) ”框架， CV 界確實(shí)更關(guān)注與圖像平面相關(guān)的狀態(tài)變量 x ；而在 RL 界，狀態(tài)變量不一定局限于圖像平面，可以是任意形式的抽象狀態(tài)。另一方面，據(jù)我觀察， RL 在涉及世界模型時(shí)，通常不僅要預(yù)測(cè)下一狀態(tài) x(t+1) ，還要學(xué)習(xí)獎(jiǎng)勵(lì)（ reward ）。如果能直接學(xué)到獎(jiǎng)勵(lì)，就可以基于此進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練和后續(xù)決策。

但目前 CV 界在視頻生成（無(wú)論是 3D 還是純視頻路線）中，更關(guān)注預(yù)測(cè)下一時(shí)刻的視覺(jué)呈現(xiàn)，比如畫(huà)面“長(zhǎng)什么樣子”，卻很少考慮獎(jiǎng)勵(lì)機(jī)制。舉個(gè)例子，在視頻生成中，即使模擬車(chē)輛即將撞車(chē)，模型也可能因?yàn)槿狈ψ曹?chē)數(shù)據(jù)而繼續(xù)生成車(chē)輛前行的畫(huà)面，不會(huì)提示“撞車(chē)”這個(gè)負(fù)面結(jié)果。所以，獎(jiǎng)勵(lì)確實(shí)是 CV 界世界模型目前較少考慮的點(diǎn)。

比如 LeCun 團(tuán)隊(duì)今年在 ICML 上發(fā)表的“ Navigation World Model ”研究，就將自身運(yùn)動(dòng)作為 action ，輸出圖像平面結(jié)果，并基于“目標(biāo)圖像”（ goal image ）定義獎(jiǎng)勵(lì)。在這種情況下，即使模型沒(méi)有直接學(xué)習(xí)獎(jiǎng)勵(lì)，也能通過(guò)生成圖像與目標(biāo)圖像的對(duì)比構(gòu)造獎(jiǎng)勵(lì)，進(jìn)而基于模型的控制思路遍歷路徑空間，實(shí)現(xiàn)導(dǎo)航、抓取等任務(wù)。這么做的話還是可以服務(wù)于 Agent 的。

趙昊：廖老師提到的這一點(diǎn)很關(guān)鍵：我們現(xiàn)在做的這些世界模型，大部分確實(shí)沒(méi)有考慮 reward 。這是一個(gè)很好的研究方向，我們都可以嘗試探索。如果能在今年的 ICLR 和 CVPR 投稿中探討“如何在 CV 的視頻生成世界模型中引入獎(jiǎng)勵(lì)”，會(huì)是非常好的選題。感謝廖老師的分享。最后有請(qǐng)鄭老師也來(lái)分享一下看法。

鄭文釗：我對(duì) RL 其實(shí)不是特別懂，所以簡(jiǎn)單說(shuō)一下我的觀點(diǎn)，不一定正確。但我很認(rèn)同剛才幾位老師的看法，總結(jié)來(lái)說(shuō)，我認(rèn)為 RL 界的世界模型和 CV 界世界模型主要區(qū)別在于， RL 界的世界模型更類(lèi)似判別式模型，當(dāng) Agent 在環(huán)境中執(zhí)行某個(gè)動(dòng)作后，它會(huì)輸出一個(gè)獎(jiǎng)勵(lì)值。而 CV 界的世界模型更像生成式模型，它不會(huì)評(píng)判行為的好壞，而是告訴你這個(gè)行為會(huì)導(dǎo)致世界呈現(xiàn)出什么樣的狀態(tài)。

比如在自動(dòng)駕駛場(chǎng)景中，若使用 RL 界的模型，當(dāng)車(chē)輛前行即將撞車(chē)時(shí)，它只會(huì)反饋“撞上了，獎(jiǎng)勵(lì)值為-1000”，而不會(huì)展示撞車(chē)后的畫(huà)面；但 CV 界的世界模型會(huì)生成撞車(chē)后的具體圖像，而非直接告知后果。這是第一個(gè)區(qū)別。

第二個(gè)區(qū)別，我結(jié)合剛才楊老師的觀點(diǎn)補(bǔ)充一下，判別式模型在很多情況下聚焦于從輸入 x 到輸出 y 的映射，而生成式模型則會(huì)同時(shí)對(duì) p(x,y) 進(jìn)行建模。由此我認(rèn)為， RL 界的世界模型更多是一種局部模型，它必須依賴(lài) Agent 獲取反饋，正如楊老師所說(shuō)，其核心是為 Agent 服務(wù)。但 CV 界的世界模型更接近獨(dú)立運(yùn)行的模型，它可以不依賴(lài)智能體，獨(dú)立建模世界的運(yùn)行規(guī)律。而且它是全局模型，如果有 Agent 在其中交互，理論上也能基于模型計(jì)算獎(jiǎng)勵(lì)。不過(guò)目前這類(lèi)獎(jiǎng)勵(lì)計(jì)算的方法還比較缺乏，但基于模型對(duì)未來(lái)的預(yù)測(cè)，其實(shí)是有可能推導(dǎo)出獎(jiǎng)勵(lì)的。

這就引出了第三個(gè)區(qū)別， RL 界的世界模型更多是反饋機(jī)制，不涉及動(dòng)作建模，動(dòng)作由 Agent 單獨(dú)處理；而 CV 界的世界模型可以給出 Action ?？偨Y(jié)來(lái)說(shuō)，CV 界的世界模型更通用，涵蓋世界與動(dòng)作建模； RL 界的世界模型則更狹義，主要是對(duì)智能體動(dòng)作的反饋。

趙昊：我總結(jié)一下，當(dāng)前 CV 界的世界模型已經(jīng)取得不錯(cuò)進(jìn)展，動(dòng)作因素也已被引入，但尚未大規(guī)模應(yīng)用并產(chǎn)生變革性影響，關(guān)鍵就在于缺乏獎(jiǎng)勵(lì)機(jī)制。只要定義好獎(jiǎng)勵(lì)，我們現(xiàn)在做的視頻生成模型、數(shù)據(jù)生成模型就能很快在自動(dòng)駕駛、具身智能、通用智能體等領(lǐng)域發(fā)揮作用。這是一個(gè)很好的趨勢(shì)性觀點(diǎn)。

通用視頻生成

趙昊：我們已經(jīng)討論完兩個(gè)比較抽象的問(wèn)題，接下來(lái)進(jìn)入專(zhuān)場(chǎng)環(huán)節(jié)，聚焦視頻生成、三維重建等內(nèi)容。第一個(gè)問(wèn)題通用視頻生成模型什么時(shí)候能變成真正的世界模型？

通用視頻生成模型的發(fā)展速度遠(yuǎn)超我的預(yù)期。去年三月，很多圖形學(xué)老師還認(rèn)為視頻生成模型缺乏物理規(guī)律，發(fā)展尚早，現(xiàn)在這些聲音已經(jīng)很少了，數(shù)據(jù)驅(qū)動(dòng)的力量確實(shí)不容小覷。我很好奇大家對(duì)其發(fā)展速度和演變趨勢(shì)的看法，請(qǐng)廖老師先講。

廖依伊：謝謝趙老師。關(guān)于通用視頻生成模型的發(fā)展，我確實(shí)不敢下結(jié)論，因?yàn)樗倪M(jìn)步正如您所說(shuō)，超乎想象。至于“通用視頻生成模型如何變成真正的世界模型”這個(gè)問(wèn)題，我認(rèn)為答案相對(duì)清晰，還是要回到我們之前達(dá)成的共識(shí)，世界模型需要具備動(dòng)作（ action ）和因果性（ causality ）。

當(dāng)前最先進(jìn)的視頻生成方法大多采用“三維注意力機(jī)制”（ 3D attention ），將空間（ spatial ）和時(shí)間（ temporal ）維度的 token 聯(lián)合處理生成視頻。但真正的世界模型需要滿(mǎn)足“ x(t) + a(t) → x(t+1) ”的邏輯，即基于當(dāng)前狀態(tài)和動(dòng)作，預(yù)測(cè)下一幀的觀測(cè)結(jié)果。

近期已有相關(guān)研究嘗試引入因果信息，例如在注意力機(jī)制中限制時(shí)序依賴(lài)——第二幀僅關(guān)注第一幀和自身，第三幀僅關(guān)注前兩幀和自身，通過(guò)這種方式強(qiáng)化因果關(guān)系，我認(rèn)為這是合理的探索方向。而動(dòng)作因素的引入仍存在開(kāi)放性問(wèn)題：比如建模自身相機(jī)位姿這類(lèi)動(dòng)作相對(duì)容易，但世界中其他動(dòng)態(tài)物體的動(dòng)作是否需要建模？若要建模，該如何設(shè)計(jì)？當(dāng)然，也可以如鄭老師所說(shuō)，將無(wú)關(guān)動(dòng)態(tài)歸為噪聲，建模未來(lái)的所有可能性，但世界模型的核心目標(biāo)是什么、動(dòng)作部分如何設(shè)計(jì)，這里還有很多問(wèn)題。

趙昊：我完全同意這個(gè)觀點(diǎn)。以前我認(rèn)為開(kāi)發(fā)基于 diffusion 的 Game Engine 沒(méi)什么用，因?yàn)樗唐趦?nèi)不可能替代游戲行業(yè)，且這類(lèi)模型缺乏三維表征。但現(xiàn)在我認(rèn)為它是重要的代理任務(wù)（ Proxy Task ），比單純的多媒體視頻生成模型更接近世界模型的終極目標(biāo)，是很好的研究載體。因此，動(dòng)作條件下的通用視頻生成模型若能進(jìn)一步優(yōu)化，我們就離真正的世界模型更近一步。接下來(lái)有請(qǐng)鄭老師分享看法。

鄭文釗：我比較同意剛才廖老師的觀點(diǎn)。關(guān)于通用視頻生成模型與世界模型的區(qū)別，之前很多人認(rèn)為，前者可能存在虛假內(nèi)容，后者需在視覺(jué)和物理層面都真實(shí)，但這種看法并不本質(zhì)。隨著技術(shù)發(fā)展，視頻生成模型中可能隱含物理規(guī)律，至于具體怎么做，是否通過(guò)三維表征實(shí)現(xiàn)更優(yōu)建模，屬于技術(shù)路徑問(wèn)題，并非核心差異。

實(shí)際上，當(dāng)前許多生成模型已能建模部分物理規(guī)律。伯克利的 Trevor 老師曾有一篇有趣的研究講過(guò)，盡管物理規(guī)律難以直接定義，但數(shù)據(jù)驅(qū)動(dòng)的視頻生成模型可通過(guò)學(xué)習(xí)挖掘物理規(guī)律，即數(shù)據(jù)驅(qū)動(dòng)在一定程度上能捕獲物理規(guī)律。因此回到核心問(wèn)題，我認(rèn)為廖老師的觀點(diǎn)非常正確：通用視頻生成模型與世界模型目前最大的gap，在于對(duì)動(dòng)作的反饋機(jī)制。具體包括：一是動(dòng)作的定義方式（如路徑類(lèi)動(dòng)作易定義，但復(fù)雜交互動(dòng)作如何定義）；二是視頻生成模型能否對(duì)動(dòng)作做出準(zhǔn)確反饋；三是反饋與動(dòng)作之間是否存在合理的因果關(guān)系。

趙昊：聽(tīng)完鄭老師的分享，我忍不住想分享自己的觀點(diǎn)。我認(rèn)為當(dāng)前通用視頻模型要發(fā)展為真正的世界模型，缺少的是編輯能力、文本對(duì)齊能力和指令遵循能力。今年年初， GPT-4o 等模型的編輯能力給人帶來(lái)巨大震撼——用戶(hù)輸入指令后，模型能精準(zhǔn)執(zhí)行。如果這不是專(zhuān)門(mén)調(diào)優(yōu)的結(jié)果，那么這類(lèi)模型的圖片編輯能力已接近世界模型，因?yàn)樗軐⑷我庵噶钷D(zhuǎn)化為對(duì)應(yīng)的視覺(jué)內(nèi)容（盡管在精細(xì)的數(shù)量、位置描述上仍有不足）。

我認(rèn)為編輯能力是比 action condition 更好的 task 。當(dāng)通用視頻生成模型能像 GPT-4o 一樣，通過(guò)文本指令實(shí)現(xiàn)高精度編輯時(shí)，無(wú)論其內(nèi)部原理如何，它必然已經(jīng)學(xué)到了關(guān)于世界的某些知識(shí)。所以我的觀點(diǎn)是，通用視頻生成模型除了通過(guò)動(dòng)作條件（如游戲引擎類(lèi)模型）這條路徑外，視頻編輯能力的突破也至關(guān)重要 —— 編輯能力做好了，它就會(huì)無(wú)限接近真正的世界模型。這算是我的一個(gè)“暴論”，接下來(lái)有請(qǐng)楊老師分享觀點(diǎn)。

楊夢(mèng)月：我對(duì)視頻生成領(lǐng)域了解不深，但聽(tīng)了剛才的分析后有一些想法。我怕在使用視頻生成大模型時(shí)，有時(shí)會(huì)覺(jué)得生成內(nèi)容奇怪，可能是因?yàn)槲醋裱蚬P(guān)系。但因果關(guān)系是否為必需，需根據(jù)具體場(chǎng)景判斷。若要利用模型訓(xùn)練 Agent ，使其在真實(shí)世界具備決策和探索能力，就需要模型貼近真實(shí)，遵循因果關(guān)系；但從視頻生成角度，可能無(wú)需嚴(yán)格遵循因果或物理規(guī)則。因?yàn)槿祟?lèi)要?jiǎng)?chuàng)作，有時(shí)會(huì)突破常規(guī)認(rèn)知，反而能產(chǎn)生新穎的創(chuàng)意。

當(dāng)前視頻生成模型多基于被動(dòng)數(shù)據(jù)學(xué)習(xí)，若數(shù)據(jù)本身帶有傾向性，模型可能學(xué)到人類(lèi)收集數(shù)據(jù)時(shí)的集體意識(shí)，進(jìn)而迸發(fā)新的創(chuàng)造力。因此需具體場(chǎng)景具體分析，部分場(chǎng)景需要因果關(guān)系支撐。

關(guān)于廖老師提到的動(dòng)態(tài)建模問(wèn)題，世界模型的定義本就非常廣義。 Multi-Agent 系統(tǒng)就是完全動(dòng)態(tài)的，具有“智能體策略相互影響的循環(huán)關(guān)系”，例如自動(dòng)駕駛場(chǎng)景中，兩輛車(chē)決策會(huì)相互作用，但這種動(dòng)態(tài)過(guò)程仍存在某種均衡。這又回到最初的問(wèn)題：如何衡量動(dòng)態(tài)中的不變？可能需要引入獎(jiǎng)勵(lì)模型，才能分析場(chǎng)景需求，從動(dòng)態(tài)中提取靜態(tài)知識(shí)。

趙昊：楊老師的觀點(diǎn)很有意思。 CV 研究者常認(rèn)為，能真實(shí)重建物理世界的才是好的世界模型，但大家使用 Sora 時(shí)，常讓它生成不符合真實(shí)物理的內(nèi)容?；蛟S生成真實(shí)內(nèi)容并非評(píng)判世界模型好壞的唯一標(biāo)準(zhǔn)。

我觀察 Sora 的 dashboard 發(fā)現(xiàn)，流量最高、被用戶(hù)推崇的視頻，大多是那些 “不太可能在真實(shí)世界中出現(xiàn)” 的內(nèi)容，它們可能符合基礎(chǔ)物理規(guī)律，但在現(xiàn)實(shí)中難以見(jiàn)到。這確實(shí)很有意思。接下來(lái)有請(qǐng)金老師分享對(duì)通用視頻生成模型的看法。

金鑫：幾位老師剛才從物理真實(shí)性、可編輯性等方面都做了很好的分享。楊老師的觀點(diǎn)讓我想到一個(gè)點(diǎn)：生成與物理事實(shí)相違背的內(nèi)容，即“反事實(shí)生成”（ counterfactual generation ）。我記得之前某本書(shū)中提到智能的幾個(gè)階段，第一階段是“觀察”，第二階段是“行動(dòng)”，第三階段是“想象”，是“ what if ”，想象“如果做了這件事會(huì)怎樣”，這種反事實(shí)生成能力或許是關(guān)鍵。

我認(rèn)為真正的世界模型若能生成全新場(chǎng)景或反事實(shí)結(jié)果，可能更接近通用智能，甚至涌現(xiàn)出新能力。若世界模型能學(xué)到甚至超越人類(lèi)總結(jié)的既定的物理規(guī)則，會(huì)非常令人興奮。這是我的觀點(diǎn)。

趙昊：金老師的觀點(diǎn)很有啟發(fā)性。我剛才提到生成視頻中存在不符合真實(shí)物理規(guī)律的內(nèi)容，這是否真的代表模型具備反事實(shí)生成能力？我覺(jué)得不一定。反而可能是因?yàn)?Sora 等模型在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)了大量互聯(lián)網(wǎng)視頻中的特效內(nèi)容，這些內(nèi)容并非真實(shí)物理世界的記錄，模型過(guò)擬合到了訓(xùn)練集中的視覺(jué)特效素材上。

廖依伊：我想結(jié)合楊老師和金老師的觀點(diǎn)提個(gè)問(wèn)題。若我們的最終目標(biāo)是通用智能體，使其能在真實(shí)世界交互并完成任務(wù)，那么這些視覺(jué)特效數(shù)據(jù)對(duì)智能體而言是干擾還是有用呢？

楊夢(mèng)月：我可以回答這個(gè)問(wèn)題。今年有一個(gè)令我印象深刻的新流派，叫做 open endedness 。他們認(rèn)為，在數(shù)據(jù)有限的情況下，要提升 Agent 決策能力，需不斷為其生成新任務(wù)和新環(huán)境，這些環(huán)境可包含前所未有的元素。

我曾與蘇昊團(tuán)隊(duì)交流，他們現(xiàn)在也要涉足視頻生成領(lǐng)域，因?yàn)樗麄兪亲?robotics 的，我就問(wèn)為什么。他們表示，其實(shí)是希望將視頻生成的結(jié)果用于訓(xùn)練 robotics agent ，提升其某些能力。因?yàn)閷?duì)于機(jī)器人而言，在真實(shí)環(huán)境中的探索代價(jià)是非常大的，比如讓智能體在真實(shí)環(huán)境中學(xué)習(xí)時(shí)，即使是在樣本復(fù)雜度可能不高的場(chǎng)景，在線探索也有很大的風(fēng)險(xiǎn)和代價(jià)，因此，通過(guò)視頻生成輔助生成訓(xùn)練數(shù)據(jù)，讓智能體能夠先獲得一些先驗(yàn)和反事實(shí)知識(shí)能在很大程度上提升樣本效率。

趙昊：open endedness （開(kāi)放性），這個(gè)詞很好。關(guān)于通用視頻生成中的視覺(jué)特效數(shù)據(jù)是否“有毒”，這個(gè)觀點(diǎn)很值得探討。這很像 NLP 領(lǐng)域的問(wèn)題：有些數(shù)據(jù)存在錯(cuò)誤或冗余，被稱(chēng)為“有毒數(shù)據(jù)”或“垃圾數(shù)據(jù)”，網(wǎng)上生成的這類(lèi)內(nèi)容可能也存在類(lèi)似問(wèn)題。如何讓通用視頻生成模型在垂直領(lǐng)域做好對(duì)齊，視頻生成領(lǐng)域遲早會(huì)走到這一步。

自動(dòng)駕駛的世界模型發(fā)展到哪兒了？

趙昊：好，我們進(jìn)入下一個(gè)問(wèn)題，回到我們的老本行，來(lái)聊聊自動(dòng)駕駛。我們都做了這么多年，什么時(shí)候才能到 L4 ?。渴紫扔姓?qǐng)金老師分享。

金鑫：很多學(xué)術(shù)界原本研究自動(dòng)駕駛的老師，現(xiàn)在轉(zhuǎn)向了具身智能領(lǐng)域，這確實(shí)是很現(xiàn)實(shí)的情況。在我看來(lái)，學(xué)術(shù)界的特點(diǎn)是把技術(shù)做到 60% 或 70%，搭建好方法和原型后，剩下的 “最后一公里” 或 “最后 10%”會(huì)交由工業(yè)界完成。學(xué)術(shù)界注重方法與預(yù)研，工業(yè)界則更快地將其集成產(chǎn)品，因?yàn)樗麄冇懈鄡?yōu)秀工程師和具備產(chǎn)品思維的產(chǎn)品經(jīng)理。這是互聯(lián)網(wǎng)與 IT 技術(shù)發(fā)展至今的規(guī)律。

自動(dòng)駕駛問(wèn)題已相對(duì)清晰，所以并非是這些學(xué)術(shù)界的老師放棄了自動(dòng)駕駛，反而它已接近落地階段。在硅谷， Waymo 的自動(dòng)駕駛出租車(chē)服務(wù)每天都在跑。我之前和華為的王新宇老師在論壇交流時(shí)，他提到自動(dòng)駕駛的后續(xù)核心是工程化集成，華為也投入了很多人力做這些 dirty work 。

從自動(dòng)駕駛轉(zhuǎn)向具身智能，要解決的問(wèn)題更多、更復(fù)雜，這正是學(xué)術(shù)界需要重點(diǎn)突破的方向。在我看來(lái)，這不是跟風(fēng)轉(zhuǎn)向，而是合理的研究遞進(jìn)。自駕已經(jīng)有了很多的方案，已經(jīng)可以帶來(lái)價(jià)值了，可以先投入到市場(chǎng)，之后有了新問(wèn)題之后大家可以繼續(xù)研究。

趙昊：金老師認(rèn)為自動(dòng)駕駛已發(fā)展到一定階段，剩余工作由工業(yè)界大規(guī)模落地。我基本贊同，但覺(jué)得還存在一些技術(shù)問(wèn)題。一是分辨率有待提高，二是視頻長(zhǎng)度不足。這些技術(shù)難題大概率會(huì)在今年得到徹底解決。對(duì)于自動(dòng)駕駛的場(chǎng)景片段（ CLIP ），真實(shí)數(shù)據(jù)通常是十幾秒的片段，我認(rèn)為如果模型能在一分鐘內(nèi)保持穩(wěn)定的生成質(zhì)量就足夠了；分辨率則是另一個(gè)技術(shù)難題，目前車(chē)廠使用的數(shù)據(jù)分辨率較高，但模型生成的分辨率仍偏低，這是很具體的技術(shù)層面問(wèn)題。

關(guān)于如何服務(wù)決策，我認(rèn)為今年還剩最后一個(gè)關(guān)鍵問(wèn)題，“在自動(dòng)駕駛世界模型中如何定義獎(jiǎng)勵(lì)（ reward ）”。目前動(dòng)作和高質(zhì)量傳感器數(shù)據(jù)生成能力已經(jīng)具備，就差獎(jiǎng)勵(lì)機(jī)制。一旦獎(jiǎng)勵(lì)建模完成，方法論就能形成閉環(huán)，通過(guò)持續(xù)驗(yàn)證優(yōu)化，真正邁向 L4 級(jí)。接下來(lái)有請(qǐng)廖老師談?wù)勛詣?dòng)駕駛世界模型的下一步方向。

廖依伊：我的觀點(diǎn)和金老師略有不同。金老師提到自動(dòng)駕駛已有很多落地算法，這一點(diǎn)我認(rèn)同：如果將世界模型定義為生成環(huán)境觀測(cè)、將 AD 模型定義為生成動(dòng)作，那么在 AD 模型方面確實(shí)已有相對(duì)成熟的算法投入實(shí)際運(yùn)行。但我認(rèn)為，目前還沒(méi)有特別有說(shuō)服力的工作，能證明自動(dòng)駕駛世界模型在訓(xùn)練閉環(huán)中真正發(fā)揮了關(guān)鍵作用。

現(xiàn)在 CV 界的人，在世界模型研究中，關(guān)注的都是損失函數(shù)，都是圖像生成或渲染質(zhì)量，無(wú)論是重建還是生成路線，都以峰值信噪比（ PSNR ）等指標(biāo)衡量，而沒(méi)有回到 Agent 上去。因?yàn)樯扇蝿?wù)更容易推進(jìn)，大家更多先追求 “生成得好”。但實(shí)際中，路上跑的系統(tǒng)大多還是基于大量數(shù)據(jù)的模仿學(xué)習(xí)訓(xùn)練而成。

目前，世界模型即便被應(yīng)用于自動(dòng)駕駛，可能也只是作為驗(yàn)證工具，比如驗(yàn)證車(chē)輛在場(chǎng)景中能否正常行駛。但真正將世界模型納入訓(xùn)練閉環(huán)，用它支持 Agent 訓(xùn)練并證明其有效性的工作，目前還較為缺乏。當(dāng)然也有一些初步的相關(guān)嘗試，例如地平線的 RAD 在 3D 高斯場(chǎng)景中開(kāi)展了自動(dòng)駕駛強(qiáng)化學(xué)習(xí)微調(diào)。我認(rèn)為從世界模型的角度來(lái)看，仍有許多問(wèn)題值得探索。比如，當(dāng)前的 3D 高斯技術(shù)以及我們自研的模擬器，是否真的能有效縮小領(lǐng)域差距（ domain gap ），這一點(diǎn)就非常需要驗(yàn)證。

金鑫：我同意廖老師的觀點(diǎn)。剛才說(shuō)的是自動(dòng)駕駛整體算法層面，而針對(duì)自動(dòng)駕駛世界模型，我認(rèn)為它才剛起步，或者說(shuō)在追求更完備解決方案的道路上，大家的思路才剛轉(zhuǎn)變。兩年前，大家可能還在想著收集數(shù)據(jù)、自監(jiān)督訓(xùn)練，但慢慢發(fā)現(xiàn)，數(shù)據(jù)無(wú)法窮盡所有邊緣案例（ corner case ），每次遇到新案例就補(bǔ)數(shù)據(jù)，這種方式永遠(yuǎn)無(wú)法覆蓋所有情況。于是大家才轉(zhuǎn)向借助閉環(huán)模擬器（即世界模型）來(lái)輔助訓(xùn)練，不需要依賴(lài)持續(xù)收集數(shù)據(jù)就能學(xué)好，這個(gè)思路轉(zhuǎn)變其實(shí)才剛剛開(kāi)始，還處于早期階段。

趙昊：總結(jié)廖老師的觀點(diǎn)，下一步我們要走向大規(guī)?；谑澜缒Ｐ偷挠?xùn)練，我完全同意。這其中最核心的問(wèn)題就是 reward 如何定義。接下來(lái)有請(qǐng)鄭老師分享自動(dòng)駕駛世界模型的發(fā)展趨勢(shì)和下一個(gè)突破點(diǎn)。

鄭文釗：我整體還是比較認(rèn)同廖老師的觀點(diǎn)。在 sora 等模型出現(xiàn)后，大家開(kāi)始探索如何將其遷移到自動(dòng)駕駛場(chǎng)景，有些工作直接使用自動(dòng)駕駛數(shù)據(jù)訓(xùn)練，但本質(zhì)上仍在像素（ Pixel ）空間建模；當(dāng)然還有另一類(lèi)方法，比如我們之前做的工作，直接在三維空間（如占據(jù)空間、邊界框空間，或是后來(lái)的高斯空間）中建模，探索如何讓世界模型真正在三維空間用起來(lái)。

自動(dòng)駕駛的特點(diǎn)是，對(duì)世界模型的精度要求極高，比如停車(chē)時(shí)可能需要厘米級(jí)的精度，“看起來(lái)對(duì)”是一回事，“實(shí)際能用”是另外一回事。像 sora 這類(lèi)模型，看起來(lái)沒(méi)裝上，但是差幾厘米，后果差別是很大的。因此，自動(dòng)駕駛世界模型目前的關(guān)鍵問(wèn)題是：如何實(shí)現(xiàn)對(duì)未來(lái)的精準(zhǔn)預(yù)測(cè)，以及對(duì)動(dòng)作的精準(zhǔn)響應(yīng)能力。

從當(dāng)前趨勢(shì)來(lái)看，有一些工作開(kāi)始走三維與二維結(jié)合的路線。三維重建的優(yōu)勢(shì)是在三維空間中精度較高，但缺乏想象能力，生成效果可能不夠自然，兩者結(jié)合可能是自動(dòng)駕駛世界模型未來(lái)的發(fā)展趨勢(shì)之一。

第二點(diǎn)是泛化能力的提升，這關(guān)系到世界模型如何更好地落地。我認(rèn)為泛化性可分為兩個(gè)層面：第一是泛化到數(shù)據(jù)未覆蓋但符合物理規(guī)律的場(chǎng)景；第二類(lèi)似之前提到的反事實(shí)（ counter factual ）泛化，即泛化到不真實(shí)的場(chǎng)景。我們需要第一種，比如數(shù)據(jù)中沒(méi)有撞車(chē)案例，模型能否想象出真實(shí)的拐彎碰撞場(chǎng)景。

第三點(diǎn)是如何用好世界模型，這也是金老師和廖老師提到的未來(lái)發(fā)展方向。結(jié)合我們?cè)缙诘奶剿?，我認(rèn)為可以從兩方面入手：一是讓世界模型具備預(yù)測(cè) action 的能力。這類(lèi)似人類(lèi)開(kāi)車(chē)，人具有有預(yù)測(cè)未來(lái)的能力，但很多時(shí)候人的動(dòng)作是下意識(shí)的本能判斷（無(wú)需刻意思考左拐加速的后果）；二是在有時(shí)間的情況下，模型可以像人一樣“深思熟慮”，比如模擬左拐、右拐的結(jié)果后選擇最優(yōu)動(dòng)作。因此，世界模型在自動(dòng)駕駛中的應(yīng)用不應(yīng)僅作為訓(xùn)練的獎(jiǎng)勵(lì)機(jī)制，更應(yīng)轉(zhuǎn)化為一種預(yù)測(cè)范式，既包含“系統(tǒng)一”的本能反應(yīng)，也包含“系統(tǒng)二”的深度決策。

趙昊：感謝鄭老師。我們聊了很多專(zhuān)業(yè)細(xì)節(jié)，不知道普通聽(tīng)眾會(huì)不會(huì)覺(jué)得難以理解？整體而言，鄭老師提到的一個(gè)觀點(diǎn)很有意思：當(dāng)前自動(dòng)駕駛世界模型的基準(zhǔn)（ Benchmark ）性能還比較低，比如占據(jù)預(yù)測(cè)（ occupancy ）指標(biāo)在部分?jǐn)?shù)據(jù)集上僅二十幾，有些數(shù)據(jù)集能到四十幾，可能要等指標(biāo)提升到70左右，才能說(shuō)模型相對(duì)成熟。

這就引出一個(gè)問(wèn)題：隨著 VGGT 等視覺(jué)基礎(chǔ)模型的發(fā)展，自動(dòng)駕駛數(shù)據(jù)集上的指標(biāo)卻難以上漲，大家覺(jué)得有什么新機(jī)會(huì)能推動(dòng)指標(biāo)提升嗎？

鄭文釗：有時(shí)可視化結(jié)果看起來(lái)不錯(cuò)，但指標(biāo)只有20，這正反映了自動(dòng)駕駛對(duì)精準(zhǔn)度的嚴(yán)格標(biāo)準(zhǔn)。趙老師提到的方向很關(guān)鍵：目前在基礎(chǔ)層面，自動(dòng)駕駛還缺乏像 VGGT 那樣成熟的感知基礎(chǔ)模型。現(xiàn)在大家訓(xùn)練的模型多基于早期的 ResNet 等架構(gòu)，或未經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練的骨干網(wǎng)絡(luò)（ backbone ）。未來(lái)若能出現(xiàn)專(zhuān)為自動(dòng)駕駛設(shè)計(jì)的感知基礎(chǔ)模型（ perception foundation model for autonomous driving ），性能應(yīng)該會(huì)有較大飛躍。

趙昊：我們最近用 VGGT 更多是做重建和仿真。長(zhǎng)期來(lái)看，我和同行聊過(guò)一個(gè)觀點(diǎn)：遲早會(huì)出現(xiàn)自動(dòng)駕駛垂類(lèi)的動(dòng)態(tài)基礎(chǔ)模型?，F(xiàn)在已不是單純的 VGGT ，而是有了動(dòng)態(tài)版本的 SpatialTracker V2 ，它的性能非常強(qiáng)，我們最近的工作都基于它。自動(dòng)駕駛場(chǎng)景是動(dòng)態(tài)的，必然需要適配動(dòng)態(tài)場(chǎng)景的模型。如果能有這類(lèi)垂類(lèi)的 SpatialTracker V2 模，當(dāng)前的范圍檢測(cè)、 occupancy mapping 等任務(wù)的指標(biāo)都可能大幅提升，我們可以期待，這樣的工作誰(shuí)能做出來(lái)，一定會(huì)很有影響力。

或許不如把所有自動(dòng)駕駛數(shù)據(jù)整合起來(lái)，訓(xùn)練一個(gè)專(zhuān)屬的 SpatialTracker ，說(shuō)不定今年自動(dòng)駕駛感知任務(wù)能迎來(lái)突破。之前大家覺(jué)得 Waymo 上模型的檢測(cè)性能已觸頂，但今年或許能再漲一漲。最后有請(qǐng)楊老師分享看法。

楊夢(mèng)月：我對(duì)自動(dòng)駕駛領(lǐng)域的具體方法并不十分熟悉，但從金老師提到的關(guān)聯(lián)、干預(yù)與反事實(shí)推理角度來(lái)看，我們希望智能體具備反事實(shí)想象能力，那它就必須理解場(chǎng)景的因果結(jié)構(gòu)——這源于圖靈獎(jiǎng)獲得者朱迪亞·珀?duì)? Judea Pearl )提出的“因果階梯”概念，他是因果推理領(lǐng)域的核心研究者。

因果推理的核心是“三層階梯”，而實(shí)現(xiàn)三層階梯的根本要求是理解系統(tǒng)內(nèi)部的運(yùn)行規(guī)則。因此，若要確保智能體具備想象能力，或是滿(mǎn)足安全層面的高要求，它必須掌握具體的物理規(guī)則和環(huán)境規(guī)則。此外好的世界模型，也無(wú)法捕捉現(xiàn)實(shí)世界的所有情況。這一方面受限于數(shù)據(jù)，另一方面因?yàn)槭澜缒Ｐ驮谟?xùn)練之初就應(yīng)處于動(dòng)態(tài)更新的閉環(huán)中，從 RL 的角度來(lái)看，這個(gè)過(guò)程是：首先通過(guò)經(jīng)驗(yàn)數(shù)據(jù)訓(xùn)練出轉(zhuǎn)移模型，再基于轉(zhuǎn)移模型做出決策。而決策結(jié)果與轉(zhuǎn)移模型預(yù)期結(jié)果的差異，就可以用來(lái)更新世界模型。因此，我認(rèn)為提升模型性能的一個(gè)重要方向是：不能僅依賴(lài)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練，還需要通過(guò)兩方面發(fā)力 —— 一方面要思考如何在真實(shí)系統(tǒng)中進(jìn)行干預(yù)并獲取真實(shí)反饋，這種干預(yù)是基于當(dāng)前對(duì)世界的理解（比如已有的世界模型）做出的決策；另一方面，當(dāng)決策執(zhí)行后，將收到的真實(shí)反饋用于更新當(dāng)前的世界模型。

因此，模型訓(xùn)練應(yīng)從兩方面展開(kāi)：一是從數(shù)據(jù)和仿真器中學(xué)習(xí)；二是在保證安全的前提下，讓智能體在真實(shí)環(huán)境中進(jìn)行一定程度的探索，通過(guò)真實(shí)反饋持續(xù)自我更新。

具身智能的世界模型應(yīng)該如何構(gòu)建？

趙昊：我們接著討論下一個(gè)話題：具身智能的世界模型應(yīng)該如何構(gòu)建。具身智能世界模型目前尚未形成明確的范式、規(guī)范和定義，需要一個(gè)好的切入點(diǎn)來(lái)證明其價(jià)值，推動(dòng)領(lǐng)域發(fā)展。

我覺(jué)得，具身智能的世界模型需要一個(gè)“觸發(fā)器”，一個(gè)能證明其價(jià)值的場(chǎng)景，這樣這個(gè)領(lǐng)域才能真正發(fā)展壯大，目前還缺少這樣的閉環(huán)機(jī)制。我還沒(méi)找到特別好的思路，也沒(méi)看到成熟的案例，但今年有兩個(gè)工作讓我印象深刻：一是賀老師團(tuán)隊(duì)的呂江燃在 ICCV 會(huì)議上做的工作，能用具身智能世界模型實(shí)現(xiàn)非預(yù)編程操作（ non-prehensible manipulation ）；二是董老師團(tuán)隊(duì)的寧川若同學(xué)在 RSS 會(huì)議上發(fā)表的《 Prompting with Future 》，用高斯世界模型展現(xiàn)了規(guī)劃能力。這兩個(gè)工作可能是目前具身智能世界模型領(lǐng)域相對(duì)閉環(huán)的 baseline 案例，不過(guò)都還處于初期階段。想先問(wèn)問(wèn)鄭老師，若要研究具身智能世界模型，您認(rèn)為哪些技術(shù)路徑比較值得探索？

鄭文釗：我覺(jué)得具身智能的問(wèn)題特點(diǎn)與自動(dòng)駕駛有相似之處，比如都對(duì)三維精度有極高要求，甚至比自動(dòng)駕駛更嚴(yán)格。自動(dòng)駕駛場(chǎng)景相對(duì)宏大，而具身智能的抓取等場(chǎng)景可能需要毫米級(jí)精度——一旦誤差超過(guò)范圍，就可能抓取失敗，這是第一個(gè)挑戰(zhàn)。第二，物理規(guī)律在具身智能中扮演更重要的角色：自動(dòng)駕駛的物理規(guī)律相對(duì)簡(jiǎn)單（如車(chē)輛行駛），涉及的重力等復(fù)雜物理作用較少；但具身智能的抓取場(chǎng)景中，物理規(guī)律至關(guān)重要，這也是為什么大家常做 real2sim2real 的研究——需要先將真實(shí)場(chǎng)景映射到仿真空間，而仿真空間必須明確建模物理規(guī)律。

從發(fā)展階段看，具身智能的世界模型整體比自動(dòng)駕駛稍落后，但有其獨(dú)特性，比如已有工作嘗試在仿真空間中建模物理規(guī)律，而自動(dòng)駕駛領(lǐng)域缺乏對(duì)物理引擎（ Physics engine ）的深度建模，這是具身智能的一大特點(diǎn)。

未來(lái)具身智能世界模型的發(fā)展，我認(rèn)為有兩個(gè)方向：一是像自動(dòng)駕駛中提到的，實(shí)現(xiàn)重建與生成的結(jié)合，提升三維建模精度；二是更精準(zhǔn)地判斷因果性，并讓因果性與物理規(guī)律更好契合。由于具身智能的數(shù)據(jù)稀缺，純數(shù)據(jù)驅(qū)動(dòng)很難訓(xùn)練出符合物理規(guī)律的世界模型，因此需要更好地建模物理規(guī)律，甚至將其“注入”模型。除了 real2sim2real 的路徑，更優(yōu)的方向可能是數(shù)據(jù)驅(qū)動(dòng)與物理規(guī)律結(jié)合——探索如何通過(guò)某種方式將物理規(guī)律注入數(shù)據(jù)驅(qū)動(dòng)模型，這可能是未來(lái)的趨勢(shì)。

金鑫：我跟鄭老師觀點(diǎn)相似。我們最近半年也在做類(lèi)似探索。記得去年年底會(huì)議上碰到廖老師，討論她的 HUGSIM 工作時(shí)，我曾建議是否考慮加入物理規(guī)則，讓仿真層（ SIM layer ）更具物理屬性。當(dāng)時(shí)廖老師反問(wèn)：“物理性對(duì)自動(dòng)駕駛?cè)蝿?wù)真的那么重要嗎？” 這個(gè)問(wèn)題讓我深思，后來(lái)發(fā)現(xiàn)確實(shí)如此，自動(dòng)駕駛中，除了天氣光照、路面積水反光（比如陳寶權(quán)老師團(tuán)隊(duì)做的相關(guān)研究）等邊緣場(chǎng)景，對(duì)物理規(guī)律的依賴(lài)并不強(qiáng)。但具身智能不同，機(jī)器人的夾爪摩擦力、力反饋，以及軟體、流體、鉸接體等的物理屬性，對(duì)任務(wù)影響極大。因此，物理真實(shí)性（ physical world intelligence ）對(duì)具身智能的世界模型反而更重要。

我們的探索方向和鄭老師提到的很接近：不僅依賴(lài)數(shù)據(jù)驅(qū)動(dòng)，還借鑒了傳統(tǒng)仿真領(lǐng)域的經(jīng)驗(yàn)，結(jié)合圖形學(xué)中的物理建模方法（如楊氏模量、彈簧 - 質(zhì)量模型等基于規(guī)則的物理仿真）與數(shù)據(jù)驅(qū)動(dòng)的生成模型（如 AIGC 生成模型），希望讓具身智能的世界模型既能保證物理真實(shí)性，又能實(shí)現(xiàn)表現(xiàn)真實(shí)（ appearance real ）。

楊夢(mèng)月：我對(duì)具身智能領(lǐng)域的了解確實(shí)比較有限，更多是從各位的觀點(diǎn)中學(xué)習(xí)。我的想法是，在具身場(chǎng)景中，能否通過(guò)某種機(jī)制或智能體捕捉物理規(guī)律，將其整合成因果模型，再利用該模型進(jìn)行反事實(shí)預(yù)測(cè)或推斷，大概是這樣的思路。

趙昊：我覺(jué)得這個(gè)觀點(diǎn)很有意思，這也是今年的一個(gè)重要趨勢(shì)。比如近期的 4KAgent 表現(xiàn)出色。我隱約感覺(jué)到，今年存在“算法 Agent 化”的趨勢(shì)。這個(gè)理論在2023年就已出現(xiàn)（比如 Visual Programming 團(tuán)隊(duì)關(guān)于 tool using 的 best paper ），但今年堪稱(chēng)“ Agent 元年”，連寫(xiě)代碼都能被 Agent 替代，因此，今年或許可以重新審視 Auto ML 、視覺(jué)編程等方向。

這個(gè)思路很有價(jià)值：世界模型未必是客觀被動(dòng)的、被物理規(guī)則固化的存在，它能否成為主動(dòng)演變的“環(huán)境 Agent ”，在與數(shù)據(jù)的互動(dòng)中持續(xù)優(yōu)化？這是今年值得探索的有趣方向。

廖依伊：我總體贊成金老師和鄭老師的觀點(diǎn)，思路確實(shí)比較相近。從自動(dòng)駕駛世界模型到通用具身智能世界模型，兩者差異顯著：自動(dòng)駕駛中，智能體與環(huán)境的交互很有限，主要是與路面的交互，路面可建模為平面，自車(chē)可用基礎(chǔ)模型簡(jiǎn)化，其他物體（如車(chē)輛、行人）也有特定模型，場(chǎng)景相對(duì)局限。因此，自動(dòng)駕駛中無(wú)論是視頻生成還是其他任務(wù)，都容易回歸到 3D 建模，且 3D 渲染高效，操作便捷。

但具身智能中， 3D 固然重要（因涉及交互），但維度復(fù)雜度大幅提升——既包括智能體自身的維度，也包括與環(huán)境交互的維度。我一直在糾結(jié)路線選擇：是走 2D 路線，還是 3D 路線？比如今年 Cosmos 的工作采用“ 3D+2D ”模式，先通過(guò)仿真器生成 Mesh ，再驅(qū)動(dòng)生成逼真視頻，這確實(shí)是未來(lái)趨勢(shì)之一，但未必是唯一趨勢(shì)。核心問(wèn)題在于：是否必須顯式建模 3D ？在 2D 層面能否學(xué)好交互？若有足夠訓(xùn)練數(shù)據(jù)， 2D 學(xué)習(xí)交互可能更簡(jiǎn)單——比如疊衣服、泥巴落地等非剛性物體場(chǎng)景，在 3D 中建模難度極大。如何做好 2D 與 3D 的結(jié)合，仍是難題。

趙昊：完全同意。若 3D、4D 仿真過(guò)于復(fù)雜，不顯式建?；蛟S更好。

金鑫：還要考慮訓(xùn)練復(fù)雜度和推理效率——機(jī)械臂等硬件的算力有限，復(fù)雜建模會(huì)更麻煩。

趙昊：感謝四位老師的分享。希望今天的安排大家滿(mǎn)意。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.