国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

萬(wàn)字長(zhǎng)文實(shí)錄:RL 界與 CV 界的“世界模型”有什么不同?丨GAIR Live

0
分享至



無(wú)論是自動(dòng)駕駛還是具身智能,都在走向大規(guī)?;谑澜缒P偷挠?xùn)練之路。

作者丨劉欣

編輯丨馬曉寧、陳彩嫻

世界模型在人工智能領(lǐng)域中扮演著重要角色,能夠有效為智能體提供對(duì)復(fù)雜現(xiàn)實(shí)世界的內(nèi)在表征,使其像人類(lèi)一樣理解世界運(yùn)行的邏輯與因果關(guān)系,對(duì)自動(dòng)駕駛、具身智能的突破性發(fā)展至關(guān)重要,它已成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。

2015年8月5日,雷峰網(wǎng)、AI 科技評(píng)論 GAIR Live 品牌舉辦了一場(chǎng)主題為“世界模型——通向通用智能的關(guān)鍵拼圖”的線上圓桌沙龍。

圓桌主持人為清華大學(xué)智能產(chǎn)業(yè)研究院( AIR )助理教授、智源學(xué)者趙昊,并邀請(qǐng)了寧波東方理工大學(xué)助理教授金鑫、浙江大學(xué)特聘研究員廖依伊、布里斯托大學(xué)助理教授楊夢(mèng)月、伯克利人工智能實(shí)驗(yàn)室博士后研究員鄭文釗一起進(jìn)行了一場(chǎng)深度的討論。

會(huì)上主持人趙昊帶頭討論世界模型,先是探討其定義、范圍,接著分析強(qiáng)化學(xué)習(xí)界與計(jì)算機(jī)視覺(jué)界的世界模型的不同,隨后圍繞視頻生成、三維重建等內(nèi)容,剖析通用視頻生成模型向真正的世界模型的發(fā)展路徑,最后關(guān)注于落地場(chǎng)景,聚焦于自動(dòng)駕駛以及具身智能,并探討構(gòu)建其世界模型的難點(diǎn)和方向。

其中,四位嘉賓圍繞具身智能世界模型的構(gòu)建分別提出了自己的獨(dú)到見(jiàn)解:

鄭文釗認(rèn)為具身智能的問(wèn)題與自動(dòng)駕駛相似,未來(lái)應(yīng)該實(shí)現(xiàn)重建與生成的結(jié)合、提升三維建模精度,以及更精準(zhǔn)地判斷因果性,使因果性與物理規(guī)律更好契合,但由于具身智能的數(shù)據(jù)稀缺,純數(shù)據(jù)驅(qū)動(dòng)很難訓(xùn)練出符合物理規(guī)律的世界模型,因此需要更好地建模物理規(guī)律,甚至將其“注入”模型。除了“真實(shí)到仿真再到真實(shí)”的路徑,更優(yōu)的方向可能是數(shù)據(jù)驅(qū)動(dòng)與物理規(guī)律結(jié)合——探索如何通過(guò)某種方式將物理規(guī)律注入數(shù)據(jù)驅(qū)動(dòng)模型,這可能是未來(lái)的趨勢(shì)。

金鑫也表示物理規(guī)律、物理真實(shí)性( physical world intelligence )對(duì)具身智能的世界模型很重要,探索方向不僅依賴(lài)數(shù)據(jù)驅(qū)動(dòng),還借鑒了傳統(tǒng)仿真領(lǐng)域的經(jīng)驗(yàn),結(jié)合圖形學(xué)中的物理建模方法(如楊氏模量、彈簧 - 質(zhì)量模型等基于規(guī)則的物理仿真)與數(shù)據(jù)驅(qū)動(dòng)的生成模型(如 AIGC 生成模型),希望讓具身智能的世界模型既能保證物理真實(shí)性,又能實(shí)現(xiàn)外觀真實(shí)。

楊夢(mèng)月則提出了她自己的思路,在具身場(chǎng)景中,通過(guò)某種機(jī)制或智能體捕捉物理規(guī)律,將其整合成因果模型,再利用該模型進(jìn)行反事實(shí)預(yù)測(cè)或推斷。

最后廖依伊對(duì)金鑫和鄭文釗的觀點(diǎn)表示贊同,還發(fā)出了路線選擇的疑問(wèn),她認(rèn)為核心問(wèn)題在于:是否必須顯式建模 3D ?在 2D 層面能否學(xué)好交互?若有足夠訓(xùn)練數(shù)據(jù),2D 學(xué)習(xí)交互可能更簡(jiǎn)單——比如疊衣服、泥巴落地等非剛性物體場(chǎng)景,在 3D 中建模難度極大。如何做好 2D 與 3D 的結(jié)合,仍是難題。


以下是此次圓桌討論的精彩分享,AI 科技評(píng)論進(jìn)行了不改原意的編輯整理:

01

如何定義世界模型

趙昊:大家好,歡迎來(lái)到本次線上研討會(huì)。我們將圍繞“世界模型——通向通用智能的關(guān)鍵拼圖”這一主題展開(kāi)討論。我是趙昊,此前曾在北京大學(xué)和英特爾研究院工作,目前任職于清華大學(xué)智能產(chǎn)業(yè)研究院( AIR ),主要從事計(jì)算機(jī)視覺(jué)、圖形學(xué)與機(jī)器人的交叉研究。世界模型作為串聯(lián)這些領(lǐng)域的核心技術(shù),我對(duì)其始終秉持堅(jiān)定的信念。

在正式開(kāi)始前,我想先界定一下世界模型的范疇。從最狹義的角度來(lái)看,是自動(dòng)駕駛領(lǐng)域的世界模型,這也是目前研究較多的方向;進(jìn)一步拓展,則是具身智能的世界模型;再往上,第三層可涵蓋通用視頻生成或傳感器生成模型;而最廣義的層面,我認(rèn)為是訓(xùn)練智能體的世界模型。

今天參與討論的幾位老師雖多來(lái)自計(jì)算機(jī)視覺(jué)領(lǐng)域,但考慮到AI科技評(píng)論的廣泛視野,我們的討論范圍應(yīng)當(dāng)進(jìn)一步擴(kuò)大。盡管部分領(lǐng)域,如自然語(yǔ)言處理( NLP )、智能體( Agent )等,我個(gè)人并非深耕其中,但既然舉辦此次線上研討會(huì),就應(yīng)當(dāng)拓展討論邊界,最終聚焦到第四層級(jí)的核心議題——通用智能如何在世界模型中誕生。

當(dāng)然,考慮到今天受邀的幾位老師多具備計(jì)算機(jī)視覺(jué)( CV )背景,我們的討論可以從自動(dòng)駕駛領(lǐng)域切入,再逐步向外延伸。畢竟不同領(lǐng)域的科學(xué)原理在本質(zhì)上存在共通之處。

金鑫:謝謝趙老師的開(kāi)場(chǎng)。大家好,我是金鑫,目前任職于寧波東方理工大學(xué)信息學(xué)部。寧波東方理工大學(xué)是一所新型研究型大學(xué),目前正在全球范圍內(nèi)廣納賢才。

我是中國(guó)科學(xué)技術(shù)大學(xué)博士,研究方向包括空間智能及世界模型相關(guān)工作,一直與趙老師團(tuán)隊(duì)合作推進(jìn)自動(dòng)駕駛相關(guān)研究,涉及基于 Occupancy-based 的生成等方向等等。

廖依伊:大家好,我是浙江大學(xué)特聘研究員廖依伊。我的求學(xué)和工作經(jīng)歷如下:我在浙江大學(xué)獲得博士學(xué)位,在德國(guó)馬普所從事博士后研究,所在組是搭建 KITTI 數(shù)據(jù)集的 Autonomous Vision Group ,在組里期間我主導(dǎo)了 KITTI-360 數(shù)據(jù)集的構(gòu)建工作,所以開(kāi)始涉足自動(dòng)駕駛相關(guān)研究。圍繞世界模型的方案,我們做了街景重建與生成。

我們近期研發(fā)的 HUGSIM 是一款基于 3D 高斯的仿真器,能夠與自動(dòng)駕駛算法實(shí)現(xiàn)互動(dòng)。正如趙老師所說(shuō),這屬于狹義的世界模型研究。今天非常期待能與各位老師探討,從狹義到廣義的世界模型發(fā)展。

楊夢(mèng)月:我是楊夢(mèng)月,去年10月加入布里斯托大學(xué)擔(dān)任助理教授,之前在 UCL 攻讀博士學(xué)位,導(dǎo)師是汪軍教授。我的研究方向最初是因果表征學(xué)習(xí),后來(lái)結(jié)合強(qiáng)化學(xué)習(xí)( RL )相關(guān)內(nèi)容,近期轉(zhuǎn)向世界模型研究,尤其聚焦于世界模型對(duì)世界規(guī)則的理解。我的研究方向可能不太偏向 CV ,更多側(cè)重于因果理解和表征學(xué)習(xí)。

鄭文釗:我是鄭文釗,目前在伯克利人工智能實(shí)驗(yàn)室從事博士后研究。我本科和博士均畢業(yè)于清華大學(xué),本科就讀于物理系。博士期間,我主要從事相似性度量等基礎(chǔ)研究,后期也涉足自動(dòng)駕駛領(lǐng)域。我們始終堅(jiān)持基于世界模型的自動(dòng)駕駛,之后也會(huì)將世界模型拓展至更通用的智能領(lǐng)。

趙昊:接下來(lái)我們正式進(jìn)入討論環(huán)節(jié)。開(kāi)頭的這兩個(gè)話題,我想把我們討論的世界模型的 Scope 變得更大一點(diǎn)。

剛剛結(jié)束的智源大會(huì)也讓我學(xué)到了很多新知識(shí)。我個(gè)人主要是做 CV 的,CV 領(lǐng)域長(zhǎng)期以來(lái)的觀點(diǎn)是通過(guò)重建物理世界、再做仿真和渲染來(lái)構(gòu)建世界模型,但在這次大會(huì)上,許多 senior 學(xué)者從更抽象的角度看待世界模型,將其視為通向通用智能的關(guān)鍵拼圖。盡管我們可能從自動(dòng)駕駛汽車(chē)、機(jī)器人的角度出發(fā),但第一部分,我想從更通用的人工智能角度來(lái)思考這個(gè)問(wèn)題。

GPT 為代表的 LLM 無(wú)疑是當(dāng)前人工智能領(lǐng)域的典范,但它也面臨一些問(wèn)題。首先是數(shù)據(jù)短缺, 數(shù)據(jù)耗盡后 GPT 的發(fā)展可能會(huì)停滯;其次,GPT 距離通用智能還有差距,它存在一些無(wú)法完成的任務(wù)。在智源大會(huì)上,我發(fā)現(xiàn)許多通用人工智能研究者也在關(guān)注世界模型,盡管他們心中的世界模型可能與我們 CV 領(lǐng)域狹義的虛擬世界模型不同,但他們都暢想,未來(lái)像 GPT 這樣的 Agent 能夠在真實(shí)物理世界中不斷探索學(xué)習(xí),從而實(shí)現(xiàn)通用人工智能。這是一個(gè) bigger scope 。

我們可以將范圍稍作限制,聚焦于 LeCun 團(tuán)隊(duì)的世界模型研究,如 JEPA 、 V-JEPA 等,這些研究更 grounded ,方便我們展開(kāi)討論。

經(jīng)常有人問(wèn)我,CV所做的視頻生成、三維重建等世界模型,與 LeCun 所說(shuō)的通用世界模型有何區(qū)別與聯(lián)系。二者確實(shí)存在較大差異。了解 LeCun 學(xué)術(shù)流派的人知道,他創(chuàng)辦 ICLR 會(huì)議的核心關(guān)注點(diǎn)是表征學(xué)習(xí)。他所研究的世界模型更多是一種能夠表達(dá)和預(yù)測(cè)世界的通用表征思路,這種思路也更易被不具備太多三維視覺(jué)知識(shí)的通用人工智能研究者所理解。所以,我想從最寬泛的表征學(xué)習(xí)視角出發(fā),聽(tīng)聽(tīng)大家的看法。我隨機(jī)點(diǎn)一位,有請(qǐng)楊老師。

楊夢(mèng)月:我一直從事表征學(xué)習(xí)相關(guān)研究。在我看來(lái),CV與表征學(xué)習(xí)之間存在gap。表征學(xué)習(xí)的本質(zhì)是理解圖像或視頻背后的構(gòu)成的 factor。圖像和視頻是高維空間的表現(xiàn),而控制這種表現(xiàn)的其實(shí)是低維feature space (特征空間)中的特征。

我們可以有多種方式來(lái)表示特征空間,例如大模型的 embedding (嵌入)是一種表現(xiàn);我們也可以將特征空間完全可解釋化,明確某個(gè)具體嵌入所對(duì)應(yīng)的物理概念和語(yǔ)義含義。

當(dāng)前大模型的訓(xùn)練方式本質(zhì)上是對(duì)數(shù)據(jù)的模仿,并不關(guān)注表征學(xué)習(xí)層面,因此可能僅學(xué)到數(shù)據(jù)表面的樣子,容易出現(xiàn)“幻覺(jué)”問(wèn)題,無(wú)法真正理解世界正在發(fā)生的事情,也不清楚自身行為及其可能導(dǎo)致的結(jié)果。

表征學(xué)習(xí)更偏向于可解釋的范疇。也就是說(shuō),我們希望 Agent 是真正理解世界背后的規(guī)則,——這個(gè)世界由哪些 factor 構(gòu)成,這些 factor 之間又存在怎樣的關(guān)系。 一旦理解了這些,智能體在做決策時(shí),就不會(huì)僅僅基于像素級(jí)的圖像進(jìn)行預(yù)測(cè)并以此決策,而是通過(guò)理解事件背后的邏輯來(lái)行動(dòng)。例如,知曉?xún)蓚€(gè)因素之間的關(guān)聯(lián):當(dāng)機(jī)械臂要將小球運(yùn)到終點(diǎn)時(shí),有兩種選擇——推球或者抓球。若它掌握了物理規(guī)則,就會(huì)知道當(dāng)?shù)孛婺Σ亮^高時(shí),推球并非最佳選擇,轉(zhuǎn)而選擇抓起小球直接送至終點(diǎn),從而達(dá)成目標(biāo)狀態(tài)。

世界模型的定義一直較為模糊,視頻生成、 VLA 乃至空間智能等相關(guān)技術(shù)都被籠統(tǒng)地歸為世界模型范疇。但現(xiàn)在越來(lái)越多的研究者認(rèn)為,若要讓智能體真正具備決策能力,必須讓它理解世界的運(yùn)行邏輯,否則決策可能因“幻覺(jué)”失效,尤其在高安全性場(chǎng)景中,看似無(wú)害的動(dòng)作可能導(dǎo)致一些比較危險(xiǎn)的狀態(tài)。

因此,要實(shí)現(xiàn)通用智能、讓智能體理解世界,還是要走表征學(xué)習(xí)的路子。表征學(xué)習(xí)包含多種技術(shù),我們所研究的因果分析便是其中之一。這種技術(shù)不僅關(guān)注 factor 間的相關(guān)關(guān)系,更著重探究因果關(guān)系,而掌握因果關(guān)系能幫助智能體做出更優(yōu)決策。以上就是我的觀點(diǎn)。

趙昊:楊老師的觀點(diǎn)很有意思,即當(dāng)前的表征可能只有 correlation ,而缺乏因果關(guān)系,這確實(shí)是值得深入研究的方向。那么,楊老師認(rèn)為完整的三維或四維世界表示作為一種 factor 表示方式,是否是必需的呢?

楊夢(mèng)月:我認(rèn)為構(gòu)建 3D 或 4D 表示是一種新視角,對(duì)幫助到智能體理解世界,但它們之間的聯(lián)系還需進(jìn)一步探索,目前這方面的研究還比較匱乏。

在世界模型層面,我們通常對(duì)其有明確的界定標(biāo)準(zhǔn)。普通的預(yù)測(cè)模型(比如視頻生成過(guò)程)往往是基于當(dāng)前狀態(tài)預(yù)測(cè)下一個(gè)狀態(tài),而世界模型要有智能體交互的屬性。具體來(lái)說(shuō),能被統(tǒng)稱(chēng)為世界模型的模型,其邏輯應(yīng)該是“當(dāng)前狀態(tài) + 智能體動(dòng)作”通過(guò)模型函數(shù)映射到“下一狀態(tài)”。這里的動(dòng)作既可以是顯性的,也可以是隱性的,關(guān)鍵是模型要能明確回答“當(dāng)前采取某動(dòng)作后,下一步會(huì)呈現(xiàn)什么狀態(tài)”。

按照這個(gè)定義,當(dāng)前的3D、4D 生成技術(shù)雖然實(shí)現(xiàn)了對(duì)世界的重建,但尚未充分融入動(dòng)作因素,也沒(méi)有考慮到動(dòng)作對(duì)空間內(nèi)部各因素相互作用的影響,因此與嚴(yán)格意義上的世界模型仍有差距。

當(dāng)然,目前世界模型的定義還比較寬泛,但如果要進(jìn)一步明確其核心內(nèi)涵,就必須在模型中構(gòu)建交互層面的建模,這是不可或缺的關(guān)鍵環(huán)節(jié)。

趙昊:我完全同意。我們 CV 領(lǐng)域的研究者常常關(guān)注傳感器數(shù)據(jù)的渲染質(zhì)量,卻不太重視交互輸入,這是我們領(lǐng)域存在的一個(gè)較大問(wèn)題。不過(guò),目前在自動(dòng)駕駛和機(jī)器人領(lǐng)域,已有不少視覺(jué)模型研究引入了動(dòng)作因素。

聽(tīng)到楊老師的觀點(diǎn),她認(rèn)為我們當(dāng)前研究的最大問(wèn)題是缺乏動(dòng)作因素,我自己也意識(shí)到了這一點(diǎn)。我也分享一個(gè)觀點(diǎn):我們真的必須依賴(lài) 3D 表征嗎?看起來(lái) 3D 表征并非在所有場(chǎng)景下都是必需的,比如我們根據(jù)牛頓定律建模了以后,模型就可以根據(jù)物理規(guī)律來(lái)運(yùn)行輸出,這就不需要表征學(xué)習(xí)。但是物理規(guī)律也可能失效,比如現(xiàn)在有了極限情況,你必須引入相對(duì)論來(lái)修正。

我們計(jì)算機(jī)視覺(jué)和圖形學(xué)領(lǐng)域的研究者可能存在一種幻覺(jué),認(rèn)為只要重建并仿真世界,就能完全掌握其規(guī)律,但物理模型永遠(yuǎn)不可能達(dá)到完美。所以從宏觀意義上看,或許完全數(shù)據(jù)驅(qū)動(dòng)的表征學(xué)習(xí)反而是更正確的路徑。這一點(diǎn)我想聽(tīng)聽(tīng)鄭文釗的看法,因?yàn)槲抑浪行┱撐膬H在占用率( occupancy )層面開(kāi)展研究,不會(huì)對(duì)傳感器數(shù)據(jù)進(jìn)行真實(shí)渲染。

鄭文釗:謝謝趙老師。我接著剛才的話題談?wù)勎业挠^點(diǎn)。如前所述,狹義的世界模型是對(duì)環(huán)境的建模,核心是接收智能體的交互動(dòng)作作為輸入,并輸出對(duì)應(yīng)的反饋。

我們?cè)缙诨谡加寐实氖澜缒P脱芯恐芯鸵肓?action ,當(dāng)時(shí)我們認(rèn)為世界模型不僅要對(duì)行為做出反饋,還應(yīng)輸出動(dòng)作,因此在論文中將其定義為“泛化的世界模型”,但這一觀點(diǎn)在審稿人中存在爭(zhēng)議。直到現(xiàn)在,大家對(duì)世界模型的定義仍有分歧:它僅僅是對(duì)世界環(huán)境的建模并提供反饋,還是需要包含對(duì)世界運(yùn)行規(guī)律的自主建模?

但我認(rèn)為,若要邁向通用智能,世界模型的定義必須更泛化一些。這也是我認(rèn)同 LeCun 觀點(diǎn)的原因,他所強(qiáng)調(diào)的世界模型偏向通用范疇。從 LeCun 對(duì)智能系統(tǒng)的描述來(lái)看,其中包含世界模型、記憶模塊、行為模塊等,分別對(duì)應(yīng)空間智能、行為智能等能力,可見(jiàn)世界模型在通用智能中扮演著重要角色。

盡管存在爭(zhēng)議,但從宏觀角度而言,我們的核心目標(biāo)是結(jié)合動(dòng)作對(duì)環(huán)境進(jìn)行建模。接下來(lái)我想談?wù)勈澜缒P团c表征的關(guān)系:世界模型在某種程度上是更具泛化性的語(yǔ)言模型。大語(yǔ)言模型的核心范式是 next token prediction ,當(dāng)然現(xiàn)在有一些不同的語(yǔ)言模型并非采用這種范式。語(yǔ)言并不是數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)到的表征方式,它是人類(lèi)通過(guò)數(shù)千年文化歷史凝練而成的對(duì)世界的描述,是人類(lèi)定義好的認(rèn)知框架。 從這個(gè)角度來(lái)看,語(yǔ)言模型其實(shí)也是在預(yù)測(cè)未來(lái)會(huì)發(fā)生什么。

除了語(yǔ)言之外,是否存在其他更完備、更細(xì)節(jié)的世界表征方式?這也是我認(rèn)為世界模型能成為比大語(yǔ)言模型更通用的基礎(chǔ)模型的原因——如果 CV 領(lǐng)域未來(lái)會(huì)出現(xiàn)類(lèi)似大語(yǔ)言模型的核心模型,其形態(tài)很可能是世界模型,而其中最核心的就是表征的選擇。在 NLP 中,表征選擇很直接,就是語(yǔ)言本身。但在視覺(jué)領(lǐng)域或更通用的場(chǎng)景中,表征選擇需要更深入的考量:可以選擇像素,但像素僅能反映二維空間信息;我們之前的研究選擇占用率作為表征,因?yàn)槭澜绫举|(zhì)是三維的,可以稱(chēng)為三維空間中的“像素”,類(lèi)似于體素( Voxel ),能更底層地描述三維空間。

不過(guò),是否存在更高層次的表征?這也是 LeCun 團(tuán)隊(duì)的研究方向。我推測(cè)他們可能認(rèn)為僅在像素空間建模不夠完善,更傾向于類(lèi)似大語(yǔ)言模型選擇語(yǔ)言模態(tài)的思路——在視覺(jué)領(lǐng)域選擇更合適的表征。例如 JEPA 、 V-JEPA 通過(guò)自監(jiān)督學(xué)習(xí)提取特征,而他們最近發(fā)布的 DINO-World ,則選擇 DINO 作為世界表征,因?yàn)?DINO 本身已包含對(duì)世界的語(yǔ)義提取。這些思路的共性是:世界模型的表征未必局限于像素,完全可以是更高層次的 feature 。

因此,若要將大語(yǔ)言模型的范式泛化至通用智能,世界模型是核心路徑,而表征選擇是關(guān)鍵。像 JEPA 、 DINO 等模型在語(yǔ)義描述上表現(xiàn)出色,但一個(gè)理想的世界模型表征還需具備其他特性:一方面要能對(duì)世界進(jìn)行抽象的語(yǔ)義描述,另一方面要具備三維建模能力。因?yàn)槲覀兯幍氖澜缡侨S的,未來(lái)邁向通用智能的話,要把三維空間最本質(zhì)的東西建模出來(lái)。

廖依伊:我非常贊成鄭老師剛才的觀點(diǎn)。不同的世界模型,包括 LeCun 提出的世界模型,我們基于純視頻生成的世界模型,核心區(qū)別其實(shí)在于對(duì)“ x ”的定義。正如楊老師之前強(qiáng)調(diào)的,如果我們將世界模型定義為“當(dāng)前狀態(tài) x(t) + 動(dòng)作 a(t) → 下一狀態(tài) x(t+1) ”的映射關(guān)系,那么它們的核心差異就在于如何定義“ x(t+1) ”這個(gè)輸出目標(biāo)。

以視頻生成為例,我們并非直接在像素空間操作,而是在潛空間( latent space )中進(jìn)行,比如 VAE 的潛在空間。但 VAE 的潛在空間設(shè)計(jì)目標(biāo)是服務(wù)于像素解碼,因此未必能充分學(xué)習(xí)到語(yǔ)義信息。這也是鄭老師提到的 JEPA 、 V-JEPA 及 V-JEPA 2 等工作的價(jià)值——它們通過(guò)自監(jiān)督學(xué)習(xí),目標(biāo)是獲取更具語(yǔ)義的特征。

LeCun 在 V-JEPA 2 中的思路也是如此:先通過(guò)無(wú)監(jiān)督學(xué)習(xí)得到潛空間,再引入動(dòng)作監(jiān)督進(jìn)行 post training ,最終將其轉(zhuǎn)化為世界模型??梢?jiàn)在這一框架下,表征學(xué)習(xí)與世界模型是相輔相成的:良好的表征學(xué)習(xí)是構(gòu)建高性能世界模型的基礎(chǔ)。

一個(gè)值得探討的問(wèn)題是,語(yǔ)義更豐富的世界表征是否更合理?從直觀上看,若潛空間的特征能實(shí)現(xiàn)更好的解耦并蘊(yùn)含更豐富的語(yǔ)義,后續(xù)的世界模型學(xué)習(xí)確實(shí)會(huì)更高效,這一點(diǎn)我非常認(rèn)同楊老師的觀點(diǎn)。

關(guān)于是否需要引入 3D 建模,我的看法是:如果僅考慮最簡(jiǎn)單的動(dòng)作場(chǎng)景——即自身的剛性運(yùn)動(dòng)( rigid motion )(比如相機(jī)位姿變化),那么 3D 重建本身就能發(fā)揮重要作用。在 3D 重建任務(wù)中,一旦完成建模,就相當(dāng)于將動(dòng)作因素(這里的相機(jī)位姿變化)從狀態(tài)中完全解耦出來(lái)。這意味著我們無(wú)需再通過(guò)學(xué)習(xí)的方式額外建模相機(jī)位姿,而是可以直接基于新的視角進(jìn)行渲染,這與楊老師提到的“潛空間中可解耦因素”的思路是一致的。因此,3D 建模的一大優(yōu)勢(shì)在于能夠顯式地將這類(lèi)可解耦的因素(如相機(jī)位姿)完全解耦。當(dāng)然,對(duì)于一些難以解耦的復(fù)雜特征,仍然可以保留。

趙昊:廖老師說(shuō)得非常好。我一直在思考,盡管潛在向量沒(méi)有顯式的 3D 信息,但作為一種抽象表征,或許能找到其與物理屬性的關(guān)聯(lián)。比如512維的 token 中,某些維度可能對(duì)應(yīng)材料屬性,某些對(duì)應(yīng)幾何結(jié)構(gòu),甚至可能包含表達(dá)復(fù)雜運(yùn)動(dòng)的向量。這是一個(gè)很有潛力的研究方向。

不過(guò)關(guān)于是否引入 3D 信息,核心爭(zhēng)議在于“是否讓模型更好學(xué)”。廖老師的思路是引入 3D 表征,讓剩余維度專(zhuān)注學(xué)習(xí)物理建模難以覆蓋的復(fù)雜特征,這很合理。但也有學(xué)者持不同觀點(diǎn),比如彭老師推崇 large view synthesis network ,認(rèn)為未來(lái)無(wú)需依賴(lài) 3D 歸納偏置。這個(gè)話題比較專(zhuān)業(yè),我們先從更宏觀的層面繼續(xù)討論。有請(qǐng)金老師分享對(duì)世界模型表征學(xué)習(xí)思路的看法。

金鑫:Richard Feynman 所說(shuō)的“ I could never create something I didn’t understand. ”,我無(wú)法創(chuàng)造我不理解的東西。所以剛才楊老師等幾位老師提到的內(nèi)容,核心其實(shí)都指向表征學(xué)習(xí)——我們首先要理解世界,找到合適的表征,這個(gè)表征可能是3D的,也可能不是,比如 V-JEPA 、 I-JEPA 這類(lèi)模型最初針對(duì)圖像構(gòu)建表征,就是在做這樣的探索。

找到合適的表征后,再基于它建立蘊(yùn)含物理規(guī)律和機(jī)制的世界模型。這條路徑的核心是“先理解再構(gòu)建”,把表征學(xué)習(xí)放在第一步,也就是先實(shí)現(xiàn)對(duì)世界的理解。

我們團(tuán)隊(duì)近期一直在研究的“解耦表征學(xué)習(xí)”概念,源自2013年 Bengio 的研究,剛才廖老師也提到了這個(gè)關(guān)鍵詞——希望把 3D 相機(jī)位姿、 3D 歸納偏置解耦出來(lái)。今年我們?cè)?ICCV 2025 舉辦了一個(gè) workshop ,主題是“解耦表征學(xué)習(xí)與可控生成”,雖然聚焦可控生成,但仍被歸入表征學(xué)習(xí)專(zhuān)題。

我對(duì)楊夢(mèng)月老師那篇引用率很高的 Causal VAE 論文非常熟悉,經(jīng)常讓學(xué)生以它為 baseline 對(duì)比表征解耦的性能。我們做了很多表征解耦的工作,因?yàn)槲覀冋J(rèn)為理解世界的方式有很多,自監(jiān)督學(xué)習(xí)、 MIM 等都是,而表征解耦也是其中一種,能將特征層面、特征域、特征空間中的因素分離,找到關(guān)鍵因素并讓它們保持正交。比如在圖像中,將物體的大小、顏色、屬性等在特征域中明確解耦,這不僅能提升 AI 的可解釋性,還能為后續(xù)的生成、世界模型構(gòu)建、高層規(guī)劃等任務(wù)提供便利。

趙老師從 JEPA 思路出發(fā)探討世界模型,我覺(jué)得很有道理。 JEPA 也是先通過(guò)感知理解世界,再建立世界模型,這與“先理解再創(chuàng)造/生成”的邏輯一致?,F(xiàn)在大模型也強(qiáng)調(diào)融合理解與生成能力,包括我們后面要討論的“生成與理解、重建是否需要統(tǒng)一”,這些概念和思路其實(shí)是相通的。

我再補(bǔ)充一個(gè)觀點(diǎn),我之前做過(guò)很多圖像視頻編碼壓縮的研究,有句話印象很深——“壓縮即智能”。深度學(xué)習(xí)的本質(zhì)是一個(gè)熵減的過(guò)程,去除圖像、視頻中的冗余和相關(guān)性,保留最核心、最原始的關(guān)鍵信息。

在編碼壓縮領(lǐng)域,那些無(wú)法再進(jìn)行熵估計(jì)和冗余去除的信息,就是我們理想中的表征。做世界模型時(shí)也是如此,需要找到這些關(guān)鍵因素和表征,它們可能無(wú)法完全理想化解耦,正如楊老師所說(shuō),可能存在關(guān)聯(lián)和因果關(guān)系。這就是我的觀點(diǎn)。

02

RL 與 CV 的世界模型有何不同

趙昊:接下來(lái)我們進(jìn)入下一個(gè)問(wèn)題。楊老師剛才提到,當(dāng)前許多視頻生成工作因缺乏動(dòng)作因素而存在不足。那么 RL 界與 CV 界的世界模型有哪些不同?我認(rèn)為動(dòng)作因素可能是主要差異。接下來(lái)我們具體探討技術(shù)路徑,如何讓世界模型真正對(duì)動(dòng)作、決策制定發(fā)揮作用。有請(qǐng)金老師先發(fā)言。

金鑫:雖然我自己親手寫(xiě) RL 代碼的經(jīng)驗(yàn)不多,但通過(guò)和學(xué)生的討論(我的學(xué)生中有做 RL 的),我了解到強(qiáng) RL 分為基于模型( model-based )和無(wú)模型( model-free )兩種類(lèi)型。其中,基于模型的 RL 所構(gòu)建的“模型”,我的理解是對(duì)環(huán)境的一種代理或模擬。簡(jiǎn)單來(lái)說(shuō),就是建立一個(gè)環(huán)境模型,然后用這個(gè)模型輸出環(huán)境的轉(zhuǎn)移函數(shù)等信息,智能體基于這些信息進(jìn)行學(xué)習(xí)。

2018 年 David Ha 和 Jürgen Schmidhuber 關(guān)于世界模型的那篇論文,就和強(qiáng)化學(xué)習(xí)做了一些對(duì)比。所以我個(gè)人理解,強(qiáng)化學(xué)習(xí)中基于模型的“模型”,與 CV 領(lǐng)域用于自動(dòng)駕駛等場(chǎng)景的世界模型模擬器,核心都是通過(guò)模擬環(huán)境讓智能體進(jìn)行交互訓(xùn)練。

我們CV里面經(jīng)常會(huì)用到 “ simulator ”(模擬器)這個(gè)詞,它本質(zhì)上就是對(duì)環(huán)境的模擬 —— 構(gòu)建出環(huán)境后,讓智能體在里面通過(guò)動(dòng)作交互進(jìn)行訓(xùn)練,這和趙老師一直強(qiáng)調(diào)的“ action ”是相呼應(yīng)的。這只是我的個(gè)人理解,可能不一定準(zhǔn)確,歡迎大家交流指正。

楊夢(mèng)月:我在強(qiáng)化學(xué)習(xí)方面的研究相對(duì)多一些。我認(rèn)為 RL 與 CV 的世界模型的核心區(qū)別在于服務(wù)對(duì)象不同。 CV 界的核心是建模世界本身,關(guān)注如何刻畫(huà)世界的形態(tài);而 RL 界的核心是智能體,建模世界的最終目的是服務(wù)于智能體,讓它掌握世界知識(shí),進(jìn)而提升自身的決策策略 policy 。

正如趙老師所說(shuō), NLP 領(lǐng)域面臨數(shù)據(jù)有限的問(wèn)題, CV 領(lǐng)域雖然數(shù)據(jù)量更大,但也可能存在類(lèi)似瓶頸。我們近期在世界模型研究中使用了一個(gè)較新的觀點(diǎn),名為“開(kāi)放性”( open endedness ),其實(shí)質(zhì)是“自我提升智能體”( self-improve agent )。具體來(lái)說(shuō),若想提升智能體性能,我們可以通過(guò)數(shù)據(jù)訓(xùn)練,但當(dāng)數(shù)據(jù)量有限,無(wú)法支撐智能體理解世界上所有事件間的關(guān)系時(shí),就需要讓智能體主動(dòng)探索,比如通過(guò)自問(wèn)自答的方式學(xué)習(xí)。

例如在代碼生成領(lǐng)域,讓智能體自己提出新的代碼問(wèn)題;在開(kāi)放世界游戲中,讓它自主構(gòu)建 task 。生成 task 的過(guò)程本身就是世界模型的建模過(guò)程,但其最終目標(biāo)是提升智能體的決策能力和泛化能力,而非讓智能體簡(jiǎn)單過(guò)擬合于某個(gè)特定環(huán)境,而是使其具備理解世界、自主構(gòu)建世界模型的能力。

趙昊:比如做 RL 的研究者,就算沒(méi)有圖像,他們將編碼環(huán)境中“智能體自己給自己出題”的過(guò)程也稱(chēng)為世界模型嗎?

楊夢(mèng)月:最廣義世界模型,可以建模任何規(guī)則,這些規(guī)則不一定局限于物理規(guī)則,數(shù)學(xué)規(guī)則、代碼運(yùn)行機(jī)制等也屬于規(guī)則范疇。世界模型的核心目標(biāo)是讓智能體在特定環(huán)境或任務(wù)中,具備理解該環(huán)境或任務(wù)規(guī)則的能力。

世界模型的建模方式具有多樣性,生物、化學(xué)等領(lǐng)域都有其獨(dú)特規(guī)則。但這些規(guī)則未必都像物理規(guī)則那樣明顯,也未必有成熟的模擬器支持訓(xùn)練。許多環(huán)境中的規(guī)則是隱性的,比如 ChatGPT ,它的生成規(guī)則也屬于一種世界規(guī)則,但這種規(guī)則的概率屬性就非常大。

所以對(duì)于不同的環(huán)境,可能都有其對(duì)應(yīng)的世界模型建模方法,這些方法都可以統(tǒng)稱(chēng)為世界模型。

我今年在 ICLR 上組織了一個(gè)關(guān)于世界模型的研討會(huì),當(dāng)時(shí)我們希望征集的稿件能覆蓋各個(gè)領(lǐng)域,比如自然科學(xué)、社會(huì)科學(xué)、數(shù)學(xué)等。實(shí)際上,我們也收到了一些比較特別的投稿,它們都將自己的研究稱(chēng)為世界模型。我認(rèn)為世界模型最核心的特質(zhì)是能夠建模世界背后的規(guī)律,并且智能體能夠借此與世界進(jìn)行交互。

廖依伊:我覺(jué)得楊老師剛剛的觀點(diǎn)非常有意思,這讓我想到一個(gè)問(wèn)題:CV 所說(shuō)的世界模型是否無(wú)法服務(wù)于 Agent 的訓(xùn)練呢?可能有的也未必。

RL 界的世界模型和 CV 界的世界模型有什么不同?我的理解是這樣的,一方面,正如我們之前討論的“ x(t) + a(t) → x(t+1) ”框架, CV 界確實(shí)更關(guān)注與圖像平面相關(guān)的狀態(tài)變量 x ;而在 RL 界,狀態(tài)變量不一定局限于圖像平面,可以是任意形式的抽象狀態(tài)。另一方面,據(jù)我觀察, RL 在涉及世界模型時(shí),通常不僅要預(yù)測(cè)下一狀態(tài) x(t+1) ,還要學(xué)習(xí)獎(jiǎng)勵(lì)( reward )。如果能直接學(xué)到獎(jiǎng)勵(lì),就可以基于此進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練和后續(xù)決策。

但目前 CV 界在視頻生成(無(wú)論是 3D 還是純視頻路線)中,更關(guān)注預(yù)測(cè)下一時(shí)刻的視覺(jué)呈現(xiàn),比如畫(huà)面“長(zhǎng)什么樣子”,卻很少考慮獎(jiǎng)勵(lì)機(jī)制。舉個(gè)例子,在視頻生成中,即使模擬車(chē)輛即將撞車(chē),模型也可能因?yàn)槿狈ψ曹?chē)數(shù)據(jù)而繼續(xù)生成車(chē)輛前行的畫(huà)面,不會(huì)提示“撞車(chē)”這個(gè)負(fù)面結(jié)果。所以,獎(jiǎng)勵(lì)確實(shí)是 CV 界世界模型目前較少考慮的點(diǎn)。

比如 LeCun 團(tuán)隊(duì)今年在 ICML 上發(fā)表的“ Navigation World Model ”研究,就將自身運(yùn)動(dòng)作為 action ,輸出圖像平面結(jié)果,并基于“目標(biāo)圖像”( goal image )定義獎(jiǎng)勵(lì)。在這種情況下,即使模型沒(méi)有直接學(xué)習(xí)獎(jiǎng)勵(lì),也能通過(guò)生成圖像與目標(biāo)圖像的對(duì)比構(gòu)造獎(jiǎng)勵(lì),進(jìn)而基于模型的控制思路遍歷路徑空間,實(shí)現(xiàn)導(dǎo)航、抓取等任務(wù)。這么做的話還是可以服務(wù)于 Agent 的。

趙昊:廖老師提到的這一點(diǎn)很關(guān)鍵:我們現(xiàn)在做的這些世界模型,大部分確實(shí)沒(méi)有考慮 reward 。這是一個(gè)很好的研究方向,我們都可以嘗試探索。如果能在今年的 ICLR 和 CVPR 投稿中探討“如何在 CV 的視頻生成世界模型中引入獎(jiǎng)勵(lì)”,會(huì)是非常好的選題。感謝廖老師的分享。最后有請(qǐng)鄭老師也來(lái)分享一下看法。

鄭文釗:我對(duì) RL 其實(shí)不是特別懂,所以簡(jiǎn)單說(shuō)一下我的觀點(diǎn),不一定正確。但我很認(rèn)同剛才幾位老師的看法,總結(jié)來(lái)說(shuō),我認(rèn)為 RL 界的世界模型和 CV 界世界模型主要區(qū)別在于, RL 界的世界模型更類(lèi)似判別式模型,當(dāng) Agent 在環(huán)境中執(zhí)行某個(gè)動(dòng)作后,它會(huì)輸出一個(gè)獎(jiǎng)勵(lì)值。而 CV 界的世界模型更像生成式模型,它不會(huì)評(píng)判行為的好壞,而是告訴你這個(gè)行為會(huì)導(dǎo)致世界呈現(xiàn)出什么樣的狀態(tài)。

比如在自動(dòng)駕駛場(chǎng)景中,若使用 RL 界的模型,當(dāng)車(chē)輛前行即將撞車(chē)時(shí),它只會(huì)反饋“撞上了,獎(jiǎng)勵(lì)值為-1000”,而不會(huì)展示撞車(chē)后的畫(huà)面;但 CV 界的世界模型會(huì)生成撞車(chē)后的具體圖像,而非直接告知后果。這是第一個(gè)區(qū)別。

第二個(gè)區(qū)別,我結(jié)合剛才楊老師的觀點(diǎn)補(bǔ)充一下,判別式模型在很多情況下聚焦于從輸入 x 到輸出 y 的映射,而生成式模型則會(huì)同時(shí)對(duì) p(x,y) 進(jìn)行建模。由此我認(rèn)為, RL 界的世界模型更多是一種局部模型,它必須依賴(lài) Agent 獲取反饋,正如楊老師所說(shuō),其核心是為 Agent 服務(wù)。但 CV 界的世界模型更接近獨(dú)立運(yùn)行的模型,它可以不依賴(lài)智能體,獨(dú)立建模世界的運(yùn)行規(guī)律。 而且它是全局模型,如果有 Agent 在其中交互,理論上也能基于模型計(jì)算獎(jiǎng)勵(lì)。不過(guò)目前這類(lèi)獎(jiǎng)勵(lì)計(jì)算的方法還比較缺乏,但基于模型對(duì)未來(lái)的預(yù)測(cè),其實(shí)是有可能推導(dǎo)出獎(jiǎng)勵(lì)的。

這就引出了第三個(gè)區(qū)別, RL 界的世界模型更多是反饋機(jī)制,不涉及動(dòng)作建模,動(dòng)作由 Agent 單獨(dú)處理;而 CV 界的世界模型可以給出 Action ??偨Y(jié)來(lái)說(shuō),CV 界的世界模型更通用,涵蓋世界與動(dòng)作建模; RL 界的世界模型則更狹義,主要是對(duì)智能體動(dòng)作的反饋。

趙昊:我總結(jié)一下,當(dāng)前 CV 界的世界模型已經(jīng)取得不錯(cuò)進(jìn)展,動(dòng)作因素也已被引入,但尚未大規(guī)模應(yīng)用并產(chǎn)生變革性影響,關(guān)鍵就在于缺乏獎(jiǎng)勵(lì)機(jī)制。只要定義好獎(jiǎng)勵(lì),我們現(xiàn)在做的視頻生成模型、數(shù)據(jù)生成模型就能很快在自動(dòng)駕駛、具身智能、通用智能體等領(lǐng)域發(fā)揮作用。這是一個(gè)很好的趨勢(shì)性觀點(diǎn)。

03

通用視頻生成

趙昊:我們已經(jīng)討論完兩個(gè)比較抽象的問(wèn)題,接下來(lái)進(jìn)入專(zhuān)場(chǎng)環(huán)節(jié),聚焦視頻生成、三維重建等內(nèi)容。第一個(gè)問(wèn)題通用視頻生成模型什么時(shí)候能變成真正的世界模型?

通用視頻生成模型的發(fā)展速度遠(yuǎn)超我的預(yù)期。去年三月,很多圖形學(xué)老師還認(rèn)為視頻生成模型缺乏物理規(guī)律,發(fā)展尚早,現(xiàn)在這些聲音已經(jīng)很少了,數(shù)據(jù)驅(qū)動(dòng)的力量確實(shí)不容小覷。我很好奇大家對(duì)其發(fā)展速度和演變趨勢(shì)的看法,請(qǐng)廖老師先講。

廖依伊:謝謝趙老師。關(guān)于通用視頻生成模型的發(fā)展,我確實(shí)不敢下結(jié)論,因?yàn)樗倪M(jìn)步正如您所說(shuō),超乎想象。至于“通用視頻生成模型如何變成真正的世界模型”這個(gè)問(wèn)題,我認(rèn)為答案相對(duì)清晰,還是要回到我們之前達(dá)成的共識(shí),世界模型需要具備動(dòng)作( action )和因果性( causality )。

當(dāng)前最先進(jìn)的視頻生成方法大多采用“三維注意力機(jī)制”( 3D attention ),將空間( spatial )和時(shí)間( temporal )維度的 token 聯(lián)合處理生成視頻。但真正的世界模型需要滿(mǎn)足“ x(t) + a(t) → x(t+1) ”的邏輯,即基于當(dāng)前狀態(tài)和動(dòng)作,預(yù)測(cè)下一幀的觀測(cè)結(jié)果。

近期已有相關(guān)研究嘗試引入因果信息,例如在注意力機(jī)制中限制時(shí)序依賴(lài)——第二幀僅關(guān)注第一幀和自身,第三幀僅關(guān)注前兩幀和自身,通過(guò)這種方式強(qiáng)化因果關(guān)系,我認(rèn)為這是合理的探索方向。而動(dòng)作因素的引入仍存在開(kāi)放性問(wèn)題:比如建模自身相機(jī)位姿這類(lèi)動(dòng)作相對(duì)容易,但世界中其他動(dòng)態(tài)物體的動(dòng)作是否需要建模?若要建模,該如何設(shè)計(jì)?當(dāng)然,也可以如鄭老師所說(shuō),將無(wú)關(guān)動(dòng)態(tài)歸為噪聲,建模未來(lái)的所有可能性,但世界模型的核心目標(biāo)是什么、動(dòng)作部分如何設(shè)計(jì),這里還有很多問(wèn)題。

趙昊:我完全同意這個(gè)觀點(diǎn)。以前我認(rèn)為開(kāi)發(fā)基于 diffusion 的 Game Engine 沒(méi)什么用,因?yàn)樗唐趦?nèi)不可能替代游戲行業(yè),且這類(lèi)模型缺乏三維表征。但現(xiàn)在我認(rèn)為它是重要的代理任務(wù)( Proxy Task ),比單純的多媒體視頻生成模型更接近世界模型的終極目標(biāo),是很好的研究載體。因此,動(dòng)作條件下的通用視頻生成模型若能進(jìn)一步優(yōu)化,我們就離真正的世界模型更近一步。接下來(lái)有請(qǐng)鄭老師分享看法。

鄭文釗:我比較同意剛才廖老師的觀點(diǎn)。關(guān)于通用視頻生成模型與世界模型的區(qū)別,之前很多人認(rèn)為,前者可能存在虛假內(nèi)容,后者需在視覺(jué)和物理層面都真實(shí),但這種看法并不本質(zhì)。隨著技術(shù)發(fā)展,視頻生成模型中可能隱含物理規(guī)律,至于具體怎么做,是否通過(guò)三維表征實(shí)現(xiàn)更優(yōu)建模,屬于技術(shù)路徑問(wèn)題,并非核心差異。

實(shí)際上,當(dāng)前許多生成模型已能建模部分物理規(guī)律。伯克利的 Trevor 老師曾有一篇有趣的研究講過(guò),盡管物理規(guī)律難以直接定義,但數(shù)據(jù)驅(qū)動(dòng)的視頻生成模型可通過(guò)學(xué)習(xí)挖掘物理規(guī)律,即數(shù)據(jù)驅(qū)動(dòng)在一定程度上能捕獲物理規(guī)律。因此回到核心問(wèn)題,我認(rèn)為廖老師的觀點(diǎn)非常正確:通用視頻生成模型與世界模型目前最大的gap,在于對(duì)動(dòng)作的反饋機(jī)制。具體包括:一是動(dòng)作的定義方式(如路徑類(lèi)動(dòng)作易定義,但復(fù)雜交互動(dòng)作如何定義);二是視頻生成模型能否對(duì)動(dòng)作做出準(zhǔn)確反饋;三是反饋與動(dòng)作之間是否存在合理的因果關(guān)系。

趙昊:聽(tīng)完鄭老師的分享,我忍不住想分享自己的觀點(diǎn)。我認(rèn)為當(dāng)前通用視頻模型要發(fā)展為真正的世界模型,缺少的是編輯能力、文本對(duì)齊能力和指令遵循能力。今年年初, GPT-4o 等模型的編輯能力給人帶來(lái)巨大震撼——用戶(hù)輸入指令后,模型能精準(zhǔn)執(zhí)行。如果這不是專(zhuān)門(mén)調(diào)優(yōu)的結(jié)果,那么這類(lèi)模型的圖片編輯能力已接近世界模型,因?yàn)樗軐⑷我庵噶钷D(zhuǎn)化為對(duì)應(yīng)的視覺(jué)內(nèi)容(盡管在精細(xì)的數(shù)量、位置描述上仍有不足)。

我認(rèn)為編輯能力是比 action condition 更好的 task 。當(dāng)通用視頻生成模型能像 GPT-4o 一樣,通過(guò)文本指令實(shí)現(xiàn)高精度編輯時(shí),無(wú)論其內(nèi)部原理如何,它必然已經(jīng)學(xué)到了關(guān)于世界的某些知識(shí)。所以我的觀點(diǎn)是,通用視頻生成模型除了通過(guò)動(dòng)作條件(如游戲引擎類(lèi)模型)這條路徑外,視頻編輯能力的突破也至關(guān)重要 —— 編輯能力做好了,它就會(huì)無(wú)限接近真正的世界模型。這算是我的一個(gè)“暴論”,接下來(lái)有請(qǐng)楊老師分享觀點(diǎn)。

楊夢(mèng)月:我對(duì)視頻生成領(lǐng)域了解不深,但聽(tīng)了剛才的分析后有一些想法。我怕在使用視頻生成大模型時(shí),有時(shí)會(huì)覺(jué)得生成內(nèi)容奇怪,可能是因?yàn)槲醋裱蚬P(guān)系。但因果關(guān)系是否為必需,需根據(jù)具體場(chǎng)景判斷。若要利用模型訓(xùn)練 Agent ,使其在真實(shí)世界具備決策和探索能力,就需要模型貼近真實(shí),遵循因果關(guān)系;但從視頻生成角度,可能無(wú)需嚴(yán)格遵循因果或物理規(guī)則。因?yàn)槿祟?lèi)要?jiǎng)?chuàng)作,有時(shí)會(huì)突破常規(guī)認(rèn)知,反而能產(chǎn)生新穎的創(chuàng)意。

當(dāng)前視頻生成模型多基于被動(dòng)數(shù)據(jù)學(xué)習(xí),若數(shù)據(jù)本身帶有傾向性,模型可能學(xué)到人類(lèi)收集數(shù)據(jù)時(shí)的集體意識(shí),進(jìn)而迸發(fā)新的創(chuàng)造力。因此需具體場(chǎng)景具體分析,部分場(chǎng)景需要因果關(guān)系支撐。

關(guān)于廖老師提到的動(dòng)態(tài)建模問(wèn)題,世界模型的定義本就非常廣義。 Multi-Agent 系統(tǒng)就是完全動(dòng)態(tài)的,具有“智能體策略相互影響的循環(huán)關(guān)系”,例如自動(dòng)駕駛場(chǎng)景中,兩輛車(chē)決策會(huì)相互作用,但這種動(dòng)態(tài)過(guò)程仍存在某種均衡。這又回到最初的問(wèn)題:如何衡量動(dòng)態(tài)中的不變?可能需要引入獎(jiǎng)勵(lì)模型,才能分析場(chǎng)景需求,從動(dòng)態(tài)中提取靜態(tài)知識(shí)。

趙昊:楊老師的觀點(diǎn)很有意思。 CV 研究者常認(rèn)為,能真實(shí)重建物理世界的才是好的世界模型,但大家使用 Sora 時(shí),常讓它生成不符合真實(shí)物理的內(nèi)容?;蛟S生成真實(shí)內(nèi)容并非評(píng)判世界模型好壞的唯一標(biāo)準(zhǔn)。

我觀察 Sora 的 dashboard 發(fā)現(xiàn),流量最高、被用戶(hù)推崇的視頻,大多是那些 “不太可能在真實(shí)世界中出現(xiàn)” 的內(nèi)容,它們可能符合基礎(chǔ)物理規(guī)律,但在現(xiàn)實(shí)中難以見(jiàn)到。這確實(shí)很有意思。接下來(lái)有請(qǐng)金老師分享對(duì)通用視頻生成模型的看法。

金鑫:幾位老師剛才從物理真實(shí)性、可編輯性等方面都做了很好的分享。楊老師的觀點(diǎn)讓我想到一個(gè)點(diǎn):生成與物理事實(shí)相違背的內(nèi)容,即“反事實(shí)生成”( counterfactual generation )。我記得之前某本書(shū)中提到智能的幾個(gè)階段,第一階段是“觀察”,第二階段是“行動(dòng)”,第三階段是“想象”,是“ what if ”,想象“如果做了這件事會(huì)怎樣”,這種反事實(shí)生成能力或許是關(guān)鍵。

我認(rèn)為真正的世界模型若能生成全新場(chǎng)景或反事實(shí)結(jié)果,可能更接近通用智能,甚至涌現(xiàn)出新能力。若世界模型能學(xué)到甚至超越人類(lèi)總結(jié)的既定的物理規(guī)則,會(huì)非常令人興奮。這是我的觀點(diǎn)。

趙昊:金老師的觀點(diǎn)很有啟發(fā)性。我剛才提到生成視頻中存在不符合真實(shí)物理規(guī)律的內(nèi)容,這是否真的代表模型具備反事實(shí)生成能力?我覺(jué)得不一定。反而可能是因?yàn)?Sora 等模型在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)了大量互聯(lián)網(wǎng)視頻中的特效內(nèi)容,這些內(nèi)容并非真實(shí)物理世界的記錄,模型過(guò)擬合到了訓(xùn)練集中的視覺(jué)特效素材上。

廖依伊:我想結(jié)合楊老師和金老師的觀點(diǎn)提個(gè)問(wèn)題。若我們的最終目標(biāo)是通用智能體,使其能在真實(shí)世界交互并完成任務(wù),那么這些視覺(jué)特效數(shù)據(jù)對(duì)智能體而言是干擾還是有用呢?

楊夢(mèng)月:我可以回答這個(gè)問(wèn)題。今年有一個(gè)令我印象深刻的新流派,叫做 open endedness 。他們認(rèn)為,在數(shù)據(jù)有限的情況下,要提升 Agent 決策能力,需不斷為其生成新任務(wù)和新環(huán)境,這些環(huán)境可包含前所未有的元素。

我曾與蘇昊團(tuán)隊(duì)交流,他們現(xiàn)在也要涉足視頻生成領(lǐng)域,因?yàn)樗麄兪亲?robotics 的,我就問(wèn)為什么。他們表示,其實(shí)是希望將視頻生成的結(jié)果用于訓(xùn)練 robotics agent ,提升其某些能力。因?yàn)閷?duì)于機(jī)器人而言,在真實(shí)環(huán)境中的探索代價(jià)是非常大的,比如讓智能體在真實(shí)環(huán)境中學(xué)習(xí)時(shí),即使是在樣本復(fù)雜度可能不高的場(chǎng)景,在線探索也有很大的風(fēng)險(xiǎn)和代價(jià),因此,通過(guò)視頻生成輔助生成訓(xùn)練數(shù)據(jù),讓智能體能夠先獲得一些先驗(yàn)和反事實(shí)知識(shí)能在很大程度上提升樣本效率。

趙昊:open endedness (開(kāi)放性),這個(gè)詞很好。關(guān)于通用視頻生成中的視覺(jué)特效數(shù)據(jù)是否“有毒”,這個(gè)觀點(diǎn)很值得探討。這很像 NLP 領(lǐng)域的問(wèn)題:有些數(shù)據(jù)存在錯(cuò)誤或冗余,被稱(chēng)為“有毒數(shù)據(jù)”或“垃圾數(shù)據(jù)”,網(wǎng)上生成的這類(lèi)內(nèi)容可能也存在類(lèi)似問(wèn)題。如何讓通用視頻生成模型在垂直領(lǐng)域做好對(duì)齊,視頻生成領(lǐng)域遲早會(huì)走到這一步。

04

自動(dòng)駕駛的世界模型發(fā)展到哪兒了?

趙昊:好,我們進(jìn)入下一個(gè)問(wèn)題,回到我們的老本行,來(lái)聊聊自動(dòng)駕駛。我們都做了這么多年,什么時(shí)候才能到 L4 ?。渴紫扔姓?qǐng)金老師分享。

金鑫:很多學(xué)術(shù)界原本研究自動(dòng)駕駛的老師,現(xiàn)在轉(zhuǎn)向了具身智能領(lǐng)域,這確實(shí)是很現(xiàn)實(shí)的情況。在我看來(lái),學(xué)術(shù)界的特點(diǎn)是把技術(shù)做到 60% 或 70%,搭建好方法和原型后,剩下的 “最后一公里” 或 “最后 10%”會(huì)交由工業(yè)界完成。學(xué)術(shù)界注重方法與預(yù)研,工業(yè)界則更快地將其集成產(chǎn)品,因?yàn)樗麄冇懈鄡?yōu)秀工程師和具備產(chǎn)品思維的產(chǎn)品經(jīng)理。這是互聯(lián)網(wǎng)與 IT 技術(shù)發(fā)展至今的規(guī)律。

自動(dòng)駕駛問(wèn)題已相對(duì)清晰,所以并非是這些學(xué)術(shù)界的老師放棄了自動(dòng)駕駛,反而它已接近落地階段。在硅谷, Waymo 的自動(dòng)駕駛出租車(chē)服務(wù)每天都在跑。我之前和華為的王新宇老師在論壇交流時(shí),他提到自動(dòng)駕駛的后續(xù)核心是工程化集成,華為也投入了很多人力做這些 dirty work 。

從自動(dòng)駕駛轉(zhuǎn)向具身智能,要解決的問(wèn)題更多、更復(fù)雜,這正是學(xué)術(shù)界需要重點(diǎn)突破的方向。在我看來(lái),這不是跟風(fēng)轉(zhuǎn)向,而是合理的研究遞進(jìn)。自駕已經(jīng)有了很多的方案,已經(jīng)可以帶來(lái)價(jià)值了,可以先投入到市場(chǎng),之后有了新問(wèn)題之后大家可以繼續(xù)研究。

趙昊:金老師認(rèn)為自動(dòng)駕駛已發(fā)展到一定階段,剩余工作由工業(yè)界大規(guī)模落地。我基本贊同,但覺(jué)得還存在一些技術(shù)問(wèn)題。一是分辨率有待提高,二是視頻長(zhǎng)度不足。這些技術(shù)難題大概率會(huì)在今年得到徹底解決。對(duì)于自動(dòng)駕駛的場(chǎng)景片段( CLIP ),真實(shí)數(shù)據(jù)通常是十幾秒的片段,我認(rèn)為如果模型能在一分鐘內(nèi)保持穩(wěn)定的生成質(zhì)量就足夠了;分辨率則是另一個(gè)技術(shù)難題,目前車(chē)廠使用的數(shù)據(jù)分辨率較高,但模型生成的分辨率仍偏低,這是很具體的技術(shù)層面問(wèn)題。

關(guān)于如何服務(wù)決策,我認(rèn)為今年還剩最后一個(gè)關(guān)鍵問(wèn)題,“在自動(dòng)駕駛世界模型中如何定義獎(jiǎng)勵(lì)( reward )”。目前動(dòng)作和高質(zhì)量傳感器數(shù)據(jù)生成能力已經(jīng)具備,就差獎(jiǎng)勵(lì)機(jī)制。一旦獎(jiǎng)勵(lì)建模完成,方法論就能形成閉環(huán),通過(guò)持續(xù)驗(yàn)證優(yōu)化,真正邁向 L4 級(jí)。接下來(lái)有請(qǐng)廖老師談?wù)勛詣?dòng)駕駛世界模型的下一步方向。

廖依伊:我的觀點(diǎn)和金老師略有不同。金老師提到自動(dòng)駕駛已有很多落地算法,這一點(diǎn)我認(rèn)同:如果將世界模型定義為生成環(huán)境觀測(cè)、將 AD 模型定義為生成動(dòng)作,那么在 AD 模型方面確實(shí)已有相對(duì)成熟的算法投入實(shí)際運(yùn)行。但我認(rèn)為,目前還沒(méi)有特別有說(shuō)服力的工作,能證明自動(dòng)駕駛世界模型在訓(xùn)練閉環(huán)中真正發(fā)揮了關(guān)鍵作用。

現(xiàn)在 CV 界的人,在世界模型研究中,關(guān)注的都是損失函數(shù),都是圖像生成或渲染質(zhì)量,無(wú)論是重建還是生成路線,都以峰值信噪比( PSNR )等指標(biāo)衡量,而沒(méi)有回到 Agent 上去。因?yàn)樯扇蝿?wù)更容易推進(jìn),大家更多先追求 “生成得好”。但實(shí)際中,路上跑的系統(tǒng)大多還是基于大量數(shù)據(jù)的模仿學(xué)習(xí)訓(xùn)練而成。

目前,世界模型即便被應(yīng)用于自動(dòng)駕駛,可能也只是作為驗(yàn)證工具,比如驗(yàn)證車(chē)輛在場(chǎng)景中能否正常行駛。但真正將世界模型納入訓(xùn)練閉環(huán),用它支持 Agent 訓(xùn)練并證明其有效性的工作,目前還較為缺乏。當(dāng)然也有一些初步的相關(guān)嘗試,例如地平線的 RAD 在 3D 高斯場(chǎng)景中開(kāi)展了自動(dòng)駕駛強(qiáng)化學(xué)習(xí)微調(diào)。我認(rèn)為從世界模型的角度來(lái)看,仍有許多問(wèn)題值得探索。比如,當(dāng)前的 3D 高斯技術(shù)以及我們自研的模擬器,是否真的能有效縮小領(lǐng)域差距( domain gap ),這一點(diǎn)就非常需要驗(yàn)證。

金鑫:我同意廖老師的觀點(diǎn)。剛才說(shuō)的是自動(dòng)駕駛整體算法層面,而針對(duì)自動(dòng)駕駛世界模型,我認(rèn)為它才剛起步,或者說(shuō)在追求更完備解決方案的道路上,大家的思路才剛轉(zhuǎn)變。兩年前,大家可能還在想著收集數(shù)據(jù)、自監(jiān)督訓(xùn)練,但慢慢發(fā)現(xiàn),數(shù)據(jù)無(wú)法窮盡所有邊緣案例( corner case ),每次遇到新案例就補(bǔ)數(shù)據(jù),這種方式永遠(yuǎn)無(wú)法覆蓋所有情況。于是大家才轉(zhuǎn)向借助閉環(huán)模擬器(即世界模型)來(lái)輔助訓(xùn)練,不需要依賴(lài)持續(xù)收集數(shù)據(jù)就能學(xué)好,這個(gè)思路轉(zhuǎn)變其實(shí)才剛剛開(kāi)始,還處于早期階段。

趙昊:總結(jié)廖老師的觀點(diǎn),下一步我們要走向大規(guī)?;谑澜缒P偷挠?xùn)練,我完全同意。這其中最核心的問(wèn)題就是 reward 如何定義。接下來(lái)有請(qǐng)鄭老師分享自動(dòng)駕駛世界模型的發(fā)展趨勢(shì)和下一個(gè)突破點(diǎn)。

鄭文釗:我整體還是比較認(rèn)同廖老師的觀點(diǎn)。在 sora 等模型出現(xiàn)后,大家開(kāi)始探索如何將其遷移到自動(dòng)駕駛場(chǎng)景,有些工作直接使用自動(dòng)駕駛數(shù)據(jù)訓(xùn)練,但本質(zhì)上仍在像素( Pixel )空間建模;當(dāng)然還有另一類(lèi)方法,比如我們之前做的工作,直接在三維空間(如占據(jù)空間、邊界框空間,或是后來(lái)的高斯空間)中建模,探索如何讓世界模型真正在三維空間用起來(lái)。

自動(dòng)駕駛的特點(diǎn)是,對(duì)世界模型的精度要求極高,比如停車(chē)時(shí)可能需要厘米級(jí)的精度,“看起來(lái)對(duì)”是一回事,“實(shí)際能用”是另外一回事。像 sora 這類(lèi)模型,看起來(lái)沒(méi)裝上,但是差幾厘米,后果差別是很大的。因此,自動(dòng)駕駛世界模型目前的關(guān)鍵問(wèn)題是:如何實(shí)現(xiàn)對(duì)未來(lái)的精準(zhǔn)預(yù)測(cè),以及對(duì)動(dòng)作的精準(zhǔn)響應(yīng)能力。

從當(dāng)前趨勢(shì)來(lái)看,有一些工作開(kāi)始走三維與二維結(jié)合的路線。三維重建的優(yōu)勢(shì)是在三維空間中精度較高,但缺乏想象能力,生成效果可能不夠自然,兩者結(jié)合可能是自動(dòng)駕駛世界模型未來(lái)的發(fā)展趨勢(shì)之一。

第二點(diǎn)是泛化能力的提升,這關(guān)系到世界模型如何更好地落地。我認(rèn)為泛化性可分為兩個(gè)層面:第一是泛化到數(shù)據(jù)未覆蓋但符合物理規(guī)律的場(chǎng)景;第二類(lèi)似之前提到的反事實(shí)( counter factual )泛化,即泛化到不真實(shí)的場(chǎng)景。我們需要第一種,比如數(shù)據(jù)中沒(méi)有撞車(chē)案例,模型能否想象出真實(shí)的拐彎碰撞場(chǎng)景。

第三點(diǎn)是如何用好世界模型,這也是金老師和廖老師提到的未來(lái)發(fā)展方向。結(jié)合我們?cè)缙诘奶剿?,我認(rèn)為可以從兩方面入手:一是讓世界模型具備預(yù)測(cè) action 的能力。這類(lèi)似人類(lèi)開(kāi)車(chē),人具有有預(yù)測(cè)未來(lái)的能力,但很多時(shí)候人的動(dòng)作是下意識(shí)的本能判斷(無(wú)需刻意思考左拐加速的后果);二是在有時(shí)間的情況下,模型可以像人一樣“深思熟慮”,比如模擬左拐、右拐的結(jié)果后選擇最優(yōu)動(dòng)作。因此,世界模型在自動(dòng)駕駛中的應(yīng)用不應(yīng)僅作為訓(xùn)練的獎(jiǎng)勵(lì)機(jī)制,更應(yīng)轉(zhuǎn)化為一種預(yù)測(cè)范式,既包含“系統(tǒng)一”的本能反應(yīng),也包含“系統(tǒng)二”的深度決策。

趙昊:感謝鄭老師。我們聊了很多專(zhuān)業(yè)細(xì)節(jié),不知道普通聽(tīng)眾會(huì)不會(huì)覺(jué)得難以理解?整體而言,鄭老師提到的一個(gè)觀點(diǎn)很有意思:當(dāng)前自動(dòng)駕駛世界模型的基準(zhǔn)( Benchmark )性能還比較低,比如占據(jù)預(yù)測(cè)( occupancy )指標(biāo)在部分?jǐn)?shù)據(jù)集上僅二十幾,有些數(shù)據(jù)集能到四十幾,可能要等指標(biāo)提升到70左右,才能說(shuō)模型相對(duì)成熟。

這就引出一個(gè)問(wèn)題:隨著 VGGT 等視覺(jué)基礎(chǔ)模型的發(fā)展,自動(dòng)駕駛數(shù)據(jù)集上的指標(biāo)卻難以上漲,大家覺(jué)得有什么新機(jī)會(huì)能推動(dòng)指標(biāo)提升嗎?

鄭文釗:有時(shí)可視化結(jié)果看起來(lái)不錯(cuò),但指標(biāo)只有20,這正反映了自動(dòng)駕駛對(duì)精準(zhǔn)度的嚴(yán)格標(biāo)準(zhǔn)。趙老師提到的方向很關(guān)鍵:目前在基礎(chǔ)層面,自動(dòng)駕駛還缺乏像 VGGT 那樣成熟的感知基礎(chǔ)模型。現(xiàn)在大家訓(xùn)練的模型多基于早期的 ResNet 等架構(gòu),或未經(jīng)過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練的骨干網(wǎng)絡(luò)( backbone )。未來(lái)若能出現(xiàn)專(zhuān)為自動(dòng)駕駛設(shè)計(jì)的感知基礎(chǔ)模型( perception foundation model for autonomous driving ),性能應(yīng)該會(huì)有較大飛躍。

趙昊:我們最近用 VGGT 更多是做重建和仿真。長(zhǎng)期來(lái)看,我和同行聊過(guò)一個(gè)觀點(diǎn):遲早會(huì)出現(xiàn)自動(dòng)駕駛垂類(lèi)的動(dòng)態(tài)基礎(chǔ)模型?,F(xiàn)在已不是單純的 VGGT ,而是有了動(dòng)態(tài)版本的 SpatialTracker V2 ,它的性能非常強(qiáng),我們最近的工作都基于它。自動(dòng)駕駛場(chǎng)景是動(dòng)態(tài)的,必然需要適配動(dòng)態(tài)場(chǎng)景的模型。如果能有這類(lèi)垂類(lèi)的 SpatialTracker V2 模,當(dāng)前的范圍檢測(cè)、 occupancy mapping 等任務(wù)的指標(biāo)都可能大幅提升,我們可以期待,這樣的工作誰(shuí)能做出來(lái),一定會(huì)很有影響力。

或許不如把所有自動(dòng)駕駛數(shù)據(jù)整合起來(lái),訓(xùn)練一個(gè)專(zhuān)屬的 SpatialTracker ,說(shuō)不定今年自動(dòng)駕駛感知任務(wù)能迎來(lái)突破。之前大家覺(jué)得 Waymo 上模型的檢測(cè)性能已觸頂,但今年或許能再漲一漲。最后有請(qǐng)楊老師分享看法。

楊夢(mèng)月:我對(duì)自動(dòng)駕駛領(lǐng)域的具體方法并不十分熟悉,但從金老師提到的關(guān)聯(lián)、干預(yù)與反事實(shí)推理角度來(lái)看,我們希望智能體具備反事實(shí)想象能力,那它就必須理解場(chǎng)景的因果結(jié)構(gòu)——這源于圖靈獎(jiǎng)獲得者朱迪亞·珀?duì)? Judea Pearl )提出的“因果階梯”概念,他是因果推理領(lǐng)域的核心研究者。

因果推理的核心是“三層階梯”,而實(shí)現(xiàn)三層階梯的根本要求是理解系統(tǒng)內(nèi)部的運(yùn)行規(guī)則。因此,若要確保智能體具備想象能力,或是滿(mǎn)足安全層面的高要求,它必須掌握具體的物理規(guī)則和環(huán)境規(guī)則。此外好的世界模型,也無(wú)法捕捉現(xiàn)實(shí)世界的所有情況。這一方面受限于數(shù)據(jù),另一方面因?yàn)槭澜缒P驮谟?xùn)練之初就應(yīng)處于動(dòng)態(tài)更新的閉環(huán)中,從 RL 的角度來(lái)看,這個(gè)過(guò)程是:首先通過(guò)經(jīng)驗(yàn)數(shù)據(jù)訓(xùn)練出轉(zhuǎn)移模型,再基于轉(zhuǎn)移模型做出決策。而決策結(jié)果與轉(zhuǎn)移模型預(yù)期結(jié)果的差異,就可以用來(lái)更新世界模型。因此,我認(rèn)為提升模型性能的一個(gè)重要方向是:不能僅依賴(lài)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,還需要通過(guò)兩方面發(fā)力 —— 一方面要思考如何在真實(shí)系統(tǒng)中進(jìn)行干預(yù)并獲取真實(shí)反饋,這種干預(yù)是基于當(dāng)前對(duì)世界的理解(比如已有的世界模型)做出的決策;另一方面,當(dāng)決策執(zhí)行后,將收到的真實(shí)反饋用于更新當(dāng)前的世界模型。

因此,模型訓(xùn)練應(yīng)從兩方面展開(kāi):一是從數(shù)據(jù)和仿真器中學(xué)習(xí);二是在保證安全的前提下,讓智能體在真實(shí)環(huán)境中進(jìn)行一定程度的探索,通過(guò)真實(shí)反饋持續(xù)自我更新。

05

具身智能的世界模型應(yīng)該如何構(gòu)建?

趙昊:我們接著討論下一個(gè)話題:具身智能的世界模型應(yīng)該如何構(gòu)建。具身智能世界模型目前尚未形成明確的范式、規(guī)范和定義,需要一個(gè)好的切入點(diǎn)來(lái)證明其價(jià)值,推動(dòng)領(lǐng)域發(fā)展。

我覺(jué)得,具身智能的世界模型需要一個(gè)“觸發(fā)器”,一個(gè)能證明其價(jià)值的場(chǎng)景,這樣這個(gè)領(lǐng)域才能真正發(fā)展壯大,目前還缺少這樣的閉環(huán)機(jī)制。我還沒(méi)找到特別好的思路,也沒(méi)看到成熟的案例,但今年有兩個(gè)工作讓我印象深刻:一是賀老師團(tuán)隊(duì)的呂江燃在 ICCV 會(huì)議上做的工作,能用具身智能世界模型實(shí)現(xiàn)非預(yù)編程操作( non-prehensible manipulation );二是董老師團(tuán)隊(duì)的寧川若同學(xué)在 RSS 會(huì)議上發(fā)表的《 Prompting with Future 》,用高斯世界模型展現(xiàn)了規(guī)劃能力。這兩個(gè)工作可能是目前具身智能世界模型領(lǐng)域相對(duì)閉環(huán)的 baseline 案例,不過(guò)都還處于初期階段。想先問(wèn)問(wèn)鄭老師,若要研究具身智能世界模型,您認(rèn)為哪些技術(shù)路徑比較值得探索?

鄭文釗:我覺(jué)得具身智能的問(wèn)題特點(diǎn)與自動(dòng)駕駛有相似之處,比如都對(duì)三維精度有極高要求,甚至比自動(dòng)駕駛更嚴(yán)格。自動(dòng)駕駛場(chǎng)景相對(duì)宏大,而具身智能的抓取等場(chǎng)景可能需要毫米級(jí)精度——一旦誤差超過(guò)范圍,就可能抓取失敗,這是第一個(gè)挑戰(zhàn)。第二,物理規(guī)律在具身智能中扮演更重要的角色:自動(dòng)駕駛的物理規(guī)律相對(duì)簡(jiǎn)單(如車(chē)輛行駛),涉及的重力等復(fù)雜物理作用較少;但具身智能的抓取場(chǎng)景中,物理規(guī)律至關(guān)重要,這也是為什么大家常做 real2sim2real 的研究——需要先將真實(shí)場(chǎng)景映射到仿真空間,而仿真空間必須明確建模物理規(guī)律。

從發(fā)展階段看,具身智能的世界模型整體比自動(dòng)駕駛稍落后,但有其獨(dú)特性,比如已有工作嘗試在仿真空間中建模物理規(guī)律,而自動(dòng)駕駛領(lǐng)域缺乏對(duì)物理引擎( Physics engine )的深度建模,這是具身智能的一大特點(diǎn)。

未來(lái)具身智能世界模型的發(fā)展,我認(rèn)為有兩個(gè)方向:一是像自動(dòng)駕駛中提到的,實(shí)現(xiàn)重建與生成的結(jié)合,提升三維建模精度;二是更精準(zhǔn)地判斷因果性,并讓因果性與物理規(guī)律更好契合。由于具身智能的數(shù)據(jù)稀缺,純數(shù)據(jù)驅(qū)動(dòng)很難訓(xùn)練出符合物理規(guī)律的世界模型,因此需要更好地建模物理規(guī)律,甚至將其“注入”模型。除了 real2sim2real 的路徑,更優(yōu)的方向可能是數(shù)據(jù)驅(qū)動(dòng)與物理規(guī)律結(jié)合——探索如何通過(guò)某種方式將物理規(guī)律注入數(shù)據(jù)驅(qū)動(dòng)模型,這可能是未來(lái)的趨勢(shì)。

金鑫:我跟鄭老師觀點(diǎn)相似。我們最近半年也在做類(lèi)似探索。記得去年年底會(huì)議上碰到廖老師,討論她的 HUGSIM 工作時(shí),我曾建議是否考慮加入物理規(guī)則,讓仿真層( SIM layer )更具物理屬性。當(dāng)時(shí)廖老師反問(wèn):“物理性對(duì)自動(dòng)駕駛?cè)蝿?wù)真的那么重要嗎?” 這個(gè)問(wèn)題讓我深思,后來(lái)發(fā)現(xiàn)確實(shí)如此,自動(dòng)駕駛中,除了天氣光照、路面積水反光(比如陳寶權(quán)老師團(tuán)隊(duì)做的相關(guān)研究)等邊緣場(chǎng)景,對(duì)物理規(guī)律的依賴(lài)并不強(qiáng)。但具身智能不同,機(jī)器人的夾爪摩擦力、力反饋,以及軟體、流體、鉸接體等的物理屬性,對(duì)任務(wù)影響極大。因此,物理真實(shí)性( physical world intelligence )對(duì)具身智能的世界模型反而更重要。

我們的探索方向和鄭老師提到的很接近:不僅依賴(lài)數(shù)據(jù)驅(qū)動(dòng),還借鑒了傳統(tǒng)仿真領(lǐng)域的經(jīng)驗(yàn),結(jié)合圖形學(xué)中的物理建模方法(如楊氏模量、彈簧 - 質(zhì)量模型等基于規(guī)則的物理仿真)與數(shù)據(jù)驅(qū)動(dòng)的生成模型(如 AIGC 生成模型),希望讓具身智能的世界模型既能保證物理真實(shí)性,又能實(shí)現(xiàn)表現(xiàn)真實(shí)( appearance real )。

楊夢(mèng)月:我對(duì)具身智能領(lǐng)域的了解確實(shí)比較有限,更多是從各位的觀點(diǎn)中學(xué)習(xí)。我的想法是,在具身場(chǎng)景中,能否通過(guò)某種機(jī)制或智能體捕捉物理規(guī)律,將其整合成因果模型,再利用該模型進(jìn)行反事實(shí)預(yù)測(cè)或推斷,大概是這樣的思路。

趙昊:我覺(jué)得這個(gè)觀點(diǎn)很有意思,這也是今年的一個(gè)重要趨勢(shì)。比如近期的 4KAgent 表現(xiàn)出色。我隱約感覺(jué)到,今年存在“算法 Agent 化”的趨勢(shì)。這個(gè)理論在2023年就已出現(xiàn)(比如 Visual Programming 團(tuán)隊(duì)關(guān)于 tool using 的 best paper ),但今年堪稱(chēng)“ Agent 元年”,連寫(xiě)代碼都能被 Agent 替代,因此,今年或許可以重新審視 Auto ML 、視覺(jué)編程等方向。

這個(gè)思路很有價(jià)值:世界模型未必是客觀被動(dòng)的、被物理規(guī)則固化的存在,它能否成為主動(dòng)演變的“環(huán)境 Agent ”,在與數(shù)據(jù)的互動(dòng)中持續(xù)優(yōu)化?這是今年值得探索的有趣方向。

廖依伊:我總體贊成金老師和鄭老師的觀點(diǎn),思路確實(shí)比較相近。從自動(dòng)駕駛世界模型到通用具身智能世界模型,兩者差異顯著:自動(dòng)駕駛中,智能體與環(huán)境的交互很有限,主要是與路面的交互,路面可建模為平面,自車(chē)可用基礎(chǔ)模型簡(jiǎn)化,其他物體(如車(chē)輛、行人)也有特定模型,場(chǎng)景相對(duì)局限。因此,自動(dòng)駕駛中無(wú)論是視頻生成還是其他任務(wù),都容易回歸到 3D 建模,且 3D 渲染高效,操作便捷。

但具身智能中, 3D 固然重要(因涉及交互),但維度復(fù)雜度大幅提升——既包括智能體自身的維度,也包括與環(huán)境交互的維度。我一直在糾結(jié)路線選擇:是走 2D 路線,還是 3D 路線?比如今年 Cosmos 的工作采用“ 3D+2D ”模式,先通過(guò)仿真器生成 Mesh ,再驅(qū)動(dòng)生成逼真視頻,這確實(shí)是未來(lái)趨勢(shì)之一,但未必是唯一趨勢(shì)。核心問(wèn)題在于:是否必須顯式建模 3D ?在 2D 層面能否學(xué)好交互?若有足夠訓(xùn)練數(shù)據(jù), 2D 學(xué)習(xí)交互可能更簡(jiǎn)單——比如疊衣服、泥巴落地等非剛性物體場(chǎng)景,在 3D 中建模難度極大。如何做好 2D 與 3D 的結(jié)合,仍是難題。

趙昊:完全同意。若 3D、4D 仿真過(guò)于復(fù)雜,不顯式建?;蛟S更好。

金鑫:還要考慮訓(xùn)練復(fù)雜度和推理效率——機(jī)械臂等硬件的算力有限,復(fù)雜建模會(huì)更麻煩。

趙昊:感謝四位老師的分享。希望今天的安排大家滿(mǎn)意。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
南博鎮(zhèn)館之寶金獸被指“脫皮掉色”,院方:屬出土文物正?,F(xiàn)象

南博鎮(zhèn)館之寶金獸被指“脫皮掉色”,院方:屬出土文物正?,F(xiàn)象

上游新聞
2025-12-25 12:05:06
上海城投(集團(tuán))有限公司原副總裁胡欣受賄6743萬(wàn)余元,一審獲刑14年

上海城投(集團(tuán))有限公司原副總裁胡欣受賄6743萬(wàn)余元,一審獲刑14年

澎湃新聞
2025-12-25 17:26:33
直到看了美媒發(fā)布的圣誕大戰(zhàn)宣傳海報(bào),才發(fā)現(xiàn)老詹離退役不遠(yuǎn)了!

直到看了美媒發(fā)布的圣誕大戰(zhàn)宣傳海報(bào),才發(fā)現(xiàn)老詹離退役不遠(yuǎn)了!

田先生籃球
2025-12-25 10:32:57
中國(guó)旅游團(tuán),消失在歐洲

中國(guó)旅游團(tuán),消失在歐洲

旅界Pro
2025-12-25 08:33:19
人民幣大漲,背后的頂級(jí)陽(yáng)謀!

人民幣大漲,背后的頂級(jí)陽(yáng)謀!

柏年說(shuō)政經(jīng)
2025-12-25 11:57:19
擴(kuò)軍也無(wú)望?56歲范志毅央視語(yǔ)出驚人:2038年世界杯國(guó)足才有望進(jìn)

擴(kuò)軍也無(wú)望?56歲范志毅央視語(yǔ)出驚人:2038年世界杯國(guó)足才有望進(jìn)

我愛(ài)英超
2025-12-25 21:06:51
震驚!網(wǎng)傳廣東某醫(yī)院因業(yè)績(jī)下滑,全員工資6折發(fā),不低于2450元

震驚!網(wǎng)傳廣東某醫(yī)院因業(yè)績(jī)下滑,全員工資6折發(fā),不低于2450元

火山詩(shī)話
2025-12-25 18:04:47
真當(dāng)中國(guó)不敢動(dòng)手?中方向全世界宣布:退出1900億大項(xiàng)目

真當(dāng)中國(guó)不敢動(dòng)手?中方向全世界宣布:退出1900億大項(xiàng)目

李健政觀察
2025-12-25 13:41:44
獨(dú)居老人凌晨去世,消失的手機(jī)在冰箱里,“臥室整潔”的細(xì)節(jié)引起家人懷疑……

獨(dú)居老人凌晨去世,消失的手機(jī)在冰箱里,“臥室整潔”的細(xì)節(jié)引起家人懷疑……

方圓
2025-12-22 16:30:46
養(yǎng)老院里的性與愛(ài)

養(yǎng)老院里的性與愛(ài)

一條
2022-11-13 09:11:08
李弘權(quán)18+8上海大勝8連殺江蘇 洛夫頓14+8吃T龐崢麟9中2

李弘權(quán)18+8上海大勝8連殺江蘇 洛夫頓14+8吃T龐崢麟9中2

醉臥浮生
2025-12-25 21:21:29
對(duì)這個(gè)100%聚酯纖維的世界絕望了!“塑料瓶材料”憑什么占領(lǐng)服裝界?

對(duì)這個(gè)100%聚酯纖維的世界絕望了!“塑料瓶材料”憑什么占領(lǐng)服裝界?

果殼
2025-12-24 20:59:25
30場(chǎng)打完,雷霆26勝4負(fù),16年勇士隊(duì)?wèi)?zhàn)績(jī)?nèi)绾??差距比想象還要大

30場(chǎng)打完,雷霆26勝4負(fù),16年勇士隊(duì)?wèi)?zhàn)績(jī)?nèi)绾危坎罹啾认胂筮€要大

大西體育
2025-12-25 16:38:09
167票當(dāng)選!聯(lián)合國(guó)變天,新主席對(duì)華態(tài)度不一般?中方提出4個(gè)要求

167票當(dāng)選!聯(lián)合國(guó)變天,新主席對(duì)華態(tài)度不一般?中方提出4個(gè)要求

廣電新視網(wǎng)
2025-12-24 12:37:35
利潤(rùn)縮水68億!昔日全球第四車(chē)企被曝將停產(chǎn),又一巨頭撐不住了?

利潤(rùn)縮水68億!昔日全球第四車(chē)企被曝將停產(chǎn),又一巨頭撐不住了?

品牌觀察官
2025-12-23 22:49:13
呂良偉慶70大壽!打扮貴氣像三十出頭,姐弟罕露面,一家人都年輕

呂良偉慶70大壽!打扮貴氣像三十出頭,姐弟罕露面,一家人都年輕

阿纂看事
2025-12-24 21:07:39
京東宣布加薪!2025年終獎(jiǎng)投入同比漲幅超70%,采銷(xiāo)平均25薪,上不封頂

京東宣布加薪!2025年終獎(jiǎng)投入同比漲幅超70%,采銷(xiāo)平均25薪,上不封頂

澎湃新聞
2025-12-25 16:20:26
南博“吹哨人”遭連環(huán)恐嚇

南博“吹哨人”遭連環(huán)恐嚇

不正確
2025-12-25 12:42:58
攜程聲明:與柬埔寨國(guó)家旅游局合作未曾啟動(dòng),且不涉及任何數(shù)據(jù)合作

攜程聲明:與柬埔寨國(guó)家旅游局合作未曾啟動(dòng),且不涉及任何數(shù)據(jù)合作

界面新聞
2025-12-25 11:55:08
36年前陳寶國(guó)主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國(guó)主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
2025-12-25 23:07:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7024文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國(guó)"最毒"財(cái)閥千金被捕 韓國(guó)人稱(chēng)"經(jīng)過(guò)她身邊就會(huì)死"

頭條要聞

韓國(guó)"最毒"財(cái)閥千金被捕 韓國(guó)人稱(chēng)"經(jīng)過(guò)她身邊就會(huì)死"

體育要聞

約基奇有多喜歡馬?

娛樂(lè)要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來(lái)了,年化超24%的小貸被即刻叫停

汽車(chē)要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

親子
房產(chǎn)
手機(jī)
藝術(shù)
旅游

親子要聞

中國(guó)兒童癌癥生存率如何?《柳葉刀》發(fā)布重磅研究

房產(chǎn)要聞

太猛了!單月新增企業(yè)4.1萬(wàn)家,又一波巨頭涌向海南!

手機(jī)要聞

一加Turbo系列定位「性能續(xù)航超新星」,即將發(fā)布

藝術(shù)要聞

緬懷 | 著名油畫(huà)家宮立龍逝世,享年73歲

旅游要聞

海南神沖首屆火山電音節(jié)定檔2026元旦

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版