網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

圓桌論壇：關(guān)于“世界模型”突破方向的六個(gè)猜想 | GAIR 2025

2025-12-20 11:50:03　來源: AI科技評論

廣東舉報(bào)

分享至

單打獨(dú)斗已觸及天花板，是時(shí)候團(tuán)結(jié)力量推進(jìn)世界模型了。

作者丨齊鋮湧

編輯丨林覺民

“世界模型”是今年超級熱門的話題和方向，但整體來看相關(guān)研究尚處于起步階段，共識尚未形成。

在12月13日舉行的第八屆GAIR全球人工智能與機(jī)器人大會(huì)“世界模型”圓桌上，浙江大學(xué)研究員彭思達(dá)、騰訊ARC Lab高級研究員胡文博、中山大學(xué)計(jì)算機(jī)學(xué)院青年研究員，拓元智慧首席科學(xué)家王廣潤博士、香港中文大學(xué)（深圳）助理教授韓曉光、西湖大學(xué)助理教授修宇亮齊聚一堂。

五位年輕的學(xué)者在清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）助理教授，智源學(xué)者（BAAI Scholar）趙昊的主持下，圍繞著世界模型、數(shù)字人重建，新技術(shù)范式展望等展開了一場非常輕松但嚴(yán)肅的學(xué)術(shù)圓桌。

以下是具體內(nèi)容，AI科技評論做了不改變原意的編輯和整理。

關(guān)于世界模型，哪些技術(shù)突破值得期待？

趙昊：感謝各位。世界模型無疑是未來幾年最重要的技術(shù)方向之一。今天我們聊得會(huì)比較技術(shù)。先從彭老師開始，彭老師剛才介紹了Match Anything和Detector Free的Structure from Motion工作，我自己在用它們解決一些反光嚴(yán)重場景的重建，位姿估計(jì)問題，無論傳統(tǒng)方法還是VGGT等都不奏效。您認(rèn)為，未來純粹的、前饋式的匹配方法會(huì)徹底取代現(xiàn)有方案，還是最終會(huì)走向融合？

彭思達(dá)：這取決于具體問題。在觀測足夠稠密的情況下，現(xiàn)有的COLMAP等方法已經(jīng)足夠精確；但在稀疏視角下，就必須依賴VGGT這類方法。目前VGGT的精度還有提升空間。我的一個(gè)觀點(diǎn)是，我們不僅要看算法進(jìn)步，也要關(guān)注硬件發(fā)展。比如20年前的IMU精度很差，現(xiàn)在則很準(zhǔn)。我們完全可以將IMU、激光雷達(dá)等其他傳感器信息融合進(jìn)來，不必局限于純視覺的VGGT。

趙昊：有道理。另一個(gè)方向是運(yùn)動(dòng)估計(jì)，最近arXiv上也有很多新工作，效果超過了SpatialTrackerV2。您覺得這個(gè)領(lǐng)域發(fā)展到什么程度了？明年（2026年）會(huì)被徹底解決嗎？

彭思達(dá)：肯定不會(huì)被解決，這領(lǐng)域才剛剛開始，精度還遠(yuǎn)遠(yuǎn)不夠。但最近有一個(gè)重大突破，就是谷歌DeepMind團(tuán)隊(duì)的新工作 D4RT。這個(gè)工作非常優(yōu)雅，它摒棄了以往基于特征相關(guān)性進(jìn)行迭代優(yōu)化的主流范式，而是將整段視頻編碼為一組全局Token，然后可以直接查詢時(shí)空中任意點(diǎn)的信息。這是一個(gè)巨大的突破，我相信接下來會(huì)有一系列改進(jìn)。明年不會(huì)是終點(diǎn)，而會(huì)是一個(gè)蓬勃發(fā)展期，可能到2027年才會(huì)逐漸收斂。

趙昊：所以總結(jié)一下，我大膽預(yù)測，基于查詢的幾何基礎(chǔ)模型會(huì)成為2026年的一個(gè)主題。不僅是D4RT，像修老師的Human3R也是查詢式的。我個(gè)人賭2026年幾何基礎(chǔ)模型會(huì)走向基于查詢的范式。彭老師，您2026年想bet什么方向？

彭思達(dá)：我賭自監(jiān)督學(xué)習(xí)能有重大突破?，F(xiàn)有的自監(jiān)督學(xué)習(xí)大多集中在語義和二維層面，缺乏面向空間智能的自監(jiān)督學(xué)習(xí)。我希望谷歌、DeepMind這些擁有龐大資源的研究機(jī)構(gòu)能在這方面做出成果，讓我們也能用上。

趙昊：我持類似觀點(diǎn)。這也是為什么當(dāng)年自監(jiān)督深度估計(jì)研究了很久卻不太成功，現(xiàn)在轉(zhuǎn)向了模仿學(xué)習(xí)。我在想，明年是不是該把自監(jiān)督深度估計(jì)重新?lián)炱饋?，用于幾何基礎(chǔ)模型的后訓(xùn)練？

趙昊：接下來問問胡老師。2026年您bet什么方向？今年我們看到了你們的一系列4D AIGC工作和我們的Light-X這種5D AIGC工作，今天看了VerseCrafter之后，我覺得又增加了一個(gè)物體運(yùn)動(dòng)的維度。我們內(nèi)部一直在探討“6D AIGC”是什么，還有哪些可控維度？您的研究思路是怎樣的？

胡文博：我們之前的一系列工作，屬于韓老師總結(jié)的技術(shù)路線中的第三類——將3D信息注入擴(kuò)散模型。但未來一年，我們可能不會(huì)繼續(xù)沿著這條路線深入了。我認(rèn)為它的上限可能不夠高，因?yàn)橹亟夹g(shù)無論發(fā)展多快，總存在瑕疵，難以達(dá)到完美真值的級別。因此，我們想探索一條全新的、上限更高的路線來融入3D信息，但目標(biāo)依然是構(gòu)建世界模型。我個(gè)人肯定會(huì)賭世界模型這個(gè)方向。

特別是今年8月Google DeepMind發(fā)布的Genie 3，對我們這些領(lǐng)域內(nèi)的人來說非常震撼。我認(rèn)為它可能達(dá)到了大語言模型中GPT-3的級別，雖然離ChatGPT還有距離，但已經(jīng)非常驚人。

彭思達(dá)：我有個(gè)問題，現(xiàn)在的世界模型或者說視頻世界模型，學(xué)到的特征對于空間感知和理解似乎沒什么用。這與“建模三維空間”的初衷有些矛盾。您認(rèn)為這里缺失了什么？

胡文博：首先，我想對這個(gè)前提打個(gè)問號。它對于空間智能是否有用，我并不確定。但一些證據(jù)表明，從圖像或視頻擴(kuò)散模型出發(fā)，用少量數(shù)據(jù)就能微調(diào)出幾何估計(jì)模型，這可能說明它是有用的。不過，我更想說的是，我們對世界模型的定義和要求是什么？如果我們要求它精確理解3D空間，那可能需要探索。但我更認(rèn)同韓老師的定義，我想做的是一個(gè)給個(gè)人用的世界模型，讓人們能體驗(yàn)未知的、他人的或虛構(gòu)的世界。

這件事本身就很有意義。人類感知世界最主要的方式就是視覺，眼睛接收的就是視頻信號。如果我們能在視頻模態(tài)上實(shí)現(xiàn)優(yōu)秀的探索、交互，并且其物理規(guī)則符合現(xiàn)實(shí)（或自定義），那將非常有價(jià)值。至于它對空間智能是否有幫助，我暫時(shí)存疑。

彭思達(dá)：你剛才說的讓我想到一個(gè)應(yīng)用，也許可以叫“魔法相冊”?，F(xiàn)在的相冊只是靜態(tài)記錄，未來能否按一個(gè)按鈕，就讓照片里的內(nèi)容動(dòng)起來，而且每次動(dòng)得都不一樣？比如記錄孩子的成長，這絕對是剛需。

胡文博：這更像是讓圖像動(dòng)起來。但對我來說，世界模型更吸引人的場景是：打開任意一張照片，你都能“進(jìn)入”那個(gè)場景進(jìn)行探索，與其中的物體交互，并且你的交互和更改能被永久保存，下次可以繼續(xù)。這更像是一個(gè)活的世界。

趙昊：看來我們形成了兩個(gè)初步共識：一是基于查詢的基礎(chǔ)模型是趨勢；二是當(dāng)前3D范式存在上限，需要自監(jiān)督等新范式來突破。

趙昊：接下來請王老師分享一下，您對2026年有什么樣的展望或bet？

王廣潤：我先接續(xù)剛才的話題。世界模型有什么用？在我看來，一個(gè)核心應(yīng)用在具身智能和VLA領(lǐng)域。簡單來說，輸入圖像，輸出未來的動(dòng)作序列，這些動(dòng)作本質(zhì)包含了3D坐標(biāo)向量。所以，VLA任務(wù)在我看來，也包含著預(yù)測未來的3D點(diǎn)云（可能是只有一個(gè)點(diǎn)的點(diǎn)云）。我認(rèn)為世界模型可能是一個(gè)可泛化的、快速進(jìn)行3D重建與預(yù)測的引擎。對于明年，我的期待是能看到 Physical Intelligence的“π 1”版本發(fā)布，并希望其中包含更多對世界模型的建模。這是我對明年的一大期待。

趙昊：一個(gè)靈魂拷問：為什么π0還沒有接入深度圖或點(diǎn)云預(yù)測？這很讓人期待。

王廣潤：VLA領(lǐng)域目前主要缺的是數(shù)據(jù)。有種觀點(diǎn)認(rèn)為未來只需堆數(shù)據(jù)即可。但要訓(xùn)練您說的那種模型，需要大量特定的3D標(biāo)注數(shù)據(jù)，采集非常困難。

“可交互性是世界模型的關(guān)鍵”

“數(shù)字人如何提供情緒價(jià)值”

趙昊：謝謝王老師。最后請韓老師。第二次聽您的演講，我在想我們是否可以把“3D對于可解釋性和安全性至關(guān)重要”這個(gè)觀點(diǎn)理論化，聯(lián)合國內(nèi)外學(xué)界寫一篇立場論文？

韓曉光：說實(shí)話，我雖然激情澎湃地講3D， partly是因?yàn)槲覜]有足夠資源去做視頻模型。我看到很多做3D的人轉(zhuǎn)向了視頻模型，包括文博也說3D看不到性能盡頭了。我講3D的重要性，也是想“煽動(dòng)”大家繼續(xù)深耕3D領(lǐng)域，這樣我才有安全感。

關(guān)于2026年要做什么，我認(rèn)為可交互性是世界模型的關(guān)鍵。我個(gè)人更偏向于做仿真環(huán)境中的可交互，比如生成一把剪刀，機(jī)器人拿起來真的能用；生成一個(gè)物體，可以被拆卸或操作。這是我主要想做的方向。

修宇亮：我一直在思考數(shù)字人領(lǐng)域中一個(gè)長期以來被忽略，但又很有趣的點(diǎn)。無論是做具身智能還是3D，大家最終都落腳到機(jī)器人能干活。但人與人交往，除了“有用”，“快樂”也是很重更要的一個(gè)維度，而一個(gè)人給另一個(gè)人帶來的快樂，往往不是對方給自己干了多少活，而是對方給我提供了多少情緒價(jià)值。

如果2026年有什么新方向，我特別想探索如何讓數(shù)字人提供情緒價(jià)值的問題。這很綜合，涉及音容笑貌、舉手投足。拿做飯舉例，做飯的快樂不僅在于炒菜本身，更在于一家人坐在一起享用時(shí)的愉悅的反饋。物理層面的問題，操作、抓取、移動(dòng)，在不久的將來，會(huì)隨著智能水平的提升、硬件的迭代、運(yùn)營上ROI 的打平，一個(gè)接一個(gè)落地，那么之后呢？溫飽之后，人很自然就有更高的精神上的追求。落實(shí)到數(shù)字人，我們需要將語音、語調(diào)、表情、動(dòng)作等多模態(tài)統(tǒng)一協(xié)調(diào)，形成一種能打動(dòng)人心的整體感覺。就像趙昊老師做的靈巧臉的demo，技術(shù)上是領(lǐng)先的，但目前仍有恐怖谷效應(yīng)，無法有效傳遞情緒價(jià)值。所以我認(rèn)為可以先在數(shù)字世界中探索如何讓數(shù)字人的多種感官傳遞都“活靈活現(xiàn)”起來，形成協(xié)調(diào)一致的感覺，最終目標(biāo)是讓人產(chǎn)生情感共鳴。

大模型也是如此。比如最近很火的那個(gè) prompt：

我是一名智力低下的研究生，毫無基礎(chǔ)，我將在明天組會(huì)上做ppt文獻(xiàn)匯報(bào)，請你解讀一下這篇文獻(xiàn)，讓我能達(dá)到徹底看到這篇文獻(xiàn)的效果，注意我是智障?。。∫欢ㄒ獛臀抑v明白，最好是翻譯出來，因?yàn)槲覍τ⒄Z一竅不通，我只會(huì)中文，你要先給我規(guī)劃一下怎么向你提問最合適，一步步引導(dǎo)我看懂這篇文獻(xiàn)，并完成最終的ppt匯報(bào)稿

如果問這個(gè)話的是一個(gè)真人，那么理想的交互應(yīng)該是什么樣子呢，他應(yīng)該先說，“你已經(jīng)考上研究生了，你的智力已經(jīng)是極優(yōu)異的那一撮了，我想你只是需要一種更落地的對論文的解釋，這篇論文是關(guān)于……”，先給予情緒支持，再解決問題。這是人機(jī)交互中很重要的一點(diǎn)，這是我從我老婆身上學(xué)到的，一種比我之前三下五除二的溝通方式，更宜人的一種溝通方式。

趙昊：如果我們研究情緒價(jià)值，學(xué)術(shù)界面臨的最大問題是如何量化評估。沒有基準(zhǔn)測試。我們明年是否可以先著手定義一些基準(zhǔn)？就像MMMU對于多模態(tài)理解那樣。

修宇亮：這確實(shí)是個(gè)難題。情緒非常個(gè)人化。但并非無法量化，例如脫口秀可以用“罐頭笑聲”標(biāo)記笑點(diǎn)。我們可以定義何時(shí)引發(fā)了何種情緒，盡管要建立一個(gè)普適、有說服力的基準(zhǔn)非常困難。這可能需要新的技術(shù)手段。

趙昊：另一個(gè)問題：為什么3D數(shù)字人的發(fā)展似乎比通用3D物體慢？是數(shù)據(jù)問題嗎？難道不能用Trellis那樣的技術(shù)范式大幅提升精度嗎？

修宇亮：數(shù)據(jù)不足是一個(gè)問題。但更根本的是，數(shù)字人有一個(gè)“恐怖谷”效應(yīng)：通用3D物體做到90%逼真度可能就很好了，甚至如果依賴于深度相機(jī)或者雷達(dá)感知，通用物體的操作，都未必需要紋理信息，但數(shù)字人這個(gè)領(lǐng)域，從誕生第一天，“保真度”就是毋庸置疑的事情，而且容錯(cuò)率極低，做不到99分或100分，就是0分。人臉或者動(dòng)作只要有一點(diǎn)點(diǎn)假，有一點(diǎn)點(diǎn)僵硬，就會(huì)令人不適。這也是為什么許多公司轉(zhuǎn)向卡通風(fēng)格——預(yù)期管理更容易。卡通擬人化，比數(shù)字人擬真化，技術(shù)要求低很多，從用戶的角度，也會(huì)更容易接受。擬真數(shù)字人需要極高的技術(shù)門檻和資金投入，短期內(nèi)難突破。

韓曉光：我補(bǔ)充一點(diǎn)，除了真實(shí)感，動(dòng)態(tài)驅(qū)動(dòng)也是巨大挑戰(zhàn)。一個(gè)靜態(tài)的3D數(shù)字人用處有限（除了3D打?。仨氉屗鼊?dòng)起來。而讓物體或人動(dòng)起來，并且動(dòng)得自然，目前都很難。

視頻生成模型是否面臨范式天花板？

情緒價(jià)值的本質(zhì)是語言，還是外觀？

彭思達(dá)：我有個(gè)問題給宇亮。您認(rèn)為情緒價(jià)值的本質(zhì)是研究語言，還是外觀？如果要排序，哪個(gè)優(yōu)先級更高？

修宇亮：這不是非此即彼的問題。但如果排序，我認(rèn)為語言（包括語調(diào)）本身可能更重要，其次是表情和體態(tài)。即使遮住臉或綁住手，我們也能通過語言傳達(dá)大量情緒，你如果有聽過氣泡音的深夜電臺主播，你就知道我在說什么。

彭思達(dá)：接著一個(gè)更技術(shù)的問題：當(dāng)前視頻生成模型是否也面臨范式天花板？例如圖像生成，StableDiffusion曾如火如荼，但如今被Nano Banana等基于語言-圖像統(tǒng)一建模的新范式超越。現(xiàn)在似乎還沒有論文很好地將視頻與文本/語言在高層語義上進(jìn)行統(tǒng)一建模。要讓你設(shè)想的數(shù)字人有“靈魂”，必然需要這種深度融合。您怎么看？

修宇亮：現(xiàn)在確實(shí)有一些視頻模型能根據(jù)音頻生成口型，但還不是真正的“形神兼?zhèn)洹?。這種靈魂感往往體現(xiàn)在高頻細(xì)節(jié)上，比如微表情、語調(diào)的微妙變化，這些細(xì)節(jié)在像素層面可能都難以捕捉，在損失函數(shù)中也作用忽微，你看《建國大業(yè)》里面，老蔣聽到李宗仁當(dāng)選總統(tǒng)的時(shí)候的那個(gè)微表情變化，這樣像素級的情感傳遞，能用 AI 準(zhǔn)確生成嗎？建模這種極致的逼真度本身就是最后一公里的巨大挑戰(zhàn)。

韓曉光：關(guān)于情緒價(jià)值，我甚至覺得，有時(shí)不提供具體形象可能更好。越具體、越真實(shí)，有時(shí)越會(huì)限制想象力。一個(gè)未知形象但聲音溫柔的角色，可能給人更多想象空間和情緒價(jià)值。

修宇亮：情緒價(jià)值常常來自“反差感”和“預(yù)期違背”，而這與當(dāng)前大模型“準(zhǔn)確預(yù)測下一個(gè)詞”的訓(xùn)練目標(biāo)是相反的，語言模型是要準(zhǔn)確預(yù)測下一個(gè)詞是什么，但脫口秀的工作邏輯不是這樣，要更高一級，他得在知道下一個(gè)詞最可能是什么的前提下，給出一個(gè)最不可能但又合理的輸出，這就是脫口秀的預(yù)期違背。如何讓以“捕捉人類直覺”聞名的大模型，去學(xué)習(xí)生成這種“反直覺但細(xì)想想又很合理”的內(nèi)容，是我感興趣的，我甚至認(rèn)為幽默本身，就是人類智能的一種體現(xiàn)，人類就是在預(yù)期違背中，去忤逆去突破，打破成見形成集體對事物全新的認(rèn)知，脫口秀演員和科學(xué)家，本質(zhì)上是一類人。

趙昊：這或許是個(gè)好方向，比如讓數(shù)字人講脫口秀。另外，回到統(tǒng)一生成與理解的問題，像Nano Banana那樣的工作，將其擴(kuò)展到視頻需要多少計(jì)算資源？

彭思達(dá)：這需要一些基礎(chǔ)算法，比如視頻的Tokenization目前可能都沒做得很好。視頻理解和生成的需求也不同，一個(gè)可能需要處理一小時(shí)長視頻，另一個(gè)可能只生成5-10秒。如果Tokenization問題沒解決好，以目前的規(guī)模，上萬張GPU卡可能是起步。

趙昊：視頻的Tokenizer正是我2026年想賭的方向之一。最后，我正式向在座的各位，以及產(chǎn)業(yè)界、學(xué)術(shù)界的朋友發(fā)出倡議：我們是否可以共同建立一個(gè)世界模型的技術(shù)聯(lián)盟或發(fā)布一份倡議書？當(dāng)前單打獨(dú)斗似乎已觸及天花板，是時(shí)候團(tuán)結(jié)力量，共同推進(jìn)真正的世界模型了。

今天的討論就到這里，感謝各位！

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.