国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

圓桌論壇:關(guān)于“世界模型”突破方向的六個猜想 | GAIR 2025

0
分享至



單打獨斗已觸及天花板,是時候團結(jié)力量推進世界模型了。

作者丨齊鋮湧

編輯丨林覺民


“世界模型”是今年超級熱門的話題和方向,但整體來看相關(guān)研究尚處于起步階段,共識尚未形成。

在12月13日舉行的第八屆GAIR全球人工智能與機器人大會“世界模型”圓桌上,浙江大學研究員彭思達、騰訊ARC Lab高級研究員胡文博、中山大學計算機學院青年研究員,拓元智慧首席科學家王廣潤博士、香港中文大學(深圳)助理教授韓曉光、西湖大學助理教授修宇亮齊聚一堂。

五位年輕的學者在清華大學智能產(chǎn)業(yè)研究院(AIR)助理教授,智源學者(BAAI Scholar)趙昊的主持下,圍繞著世界模型、數(shù)字人重建,新技術(shù)范式展望等展開了一場非常輕松但嚴肅的學術(shù)圓桌。

以下是具體內(nèi)容,AI科技評論做了不改變原意的編輯和整理。

01

關(guān)于世界模型,哪些技術(shù)突破值得期待?

趙昊:感謝各位。世界模型無疑是未來幾年最重要的技術(shù)方向之一。今天我們聊得會比較技術(shù)。先從彭老師開始,彭老師剛才介紹了Match Anything和Detector Free的Structure from Motion工作,我自己在用它們解決一些反光嚴重場景的重建,位姿估計問題,無論傳統(tǒng)方法還是VGGT等都不奏效。您認為,未來純粹的、前饋式的匹配方法會徹底取代現(xiàn)有方案,還是最終會走向融合?

彭思達:這取決于具體問題。在觀測足夠稠密的情況下,現(xiàn)有的COLMAP等方法已經(jīng)足夠精確;但在稀疏視角下,就必須依賴VGGT這類方法。目前VGGT的精度還有提升空間。我的一個觀點是,我們不僅要看算法進步,也要關(guān)注硬件發(fā)展。比如20年前的IMU精度很差,現(xiàn)在則很準。我們完全可以將IMU、激光雷達等其他傳感器信息融合進來,不必局限于純視覺的VGGT。

趙昊:有道理。另一個方向是運動估計,最近arXiv上也有很多新工作,效果超過了SpatialTrackerV2。您覺得這個領(lǐng)域發(fā)展到什么程度了?明年(2026年)會被徹底解決嗎?

彭思達:肯定不會被解決,這領(lǐng)域才剛剛開始,精度還遠遠不夠。但最近有一個重大突破,就是谷歌DeepMind團隊的新工作 D4RT。這個工作非常優(yōu)雅,它摒棄了以往基于特征相關(guān)性進行迭代優(yōu)化的主流范式,而是將整段視頻編碼為一組全局Token,然后可以直接查詢時空中任意點的信息。這是一個巨大的突破,我相信接下來會有一系列改進。明年不會是終點,而會是一個蓬勃發(fā)展期,可能到2027年才會逐漸收斂。

趙昊:所以總結(jié)一下,我大膽預測,基于查詢的幾何基礎(chǔ)模型會成為2026年的一個主題。不僅是D4RT,像修老師的Human3R也是查詢式的。我個人賭2026年幾何基礎(chǔ)模型會走向基于查詢的范式。彭老師,您2026年想bet什么方向?

彭思達:我賭自監(jiān)督學習能有重大突破?,F(xiàn)有的自監(jiān)督學習大多集中在語義和二維層面,缺乏面向空間智能的自監(jiān)督學習。我希望谷歌、DeepMind這些擁有龐大資源的研究機構(gòu)能在這方面做出成果,讓我們也能用上。

趙昊:我持類似觀點。這也是為什么當年自監(jiān)督深度估計研究了很久卻不太成功,現(xiàn)在轉(zhuǎn)向了模仿學習。我在想,明年是不是該把自監(jiān)督深度估計重新?lián)炱饋?,用于幾何基礎(chǔ)模型的后訓練?

趙昊:接下來問問胡老師。2026年您bet什么方向?今年我們看到了你們的一系列4D AIGC工作和我們的Light-X這種5D AIGC工作,今天看了VerseCrafter之后,我覺得又增加了一個物體運動的維度。我們內(nèi)部一直在探討“6D AIGC”是什么,還有哪些可控維度?您的研究思路是怎樣的?

胡文博:我們之前的一系列工作,屬于韓老師總結(jié)的技術(shù)路線中的第三類——將3D信息注入擴散模型。但未來一年,我們可能不會繼續(xù)沿著這條路線深入了。我認為它的上限可能不夠高,因為重建技術(shù)無論發(fā)展多快,總存在瑕疵,難以達到完美真值的級別。因此,我們想探索一條全新的、上限更高的路線來融入3D信息,但目標依然是構(gòu)建世界模型。我個人肯定會賭世界模型這個方向。

特別是今年8月Google DeepMind發(fā)布的Genie 3,對我們這些領(lǐng)域內(nèi)的人來說非常震撼。我認為它可能達到了大語言模型中GPT-3的級別,雖然離ChatGPT還有距離,但已經(jīng)非常驚人。

彭思達:我有個問題,現(xiàn)在的世界模型或者說視頻世界模型,學到的特征對于空間感知和理解似乎沒什么用。這與“建模三維空間”的初衷有些矛盾。您認為這里缺失了什么?

胡文博:首先,我想對這個前提打個問號。它對于空間智能是否有用,我并不確定。但一些證據(jù)表明,從圖像或視頻擴散模型出發(fā),用少量數(shù)據(jù)就能微調(diào)出幾何估計模型,這可能說明它是有用的。不過,我更想說的是,我們對世界模型的定義和要求是什么?如果我們要求它精確理解3D空間,那可能需要探索。但我更認同韓老師的定義,我想做的是一個給個人用的世界模型,讓人們能體驗未知的、他人的或虛構(gòu)的世界。

這件事本身就很有意義。人類感知世界最主要的方式就是視覺,眼睛接收的就是視頻信號。如果我們能在視頻模態(tài)上實現(xiàn)優(yōu)秀的探索、交互,并且其物理規(guī)則符合現(xiàn)實(或自定義),那將非常有價值。至于它對空間智能是否有幫助,我暫時存疑。

彭思達:你剛才說的讓我想到一個應(yīng)用,也許可以叫“魔法相冊”?,F(xiàn)在的相冊只是靜態(tài)記錄,未來能否按一個按鈕,就讓照片里的內(nèi)容動起來,而且每次動得都不一樣?比如記錄孩子的成長,這絕對是剛需。

胡文博:這更像是讓圖像動起來。但對我來說,世界模型更吸引人的場景是:打開任意一張照片,你都能“進入”那個場景進行探索,與其中的物體交互,并且你的交互和更改能被永久保存,下次可以繼續(xù)。這更像是一個活的世界。

趙昊:看來我們形成了兩個初步共識:一是基于查詢的基礎(chǔ)模型是趨勢;二是當前3D范式存在上限,需要自監(jiān)督等新范式來突破。

趙昊:接下來請王老師分享一下,您對2026年有什么樣的展望或bet?

王廣潤:我先接續(xù)剛才的話題。世界模型有什么用?在我看來,一個核心應(yīng)用在具身智能和VLA領(lǐng)域。簡單來說,輸入圖像,輸出未來的動作序列,這些動作本質(zhì)包含了3D坐標向量。所以,VLA任務(wù)在我看來,也包含著預測未來的3D點云(可能是只有一個點的點云)。我認為世界模型可能是一個可泛化的、快速進行3D重建與預測的引擎。對于明年,我的期待是能看到 Physical Intelligence的“π 1”版本 發(fā)布,并希望其中包含更多對世界模型的建模。這是我對明年的一大期待。

趙昊:一個靈魂拷問:為什么π0還沒有接入深度圖或點云預測?這很讓人期待。

王廣潤:VLA領(lǐng)域目前主要缺的是數(shù)據(jù)。有種觀點認為未來只需堆數(shù)據(jù)即可。但要訓練您說的那種模型,需要大量特定的3D標注數(shù)據(jù),采集非常困難。

02

“可交互性是世界模型的關(guān)鍵”

“數(shù)字人如何提供情緒價值”

趙昊:謝謝王老師。最后請韓老師。第二次聽您的演講,我在想我們是否可以把“3D對于可解釋性和安全性至關(guān)重要”這個觀點理論化,聯(lián)合國內(nèi)外學界寫一篇立場論文?

韓曉光:說實話,我雖然激情澎湃地講3D, partly是因為我沒有足夠資源去做視頻模型。我看到很多做3D的人轉(zhuǎn)向了視頻模型,包括文博也說3D看不到性能盡頭了。我講3D的重要性,也是想“煽動”大家繼續(xù)深耕3D領(lǐng)域,這樣我才有安全感。

關(guān)于2026年要做什么,我認為可交互性是世界模型的關(guān)鍵。我個人更偏向于做仿真環(huán)境中的可交互,比如生成一把剪刀,機器人拿起來真的能用;生成一個物體,可以被拆卸或操作。這是我主要想做的方向。

修宇亮:我一直在思考數(shù)字人領(lǐng)域中一個長期以來被忽略,但又很有趣的點。無論是做具身智能還是3D,大家最終都落腳到機器人能干活。但人與人交往,除了“有用”,“快樂”也是很重更要的一個維度,而一個人給另一個人帶來的快樂,往往不是對方給自己干了多少活,而是對方給我提供了多少情緒價值。

如果2026年有什么新方向,我特別想探索如何讓數(shù)字人提供情緒價值的問題。這很綜合,涉及音容笑貌、舉手投足。拿做飯舉例,做飯的快樂不僅在于炒菜本身,更在于一家人坐在一起享用時的愉悅的反饋。物理層面的問題,操作、抓取、移動,在不久的將來,會隨著智能水平的提升、硬件的迭代、運營上ROI 的打平,一個接一個落地,那么之后呢?溫飽之后,人很自然就有更高的精神上的追求。落實到數(shù)字人,我們需要將語音、語調(diào)、表情、動作等多模態(tài)統(tǒng)一協(xié)調(diào),形成一種能打動人心的整體感覺。就像趙昊老師做的靈巧臉的demo,技術(shù)上是領(lǐng)先的,但目前仍有恐怖谷效應(yīng),無法有效傳遞情緒價值。所以我認為可以先在數(shù)字世界中探索如何讓數(shù)字人的多種感官傳遞都“活靈活現(xiàn)”起來,形成協(xié)調(diào)一致的感覺,最終目標是讓人產(chǎn)生情感共鳴。

大模型也是如此。比如最近很火的那個 prompt:

我是一名智力低下的研究生,毫無基礎(chǔ),我將在明天組會上做ppt文獻匯報,請你解讀一下這篇文獻,讓我能達到徹底看到這篇文獻的效果,注意我是智障?。?!一定要幫我講明白,最好是翻譯出來,因為我對英語一竅不通,我只會中文,你要先給我規(guī)劃一下怎么向你提問最合適,一步步引導我看懂這篇文獻,并完成最終的ppt匯報稿

如果問這個話的是一個真人,那么理想的交互應(yīng)該是什么樣子呢,他應(yīng)該先說,“你已經(jīng)考上研究生了,你的智力已經(jīng)是極優(yōu)異的那一撮了,我想你只是需要一種更落地的對論文的解釋,這篇論文是關(guān)于……”,先給予情緒支持,再解決問題。這是人機交互中很重要的一點,這是我從我老婆身上學到的,一種比我之前三下五除二的溝通方式,更宜人的一種溝通方式。

趙昊:如果我們研究情緒價值,學術(shù)界面臨的最大問題是如何量化評估。沒有基準測試。我們明年是否可以先著手定義一些基準?就像MMMU對于多模態(tài)理解那樣。

修宇亮:這確實是個難題。情緒非常個人化。但并非無法量化,例如脫口秀可以用“罐頭笑聲”標記笑點。我們可以定義何時引發(fā)了何種情緒,盡管要建立一個普適、有說服力的基準非常困難。這可能需要新的技術(shù)手段。

趙昊:另一個問題:為什么3D數(shù)字人的發(fā)展似乎比通用3D物體慢?是數(shù)據(jù)問題嗎?難道不能用Trellis那樣的技術(shù)范式大幅提升精度嗎?

修宇亮:數(shù)據(jù)不足是一個問題。但更根本的是,數(shù)字人有一個“恐怖谷”效應(yīng):通用3D物體做到90%逼真度可能就很好了,甚至如果依賴于深度相機或者雷達感知,通用物體的操作,都未必需要紋理信息,但數(shù)字人這個領(lǐng)域,從誕生第一天,“保真度”就是毋庸置疑的事情,而且容錯率極低,做不到99分或100分,就是0分。人臉或者動作只要有一點點假,有一點點僵硬,就會令人不適。這也是為什么許多公司轉(zhuǎn)向卡通風格——預期管理更容易。卡通擬人化,比數(shù)字人擬真化,技術(shù)要求低很多,從用戶的角度,也會更容易接受。擬真數(shù)字人需要極高的技術(shù)門檻和資金投入,短期內(nèi)難突破。

韓曉光:我補充一點,除了真實感,動態(tài)驅(qū)動也是巨大挑戰(zhàn)。一個靜態(tài)的3D數(shù)字人用處有限(除了3D打印),必須讓它動起來。而讓物體或人動起來,并且動得自然,目前都很難。

03

視頻生成模型是否面臨范式天花板?

情緒價值的本質(zhì)是語言,還是外觀?

彭思達:我有個問題給宇亮。您認為情緒價值的本質(zhì)是研究語言,還是外觀?如果要排序,哪個優(yōu)先級更高?

修宇亮:這不是非此即彼的問題。但如果排序,我認為語言(包括語調(diào))本身可能更重要,其次是表情和體態(tài)。即使遮住臉或綁住手,我們也能通過語言傳達大量情緒,你如果有聽過氣泡音的深夜電臺主播,你就知道我在說什么。

彭思達:接著一個更技術(shù)的問題:當前視頻生成模型是否也面臨范式天花板?例如圖像生成,StableDiffusion曾如火如荼,但如今被Nano Banana等基于語言-圖像統(tǒng)一建模的新范式超越。現(xiàn)在似乎還沒有論文很好地將視頻與文本/語言在高層語義上進行統(tǒng)一建模。要讓你設(shè)想的數(shù)字人有“靈魂”,必然需要這種深度融合。您怎么看?

修宇亮:現(xiàn)在確實有一些視頻模型能根據(jù)音頻生成口型,但還不是真正的“形神兼?zhèn)洹薄_@種靈魂感往往體現(xiàn)在高頻細節(jié)上,比如微表情、語調(diào)的微妙變化,這些細節(jié)在像素層面可能都難以捕捉,在損失函數(shù)中也作用忽微,你看《建國大業(yè)》里面,老蔣聽到李宗仁當選總統(tǒng)的時候的那個微表情變化,這樣像素級的情感傳遞,能用 AI 準確生成嗎?建模這種極致的逼真度本身就是最后一公里的巨大挑戰(zhàn)。

韓曉光:關(guān)于情緒價值,我甚至覺得,有時不提供具體形象可能更好。越具體、越真實,有時越會限制想象力。一個未知形象但聲音溫柔的角色,可能給人更多想象空間和情緒價值。

修宇亮:情緒價值常常來自“反差感”和“預期違背”,而這與當前大模型“準確預測下一個詞”的訓練目標是相反的,語言模型是要準確預測下一個詞是什么,但脫口秀的工作邏輯不是這樣,要更高一級,他得在知道下一個詞最可能是什么的前提下,給出一個最不可能但又合理的輸出,這就是脫口秀的預期違背。如何讓以“捕捉人類直覺”聞名的大模型,去學習生成這種“反直覺但細想想又很合理”的內(nèi)容,是我感興趣的,我甚至認為幽默本身,就是人類智能的一種體現(xiàn),人類就是在預期違背中,去忤逆去突破,打破成見形成集體對事物全新的認知,脫口秀演員和科學家,本質(zhì)上是一類人。

趙昊:這或許是個好方向,比如讓數(shù)字人講脫口秀。另外,回到統(tǒng)一生成與理解的問題,像Nano Banana那樣的工作,將其擴展到視頻需要多少計算資源?

彭思達:這需要一些基礎(chǔ)算法,比如視頻的Tokenization目前可能都沒做得很好。視頻理解和生成的需求也不同,一個可能需要處理一小時長視頻,另一個可能只生成5-10秒。如果Tokenization問題沒解決好,以目前的規(guī)模,上萬張GPU卡可能是起步。

趙昊:視頻的Tokenizer正是我2026年想賭的方向之一。最后,我正式向在座的各位,以及產(chǎn)業(yè)界、學術(shù)界的朋友發(fā)出倡議:我們是否可以共同建立一個世界模型的技術(shù)聯(lián)盟或發(fā)布一份倡議書? 當前單打獨斗似乎已觸及天花板,是時候團結(jié)力量,共同推進真正的世界模型了。

今天的討論就到這里,感謝各位!

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
2025年即將結(jié)束,全國出生人口預計是多少?

2025年即將結(jié)束,全國出生人口預計是多少?

何亞福
2025-12-25 20:14:18
真實的座山雕有多可怕,比電影殘暴數(shù)倍,連日本人都拿他沒辦法

真實的座山雕有多可怕,比電影殘暴數(shù)倍,連日本人都拿他沒辦法

文史達觀
2025-12-04 06:45:06
全球僅生產(chǎn)了2枚!爆炸威力比原子彈大3000多倍,美國至今忌憚

全球僅生產(chǎn)了2枚!爆炸威力比原子彈大3000多倍,美國至今忌憚

劍道萬古似長夜
2025-12-25 14:34:17
京東全球露臉!深夜回應(yīng)倉庫被盜:一夜交滿分答卷,辟謠3億損失

京東全球露臉!深夜回應(yīng)倉庫被盜:一夜交滿分答卷,辟謠3億損失

奇思妙想草葉君
2025-12-25 02:03:20
“一條線的人都被買通了”,誰來證明紙業(yè)巨頭買了摻假煤?

“一條線的人都被買通了”,誰來證明紙業(yè)巨頭買了摻假煤?

中國能源網(wǎng)
2025-12-25 08:06:09
關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

誮惜顏a
2025-12-24 05:53:10
一圖看盡西甲14年滄桑!皇馬巴薩共換了18次教頭 馬競獨愛1位霸總

一圖看盡西甲14年滄桑!皇馬巴薩共換了18次教頭 馬競獨愛1位霸總

風過鄉(xiāng)
2025-12-25 20:41:28
中雪大雪暴雪,要來了!天津2026年第一場雪即將上線!大部地圖已“灰”,時間在···

中雪大雪暴雪,要來了!天津2026年第一場雪即將上線!大部地圖已“灰”,時間在···

天津人
2025-12-25 15:11:02
剛派官員竄臺,高市就告知全球,日本恐和正義為敵,中國態(tài)度堅決

剛派官員竄臺,高市就告知全球,日本恐和正義為敵,中國態(tài)度堅決

影孖看世界
2025-12-25 20:31:07
期待!邵佳一國足有望召入4名歸化:羅慕洛2個月后即可入籍!

期待!邵佳一國足有望召入4名歸化:羅慕洛2個月后即可入籍!

邱澤云
2025-12-24 22:36:57
CCTV5直播!廣東VS山東沖6連勝,薩林杰硬磕克里斯,杜鋒不懼挑戰(zhàn)

CCTV5直播!廣東VS山東沖6連勝,薩林杰硬磕克里斯,杜鋒不懼挑戰(zhàn)

老葉評球
2025-12-25 19:46:04
A股漲到3959點,跡象表明了,明天,12月26日,很可能這樣走

A股漲到3959點,跡象表明了,明天,12月26日,很可能這樣走

振華觀史
2025-12-25 15:16:46
鄭麗文大動作,聘王金平任要職;盧秀燕表態(tài),揭秘不選黨主席原因

鄭麗文大動作,聘王金平任要職;盧秀燕表態(tài),揭秘不選黨主席原因

芊芊子吟
2025-12-25 16:31:44
與黃圣依離婚11個月,楊子公開回應(yīng)與趙櫻子關(guān)系,真相終于大白

與黃圣依離婚11個月,楊子公開回應(yīng)與趙櫻子關(guān)系,真相終于大白

夢想總會變成真
2025-12-23 19:50:32
A股:剛剛,大消息傳來,釋放兩明確信號,周五將迎來新的變盤

A股:剛剛,大消息傳來,釋放兩明確信號,周五將迎來新的變盤

丁丁鯉史紀
2025-12-25 17:03:00
比恒大還慘!中國第二大民企轟然倒塌,負債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企轟然倒塌,負債7500億,創(chuàng)始人被帶走

甜檸聊史
2025-12-24 18:22:43
蘇聯(lián)中將的回憶:56萬中國軍隊壓境,越軍防線崩潰的真相是什么?

蘇聯(lián)中將的回憶:56萬中國軍隊壓境,越軍防線崩潰的真相是什么?

嘮叨說歷史
2025-12-23 11:31:48
KK園區(qū)491棟違法建筑已拆除

KK園區(qū)491棟違法建筑已拆除

財聯(lián)社
2025-12-24 17:38:43
國際乒聯(lián)公布年終世界排名,五個“第一”國乒占了四席,蒯曼成最大贏家

國際乒聯(lián)公布年終世界排名,五個“第一”國乒占了四席,蒯曼成最大贏家

上觀新聞
2025-12-25 04:42:09
沒有水貨!NBA公布新秀榜TOP10:馬刺榜眼重返前5 不愧是選秀大年

沒有水貨!NBA公布新秀榜TOP10:馬刺榜眼重返前5 不愧是選秀大年

鍋子籃球
2025-12-25 11:00:24
2025-12-25 22:04:49
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務(wù)AI
7024文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

頭條要聞

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

體育要聞

單賽季11冠,羽壇“安洗瑩時代”真的來了

娛樂要聞

朱孝天把阿信好意當球踢!

財經(jīng)要聞

時隔15月,人民幣升破7,三大推手曝光

汽車要聞

速來!智界在上海西岸準備了年末潮流盛典

態(tài)度原創(chuàng)

房產(chǎn)
時尚
數(shù)碼
藝術(shù)
軍事航空

房產(chǎn)要聞

太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

迎好運的30套紅色穿搭,美到不行!

數(shù)碼要聞

小米Buds 6耳機發(fā)布 支持智能錄音翻譯功能 售價699元

藝術(shù)要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

軍事要聞

澤連斯基版“和平計劃”透露哪些信息

無障礙瀏覽 進入關(guān)懷版