国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊 ARC Lab 胡文博:“如何實(shí)現(xiàn)三維感知的視頻世界模型,這非常值得探索”|GAIR 2025

0
分享至


我們正在努力創(chuàng)建一個(gè)具備三維感知能力的視頻世界模型。

作者丨齊鋮湧

編輯丨馬曉寧


世界模型的研究尚處于起步階段,共識(shí)尚未形成,有關(guān)該領(lǐng)域的研究形成了無數(shù)支流,過去一年多,Sora為代表的視頻生成模型,成為繼大語言模型(LLM)后新的學(xué)術(shù)熱點(diǎn)。本質(zhì)上講,當(dāng)下火爆的視頻生成模型,是一種世界模型,其核心目的是生成一段逼真、連貫的視頻。

要達(dá)到這樣的目的,模型必須在一定程度上理解這個(gè)世界的運(yùn)作方式(比如水往低處流、物體碰撞后的運(yùn)動(dòng)、人的合理動(dòng)作等)。

胡文博正是世界模型研究領(lǐng)域近兩年的絕對(duì)新銳。

在剛剛結(jié)束的 GAIR 2025,騰訊ARC Lab高級(jí)研究員胡文博,在雷峰網(wǎng)舉辦的GAIR大會(huì)現(xiàn)場(chǎng)帶來了非常有見解的演講:《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models )。

以下是具體內(nèi)容,AI科技評(píng)論做了不改變?cè)獾木庉嫼驼怼?/p>

感謝邀請(qǐng)和介紹,我今天分享的題目是《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models)。

之所以講這個(gè),是因?yàn)镾ora在2024年初出來時(shí),給大家?guī)砗艽笳鸷?。比如它生成的視頻,雖然看起來是二維的,但已經(jīng)具備一定的3D一致性。不過從我們做三維重建的角度看,比如嘗試把它重建出來,會(huì)發(fā)現(xiàn)墻面與地面的垂直性、平整度等都還不夠好。


基于這個(gè)觀察,領(lǐng)域內(nèi)認(rèn)為視頻擴(kuò)散模型有潛力作為世界模型的一種表示方式,但視頻本身仍是二維的,而我們的世界是三維的。

所以我們思考:如何實(shí)現(xiàn)一個(gè)具備三維感知能力的視頻世界模型?

為了實(shí)現(xiàn)這種三維感知,我們主要做了兩方面工作,今天重點(diǎn)講第二方面。

第一方面是如何從二維觀測(cè)中重建三維信息,這部分和前面彭老師講的內(nèi)容比較接近。第二方面是如何將重建得到的三維信息融入到生成過程中,使二維空間的視頻擴(kuò)散模型具備三維感知特性。

我先簡(jiǎn)單介紹一下第一方面的工作:如何在開放世界環(huán)境中,從二維視頻中重建三維信息。

我們做了一系列工作,例如video depth (DepthCrafter)(2024年10月掛在arXiv上,現(xiàn)在效果可能已經(jīng)不是最新的了)。


除了video depth (DepthCrafter),我們進(jìn)一步思考:既然video depth還是2.5維的信息,能否直接從視頻中估計(jì)點(diǎn)云。這就是GeometryCrafter,有了點(diǎn)云,我們就能做類似4D重建的任務(wù),把各幀融合到同一坐標(biāo)系中。


再進(jìn)一步,我們還估計(jì)了運(yùn)動(dòng)信息,這部分我們最新的工作叫Holi4D,可以從單目視頻中重建運(yùn)動(dòng)。最后一塊是表面法線估計(jì)NormalCrafter,與前幾項(xiàng)相比,法線包含更多高頻細(xì)節(jié),因?yàn)樗俏恢玫囊浑A偏導(dǎo)數(shù)?;诜ň€我們可以做重打光、材質(zhì)編輯等任務(wù)。

總的來說,目前從任意開放世界二維視頻中重建三維信息的技術(shù)已經(jīng)發(fā)展得不錯(cuò),我們能得到比較好的三維重建結(jié)果了。

接下來重點(diǎn)講第二方面:如何將三維信息用在視頻擴(kuò)散過程中,使模型具備三維感知能力。我們首先探索了靜態(tài)場(chǎng)景下的生成任務(wù):輸入一張單圖,希望模型能根據(jù)任意指定的相機(jī)位姿,生成對(duì)應(yīng)的觀測(cè)圖像。這樣我們就能像玩游戲一樣,通過控制相機(jī),實(shí)現(xiàn)對(duì)靜態(tài)場(chǎng)景的探索。

這個(gè)工作叫ViewCrafter,2024年10月公開,后來被PAMI接收。


方法上,我們借助重建能力:給定一張圖,先重建出一個(gè)粗糙的三維點(diǎn)云,形成場(chǎng)景的“骨架”。然后基于這個(gè)點(diǎn)云進(jìn)行漫游渲染,渲染結(jié)果雖然粗糙(可能有空洞),但視角變換關(guān)系非常準(zhǔn)確。

這些空洞正好由擅長(zhǎng)內(nèi)容生成的視頻擴(kuò)散模型來填補(bǔ)。我們將渲染的點(diǎn)云作為條件,控制視頻擴(kuò)散過程,從而生成既逼真又符合指定視角變換的圖像。

更重要的是,生成的新圖像可以反過來用于多視角重建,更新點(diǎn)云,從而實(shí)現(xiàn)迭代式、更大范圍的場(chǎng)景探索。這其實(shí)與世界模型中的記憶機(jī)制相關(guān):三維點(diǎn)云作為一種記憶,通過新探索內(nèi)容更新點(diǎn)云,再?gòu)闹胁樵冃畔⒆鳛闂l件,支持更遠(yuǎn)的探索。


我們展示一些結(jié)果:左側(cè)是指定的相機(jī)軌跡,右側(cè)是從單圖出發(fā)生成的探索結(jié)果。

效果還不錯(cuò),不僅支持單圖輸入,也支持稀疏多視圖輸入。從兩張圖出發(fā)的話,探索范圍會(huì)大很多。探索得到的多視圖圖像可以直接用于重建三維高斯?jié)姙R模型(3D Gaussian Splatting),實(shí)現(xiàn)實(shí)時(shí)渲染。


剛才講的是靜態(tài)場(chǎng)景探索,接下來是如何對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行探索。這是我們發(fā)表在ICCV 2025上的Oral工作TrajectoryCrafter。


核心思想是:用戶輸入一段單目視頻(它是四維世界的二維投影),模型應(yīng)允許用戶對(duì)其背后的四維世界進(jìn)行探索,即同時(shí)指定相機(jī)位姿和時(shí)間點(diǎn),生成對(duì)應(yīng)的動(dòng)態(tài)觀測(cè)。

方法延續(xù)之前的思路:核心是如何將重建的三維信息注入生成過程。輸入是一段視頻,我們通過視頻重建方法將其提升為三維空間中的動(dòng)態(tài)點(diǎn)云。然后像ViewCrafter一樣,基于指定位姿渲染點(diǎn)云。

不同之處在于,動(dòng)態(tài)探索對(duì)生成質(zhì)量要求更高,因此我們除了注入點(diǎn)云信息外,還將原始視頻(質(zhì)量最高)也作為條件注入擴(kuò)散模型,從而在精準(zhǔn)控制相機(jī)位姿的同時(shí)實(shí)現(xiàn)高質(zhì)量生成。



結(jié)果展示:左側(cè)是原始動(dòng)態(tài)視頻,右側(cè)是依據(jù)新指定相機(jī)位姿生成的動(dòng)態(tài)視頻。例如左上角第一個(gè)例子,甚至可以繞到人物背后觀看,光影反射效果也不錯(cuò)。



模型還能實(shí)現(xiàn)“子彈時(shí)間”特效:固定時(shí)間點(diǎn),旋轉(zhuǎn)相機(jī)。另外也能模擬“Dolly Zoom”特效(電影常用手法:邊推移相機(jī)邊調(diào)整焦距,使主體大小不變而背景變化),我們的模型可以從原始固定相機(jī)視頻出發(fā),同時(shí)修改相機(jī)內(nèi)參和外參,復(fù)現(xiàn)這種效果。

以上兩個(gè)工作分別實(shí)現(xiàn)了對(duì)靜態(tài)和動(dòng)態(tài)場(chǎng)景的探索。

對(duì)于世界模型,除了探索,下一步是實(shí)現(xiàn)交互:如何對(duì)場(chǎng)景中多個(gè)物體進(jìn)行交互?這是我們最新工作VerseCrafter(即將公開)。


仍從單圖輸入出發(fā),重建幾何信息,并將可移動(dòng)物體用高斯球標(biāo)注出來。相機(jī)和物體軌跡可在Blender中編輯:用戶可以交互式設(shè)計(jì)相機(jī)和每個(gè)物體的運(yùn)動(dòng)軌跡。然后,我們的模型能根據(jù)這些交互結(jié)果,生成逼真的觀測(cè)視頻。也就是說,相機(jī)和所有物體的運(yùn)動(dòng)都是可交互的。


實(shí)現(xiàn)方案上,我們構(gòu)建了一個(gè)“4D控制視頻世界模型”:從單圖出發(fā),基于重建和分割方法,重建出部分三維場(chǎng)景,并標(biāo)注可移動(dòng)物體。這樣就在Blender中得到一個(gè)粗糙的、可交互的三維(或四維)世界。雖然粗糙,但易于交互。交互結(jié)果作為條件,輸入到我們?cè)O(shè)計(jì)的視頻擴(kuò)散模型中,生成最終逼真的觀測(cè)。


這個(gè)方案的關(guān)鍵在于如何構(gòu)建訓(xùn)練數(shù)據(jù)。我們建立了一套完整的訓(xùn)練數(shù)據(jù)標(biāo)注流程,核心基于重建算法和視覺語言模型(VLM)進(jìn)行標(biāo)注與過濾。最終我們獲得了約35K個(gè)高質(zhì)量視頻片段的數(shù)據(jù)集。



基于這個(gè)模型,我們可以做很多事情:固定相機(jī)只移動(dòng)物體、固定物體只移動(dòng)相機(jī)、同時(shí)移動(dòng)相機(jī)和物體。我們對(duì)比了現(xiàn)有方案,很多方法只能處理特定類別(如僅限人體),而我們的方法在運(yùn)動(dòng)符合度和生成質(zhì)量上都有不錯(cuò)表現(xiàn)。我們還測(cè)試了多玩家聯(lián)機(jī)探索場(chǎng)景的能力:用兩個(gè)人各自拍攝的照片作為Player A和Player B的視角,讓他們?cè)谕粋€(gè)場(chǎng)景中同時(shí)探索與交互,模型能分別生成各自的視角視頻。


總結(jié)一下,今天主要關(guān)注第二方面——三維感知視頻世界模型,但這部分非常依賴第一方面的開放世界三維重建技術(shù)(包括深度、點(diǎn)云、運(yùn)動(dòng)、法線等重建)。

在三維感知視頻世界模型方面,我們實(shí)現(xiàn)了靜態(tài)場(chǎng)景探索模型、動(dòng)態(tài)場(chǎng)景探索模型,以及支持在四維場(chǎng)景中同時(shí)進(jìn)行探索與交互的模型。

這就是今天想和大家分享的內(nèi)容,謝謝。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
突然變道飛往東京!這場(chǎng)出逃把自由焊在了路上。

突然變道飛往東京!這場(chǎng)出逃把自由焊在了路上。

百態(tài)人間
2025-12-23 16:41:18
美日對(duì)中國(guó)最恐懼的是海南封關(guān),如果成功,推廣全國(guó)就天下無敵了

美日對(duì)中國(guó)最恐懼的是海南封關(guān),如果成功,推廣全國(guó)就天下無敵了

我心縱橫天地間
2025-12-24 16:47:33
陳慧琳素顏逛美國(guó)超市,臉好方,腮幫子鼓起來了,牙齒不整齊!

陳慧琳素顏逛美國(guó)超市,臉好方,腮幫子鼓起來了,牙齒不整齊!

庭小娛
2025-12-21 14:51:03
令人捉摸不透!湖人后場(chǎng)大閘在這場(chǎng)慘敗中又找到了自己的手感?

令人捉摸不透!湖人后場(chǎng)大閘在這場(chǎng)慘敗中又找到了自己的手感?

稻谷與小麥
2025-12-24 19:41:45
俄羅斯最高法院:批評(píng)政治人物不構(gòu)成犯罪

俄羅斯最高法院:批評(píng)政治人物不構(gòu)成犯罪

桂系007
2025-12-23 23:13:39
香港網(wǎng)友談金信煜被解約:他拒絕在人工草訓(xùn)練,而且拿著高薪

香港網(wǎng)友談金信煜被解約:他拒絕在人工草訓(xùn)練,而且拿著高薪

懂球帝
2025-12-24 12:26:29
2025年國(guó)家杰青最新名單

2025年國(guó)家杰青最新名單

高分子科學(xué)前沿
2025-12-24 10:26:21
當(dāng)你隔壁是個(gè)超級(jí)大國(guó):東南亞人眼中的中國(guó),到底是什么樣的?

當(dāng)你隔壁是個(gè)超級(jí)大國(guó):東南亞人眼中的中國(guó),到底是什么樣的?

斜煙風(fēng)起雨未
2025-12-24 13:32:53
6000 萬歐水貨?阿爾特塔暴怒有理!球迷狂噴:恥辱級(jí)表現(xiàn)

6000 萬歐水貨?阿爾特塔暴怒有理!球迷狂噴:恥辱級(jí)表現(xiàn)

瀾歸序
2025-12-24 09:50:42
國(guó)家一級(jí)演員 男高音歌唱家 歌劇表演藝術(shù)家 戴玉強(qiáng)

國(guó)家一級(jí)演員 男高音歌唱家 歌劇表演藝術(shù)家 戴玉強(qiáng)

韓馳
2025-12-24 17:07:11
笑死!全網(wǎng)最炸裂阿貝貝合集,家長(zhǎng):我真的要瘋了

笑死!全網(wǎng)最炸裂阿貝貝合集,家長(zhǎng):我真的要瘋了

夜深愛雜談
2025-12-03 20:26:34
確診了!右肩靜脈血栓!火箭扔掉的NBA首輪秀

確診了!右肩靜脈血栓!火箭扔掉的NBA首輪秀

籃球?qū)崙?zhàn)寶典
2025-12-24 07:19:33
故事:山東一男子救下5只黃鼠狼后,身上頻發(fā)怪事,至今都難以解釋

故事:山東一男子救下5只黃鼠狼后,身上頻發(fā)怪事,至今都難以解釋

清茶淺談
2024-12-04 14:29:09
當(dāng)法官宣判死刑,殺了南大女研究生哥哥的兇手在法庭上瘋狂嘶吼

當(dāng)法官宣判死刑,殺了南大女研究生哥哥的兇手在法庭上瘋狂嘶吼

詩意世界
2025-12-14 11:25:24
歷史驚人的相似:白人與中國(guó)三次生死較量,最終都以“滅族”收?qǐng)?>
    </a>
        <h3>
      <a href=南宗歷史
2025-12-23 14:46:20
12月24日俄烏最新:新的里程牌

12月24日俄烏最新:新的里程牌

西樓飲月
2025-12-24 18:05:03
楊瀚森替補(bǔ)4+2+2開拓者惜敗魔術(shù),阿夫迪亞25+6+8錯(cuò)失扳平三分

楊瀚森替補(bǔ)4+2+2開拓者惜敗魔術(shù),阿夫迪亞25+6+8錯(cuò)失扳平三分

湖人崛起
2025-12-24 13:26:59
北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

小哥很OK
2025-12-12 14:33:01
人口告別世界第一?二孩催生無效后,國(guó)家終于向住房出手了

人口告別世界第一?二孩催生無效后,國(guó)家終于向住房出手了

奇思妙想草葉君
2025-12-23 22:58:43
特朗普下令,要把中企一鍋端,美禁令生效前,中國(guó)取消10萬噸訂單

特朗普下令,要把中企一鍋端,美禁令生效前,中國(guó)取消10萬噸訂單

井普椿的獨(dú)白
2025-12-24 19:29:12
2025-12-24 20:12:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

果農(nóng)再次開啟"賽博助農(nóng)":在"魔獸世界"賣3.5萬斤橙子

頭條要聞

果農(nóng)再次開啟"賽博助農(nóng)":在"魔獸世界"賣3.5萬斤橙子

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

重磅!北京市優(yōu)化調(diào)整住房限購(gòu)政策

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

教育
本地
數(shù)碼
親子
公開課

教育要聞

成都取消高一、高二期末統(tǒng)考,期末不讓考了?家長(zhǎng)炸鍋了

本地新聞

云游安徽|一川江水潤(rùn)安慶,一塔一戲一城史

數(shù)碼要聞

2025電視換新不踩坑:2000元檔選華為Vision智慧屏5 SE

親子要聞

過度精細(xì)喂養(yǎng)有多可怕?網(wǎng)友:該放手時(shí)就放手,適當(dāng)粗糙沒毛病

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版