国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊 ARC Lab 胡文博:“如何實(shí)現(xiàn)三維感知的視頻世界模型,這非常值得探索”|GAIR 2025

0
分享至

作者丨齊鋮湧

編輯丨馬曉寧

世界模型的研究尚處于起步階段,共識(shí)尚未形成,有關(guān)該領(lǐng)域的研究形成了無(wú)數(shù)支流,過(guò)去一年多,Sora為代表的視頻生成模型,成為繼大語(yǔ)言模型(LLM)后新的學(xué)術(shù)熱點(diǎn)。本質(zhì)上講,當(dāng)下火爆的視頻生成模型,是一種世界模型,其核心目的是生成一段逼真、連貫的視頻。

要達(dá)到這樣的目的,模型必須在一定程度上理解這個(gè)世界的運(yùn)作方式(比如水往低處流、物體碰撞后的運(yùn)動(dòng)、人的合理動(dòng)作等)。

胡文博正是世界模型研究領(lǐng)域近兩年的絕對(duì)新銳。

在剛剛結(jié)束的 GAIR 2025,騰訊ARC Lab高級(jí)研究員胡文博,在雷峰網(wǎng)舉辦的GAIR大會(huì)現(xiàn)場(chǎng)帶來(lái)了非常有見(jiàn)解的演講:《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models )。

以下是具體內(nèi)容,AI科技評(píng)論做了不改變?cè)獾木庉嫼驼怼?/p>

感謝邀請(qǐng)和介紹,我今天分享的題目是《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models)。

之所以講這個(gè),是因?yàn)镾ora在2024年初出來(lái)時(shí),給大家?guī)?lái)很大震撼。比如它生成的視頻,雖然看起來(lái)是二維的,但已經(jīng)具備一定的3D一致性。不過(guò)從我們做三維重建的角度看,比如嘗試把它重建出來(lái),會(huì)發(fā)現(xiàn)墻面與地面的垂直性、平整度等都還不夠好。


基于這個(gè)觀察,領(lǐng)域內(nèi)認(rèn)為視頻擴(kuò)散模型有潛力作為世界模型的一種表示方式,但視頻本身仍是二維的,而我們的世界是三維的。

所以我們思考:如何實(shí)現(xiàn)一個(gè)具備三維感知能力的視頻世界模型?

為了實(shí)現(xiàn)這種三維感知,我們主要做了兩方面工作,今天重點(diǎn)講第二方面。

第一方面是如何從二維觀測(cè)中重建三維信息,這部分和前面彭老師講的內(nèi)容比較接近。第二方面是如何將重建得到的三維信息融入到生成過(guò)程中,使二維空間的視頻擴(kuò)散模型具備三維感知特性。

我先簡(jiǎn)單介紹一下第一方面的工作:如何在開(kāi)放世界環(huán)境中,從二維視頻中重建三維信息。

我們做了一系列工作,例如video depth (DepthCrafter)(2024年10月掛在arXiv上,現(xiàn)在效果可能已經(jīng)不是最新的了)。

除了video depth (DepthCrafter),我們進(jìn)一步思考:既然video depth還是2.5維的信息,能否直接從視頻中估計(jì)點(diǎn)云。這就是GeometryCrafter,有了點(diǎn)云,我們就能做類似4D重建的任務(wù),把各幀融合到同一坐標(biāo)系中。

再進(jìn)一步,我們還估計(jì)了運(yùn)動(dòng)信息,這部分我們最新的工作叫Holi4D,可以從單目視頻中重建運(yùn)動(dòng)。最后一塊是表面法線估計(jì)NormalCrafter,與前幾項(xiàng)相比,法線包含更多高頻細(xì)節(jié),因?yàn)樗俏恢玫囊浑A偏導(dǎo)數(shù)?;诜ň€我們可以做重打光、材質(zhì)編輯等任務(wù)。


總的來(lái)說(shuō),目前從任意開(kāi)放世界二維視頻中重建三維信息的技術(shù)已經(jīng)發(fā)展得不錯(cuò),我們能得到比較好的三維重建結(jié)果了。

接下來(lái)重點(diǎn)講第二方面:如何將三維信息用在視頻擴(kuò)散過(guò)程中,使模型具備三維感知能力。我們首先探索了靜態(tài)場(chǎng)景下的生成任務(wù):輸入一張單圖,希望模型能根據(jù)任意指定的相機(jī)位姿,生成對(duì)應(yīng)的觀測(cè)圖像。這樣我們就能像玩游戲一樣,通過(guò)控制相機(jī),實(shí)現(xiàn)對(duì)靜態(tài)場(chǎng)景的探索。

這個(gè)工作叫ViewCrafter,2024年10月公開(kāi),后來(lái)被PAMI接收。方法上,我們借助重建能力:給定一張圖,先重建出一個(gè)粗糙的三維點(diǎn)云,形成場(chǎng)景的“骨架”。然后基于這個(gè)點(diǎn)云進(jìn)行漫游渲染,渲染結(jié)果雖然粗糙(可能有空洞),但視角變換關(guān)系非常準(zhǔn)確。(雷峰網(wǎng))

這些空洞正好由擅長(zhǎng)內(nèi)容生成的視頻擴(kuò)散模型來(lái)填補(bǔ)。我們將渲染的點(diǎn)云作為條件,控制視頻擴(kuò)散過(guò)程,從而生成既逼真又符合指定視角變換的圖像。

更重要的是,生成的新圖像可以反過(guò)來(lái)用于多視角重建,更新點(diǎn)云,從而實(shí)現(xiàn)迭代式、更大范圍的場(chǎng)景探索。這其實(shí)與世界模型中的記憶機(jī)制相關(guān):三維點(diǎn)云作為一種記憶,通過(guò)新探索內(nèi)容更新點(diǎn)云,再中查詢信息作為條件,支持更遠(yuǎn)的探索。


我們展示一些結(jié)果:左側(cè)是指定的相機(jī)軌跡,右側(cè)是從單圖出發(fā)生成的探索結(jié)果。

效果還不錯(cuò),不僅支持單圖輸入,也支持稀疏多視圖輸入。從兩張圖出發(fā)的話,探索范圍會(huì)大很多。探索得到的多視圖圖像可以直接用于重建三維高斯?jié)姙R模型(3D Gaussian Splatting),實(shí)現(xiàn)實(shí)時(shí)渲染。


剛才講的是靜態(tài)場(chǎng)景探索,接下來(lái)是如何對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行探索。這是我們發(fā)表在ICCV 2025上的Oral工作TrajectoryCrafter。

核心思想是:用戶輸入一段單目視頻(它是四維世界的二維投影),模型應(yīng)允許用戶對(duì)其背后的四維世界進(jìn)行探索,即同時(shí)指定相機(jī)位姿和時(shí)間點(diǎn),生成對(duì)應(yīng)的動(dòng)態(tài)觀測(cè)。

方法延續(xù)之前的思路:核心是如何將重建的三維信息注入生成過(guò)程。輸入是一段視頻,我們通過(guò)視頻重建方法將其提升為三維空間中的動(dòng)態(tài)點(diǎn)云。然后像ViewCrafter一樣,基于指定位姿渲染點(diǎn)云。

不同之處在于,動(dòng)態(tài)探索對(duì)生成質(zhì)量要求更高,因此我們除了注入點(diǎn)云信息外,還將原始視頻(質(zhì)量最高)也作為條件注入擴(kuò)散模型,從而在精準(zhǔn)控制相機(jī)位姿的同時(shí)實(shí)現(xiàn)高質(zhì)量生成。

結(jié)果展示:左側(cè)是原始動(dòng)態(tài)視頻,右側(cè)是依據(jù)新指定相機(jī)位姿生成的動(dòng)態(tài)視頻。例如左上角第一個(gè)例子,甚至可以繞到人物背后觀看,光影反射效果也不錯(cuò)。(雷峰網(wǎng))

模型還能實(shí)現(xiàn)“子彈時(shí)間”特效:固定時(shí)間點(diǎn),旋轉(zhuǎn)相機(jī)。另外也能模擬“Dolly Zoom”特效(電影常用手法:邊推移相機(jī)邊調(diào)整焦距,使主體大小不變而背景變化),我們的模型可以從原始固定相機(jī)視頻出發(fā),同時(shí)修改相機(jī)內(nèi)參和外參,復(fù)現(xiàn)這種效果。

以上兩個(gè)工作分別實(shí)現(xiàn)了對(duì)靜態(tài)和動(dòng)態(tài)場(chǎng)景的探索。

對(duì)于世界模型,除了探索,下一步是實(shí)現(xiàn)交互:如何對(duì)場(chǎng)景中多個(gè)物體進(jìn)行交互?這是我們最新工作VerseCrafter(即將公開(kāi))。

仍從單圖輸入出發(fā),重建幾何信息,并將可移動(dòng)物體用高斯球標(biāo)注出來(lái)。相機(jī)和物體軌跡可在Blender中編輯:用戶可以交互式設(shè)計(jì)相機(jī)和每個(gè)物體的運(yùn)動(dòng)軌跡。然后,我們的模型能根據(jù)這些交互結(jié)果,生成逼真的觀測(cè)視頻。也就是說(shuō),相機(jī)和所有物體的運(yùn)動(dòng)都是可交互的。(雷峰網(wǎng))

實(shí)現(xiàn)方案上,我們構(gòu)建了一個(gè)“4D控制視頻世界模型”:從單圖出發(fā),基于重建和分割方法,重建出部分三維場(chǎng)景,并標(biāo)注可移動(dòng)物體。這樣就在Blender中得到一個(gè)粗糙的、可交互的三維(或四維)世界。雖然粗糙,但易于交互。交互結(jié)果作為條件,輸入到我們?cè)O(shè)計(jì)的視頻擴(kuò)散模型中,生成最終逼真的觀測(cè)。

這個(gè)方案的關(guān)鍵在于如何構(gòu)建訓(xùn)練數(shù)據(jù)。我們建立了一套完整的訓(xùn)練數(shù)據(jù)標(biāo)注流程,核心基于重建算法和視覺(jué)語(yǔ)言模型(VLM)進(jìn)行標(biāo)注與過(guò)濾。最終我們獲得了約35K個(gè)高質(zhì)量視頻片段的數(shù)據(jù)集。

基于這個(gè)模型,我們可以做很多事情:固定相機(jī)只移動(dòng)物體、固定物體只移動(dòng)相機(jī)、同時(shí)移動(dòng)相機(jī)和物體。我們對(duì)比了現(xiàn)有方案,很多方法只能處理特定類別(如僅限人體),而我們的方法在運(yùn)動(dòng)符合度和生成質(zhì)量上都有不錯(cuò)表現(xiàn)。我們還測(cè)試了多玩家聯(lián)機(jī)探索場(chǎng)景的能力:用兩個(gè)人各自拍攝的照片作為Player A和Player B的視角,讓他們?cè)谕粋€(gè)場(chǎng)景中同時(shí)探索與交互,模型能分別生成各自的視角視頻。

總結(jié)一下,今天主要關(guān)注第二方面——三維感知視頻世界模型,但這部分非常依賴第一方面的開(kāi)放世界三維重建技術(shù)(包括深度、點(diǎn)云、運(yùn)動(dòng)、法線等重建)。

在三維感知視頻世界模型方面,我們實(shí)現(xiàn)了靜態(tài)場(chǎng)景探索模型、動(dòng)態(tài)場(chǎng)景探索模型,以及支持在四維場(chǎng)景中同時(shí)進(jìn)行探索與交互的模型。

這就是今天想和大家分享的內(nèi)容,謝謝。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
7戰(zhàn)5敗后終破咒!20歲林詩(shī)棟逆轉(zhuǎn)張本,這才是國(guó)乒大旗模樣

7戰(zhàn)5敗后終破咒!20歲林詩(shī)棟逆轉(zhuǎn)張本,這才是國(guó)乒大旗模樣

阿晞體育
2025-12-11 12:18:08
遭中方譴責(zé)后,馬斯克將星鏈衛(wèi)星降軌70公里,直逼天宮空間站

遭中方譴責(zé)后,馬斯克將星鏈衛(wèi)星降軌70公里,直逼天宮空間站

小莜讀史
2026-01-08 12:04:38
不只是臺(tái)灣!日本必須歸還的中國(guó)領(lǐng)土,遠(yuǎn)比你想象的多

不只是臺(tái)灣!日本必須歸還的中國(guó)領(lǐng)土,遠(yuǎn)比你想象的多

優(yōu)趣紀(jì)史記
2026-01-09 23:14:17
算分!U23國(guó)足VS澳大利亞,開(kāi)球時(shí)間確定,王鈺棟和李昊影響出線

算分!U23國(guó)足VS澳大利亞,開(kāi)球時(shí)間確定,王鈺棟和李昊影響出線

體育大學(xué)僧
2026-01-09 12:31:13
《尋秦記》火爆,《大時(shí)代》被提上日程,我感慨:別拍!會(huì)虧錢的

《尋秦記》火爆,《大時(shí)代》被提上日程,我感慨:別拍!會(huì)虧錢的

電影票房預(yù)告片
2026-01-10 00:01:42
一夜間,特朗普連發(fā)五道金牌,把“中美博弈”的遮羞布撕得粉碎!

一夜間,特朗普連發(fā)五道金牌,把“中美博弈”的遮羞布撕得粉碎!

百態(tài)人間
2026-01-09 17:11:06
廣東媽媽入住月子中心,入住4天,剛出生9天的寶寶就不幸離世?已介入調(diào)查!

廣東媽媽入住月子中心,入住4天,剛出生9天的寶寶就不幸離世?已介入調(diào)查!

廣東活動(dòng)
2026-01-09 12:12:34
“洗碗機(jī)女主”沒(méi)有公主命,卻有公主?。?>
    </a>
        <h3>
      <a href=“洗碗機(jī)女主”沒(méi)有公主命,卻有公主??! 西樓知趣雜談
2026-01-09 22:36:12
CBA最新排名!滬浙粵占前3,晉遼3連勝止頹勢(shì),山東5連勝?gòu)?qiáng)勢(shì)覺(jué)醒

CBA最新排名!滬浙粵占前3,晉遼3連勝止頹勢(shì),山東5連勝?gòu)?qiáng)勢(shì)覺(jué)醒

細(xì)話籃球
2026-01-10 02:42:54
WTT多哈冠軍賽:女單8強(qiáng)誕生!國(guó)乒4勝1負(fù),再戰(zhàn)張本美和

WTT多哈冠軍賽:女單8強(qiáng)誕生!國(guó)乒4勝1負(fù),再戰(zhàn)張本美和

郝小小看體育
2026-01-10 03:08:03
悠仁親王首秀無(wú)人問(wèn)津,愛(ài)子公主被“擠角落”,宮內(nèi)廳解釋難服眾

悠仁親王首秀無(wú)人問(wèn)津,愛(ài)子公主被“擠角落”,宮內(nèi)廳解釋難服眾

世界王室那些事
2026-01-10 05:15:38
黨史上最復(fù)雜離奇的懸案,毛主席被困擾18年,其中究竟有何隱情?

黨史上最復(fù)雜離奇的懸案,毛主席被困擾18年,其中究竟有何隱情?

貓眼觀史
2024-11-19 09:10:02
油價(jià)跌了!1月10日調(diào)價(jià)后汽柴油最新價(jià)格,今日油價(jià)每升跌多少?

油價(jià)跌了!1月10日調(diào)價(jià)后汽柴油最新價(jià)格,今日油價(jià)每升跌多少?

娛樂(lè)圈的筆娛君
2026-01-10 06:02:11
26年央視春晚導(dǎo)演官宣彩排!小品領(lǐng)軍人物確認(rèn)回歸,終于等到這天

26年央視春晚導(dǎo)演官宣彩排!小品領(lǐng)軍人物確認(rèn)回歸,終于等到這天

瓜汁橘長(zhǎng)Dr
2026-01-08 10:51:52
黃磊19歲女兒從美國(guó)回來(lái)了,黃多多在家陪孫莉,顏值已經(jīng)超過(guò)媽媽

黃磊19歲女兒從美國(guó)回來(lái)了,黃多多在家陪孫莉,顏值已經(jīng)超過(guò)媽媽

鋒哥與八卦哥
2026-01-09 16:27:11
最新視頻還原致命瞬間:明州ICE探員開(kāi)槍前發(fā)生了什么?

最新視頻還原致命瞬間:明州ICE探員開(kāi)槍前發(fā)生了什么?

華人生活網(wǎng)
2026-01-10 06:05:22
1983年南陽(yáng)慘?。旱弥龃蛩赖那嗄晟矸莺?,局長(zhǎng)槍殺女婿后自盡

1983年南陽(yáng)慘?。旱弥龃蛩赖那嗄晟矸莺?,局長(zhǎng)槍殺女婿后自盡

八哥講故事
2024-01-16 00:11:39
經(jīng)紀(jì)人:詹姆斯的上限是他自己如今的成就,下限是巔峰卡爾-馬龍

經(jīng)紀(jì)人:詹姆斯的上限是他自己如今的成就,下限是巔峰卡爾-馬龍

懂球帝
2026-01-09 22:46:02
這下麻煩大了!不到48小時(shí),閆學(xué)晶再迎2大噩耗,何慶魁也被牽連

這下麻煩大了!不到48小時(shí),閆學(xué)晶再迎2大噩耗,何慶魁也被牽連

阿纂看事
2026-01-07 12:16:27
探訪景德鎮(zhèn)一家三口被撞案受害者家:擺有4張全家福,3張是AI照僅1張是真的

探訪景德鎮(zhèn)一家三口被撞案受害者家:擺有4張全家福,3張是AI照僅1張是真的

上游新聞
2026-01-09 11:36:11
2026-01-10 07:16:49
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來(lái)!
68315文章數(shù) 656051關(guān)注度
往期回顧 全部

科技要聞

市場(chǎng)偏愛(ài)MiniMax:開(kāi)盤(pán)漲42%,市值超700億

頭條要聞

特朗普:美扣押一艘離開(kāi)委內(nèi)瑞拉油輪 石油將出售

頭條要聞

特朗普:美扣押一艘離開(kāi)委內(nèi)瑞拉油輪 石油將出售

體育要聞

金元時(shí)代最后的外援,來(lái)中國(guó)8年了

娛樂(lè)要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來(lái)是加速還是起跳?

態(tài)度原創(chuàng)

旅游
游戲
藝術(shù)
房產(chǎn)
公開(kāi)課

旅游要聞

想看霧凇別瞎跑!吉林阿什哈達(dá)這 5 個(gè)觀賞秘訣,幫你避開(kāi)空跑遺憾

怎么會(huì)有游戲上來(lái)就說(shuō)自己的新服活不過(guò)10天???"/> 主站 商城 論壇 自運(yùn)營(yíng) 登錄 注冊(cè) 怎么會(huì)有游戲上來(lái)就說(shuō)自己的新服活不過(guò)10天??? 廉頗 202...

藝術(shù)要聞

15位著名畫(huà)家的女性之美:哪一張觸動(dòng)了你的心?

房產(chǎn)要聞

66萬(wàn)方!4755套!三亞巨量房源正瘋狂砸出!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版