国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

VerseCrafter:給視頻世界模型裝上4D方向盤,精準運鏡控物

0
分享至



視頻世界模型領域又迎來了新的突破!

復旦大學與騰訊 PCG ARC Lab 等機構的研究者們提出了 VerseCrafter,這是一個通過顯式 4D 幾何控制(4D Geometric Control)實現的動態(tài)逼真視頻世界模型。它不僅能像「導演」一樣精準控制運鏡,還能同時指揮場景中多個物體的 3D 運動軌跡,為視頻生成引入了物理世界維度。

自 Sora 問世以來,視頻世界模型(Video World Models)成為了 AI 領域最熱門的研究方向之一。我們希望 AI 不僅能生成視頻,更能理解和模擬真實的物理世界。然而,現有的視頻模型往往面臨一個核心困境:視頻是在 2D 平面上播放的,但真實世界是 4D(3D 空間 + 時間)的。

現有的方法(如 Voyager、Yume 等)雖然引入了 3D 幾何結構來輔助生成,但往往難以在一個統(tǒng)一的框架下同時實現精準的相機控制和多物體運動控制。要么是控制了鏡頭但物體不動(靜態(tài)場景),要么是控制了物體但鏡頭受限,或者依賴于剛性的 3D 邊界框和人的參數化模型(如 SMPL),難以應對復雜的真實世界物體。

為了打破這一僵局,來自復旦大學、上海創(chuàng)智學院、香港大學和騰訊 PCG ARC Lab 的研究團隊提出了 VerseCrafter。



  • 論文地址: https://arxiv.org/pdf/2601.05138
  • 項目主頁: https://sixiaozheng.github.io/VerseCrafter_page/
  • 代碼倉庫: https://github.com/TencentARC/VerseCrafter

VerseCrafter 的核心理念在于:用一個統(tǒng)一的 4D 幾何世界狀態(tài)(4D Geometric World State)以此驅動視頻生成。它利用靜態(tài)背景點云和每個物體的 3D 高斯軌跡,實現了對相機和物體運動的解耦與協(xié)同控制。

如何構建 4D 可控的世界模型?

VerseCrafter 的魔法源于其獨特的4D 幾何控制(4D Geometric Control) 表示和輕量級的 GeoAdapter 架構。

1. 統(tǒng)一的 4D 幾何控制表示

傳統(tǒng)的控制信號通常是 2D 的(如光流、軌跡點、掩碼),缺乏 3D 空間的一致性。VerseCrafter 創(chuàng)新性地提出了一種基于3D 高斯(3D Gaussians)的表示方法:

  • 背景:使用靜態(tài)背景點云(Background Point Cloud)來表示環(huán)境幾何。
  • 物體:使用每物體 3D 高斯軌跡(Per-object 3D Gaussian Trajectories)來編碼物體運動。



VerseCrafter 的框架圖。通過將 4D 幾何控制渲染為多通道圖,并通過 GeoAdapter 注入到凍結的 Wan2.1 主干網絡中。

相比于剛性的 3D 邊界框,3D 高斯軌跡提供了一種軟性、靈活且類別無關的表示方式。它的均值定義了運動路徑,協(xié)方差則捕捉了物體隨時間變化的形狀和方向。這意味著無論是汽車、行人還是動物,VerseCrafter 都能以概率分布的形式描述其在 3D 空間中的占據情況。

2. 凍結的 Wan2.1 主干 + GeoAdapter

為了保證視頻生成的畫質和真實感,VerseCrafter 并沒有從頭訓練一個大模型,而是巧妙地利用了強大的開源視頻生成模型Wan2.1-T2V-14B作為凍結的視頻先驗(Frozen Video Prior)。

研究團隊設計了一個輕量級的 GeoAdapter:

  1. 首先將 4D 幾何控制信息(背景 RGB / 深度、物體高斯軌跡 RGB / 深度、控制掩碼)渲染為 2D 序列圖;
  2. 利用 GeoAdapter 對這些幾何信息進行編碼;
  3. 將其作為殘差注入到 Wan2.1 的特定 DiT 模塊中。

這種設計既保留了 Wan2.1 強大的生成能力,又以極小的代價引入了精確的 4D 控制。

數據集:VerseControl4D

訓練這樣一個 4D 世界模型,最大的瓶頸在于數據 —— 我們去哪里找大量帶有精確 4D 標注(相機參數 + 多物體 3D 軌跡)的真實世界視頻?

為了解決這個問題,團隊構建了VerseControl4D 數據集。



VerseControl4D 數據集的自動化構建流程

  • 數據源:基于 Sekai-Real-HQ 和 SpatialVID-HQ 等高質量視頻數據集;
  • 自動化標注引擎:結合了 Qwen2.5-VL-72B(生成描述)、Grounded-SAM2(物體分割)、MegaSaM(深度和相機位姿估計)等最先進的工具,自動從視頻中提取 4D 幾何信息;
  • 規(guī)模:包含35,000 個訓練視頻片段,涵蓋了豐富的動態(tài)和靜態(tài)場景。

這一數據集的構建,填補了真實世界 4D 幾何控制數據的空白,為模型的訓練提供了堅實的基礎。

實驗結果:SOTA 級的控制力

實驗表明,VerseCrafter 在各項指標上均超越了現有的 SOTA 方法(如 Perception-as-Control、 Yume、 Uni3C 等)。

1. 動態(tài)場景聯(lián)合控制對比

在同時控制相機運鏡和物體運動的復雜場景下,VerseCrafter 展現出了驚人的穩(wěn)定性。


https://mp.weixin.qq.com/s/P2MBsslV2i1Q9v8N7zm_bQ

動態(tài)場景對比。第一行從左至右:相機軌跡、GT、Perception-as-Control、Yume,第二行從左到右:Uni3C(第 1,2 列)、VerseCrafter(第 3,4 列)。可以看到 VerseCrafter(右下)的物體運動和背景穩(wěn)定性最好。

從對比視頻中可以看出:

  • Perception-as-Control生成的幀質量較低,運鏡不準。
  • Yume雖然能大致遵循文本描述的運動,但缺乏精確的相機控制。
  • Uni3C僅限于單人體運動控制。
  • VerseCrafter能夠精確地讓物體沿著預設的 3D 高斯軌跡移動,同時完美執(zhí)行相機運鏡,且背景保持幾何一致。

2. 靜態(tài)場景運鏡對比

即使在沒有移動物體的靜態(tài)場景中,作為單純的「場景漫游」工具,VerseCrafter 的表現也優(yōu)于專門的 ViewCrafter 和 Voyager 等模型。


https://mp.weixin.qq.com/s/P2MBsslV2i1Q9v8N7zm_bQ

靜態(tài)場景運鏡對比。第一行從左至右:相機軌跡、GT、ViewCrafter,第二行從左到右:Voyager、FlashWorld、VerseCrafter。VerseCrafter 在大幅度運鏡下依然保持了建筑結構的筆直和紋理的清晰。

3. 多視角一致性(Multi-Player View)

得益于統(tǒng)一的 4D 世界坐標系,VerseCrafter 還支持多玩家視角(Multi-Player View)生成。對于同一個動態(tài)事件,可以從完全不同的兩個視角分別生成視頻,兩者在時間、空間和物體動作上保持高度一致。


https://mp.weixin.qq.com/s/P2MBsslV2i1Q9v8N7zm_bQ

兩者在同一時間軸上展現了完全一致的世界動態(tài)。

總結

VerseCrafter 的出現,標志著視頻生成向可控 4D 世界模擬邁出了重要一步。通過將顯式的 3D 幾何先驗(點云與高斯)與強大的 2D 視頻生成模型(Wan2.1)相結合,它不僅解決了復雜場景下的控制難題,也為游戲制作、電影預演和具身智能模擬提供了新的可能性。

目前,項目代碼與模型權重均已開源,感興趣的讀者可以前往項目主頁體驗。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我國歷史上規(guī)模最大的“嬰兒潮一代”將全面進入老年期。

我國歷史上規(guī)模最大的“嬰兒潮一代”將全面進入老年期。

歲月有情1314
2026-01-19 10:16:40
投資銅條1公斤280元!再也不敢叫“破銅爛鐵”…

投資銅條1公斤280元!再也不敢叫“破銅爛鐵”…

北京商報
2026-01-19 13:36:02
央視怒批,人民日報點名封殺,這5位目無法紀的大網紅,徹底涼涼

央視怒批,人民日報點名封殺,這5位目無法紀的大網紅,徹底涼涼

一娛三分地
2025-12-04 17:00:33
飯局后,客人說“你破費了”,低情商的人說:“不客氣,沒多少錢”,高情商的人都這樣回答!

飯局后,客人說“你破費了”,低情商的人說:“不客氣,沒多少錢”,高情商的人都這樣回答!

每日一首古詩詞
2026-01-19 12:14:22
穿身制服就能進家里查?下月起,缺了“這兩條”,門都懶得開!

穿身制服就能進家里查?下月起,缺了“這兩條”,門都懶得開!

今朝牛馬
2026-01-19 14:24:54
中國要求俄羅斯支付油輪滯期費用

中國要求俄羅斯支付油輪滯期費用

老馬拉車莫少裝
2026-01-19 01:29:08
廣州農商銀行原行長易雪飛案將于近日宣判,部分調查細節(jié)首次披露

廣州農商銀行原行長易雪飛案將于近日宣判,部分調查細節(jié)首次披露

湘財Plus
2026-01-19 10:24:51
眼含熱淚領獎!官方:卜拉欣獲得本屆非洲杯金靴獎

眼含熱淚領獎!官方:卜拉欣獲得本屆非洲杯金靴獎

林子說事
2026-01-19 09:09:54
譴責伊朗,便是白左敘事邏輯的終極崩塌

譴責伊朗,便是白左敘事邏輯的終極崩塌

壹家言
2026-01-18 11:42:28
胡啟能被注射死刑,過程曝光,臨刑前戴手銬流淚向妻子告別

胡啟能被注射死刑,過程曝光,臨刑前戴手銬流淚向妻子告別

磊子講史
2024-03-28 10:46:06
在性生活前,怎么判斷對象有無性???2個常見方法,了解保護自己

在性生活前,怎么判斷對象有無性???2個常見方法,了解保護自己

蜉蝣說
2026-01-18 19:32:57
鄭麗文好消息頻傳,盧秀燕打破僵局,侯友宜出手顯效,劉和然改口

鄭麗文好消息頻傳,盧秀燕打破僵局,侯友宜出手顯效,劉和然改口

愛下廚的阿釃
2026-01-19 15:47:05
天津市委原書記高德占同志逝世

天津市委原書記高德占同志逝世

新京報政事兒
2026-01-19 07:31:32
王自如所持150萬股權再被凍結

王自如所持150萬股權再被凍結

三言科技
2026-01-19 10:37:17
U23意外收獲,歐聯(lián)豪門本想考察日韓球員,卻發(fā)現了22歲國足新星

U23意外收獲,歐聯(lián)豪門本想考察日韓球員,卻發(fā)現了22歲國足新星

體壇風之子
2026-01-19 04:30:02
南非宣布進入“國家災難狀態(tài)”

南非宣布進入“國家災難狀態(tài)”

財聯(lián)社
2026-01-19 01:50:47
中國歷史上第一次,沒戰(zhàn)爭而出生率下滑,生存危機還是卷不動了?

中國歷史上第一次,沒戰(zhàn)爭而出生率下滑,生存危機還是卷不動了?

近史談
2025-12-09 20:30:50
拔出蘿卜帶出泥!李湘全網被禁關,王詩齡身份遭質疑,前夫已被抓

拔出蘿卜帶出泥!李湘全網被禁關,王詩齡身份遭質疑,前夫已被抓

一娛三分地
2026-01-16 19:22:29
實地探訪北京嫣然天使兒童醫(yī)院:醫(yī)院仍正常營業(yè),有民眾自發(fā)前來捐款

實地探訪北京嫣然天使兒童醫(yī)院:醫(yī)院仍正常營業(yè),有民眾自發(fā)前來捐款

上游新聞
2026-01-18 18:50:06
中方對蕭美琴下達封殺令,向歐洲發(fā)出照會后,加拿大議員取消竄臺

中方對蕭美琴下達封殺令,向歐洲發(fā)出照會后,加拿大議員取消竄臺

議紀史
2026-01-18 15:15:03
2026-01-19 17:59:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12147文章數 142546關注度
往期回顧 全部

科技要聞

這一仗必須贏!馬斯克死磕芯片"9個月一更"

頭條要聞

李亞鵬不享有嫣然醫(yī)院經濟回報

頭條要聞

李亞鵬不享有嫣然醫(yī)院經濟回報

體育要聞

錯失英超冠軍獎牌,他卻在德甲成為傳奇

娛樂要聞

離婚三年,孫怡董子健首次公開互動

財經要聞

公章爭奪 家族反目 雙星為何從頂端跌落?

汽車要聞

徐軍:沖擊百萬銷量,零跑一直很清醒

態(tài)度原創(chuàng)

本地
教育
旅游
時尚
手機

本地新聞

云游內蒙|黃沙與碧波撞色,烏海天生會“混搭”

教育要聞

部分年級期末考時間定了!廈門高一、高二年學校自主開展期末考試

旅游要聞

以游客體驗為中心,濟南野生動物世界活動創(chuàng)新與品牌影響力雙提升

伊姐周日熱推:電視劇《看得見風景的窗》;電視劇《春日狂熱》......

手機要聞

傳音海外推Infinix Note Edge手機:配置亮眼售價親民

無障礙瀏覽 進入關懷版