国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

李飛飛又被超越了?百萬「普通視頻」打造通用4D世界模型!

0
分享至


新智元報(bào)道

編輯:桃子 好困

【新智元導(dǎo)讀】當(dāng)全行業(yè)還在為昂貴的多視角數(shù)據(jù)焦頭爛額時(shí),中科院和CreateAI重磅推出NeoVerse,直接用百萬單目視頻砸開了4D世界模型的大門,讓AI真正學(xué)會(huì)了理解開放世界。

李飛飛團(tuán)隊(duì)提出的 Marble 極大地推動(dòng)了空間智能的邊界,但因其應(yīng)用場景仍局限于靜態(tài)環(huán)境,本質(zhì)上歸屬于 3D 世界模型的范疇。相比之下,4D 世界模型作為空間智能的演進(jìn)形態(tài),在數(shù)字內(nèi)容創(chuàng)作、游戲開發(fā)、自動(dòng)駕駛仿真及具身智能等領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。然而,當(dāng)前的 4D 世界模型訓(xùn)練方案正面臨嚴(yán)峻的擴(kuò)展性(Scalability)瓶頸。

模型的訓(xùn)練通常需要成對(duì)的視頻,即輸入給模型的原視角視頻,和作為監(jiān)督的時(shí)間同步的新視角目標(biāo)視頻。這種特殊的數(shù)據(jù)需求使得訓(xùn)練難以擴(kuò)展到海量的數(shù)據(jù)上。現(xiàn)有的研究往往受困于以下兩點(diǎn):

  • 多視角數(shù)據(jù)難擴(kuò)展現(xiàn)有的多視角數(shù)據(jù)通常是在靜態(tài)場景多次采樣,或者用多相機(jī)直接采集或者在仿真引擎渲染。前者無法擴(kuò)展到動(dòng)態(tài)場景,后者采集成本高,限制了訓(xùn)練數(shù)據(jù)的泛化性,難以觸及真實(shí)的開放場景。

  • 預(yù)處理效率低為了擺脫多視角依賴,一些研究嘗試通過離線方式對(duì)單目視頻構(gòu)建訓(xùn)練數(shù)據(jù)對(duì)。但是這會(huì)引入額外的計(jì)算和存儲(chǔ)負(fù)擔(dān),更讓訓(xùn)練變得異常僵化,無法靈活擴(kuò)展到互聯(lián)網(wǎng)級(jí)的海量數(shù)據(jù)上。

這些限制構(gòu)成了重重壁壘,將互聯(lián)網(wǎng)上最廉價(jià)、最豐富的資源——開放場景單目視頻數(shù)據(jù)阻隔在外。

為此,來自中科院自動(dòng)化研究所和 CreateAI 的研究者提出了NeoVerse。NeoVerse 徹底拋棄了昂貴的多視角數(shù)據(jù)和沉重的離線預(yù)處理,直接擁抱互聯(lián)網(wǎng)上的海量單目視頻,首次利用100萬段開放場景單目視頻進(jìn)行大規(guī)模訓(xùn)練。


項(xiàng)目主頁:https://neoverse-4d.github.io/

論文鏈接:https://arxiv.org/abs/2601.00393

前饋式4DGS:免位姿的高效重建底座


NeoVerse 是一種重建-生成混合式的架構(gòu),其首先重建出 4D 表示,然后將其用于生成模型的作為新視角的幾何引導(dǎo)。要實(shí)現(xiàn)訓(xùn)練管線的 scaling up,第一步必須解決「重建速度」問題。NeoVerse 提出了一種免姿態(tài)輸入(Pose-free)的前饋式 4DGS 模型。

與傳統(tǒng)針對(duì)專一場景迭代優(yōu)化的重建方法不同,NeoVerse 基于視覺幾何基礎(chǔ)變換器(VGGT)進(jìn)行動(dòng)態(tài)化和高斯化改進(jìn)。這種前饋式重建無需復(fù)雜離線預(yù)處理,一次預(yù)測即可在幾秒內(nèi)完成動(dòng)態(tài)場景 4D 建模。

雙向運(yùn)動(dòng)建模

NeoVerse 引入雙向運(yùn)動(dòng)編碼分支,通過交叉注意力機(jī)制分別提取前向 ( )和后向( )的運(yùn)動(dòng)特征,這種有利于精準(zhǔn)預(yù)測高斯基元的雙向線速度和角速度,實(shí)現(xiàn)相鄰時(shí)間戳的中間時(shí)刻高斯插值渲染。

具體來說,對(duì)于幀特征 ,NeoVerse 沿時(shí)間維度將其復(fù)制并切分成兩部分: 和 。其中前者作為查詢特征,后者作為鍵和值來獲取前向運(yùn)動(dòng)特征,反之則得到后向運(yùn)動(dòng)特征。

其中 和 分別是 的前向運(yùn)動(dòng)特征和 的后向運(yùn)動(dòng)特征,這些特征將用于預(yù)測高斯基元雙向運(yùn)動(dòng)的線速度和角速度。

4D高斯化

NeoVerse 定義的 4D 高斯基元如下

包括傳統(tǒng) 3D 高斯屬性:3D 位置 、不透明度 、朝向 、大小 和球諧系數(shù) 。雙向建模預(yù)測的前后向線速度 和角速度 。以及 4DGS 常用的生命周期 。

其中 3D 位置 是通過預(yù)測深度和相機(jī)參數(shù)將像素深度反向投影到 3D 空間獲得的,動(dòng)態(tài)屬性 由雙向運(yùn)動(dòng)特征預(yù)測,其他屬性則由幀特征預(yù)測。

秒級(jí)在線構(gòu)建數(shù)據(jù)對(duì):規(guī)?;?xùn)練4D世界模型

稀疏幀重建 × 密集幀渲染

為了進(jìn)一步加快重建速度從而提升訓(xùn)練效率,NeoVerse 提出「稀疏幀重建,密集幀渲染」策略,在少量稀疏關(guān)鍵幀輸入的條件下通過高斯場插值渲染出連續(xù)密集的視頻畫面。對(duì)于一個(gè)非關(guān)鍵幀時(shí)間戳 ,NeoVerse 將其最近的關(guān)鍵幀時(shí)間戳 下的高斯基元 轉(zhuǎn)移到 :

其中為了處理非均勻的關(guān)鍵幀間隔,NeoVerse 歸一化時(shí)間距離 來對(duì)不透明度的衰減進(jìn)行建模, 是 的左右兩個(gè)關(guān)鍵幀時(shí)間戳。生命周期 約束在 范圍內(nèi),當(dāng) 接近于1時(shí), 趨于1,表明 ,否則不透明度會(huì)快速衰減。

單目退化模擬


在單目視頻訓(xùn)練中,最大的挑戰(zhàn)是缺乏「新視角」的監(jiān)督信號(hào)。NeoVerse 并沒有嘗試尋找完美的數(shù)據(jù),而是反其道而行之,引入了單目退化模擬機(jī)制,在訓(xùn)練的每一次迭代中,NeoVerse 并不是簡單地從輸入視角渲染,而是刻意「模擬」了單目重建在不同視角下的退化規(guī)律,從而建立起一套自監(jiān)督訓(xùn)練范式:

  • 高斯剔除(Gaussian Culling)模擬相機(jī)移動(dòng)時(shí)可能出現(xiàn)的遮擋與視場丟失(圖(a))。通過剔除部分 4D 高斯基元,模型被迫在「信息不全」的情況下學(xué)習(xí)維持物體的幾何完整性。

  • 平均幾何濾波(Average Geometry Filter)除了遮擋之外,另一種典型的退化模式是深度不連續(xù)的飛行邊緣像素。NeoVerse 通過在采樣的新視角上渲染深度圖并作平均濾波,再根據(jù)濾波后的深度值調(diào)整每個(gè)高斯基元的位置。當(dāng)調(diào)整位置后的高斯重新渲染回原視角,則能模擬出現(xiàn)飛邊現(xiàn)象(圖(b))。當(dāng)增大平均濾波核半徑時(shí),則能模擬出更大范圍的空間畸變(圖(c))。


退化渲染引導(dǎo)

NeoVerse 通過控制分支將模擬的渲染結(jié)果(包含渲染圖像、深度、不透明度圖以及相機(jī)位姿的 Plüker 嵌入)注入視頻生成模型。在訓(xùn)練過程中,NeoVerse 僅訓(xùn)練控制分支,同時(shí)凍結(jié)視頻生成主干模型,這不僅可以提升訓(xùn)練效率,更重要的是,使其能夠支持步數(shù)蒸餾 LoRAs,以加速生成過程。

實(shí)驗(yàn)結(jié)果與分析


NeoVerse 通過 VBench 測評(píng)了共計(jì)400個(gè)測試樣例,無論是從重建和生成的運(yùn)行速度,還是從生成質(zhì)量上均顯著優(yōu)于現(xiàn)有方法。


即使在具有挑戰(zhàn)性場景上進(jìn)行大幅度視角運(yùn)動(dòng)控制。 NeoVerse 依然能在保持精確相機(jī)可控性的同時(shí)實(shí)現(xiàn)更好的生成質(zhì)量。


較大的相機(jī)運(yùn)動(dòng)下的渲染圖像容易產(chǎn)生包括飛邊像素和扭曲等現(xiàn)象。上圖展示了 NeoVerse 單目退化模擬的必要性。如果沒有在模擬出的退化樣本上進(jìn)行訓(xùn)練,生成模型往往會(huì)過于信任重建渲染中的幾何偽影,導(dǎo)致出現(xiàn)「鬼影」效果或模糊輸出。通過結(jié)合退化模擬,生成模型能夠?qū)W會(huì)抑制這些偽影,并在遮擋或扭曲區(qū)域生成逼真的細(xì)節(jié)。

下游應(yīng)用

在大規(guī)模視頻訓(xùn)練的支持下,NeoVerse 不僅能實(shí)現(xiàn)高精度的 4D 重建與精準(zhǔn)漫游,更能跨越影視制作、具身智能與自動(dòng)駕駛等多個(gè)領(lǐng)域,支持多視角生成、視頻編輯等豐富下游應(yīng)用。

子彈時(shí)間

從圖像到世界:重建 + 生成的迭代閉環(huán)

多樣化相機(jī)控制

視頻編輯

具身場景應(yīng)用

駕駛場景應(yīng)用

駕駛場景前視相機(jī)到多視角相機(jī)擴(kuò)展

總結(jié)

NeoVerse 的出現(xiàn),標(biāo)志著 4D 空間智能從「實(shí)驗(yàn)室精雕細(xì)琢」向「大規(guī)模數(shù)據(jù)驅(qū)動(dòng)」的范式轉(zhuǎn)移。它通過攻克核心的擴(kuò)展性(Scalability)瓶頸,構(gòu)建了一套能夠無縫適配互聯(lián)網(wǎng)單目視頻的訓(xùn)練管線。這種對(duì)海量開放場景數(shù)據(jù)的深度挖掘,不僅讓 NeoVerse 在泛化能力上實(shí)現(xiàn)了質(zhì)的飛躍,更使其成為了支撐自動(dòng)駕駛、具身智能及內(nèi)容創(chuàng)作等多元領(lǐng)域的通用 4D 世界模型底座。

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一個(gè)畫面記了兩年?東方甄選主播YOYO向董宇輝道歉……

一個(gè)畫面記了兩年?東方甄選主播YOYO向董宇輝道歉……

柴狗夫斯基
2026-01-08 08:29:49
情況已經(jīng)開始不對(duì)勁兒了,馬杜羅成燙手山芋,把人交給俄羅斯?

情況已經(jīng)開始不對(duì)勁兒了,馬杜羅成燙手山芋,把人交給俄羅斯?

小陸搞笑日常
2026-01-07 08:15:51
不到72小時(shí),日本遭受6個(gè)噩耗,東京亂成一團(tuán),高市徹底沒戲了

不到72小時(shí),日本遭受6個(gè)噩耗,東京亂成一團(tuán),高市徹底沒戲了

青途歷史
2026-01-07 19:28:11
美國學(xué)者杰弗里·薩克斯:美國試圖主宰美洲的做法將引發(fā)暴力事件

美國學(xué)者杰弗里·薩克斯:美國試圖主宰美洲的做法將引發(fā)暴力事件

環(huán)球網(wǎng)資訊
2026-01-06 17:42:10
調(diào)侃廣東球迷是猴,抖音體育官方:已終止該解說員工作安排

調(diào)侃廣東球迷是猴,抖音體育官方:已終止該解說員工作安排

懂球帝
2026-01-08 08:05:13
35歲鄭爽近照曝光!臉部又僵又腫,徹底淪為素人,孩子身影曝光

35歲鄭爽近照曝光!臉部又僵又腫,徹底淪為素人,孩子身影曝光

葉公子
2026-01-07 20:11:46
菊花褲設(shè)計(jì)大揭秘:誰創(chuàng)造了這款潮流單品?

菊花褲設(shè)計(jì)大揭秘:誰創(chuàng)造了這款潮流單品?

白宸侃片
2026-01-05 09:50:11
iPhone 官方半價(jià)換電池,釘子戶終于等到了!

iPhone 官方半價(jià)換電池,釘子戶終于等到了!

黑貓科技迷
2026-01-07 23:57:35
徐靜蕾美國超市現(xiàn)身,黃立行白發(fā)相伴,15年戀愛長跑不婚也幸福

徐靜蕾美國超市現(xiàn)身,黃立行白發(fā)相伴,15年戀愛長跑不婚也幸福

墨語家
2026-01-07 20:40:26
山東區(qū)劃調(diào)整:日照并入臨沂?官方回應(yīng)

山東區(qū)劃調(diào)整:日照并入臨沂?官方回應(yīng)

大象新聞
2026-01-07 11:57:03
我70歲才明白:孩子不尊重你,無需翻臉,用“烏鴉定律”就行

我70歲才明白:孩子不尊重你,無需翻臉,用“烏鴉定律”就行

蘭姐說故事
2026-01-03 17:40:03
股價(jià)跌去近70%!霸王茶姬,咋了?

股價(jià)跌去近70%!霸王茶姬,咋了?

包不同
2026-01-07 11:12:42
美方積極討論“購買”格陵蘭島 魯比奧下周或與丹麥官員會(huì)面

美方積極討論“購買”格陵蘭島 魯比奧下周或與丹麥官員會(huì)面

環(huán)球網(wǎng)資訊
2026-01-08 07:11:05
TVB頒獎(jiǎng)晚宴星光黯淡,寒酸像農(nóng)村辦酒席,女明星一個(gè)比一個(gè)敢穿

TVB頒獎(jiǎng)晚宴星光黯淡,寒酸像農(nóng)村辦酒席,女明星一個(gè)比一個(gè)敢穿

八卦南風(fēng)
2026-01-05 11:03:49
2-0!2-2!意甲最新積分榜:國米穩(wěn)居榜首,那不勒斯拉齊奧齊丟分

2-0!2-2!意甲最新積分榜:國米穩(wěn)居榜首,那不勒斯拉齊奧齊丟分

萬花筒體育球球
2026-01-08 08:51:01
歐盟發(fā)布研發(fā)榜單:華為以229.4億歐元成唯一進(jìn)入前十的中國企業(yè)

歐盟發(fā)布研發(fā)榜單:華為以229.4億歐元成唯一進(jìn)入前十的中國企業(yè)

黃海峰
2026-01-07 08:58:38
掀翻7個(gè)省會(huì),中國第一個(gè)6000億超強(qiáng)縣,產(chǎn)自江蘇!

掀翻7個(gè)省會(huì),中國第一個(gè)6000億超強(qiáng)縣,產(chǎn)自江蘇!

創(chuàng)客公社-江蘇第一創(chuàng)投媒體
2026-01-07 20:57:40
孫儷在上海襄陽北路拍戲,封路拍攝,引起路人不滿

孫儷在上海襄陽北路拍戲,封路拍攝,引起路人不滿

凌風(fēng)的世界觀
2026-01-06 15:40:17
秘魯總統(tǒng)赫里:完全贊同美國對(duì)委內(nèi)瑞拉的干預(yù)行動(dòng),已采取了必要的措施,并且現(xiàn)在必須逐步恢復(fù)民主秩序

秘魯總統(tǒng)赫里:完全贊同美國對(duì)委內(nèi)瑞拉的干預(yù)行動(dòng),已采取了必要的措施,并且現(xiàn)在必須逐步恢復(fù)民主秩序

和訊網(wǎng)
2026-01-07 12:16:18
錢再多有什么用?自曝曾生活不能自理的武大靖,給所有老將提了醒

錢再多有什么用?自曝曾生活不能自理的武大靖,給所有老將提了醒

以茶帶書
2026-01-07 17:04:33
2026-01-08 09:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14279文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽到營銷這兩個(gè)字都有點(diǎn)惡心

頭條要聞

牛彈琴:美國又干了件石破天驚的事 俄羅斯遭沉重打擊

頭條要聞

牛彈琴:美國又干了件石破天驚的事 俄羅斯遭沉重打擊

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

藝術(shù)
教育
房產(chǎn)
本地
軍事航空

藝術(shù)要聞

書法巨匠的七重門:人品與創(chuàng)新的深度探討

教育要聞

熱力學(xué)3大基本特征!考試必考別丟分

房產(chǎn)要聞

最新!??诙址?,漲價(jià)房源突然猛增30%

本地新聞

“閩東利劍·惠民安商”高效執(zhí)行專項(xiàng)行動(dòng)

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項(xiàng)

無障礙瀏覽 進(jìn)入關(guān)懷版