国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

0.4秒完成4D自駕高斯重建,清華AIR聯(lián)合小米EV提出動(dòng)態(tài)駕駛場(chǎng)景重建新范式

0
分享至

清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)青年教師趙昊課題組聯(lián)合小米汽車等單位,推出了首個(gè)面向大型動(dòng)態(tài)駕駛場(chǎng)景的無姿態(tài)(pose-free) 前饋三維重建框架——DGGT(Driving Gaussian Grounded Transformer)。該方法擺脫了傳統(tǒng)依賴逐場(chǎng)景優(yōu)化、相機(jī)標(biāo)定以及短幀窗口的限制,能夠直接從稀疏、無標(biāo)定圖像中重建長(zhǎng)序列三維場(chǎng)景,使自動(dòng)駕駛仿真邁向高速、可擴(kuò)展的新階段。


論文標(biāo)題: DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images 論文鏈接: https://arxiv.org/abs/2512.03004 代碼鏈接: https://github.com/xiaomi-research/dggt 項(xiàng)目主頁(yè): https://xiaomi-research.github.io/dggt/

DGGT 只需未標(biāo)定的稀疏圖像,單次前向即可同時(shí)輸出相機(jī)位姿、深度、動(dòng)態(tài)實(shí)例與基于 3D Gaussian 的可編輯場(chǎng)景表示。模型在 Waymo 上訓(xùn)練,卻能在 nuScenes 與 Argoverse2 上實(shí)現(xiàn)強(qiáng)勁的零樣本泛化——在關(guān)鍵感知指標(biāo)上相比STORM提升超過 50%。此外,系統(tǒng)通過lifespan head建模場(chǎng)景隨時(shí)間的外觀演變,并配合單步擴(kuò)散精修,有效抑制運(yùn)動(dòng)插值偽影,提升時(shí)空一致性與渲染自然度。


圖1.左:從未標(biāo)定稀疏圖像在0.4 s內(nèi)重建動(dòng)態(tài)場(chǎng)景,并輸出相機(jī)姿態(tài)、深度、動(dòng)態(tài)圖、3D Gaussian追蹤等可編輯資產(chǎn);右:在速度與精度上相較前向/優(yōu)化方法處于更優(yōu)位置 一、亮點(diǎn)速覽

  • 無需外參(Pose-Free): 將相機(jī)位姿從輸入轉(zhuǎn)為模型輸出,端到端預(yù)測(cè)內(nèi)外參并融入場(chǎng)景表示,打破跨數(shù)據(jù)集部署的校準(zhǔn)壁壘。

  • Feed-forward 4D表示: 采用多頭聯(lián)合預(yù)測(cè)結(jié)構(gòu)(相機(jī)、4D Gaussian、lifespan、動(dòng)態(tài)/運(yùn)動(dòng)、天空等),一次前向即可得到時(shí)空一致的可編輯表示。

  • 跨數(shù)據(jù)集零樣本泛化: 僅在 Waymo 訓(xùn)練,無需在目標(biāo)數(shù)據(jù)集上微調(diào)即可在 nuScenes 與 Argoverse2 上獲得優(yōu)于SOTA的定量與定性結(jié)果(LPIPS 降幅 52%–61%)。

  • 可編輯性強(qiáng): 支持直接在 Gaussian 層面添加/刪除/移動(dòng)車輛、行人等實(shí)例,擴(kuò)散精修自動(dòng)補(bǔ)洞,輸出可用于仿真與數(shù)據(jù)合成。

  • 速度與質(zhì)量兼顧:在Waymo上20 幀/視角,單場(chǎng)景約 0.39 s;PSNR 27.41 / SSIM 0.846,與優(yōu)化類方法相比顯著加速,與前向方法相比更高保真。

二、DGGT詳解

DGGT 的核心思想是:一次前向就預(yù)測(cè)出“完整的4D場(chǎng)景狀態(tài)”,并把相機(jī)位姿從前提變成結(jié)果。這使得系統(tǒng)無需外參標(biāo)定即可從稀疏、未標(biāo)定圖像里恢復(fù)動(dòng)態(tài)場(chǎng)景,而且能自然跨數(shù)據(jù)集部署。圖1展示了DGGT 的整體能力與速度-精度位置:在0.4 秒量級(jí)完成重建的同時(shí),DGGT 在重建質(zhì)量上超越一系列前向與優(yōu)化方法,并將相機(jī)姿態(tài)、深度、動(dòng)態(tài)分割、3D Gaussian、追蹤等輸出一并給出,便于后續(xù)實(shí)例級(jí)場(chǎng)景編輯


圖2.DGGT 框架結(jié)構(gòu)圖 ViT 編碼融合DINO先驗(yàn),聯(lián)合相機(jī)/高斯/壽命/動(dòng)態(tài)/運(yùn)動(dòng)/天空六個(gè)預(yù)測(cè)頭;渲染后接單步擴(kuò)散精修,一次前向完成時(shí)空一致重建。

系統(tǒng)結(jié)構(gòu)上(圖2),DGGT 采用 ViT 編碼器融合 DINO 先驗(yàn),通過交替注意力得到共享特征,再由多個(gè)預(yù)測(cè)頭并行輸出:

(1)相機(jī)頭估計(jì)各幀內(nèi)外參;

(2)Gaussian 頭給出逐像素 Gaussian 參數(shù)(顏色/位置/旋轉(zhuǎn)/尺度/不透明度);

(3)lifespan 頭用壽命參數(shù)調(diào)制時(shí)間維度可見性,精確刻畫靜態(tài)區(qū)域在不同時(shí)間的外觀變化;

(4)動(dòng)態(tài)頭+運(yùn)動(dòng)頭顯式估計(jì)動(dòng)態(tài)區(qū)域與 3D 運(yùn)動(dòng)軌跡,支持任意時(shí)間點(diǎn)的運(yùn)動(dòng)插值;

(5)天空頭穩(wěn)定建模遠(yuǎn)景背景。渲染后,再通過單步擴(kuò)散精修抑制遮擋/插值產(chǎn)生的偽影與細(xì)節(jié)缺失。


表1. Waymo定量結(jié)果 DGGT無需相機(jī)位姿輸入的同時(shí),對(duì)場(chǎng)景中動(dòng)靜態(tài)進(jìn)行判斷,在Waymo數(shù)據(jù)集上獲得更高PSNR/SSIM與更低深度誤差,單場(chǎng)景推理僅約0.4s


表2. 其他消融實(shí)驗(yàn)和指標(biāo)測(cè)試 擴(kuò)散模型雖然在性能上提升較小,但是生成的結(jié)果視覺效果更好,更適配于下游任務(wù);同時(shí)DGGT在Waymo上EPE3D達(dá)0.183 m

在Waymo數(shù)據(jù)集上的定性與定量評(píng)估(見表1)表明:以往的前饋式靜態(tài)重建方法(如 MVSplat、NoPoSplat、DepthSplat)在存在大范圍運(yùn)動(dòng)目標(biāo)的場(chǎng)景中難以維持時(shí)間一致性,且會(huì)產(chǎn)生明顯的錯(cuò)配與偽影;而STORM雖然通過前饋式建模緩解了對(duì)逐場(chǎng)景優(yōu)化的依賴,但在處理更長(zhǎng)的時(shí)序跨度或更復(fù)雜的動(dòng)態(tài)行為時(shí)仍可能出現(xiàn)性能退化。

相比之下,DGGT能夠在渲染級(jí)別上實(shí)現(xiàn)對(duì)靜態(tài)與動(dòng)態(tài)成分的有效分離,保持幀間外觀與幾何的一致性,從而顯著提升整體視覺質(zhì)量與重建穩(wěn)定性。在定量指標(biāo)上(表2),DGGT 在場(chǎng)景流估計(jì)上的EPE_3D為0.183 m,明顯優(yōu)于多種既有方法,證明了通過渲染監(jiān)督學(xué)得的稠密三維對(duì)應(yīng)具有良好的可靠性與精度。


表3. 零樣本跨庫(kù)泛化 僅用Waymo訓(xùn)練,DGGT在nuScenes/Argoverse2上無需微調(diào)即顯著優(yōu)于STORM:LPIPS分別下降 61.4% 與 52.5%

跨數(shù)據(jù)集的零樣本泛化能力是 DGGT 的另一項(xiàng)核心優(yōu)勢(shì)。模型僅在Waymo上訓(xùn)練,但在未做任何微調(diào)的情況下,在nuScenes與Argoverse2上均取得超越現(xiàn)有SOTA的結(jié)果(見表3):如在nuScenes上 LPIPS從0.394 降至0.152(下降 61.4%);在 Argoverse2上從0.326降至 0.155(下降52.5%)。這種跨域魯棒性主要得益于DGGT 的pose-free 設(shè)計(jì):將位姿從輸入轉(zhuǎn)為模型輸出,減少了對(duì)固定拍攝軌跡與相機(jī)配置的依賴,從而降低了對(duì)特定數(shù)據(jù)采集設(shè)置的過擬合風(fēng)險(xiǎn),使模型在不同傳感器布置與行駛路徑下仍能維持良好性能。


表4. 輸入視角數(shù)消融 當(dāng)視角數(shù)從 4→8→16 增加時(shí),DGGT的重建/NVS指標(biāo)保持穩(wěn)定;STORM出現(xiàn)明顯下滑,DGGT更適合大規(guī)模日志處理

在可擴(kuò)展性方面,DGGT 能自然支持任意數(shù)量的輸入視角與長(zhǎng)序列。從表4可以看到,當(dāng)輸入視角從 4 → 8 → 16 擴(kuò)增時(shí),DGGT 的重建與新視角插值(NVS)指標(biāo)基本不變,而對(duì)比方法會(huì)明顯下滑。這意味著DGGT 不僅適合研究場(chǎng)景,更適合在大規(guī)模輸入中做工程級(jí)預(yù)處理與批量重建,視角變多時(shí)不需要額外改模型或調(diào)參數(shù)。


圖3. Lifespan head 價(jià)值 去除lifespan后PSNR下降3.2 dB,靜態(tài)區(qū)域的光照/反射時(shí)間變化難以刻畫,時(shí)空一致性受損

Lifespan head 的作用在圖3中的消融對(duì)比非常直接:去掉 lifespan 后,PSNR 從 27.41 降至 24.21,原因在于系統(tǒng)失去了對(duì)靜態(tài)區(qū)域在時(shí)間維度上的細(xì)微變化(如亮度、反射、陰影過渡等)的建模能力。世界坐標(biāo)靜態(tài)的地方一旦無法隨時(shí)間正確更新,就會(huì)破壞渲染的時(shí)空一致性與真實(shí)感,從而顯著拉低最終畫面質(zhì)量。


圖4. 3D追蹤可視化 相鄰時(shí)刻等色點(diǎn)一一對(duì)應(yīng),展現(xiàn)可靠的稠密時(shí)空關(guān)聯(lián)

Motion head負(fù)責(zé)把動(dòng)態(tài)像素在時(shí)間上對(duì)齊(圖4):它直接預(yù)測(cè)像素級(jí)的 3D 位移,用于將同一物體在相鄰幀中對(duì)齊并做插值。也就是說,模型不只是預(yù)測(cè)靜態(tài)形狀,而是學(xué)會(huì)了像素到像素的時(shí)序?qū)?yīng),從而在生成中間幀或執(zhí)行編輯時(shí)顯著減少錯(cuò)配與拖影,保證運(yùn)動(dòng)物體在時(shí)間上的連續(xù)性與視覺自然度。


圖5. 實(shí)例級(jí)編輯:加/刪/移動(dòng)車輛、跨場(chǎng)景插入新車與騎行者 在Gaussian層面對(duì)目標(biāo)進(jìn)行加、刪、平移操作;擴(kuò)散精修自動(dòng)補(bǔ)洞與平滑邊界,合成結(jié)果自然可信,提升可用性與觀感。

在場(chǎng)景編輯與擴(kuò)散精修方面(圖5),DGGT 直接在 3D Gaussian 表示層面支持實(shí)例級(jí)操作——可以對(duì)單個(gè)高斯體執(zhí)行“新增/刪除/平移/替換”等編輯;隨后引入的擴(kuò)散精修模塊會(huì)自動(dòng)填補(bǔ)因遮擋產(chǎn)生的空洞、弱化邊緣鋸齒并修復(fù)紋理縫隙。經(jīng)過這兩步處理,合成結(jié)果在幾何與外觀上都保持高度一致且自然可信。

這意味著 DGGT 不只是“重建器”,更是“可編輯的 4D 場(chǎng)景資產(chǎn)生成器”,非常契合自動(dòng)駕駛仿真、評(píng)測(cè)與數(shù)據(jù)合成等下游需求。

來源:公眾號(hào)【清華大學(xué)智能產(chǎn)業(yè)研究院】

llustration From IconScout By IconScout Store

-The End-

本周上新!


掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情



關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
浙江全省正在嚴(yán)查!“不要購(gòu)買,更不要駕駛”

浙江全省正在嚴(yán)查!“不要購(gòu)買,更不要駕駛”

極目新聞
2026-03-14 21:37:21
特朗普動(dòng)起歪腦筋,稱美軍在伊朗打仗,給中國(guó)送了一份“大禮”

特朗普動(dòng)起歪腦筋,稱美軍在伊朗打仗,給中國(guó)送了一份“大禮”

空天力量
2026-03-14 19:09:49
隨著廣廈加時(shí)輸3分!山東贏9分!上??駝?0分,CBA最新排名大變

隨著廣廈加時(shí)輸3分!山東贏9分!上??駝?0分,CBA最新排名大變

老吳說體育
2026-03-14 22:14:20
第6輪會(huì)談美方表態(tài),魯比奧接受邀請(qǐng)將隨特朗普訪華

第6輪會(huì)談美方表態(tài),魯比奧接受邀請(qǐng)將隨特朗普訪華

似水流年忘我
2026-03-14 16:25:05
隨著中國(guó)女籃86-76勝南蘇丹,世預(yù)賽最新形勢(shì):4隊(duì)爭(zhēng)3個(gè)出線名額

隨著中國(guó)女籃86-76勝南蘇丹,世預(yù)賽最新形勢(shì):4隊(duì)爭(zhēng)3個(gè)出線名額

小火箭愛體育
2026-03-14 21:32:52
巴拿馬急了:中遠(yuǎn)海運(yùn),恢復(fù)運(yùn)營(yíng)吧

巴拿馬急了:中遠(yuǎn)海運(yùn),恢復(fù)運(yùn)營(yíng)吧

觀察者網(wǎng)
2026-03-14 09:24:05
2025霧霾最嚴(yán)重的十個(gè)城市

2025霧霾最嚴(yán)重的十個(gè)城市

電工知庫(kù)
2026-03-14 15:04:40
農(nóng)民自愿永久退出承包地:2026最新補(bǔ)償標(biāo)準(zhǔn)與辦理流程全說明

農(nóng)民自愿永久退出承包地:2026最新補(bǔ)償標(biāo)準(zhǔn)與辦理流程全說明

現(xiàn)代小青青慕慕
2026-03-14 12:56:29
今年的315,草莓第一個(gè)翻車,重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

今年的315,草莓第一個(gè)翻車,重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

Mr王的飯后茶
2026-03-14 13:15:36
“戰(zhàn)斧”首次交付日本,中方正告!

“戰(zhàn)斧”首次交付日本,中方正告!

環(huán)球時(shí)報(bào)國(guó)際
2026-03-14 17:02:11
大爭(zhēng)議!F1外媒官號(hào)曬合照“裁掉”頒獎(jiǎng)嘉賓吳艷妮 做法太low

大爭(zhēng)議!F1外媒官號(hào)曬合照“裁掉”頒獎(jiǎng)嘉賓吳艷妮 做法太low

醉臥浮生
2026-03-14 15:45:44
淚目了!伊朗向死而生,讓美以最絕望的出現(xiàn)了!

淚目了!伊朗向死而生,讓美以最絕望的出現(xiàn)了!

大嘴說天下
2026-03-14 19:36:56
特朗普越過紅線?美軍空襲伊朗關(guān)鍵而脆弱的“石油心臟” 專家:奪島容易控島難

特朗普越過紅線?美軍空襲伊朗關(guān)鍵而脆弱的“石油心臟” 專家:奪島容易控島難

紅星新聞
2026-03-14 10:18:18
“伊朗想放部分油輪過海峽,前提是石油以人民幣結(jié)算”

“伊朗想放部分油輪過海峽,前提是石油以人民幣結(jié)算”

觀察者網(wǎng)
2026-03-14 08:19:04
我國(guó)臺(tái)灣問題不談判不退讓不惜一戰(zhàn),哪怕犧牲億人毀城百座城池

我國(guó)臺(tái)灣問題不談判不退讓不惜一戰(zhàn),哪怕犧牲億人毀城百座城池

瀚霖學(xué)史
2026-03-14 08:58:49
突發(fā):霍爾木茲海峽前哨戰(zhàn)打響!

突發(fā):霍爾木茲海峽前哨戰(zhàn)打響!

西樓飲月
2026-03-14 22:03:05
600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

澎湃新聞
2026-03-14 20:02:09
1984年,張宗遜之子張又俠8個(gè)多小時(shí)拿下松毛嶺:預(yù)備隊(duì)還沒上呢

1984年,張宗遜之子張又俠8個(gè)多小時(shí)拿下松毛嶺:預(yù)備隊(duì)還沒上呢

歷史甄有趣
2026-03-13 12:45:14
泰州市監(jiān)委通報(bào),于浩被查

泰州市監(jiān)委通報(bào),于浩被查

上觀新聞
2026-03-14 19:41:03
字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對(duì)湖北投入

字節(jié)辟謠「武漢全部被裁」:超2000人base武漢,將加大對(duì)湖北投入

鞭牛士
2026-03-14 12:04:14
2026-03-15 03:31:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗船只迫近林肯號(hào)航母 美軍連開數(shù)炮全打空

頭條要聞

伊朗船只迫近林肯號(hào)航母 美軍連開數(shù)炮全打空

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

本地
教育
藝術(shù)
游戲
親子

本地新聞

坐標(biāo)北京,過敏季反向遷徒

教育要聞

去英國(guó)留學(xué)的核心意義,其實(shí)80%以上國(guó)內(nèi)家庭是不知道的!

藝術(shù)要聞

迪拜的房地產(chǎn)市場(chǎng)面臨嚴(yán)峻考驗(yàn)

FS社新作終于有新消息!NS2獨(dú)占 多人在線

親子要聞

從"疲憊帶娃"到"從容陪娃":每位家長(zhǎng)都能掌握的魔法轉(zhuǎn)變

無障礙瀏覽 進(jìn)入關(guān)懷版