国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

視頻深度估計(jì)新SOTA來了,163倍數(shù)據(jù)效率解鎖生成式先驗(yàn)

0
分享至



視頻擴(kuò)散模型(拿來做深度估計(jì))簡(jiǎn)直是降維打擊(overqualified)!

近日,一項(xiàng)剛在 arXiv 亮相的視頻深度估計(jì)新工作,在推特(X)上收獲了開源社區(qū)的不少關(guān)注。知名 AI 資訊博主AK (@_akhaliq)進(jìn)行了跟進(jìn)轉(zhuǎn)發(fā);也有同行博主探討了視頻擴(kuò)散模型在深度估計(jì)任務(wù)中的強(qiáng)大潛力,并留意到了該工作在 ScanNet 上 5.5 AbsRel 的準(zhǔn)確度、極高的數(shù)據(jù)效率以及對(duì)超長(zhǎng)視頻時(shí)序閃爍的改善。

面對(duì)社區(qū)的熱情反饋,研究團(tuán)隊(duì)保持了學(xué)者的嚴(yán)謹(jǐn),并表示:這其實(shí)是對(duì)預(yù)訓(xùn)練生成式先驗(yàn)一次順理成章的探索。為了方便大家親自驗(yàn)證,不僅推理管線,團(tuán)隊(duì)已將整套訓(xùn)練代碼毫無(wú)保留地完全開源,希望能為社區(qū)提供一個(gè)扎實(shí)、可復(fù)現(xiàn)的基線 。



這項(xiàng)工作正是由香港科技大學(xué)(廣州)陳穎聰教授領(lǐng)銜的 EnVision Research 實(shí)驗(yàn)室,聯(lián)合加州大學(xué)圣地亞哥分校、普林斯頓大學(xué)等頂尖機(jī)構(gòu),正式推出了全新的視頻深度估計(jì)框架——DVD (Deterministic Video Depth Estimation with Generative Priors)。論文共同第一作者為來自港科大(廣州)的張鴻飛、陳浩東、廖晨非與何晶。

在3D場(chǎng)景理解與自動(dòng)駕駛等應(yīng)用中,視頻深度估計(jì)一直是不可或缺的核心基石。然而,如何在動(dòng)態(tài)視頻中兼顧極致的幾何細(xì)節(jié)與長(zhǎng)時(shí)序的穩(wěn)定性,始終是困擾整個(gè)計(jì)算機(jī)視覺界的難題。熟悉深度估計(jì)的讀者可能知道,EnVision Research 此前在圖像深度估計(jì)領(lǐng)域推出的代表作Lotus備受社區(qū)矚目(目前在 GitHub 上已攬獲近 800 Stars),而此次發(fā)布的 DVD 模型,正是將這種確定性適配在視頻深度估計(jì)領(lǐng)域的強(qiáng)勢(shì)拓展與跨越式升維。

DVD 是首個(gè)將預(yù)訓(xùn)練視頻擴(kuò)散模型(Video Diffusion Models)確定性地適配為“單次前向回歸器”(Single-pass depth regressors)的創(chuàng)新框架。它徹底擺脫了傳統(tǒng)生成式模型由于隨機(jī)采樣帶來的幾何幻覺,同時(shí)避免了判別式模型為了消除語(yǔ)義歧義而對(duì)海量標(biāo)注數(shù)據(jù)的貪婪渴求。

實(shí)驗(yàn)證明,DVD 僅使用了 36.7 萬(wàn)幀的特定任務(wù)訓(xùn)練數(shù)據(jù)——對(duì)比 Video Depth Anything (VDA) 高達(dá) 6000 萬(wàn)幀的數(shù)據(jù)量,數(shù)據(jù)效率提升了驚人的 163 倍!進(jìn)一步地說,DVD 成功解鎖了視頻基礎(chǔ)模型中蘊(yùn)含的深厚幾何先驗(yàn),在零樣本(Zero-shot)性能上全面超越了現(xiàn)有 SOTA。



  • 論文鏈接:https://arxiv.org/abs/2603.12250
  • 項(xiàng)目主頁(yè):https://dvd-project.github.io/
  • 代碼鏈接:https://github.com/EnVision-Research/DVD

1 背景介紹

在 DVD 誕生之前,主流的視頻深度估計(jì)方法主要陷入了兩種范式的固有缺陷中,形成了一個(gè)基礎(chǔ)性的“權(quán)衡悖論”(Trade-off):

  • 生成式模型(Generative Models,如 DepthCrafter):這類方法利用預(yù)訓(xùn)練的視頻基礎(chǔ)模型來捕獲豐富的時(shí)空先驗(yàn),零樣本泛化能力強(qiáng) 。但是,由于它們依賴隨機(jī)采樣機(jī)制,會(huì)引入時(shí)序上的不確定性。這種生成性質(zhì)往往優(yōu)先考慮“視覺合理性”而非“幾何準(zhǔn)確性”,從而導(dǎo)致嚴(yán)重的幾何幻覺(Geometric Hallucinations),無(wú)法在時(shí)間上保持精確且全局一致的幾何結(jié)構(gòu)。
  • 判別式模型(Discriminative Models,如 Video Depth Anything, VDA):這類基于 ViT 的模型具有極高的推理效率和確定性輸出。然而,由于它們完全依賴密集的注釋來學(xué)習(xí)幾何,常常會(huì)陷入語(yǔ)義歧義(Semantic Ambiguity),例如將運(yùn)動(dòng)模糊或無(wú)紋理區(qū)域誤判為結(jié)構(gòu)邊界。為了克服這種歧義,它們只能依賴極其龐大且多樣化的下游標(biāo)注數(shù)據(jù)進(jìn)行暴力堆砌。

研究團(tuán)隊(duì)敏銳地提出一個(gè)核心問題:能否設(shè)計(jì)一種視頻深度估計(jì)框架,既能有效平衡判別式模型的結(jié)構(gòu)穩(wěn)定性與生成式模型的豐富時(shí)空先驗(yàn),又能保持高效和可擴(kuò)展性?

這就是 DVD 提出的初衷。



2 DVD 方法

為了打破上述僵局,DVD 摒棄了傳統(tǒng)的隨機(jī)生成范式,開創(chuàng)性地實(shí)現(xiàn)了預(yù)訓(xùn)練視頻擴(kuò)散模型的確定性適配,直接學(xué)習(xí)從 RGB 潛變量到深度潛變量的映射。



然而,將確定性適配從靜態(tài)圖像擴(kuò)展到動(dòng)態(tài)視頻面臨著獨(dú)特的挑戰(zhàn):樸素的回歸不僅容易導(dǎo)致模糊,還會(huì)遭受結(jié)構(gòu)不穩(wěn)定性等問題。為此,DVD 提出了三大核心設(shè)計(jì):

2.1 將時(shí)間步作為結(jié)構(gòu)錨點(diǎn) (Timestep as a Structural Anchor)

在生成式預(yù)訓(xùn)練中,時(shí)間步 $t$ 參數(shù)化了信噪比,指導(dǎo)模型關(guān)注全局結(jié)構(gòu)或局部細(xì)節(jié)。DVD 創(chuàng)造性地將時(shí)間步從一個(gè)噪聲指示器重塑為一個(gè)結(jié)構(gòu)錨點(diǎn)(Structural Anchor)。通過將其固定在一個(gè)最佳狀態(tài)(如 $\tau=0.5$),模型能夠完美平衡低頻的全局穩(wěn)定性與高頻的空間細(xì)節(jié),避免了幾何過度平滑。



2.2 潛在流形校正 (Latent Manifold Rectification, LMR)

當(dāng)我們使用逐點(diǎn)回歸目標(biāo)訓(xùn)練模型時(shí),極易引發(fā)“均值塌陷(Mean Collapse)”,導(dǎo)致模型在面對(duì)模糊或遮擋區(qū)域時(shí)洗去高頻結(jié)構(gòu)細(xì)節(jié)。在時(shí)空設(shè)置下,這種退化會(huì)累積成嚴(yán)重的邊界侵蝕和運(yùn)動(dòng)閃爍。

為此,DVD 引入了 LMR——一種無(wú)額外參數(shù)的監(jiān)督策略。LMR 強(qiáng)制對(duì)齊預(yù)測(cè)潛變量與目標(biāo)潛變量的空間梯度(Spatial Gradient)和時(shí)序光流(Temporal Flow)。這一機(jī)制成功恢復(fù)了被回歸抹平的銳利邊界和連貫的運(yùn)動(dòng)動(dòng)態(tài)。



2.3 全局仿射一致性 (Global Affine Coherence)

處理長(zhǎng)視頻時(shí),顯存限制要求必須采用滑動(dòng)窗口推理,這往往會(huì)導(dǎo)致生成式模型出現(xiàn)隨機(jī)尺度漂移。

研究團(tuán)隊(duì)在 DVD 中發(fā)現(xiàn)了一個(gè)固有的特性:VAE 解碼主要引起全局仿射變化,而非局部空間失真。因此,窗口間的差異可以很好地用線性尺度偏移變換來近似?;谶@種“全局仿射一致性”,DVD 設(shè)計(jì)了一個(gè)閉式最小二乘求解器。只需通過重疊區(qū)域計(jì)算全局縮放 $s$ 和平移 $t$,即可無(wú)縫對(duì)齊相鄰窗口,完全無(wú)需復(fù)雜的潛在拼接或時(shí)間對(duì)齊模塊。



3 實(shí)驗(yàn)結(jié)果

DVD 在多個(gè)真實(shí)世界基準(zhǔn)測(cè)試中進(jìn)行了廣泛的零樣本評(píng)估,其實(shí)驗(yàn)結(jié)果令人振奮:

3.1 登頂?shù)男?SOTA 幾何保真度與時(shí)序連貫性





在 ScanNet 和 KITTI 等標(biāo)準(zhǔn)數(shù)據(jù)集上,DVD 一致優(yōu)于最先進(jìn)的生成式(如 DepthCrafter)和判別式(如 VDA)基線模型,取得了最低的絕對(duì)相對(duì)誤差(AbsRel)。并且,LMR 機(jī)制顯著提升了精細(xì)邊界的準(zhǔn)確性,例如將 ScanNet 的 B-F1 分?jǐn)?shù)提升至 0.259。



3.2 令人信服的數(shù)據(jù)與推理效率



DVD 的一大核心優(yōu)勢(shì)在于用極少的數(shù)據(jù)解鎖高保真深度。僅使用 36.7 萬(wàn)幀訓(xùn)練的 DVD,其性能就超越了使用 6000 萬(wàn)幀數(shù)據(jù)的 VDA(數(shù)據(jù)量不到其1/160)。同時(shí),由于避開了迭代采樣的計(jì)算瓶頸,DVD 保持了與 VDA 相當(dāng)?shù)耐评硭俣?,并提供了更高的?zhǔn)確率。

3.3 強(qiáng)大的長(zhǎng)視頻擴(kuò)展性



面對(duì)包含數(shù)千幀的復(fù)雜長(zhǎng)視頻,生成式方法受到嚴(yán)重的尺度漂移困擾,判別式基線持續(xù)表現(xiàn)出語(yǔ)義歧義。而 DVD 憑借無(wú)參數(shù)的仿射對(duì)齊機(jī)制,確保了嚴(yán)格的結(jié)構(gòu)持久性和高保真度,在長(zhǎng)視頻推理中展現(xiàn)出了卓越的穩(wěn)定性。



4 結(jié)論

DVD (Deterministic Video Depth Estimation) 框架的提出,是首個(gè)確定性適配預(yù)訓(xùn)練視頻擴(kuò)散先驗(yàn)以用于單次深度估計(jì)的框架。

通過“時(shí)間步驅(qū)動(dòng)的結(jié)構(gòu)錨點(diǎn)”、“對(duì)抗時(shí)空均值塌陷的潛在流形校正 (LMR)”以及“用于長(zhǎng)視頻仿射對(duì)齊的全局仿射一致性”三大核心設(shè)計(jì),DVD 成功解決了“歧義與幻覺”的兩難困境。更重要的是,它證明了:我們無(wú)需再盲目堆砌上千萬(wàn)級(jí)別的特定任務(wù)標(biāo)注數(shù)據(jù),僅需通過巧妙的策略,就能以163 倍的極高數(shù)據(jù)效率解鎖基礎(chǔ)模型中令人驚嘆的世界幾何先驗(yàn)。

這項(xiàng)工作為動(dòng)態(tài) 3D 場(chǎng)景理解和未來的感知技術(shù),確立了一條高度可擴(kuò)展且數(shù)據(jù)高效的全新范式。

論文、代碼及模型權(quán)重均已全部開源,歡迎廣大研究人員前往項(xiàng)目主頁(yè)體驗(yàn)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
聯(lián)大投票結(jié)果出爐,伊朗與122國(guó)獲壓倒性勝利,英法德日紛紛棄權(quán)

聯(lián)大投票結(jié)果出爐,伊朗與122國(guó)獲壓倒性勝利,英法德日紛紛棄權(quán)

知鑒明史
2026-03-30 09:19:39
4999元起!vivo發(fā)布雙旗艦:雙長(zhǎng)焦+400mm巨炮太強(qiáng)了!

4999元起!vivo發(fā)布雙旗艦:雙長(zhǎng)焦+400mm巨炮太強(qiáng)了!

雷科技
2026-03-30 23:18:55
北京一公園保潔用竹竿打落鮮花,市民制止無(wú)效,景區(qū),工作人員理解錯(cuò)誤

北京一公園保潔用竹竿打落鮮花,市民制止無(wú)效,景區(qū),工作人員理解錯(cuò)誤

大峰
2026-03-30 15:37:42
民進(jìn)黨澎湖縣長(zhǎng)提名出現(xiàn)變數(shù)?沈富雄打賭請(qǐng)客吃到飽:一定換人

民進(jìn)黨澎湖縣長(zhǎng)提名出現(xiàn)變數(shù)?沈富雄打賭請(qǐng)客吃到飽:一定換人

海峽導(dǎo)報(bào)社
2026-03-30 07:01:03
1980年,陳云原警衛(wèi)員張季敏前去探望首長(zhǎng):您還是用老三樣啊

1980年,陳云原警衛(wèi)員張季敏前去探望首長(zhǎng):您還是用老三樣啊

大運(yùn)河時(shí)空
2026-03-30 08:00:03
黃仁勛最新驚人觀點(diǎn):英語(yǔ)專業(yè)將血洗計(jì)算機(jī),文科成AI時(shí)代新貴族

黃仁勛最新驚人觀點(diǎn):英語(yǔ)專業(yè)將血洗計(jì)算機(jī),文科成AI時(shí)代新貴族

南宗歷史
2026-03-28 19:31:50
2026高速嚴(yán)查啟動(dòng)!下高速不做這個(gè)動(dòng)作,直接罰款記分,無(wú)一例外

2026高速嚴(yán)查啟動(dòng)!下高速不做這個(gè)動(dòng)作,直接罰款記分,無(wú)一例外

苗苗情感說
2026-03-31 02:52:57
特朗普威脅:若談不成,就炸毀并徹底抹平伊朗所有發(fā)電站、油井及哈爾克島!美軍集結(jié)超5萬(wàn),共和黨議員:地面行動(dòng)須經(jīng)國(guó)會(huì)批準(zhǔn)

特朗普威脅:若談不成,就炸毀并徹底抹平伊朗所有發(fā)電站、油井及哈爾克島!美軍集結(jié)超5萬(wàn),共和黨議員:地面行動(dòng)須經(jīng)國(guó)會(huì)批準(zhǔn)

每日經(jīng)濟(jì)新聞
2026-03-30 21:21:10
分享6個(gè)我覺得應(yīng)該必裝的Skills。

分享6個(gè)我覺得應(yīng)該必裝的Skills。

數(shù)字生命卡茲克
2026-03-30 10:13:22
曾慫恿罷飛內(nèi)地航線,支持港獨(dú),這家亞洲民航巨頭,如今是何下場(chǎng)

曾慫恿罷飛內(nèi)地航線,支持港獨(dú),這家亞洲民航巨頭,如今是何下場(chǎng)

朝子亥
2026-03-30 16:50:03
這4個(gè)小時(shí)是“黃金睡眠時(shí)間”,錯(cuò)過了很難補(bǔ)回來

這4個(gè)小時(shí)是“黃金睡眠時(shí)間”,錯(cuò)過了很難補(bǔ)回來

齊魯壹點(diǎn)
2026-03-07 05:15:12
大衣哥前兒媳陳亞男訂婚!老公近照帥氣,情商高但比朱小偉矮

大衣哥前兒媳陳亞男訂婚!老公近照帥氣,情商高但比朱小偉矮

裕豐娛間說
2026-03-30 18:37:53
“直接崩了,一天掉了一百多元!”有人瘋狂拋售,國(guó)際巨頭接連發(fā)布新技術(shù)……格局將被改變?

“直接崩了,一天掉了一百多元!”有人瘋狂拋售,國(guó)際巨頭接連發(fā)布新技術(shù)……格局將被改變?

都市快報(bào)橙柿互動(dòng)
2026-03-29 12:26:05
多多:總喊內(nèi)馬爾回巴西隊(duì)的人,根本沒看他現(xiàn)在踢成什么樣

多多:總喊內(nèi)馬爾回巴西隊(duì)的人,根本沒看他現(xiàn)在踢成什么樣

懂球帝
2026-03-30 14:17:08
斷崖式下跌!專家:將持續(xù)降價(jià)!

斷崖式下跌!專家:將持續(xù)降價(jià)!

珠海發(fā)布
2026-03-30 22:12:10
中國(guó)青年學(xué)者一作,Nature之后,連發(fā)Nature大子刊:超強(qiáng)、可回收生物基熱熔膠!

中國(guó)青年學(xué)者一作,Nature之后,連發(fā)Nature大子刊:超強(qiáng)、可回收生物基熱熔膠!

高分子科學(xué)前沿
2026-03-29 12:30:01
期待!國(guó)足名宿呼吁國(guó)家隊(duì)加入新歸化:8名強(qiáng)力外援可供候選!

期待!國(guó)足名宿呼吁國(guó)家隊(duì)加入新歸化:8名強(qiáng)力外援可供候選!

邱澤云
2026-03-30 13:29:37
漢馬驚現(xiàn)“腿精天花板”!網(wǎng)傳195cm,本人:我才186,別夸張!

漢馬驚現(xiàn)“腿精天花板”!網(wǎng)傳195cm,本人:我才186,別夸張!

觀察鑒娛
2026-03-29 09:41:19
朝鮮經(jīng)濟(jì)落后吃不飽飯,卻能養(yǎng)得起百萬(wàn)大軍,到底如何做到的?

朝鮮經(jīng)濟(jì)落后吃不飽飯,卻能養(yǎng)得起百萬(wàn)大軍,到底如何做到的?

世界圈
2026-03-29 02:20:03
先導(dǎo)智能:2025年凈利潤(rùn)同比增長(zhǎng)446.58% 擬10派2.87元

先導(dǎo)智能:2025年凈利潤(rùn)同比增長(zhǎng)446.58% 擬10派2.87元

證券時(shí)報(bào)
2026-03-30 23:18:08
2026-03-31 09:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12640文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

尚未正式宣發(fā),國(guó)行蘋果AI半夜"意外閃現(xiàn)"

頭條要聞

牛彈琴:中東新的大麻煩來了 特朗普又盯上了新目標(biāo)

頭條要聞

牛彈琴:中東新的大麻煩來了 特朗普又盯上了新目標(biāo)

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財(cái)經(jīng)要聞

助貸被約談背后:誰(shuí)在「吞噬」你的借款?

汽車要聞

限時(shí)12.58萬(wàn)起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

家居
健康
數(shù)碼
房產(chǎn)
公開課

家居要聞

東方法式美學(xué) 現(xiàn)代簡(jiǎn)約

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

數(shù)碼要聞

測(cè)試中!蘋果自動(dòng)音頻切換將下放至第三方音頻配件

房產(chǎn)要聞

重磅!番禺20宗涉宅地亮相,萬(wàn)博CBD宅地將上新!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版