国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NeurIPS 2025|北交大等提出Jasmine:自監(jiān)督+Stable Diffusion先驗,實現(xiàn)高質(zhì)量單目深度感知

0
分享至

一、導讀

近年來,基于 Stable Diffusion(穩(wěn)定擴散模型)的方法能生成清晰、泛化能力強的深度圖,但它們通常需要高精度深度標注進行監(jiān)督訓練,限制了在無標注數(shù)據(jù)上的應(yīng)用。

為了解決這一難題,本文提出了首個基于 Stable Diffusion 的自監(jiān)督單目深度估計框架 Jasmine。它通過引入混合批次圖像重建任務(wù)和尺度-平移門控循環(huán)單元,在不依賴任何深度標注的情況下,有效保留了 Stable Diffusion 的先驗知識,顯著提升了深度估計的清晰度和跨數(shù)據(jù)集泛化能力。

實驗表明,Jasmine 在 KITTI 數(shù)據(jù)集上達到了最先進的性能,并在多個零樣本測試集上表現(xiàn)優(yōu)異。

二、論文基本信息


  • 論文標題:Jasmine: Harnessing Diffusion Prior for Self-Supervised Depth Estimation

  • 作者姓名與單位:Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao(分別來自北京交通大學、南洋理工大學、香港科技大學、重慶郵電大學)

  • 發(fā)表日期與會議/期刊來源:NeurIPS 2025

  • 論文鏈接: https://arxiv.org/abs/2503.15905v2

三、主要貢獻與創(chuàng)新
  1. 首次將 Stable Diffusion 引入自監(jiān)督深度估計框架,無需高精度深度標注。

  2. 提出混合批次圖像重建任務(wù),避免自監(jiān)督訓練破壞 Stable Diffusion 的細節(jié)先驗。

  3. 設(shè)計尺度-平移 GRU 模塊,解決尺度-平移不變性與尺度不變性之間的分布差異。

  4. 在 KITTI 上達到最優(yōu)性能,并在多個零樣本數(shù)據(jù)集上表現(xiàn)出卓越泛化能力。

四、研究方法與原理

Jasmine 的核心思路是:在自監(jiān)督訓練中,通過圖像重建任務(wù)保護 Stable Diffusion 的細節(jié)先驗,并用尺度-平移 GRU 對齊不同深度分布,從而在不依賴標注的情況下實現(xiàn)清晰、準確的深度估計。


  • 自監(jiān)督深度估計基礎(chǔ)
    自監(jiān)督方法通過相鄰幀圖像 和 之間的幾何約束來訓練深度網(wǎng)絡(luò)。通過相機位姿 和相機內(nèi)參 ,可將 投影回當前幀視角,得到合成圖像 ,再通過光度重建損失 約束深度預(yù)測:

  • Stable Diffusion 用于深度估計
    Stable Diffusion 將深度預(yù)測視為圖像條件下的標注生成任務(wù)。輸入圖像 和深度圖 被編碼為潛變量 和 ,通過 U-Net 進行去噪,最終解碼為深度圖 。為加速訓練,Jasmine 采用單步去噪策略。

  • 混合批次圖像重建
    自監(jiān)督的光度損失會引入噪聲,破壞 Stable Diffusion 的細節(jié)先驗。Jasmine 引入一個任務(wù)切換器 ,讓同一個 U-Net 交替執(zhí)行深度預(yù)測和圖像重建任務(wù)。重建任務(wù)使用來自 KITTI 和 Hypersim 的混合圖像批次,并用光度損失監(jiān)督重建圖像:

    其中 是從兩個數(shù)據(jù)集中隨機選擇的圖像。

  • 尺度-平移 GRU
    Stable Diffusion 輸出的是尺度-平移不變深度,而自監(jiān)督方法輸出的是尺度不變深度。Jasmine 提出 Scale-Shift GRU 模塊,通過迭代修正尺度 和平移 參數(shù),將 對齊到 :

    其中 由 GRU 的隱藏狀態(tài)預(yù)測。GRU 的復位門還能過濾自監(jiān)督訓練中的異常梯度,保護細節(jié)信息。

  • 自監(jiān)督微調(diào)策略
    訓練過程中引入教師模型(如 MonoViT)提供的偽標簽 ,用于穩(wěn)定早期訓練:

    總損失為:


五、實驗設(shè)計與結(jié)果分析 實驗設(shè)置

訓練數(shù)據(jù)集:KITTI(39,810 張圖像)和 Hypersim(28,000 張合成圖像)。
零樣本測試集:CityScape、DrivingStereo(含多種天氣變體)。
評測指標:AbsRel、SqRel、RMSE、RMSElog、 、 、 。

對比實驗

  • 表1 顯示 Jasmine 在 KITTI 數(shù)據(jù)集上所有指標均優(yōu)于現(xiàn)有自監(jiān)督方法和零樣本 Stable Diffusion 方法,尤其在 指標上提升顯著。


  • 表2 顯示 Jasmine 在 CityScape 和 DrivingStereo 的多種天氣條件下均表現(xiàn)最優(yōu),展現(xiàn)出強大的零樣本泛化能力。


  • 圖1、圖5 可視化結(jié)果表明,Jasmine 在細節(jié)保留和復雜結(jié)構(gòu)處理上明顯優(yōu)于其他方法。



消融實驗

驗證了各模塊的有效性:

  • 移除 Stable Diffusion 先驗導致性能崩潰。

  • 移除 MIR 或 SSG 分別導致 AbsRel 下降 47% 和 43%。

  • 使用圖像域光度損失優(yōu)于潛空間監(jiān)督。

  • 合成數(shù)據(jù)并非必需,但跨域數(shù)據(jù)有助于性能提升。


六、論文結(jié)論與評價 總結(jié)

Jasmine 是首個將 Stable Diffusion 成功應(yīng)用于自監(jiān)督深度估計的框架,通過圖像重建任務(wù)和尺度-平移 GRU,在不依賴深度標注的情況下實現(xiàn)了清晰、泛化能力強的深度預(yù)測。在 KITTI 上達到最優(yōu)性能,并在多個零樣本數(shù)據(jù)集上表現(xiàn)卓越。

評價

該方法突破了傳統(tǒng)自監(jiān)督方法在細節(jié)保留上的瓶頸,也為其他無監(jiān)督密集預(yù)測任務(wù)提供了新思路。缺點是模型計算量較大,推理速度較慢。

未來可探索更高效的架構(gòu)設(shè)計,并將該框架推廣至深度補全、多視圖立體等任務(wù)中,進一步提升實用性和擴展性。

文章來源:CV煉丹術(shù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
肖戰(zhàn)ELLE開年OG單人獨扛,巨星還是太權(quán)威

肖戰(zhàn)ELLE開年OG單人獨扛,巨星還是太權(quán)威

青杉依舊啊啊
2025-12-24 10:18:31
全國最好的醫(yī)院排名,建議收藏!

全國最好的醫(yī)院排名,建議收藏!

霹靂炮
2025-11-24 22:55:34
上海50歲薛某去世,漂亮妻子崩潰:出差7個月才回家,留130萬外債

上海50歲薛某去世,漂亮妻子崩潰:出差7個月才回家,留130萬外債

觀察鑒娛
2025-12-23 08:44:03
突發(fā)!H1B徹底變天!按工資定生死,申請費10萬刀,還要查你朋友圈!

突發(fā)!H1B徹底變天!按工資定生死,申請費10萬刀,還要查你朋友圈!

留學生日報
2025-12-24 06:22:32
恭喜!馬龍升任國家級教練,或成國乒競聘大黑馬,執(zhí)教樊振東?

恭喜!馬龍升任國家級教練,或成國乒競聘大黑馬,執(zhí)教樊振東?

體育就你秀
2025-12-24 07:00:03
陪伴并貼身保衛(wèi)毛主席 30 年的汪東興,晚年深陷懊悔,直言不諱:“當年我瞎了眼,才讓主席用了這人!”

陪伴并貼身保衛(wèi)毛主席 30 年的汪東興,晚年深陷懊悔,直言不諱:“當年我瞎了眼,才讓主席用了這人!”

桃煙讀史
2025-12-23 13:30:14
《科學》證實:熬夜,其實是大腦在“吃屎”!

《科學》證實:熬夜,其實是大腦在“吃屎”!

徐德文科學頻道
2025-12-22 20:33:40
泰柬雙雙致謝!中國影響力顯現(xiàn)

泰柬雙雙致謝!中國影響力顯現(xiàn)

陸棄
2025-12-24 10:52:24
鄭欽文出戰(zhàn)!沖擊471萬獎金,32強一球制勝,阿卡+辛納+高芙參賽

鄭欽文出戰(zhàn)!沖擊471萬獎金,32強一球制勝,阿卡+辛納+高芙參賽

體育就你秀
2025-12-24 09:59:02
終于把南博的高潮弄來了!

終于把南博的高潮弄來了!

李萬卿
2025-12-23 19:51:45
香港魔幻騙局:騙子租豪宅立人設(shè),洪金寶江美儀等明星,被騙數(shù)億

香港魔幻騙局:騙子租豪宅立人設(shè),洪金寶江美儀等明星,被騙數(shù)億

80后房車生活
2025-12-23 16:27:24
賀子珍回國后想再婚,詢問女兒意見,李敏喊出2個字,她大哭放棄

賀子珍回國后想再婚,詢問女兒意見,李敏喊出2個字,她大哭放棄

阿器談史
2025-12-18 10:41:18
88年陳偉文果斷亮劍,擊沉越軍三艘軍艦,拿下200萬平方公里三沙市

88年陳偉文果斷亮劍,擊沉越軍三艘軍艦,拿下200萬平方公里三沙市

睡前講故事
2025-12-21 16:02:50
1955年授銜那會兒,要是大將能多出一個名額,這票我誰都不給,非得給那個敢指著地圖讓林彪改命令,還能把百萬大軍帶得服服帖帖的狠人不可

1955年授銜那會兒,要是大將能多出一個名額,這票我誰都不給,非得給那個敢指著地圖讓林彪改命令,還能把百萬大軍帶得服服帖帖的狠人不可

歷史回憶室
2025-12-24 10:29:45
馬自達“背水一戰(zhàn)”!近5米長,降至9.98萬,油耗0.78L,真厚道

馬自達“背水一戰(zhàn)”!近5米長,降至9.98萬,油耗0.78L,真厚道

藍色海邊
2025-12-23 15:16:04
柬埔寨生命科學院被中國醫(yī)院指控冒用合作名義,卷入器官販賣傳聞

柬埔寨生命科學院被中國醫(yī)院指控冒用合作名義,卷入器官販賣傳聞

環(huán)球熱點快評
2025-12-23 08:48:32
深度揭秘?|?副檢察長劉建寬和他的“劉家大院”——一個司法“守門人”如何變成圍獵“總開關(guān)”的紀實解剖

深度揭秘?|?副檢察長劉建寬和他的“劉家大院”——一個司法“守門人”如何變成圍獵“總開關(guān)”的紀實解剖

一分為三看人生
2025-12-24 00:07:47
不怪張繼科對她情有獨鐘,確實顏值身材雙雙在線美麗動人

不怪張繼科對她情有獨鐘,確實顏值身材雙雙在線美麗動人

TVB的四小花
2025-12-24 00:09:48
毛主席原定叫“支援軍”,黃炎培諫言改2字,杜魯門有苦說不出

毛主席原定叫“支援軍”,黃炎培諫言改2字,杜魯門有苦說不出

詩意世界
2025-12-23 10:12:36
本世紀火性最強的流年——赤馬紅羊,這幾類人尤其要注意!

本世紀火性最強的流年——赤馬紅羊,這幾類人尤其要注意!

神奇故事
2025-12-23 22:17:52
2025-12-24 11:39:00
算法與數(shù)學之美 incentive-icons
算法與數(shù)學之美
分享知識,交流思想
5276文章數(shù) 64598關(guān)注度
往期回顧 全部

科技要聞

黑產(chǎn)大軍壓境 快手"拔網(wǎng)線"為何慢了兩小時

頭條要聞

一名歐洲男子捐精生197娃 攜帶致癌基因已致死多人

頭條要聞

一名歐洲男子捐精生197娃 攜帶致癌基因已致死多人

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財經(jīng)要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

健康
教育
時尚
手機
軍事航空

這些新療法,讓化療不再那么痛苦

教育要聞

已知正方形的面積是18,求圓的面積

歲月不敗美人,50歲銀發(fā)的她們也太會穿了

手機要聞

有屏下Face ID 蘋果iPhone 18 Pro系列12大創(chuàng)新

軍事要聞

俄烏沖突關(guān)鍵人物在莫斯科被炸死 烏方尚未公開認領(lǐng)

無障礙瀏覽 進入關(guān)懷版