国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

300萬對樣本、200萬對實拍:深度估計的數(shù)據(jù)荒,終于被打破

0
分享至



機器之心編輯部

做深度估計、深度補全的人,大概都有過這樣一個瞬間。

模型在 NYU Depth V2 這樣的經(jīng)典 benchmark 上跑出了漂亮的分數(shù),指標也足夠好看。可一旦把同一個模型部署到真實機器人上,問題立刻暴露出來:深度圖邊緣發(fā)糊、遠處漂移,遇到反光材質(zhì)幾乎直接失效。

你第一反應(yīng)往往是實現(xiàn)出了 bug,于是從代碼到訓練流程排查一遍。可最終你會發(fā)現(xiàn),代碼沒問題。

問題出在數(shù)據(jù)。

其實,這不是個例,而是這個方向長期存在的困境之一。

深度估計和深度補全的學術(shù)進展,在某種程度上是被數(shù)據(jù)集的天花板壓著走的。過去十幾年,社區(qū)高度依賴幾個經(jīng)典數(shù)據(jù)集:NYU Depth V2 以公寓和辦公室場景為主,室內(nèi)覆蓋有限;KITTI 面向自動駕駛,室外道路場景扎實,但對具身智能幾乎沒有直接用處;ScanNet 在室內(nèi)重建方向貢獻巨大,但它的幀序列格式并非為配對深度訓練設(shè)計;ETH3D、DIML 各有側(cè)重,規(guī)模都不足以支撐當下大模型時代的訓練需求。

雖然現(xiàn)在有合成數(shù)據(jù)集可以填補數(shù)據(jù)短缺問題,但合成數(shù)據(jù)在渲染材質(zhì)和真實場景之間有一道肉眼可辨的鴻溝。模型在合成數(shù)據(jù)上學到的深度先驗,遇到真實世界的反光金屬、透明玻璃、復雜紋理,往往直接崩壞。

這道鴻溝,沒有大規(guī)模真實數(shù)據(jù),系統(tǒng)性的解法很難實現(xiàn)。直到 3 月底,這個局面終于出現(xiàn)了松動。

螞蟻靈波完成了一件在這個領(lǐng)域久違的動作:一次性開源約 300 萬對高質(zhì)量 RGB - 深度數(shù)據(jù) ——LingBot-Depth-Dataset。每條樣本同時包含 RGB 圖像、傳感器原始深度以及對應(yīng)的真值深度,為訓練提供了完整的對照信號。

整個數(shù)據(jù)集規(guī)模達到2.71TB,其中包括約200 萬對真實采集的 RGB-D 數(shù)據(jù)和 100 萬對高質(zhì)量渲染數(shù)據(jù);在真實數(shù)據(jù)部分,覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共6 款市場主流深度相機,以盡可能還原不同硬件條件下的真實感知分布。

該數(shù)據(jù)集以 CC BY-NC-SA 4.0 協(xié)議開源,允許學術(shù)與非商業(yè)場景下的自由使用與再創(chuàng)作。



  • 魔搭社區(qū) ModelScope:https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
  • HuggingFace:https://huggingface.co/datasets/robbyant/mdm_depth

事實上,該數(shù)據(jù)集的有效性早已在模型層面得到驗證。螞蟻靈波在今年 1 月開源的具身智能感知模型 LingBot-Depth,正是基于這套數(shù)據(jù)訓練而成的。

從實際效果來看,LingBot-Depth 可在不更換硬件的前提下顯著提升透明、反光等復雜材質(zhì)場景的深度輸出質(zhì)量,并且在深度精度和像素覆蓋率這兩項核心指標上,已經(jīng)全面優(yōu)于目前市面上頂尖的工業(yè)級 RGB-D 相機。

正是在這樣的前提下,螞蟻靈波選擇將這套數(shù)據(jù)完整開源,將內(nèi)部驗證過的數(shù)據(jù),向整個社區(qū)開放。



基于 LingBot-Depth-Dataset 數(shù)據(jù)集構(gòu)建的 LingBot-Depth,在傳統(tǒng)深度傳感器易失效的復雜場景中,仍可輸出具備真實尺度的高精度深度結(jié)果

LingBot-Depth 相關(guān)鏈接:

  • Hugging Face:https://huggingface.co/robbyant/lingbot-depth
  • ModelScope:https://modelscope.cn/models/robbyant/lingbot-depth
  • Tech Report:https://arxiv.org/abs/2601.17895

為什么真實數(shù)據(jù)規(guī)模如此關(guān)鍵?

要理解 LingBot-Depth-Dataset 的價值,需要先理解真實采集的深度數(shù)據(jù)為什么難以獲得。

采集成本是第一道門檻。高質(zhì)量的 RGB-D 數(shù)據(jù)采集需要將 RGB 相機與深度傳感器進行時間同步和空間標定,標定精度直接影響深度圖與彩色圖的像素對齊質(zhì)量。大規(guī)模部署多臺設(shè)備、在多個場景下系統(tǒng)性采集,工程復雜度遠高于普通視頻采集。此外,不同場景(強光、弱光、反射表面、透明材質(zhì))對傳感器性能的影響差異顯著,需要針對性處理。

傳感器原始深度圖存在固有缺陷。結(jié)構(gòu)光和 ToF 傳感器采集到的原始深度圖通常包含大量無效像素(空洞),邊緣處存在飛點(flying pixels),在反射或透明表面上深度值失效。這意味著原始傳感器深度圖不能直接作為訓練真值,需要額外的處理步驟來生成稠密、精確的真值深度圖,而這個處理本身就是一個有技術(shù)門檻的問題。

標注真值的獲取難度高。不同于圖像分類可以用人工標注、或者利用網(wǎng)絡(luò)弱監(jiān)督,深度真值必須依賴物理測量或精密的多傳感器融合。激光雷達可以提供高精度稀疏點云,但需要與相機精確標定和時間同步;結(jié)構(gòu)光系統(tǒng)精度有限且對光照敏感;立體匹配可以提供稠密深度但在紋理平坦區(qū)域容易失效。沒有哪種單一方案是完美的,大規(guī)模采集必須在精度、成本和覆蓋度之間做權(quán)衡。

版權(quán)與開放意愿是另一道隱性門檻。工業(yè)界在大規(guī)模數(shù)據(jù)采集上投入了大量資源,但數(shù)據(jù)往往被視為競爭護城河而非公共資源。許多團隊擁有規(guī)??捎^的內(nèi)部數(shù)據(jù)集,卻從未考慮開放。這造成了一種奇特的局面:學術(shù)界對數(shù)據(jù)的渴望與工業(yè)界對數(shù)據(jù)的占有之間存在巨大落差,而學術(shù)研究所依賴的數(shù)據(jù)集,往往是多年前某個團隊順手做的副產(chǎn)品。

正因為以上這些原因,大規(guī)模真實場景 RGB-D 數(shù)據(jù)集在開源社區(qū)中至今仍屬稀缺資源。

300 萬對 RGB-D:一次量級躍遷

螞蟻靈波一口氣開源 300 萬對 RGB-D 樣本,在當前開源社區(qū)中,這已是規(guī)模最大的真實場景 RGB-D 數(shù)據(jù)集之一。

整個數(shù)據(jù)集并不是簡單的數(shù)據(jù)堆疊,而是圍繞真實世界深度感知任務(wù),做了一次結(jié)構(gòu)化設(shè)計,由四個子集構(gòu)成:

RobbyReal:1,400,000 對多設(shè)備采集的真實室內(nèi)場景數(shù)據(jù),構(gòu)成了數(shù)據(jù)集的核心主體。

這部分數(shù)據(jù)覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共 6 款市場主流深度相機。這些設(shè)備在測距范圍、噪聲模式、邊緣表現(xiàn)以及對不同材質(zhì)的響應(yīng)上存在顯著差異。這一設(shè)計的意義在于:將跨設(shè)備差異提前引入訓練分布。

傳統(tǒng)數(shù)據(jù)集往往綁定單一設(shè)備,模型在該設(shè)備上表現(xiàn)良好,但一旦遷移到其他硬件環(huán)境,性能會明顯下降。而 LingBot-Depth-Dataset 通過多設(shè)備數(shù)據(jù),讓模型在訓練階段就接觸到不同傳感器特性,從而提升跨設(shè)備泛化能力。

對于需要實際部署在機器人、AR 設(shè)備或工業(yè)系統(tǒng)中的模型來說,這一點直接決定了其工程可用性。



RobbyReal數(shù)據(jù)集示例

RobbyVla:580,960 對數(shù)據(jù),來自機器人在視覺 - 語言 - 動作(VLA)操作任務(wù)執(zhí)行過程中的實際采集。

傳統(tǒng)深度數(shù)據(jù)集的采集邏輯是人拿著相機掃場景,視角自然、連續(xù),物體在中遠距離。而機器人操作任務(wù)的視角截然不同:拍攝目標物體時距離往往只有 20-50cm,物體邊緣的深度精度決定抓取成??;桌面操作場景的光照復雜,金屬、玻璃、透明塑料等材質(zhì)的深度測量本身就是難點。

這些特性讓 RobbyVla 數(shù)據(jù)具備了現(xiàn)有數(shù)據(jù)集無法替代的價值:它是在真實具身任務(wù)約束下采集的深度數(shù)據(jù),場景分布與機器人學習任務(wù)高度對齊。對于想要訓練空間感知能力服務(wù)于操作任務(wù)的研究者而言,這批數(shù)據(jù)可以直接減少分布外泛化的損耗。



RobbyVla數(shù)據(jù)集示例

RobbySim: 999,264 對仿真渲染數(shù)據(jù),基于雙相機視角生成。

單相機渲染容易引入系統(tǒng)性的視角偏差,雙相機設(shè)置在生成過程中引入了視差約束,生成的深度圖在幾何一致性上更可靠。



RobbySim數(shù)據(jù)集示例

RobbySimVal驗證集(38,976 對)則提供了標準化的仿真場景評估基準,便于研究者在不消耗真實數(shù)據(jù)的前提下快速評估模型在仿真域的表現(xiàn)。



RobbySimVal 驗證集示例

除了數(shù)量龐大,螞蟻靈波在數(shù)據(jù)集質(zhì)量上同樣設(shè)定了極高標準。從原始采集到真值構(gòu)建,LingBot-Depth-Dataset 并未簡單依賴傳感器輸出,而是對深度數(shù)據(jù)進行了系統(tǒng)化處理與校正。

每條樣本包含一張 RGB 圖像、傳感器原始深度圖以及真值深度圖

通過提供原始觀測 + 真值的完整對照信號,模型不僅可以學習深度預(yù)測,還可以學習如何從噪聲數(shù)據(jù)中恢復真實結(jié)構(gòu)。

同時,數(shù)據(jù)在標注過程中遵循統(tǒng)一規(guī)范,對精度和一致性進行了嚴格控制,避免了由于標簽噪聲帶來的訓練偏差。這一點在深度學習中尤為關(guān)鍵,錯誤的深度標簽,往往比沒有標簽更具破壞性。

也正是在這樣的數(shù)量和質(zhì)量保障下,LingBot-Depth-Dataset 的價值不再只是可用的數(shù)據(jù)集,而開始具備更基礎(chǔ)性的意義。

過去幾年,行業(yè)的關(guān)注點更多集中在模型上,更大的參數(shù)規(guī)模、更復雜的架構(gòu)、更強的推理能力。但一個越來越清晰的共識是,模型能力的上限,正在越來越多地由數(shù)據(jù)所決定。尤其是在 AI 從語言走向物理世界的過程中,數(shù)據(jù)的重要性被放大:世界模型需要可交互的環(huán)境數(shù)據(jù),機器人依賴長尾且真實的場景分布,多模態(tài)系統(tǒng)則必須對齊來自不同感知通道的信號。在這樣的背景下,大規(guī)模、高質(zhì)量、結(jié)構(gòu)化的數(shù)據(jù)集,正在成為新的競爭核心。

而 LingBot-Depth-Dataset 的出現(xiàn),本質(zhì)上推動的是一件更底層的轉(zhuǎn)變,讓深度感知,從一個依賴理想條件的實驗室問題,逐步走向可落地、可復用的工程問題。

深度估計、補全這個方向,長期處于一種尷尬的狀態(tài):下游需求(機器人、AR、自動駕駛)增長快,但基礎(chǔ)數(shù)據(jù)資源的開放程度遠不及視覺識別、NLP 等方向。NYUv2 在十多年后仍是標準評測集,某種程度上是因為沒有更好的替代品出現(xiàn),而非它本身足夠好。

就像 ImageNet 重塑了視覺,模擬環(huán)境推動了自動駕駛。對于具身智能而言,高質(zhì)量的空間感知數(shù)據(jù),可能正是那個尚未被充分填補的缺口,而 LingBot-Depth-Dataset 很有可能成為深度估計 / 深度補全領(lǐng)域的新一代 benchmark 基礎(chǔ)。

開源或許不會立刻帶來性能爆炸。但它正在改變一件更底層的事情:我們終于開始擁有,足夠接近真實世界的深度數(shù)據(jù)。

螞蟻靈波在這層基礎(chǔ)設(shè)施上的開源投入,對整個領(lǐng)域而言,每一個不需要從頭采集數(shù)據(jù)的研究團隊,可以把精力放在更高層的問題上。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
貴人搶著送財!下月初,這3個生肖人氣王,橫財砸頭不富都難

貴人搶著送財!下月初,這3個生肖人氣王,橫財砸頭不富都難

毅談生肖
2026-03-31 12:39:37
江蘇女排0-3不敵上海,賽后評分:三人表現(xiàn)不及格含全運會冠軍

江蘇女排0-3不敵上海,賽后評分:三人表現(xiàn)不及格含全運會冠軍

郭夷包工頭
2026-03-31 22:43:08
董潔終于找到最美形象了,亮白色連衣裙搭配修身西服秒變貴婦!

董潔終于找到最美形象了,亮白色連衣裙搭配修身西服秒變貴婦!

說不盡的人心
2026-03-25 10:44:48
伊朗一對“情侶”躲進谷倉中擁吻,被發(fā)現(xiàn)時,已經(jīng)吻了2800年

伊朗一對“情侶”躲進谷倉中擁吻,被發(fā)現(xiàn)時,已經(jīng)吻了2800年

北海史記
2026-03-26 13:31:29
頸動脈彩超報告,沒有這6個描述,就不必擔心腦梗!一定要知道!

頸動脈彩超報告,沒有這6個描述,就不必擔心腦梗!一定要知道!

健康科普365
2026-03-31 19:40:03
有高人預(yù)測:不出10年,社會將出現(xiàn)“6大”改變,早看早做準備!

有高人預(yù)測:不出10年,社會將出現(xiàn)“6大”改變,早看早做準備!

水大叔
2026-03-30 20:41:42
睡前默念這5個字,百歲高僧開示:這是最簡單的“修心聚能”法

睡前默念這5個字,百歲高僧開示:這是最簡單的“修心聚能”法

溫情郵局
2026-03-31 09:34:25
盤點:戰(zhàn)爭滿30日,伊朗被斬首高官全名單!下一個會是誰?

盤點:戰(zhàn)爭滿30日,伊朗被斬首高官全名單!下一個會是誰?

大江看潮
2026-03-30 10:03:00
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
幾種毒蔬菜流通市面,建議:買菜切記避開這3樣!

幾種毒蔬菜流通市面,建議:買菜切記避開這3樣!

健康科普365
2026-01-28 11:00:45
調(diào)查發(fā)現(xiàn):每天都喝酒的人,大多到了50歲后,身體或有4種變化

調(diào)查發(fā)現(xiàn):每天都喝酒的人,大多到了50歲后,身體或有4種變化

醫(yī)學原創(chuàng)故事會
2026-03-31 23:46:06
離譜到家!廣東男子逛媽祖廟竟偷走媽祖9190元的金耳環(huán),男子:拿走給家里供奉的媽祖戴

離譜到家!廣東男子逛媽祖廟竟偷走媽祖9190元的金耳環(huán),男子:拿走給家里供奉的媽祖戴

觀威海
2026-03-31 19:51:08
印度信用崩盤?三哥買貨竟被要求全款先付,這下真成國際笑話了!

印度信用崩盤?三哥買貨竟被要求全款先付,這下真成國際笑話了!

眼界看視野
2026-03-12 13:59:14
全球首艘能裝一萬多輛汽車的運輸船今天試航

全球首艘能裝一萬多輛汽車的運輸船今天試航

財聯(lián)社
2026-03-31 17:52:19
4月起全國統(tǒng)一執(zhí)行醫(yī)保新規(guī):1965-1985年出生,退休待遇一清二楚

4月起全國統(tǒng)一執(zhí)行醫(yī)保新規(guī):1965-1985年出生,退休待遇一清二楚

小談食刻美食
2026-03-31 08:29:57
俄羅斯10萬噸石油抵達古巴,特朗普:沒有任何意見!遭美國封鎖,古巴3個月未接收油輪,多次大停電,民眾燒木炭煮飯

俄羅斯10萬噸石油抵達古巴,特朗普:沒有任何意見!遭美國封鎖,古巴3個月未接收油輪,多次大停電,民眾燒木炭煮飯

每日經(jīng)濟新聞
2026-04-01 00:46:06
范冰冰曼谷慈善夜紫藤花裙亮相,東方雅致與奢華感完美融合

范冰冰曼谷慈善夜紫藤花裙亮相,東方雅致與奢華感完美融合

述家娛記
2026-03-30 11:13:45
張愛玲:人生最大的悲哀不是選錯伴侶,也不是沒掙到錢,而是人到中年才發(fā)現(xiàn),從未真正為自己活過

張愛玲:人生最大的悲哀不是選錯伴侶,也不是沒掙到錢,而是人到中年才發(fā)現(xiàn),從未真正為自己活過

四行書
2026-03-27 12:33:32
何超盈6歲女兒舉辦藝術(shù)展,何超盈亮相一臉自豪,辛奇隆再度缺席

何超盈6歲女兒舉辦藝術(shù)展,何超盈亮相一臉自豪,辛奇隆再度缺席

八斗小先生
2026-03-31 10:36:34
快訊!印度再次對華企業(yè)實施禁止令!

快訊!印度再次對華企業(yè)實施禁止令!

達文西看世界
2026-03-31 17:57:07
2026-04-01 03:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12648文章數(shù) 142600關(guān)注度
往期回顧 全部

科技要聞

華為2025年銷售收入8809億,凈利潤680億元

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭 前提是訴求得到滿足

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭 前提是訴求得到滿足

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

《月鱗綺紀》空降 鞠婧祎卻被舉報偷稅

財經(jīng)要聞

油價暴漲 我們的生活成本會飆升多少?

汽車要聞

騰勢Z9GT到底GT在哪?

態(tài)度原創(chuàng)

藝術(shù)
教育
時尚
健康
軍事航空

藝術(shù)要聞

震撼!他筆下的美女,色彩美得讓人無法自拔!

教育要聞

微專題:高考地理中的地理實驗

「性治療室」里的00后,男多女少

干細胞抗衰4大誤區(qū),90%的人都中招

軍事要聞

特朗普:即使霍爾木茲海峽仍關(guān)閉 也愿意結(jié)束戰(zhàn)爭

無障礙瀏覽 進入關(guān)懷版