国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

機器人看不清,螞蟻給治好了

0
分享至

天下苦機器人看不清透明反光物體久矣。

畢竟就連小動物甚至人,有時候一個不小心,都會搞笑地撞到干凈的玻璃門……

不僅如此,若是讓機器人拿起透明的玻璃杯、反光的不銹鋼物體,他們也會經(jīng)常出現(xiàn)“突然看不清了”的情況。

這一切的問題,正是出在了機器人的眼睛——深度相機。

因為無論是基于結(jié)構(gòu)光還是雙目立體視覺的深度相機,它們的工作原理都是依賴物體表面對光線的穩(wěn)定反射。

而透明材質(zhì)會讓光線直接穿透,高反光材質(zhì)則會將光線漫反射到四面八方,導(dǎo)致傳感器無法接收到有效的回波信號,從而產(chǎn)生大量缺失或錯誤的深度值。

對比一下我們?nèi)祟惪吹降膱鼍昂蜋C器人眼中的場景,就一目了然了:

毫不夸張地說,這類讓機器人睜眼看不清的問題,一直是阻礙它們安全地走進(jìn)家庭、商場和醫(yī)院等場景的Big Big Big Problem!

但現(xiàn)在,隨著一項新技術(shù)的提出,機器人的眼疾終于算是被治好了——

螞蟻集團的具身智能公司螞蟻靈波科技(Robbyant),開源了全球看得最清楚的深度視覺模型,LingBot-Depth

同樣是上面兩個場景,我們直接來看下在LingBot-Depth加持下的效果:

也正因如此,機器人現(xiàn)在不論是抓取反光的不銹鋼杯子,還是透明的玻璃杯,都是易如反掌:

視頻地址:https://mp.weixin.qq.com/s/y-5vx4MVlkucEMwxNQunJA

用一句經(jīng)典歇后語來表達(dá)這個feel,或許就是“老太太戴眼鏡——不簡單”。

確實不簡單。

因為LingBot-Depth不僅解鎖了“全球看得最清楚”的頭銜,還是首次在不需要換硬件的條件下就能實現(xiàn)的那種。

那么螞蟻靈波到底是怎么做到的,我們這就細(xì)扒一下論文。

咋就一下子能看清了?

在很多非專業(yè)討論中,透明和反光常常被混為一談,統(tǒng)稱為視覺難點。

但若是從算法層面來看,它倆其實是兩類截然不同、甚至相反的問題。

首先,透明物體的問題在于信息缺失。

玻璃幾乎不提供穩(wěn)定的紋理,也不會像普通物體那樣反射環(huán)境光,相機看到的,更多是背景的延續(xù)。

對于深度模型來說,它既不知道玻璃本身到哪兒才算結(jié)束,也不知道真實厚度和形態(tài)。

而反光物體的問題,恰恰相反,是信息過載。

高反射率表面會把環(huán)境、光源、相機本身統(tǒng)統(tǒng)映射進(jìn)畫面,導(dǎo)致同一物體在不同角度、不同時間下呈現(xiàn)完全不同的外觀。

因此,模型很難判斷,哪些像素屬于物體,哪些只是倒影。

這也意味著,如果用一套統(tǒng)一的假設(shè)去處理這兩類問題,往往兩頭都做不好。

LingBot-Depth的一個重要設(shè)計思想,正是明確區(qū)分透明和反光這兩種類型的物理成因,而不是把它們簡單當(dāng)成噪聲。

為此,螞蟻靈波團隊想到了一個非常反直覺的解法

既然傳感器在這些地方失效了,那這個失效本身,不就是一種最有力的特征嗎?

因為傳感器輸出的那些缺失區(qū)域,其實是一個天然的掩碼(Natural Mask),起碼可以告訴模型這塊區(qū)域有問題。

受今年大火的MAE(Masked Autoencoders)的啟發(fā),團隊便提出了一種名為Masked Depth Modeling(MDM,掩碼深度建模)全新范式。

簡單來說,LingBot-Depth在訓(xùn)練的過程中,會把深度圖中那些天然缺失的區(qū)域作為掩碼,然后要求模型僅憑完整的RGB彩色圖像和剩余的有效深度信息,去腦補出被掩碼遮住的那部分深度。

但這個過程也是非常具有挑戰(zhàn)性的。

模型必須學(xué)會從RGB圖像中挖掘出極其細(xì)微的線索,比如玻璃邊緣的折射畸變、反光表面的環(huán)境倒影、物體的輪廓和陰影,然后將這些視覺上下文與已知的幾何信息進(jìn)行深度融合,才能做出準(zhǔn)確的推斷。

為了實現(xiàn)這一目標(biāo),LingBot-Depth在技術(shù)架構(gòu)上也是做了一些小巧思:

首先是聯(lián)合嵌入的ViT架構(gòu)。

模型采用視覺Transformer(ViT-Large)作為主干網(wǎng)絡(luò),它會對輸入的RGB圖像和深度圖分別進(jìn)行分塊(Patch Embedding),生成兩組Tokens。

為了區(qū)分這兩種模態(tài),模型還引入了模態(tài)編碼(Modality Embedding),告訴網(wǎng)絡(luò)哪些令牌來自顏色,哪些來自深度。隨后,通過自注意力機制,模型能夠自動學(xué)習(xí)顏色與深度之間的精細(xì)對應(yīng)關(guān)系,建立起跨模態(tài)的聯(lián)合表征。

其次是智能掩碼策略。

不同于MAE中完全隨機的掩碼,MDM的掩碼策略更聰明。它優(yōu)先使用傳感器天然產(chǎn)生的缺失區(qū)域作為掩碼;對于部分有效、部分無效的深度塊,則以高概率(如75%)進(jìn)行掩碼;如果天然掩碼不夠,才會補充一些隨機掩碼。

這種策略確保了模型始終在解決最困難、最真實的問題。

最后是ConvStack解碼器。

在重建階段,模型放棄了傳統(tǒng)的Transformer解碼器,轉(zhuǎn)而采用一個名為ConvStack的卷積金字塔解碼器。

這種結(jié)構(gòu)在處理密集的幾何預(yù)測任務(wù)(如深度圖)時,能更好地保留空間細(xì)節(jié)和邊界銳度,輸出的深度圖更加清晰、連貫。

此外,在數(shù)據(jù)采集與實驗驗證環(huán)節(jié),團隊還使用了奧比中光(Orbbec)的Gemini 330系列雙目3D相機進(jìn)行了大量真實場景的采集與測試。

這不僅保證了數(shù)據(jù)來源的多樣性與真實性,也為模型在實際硬件平臺上的部署提供了重要支持。

通過這種方式,LingBot-Depth不僅學(xué)會了補全深度,更重要的是,它將對3D幾何的深刻理解內(nèi)化到了模型的“骨髓”里。

即使在推理時只給它一張單目RGB圖片(沒有任何深度輸入),它也能憑借學(xué)到的先驗知識,估算出相當(dāng)準(zhǔn)確的深度圖,展現(xiàn)出強大的泛化能力。

1000萬數(shù)據(jù)煉出來的

一個模型再強大,也離不開高質(zhì)量、大規(guī)模的數(shù)據(jù)。

螞蟻靈波團隊構(gòu)建了一套可擴展的數(shù)據(jù)采集與合成的pipeline,其中,200萬來自真實世界,100萬來自高保真仿真模擬;同時,還結(jié)合了開源數(shù)據(jù),最終數(shù)據(jù)量達(dá)到了1000萬。

真實數(shù)據(jù)方面,團隊設(shè)計了一套模塊化的3D打印采集裝置,可以靈活適配多種商用RGB-D相機(如Orbbec Gemini、Intel RealSense、ZED等)。

他們走遍了住宅、辦公室、商場、餐廳、健身房、醫(yī)院、停車場等數(shù)十種場景,系統(tǒng)性地收集了大量包含透明、反光、低紋理等挑戰(zhàn)性物體的真實數(shù)據(jù)。這些數(shù)據(jù)覆蓋了極其豐富的長尾場景,為模型的魯棒性打下了堅實基礎(chǔ)。

仿真數(shù)據(jù)方面,為了模擬真實深度相機的成像缺陷,團隊沒有簡單地渲染完美的深度圖,而是在Blender中同時渲染RGB圖像和帶散斑的紅外立體圖像對。再通過經(jīng)典的半全局匹配(SGM)算法生成有缺陷的仿真深度圖。

這種方法能高度還原真實傳感器在面對復(fù)雜材質(zhì)時的失效模式。

值得注意的是,這套包含200萬真實和100萬仿真數(shù)據(jù)的龐大數(shù)據(jù)集,是螞蟻靈波團隊近期計劃開源的重要資產(chǎn),旨在降低整個行業(yè)在空間感知領(lǐng)域的研究門檻。

算法夠創(chuàng)新,數(shù)據(jù)夠硬核,這才有了LingBot-Depth突出的性能表現(xiàn)。

在多個權(quán)威的深度補全基準(zhǔn)測試(如iBims、NYUv2、DIODE)上,它全面碾壓了當(dāng)前最先進(jìn)的SOTA。

尤其是在最嚴(yán)苛的極端設(shè)定下(深度圖大面積缺失并伴有嚴(yán)重噪聲),LingBot-Depth的RMSE指標(biāo)比此前最好的方法降低了超過40%。

除此之外,盡管模型是在靜態(tài)圖像上訓(xùn)練的,但它在視頻序列上展現(xiàn)出了驚人的時空一致性。

在一段包含玻璃大門、有鏡子和玻璃的健身房、海洋館隧道的視頻中,LingBot-Depth 輸出的深度流不僅填補了原始傳感器的大片空洞,而且在整個視頻過程中保持平滑、穩(wěn)定,沒有任何閃爍或跳變。

為了驗證LingBot-Depth 在真實世界中的價值,螞蟻靈波團隊將其部署到了一臺真實的機器人平臺上。

這套系統(tǒng)由Rokae(節(jié)卡)XMate-SR5機械臂、X Hand-1靈巧手和搭載了 LingBot-Depth 的 Orbbec Gemini 330 系列深度相機組成。

視頻地址:https://mp.weixin.qq.com/s/y-5vx4MVlkucEMwxNQunJA

實驗?zāi)繕?biāo)是抓取一系列對深度感知極具挑戰(zhàn)的物體:不銹鋼杯、透明玻璃杯、透明收納盒和玩具車。

在20次抓取嘗試中,使用LingBot-Depth的成功率遠(yuǎn)高于使用原始深度數(shù)據(jù)。

缺點,有時也是一種優(yōu)勢

解決物理世界的感知難題,好的硬件固然重要,但不一定非要死磕。

這或許就是LingBot-Depth給行業(yè)帶來的一種啟發(fā)。

因為在過去,當(dāng)現(xiàn)有深度相機無法滿足需求時,唯一的出路往往是斥巨資更換更昂貴、更專業(yè)的硬件。

而LingBot-Depth提供了一條軟硬協(xié)同的路徑:它可以在不更換現(xiàn)有相機硬件的前提下,通過算法大幅提升深度感知的魯棒性與完整性。

它可以作為一個即插即用的算法模塊,無縫集成到現(xiàn)有的機器人、自動駕駛汽車或AR/VR設(shè)備的感知鏈路中,以極低的成本,顯著提升其在復(fù)雜真實環(huán)境下的3D感知魯棒性。

例如,在與奧比中光等硬件適配的過程中,團隊驗證了LingBot-Depth能夠在其現(xiàn)有消費級深度相機上實現(xiàn)接近專業(yè)級傳感器的感知效果。

這無疑將大大加速具身智能在家庭服務(wù)、倉儲物流、商業(yè)零售等場景的落地進(jìn)程。

更重要的是,螞蟻靈波秉承開放精神,已經(jīng)開源了LingBot-Depth的代碼和模型權(quán)重,并計劃開源其龐大的300萬RGB-D數(shù)據(jù)集。

這一舉動將極大地降低學(xué)術(shù)界和工業(yè)界在空間感知領(lǐng)域的研究與開發(fā)門檻,有望催生更多創(chuàng)新應(yīng)用,共同推動整個行業(yè)的向前發(fā)展。

除此之外,LingBot-Depth也是有哲學(xué)意味在身上的:

有時候,缺點本身就是一種優(yōu)勢。

你覺得呢?

項目地址:
https://technology.robbyant.com/lingbot-depth

GitHub地址:
https://github.com/robbyant/lingbot-depth

HuggingFace地址:
https://huggingface.co/robbyant/lingbot-depth

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張藝興被曝封殺大結(jié)局!國家話劇院證實,這次終于真相大白了

張藝興被曝封殺大結(jié)局!國家話劇院證實,這次終于真相大白了

離離言幾許
2026-03-12 16:55:07
不是合作,是頂不住:古巴放FBI入境,現(xiàn)實比說辭更冷

不是合作,是頂不?。汗虐头臚BI入境,現(xiàn)實比說辭更冷

老馬拉車莫少裝
2026-03-14 09:51:34
國保文物在閑魚公開售賣標(biāo)價36666元?山西長治通報

國保文物在閑魚公開售賣標(biāo)價36666元?山西長治通報

吉刻新聞
2026-03-14 10:18:35
《夜王》葵芳一角引爆熱潮,港鐵三個站按網(wǎng)友意見改名

《夜王》葵芳一角引爆熱潮,港鐵三個站按網(wǎng)友意見改名

TVB劇評社
2026-03-13 20:35:44
漢朝花大力氣救回蘇武,順手帶回的隨從沒人在意,誰知道此人回去后成了匈奴最頭疼的敵人

漢朝花大力氣救回蘇武,順手帶回的隨從沒人在意,誰知道此人回去后成了匈奴最頭疼的敵人

史海孤雁
2026-03-13 23:30:19
以色列兩大死穴暴露!一不小心,就可能亡國

以色列兩大死穴暴露!一不小心,就可能亡國

毛豆論道
2026-03-13 18:45:32
“唯一貧窮的路被你找到了”,專八女生留守農(nóng)村,網(wǎng)友恨鐵不成鋼

“唯一貧窮的路被你找到了”,專八女生留守農(nóng)村,網(wǎng)友恨鐵不成鋼

妍妍教育日記
2026-03-13 21:47:44
云南凌晨通報:成立調(diào)查組

云南凌晨通報:成立調(diào)查組

星島記事
2026-03-14 09:24:21
央視主持人再洗牌,3人上桌,2人退場,1人換桌,新面孔大有來歷

央視主持人再洗牌,3人上桌,2人退場,1人換桌,新面孔大有來歷

攬星河的筆記
2026-03-13 18:02:28
猶太人正以前所未有的數(shù)量逃離以色列

猶太人正以前所未有的數(shù)量逃離以色列

西樓知趣雜談
2026-03-12 18:04:47
WTT冠軍賽:5平后連得5分!溫瑞博2-0領(lǐng)先,直拍名將救2局點惜敗

WTT冠軍賽:5平后連得5分!溫瑞博2-0領(lǐng)先,直拍名將救2局點惜敗

劉姚堯的文字城堡
2026-03-14 12:25:25
360集團創(chuàng)始人周鴻祎:“龍蝦”用兩三個月做到了我一兩年都沒做到的事

360集團創(chuàng)始人周鴻祎:“龍蝦”用兩三個月做到了我一兩年都沒做到的事

中國經(jīng)營報
2026-03-13 17:38:11
你有知道哪些炸裂的秘密?網(wǎng)友:我有個秘密說出來肯定大家要笑死

你有知道哪些炸裂的秘密?網(wǎng)友:我有個秘密說出來肯定大家要笑死

帶你感受人間冷暖
2026-01-29 00:10:05
隨著朝鮮1-2慘遭淘汰,中國女足若殺入四強,將遭遇世界第15

隨著朝鮮1-2慘遭淘汰,中國女足若殺入四強,將遭遇世界第15

側(cè)身凌空斬
2026-03-13 20:13:08
1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

PChome電腦之家
2026-03-13 11:21:45
上海主持一姐袁鳴素顏逛街,不醫(yī)美不裝嫩,54歲狀態(tài)讓人意外

上海主持一姐袁鳴素顏逛街,不醫(yī)美不裝嫩,54歲狀態(tài)讓人意外

料峭春寒洞
2026-03-14 10:28:34
央視“3·15”晚會官宣!點名四個領(lǐng)域

央視“3·15”晚會官宣!點名四個領(lǐng)域

遠(yuǎn)洋生活家
2026-03-14 10:34:06
伊朗通告66國,美伊可以降溫,但有一個條件,對美以的定位變了

伊朗通告66國,美伊可以降溫,但有一個條件,對美以的定位變了

現(xiàn)代小青青慕慕
2026-03-14 13:08:23
中南女籃今夜打響!CCTV5直播有變!奪第1要取勝,宮魯鳴不再犯錯

中南女籃今夜打響!CCTV5直播有變!奪第1要取勝,宮魯鳴不再犯錯

老吳說體育
2026-03-14 10:26:36
時隔76年,繼朝鮮戰(zhàn)爭之后聯(lián)合國再次通過國家自衛(wèi)權(quán)

時隔76年,繼朝鮮戰(zhàn)爭之后聯(lián)合國再次通過國家自衛(wèi)權(quán)

鳳眼論
2026-03-13 12:14:53
2026-03-14 14:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12279文章數(shù) 176412關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

起底"幽靈直播間":晝伏夜出 自稱賣骨折價名牌工廠貨

頭條要聞

起底"幽靈直播間":晝伏夜出 自稱賣骨折價名牌工廠貨

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

藝術(shù)
時尚
親子
家居
本地

藝術(shù)要聞

第四屆深圳大芬國際油畫雙年展 | 入選油畫選刊(二)

Miu系穿搭過時了?現(xiàn)在最火的風(fēng)格竟然是它

親子要聞

在理性消費時代,中國人開始為“睡得飽”花錢:美的如何用一臺空調(diào),重構(gòu)母嬰睡眠新標(biāo)準(zhǔn)?

家居要聞

藝術(shù)之家 法式優(yōu)雅

本地新聞

坐標(biāo)北京,過敏季反向遷徒

無障礙瀏覽 進(jìn)入關(guān)懷版