国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

機(jī)器人看不清,螞蟻給治好了

0
分享至

天下苦機(jī)器人看不清透明反光物體久矣。

畢竟就連小動(dòng)物甚至人,有時(shí)候一個(gè)不小心,都會(huì)搞笑地撞到干凈的玻璃門(mén)……

不僅如此,若是讓機(jī)器人拿起透明的玻璃杯反光的不銹鋼物體,他們也會(huì)經(jīng)常出現(xiàn)“突然看不清了”的情況。

這一切的問(wèn)題,正是出在了機(jī)器人的眼睛——深度相機(jī)。

因?yàn)闊o(wú)論是基于結(jié)構(gòu)光還是雙目立體視覺(jué)的深度相機(jī),它們的工作原理都是依賴(lài)物體表面對(duì)光線的穩(wěn)定反射。

而透明材質(zhì)會(huì)讓光線直接穿透,高反光材質(zhì)則會(huì)將光線漫反射到四面八方,導(dǎo)致傳感器無(wú)法接收到有效的回波信號(hào),從而產(chǎn)生大量缺失或錯(cuò)誤的深度值。

對(duì)比一下我們?nèi)祟?lèi)看到的場(chǎng)景和機(jī)器人眼中的場(chǎng)景,就一目了然了:

毫不夸張地說(shuō),這類(lèi)讓機(jī)器人睜眼看不清的問(wèn)題,一直是阻礙它們安全地走進(jìn)家庭、商場(chǎng)和醫(yī)院等場(chǎng)景的Big Big Big Problem!

但現(xiàn)在,隨著一項(xiàng)新技術(shù)的提出,機(jī)器人的眼疾終于算是被治好了——

螞蟻集團(tuán)的具身智能公司螞蟻靈波科技(Robbyant),開(kāi)源了全球看得最清楚的深度視覺(jué)模型,LingBot-Depth。

同樣是上面兩個(gè)場(chǎng)景,我們直接來(lái)看下在LingBot-Depth加持下的效果:

也正因如此,機(jī)器人現(xiàn)在不論是抓取反光的不銹鋼杯子,還是透明的玻璃杯,都是易如反掌:

視頻地址:https://mp.weixin.qq.com/s/y-5vx4MVlkucEMwxNQunJA

用一句經(jīng)典歇后語(yǔ)來(lái)表達(dá)這個(gè)feel,或許就是“老太太戴眼鏡——不簡(jiǎn)單”。

確實(shí)不簡(jiǎn)單。

因?yàn)長(zhǎng)ingBot-Depth不僅解鎖了“全球看得最清楚”的頭銜,還是首次在不需要換硬件的條件下就能實(shí)現(xiàn)的那種。

那么螞蟻靈波到底是怎么做到的,我們這就細(xì)扒一下論文。

咋就一下子能看清了?

在很多非專(zhuān)業(yè)討論中,透明和反光常常被混為一談,統(tǒng)稱(chēng)為視覺(jué)難點(diǎn)。

但若是從算法層面來(lái)看,它倆其實(shí)是兩類(lèi)截然不同、甚至相反的問(wèn)題。

首先,透明物體的問(wèn)題在于信息缺失。

玻璃幾乎不提供穩(wěn)定的紋理,也不會(huì)像普通物體那樣反射環(huán)境光,相機(jī)看到的,更多是背景的延續(xù)。

對(duì)于深度模型來(lái)說(shuō),它既不知道玻璃本身到哪兒才算結(jié)束,也不知道真實(shí)厚度和形態(tài)。

而反光物體的問(wèn)題,恰恰相反,是信息過(guò)載。

高反射率表面會(huì)把環(huán)境、光源、相機(jī)本身統(tǒng)統(tǒng)映射進(jìn)畫(huà)面,導(dǎo)致同一物體在不同角度、不同時(shí)間下呈現(xiàn)完全不同的外觀。

因此,模型很難判斷,哪些像素屬于物體,哪些只是倒影。

這也意味著,如果用一套統(tǒng)一的假設(shè)去處理這兩類(lèi)問(wèn)題,往往兩頭都做不好。

LingBot-Depth的一個(gè)重要設(shè)計(jì)思想,正是明確區(qū)分透明和反光這兩種類(lèi)型的物理成因,而不是把它們簡(jiǎn)單當(dāng)成噪聲。

為此,螞蟻靈波團(tuán)隊(duì)想到了一個(gè)非常反直覺(jué)的解法

既然傳感器在這些地方失效了,那這個(gè)失效本身,不就是一種最有力的特征嗎?

因?yàn)閭鞲衅鬏敵龅哪切┤笔^(qū)域,其實(shí)是一個(gè)天然的掩碼(Natural Mask),起碼可以告訴模型這塊區(qū)域有問(wèn)題。

受今年大火的MAE(Masked Autoencoders)的啟發(fā),團(tuán)隊(duì)便提出了一種名為Masked Depth Modeling(MDM,掩碼深度建模)全新范式。

簡(jiǎn)單來(lái)說(shuō),LingBot-Depth在訓(xùn)練的過(guò)程中,會(huì)把深度圖中那些天然缺失的區(qū)域作為掩碼,然后要求模型僅憑完整的RGB彩色圖像和剩余的有效深度信息,去腦補(bǔ)出被掩碼遮住的那部分深度。

但這個(gè)過(guò)程也是非常具有挑戰(zhàn)性的。

模型必須學(xué)會(huì)從RGB圖像中挖掘出極其細(xì)微的線索,比如玻璃邊緣的折射畸變、反光表面的環(huán)境倒影、物體的輪廓和陰影,然后將這些視覺(jué)上下文與已知的幾何信息進(jìn)行深度融合,才能做出準(zhǔn)確的推斷。

為了實(shí)現(xiàn)這一目標(biāo),LingBot-Depth在技術(shù)架構(gòu)上也是做了一些小巧思:

首先是聯(lián)合嵌入的ViT架構(gòu)。

模型采用視覺(jué)Transformer(ViT-Large)作為主干網(wǎng)絡(luò),它會(huì)對(duì)輸入的RGB圖像和深度圖分別進(jìn)行分塊(Patch Embedding),生成兩組Tokens。

為了區(qū)分這兩種模態(tài),模型還引入了模態(tài)編碼(Modality Embedding),告訴網(wǎng)絡(luò)哪些令牌來(lái)自顏色,哪些來(lái)自深度。隨后,通過(guò)自注意力機(jī)制,模型能夠自動(dòng)學(xué)習(xí)顏色與深度之間的精細(xì)對(duì)應(yīng)關(guān)系,建立起跨模態(tài)的聯(lián)合表征。

其次是智能掩碼策略。

不同于MAE中完全隨機(jī)的掩碼,MDM的掩碼策略更聰明。它優(yōu)先使用傳感器天然產(chǎn)生的缺失區(qū)域作為掩碼;對(duì)于部分有效、部分無(wú)效的深度塊,則以高概率(如75%)進(jìn)行掩碼;如果天然掩碼不夠,才會(huì)補(bǔ)充一些隨機(jī)掩碼。

這種策略確保了模型始終在解決最困難、最真實(shí)的問(wèn)題。

最后是ConvStack解碼器。

在重建階段,模型放棄了傳統(tǒng)的Transformer解碼器,轉(zhuǎn)而采用一個(gè)名為ConvStack的卷積金字塔解碼器。

這種結(jié)構(gòu)在處理密集的幾何預(yù)測(cè)任務(wù)(如深度圖)時(shí),能更好地保留空間細(xì)節(jié)和邊界銳度,輸出的深度圖更加清晰、連貫。

此外,在數(shù)據(jù)采集與實(shí)驗(yàn)驗(yàn)證環(huán)節(jié),團(tuán)隊(duì)還使用了奧比中光(Orbbec)的Gemini 330系列雙目3D相機(jī)進(jìn)行了大量真實(shí)場(chǎng)景的采集與測(cè)試。

這不僅保證了數(shù)據(jù)來(lái)源的多樣性與真實(shí)性,也為模型在實(shí)際硬件平臺(tái)上的部署提供了重要支持。

通過(guò)這種方式,LingBot-Depth不僅學(xué)會(huì)了補(bǔ)全深度,更重要的是,它將對(duì)3D幾何的深刻理解內(nèi)化到了模型的“骨髓”里。

即使在推理時(shí)只給它一張單目RGB圖片(沒(méi)有任何深度輸入),它也能憑借學(xué)到的先驗(yàn)知識(shí),估算出相當(dāng)準(zhǔn)確的深度圖,展現(xiàn)出強(qiáng)大的泛化能力。

1000萬(wàn)數(shù)據(jù)煉出來(lái)的

一個(gè)模型再?gòu)?qiáng)大,也離不開(kāi)高質(zhì)量、大規(guī)模的數(shù)據(jù)。

螞蟻靈波團(tuán)隊(duì)構(gòu)建了一套可擴(kuò)展的數(shù)據(jù)采集與合成的pipeline,其中,200萬(wàn)來(lái)自真實(shí)世界,100萬(wàn)來(lái)自高保真仿真模擬;同時(shí),還結(jié)合了開(kāi)源數(shù)據(jù),最終數(shù)據(jù)量達(dá)到了1000萬(wàn)。

真實(shí)數(shù)據(jù)方面,團(tuán)隊(duì)設(shè)計(jì)了一套模塊化的3D打印采集裝置,可以靈活適配多種商用RGB-D相機(jī)(如Orbbec Gemini、Intel RealSense、ZED等)。

他們走遍了住宅、辦公室、商場(chǎng)、餐廳、健身房、醫(yī)院、停車(chē)場(chǎng)等數(shù)十種場(chǎng)景,系統(tǒng)性地收集了大量包含透明、反光、低紋理等挑戰(zhàn)性物體的真實(shí)數(shù)據(jù)。這些數(shù)據(jù)覆蓋了極其豐富的長(zhǎng)尾場(chǎng)景,為模型的魯棒性打下了堅(jiān)實(shí)基礎(chǔ)。

仿真數(shù)據(jù)方面,為了模擬真實(shí)深度相機(jī)的成像缺陷,團(tuán)隊(duì)沒(méi)有簡(jiǎn)單地渲染完美的深度圖,而是在Blender中同時(shí)渲染RGB圖像和帶散斑的紅外立體圖像對(duì)。再通過(guò)經(jīng)典的半全局匹配(SGM)算法生成有缺陷的仿真深度圖。

這種方法能高度還原真實(shí)傳感器在面對(duì)復(fù)雜材質(zhì)時(shí)的失效模式。

值得注意的是,這套包含200萬(wàn)真實(shí)和100萬(wàn)仿真數(shù)據(jù)的龐大數(shù)據(jù)集,是螞蟻靈波團(tuán)隊(duì)近期計(jì)劃開(kāi)源的重要資產(chǎn),旨在降低整個(gè)行業(yè)在空間感知領(lǐng)域的研究門(mén)檻。

算法夠創(chuàng)新,數(shù)據(jù)夠硬核,這才有了LingBot-Depth突出的性能表現(xiàn)。

在多個(gè)權(quán)威的深度補(bǔ)全基準(zhǔn)測(cè)試(如iBims、NYUv2、DIODE)上,它全面碾壓了當(dāng)前最先進(jìn)的SOTA。

尤其是在最嚴(yán)苛的極端設(shè)定下(深度圖大面積缺失并伴有嚴(yán)重噪聲),LingBot-Depth的RMSE指標(biāo)比此前最好的方法降低了超過(guò)40%。

除此之外,盡管模型是在靜態(tài)圖像上訓(xùn)練的,但它在視頻序列上展現(xiàn)出了驚人的時(shí)空一致性。

在一段包含玻璃大門(mén)、有鏡子和玻璃的健身房、海洋館隧道的視頻中,LingBot-Depth 輸出的深度流不僅填補(bǔ)了原始傳感器的大片空洞,而且在整個(gè)視頻過(guò)程中保持平滑、穩(wěn)定,沒(méi)有任何閃爍或跳變。

為了驗(yàn)證LingBot-Depth 在真實(shí)世界中的價(jià)值,螞蟻靈波團(tuán)隊(duì)將其部署到了一臺(tái)真實(shí)的機(jī)器人平臺(tái)上。

這套系統(tǒng)由Rokae(節(jié)卡)XMate-SR5機(jī)械臂、X Hand-1靈巧手和搭載了 LingBot-Depth 的 Orbbec Gemini 330 系列深度相機(jī)組成。

視頻地址:https://mp.weixin.qq.com/s/y-5vx4MVlkucEMwxNQunJA

實(shí)驗(yàn)?zāi)繕?biāo)是抓取一系列對(duì)深度感知極具挑戰(zhàn)的物體:不銹鋼杯、透明玻璃杯、透明收納盒和玩具車(chē)。

在20次抓取嘗試中,使用LingBot-Depth的成功率遠(yuǎn)高于使用原始深度數(shù)據(jù)。

缺點(diǎn),有時(shí)也是一種優(yōu)勢(shì)

解決物理世界的感知難題,好的硬件固然重要,但不一定非要死磕。

這或許就是LingBot-Depth給行業(yè)帶來(lái)的一種啟發(fā)。

因?yàn)樵谶^(guò)去,當(dāng)現(xiàn)有深度相機(jī)無(wú)法滿足需求時(shí),唯一的出路往往是斥巨資更換更昂貴、更專(zhuān)業(yè)的硬件。

而LingBot-Depth提供了一條軟硬協(xié)同的路徑:它可以在不更換現(xiàn)有相機(jī)硬件的前提下,通過(guò)算法大幅提升深度感知的魯棒性與完整性。

它可以作為一個(gè)即插即用的算法模塊,無(wú)縫集成到現(xiàn)有的機(jī)器人、自動(dòng)駕駛汽車(chē)或AR/VR設(shè)備的感知鏈路中,以極低的成本,顯著提升其在復(fù)雜真實(shí)環(huán)境下的3D感知魯棒性。

例如,在與奧比中光等硬件適配的過(guò)程中,團(tuán)隊(duì)驗(yàn)證了LingBot-Depth能夠在其現(xiàn)有消費(fèi)級(jí)深度相機(jī)上實(shí)現(xiàn)接近專(zhuān)業(yè)級(jí)傳感器的感知效果。

這無(wú)疑將大大加速具身智能在家庭服務(wù)、倉(cāng)儲(chǔ)物流、商業(yè)零售等場(chǎng)景的落地進(jìn)程。

更重要的是,螞蟻靈波秉承開(kāi)放精神,已經(jīng)開(kāi)源了LingBot-Depth的代碼和模型權(quán)重,并計(jì)劃開(kāi)源其龐大的300萬(wàn)RGB-D數(shù)據(jù)集。

這一舉動(dòng)將極大地降低學(xué)術(shù)界和工業(yè)界在空間感知領(lǐng)域的研究與開(kāi)發(fā)門(mén)檻,有望催生更多創(chuàng)新應(yīng)用,共同推動(dòng)整個(gè)行業(yè)的向前發(fā)展。

除此之外,LingBot-Depth也是有哲學(xué)意味在身上的:

有時(shí)候,缺點(diǎn)本身就是一種優(yōu)勢(shì)。

你覺(jué)得呢?

項(xiàng)目地址:
https://technology.robbyant.com/lingbot-depth

GitHub地址:
https://github.com/robbyant/lingbot-depth

HuggingFace地址:
https://huggingface.co/robbyant/lingbot-depth

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陽(yáng)臺(tái)山驚現(xiàn)多個(gè)“絕戶(hù)網(wǎng)” ,國(guó)家明令禁止!官方回應(yīng)

陽(yáng)臺(tái)山驚現(xiàn)多個(gè)“絕戶(hù)網(wǎng)” ,國(guó)家明令禁止!官方回應(yīng)

深圳晚報(bào)
2026-04-27 22:50:59
1.7米、36℃體溫!全球首個(gè)“真人級(jí)”少女AI問(wèn)世,硅基時(shí)代來(lái)了?

1.7米、36℃體溫!全球首個(gè)“真人級(jí)”少女AI問(wèn)世,硅基時(shí)代來(lái)了?

科學(xué)認(rèn)識(shí)論
2026-04-27 14:56:41
從養(yǎng)蝦本到超級(jí)個(gè)體,普通人的AI逆襲

從養(yǎng)蝦本到超級(jí)個(gè)體,普通人的AI逆襲

腦極體
2026-04-16 00:23:57
韓國(guó)瑜主持彈劾聽(tīng)證會(huì)!51名綠委集體擺爛缺席,愧對(duì)島內(nèi)民眾

韓國(guó)瑜主持彈劾聽(tīng)證會(huì)!51名綠委集體擺爛缺席,愧對(duì)島內(nèi)民眾

小影的娛樂(lè)
2026-04-28 12:17:54
最后時(shí)刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準(zhǔn)時(shí)出海

最后時(shí)刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準(zhǔn)時(shí)出海

霽寒飄雪
2026-04-24 10:03:42
世錦賽1/4簽表:趙心童下午五點(diǎn)對(duì)墨菲,吳宜澤對(duì)瓦菲。附交手記錄

世錦賽1/4簽表:趙心童下午五點(diǎn)對(duì)墨菲,吳宜澤對(duì)瓦菲。附交手記錄

阿晞體育
2026-04-28 08:50:40
保利置業(yè)集團(tuán)裁員51%

保利置業(yè)集團(tuán)裁員51%

地產(chǎn)微資訊
2026-04-26 10:48:13
中國(guó)女羽挺進(jìn)尤伯杯八強(qiáng),韓媒:王祉怡遭遇苦戰(zhàn),這就是安洗瑩級(jí)別的實(shí)力?

中國(guó)女羽挺進(jìn)尤伯杯八強(qiáng),韓媒:王祉怡遭遇苦戰(zhàn),這就是安洗瑩級(jí)別的實(shí)力?

畫(huà)夕
2026-04-28 10:55:31
工資10000剛到賬,岳母馬上就發(fā)來(lái):8000給你小舅子,1800交給我

工資10000剛到賬,岳母馬上就發(fā)來(lái):8000給你小舅子,1800交給我

小秋情感說(shuō)
2026-04-28 09:59:45
開(kāi)始了!遼寧艦率13軍艦,強(qiáng)勢(shì)“圍觀美日菲”,25萬(wàn)噸碾壓10萬(wàn)噸

開(kāi)始了!遼寧艦率13軍艦,強(qiáng)勢(shì)“圍觀美日菲”,25萬(wàn)噸碾壓10萬(wàn)噸

基斯默默
2026-04-28 10:24:58
悲催!杭州一女子嫌國(guó)企丈夫沒(méi)本事,攜42萬(wàn)存款離婚,雞飛蛋打了

悲催!杭州一女子嫌國(guó)企丈夫沒(méi)本事,攜42萬(wàn)存款離婚,雞飛蛋打了

火山詩(shī)話
2026-04-27 06:40:09
個(gè)人收款被查了!2026年個(gè)人收款高于這個(gè)數(shù),要小心!

個(gè)人收款被查了!2026年個(gè)人收款高于這個(gè)數(shù),要小心!

新浪財(cái)經(jīng)
2026-04-21 22:04:32
欽州暴雨讓不少車(chē)輛淪為泡水車(chē)!網(wǎng)友:全損機(jī)會(huì)來(lái)了,卻沒(méi)達(dá)標(biāo)準(zhǔn)

欽州暴雨讓不少車(chē)輛淪為泡水車(chē)!網(wǎng)友:全損機(jī)會(huì)來(lái)了,卻沒(méi)達(dá)標(biāo)準(zhǔn)

火山詩(shī)話
2026-04-28 06:34:25
鐘君任湖南日?qǐng)?bào)社社長(zhǎng)兼湖南日?qǐng)?bào)報(bào)業(yè)集團(tuán)董事長(zhǎng)

鐘君任湖南日?qǐng)?bào)社社長(zhǎng)兼湖南日?qǐng)?bào)報(bào)業(yè)集團(tuán)董事長(zhǎng)

汲古知新
2026-04-28 10:52:47
都柏林“定海神針”掛巴勒斯坦旗7個(gè)月拆不掉!專(zhuān)家:用起重機(jī)吧

都柏林“定海神針”掛巴勒斯坦旗7個(gè)月拆不掉!專(zhuān)家:用起重機(jī)吧

愛(ài)爾蘭華人圈
2026-04-27 18:54:26
世界智商地圖,白宮槍擊案爬行逃生的華裔女記者再次證明

世界智商地圖,白宮槍擊案爬行逃生的華裔女記者再次證明

陳意小可愛(ài)
2026-04-28 13:17:57
馬寧發(fā)文回應(yīng)沙媒:今天是真回國(guó)了,不過(guò)是帶著獎(jiǎng)牌回來(lái)的

馬寧發(fā)文回應(yīng)沙媒:今天是真回國(guó)了,不過(guò)是帶著獎(jiǎng)牌回來(lái)的

狗哥是一名內(nèi)拉
2026-04-28 08:54:45
查爾斯在白宮享用下午茶!卡米拉和梅拉尼婭熱聊,不戴皇冠也貴氣

查爾斯在白宮享用下午茶!卡米拉和梅拉尼婭熱聊,不戴皇冠也貴氣

八八尚語(yǔ)
2026-04-28 11:05:18
這才是剛走完長(zhǎng)征的毛主席相貌,美國(guó)人拍攝,滿臉憔悴,瘦到脫相

這才是剛走完長(zhǎng)征的毛主席相貌,美國(guó)人拍攝,滿臉憔悴,瘦到脫相

史之銘
2026-04-25 19:39:39
1-3落后!火箭地震級(jí)重建:阿杜下一站,湖人?

1-3落后!火箭地震級(jí)重建:阿杜下一站,湖人?

籃球盛世
2026-04-28 13:08:04
2026-04-28 13:56:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12547文章數(shù) 176458關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

男子強(qiáng)奸大嫂出獄后又殺人 被執(zhí)行死刑

頭條要聞

男子強(qiáng)奸大嫂出獄后又殺人 被執(zhí)行死刑

體育要聞

人類(lèi)馬拉松"破二"新紀(jì)元,一場(chǎng)跑鞋軍備競(jìng)賽

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

俞敏洪再遭重?fù)?/h3>

汽車(chē)要聞

上汽大眾“攻山頭” ID.ERA 9X劍指細(xì)分前三

態(tài)度原創(chuàng)

本地
游戲
藝術(shù)
數(shù)碼
公開(kāi)課

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

大雷“浩浩媽”官宣B站直播!暢玩美女云集三國(guó)新游

藝術(shù)要聞

靜·觀--第二屆全國(guó)靜物油畫(huà)作品展 作品選刊

數(shù)碼要聞

比AMD還狠!Intel發(fā)新驅(qū)動(dòng):可分配93%內(nèi)存給核顯

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版