国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

在機(jī)器人眼中,玻璃并不存在

0
分享至

玩了十幾年 3D 掃描,老問題一直沒解決:透明、反光的東西,掃不出來,機(jī)器人看不見


前段時(shí)間新到了一臺(tái)新的 3D 掃描設(shè)備 Revopoint MetroY,想看看新設(shè)備能不能好點(diǎn),試了幾樣?xùn)|西,emmmmm....還是那個(gè)樣


比如我這個(gè)對講機(jī),透明玻璃罩,掃出來只剩后面的屏幕,罩子本身消失了


Hytera 對講機(jī),你值得擁有 玻璃罩子,你擁有不了一點(diǎn)

如果顯示器會(huì)反光,那就直接空白了


比如這個(gè)小玩意兒 你就獲得了這個(gè) Mesh 一下更清晰:屏幕整塊都丟了

玻璃瓶稍微好一點(diǎn),但也缺了不少


Cocia 巧克力奶,山姆有售 看角度,有時(shí)候能撿回來一點(diǎn)

Revopoint MetroY 這玩意兒還不便宜,但該有的問題,是個(gè)個(gè)都在,反正也不知道啥時(shí)候能解決

也是在前段時(shí)間找方案的時(shí)候,和螞蟻那邊聊到他們在做一個(gè)東西,叫 LingBot-Depth,大致上能解決這些問題,方法就是:AI 補(bǔ)全

思路有點(diǎn)反直覺:把「測不準(zhǔn)」的地方當(dāng)作訓(xùn)練材料,讓 AI 能夠理解這些看不清的東西(思路很類似 Bert,這個(gè)后面講)

在用了這個(gè)模型之后,機(jī)器人能穩(wěn)定抓起透明玻璃杯、反光不銹鋼杯


左邊原始深度圖,透明物體大片缺失;右邊補(bǔ)全后,機(jī)器人能抓了

而這個(gè)東西,今天也正式開源了,這里來說道說道


https://github.com/robbyant/lingbot-depth?tab=readme-ov-file 老問題了

說回前文,最早開始玩 3D,還得追溯到 14 年的時(shí)候, Google 發(fā)布 Project Tango,這是一個(gè)空間感知平臺(tái),手機(jī)或平板上集成了深度傳感器、攝像頭、IMU


Project Tango

當(dāng)時(shí),第一時(shí)間搞了一臺(tái)開發(fā)機(jī),當(dāng)時(shí)覺得這玩意要改變世界,結(jié)果掃自己家客廳,落地窗的位置是一個(gè)長方形的虛空

后來呢...Google 2017 年底宣布停止支持,2018 年 3 月正式關(guān)閉

我懷疑他們自己也掃不明白辦公室的玻璃幕墻

如果強(qiáng)行算的話,我最早用上的3D 設(shè)備是 Kinect。不過我當(dāng)時(shí)只是弄來玩舞力全開啥的,還沒想到可以來開發(fā)

再往后,看到有些開發(fā)者朋友,拿它做一些交互應(yīng)用,但碰到透明、反光、吸光的材質(zhì),深度圖上直接出洞,而窗戶經(jīng)常是個(gè)窟窿


Kinect

以前的 Xbox 還有 Kinect,現(xiàn)在咋就沒了

RealSense 用的是紅外結(jié)構(gòu)光,透明物體同樣會(huì)造成深度缺失。比如拍桌面,透明塑料盒大面積丟數(shù)據(jù)

iPhone 的 LiDAR 好一點(diǎn),但鏡面和類鏡面表面還是個(gè)坎


https://developer.apple.com/documentation/avfoundation/capturing-depth-using-the-lidar-camera

它的原理是往外發(fā)激光脈沖,測光往返的時(shí)間來算距離
但鏡面和類鏡面表面還是個(gè)坎

光打上去,直接被彈到別的方向去了,很少能散射回接收器

掃描 App 的教程都會(huì)寫:盡量避開鏡子和高反光表面

比如我現(xiàn)在在廚房,用水龍頭往鍋里倒水,會(huì)發(fā)現(xiàn)水的部分被完全忽視了


軟件是 Record3D:其實(shí)鍋里,有半鍋水了

再比如,如果去拍攝魚缸,會(huì)發(fā)現(xiàn)玻璃缸的位置全是空洞,魚倒是有幾條,飄在虛空里

等等...是不是能拿這玩意兒去釣魚...這個(gè)真沒去試...釣魚佬狂喜

然后,換了不知道多少設(shè)備,反正透明、反光的東西,特別容易出問題

為什么會(huì)這樣

市面上的深度相機(jī),測距原理大概有這么幾種

ToF(飛行時(shí)間)

就是發(fā)一束光出去,測它飛回來用了多久,算出距離,然后算出來它的 3D 結(jié)構(gòu),蘋果各種設(shè)備的 LiDAR(激光雷達(dá))就是這個(gè)原理

結(jié)構(gòu)光

投射一個(gè)已知的圖案(比如點(diǎn)陣)到物體上,看圖案怎么變形,反推深度,早期的 Kinect、Face ID 用的都是這個(gè)

雙目

靠左右兩個(gè)攝像頭拍到的畫面做匹配,通過視差算距離,有的純靠物體表面本身的紋理,比如 ZED 系列

有的會(huì)主動(dòng)往外打紅外紋理來增加匹配點(diǎn),比如 RealSense D 系列、Orbbec Gemini


深度感知的幾種方式 共同的弱點(diǎn)

當(dāng)知道了原理,就很自然的能明白為啥鏡面、透明的物品,測 3D 總是崩:

  • ? 透明的東西,光穿過去了,反射信號(hào)弱或者跑偏

  • ? 鏡面的東西,光彈到別處去了

  • ? 純色無紋理的表面,雙目匹配找不到對應(yīng)點(diǎn)


結(jié)果呢...就是深度圖上出現(xiàn)缺失、噪聲、錯(cuò)誤的深度值,有時(shí)候是一片黑,有時(shí)候是亂跳的數(shù)據(jù)

對人來說無所謂,眼睛看一眼就知道那是玻璃杯,但機(jī)器人就不行了,需要精確的三維坐標(biāo),不然干不了一點(diǎn)活

一個(gè)思路:用「測不準(zhǔn)」當(dāng)訓(xùn)練素材

以前的做法,就是繞開這個(gè)問題
用更貴的傳感器、多傳感器融合、或者干脆限制使用場景

但 AI 時(shí)代了,總是可以有點(diǎn)新的思路:既然這些「測不準(zhǔn)」的區(qū)域是真實(shí)存在的,為什么不拿來當(dāng)學(xué)習(xí)材料?

這個(gè)方法叫 Masked Depth Modeling,簡稱 MDM

大家都是經(jīng)歷過九年義務(wù)教育的優(yōu)秀人才,熟悉古詩詞鑒賞套路和英語完形填空的解題方法

當(dāng)你在試卷里看到:「襯衣的價(jià)格是___
根據(jù)腦補(bǔ),你就會(huì)知道要填「九磅十五便士

深度圖也一樣,根據(jù)周圍的深度值和彩色圖的內(nèi)容,可以推斷空的地方大概是多遠(yuǎn)


MDM訓(xùn)練示意
MDM 訓(xùn)練流程:把缺失的深度當(dāng)作「填空題」

BERT 的訓(xùn)練方式就是這樣,隨機(jī)擋住一些詞,讓模型猜
相當(dāng)于老師出卷子,隨便挑幾個(gè)空讓學(xué)生填

MDM 也是填空題,但出題方式不一樣

  • ? 深度相機(jī)測不準(zhǔn)的地方,必考

  • ? 測得不太穩(wěn)的地方,大概率考

如果這些還湊不夠一張卷子,再從測得準(zhǔn)的地方隨機(jī)挑一些
最后一張卷子大概有 60% 到 90% 是空

這樣訓(xùn)練出來的模型,既會(huì)做難題,也會(huì)做簡單題
深度相機(jī)哪里容易測不準(zhǔn),它就重點(diǎn)練哪里

搞點(diǎn)數(shù)據(jù)

做深度學(xué)習(xí),數(shù)據(jù)是關(guān)鍵
(當(dāng)然,做啥數(shù)據(jù)都是關(guān)鍵)

深度數(shù)據(jù)比普通圖片難搞得多,需要專門的相機(jī)采集

現(xiàn)有的公開數(shù)據(jù)集還有個(gè)問題
大多是精心挑選的「好」數(shù)據(jù),深度圖很完整,沒什么缺失

MDM 需要的,偏偏是帶著缺失的數(shù)據(jù)
越多真實(shí)的「爛數(shù)據(jù)」,對它越有用


于是,螞蟻聯(lián)合奧比中光采集了一批真實(shí)數(shù)據(jù),然后也制作了很多高質(zhì)量合成數(shù)據(jù)

真實(shí)數(shù)據(jù):210 萬張

用 3D 打印做了一個(gè)采集支架,能掛不同型號(hào)的深度相機(jī)

包括主動(dòng)雙目的(RealSense、Orbbec)和被動(dòng)雙目的(ZED)


采集設(shè)備長這樣,一個(gè)支架掛多個(gè)相機(jī),很樸實(shí)

螞蟻的這次數(shù)據(jù)采集和效果驗(yàn)證,是和奧比中光合作的,這是國內(nèi)做 3D 視覺的頭部公司,很多人手上的深度相機(jī)可能就是他們的 Gemini 330 系列


為了收集這些數(shù)據(jù),他們派人跑了住宅、辦公室、商場、健身房、博物館、停車場、醫(yī)院、機(jī)場候機(jī)廳,總共二十多種場景

合成數(shù)據(jù):100 萬張

在 Blender 里用 3D 模型渲染,關(guān)鍵是要模擬「不完美」
你沒看錯(cuò),這里主動(dòng)制造不完美,去復(fù)現(xiàn)真實(shí)相機(jī)的失效模式

這里的做法,就是渲染的時(shí)候故意用傳統(tǒng)的立體匹配算法去算深度

加上 700 萬的公開數(shù)據(jù)集,總共 1000 萬張用于訓(xùn)練

最終的結(jié)果,就是....成功讓 AI 學(xué)會(huì)了識(shí)別這些透明、反光物體


效果怎么樣

下面這些內(nèi)容,都來自技術(shù)報(bào)告


https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf 深度補(bǔ)全

在幾個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上測,按難度分了四檔:
從簡單的隨機(jī)遮擋,到極端的大面積缺失

LingBot-Depth 在所有檔位上都是最好的
室內(nèi)數(shù)據(jù)集上,「極端」檔位的誤差比第二名低 40% 以上


效果對比 輸入、真值、其他方法、LingBot-Depth 視頻深度

只用圖片訓(xùn)練,沒有用視頻,但模型在視頻上表現(xiàn)出了時(shí)序一致性

拿著相機(jī)在玻璃大堂、健身房、水族館隧道這些場景里走

原始深度圖大片缺失,補(bǔ)全后的深度圖則填上了空洞,幀與幀之間還很連貫


機(jī)器人抓取

這是最實(shí)際的應(yīng)用

測試物體:不銹鋼杯、透明玻璃杯、透明收納盒、玩具車

物體

原始深度

補(bǔ)全后

不銹鋼杯

13/20

17/20

透明玻璃杯

12/20

16/20

玩具車

9/20

16/20

透明收納盒

抓不了

10/20

這里得說一下,透明收納盒用原始深度完全抓不了,因?yàn)樯疃葓D上它大面積缺失

用 LingBot-Depth 補(bǔ)全后,成功率 50%;
50% 聽起來不高,但之前是 0%
從「完全不行」到「一半能成」,質(zhì)變


左邊原始深度(透明物體大片缺失),右邊補(bǔ)全后的深度 最后

本項(xiàng)目的代碼、模型權(quán)重現(xiàn)已全部開源,而訓(xùn)練數(shù)據(jù)也將于近期開源x

  • ? 代碼:

  • https://github.com/robbyant/lingbot-depth

  • ? 權(quán)重:

  • https://huggingface.co/robbyant/lingbot-depth

做具身和視覺的團(tuán)隊(duì),可以直接拿來用,很利好具身了

另外:奧比中光也將基于 LingBot-Depth 推出新一代深度相機(jī)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
亞馬遜AWS阿聯(lián)酋數(shù)據(jù)中心發(fā)生火災(zāi),據(jù)稱是“物體撞擊”所致

亞馬遜AWS阿聯(lián)酋數(shù)據(jù)中心發(fā)生火災(zāi),據(jù)稱是“物體撞擊”所致

界面新聞
2026-03-02 09:01:25
殺了哈梅內(nèi)伊后,特朗普訪華的氣氛變了

殺了哈梅內(nèi)伊后,特朗普訪華的氣氛變了

愛下廚的阿釃
2026-03-02 17:06:15
皇馬0-1赫塔費(fèi),賽后評(píng)分:不是維尼修斯第一,赫塔費(fèi)13號(hào)排第一

皇馬0-1赫塔費(fèi),賽后評(píng)分:不是維尼修斯第一,赫塔費(fèi)13號(hào)排第一

側(cè)身凌空斬
2026-03-03 06:05:50
98年女同學(xué)邀我去她家看碟片,午夜時(shí)分,她家空無一人

98年女同學(xué)邀我去她家看碟片,午夜時(shí)分,她家空無一人

不易一字
2026-02-27 17:18:50
再現(xiàn)“黑天鵝”!直線暴跌,超15萬人爆倉

再現(xiàn)“黑天鵝”!直線暴跌,超15萬人爆倉

上海約飯局
2026-03-02 16:07:06
鐵飯碗不鐵了!中國公務(wù)員7年來首次縮招,還有一個(gè)壞消息

鐵飯碗不鐵了!中國公務(wù)員7年來首次縮招,還有一個(gè)壞消息

戶外阿毽
2026-03-02 19:11:27
男籃世預(yù)賽出線形勢!3隊(duì)提前晉級(jí)12強(qiáng):第一支被淘汰球隊(duì)誕生!

男籃世預(yù)賽出線形勢!3隊(duì)提前晉級(jí)12強(qiáng):第一支被淘汰球隊(duì)誕生!

籃球快餐車
2026-03-03 02:03:09
獲97枚金牌,在肩上紋奧運(yùn)五環(huán)的“蝶后”,竟選擇嫁給2婚的莫科

獲97枚金牌,在肩上紋奧運(yùn)五環(huán)的“蝶后”,竟選擇嫁給2婚的莫科

查爾菲的筆記
2026-03-02 16:14:03
韓國漁民發(fā)現(xiàn)漂浮尸體,竟是此前被報(bào)失蹤的大學(xué)生!

韓國漁民發(fā)現(xiàn)漂浮尸體,竟是此前被報(bào)失蹤的大學(xué)生!

奮斗在韓國
2026-03-02 12:07:08
入獄住單間全監(jiān)安空調(diào),獄中16年狂賺30億,為何他能如此豪橫

入獄住單間全監(jiān)安空調(diào),獄中16年狂賺30億,為何他能如此豪橫

少女百褶臉
2026-02-07 14:32:51
伊朗代表直接警告美方:我建議你保持禮貌!

伊朗代表直接警告美方:我建議你保持禮貌!

看看新聞Knews
2026-03-01 17:11:05
3-0,26歲國米舊將精確制導(dǎo),助意甲第12完勝佛羅倫薩,終結(jié)3連敗

3-0,26歲國米舊將精確制導(dǎo),助意甲第12完勝佛羅倫薩,終結(jié)3連敗

側(cè)身凌空斬
2026-03-03 05:39:45
最高法:明確夫妻一方違反忠實(shí)義務(wù)將共同財(cái)產(chǎn)贈(zèng)與第三人的行為無效

最高法:明確夫妻一方違反忠實(shí)義務(wù)將共同財(cái)產(chǎn)贈(zèng)與第三人的行為無效

紅星新聞
2026-03-02 15:17:26
弦子發(fā)文報(bào)平安!在迪拜遭遇航班取消無法回國,李茂租車過境阿曼

弦子發(fā)文報(bào)平安!在迪拜遭遇航班取消無法回國,李茂租車過境阿曼

韓小娛
2026-03-03 07:09:30
油市“末日時(shí)鐘”: 中東產(chǎn)油國將被迫停產(chǎn) 油價(jià)沖擊200美元?

油市“末日時(shí)鐘”: 中東產(chǎn)油國將被迫停產(chǎn) 油價(jià)沖擊200美元?

每日經(jīng)濟(jì)新聞
2026-03-02 21:42:28
美國駐巴基斯坦卡拉奇領(lǐng)館遭沖擊 至少8人死亡

美國駐巴基斯坦卡拉奇領(lǐng)館遭沖擊 至少8人死亡

中國網(wǎng)
2026-03-01 22:32:20
才3月,今年最重頭的大戲就上演了

才3月,今年最重頭的大戲就上演了

獨(dú)立魚
2026-03-02 21:09:30
3-0!謝謝你,勇士!神級(jí)血賺大交易

3-0!謝謝你,勇士!神級(jí)血賺大交易

籃球?qū)崙?zhàn)寶典
2026-03-02 16:26:02
長居迪拜的中國人講述:小區(qū)里的烏克蘭、俄羅斯鄰居,隨身帶著應(yīng)急包

長居迪拜的中國人講述:小區(qū)里的烏克蘭、俄羅斯鄰居,隨身帶著應(yīng)急包

南方都市報(bào)
2026-03-02 14:28:19
鄭欽文曬照新教練技改,外媒稱其劍指法網(wǎng)陽光雙賽成績是合作關(guān)鍵

鄭欽文曬照新教練技改,外媒稱其劍指法網(wǎng)陽光雙賽成績是合作關(guān)鍵

網(wǎng)球之家
2026-03-02 22:25:57
2026-03-03 07:47:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關(guān)注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級(jí)A19芯片

頭條要聞

媒體:遭受慘烈襲擊后 伊朗做了件"史無前例"的事

頭條要聞

媒體:遭受慘烈襲擊后 伊朗做了件"史無前例"的事

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
健康
本地
公開課

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

今年春天一定要擁有的4件衣服,太好看了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

本地新聞

津南好·四時(shí)總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版