国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻具身研究首次亮相!就解決了機(jī)器人「看」透明玻璃這些難題

0
分享至





編輯|冷貓

眾所周知,「具身智能」是連接數(shù)字世界和現(xiàn)實(shí)世界的橋梁。

真正的「具身智能」,是全面自主決策自主行動的通用機(jī)器人,需要建立在對物理世界完全理解的基礎(chǔ)上。

空間視覺感知是自動駕駛、機(jī)器人操作等真實(shí)世界應(yīng)用的底層能力,核心目標(biāo)只有一個(gè):讓機(jī)器能夠理解并參與三維環(huán)境中的交互

這類機(jī)器人大多都以 RGB-D 相機(jī)獲取真實(shí)世界視覺和深度信息,這是行業(yè)內(nèi)綜合了成本,精度,以及實(shí)用性后普遍的選擇。

但物理世界是極為復(fù)雜的,要想讓這些自主執(zhí)行任務(wù)的機(jī)器人卡殼,只需要簡單的一塊玻璃。



家務(wù)機(jī)器人撞玻璃的翻車場面

對機(jī)器來說,玻璃幾乎是世界里的幻影。人類會下意識地把反射、折射進(jìn)行判斷,但機(jī)器人并沒有這種生活經(jīng)驗(yàn)。玻璃這類又透明又反光的物體,恰好屏蔽了 RGB-D 相機(jī)獲取的全部特征,深度和像素點(diǎn)都很難準(zhǔn)確識別。

隨著自動駕駛和智能機(jī)器人離我們的生活越來越近,這個(gè)現(xiàn)象已經(jīng)逐漸成為一個(gè)亟需解決的痛點(diǎn)。

令人欣喜的是,我們發(fā)現(xiàn)剛剛開源的全新具身智能感知模型 LingBot-Depth,非常針對性的解決了機(jī)器人識別真實(shí)世界的「玻璃問題」。

LingBot-Depth 是螞蟻靈波科技開源的高精度空間感知模型,可在不更換硬件的前提下顯著提升透明、反光等復(fù)雜材質(zhì)場景的深度輸出質(zhì)量,給機(jī)器人一雙看清三維空間的眼睛。



LingBot-Depth 在傳統(tǒng)深度傳感器易失效的復(fù)雜場景中,仍可輸出具備真實(shí)尺度的高精度深度結(jié)果

令人振奮的是,從技術(shù)報(bào)告來看,這一模型在深度精度和像素覆蓋率方面均優(yōu)于業(yè)界頂級的深度相機(jī)。



  • 項(xiàng)目鏈接: https://technology.robbyant.com/lingbot-depth
  • HuggingFace 鏈接:https://huggingface.co/robbyant/lingbot-depth
  • 技術(shù)報(bào)告鏈接:https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf

超海量真實(shí)場景與嶄新的訓(xùn)練范式

簡單來講,RGB-D 相機(jī)在復(fù)雜、多變的物理環(huán)境中,卻頻頻暴露出難以回避的短板。

尤其是在面對透明或高反光材質(zhì),例如玻璃、鏡面、不銹鋼表面等等,深度相機(jī)發(fā)射的主動光信號往往無法形成穩(wěn)定、可靠的回波,導(dǎo)致深度測量值缺失或異常,最終在深度圖中表現(xiàn)為大面積空洞、噪聲密集以及物體邊緣的嚴(yán)重?cái)嗔选?/p>

即便是最先進(jìn)的商用傳感器,在一些挑戰(zhàn)性場景中也難以滿足獲取稠密、像素級對齊的幾何信息的需求。



LingBot-Depth 能將含噪且不完整的傳感器深度優(yōu)化為干凈、稠密且具備真實(shí)尺度的三維測量結(jié)果。

除了透明與反光場景外,在強(qiáng)逆光、極暗光或明暗對比極端的場景下,RGB 圖像與深度信息之間的對齊關(guān)系更容易失效,深度圖的穩(wěn)定性和一致性顯著下降。

更關(guān)鍵的是,感知層面的不可靠會被層層放大,直接影響后續(xù)的規(guī)劃與控制:不完整的深度圖會導(dǎo)致機(jī)器人誤判空間,邊緣破碎會影響抓取位姿的計(jì)算,而噪聲與空洞則可能引發(fā)對障礙物距離的系統(tǒng)性偏差。這些問題最終體現(xiàn)為抓取失敗、動作猶豫、路徑規(guī)劃異常,甚至是不可接受的碰撞風(fēng)險(xiǎn),成為制約機(jī)器人從「能演示」走向「可長期落地」的關(guān)鍵瓶頸。

雙線并行的數(shù)據(jù)集

過去解決方案很難達(dá)到令人滿意的效果,核心原因就是數(shù)據(jù)。巧婦難為無米之炊,RGB-D 數(shù)據(jù)比僅包含 RGB 的數(shù)據(jù)要少得多。

更致命的是,現(xiàn)有的大多數(shù) RGB-D 數(shù)據(jù)集,在設(shè)計(jì)之初就刻意回避了真實(shí)世界中最棘手的成像條件,這類數(shù)據(jù)過于干凈,要么選擇紋理豐富、反射少的理想場景;要么干脆依賴渲染引擎,生成近乎完美的深度圖。它們幾乎不包含真實(shí)傳感過程中自然出現(xiàn)的深度空洞、回波缺失和異常噪聲,徹底回避了真實(shí)世界感知的痛點(diǎn)問題。

為了解決這一根本性瓶頸,LingBot-Depth 從數(shù)據(jù)分布本身入手,系統(tǒng)性地重構(gòu)了 RGB-D 訓(xùn)練數(shù)據(jù)的來源與生成方式。其核心思路只有一個(gè):盡可能保留真實(shí)世界傳感過程自然產(chǎn)生的深度缺失模式。

具體來看,螞蟻靈波 構(gòu)建了一套雙路徑并行的數(shù)據(jù)篩選與生成流程。一條路徑基于自建高質(zhì)量 3D 資產(chǎn),走合成仿真路線;另一條路徑則來自真實(shí)世界,通過可擴(kuò)展的 RGB-D 采集系統(tǒng),使用奧比中光等工業(yè)級深度相機(jī)直接采集現(xiàn)實(shí)場景數(shù)據(jù)。

由此,模型訓(xùn)練數(shù)據(jù)被明確劃分為兩類子集:來自合成路徑的 LingBot Depth-S,以及來自真實(shí)采集路徑的 LingBot Depth-R

與現(xiàn)有方法直接輸出完美深度圖不同,LingBot-Depth 在合成流水線中刻意模擬了真實(shí)主動式 RGB-D 相機(jī)的成像過程。研究團(tuán)隊(duì)在 Blender 中同時(shí)渲染 RGB 圖像、精確深度圖以及帶有斑點(diǎn)結(jié)構(gòu)的灰度立體圖像對,并使用半全局匹配(SGM)算法生成深度結(jié)果,從而引入與真實(shí)傳感器高度相似的采集偽影。立體基線、焦距等關(guān)鍵參數(shù)均通過隨機(jī)采樣生成,以覆蓋多樣化的成像幾何條件。



數(shù)據(jù)生成管線的一條合成數(shù)據(jù)樣本。每個(gè)樣本包含一幅 RGB 圖像、一幅渲染得到的理想深度圖、一對帶有散斑圖案的立體圖像、對應(yīng)的真實(shí)視差圖,以及通過半全局匹配(SGM)計(jì)算得到的模擬傳感器深度圖,用以逼近真實(shí)世界主動式深度相機(jī)所產(chǎn)生的成像偽影。

此前一些嘗試模擬不完美深度測量的工作,數(shù)據(jù)規(guī)模普遍偏小;而部分依賴機(jī)器人仿真器的數(shù)據(jù)集,則在視覺保真度上仍與真實(shí)世界存在明顯差距。相比之下,LingBot-Depth 的數(shù)據(jù)構(gòu)建方式,更接近真實(shí)傳感器在復(fù)雜物理環(huán)境中的「所見即所得」。



螞蟻靈波團(tuán)隊(duì)在真實(shí)世界 RGB-D 采集數(shù)據(jù)在不同場景類別下的分布情況。

在此基礎(chǔ)上,除了自行構(gòu)建的320 萬條數(shù)據(jù)外,螞蟻靈波還使用了一些開源數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),最終共構(gòu)建了1000 萬條用于掩碼深度建模的訓(xùn)練樣本,覆蓋了從理想條件到復(fù)雜現(xiàn)實(shí)環(huán)境的多種深度缺失模式。



數(shù)據(jù)管道整理的 MDM 數(shù)據(jù)概覽。展示了共計(jì) 210 萬真實(shí)采集樣本及模擬采集樣本,同時(shí)展示了 RGB-D 輸入和對應(yīng)的 GT 深度圖。

具身智能感知能力的上限,很大程度上不取決于模型結(jié)構(gòu),而取決于是否敢于直面真實(shí)世界的「不完美」。 LingBot-Depth,正是從數(shù)據(jù)這一最底層的環(huán)節(jié),補(bǔ)上了數(shù)據(jù)集中被忽略的一塊短板。

嶄新的思路 —— 掩碼深度建模

傳感器輸出的像素與深度信息的不完整是能夠進(jìn)行優(yōu)化的,將不一致的數(shù)據(jù)作為噪聲剔除,隨后通過算法修補(bǔ),在計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域已經(jīng)是歷史悠久的研究方向。

而 LingBot-Depth 創(chuàng)新性地提出了一個(gè)全新的思路:與其將這些傳感器故障視為需要丟棄的噪聲,不如將其作為有益的學(xué)習(xí)信號加以利用。

在這個(gè)思路的指引下,掩碼深度建模方法(Masked Depth Modeling, MDM)應(yīng)運(yùn)而生,構(gòu)建了 LingBot-Depth 的根基,通過算法對傳感器輸出進(jìn)行增強(qiáng),使機(jī)器人獲得更完整、更穩(wěn)定、更可用的深度圖。



MDM 預(yù)訓(xùn)練方法利用 RGB-D 傳感器中自然缺失的深度測量值作為掩碼,以學(xué)習(xí)度量尺度下完整且精確的深度表示。由此產(chǎn)生的 LingBot-Depth 模型可作為強(qiáng)大的空間感知先驗(yàn),用于下游應(yīng)用,包括 3D 點(diǎn)追蹤和靈巧抓取。

整體框架仍然沿用了近年來視覺領(lǐng)域中行之有效的編碼器–解碼器范式,但學(xué)習(xí)目標(biāo)是:在 RGB-D 輸入條件下,預(yù)測稠密、像素級對齊的場景深度。

與傳統(tǒng) MAE 方法最大的不同在于,MDM 并不依賴人為構(gòu)造的隨機(jī)掩碼。相反,它直接利用 RGB-D 相機(jī)在真實(shí)世界中天然產(chǎn)生的深度缺失區(qū)域 —— 也就是那些由透明、反光、弱紋理等復(fù)雜成像條件引發(fā)的「孔洞」,作為訓(xùn)練時(shí)的掩碼信號。

這一轉(zhuǎn)變看似簡單,卻極具挑戰(zhàn)性。因?yàn)檫@些自然掩碼并非隨機(jī)分布,而是高度集中在視覺和幾何最模糊的位置,其重建難度遠(yuǎn)高于隨機(jī)丟棄的 patch。換句話說,模型必須真正理解 RGB 外觀與幾何結(jié)構(gòu)之間的關(guān)系。

為此,MDM 在架構(gòu)上明確引入了一個(gè)關(guān)鍵約束:RGB 信息始終完整可見,深度信息則存在真實(shí)缺失。模型被迫在「完整的視覺上下文」和「殘缺的幾何觀測」之間建立聯(lián)合推理能力。



MDM 框架示意圖。對應(yīng)于傳感器缺失測量的深度標(biāo)記會被掩碼,ViT 編碼器基于上下文標(biāo)記(即 RGB 圖像)以及剩余未被掩碼的深度標(biāo)記,學(xué)習(xí)聯(lián)合 Embedding 表示。在解碼階段,潛在的深度標(biāo)記被丟棄,解碼器僅依賴潛在的上下文標(biāo)記重建完整的深度圖。右下角展示了一幅未被掩碼的深度圖,作為參考。

面向 RGB-D 的 ViT 設(shè)計(jì)

在具體實(shí)現(xiàn)上,LingBot-Depth 采用了標(biāo)準(zhǔn)的 ViT-Large 作為編碼器主干,但對輸入建模方式進(jìn)行了針對 RGB-D 場景的定制。

RGB 圖像與深度圖通過兩套獨(dú)立的補(bǔ)丁嵌入層進(jìn)行處理,分別生成在同一空間網(wǎng)格上對齊的 RGB token 和深度 token。這種設(shè)計(jì)使得 Transformer 的自注意力機(jī)制能夠在同一空間位置上,同時(shí)建模外觀語義與幾何線索的交互關(guān)系。

此外,為避免不同模態(tài)在注意力計(jì)算中「混淆身份」,模型還顯式引入了模態(tài)嵌入,與二維空間位置編碼共同構(gòu)成每個(gè) token 的位置信息。這種處理方式,使得 ViT 能夠在統(tǒng)一的序列中區(qū)分這是「 RGB 信息」還是「深度信息」,同時(shí)保留空間一致性。

利用深度缺陷,而不是回避它

在掩碼策略上,MDM 并未簡單地對所有缺失深度一刀切。考慮到真實(shí) RGB-D 數(shù)據(jù)中,完全沒有深度缺失的樣本同樣具有重要價(jià)值,模型采用了一種基于補(bǔ)丁統(tǒng)計(jì)的自適應(yīng)掩碼策略:

  • 對深度值完全缺失的 patch,必然作為掩碼;
  • 對同時(shí)包含有效與無效測量的 patch,提高其被掩碼的概率;
  • 若仍未達(dá)到目標(biāo)掩碼比例,再從完全有效的深度 patch 中進(jìn)行隨機(jī)補(bǔ)充。

這一策略的核心目標(biāo),是在保證訓(xùn)練難度的同時(shí),盡可能保留「不完美但有信息量」的深度觀測,讓模型學(xué)會在真實(shí)、不干凈的數(shù)據(jù)分布下進(jìn)行推理。

這也正是 LingBot-Depth 在方法層面最具啟發(fā)性的地方,它開創(chuàng)性地嘗試讓模型理解噪聲背后的物理與視覺規(guī)律。

領(lǐng)先的精度,落地的性能

LingBot-Depth 讓模型在預(yù)訓(xùn)練階段就直面不完整、帶噪聲的深度世界,會顯著增強(qiáng)它對真實(shí)三維結(jié)構(gòu)的理解能力,并在多個(gè)下游任務(wù)中持續(xù)受益。

專業(yè)對口:深度補(bǔ)全

MDM 的核心思想,是在深度存在大量缺失和噪聲的情況下,讓模型學(xué)會利用 RGB 上下文和殘余深度信息去「腦補(bǔ)」完整的幾何結(jié)構(gòu)。因此,第一個(gè)被檢驗(yàn)的任務(wù),自然是深度補(bǔ)全(Depth Completion)。

研究團(tuán)隊(duì)將基于 MDM 預(yù)訓(xùn)練得到的模型 LingBot-Depth,與多種當(dāng)前主流方法(如 OMNI-DC、PromptDA、PriorDA)進(jìn)行了正面對比,并設(shè)計(jì)了兩種極具現(xiàn)實(shí)意義的評測協(xié)議。

區(qū)塊級深度缺失:模擬深度相機(jī)的「翻車現(xiàn)場」

在第一種協(xié)議中,研究團(tuán)隊(duì)通過隨機(jī)抹掉真實(shí)深度圖中的成塊區(qū)域,來模擬真實(shí)傳感器中常見的深度丟失現(xiàn)象;同時(shí),還人為加入高斯噪聲和類似 Kinect 的散粒噪聲,以還原量化誤差、光子噪聲等傳感器偽影。

結(jié)果非常直接:在所有數(shù)據(jù)集、所有難度級別下,LingBot-Depth 均穩(wěn)定超越全部對比方法。



深度補(bǔ)全結(jié)果。(a)在 iBims、NYUv2 和 DIODE 數(shù)據(jù)集上,采用四個(gè)難度級別的區(qū)塊級深度掩碼進(jìn)行評估。(b)在 ETH3D 數(shù)據(jù)集上,使用稀疏 SfM 深度輸入進(jìn)行評估。



尤其是在「極端」條件下,其 RMSE 相比此前表現(xiàn)最好的 PromptDA 仍有顯著下降,說明模型并不是靠「記住干凈數(shù)據(jù)」,而是真正學(xué)會了在結(jié)構(gòu)嚴(yán)重缺失、測量高度不可靠的情況下恢復(fù)合理的三維形狀。

稀疏 SfM 深度:更復(fù)雜的現(xiàn)實(shí)問題

第二種協(xié)議進(jìn)一步拉高了難度:輸入不再是密集但有缺失的深度圖,而是極度稀疏的 SfM / SLAM 點(diǎn)云。在很多真實(shí)應(yīng)用中,當(dāng)深度相機(jī)不可用時(shí),這是獲取幾何信息的唯一途徑。從定性結(jié)果來看,它生成的深度邊界更加清晰,結(jié)構(gòu)連續(xù)性更強(qiáng),尤其在遮擋嚴(yán)重或觀測稀疏的區(qū)域,優(yōu)勢尤為明顯。

不止補(bǔ)全:單目深度估計(jì)

深度補(bǔ)全之外,螞蟻靈波研究團(tuán)隊(duì)進(jìn)一步追問一個(gè)更本質(zhì)的問題:如果模型在預(yù)訓(xùn)練階段學(xué)會了 RGB 與深度之間的對應(yīng)關(guān)系,這種能力是否能遷移到「只有一張 RGB 圖像」的單目深度估計(jì)任務(wù)中?

為此,他們將 LingBot-Depth 的 RGB 編碼器作為預(yù)訓(xùn)練主干,替代目前廣泛使用的 DINOv2,用于初始化 MoGe 模型。

需要注意的是,在這一設(shè)置下,模型在推理階段完全不再接觸深度輸入 —— 深度分支和解碼器被全部移除,考察的是「幾何理解是否已內(nèi)化進(jìn)編碼器」。



在四個(gè)基準(zhǔn)數(shù)據(jù)集上的深度補(bǔ)全方法定性對比。對于每個(gè)數(shù)據(jù)集,依次展示了 RGB 輸入、稀疏 / 被掩碼的深度輸入,以及 OMNI-DC、PromptDA、PriorDA 和 LingBot-Depth 方法的預(yù)測結(jié)果。可以看到,LingBot-Depth 在深度邊界上更加清晰、結(jié)構(gòu)更加完整,尤其是在存在嚴(yán)重遮擋或觀測極為稀疏的區(qū)域,優(yōu)勢尤為明顯。



使用不同預(yù)訓(xùn)練主干網(wǎng)絡(luò)(DINOv2 與 MDM 方法)的 MoGe 單目深度估計(jì)結(jié)果。在 10 個(gè)多樣化的基準(zhǔn)數(shù)據(jù)集上,從仿射不變、尺度不變以及視差不變?nèi)愒u價(jià)指標(biāo)出發(fā),系統(tǒng)評估了深度預(yù)測和點(diǎn)云映射的精度表現(xiàn)。

實(shí)驗(yàn)結(jié)果給出了肯定答案:

在多個(gè)測試數(shù)據(jù)集上,基于 MDM 預(yù)訓(xùn)練的編碼器穩(wěn)定地優(yōu)于 DINOv2 初始化的模型,并且表現(xiàn)出更好的泛化能力。

這說明,這一方法的確是一種能夠將三維幾何知識壓縮進(jìn)視覺表示中的預(yù)訓(xùn)練機(jī)制

總體而言,LingBot-Depth 依托真實(shí)復(fù)雜場景數(shù)據(jù)進(jìn)行訓(xùn)練,使模型能夠覆蓋更多透明、反光和極端光照等長尾情況,因而具備更穩(wěn)定的泛化能力;同時(shí),其對深度空洞與噪聲的有效修復(fù),顯著提升了深度圖的完整性與邊界質(zhì)量。

落地,已就緒

性能再強(qiáng),我們當(dāng)然也不希望它只停留在實(shí)驗(yàn)室里。畢竟,「跑分」從來不是終點(diǎn) —— 只有那些真正走進(jìn)真實(shí)場景、能夠穩(wěn)定支撐工業(yè)生產(chǎn)和機(jī)器人應(yīng)用的模型,才是行業(yè)值得擁抱的模型。

三維世界的穩(wěn)定追蹤

為了檢驗(yàn)?zāi)P蛯?shí)際落地的能力,LingBot-Depth 被進(jìn)一步接入到在線三維追蹤任務(wù)SpatialTrackerV2中,來看其是否真的能夠支撐更復(fù)雜、更長鏈路的幾何應(yīng)用。



相機(jī)追蹤與場景重建結(jié)果。從左到右依次為:RGB 輸入圖像、原始傳感器深度圖、模型生成的精細(xì)深度圖、估計(jì)得到的相機(jī)軌跡,以及最終重建的場景幾何結(jié)構(gòu)。

結(jié)果首先體現(xiàn)在相機(jī)追蹤上。在包含大量玻璃與反光表面的室內(nèi)場景中,替換為 LingBot-Depth 補(bǔ)全后的深度圖后,輸出的相機(jī)軌跡明顯更加平滑、連續(xù)且穩(wěn)定。



動態(tài)三維點(diǎn)追蹤結(jié)果。上:目標(biāo)物體上的查詢點(diǎn);中:被持續(xù)追蹤的三維軌跡(按時(shí)間以彩虹色編碼);下:對應(yīng)的深度圖結(jié)果。

更進(jìn)一步,動態(tài)三維追蹤具有十足的可靠性; LingBot-Depth 輸出的深度,SpatialTrackerV2 能夠恢復(fù)出連貫一致的三維運(yùn)動路徑,彩色軌跡在空間中呈現(xiàn)出清晰的結(jié)構(gòu)與穩(wěn)定的時(shí)序關(guān)系。

從應(yīng)用角度來看,LingBot-Depth 已經(jīng)具備作為基礎(chǔ)感知能力直接嵌入現(xiàn)有三維系統(tǒng)的成熟度

真實(shí)靈巧手的實(shí)戰(zhàn)驗(yàn)證

要驗(yàn)證 LingBot-Depth 是否真正具備真實(shí)世界可用性,最直接、也最有說服力的方式,便是將其直接接入真實(shí)的靈巧抓取系統(tǒng)進(jìn)行實(shí)機(jī)驗(yàn)證

驗(yàn)證系統(tǒng)由 Rokae XMate-SR5 機(jī)械臂 + X Hand-1 靈巧手 和 Orbbec RGB-D 相機(jī)組成,深度圖先被轉(zhuǎn)為點(diǎn)云,再用于預(yù)測抓取姿態(tài)。



抓取實(shí)驗(yàn)的定性結(jié)果。左圖:包含機(jī)械臂、靈巧手和深度相機(jī)的硬件系統(tǒng)示意。右圖:四個(gè)目標(biāo)物體的 RGB 圖像、原始傳感器深度圖,以及 LingBot-Depth 方法生成的精細(xì)深度圖。對于反光物體(鋼杯)和透明物體(玻璃杯、收納盒),原始深度圖嚴(yán)重缺失,而 LingBot-Depth 的方法能夠生成完整且?guī)缀紊蠝?zhǔn)確的深度圖。



抓取姿態(tài)生成與真實(shí)世界執(zhí)行。上圖:將預(yù)測的抓取姿態(tài)以靈巧手形式疊加在由精細(xì)深度重建的點(diǎn)云上進(jìn)行渲染。下圖:機(jī)器人系統(tǒng)在每個(gè)目標(biāo)物體上成功執(zhí)行抓取的場景。

結(jié)果非常直觀:在包含透明、反光物體的真實(shí)場景中,使用原始傳感器深度時(shí),部分物體(如透明收納盒)因深度大面積缺失完全無法抓;而使用 LingBot-Depth 補(bǔ)全后的深度,系統(tǒng)能夠恢復(fù)合理幾何結(jié)構(gòu),抓取成功率顯著提升



靈巧手抓取反光不銹鋼杯



靈巧手抓取透明玻璃杯

在真正的靈巧手交互中,借助 LingBot-Depth 的能力抓起反光的不銹鋼杯和完全透明的玻璃杯完全不在話下,輕而易舉。

此外, LingBot-Depth 在螞蟻靈波團(tuán)隊(duì)的努力下,已經(jīng)完成了模型的輕量化,并完全做好了落地的應(yīng)用準(zhǔn)備

首先,LingBot-Depth 模型的部署非常靈活:它無需更換現(xiàn)有的 RGB-D 或 3D 相機(jī)硬件,就能作為算法增強(qiáng)模塊直接嵌入現(xiàn)有系統(tǒng),大幅降低升級成本和工程門檻。

同時(shí),模型完全開源、可復(fù)現(xiàn),便于研究者和產(chǎn)業(yè)團(tuán)隊(duì)快速進(jìn)行驗(yàn)證、二次訓(xùn)練和工程化集成,加速從實(shí)驗(yàn)室到真實(shí)場景的落地應(yīng)用。

總結(jié)

具身智能具備識別復(fù)雜光照環(huán)境,甚至精準(zhǔn)捕捉透明,反光材質(zhì)物體的能力,就已標(biāo)志著通用級具身智能落地的一大障礙的突破。

歸根結(jié)底,具身智能的發(fā)展不僅是算法迭代的賽跑,更是對行業(yè)認(rèn)知和落地能力的考驗(yàn)。

LingBot-Depth 展示了一種思路的升級:面對真實(shí)世界的復(fù)雜性,在硬件受限的情況下,如何運(yùn)用算法與數(shù)據(jù)、模型與物理認(rèn)知的深度融合,來提升對真實(shí)世界的感知能力,是未來通用具身智能的核心方向。

螞蟻靈波將 LingBot-Depth完全開源,用戶可以通過開源倉庫獲取模型權(quán)重、推理代碼、評測腳本與使用文檔,快速上手實(shí)驗(yàn)與驗(yàn)證;如需面向具體相機(jī)型號或機(jī)器人平臺進(jìn)行工程集成和性能調(diào)優(yōu),也可以對接官方的合作與技術(shù)支持渠道。

開放與可落地的策略,將深刻影響人工智能向現(xiàn)實(shí)價(jià)值轉(zhuǎn)化的速度和格局。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
7000萬粉的網(wǎng)紅白小白怒懟評委:你15年沒發(fā)歌,憑啥說我沒本事?

7000萬粉的網(wǎng)紅白小白怒懟評委:你15年沒發(fā)歌,憑啥說我沒本事?

鄉(xiāng)野小珥
2026-01-26 08:34:43
湖北毒菜曝光:菜販自己不吃,專供外地,劇毒農(nóng)藥只為你好看

湖北毒菜曝光:菜販自己不吃,專供外地,劇毒農(nóng)藥只為你好看

天氣觀察站
2026-01-27 13:27:00
12歲玥兒穿價(jià)值7000元外套,很貴氣!越長越像大S

12歲玥兒穿價(jià)值7000元外套,很貴氣!越長越像大S

大眼妹妹
2026-01-27 08:40:10
何猷君已任海南省政協(xié)委員,此前已任湖北省政協(xié)委員

何猷君已任海南省政協(xié)委員,此前已任湖北省政協(xié)委員

澎湃新聞
2026-01-26 13:11:07
“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關(guān)系

“讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發(fā)生關(guān)系

有書
2026-01-09 21:30:59
四川綿陽一佳人太漂亮,身高177cm體重54kg五官精致到無懈可擊!

四川綿陽一佳人太漂亮,身高177cm體重54kg五官精致到無懈可擊!

TVB的四小花
2026-01-27 11:03:50
“矮大緊”事后補(bǔ)料,“牢A”理論更扎實(shí)!

“矮大緊”事后補(bǔ)料,“牢A”理論更扎實(shí)!

達(dá)文西看世界
2026-01-22 10:52:23
三個(gè)省級政府常務(wù)副職調(diào)整

三個(gè)省級政府常務(wù)副職調(diào)整

上觀新聞
2026-01-27 14:29:02
房東慌了!身份被實(shí)錘,真實(shí)目的被扒,嫣然醫(yī)院新址確定后著急了

房東慌了!身份被實(shí)錘,真實(shí)目的被扒,嫣然醫(yī)院新址確定后著急了

有范又有料
2026-01-24 16:26:39
雷軍無奈宣布:全部下架!

雷軍無奈宣布:全部下架!

電動知家
2026-01-25 15:31:25
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

李健政觀察
2026-01-27 09:50:28
越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

混沌錄
2025-09-17 23:25:04
千萬別姐弟戀,很累!

千萬別姐弟戀,很累!

果粉之家
2026-01-06 11:26:21
Lululemon讓人走光,是故意的還是不小心?

Lululemon讓人走光,是故意的還是不小心?

智商稅研究中心
2026-01-27 10:09:07
遼寧男籃新帥上任,李虎翼獲重用,主力恐被邊緣化

遼寧男籃新帥上任,李虎翼獲重用,主力恐被邊緣化

老垯科普
2026-01-27 13:47:04
破防了!原來只要失業(yè),所有人都一樣!網(wǎng)友:人都快抑郁了

破防了!原來只要失業(yè),所有人都一樣!網(wǎng)友:人都快抑郁了

另子維愛讀史
2026-01-16 21:03:12
取消中考選拔功能、普通高中全員直升,浙江嵊泗教改細(xì)節(jié)披露

取消中考選拔功能、普通高中全員直升,浙江嵊泗教改細(xì)節(jié)披露

澎湃新聞
2026-01-25 19:33:20
甲午戰(zhàn)爭失敗后,假如清政府死不投降,拒不賠款,結(jié)果將是怎樣?

甲午戰(zhàn)爭失敗后,假如清政府死不投降,拒不賠款,結(jié)果將是怎樣?

銘記歷史呀
2026-01-26 19:40:51
1940年炊事員在朱德飯里下毒,槍斃之時(shí),楊奇清提出:重審此案

1940年炊事員在朱德飯里下毒,槍斃之時(shí),楊奇清提出:重審此案

鶴羽說個(gè)事
2026-01-24 15:14:20
范曉萱做客魯豫訪談,網(wǎng)友淚目,只因她談吐與眉眼間竟與大s神似

范曉萱做客魯豫訪談,網(wǎng)友淚目,只因她談吐與眉眼間竟與大s神似

小娛樂悠悠
2026-01-27 10:23:52
2026-01-27 15:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12200文章數(shù) 142551關(guān)注度
往期回顧 全部

科技要聞

理想開始關(guān)店“過冬”,否認(rèn)“百家”規(guī)模

頭條要聞

特朗普突然宣布對韓關(guān)稅升至25% 青瓦臺緊急派人赴美

頭條要聞

特朗普突然宣布對韓關(guān)稅升至25% 青瓦臺緊急派人赴美

體育要聞

帶著母親遺愿戰(zhàn)斗12年,交易添頭成了隊(duì)魂

娛樂要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財(cái)經(jīng)要聞

金價(jià)狂飆 “牛市神話”未完待續(xù)

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

時(shí)尚
游戲
旅游
健康
公開課

降溫了!羽絨服這樣穿顯瘦又時(shí)髦

2026第一場“游戲玩家大戰(zhàn)”,因?yàn)橹Ц秾毤4蚱饋砹耍?/h3>

旅游要聞

泰山之巔驚現(xiàn)七彩燈華奇景 非常罕見

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版