国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

機(jī)器人不抓瞎了!清華系創(chuàng)企提出全新VLA框架,讓模型看懂三維世界

0
分享至

機(jī)器人前瞻(公眾號:robot_pro)
作者 許麗思
編輯 漠影

機(jī)器人前瞻12月25日報道,近日,Dexmal 原力靈機(jī)作者團(tuán)隊提出一種全新的 VLA 框架 GeoVLA,它在保留現(xiàn)有視覺-語言模型(VLM)的預(yù)訓(xùn)練能力的同時,采用了一種雙流架構(gòu)(Dual-path Architecture)。


在具身智能的浪潮中,VLA 模型被視為通往通用機(jī)器人的快車道。然而,隨著研究深入到非結(jié)構(gòu)化環(huán)境,現(xiàn)有 VLA 模型面臨著一個嚴(yán)重的維度缺陷:空間失明。

目前,大多數(shù) VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)單純依賴 2D RGB 圖像作為視覺輸入,導(dǎo)致模型眼中的世界“紙片化”,嚴(yán)重缺乏深度信息和幾何先驗;由此帶來的后果是:

  • 深度感知缺失:面對需要精確距離判斷的任務(wù),比如精準(zhǔn)投籃、掛扣環(huán),2D 模型往往“抓瞎”,無法準(zhǔn)確預(yù)測 Z 軸的動作。
  • 空間適應(yīng)性差:一旦物體尺寸發(fā)生變化(Scale Variance)或相機(jī)視角發(fā)生偏移(Viewpoint Shift),便無法理解物體在空間中的本質(zhì)位置,導(dǎo)致任務(wù)失敗。

而GeoVLA 在保留 VLM 強(qiáng)大的語義理解能力的同時,引入專用的點云嵌入網(wǎng)絡(luò) PEN 和空間感知動作專家 3DAE,直接利用深度圖生成的點云數(shù)據(jù),賦予機(jī)器人真正的三維幾何感知能力。

這一設(shè)計不僅在仿真環(huán)境中取得 SOTA,更在真實世界的魯棒性測試中,特別是在視角改變和物體尺度變化的極端條件下,展現(xiàn)出較強(qiáng)適應(yīng)力。

  • 論文名稱: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
  • 論文鏈接: https://arxiv.org/html/2508.09071v2
  • 項目主頁: https://linsun449.github.io/GeoVLA/
一、將任務(wù)解耦,打造全新的端到端框架

常見的做法試圖讓一個 VLM 既懂語義又懂幾何,這往往顧此失彼;GeoVLA 的核心邏輯是選擇把任務(wù)解耦:讓 VLM 負(fù)責(zé)“看懂是什么”,讓點云網(wǎng)絡(luò)負(fù)責(zé)“看清在哪里”。


▲GeoVLA 框架圖

GeoVLA 是一個全新的端到端框架,其流程包含三個關(guān)鍵組件的協(xié)同工作:

  • 語義理解流:利用預(yù)訓(xùn)練的 VLM(如 Prismatic-7B)處理 RGB 圖像和語言指令,提取融合后的視覺-語言特征。
  • 幾何感知流:利用點云嵌入網(wǎng)絡(luò) PEN 處理由深度圖轉(zhuǎn)換而來的點云,獨(dú)立提取高精度的 3D 幾何特征。
  • 動作生成流:通過3D 增強(qiáng)動作專家 3DAE 融合上述兩種特征,生成精確的動作序列。
二、點云嵌入網(wǎng)絡(luò) PEN專為機(jī)器人操作設(shè)計

原始深度圖往往包含大量噪聲,且數(shù)據(jù)稀疏,直接作為輸入效果不佳。點云嵌入網(wǎng)絡(luò) PEN 專為機(jī)器人操作設(shè)計,采用雙路徑架構(gòu)來提取干凈且緊湊的幾何特征:

  • 幾何特征提?。?/strong>使用大核卷積和局部池化的輕量級 CNN,將非結(jié)構(gòu)化的點云編碼為 Patch 級別的幾何 Token。
  • 空間位置編碼:引入在大語言模型中常見的旋轉(zhuǎn)位置編碼 RoPE,它能極好地保留 3D 空間中的相對位置信息,這對于操作任務(wù)至關(guān)重要。


▲雙路徑點云嵌入網(wǎng)絡(luò)細(xì)節(jié)圖

空間錨點(Spatial Anchor)設(shè)計是 PEN 的一大亮點。作者團(tuán)隊并沒有簡單地對所有點云特征進(jìn)行平均池化,而是選擇對應(yīng)于末端執(zhí)行器坐標(biāo)原點的 Token 作為“錨點”。這種以“手”為中心的視角設(shè)計,讓模型能夠顯式地建?!笆帧迸c“物體”之間的幾何關(guān)系,大幅提升操作精度。

三、3D 增強(qiáng)動作專家 3DAE

特征提取只是第一步,如何有效融合 RGB 的語義信息和點云的幾何信息,實現(xiàn)1+1>2的效果,是多模態(tài)研究當(dāng)中的難點。作者團(tuán)隊在動作生成端采用基于擴(kuò)散 Transformer (DiTs) 的架構(gòu),并創(chuàng)新性地引入混合專家 (MoE) 機(jī)制。

  • 靜態(tài)路由策略 (Static Routing):這是一個直覺且有效的策略。在訓(xùn)練過程中,由于 VLM 分支是預(yù)訓(xùn)練的,而點云分支是從頭開始學(xué),如果使用常規(guī)的動態(tài)路由,模型會傾向于走捷徑,只依賴 VLM 分支,忽略點云信息。
  • 強(qiáng)制解耦:作者團(tuán)隊采用了靜態(tài)路由,隨機(jī)丟棄某種模態(tài),逼迫模型必須學(xué)會獨(dú)立利用幾何信息來解決問題,從而確保了雙流信息的有效融合。
四、實驗結(jié)果相對傳統(tǒng) 2D VLA 模型的壓倒性優(yōu)勢

GeoVLA 在仿真和真機(jī)實驗中均展現(xiàn)出對傳統(tǒng) 2D VLA 模型的壓倒性優(yōu)勢,證明顯式 3D 表征在復(fù)雜操作中的不可替代性。

仿真環(huán)境測試結(jié)果


▲LIBERO 評測結(jié)果

在 LIBERO 基準(zhǔn)測試中,GeoVLA 超越所有任務(wù)套件。在最具挑戰(zhàn)性的 LIBERO-90(長程多任務(wù))中,GeoVLA 達(dá)到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。


▲ManiSkill2 評測結(jié)果

在物理仿真更為逼真的 ManiSkill2 中,GeoVLA 優(yōu)勢更加明顯,平均成功率達(dá)到 77%,大幅領(lǐng)先 Dita (66%) 和 CogACT (69%);特別是在 PickClutterYCB 這種物體堆疊雜亂、遮擋嚴(yán)重的任務(wù)中,GeoVLA 憑借點云帶來的幾何理解,保持了極高的操作精度。

真機(jī)環(huán)境與魯棒性測試


▲真機(jī)實驗任務(wù)的變體展示

作者團(tuán)隊使用 WidowX-250s 機(jī)械臂進(jìn)行了廣泛的真機(jī)測試;實驗被分為“基礎(chǔ)任務(wù)”和“3D 感知任務(wù)”。在域內(nèi)任務(wù)中,GeoVLA 在基礎(chǔ)任務(wù)上平均成功率 95.0%,在 3D 感知任務(wù)上為 77.5%,總體平均 86.3%,大幅領(lǐng)先 Pi0 (57.5%) 和 CogACT (76.3%)。特別是在 Put Basketball 和 Put Hairclip 等需要精確空間理解的任務(wù)中,GeoVLA 表現(xiàn)出更好的魯棒性。


▲真機(jī)任務(wù)評測結(jié)果

更令人印象深刻的是 GeoVLA 在分布外(OOD)場景下的魯棒性,這也是 GeoVLA 最核心的突破點:


▲左:投籃任務(wù)變體的評測結(jié)果;右:套娃任務(wù)變體的評測結(jié)果

  • 投籃任務(wù)變體(高度變化):當(dāng)籃筐高度被調(diào)整到訓(xùn)練數(shù)據(jù)未覆蓋的最高位置 (H1) 時,依賴 2D 視覺的 CogACT 和 Pi0 徹底失效,成功率降至 20%;而 GeoVLA 憑借點云信息,依然保持 60% 的成功率。
  • 套娃任務(wù)變體(尺寸變化):面對比訓(xùn)練時大一號的套娃,2D 模型往往因為像素特征不匹配而無法識別;GeoVLA 則通過幾何形狀匹配,保持了 80% 的高成功率。
  • 堆疊積木任務(wù)變體(視角變化):堆疊積木時,當(dāng)相機(jī)視角偏移 45°,CogACT 成功率直接歸零,說明 2D 模型極度依賴特定視角的像素記憶;而 GeoVLA 依然穩(wěn)健,保持 70% 的成功率,證明其學(xué)到了真正的 3D 空間結(jié)構(gòu)。
  • 胡蘿卜任務(wù)變體(移除海綿墊):訓(xùn)練時使用的海綿墊在推理階段被移除,胡蘿卜位置被降低,導(dǎo)致大多數(shù)方法抓取胡蘿卜失??;GeoVLA 則能更穩(wěn)定且成功抓取,展現(xiàn)出更強(qiáng)的泛化能力。
五、結(jié)語: VLA 模型從“看圖說話”向“空間智能跨越

GeoVLA通過引入點云嵌入網(wǎng)絡(luò) PEN 和 3D 增強(qiáng)動作專家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁壘”。

這項工作證明了,在端到端的機(jī)器人學(xué)習(xí)中,顯式引入 3D 幾何表征是提升模型泛化能力和魯棒性的關(guān)鍵。GeoVLA 不僅解決了傳統(tǒng) VLA 模型“看得見但摸不準(zhǔn)”的難題,更為未來具身智能邁向更復(fù)雜、更開放的非結(jié)構(gòu)化環(huán)境提供了一種高效解決方案。

特別是其雙路徑并行設(shè)計和靜態(tài)路由策略,為多模態(tài)融合提供了一個極具參考價值的范式:既保留了大模型的通用語義知識,又補(bǔ)齊了物理世界的幾何常識。對于追求精確操控的具身智能領(lǐng)域而言,GeoVLA 可能是一個重要的里程碑,標(biāo)志著 VLA 模型從“看圖說話”向“空間智能”的實質(zhì)性跨越。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
《老舅》收官,演技大洗牌:郭京飛9.6分倒數(shù),第一當(dāng)之無愧

《老舅》收官,演技大洗牌:郭京飛9.6分倒數(shù),第一當(dāng)之無愧

白面書誏
2025-12-26 16:04:00
這次終于輪到美國“強(qiáng)烈反對”,46年了,就沒有受過這樣的窩囊氣

這次終于輪到美國“強(qiáng)烈反對”,46年了,就沒有受過這樣的窩囊氣

古史青云啊
2025-12-28 14:21:55
中國首批大規(guī)模L3級自動駕駛車輛正式上路行駛

中國首批大規(guī)模L3級自動駕駛車輛正式上路行駛

封面新聞
2025-12-28 10:27:12
毛主席唯一嫡孫現(xiàn)身北京:大批軍方官兵陪同,高顏值妻女畫面流出

毛主席唯一嫡孫現(xiàn)身北京:大批軍方官兵陪同,高顏值妻女畫面流出

博士觀察
2025-12-28 21:13:55
甚至來不及準(zhǔn)備,湘超冠軍永州隊巡游花車為臨時切割公交車改造而成

甚至來不及準(zhǔn)備,湘超冠軍永州隊巡游花車為臨時切割公交車改造而成

懂球帝
2025-12-28 16:35:07
為什么大航海時代不讓女人上船?全是血淚教訓(xùn)

為什么大航海時代不讓女人上船?全是血淚教訓(xùn)

超人強(qiáng)動物俱樂部
2025-12-22 10:59:29
溫實初為沈眉莊守墓18年,臨終前,托人轉(zhuǎn)交甄嬛一封密信

溫實初為沈眉莊守墓18年,臨終前,托人轉(zhuǎn)交甄嬛一封密信

墨染塵香
2025-12-27 21:36:49
注意!多地充電價格調(diào)整,2026年網(wǎng)約車司機(jī)跑車成本要漲了

注意!多地充電價格調(diào)整,2026年網(wǎng)約車司機(jī)跑車成本要漲了

網(wǎng)約車觀察室
2025-12-26 09:53:51
告別英語煩惱!AirPods Pro 3的“同聲傳譯”功能超乎你的想象!

告別英語煩惱!AirPods Pro 3的“同聲傳譯”功能超乎你的想象!

趣聊科技圈
2025-12-28 22:45:59
倒閉率達(dá)43%,多地門店跑路!曾月入5萬的躺賺行業(yè),現(xiàn)也扛不住了

倒閉率達(dá)43%,多地門店跑路!曾月入5萬的躺賺行業(yè),現(xiàn)也扛不住了

財經(jīng)八卦
2025-12-17 20:32:35
4連敗被打回原形!CBA昔日爭冠勁旅逐漸淪為混子球隊,太讓人失望

4連敗被打回原形!CBA昔日爭冠勁旅逐漸淪為混子球隊,太讓人失望

老葉評球
2025-12-28 22:23:28
40年前的奢侈飲料“麥乳精”,到底是什么東西?

40年前的奢侈飲料“麥乳精”,到底是什么東西?

簡食記工作號
2025-12-12 21:11:15
杭州姑娘“兔子警官”主動回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

杭州姑娘“兔子警官”主動回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

都市快報橙柿互動
2025-12-28 14:07:18
早就想打!日媒首次爆料:中國雙航母出動時日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

早就想打!日媒首次爆料:中國雙航母出動時日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

詩意世界
2025-08-21 13:13:50
三連勝重回前四!利物浦3大巨星強(qiáng)勢爆發(fā),薩拉赫徹底失去位置

三連勝重回前四!利物浦3大巨星強(qiáng)勢爆發(fā),薩拉赫徹底失去位置

銳評利物浦
2025-12-28 22:33:17
痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

洲洲影視娛評
2025-12-27 23:22:14
知名女藝人發(fā)文:跑1000公里,瘦了0斤

知名女藝人發(fā)文:跑1000公里,瘦了0斤

大象新聞
2025-12-28 20:17:07
南博事件又添猛將!封蕾被曝光,在私企離職進(jìn)入事業(yè)編,無縫對接

南博事件又添猛將!封蕾被曝光,在私企離職進(jìn)入事業(yè)編,無縫對接

火山詩話
2025-12-28 10:44:39
韓媒:李在明明日入駐青瓦臺辦公,“青瓦臺時代”正式重啟

韓媒:李在明明日入駐青瓦臺辦公,“青瓦臺時代”正式重啟

環(huán)球網(wǎng)資訊
2025-12-28 17:38:59
2025-12-28 23:59:00
機(jī)器人前瞻
機(jī)器人前瞻
專注于機(jī)器人報道的媒體
278文章數(shù) 5關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計劃"應(yīng)全民公投

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計劃"應(yīng)全民公投

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
健康
本地
時尚
公開課

教育要聞

地理干貨|高中地理易錯知識點期末整理

這些新療法,讓化療不再那么痛苦

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

“這頂帽子”太火了,今年流行的風(fēng)格都離不開它

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版