国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

打破2D視覺(jué)枷鎖,全新端到端框架GeoVLA重構(gòu)機(jī)器人空間感知

0
分享至





論文名稱(chēng): GeoVLA: Empowering 3D Representation in Vision-Language-Action Models

在具身智能的浪潮中,VLA 模型被視為通往通用機(jī)器人的快車(chē)道。然而,隨著研究深入到非結(jié)構(gòu)化環(huán)境,現(xiàn)有 VLA 模型面臨著一個(gè)嚴(yán)重的維度缺陷:空間失明。

目前,大多數(shù) VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)單純依賴(lài) 2D RGB 圖像作為視覺(jué)輸入,導(dǎo)致模型眼中的世界“紙片化”,嚴(yán)重缺乏深度信息和幾何先驗(yàn);由此帶來(lái)的后果是:

深度感知缺失:面對(duì)需要精確距離判斷的任務(wù),比如精準(zhǔn)投籃、掛扣環(huán),2D 模型往往“抓瞎”,無(wú)法準(zhǔn)確預(yù)測(cè) Z 軸的動(dòng)作。

空間適應(yīng)性差:一旦物體尺寸發(fā)生變化(Scale Variance)或相機(jī)視角發(fā)生偏移(Viewpoint Shift),便無(wú)法理解物體在空間中的本質(zhì)位置,導(dǎo)致任務(wù)失敗。



圖 1:GeoVLA 整體示意圖

Dexmal 原力靈機(jī)作者團(tuán)隊(duì)提出一種全新的 VLA 框架 GeoVLA,它在保留現(xiàn)有視覺(jué)-語(yǔ)言模型(VLM)的預(yù)訓(xùn)練能力的同時(shí),采用了一種優(yōu)雅的雙流架構(gòu)(Dual-path Architecture)。

具體而言,GeoVLA 在保留 VLM 強(qiáng)大的語(yǔ)義理解能力的同時(shí),引入專(zhuān)用的點(diǎn)云嵌入網(wǎng)絡(luò) PEN 和空間感知?jiǎng)幼鲗?zhuān)家 3DAE,直接利用深度圖生成的點(diǎn)云數(shù)據(jù),賦予機(jī)器人真正的三維幾何感知能力。

這一設(shè)計(jì)不僅在仿真環(huán)境中取得 SOTA,更在真實(shí)世界的魯棒性測(cè)試中,特別是在視角改變和物體尺度變化的極端條件下,展現(xiàn)出驚人的適應(yīng)力。

方法框架

常見(jiàn)的做法試圖讓一個(gè) VLM 既懂語(yǔ)義又懂幾何,這往往顧此失彼;GeoVLA 的核心邏輯是選擇把任務(wù)解耦:讓 VLM 負(fù)責(zé)“看懂是什么”,讓點(diǎn)云網(wǎng)絡(luò)負(fù)責(zé)“看清在哪里”。



圖2:GeoVLA 框架圖

GeoVLA 是一個(gè)全新的端到端框架,其流程包含三個(gè)關(guān)鍵組件的協(xié)同工作:

語(yǔ)義理解流:利用預(yù)訓(xùn)練的 VLM(如 Prismatic-7B)處理 RGB 圖像和語(yǔ)言指令,提取融合后的視覺(jué)-語(yǔ)言特征。

幾何感知流:利用點(diǎn)云嵌入網(wǎng)絡(luò) PEN 處理由深度圖轉(zhuǎn)換而來(lái)的點(diǎn)云,獨(dú)立提取高精度的 3D 幾何特征。

動(dòng)作生成流:通過(guò)3D 增強(qiáng)動(dòng)作專(zhuān)家 3DAE 融合上述兩種特征,生成精確的動(dòng)作序列。

點(diǎn)云嵌入網(wǎng)絡(luò) PEN



圖 3:雙路徑點(diǎn)云嵌入網(wǎng)絡(luò)細(xì)節(jié)圖

原始深度圖往往包含大量噪聲,且數(shù)據(jù)稀疏,直接作為輸入效果不佳。點(diǎn)云嵌入網(wǎng)絡(luò) PEN 專(zhuān)為機(jī)器人操作設(shè)計(jì),采用雙路徑架構(gòu)來(lái)提取干凈且緊湊的幾何特征:

幾何特征提?。菏褂么蠛司矸e和局部池化的輕量級(jí) CNN,將非結(jié)構(gòu)化的點(diǎn)云編碼為 Patch 級(jí)別的幾何 Token。

空間位置編碼:引入在大語(yǔ)言模型中常見(jiàn)的旋轉(zhuǎn)位置編碼 RoPE,它能極好地保留 3D 空間中的相對(duì)位置信息,這對(duì)于操作任務(wù)至關(guān)重要。

空間錨點(diǎn)(Spatial Anchor)設(shè)計(jì)是 PEN 的一大亮點(diǎn)。作者團(tuán)隊(duì)并沒(méi)有簡(jiǎn)單地對(duì)所有點(diǎn)云特征進(jìn)行平均池化,而是選擇對(duì)應(yīng)于末端執(zhí)行器坐標(biāo)原點(diǎn)的 Token 作為“錨點(diǎn)”。這種以“手”為中心的視角設(shè)計(jì),讓模型能夠顯式地建模“手”與“物體”之間的幾何關(guān)系,大幅提升操作精度。

3D 增強(qiáng)動(dòng)作專(zhuān)家 3DAE

特征提取只是第一步,如何有效融合 RGB 的語(yǔ)義信息和點(diǎn)云的幾何信息,實(shí)現(xiàn)1+1>2的效果,是多模態(tài)研究當(dāng)中的難點(diǎn)。作者團(tuán)隊(duì)在動(dòng)作生成端采用基于擴(kuò)散 Transformer (DiTs) 的架構(gòu),并創(chuàng)新性地引入混合專(zhuān)家 (MoE) 機(jī)制。

靜態(tài)路由策略 (Static Routing):這是一個(gè)直覺(jué)且有效的策略。在訓(xùn)練過(guò)程中,由于 VLM 分支是預(yù)訓(xùn)練的,而點(diǎn)云分支是從頭開(kāi)始學(xué),如果使用常規(guī)的動(dòng)態(tài)路由,模型會(huì)傾向于走捷徑,只依賴(lài) VLM 分支,忽略點(diǎn)云信息。

強(qiáng)制解耦:作者團(tuán)隊(duì)采用了靜態(tài)路由,隨機(jī)丟棄某種模態(tài),逼迫模型必須學(xué)會(huì)獨(dú)立利用幾何信息來(lái)解決問(wèn)題,從而確保了雙流信息的有效融合。

實(shí)驗(yàn)結(jié)果

GeoVLA 在仿真和真機(jī)實(shí)驗(yàn)中均展現(xiàn)出對(duì)傳統(tǒng) 2D VLA 模型的壓倒性?xún)?yōu)勢(shì),證明顯式 3D 表征在復(fù)雜操作中的不可替代性。

仿真環(huán)境測(cè)試結(jié)果



表 1:LIBERO 評(píng)測(cè)結(jié)果

在 LIBERO 基準(zhǔn)測(cè)試中,GeoVLA 超越所有任務(wù)套件。在最具挑戰(zhàn)性的 LIBERO-90(長(zhǎng)程多任務(wù))中,GeoVLA 達(dá)到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。



表 2:ManiSkill2 評(píng)測(cè)結(jié)果

在物理仿真更為逼真的 ManiSkill2 中,GeoVLA 優(yōu)勢(shì)更加明顯,平均成功率達(dá)到 77%,大幅領(lǐng)先 Dita (66%) 和 CogACT (69%);特別是在 PickClutterYCB 這種物體堆疊雜亂、遮擋嚴(yán)重的任務(wù)中,GeoVLA 憑借點(diǎn)云帶來(lái)的幾何理解,保持了極高的操作精度。

真機(jī)環(huán)境與魯棒性測(cè)試



圖 4:真機(jī)實(shí)驗(yàn)任務(wù)的變體展示

作者團(tuán)隊(duì)使用 WidowX-250s 機(jī)械臂進(jìn)行了廣泛的真機(jī)測(cè)試;實(shí)驗(yàn)被分為“基礎(chǔ)任務(wù)”和“3D 感知任務(wù)”。在域內(nèi)任務(wù)中,GeoVLA 在基礎(chǔ)任務(wù)上平均成功率 95.0%,在 3D 感知任務(wù)上為 77.5%,總體平均 86.3%,大幅領(lǐng)先 Pi0 (57.5%) 和 CogACT (76.3%)。特別是在 Put Basketball 和 Put Hairclip 等需要精確空間理解的任務(wù)中,GeoVLA 表現(xiàn)出更好的魯棒性。



表 4:真機(jī)任務(wù)評(píng)測(cè)結(jié)果

更令人印象深刻的是 GeoVLA 在分布外(OOD)場(chǎng)景下的魯棒性,這也是 GeoVLA 最核心的突破點(diǎn):



表 5(左):投籃任務(wù)變體的評(píng)測(cè)結(jié)果;表 6(右):套娃任務(wù)變體的評(píng)測(cè)結(jié)果

投籃任務(wù)變體(高度變化):當(dāng)籃筐高度被調(diào)整到訓(xùn)練數(shù)據(jù)未覆蓋的最高位置 (H1) 時(shí),依賴(lài) 2D 視覺(jué)的 CogACT 和 Pi0 徹底失效,成功率降至 20%;而 GeoVLA 憑借點(diǎn)云信息,依然保持 60% 的成功率。

套娃任務(wù)變體(尺寸變化):面對(duì)比訓(xùn)練時(shí)大一號(hào)的套娃,2D 模型往往因?yàn)橄袼靥卣鞑黄ヅ涠鵁o(wú)法識(shí)別;GeoVLA 則通過(guò)幾何形狀匹配,保持了 80% 的高成功率。

堆疊積木任務(wù)變體(視角變化):堆疊積木時(shí),當(dāng)相機(jī)視角偏移 45°,CogACT 成功率直接歸零,說(shuō)明 2D 模型極度依賴(lài)特定視角的像素記憶;而 GeoVLA 依然穩(wěn)健,保持 70% 的成功率,證明其學(xué)到了真正的 3D 空間結(jié)構(gòu)。

胡蘿卜任務(wù)變體(移除海綿墊):訓(xùn)練時(shí)使用的海綿墊在推理階段被移除,胡蘿卜位置被降低,導(dǎo)致大多數(shù)方法抓取胡蘿卜失敗;GeoVLA 則能更穩(wěn)定且成功抓取,展現(xiàn)出更強(qiáng)的泛化能力。

結(jié)論

本文中,Dexmal 原力靈機(jī)作者團(tuán)隊(duì)提出 GeoVLA,通過(guò)引入點(diǎn)云嵌入網(wǎng)絡(luò) PEN 和 3D 增強(qiáng)動(dòng)作專(zhuān)家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁壘”。

這項(xiàng)工作有力證明在端到端的機(jī)器人學(xué)習(xí)中,顯式引入 3D 幾何表征是提升模型泛化能力和魯棒性的關(guān)鍵。GeoVLA 不僅解決了傳統(tǒng) VLA 模型“看得見(jiàn)但摸不準(zhǔn)”的難題,更為未來(lái)具身智能邁向更復(fù)雜、更開(kāi)放的非結(jié)構(gòu)化環(huán)境提供了一種高效且優(yōu)雅的解決方案。

特別是其雙路徑并行設(shè)計(jì)和靜態(tài)路由策略,為多模態(tài)融合提供了一個(gè)極具參考價(jià)值的范式:既保留了大模型的通用語(yǔ)義知識(shí),又補(bǔ)齊了物理世界的幾何常識(shí)。對(duì)于追求精確操控的具身智能領(lǐng)域而言,GeoVLA 可能是一個(gè)重要的里程碑,標(biāo)志著 VLA 模型從“看圖說(shuō)話”向“空間智能”的實(shí)質(zhì)性跨越。

參考文獻(xiàn)

Chengmeng Li, Junjie Wen, Yan Peng, Yaxin Peng, Feifei Feng, and Yichen Zhu. Pointvla: Injecting the 3d world into vision-language-action models. arXiv preprint arXiv:2503.07511, 2025.

Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao,Dong Wang, and Xuelong Li. Spatialvla: Exploring spatial representations for visual-language-action model. In Robotics: Science and Systems (RSS), 2025.

Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu,Yu Qiao, Jifeng Dai, and Yuntao Chen. Dita: Scaling diffusion transformer for generalist vision-language-action policy. arXiv preprint arXiv:2503.19757, 2025.

{Moo Jin} Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, and Chelsea Finn. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246

Li Qixiu, Liang Yaobo, Wang Zeyu, Luo Lin, Chen Xi, Liao Mozheng, Wei Fangyun, Deng Yu, Xu Sicheng, Zhang Yizhong, and others. CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation. arXiv preprint arXiv:2411.19650.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
與名模離婚凈身出戶(hù)5年后,40歲的前男籃國(guó)手孫悅,今已判若兩人

與名模離婚凈身出戶(hù)5年后,40歲的前男籃國(guó)手孫悅,今已判若兩人

小熊侃史
2026-02-16 07:10:12
哪個(gè)細(xì)節(jié)讓你突然發(fā)現(xiàn)自己消費(fèi)降級(jí)了?電動(dòng)車(chē),真的誰(shuí)騎誰(shuí)香

哪個(gè)細(xì)節(jié)讓你突然發(fā)現(xiàn)自己消費(fèi)降級(jí)了?電動(dòng)車(chē),真的誰(shuí)騎誰(shuí)香

另子維愛(ài)讀史
2026-02-13 21:18:44
深度揭秘?|?封疆大吏羅保銘:貪婪腐化,大辦喪事斂財(cái),大搞迷信活動(dòng)

深度揭秘?|?封疆大吏羅保銘:貪婪腐化,大辦喪事斂財(cái),大搞迷信活動(dòng)

一分為三看人生
2026-02-11 16:18:47
主場(chǎng)定了!中國(guó)男籃將在這里迎戰(zhàn)日本!

主場(chǎng)定了!中國(guó)男籃將在這里迎戰(zhàn)日本!

夢(mèng)憶之淺
2026-03-03 01:18:44
印度這十年:莫迪對(duì)中國(guó)最大的貢獻(xiàn),是斷了所有人的念想

印度這十年:莫迪對(duì)中國(guó)最大的貢獻(xiàn),是斷了所有人的念想

歷史有些冷
2026-03-03 16:15:03
觀察|美國(guó)未經(jīng)國(guó)會(huì)授權(quán)空襲伊朗:當(dāng)顛覆法治的危險(xiǎn)先例開(kāi)始泛濫,世界將會(huì)怎樣?

觀察|美國(guó)未經(jīng)國(guó)會(huì)授權(quán)空襲伊朗:當(dāng)顛覆法治的危險(xiǎn)先例開(kāi)始泛濫,世界將會(huì)怎樣?

澎湃新聞
2026-03-03 07:20:26
莫迪殺紅了眼!吞了中企幾百億,又派人來(lái)偷火,中國(guó)不能坐以待斃

莫迪殺紅了眼!吞了中企幾百億,又派人來(lái)偷火,中國(guó)不能坐以待斃

梁訊
2026-02-28 15:40:12
造謠婚禮博眼球,南充公安依法查處一起擾亂公共秩序案

造謠婚禮博眼球,南充公安依法查處一起擾亂公共秩序案

極目新聞
2026-03-03 17:02:50
以軍空襲貝魯特南郊 杰哈德在黎指揮官遇襲身亡

以軍空襲貝魯特南郊 杰哈德在黎指揮官遇襲身亡

財(cái)聯(lián)社
2026-03-03 04:09:20
肝癌后才懂放手!孫志浩全部遺產(chǎn)歸梧桐妹,這結(jié)局誰(shuí)也沒(méi)料到

肝癌后才懂放手!孫志浩全部遺產(chǎn)歸梧桐妹,這結(jié)局誰(shuí)也沒(méi)料到

小椰的奶奶
2026-03-01 10:32:16
14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

14年兒子坐馬航失聯(lián),多年后父親收到回信,堅(jiān)信兒子去了平行世界

史行途
2026-01-29 12:13:30
多家交易所,緊急提示風(fēng)險(xiǎn)!

多家交易所,緊急提示風(fēng)險(xiǎn)!

環(huán)球網(wǎng)資訊
2026-03-03 07:59:09
2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

金哥說(shuō)新能源車(chē)
2026-02-27 05:18:50
92歲臺(tái)灣老兵回重慶尋親,下飛機(jī)后卻怒斥子女:這不還是臺(tái)北

92歲臺(tái)灣老兵回重慶尋親,下飛機(jī)后卻怒斥子女:這不還是臺(tái)北

海佑講史
2026-02-28 21:19:37
韓媒:伊朗若退出世界杯,伊拉克將遞補(bǔ),中國(guó)隊(duì)遭遇重創(chuàng)太絕望了

韓媒:伊朗若退出世界杯,伊拉克將遞補(bǔ),中國(guó)隊(duì)遭遇重創(chuàng)太絕望了

羅納爾說(shuō)個(gè)球
2026-03-02 10:43:21
深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過(guò)47年來(lái)最致命危機(jī)?

深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過(guò)47年來(lái)最致命危機(jī)?

上觀新聞
2026-03-01 16:17:08
這跟不穿有啥區(qū)別??jī)?nèi)褲外露、開(kāi)叉開(kāi)到腰,有錢(qián)人的時(shí)尚真看不懂

這跟不穿有啥區(qū)別??jī)?nèi)褲外露、開(kāi)叉開(kāi)到腰,有錢(qián)人的時(shí)尚真看不懂

洲洲影視娛評(píng)
2026-03-02 21:06:50
為什么美國(guó)、日本第一時(shí)間就知道中國(guó)的決策、軍事及重大的工程等

為什么美國(guó)、日本第一時(shí)間就知道中國(guó)的決策、軍事及重大的工程等

有牙的兔紙
2026-03-03 01:26:17
她是體壇冠軍中的“敗類(lèi)”,為撈錢(qián)共侍二夫,坑了44億逃到美國(guó)

她是體壇冠軍中的“敗類(lèi)”,為撈錢(qián)共侍二夫,坑了44億逃到美國(guó)

削桐作琴
2026-03-02 15:10:50
美國(guó)沒(méi)想到,俄羅斯也沒(méi)想到!中國(guó)石油,如今會(huì)成為“遙遙領(lǐng)先”

美國(guó)沒(méi)想到,俄羅斯也沒(méi)想到!中國(guó)石油,如今會(huì)成為“遙遙領(lǐng)先”

來(lái)科點(diǎn)譜
2026-02-20 07:16:30
2026-03-03 18:31:00
腦極體 incentive-icons
腦極體
從智能密鑰到已知盡頭
3606文章數(shù) 167336關(guān)注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費(fèi)"上班

頭條要聞

襲擊伊朗后 特朗普首次發(fā)表白宮講話:將不惜一切代價(jià)

頭條要聞

襲擊伊朗后 特朗普首次發(fā)表白宮講話:將不惜一切代價(jià)

體育要聞

35輪后積分-7,他們?cè)庥鍪飞献钤绲慕导?jí)

娛樂(lè)要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財(cái)經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車(chē)要聞

第一梯隊(duì)輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

時(shí)尚
本地
游戲
數(shù)碼
軍事航空

普通人穿衣真的很簡(jiǎn)單!單品選對(duì)、搭配合理,大方舒適又得體

本地新聞

食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

KONAMI Digital Entertainment確認(rèn)成為 2026 年世界棒球經(jīng)典賽?贊助商

數(shù)碼要聞

榮耀MagicBook Pro 14實(shí)測(cè):銳炫B370性能追上大哥B390!

軍事要聞

伊朗:擊中美空軍基地大樓

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版