国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AAAI 2026 最新錄用|港科大等提出ReconVLA:利用視覺重構引導,刷新機器人操作精度!

0
分享至

一、導讀

近年來,視覺-語言-動作模型(Vision-Language-Action,VLA)在機器人控制中展現(xiàn)出融合多模態(tài)理解與動作執(zhí)行的能力。

然而,現(xiàn)有模型在感知圖像時視覺注意力(visual attention)往往分散,難以聚焦于需要操作的目標物體,導致執(zhí)行動作不準確。

為此,本文提出了一種重構式視覺-語言-動作模型 ReconVLA,通過引入一個隱式 grounding 機制,讓模型在訓練過程中學習重建圖像中與任務相關的“凝視區(qū)域(gaze region)”,從而引導其更準確地關注目標物體。

該方法在模擬和真實機器人任務中均表現(xiàn)出更精準的操作能力和良好的泛化性能。

二、論文基本信息


  • 論文標題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

  • 作者與單位:Wenxuan Song 等,來自香港科技大學(廣州)、西湖大學、浙江大學、莫納什大學等機構

  • 來源:AAAI 2026

  • 代碼鏈接: https://github.com/OpenHelix-Team/ReconVLA

三、主要貢獻與創(chuàng)新
  1. 提出 ReconVLA ,一種基于 隱式視覺 grounding 的 VLA 模型,通過重建凝視區(qū)域提升視覺注意力精度。

  2. 構建大規(guī)模機器人預訓練數(shù)據(jù)集,包含 100k 軌跡、200 萬樣本 ,增強模型泛化能力。

  3. 設計 視覺重構模塊 ,使用擴散變換器(diffusion transformer)從噪聲中重建目標區(qū)域。

  4. 在模擬與真實任務中驗證了模型在 長時序任務未見目標 上的優(yōu)越性能。

四、研究方法與原理

ReconVLA 的核心思路是:通過讓模型重建任務相關的圖像區(qū)域,引導其自動聚焦于關鍵目標,從而提升動作執(zhí)行的精確性


模型包含動作生成視覺重構兩個部分。輸入為多視角圖像和語言指令。視覺編碼器提取圖像特征,與大語言模型(LLM)交互后,一方面輸出動作指令,另一方面輸出重構 token(reconstructive tokens),用于引導一個擴散去噪過程(denoising process),重建目標區(qū)域的圖像 token。

具體地,重構目標為**凝視區(qū)域 **,其 token 表示為 ,其中 是視覺 tokenizer(采用 VAE)。擴散過程從帶噪聲的 token 出發(fā),在重構 token 的條件下,通過去噪器 預測噪聲并恢復 。重構損失函數(shù)為:

整體訓練目標為動作預測損失與視覺重構損失的加權和:

其中 是由大語言模型基于視覺 tokens 生成的重構 tokens, 是擴散時間步, 是加入的噪聲。這一設計迫使模型在生成動作的同時,必須學習對目標區(qū)域的精細視覺表征,從而實現(xiàn)隱式的視覺注意力聚焦。

五、實驗設計與結果分析 模擬環(huán)境與數(shù)據(jù)集

實驗使用 CALVIN 基準,包含 34 個任務和 4 種環(huán)境,評估模型在長時序任務中的表現(xiàn)。指標為子任務成功率平均完成長度。

范式對比實驗
比較三種視覺 grounding 范式:

  • 顯式 grounding(EG) :使用 YOLOv11 檢測并裁剪目標區(qū)域作為額外輸入。

  • 鏈式思維 grounding(CG) :模型依次輸出邊界框坐標與動作。

  • 隱式 grounding(IG,即 ReconVLA) :不顯式輸出坐標,而是通過重建目標區(qū)域隱式學習注意力。


結果顯示,IG 在各項任務中均取得最高成功率,尤其在 5/5 任務中達到 **64.1%**,顯著優(yōu)于 EG(50.2%)和 CG(0%)。

注意力可視化分析
可視化顯示,基線模型的注意力分散,而 ReconVLA 能 精準聚焦于目標物體,如“將西瓜放入黃碗”任務中,注意力集中在西瓜上。


消融實驗
消融實驗驗證了以下設計:

  • 預訓練 :顯著提升模型在未見環(huán)境中的泛化能力。

  • 重建凝視區(qū)域 :比重建整圖更有效,引導模型關注目標。

  • 重構模塊本身 :即使重建整圖也能提升性能,但不如凝視區(qū)域精準。


與先進方法對比
在 ABC→D 和 ABCD→D 任務中,ReconVLA 在多項指標上超越生成式方法(如 GR-1、3D-VLA)和大規(guī)模 VLA 模型(如 OpenVLA、UniVLA),尤其在 長時序任務中表現(xiàn)突出。


真實世界實驗


在四個真實任務(如疊碗、翻杯等)中,ReconVLA 在未見目標上仍保持高成功率,顯著優(yōu)于 OpenVLA 和 PD-VLA。


六、論文結論與評價 總結

ReconVLA 通過隱式視覺 grounding 機制,成功引導模型聚焦于任務關鍵區(qū)域,提升了機器人操作的精確性與泛化能力。在模擬與真實任務中均表現(xiàn)出色,尤其在長時序和未見目標任務中優(yōu)勢明顯。

評價

該方法無需依賴外部檢測模型,簡化了系統(tǒng)結構,且通過視覺重構任務增強了模型對細節(jié)的感知能力。然而,該方法依賴于高質(zhì)量凝視區(qū)域標注,且擴散去噪過程計算開銷較大,可能限制其在實時系統(tǒng)中的部署。未來可探索更輕量的重構機制,或結合自監(jiān)督方式減少對標注數(shù)據(jù)的依賴。

文章來源:CV煉丹術。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
船媒盼哈登重返休城!模擬6換4方案杜登重聚:留謝潑德出伊森海王

船媒盼哈登重返休城!模擬6換4方案杜登重聚:留謝潑德出伊森海王

顏小白的籃球夢
2025-12-24 09:33:21
多地已開啟2026年國補推進工作

多地已開啟2026年國補推進工作

第一財經(jīng)資訊
2025-12-24 09:26:54
朱厚照在位十六年,為何沒子嗣?答:后宮雖多,但架不住他亂折騰

朱厚照在位十六年,為何沒子嗣?答:后宮雖多,但架不住他亂折騰

鶴羽說個事
2025-12-23 11:09:21
塞門約通知曼聯(lián)首選轉會曼城!決定原因曝光,阿莫林承諾無濟于事

塞門約通知曼聯(lián)首選轉會曼城!決定原因曝光,阿莫林承諾無濟于事

羅米的曼聯(lián)博客
2025-12-24 09:51:47
放棄爭奪數(shù)百億遺產(chǎn),帶著女兒遠遁美國,如今才知道她有多清醒

放棄爭奪數(shù)百億遺產(chǎn),帶著女兒遠遁美國,如今才知道她有多清醒

夢史
2025-12-16 11:07:49
出現(xiàn)這種情況,黃金才會下跌

出現(xiàn)這種情況,黃金才會下跌

柏年說政經(jīng)
2025-12-23 18:00:03
庫里:我對圣誕大戰(zhàn)沒什么特別回憶,因為我沒打出過好的表現(xiàn)

庫里:我對圣誕大戰(zhàn)沒什么特別回憶,因為我沒打出過好的表現(xiàn)

懂球帝
2025-12-24 11:25:35
24GB+1TB!新機曝光:搭載驍龍8 Gen5+2億潛望長焦!

24GB+1TB!新機曝光:搭載驍龍8 Gen5+2億潛望長焦!

科技堡壘
2025-12-23 11:31:08
軍隊再強大,經(jīng)濟再富足,武器再尖端,沒有偉大領袖,全都白瞎

軍隊再強大,經(jīng)濟再富足,武器再尖端,沒有偉大領袖,全都白瞎

南權先生
2025-12-23 16:58:45
男兒護國著征袍:烏綠衣主教葉爾馬克血戰(zhàn)沙場,俄塔曼港遭重創(chuàng)

男兒護國著征袍:烏綠衣主教葉爾馬克血戰(zhàn)沙場,俄塔曼港遭重創(chuàng)

史政先鋒
2025-12-23 14:41:27
上千元碳板鞋引爭議,泰蘭尼斯“半掌碳板”真的可以護足?醫(yī)生:兒童不建議穿

上千元碳板鞋引爭議,泰蘭尼斯“半掌碳板”真的可以護足?醫(yī)生:兒童不建議穿

極目新聞
2025-12-23 21:48:18
南博風波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
全球第三美!確實實至名歸!

全球第三美!確實實至名歸!

伊人河畔
2025-12-23 21:16:34
新加坡人直言:比起海南封關帶來的威脅,更怕中國會幫泰國挖運河

新加坡人直言:比起海南封關帶來的威脅,更怕中國會幫泰國挖運河

小莜讀史
2025-12-23 18:28:28
利比亞軍事領導人在土耳其墜機身亡

利比亞軍事領導人在土耳其墜機身亡

財聯(lián)社
2025-12-24 04:30:13
前萬科集團的副總稱,不建議購買2018年以后建的房子,質(zhì)量不好

前萬科集團的副總稱,不建議購買2018年以后建的房子,質(zhì)量不好

我心縱橫天地間
2025-12-22 20:19:01
深圳16歲“烤雞少年”回應喜提邁巴赫

深圳16歲“烤雞少年”回應喜提邁巴赫

大象新聞
2025-12-23 18:05:04
鄭麗文:在臺灣講“我是中國人”何來原罪

鄭麗文:在臺灣講“我是中國人”何來原罪

揚子晚報
2025-12-23 20:27:17
全國最年輕的女縣委書記張琪同志簡歷

全國最年輕的女縣委書記張琪同志簡歷

燕小姐說歷史
2025-01-22 08:51:23
俄大使:邀請中國民眾來俄羅斯領略美景

俄大使:邀請中國民眾來俄羅斯領略美景

參考消息
2025-12-23 21:49:38
2025-12-24 11:40:49
算法與數(shù)學之美 incentive-icons
算法與數(shù)學之美
分享知識,交流思想
5276文章數(shù) 64598關注度
往期回顧 全部

科技要聞

黑產(chǎn)大軍壓境 快手"拔網(wǎng)線"為何慢了兩小時

頭條要聞

一名歐洲男子捐精生197娃 攜帶致癌基因已致死多人

頭條要聞

一名歐洲男子捐精生197娃 攜帶致癌基因已致死多人

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財經(jīng)要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

房產(chǎn)
家居
時尚
教育
軍事航空

房產(chǎn)要聞

硬核!央企海口一線江景頂流紅盤,上演超預期交付!

家居要聞

法式大平層 智能家居添彩

歲月不敗美人,50歲銀發(fā)的她們也太會穿了

教育要聞

已知正方形的面積是18,求圓的面積

軍事要聞

俄烏沖突關鍵人物在莫斯科被炸死 烏方尚未公開認領

無障礙瀏覽 進入關懷版