国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ReconVLA:具身智能研究首次獲得AI頂級會議最佳論文獎

0
分享至



在長期以來的 AI 研究版圖中,具身智能雖然在機器人操作、自動化系統(tǒng)與現(xiàn)實應(yīng)用中至關(guān)重要,卻常被視為「系統(tǒng)工程驅(qū)動」的研究方向,鮮少被認(rèn)為能夠在 AI 核心建模范式上產(chǎn)生決定性影響。

而 ReconVLA 獲得 AAAIOutstandingPaper Awards,釋放了一個清晰而重要的信號:讓智能體在真實世界中「看、想、做」的能力,已經(jīng)成為人工智能研究的核心問題之一。

這是具身智能(Embodied Intelligence / Vision-Language-Action)方向歷史上,首次獲得 AI 頂級會議 Best Paper 的研究工作。這是一次真正意義上的 community-level 認(rèn)可:不僅是對某一個模型、某一項指標(biāo)的認(rèn)可,更是對具身智能作為通用智能核心范式之一的肯定。



  • 論文標(biāo)題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
  • 論文地址:https://arxiv.org/abs/2508.10333
  • 論文代碼:https://github.com/Chowzy069/Reconvla

VLA 模型關(guān)鍵瓶頸:機器人真「看準(zhǔn)」了嗎?



近年來,Vision-Language-Action(VLA)模型在多任務(wù)學(xué)習(xí)與長時序操作中取得了顯著進展。然而,我們在大量實驗中發(fā)現(xiàn),一個基礎(chǔ)但被長期忽視的問題嚴(yán)重制約了其性能上限:視覺注意力難以穩(wěn)定、精準(zhǔn)地聚焦于任務(wù)相關(guān)目標(biāo)。

以指令「將藍色積木放到粉色積木上」為例,模型需要在復(fù)雜背景中持續(xù)鎖定「藍色積木」和「粉色積木」。但現(xiàn)實中,許多 VLA 模型的視覺注意力呈現(xiàn)為近似均勻分布,不同于人類行為專注于目標(biāo)物體,VLA 模型容易被無關(guān)物體或背景干擾,從而導(dǎo)致抓取或放置失敗。

已有工作主要通過以下方式嘗試緩解這一問題:

  • 顯式裁剪或檢測目標(biāo)區(qū)域(Explicit Grounding)
  • 預(yù)測目標(biāo)邊界框作為中間輸出(COT Grounding)

然而,這些方法并未從根本上改變模型自身的視覺表征與注意力分配機制,提升效果有限。

ReconVLA:重建式隱式視覺定位的新范式


為解決上述瓶頸,我們提出ReconVLA,一種重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:

不要求模型顯式輸出「看哪里」,而是通過「能否重建目標(biāo)區(qū)域」,來約束模型必須學(xué)會精準(zhǔn)關(guān)注關(guān)鍵物體。

在 ReconVLA 中,動作預(yù)測不再是唯一目標(biāo)。在生成動作表征的同時,模型還需要完成一項輔助任務(wù):

重建當(dāng)前時刻所「凝視」的目標(biāo)區(qū)域 ----- 我們稱之為 Gaze Region。

這一重建過程由輕量級擴散變換器(Diffusion Transformer)完成,并在潛在空間中進行高保真復(fù)原。由于要最小化重建誤差,模型被迫在其內(nèi)部視覺表示中編碼關(guān)于目標(biāo)物體的精細語義與結(jié)構(gòu)信息,從而在注意力層面實現(xiàn)隱式而穩(wěn)定的對齊。

這一機制更接近人類的視覺凝視行為,而非依賴外部檢測器或符號化坐標(biāo)監(jiān)督。



方法概覽


ReconVLA 的整體框架由兩個協(xié)同分支組成:

1. 動作預(yù)測分支: 模型以多視角圖像、自然語言指令與機器人本體狀態(tài)為輸入,生成動作 token,直接驅(qū)動機器人執(zhí)行操作。

2. 視覺重建分支: 利用凍結(jié)的視覺 tokenizer,將指令關(guān)注的目標(biāo)區(qū)域(Gaze region)編碼為高保真潛在 token。主干網(wǎng)絡(luò)額外輸出同維度的重建 token,并以此作為條件,引導(dǎo)擴散去噪過程逐步復(fù)原目標(biāo)區(qū)域的視覺表示。

重建損失在像素與潛在空間層面為模型提供了隱式監(jiān)督,使視覺表征與動作決策在訓(xùn)練過程中緊密耦合。



大規(guī)模重建預(yù)訓(xùn)練


為賦予 ReconVLA 穩(wěn)定的視覺重建與泛化能力,我們構(gòu)建了一個大規(guī)模機器人預(yù)訓(xùn)練數(shù)據(jù)集:

  • 數(shù)據(jù)規(guī)模:超過 10 萬條交互軌跡,約 200 萬張圖像。
  • 數(shù)據(jù)來源:BridgeData V2、LIBERO、CALVIN 等開源機器人數(shù)據(jù)集。
  • 自動化標(biāo)注:利用微調(diào)后的 Grounding DINO 或 Yolo 等方式,從原始圖像中自動生成指令對應(yīng)的目標(biāo)物體區(qū)域(Gaze region),用于重建監(jiān)督。

該預(yù)訓(xùn)練過程不依賴動作標(biāo)簽,卻顯著提升了模型在視覺重建、隱式 Grounding 以及跨場景泛化方面的能力,并為未來擴展至互聯(lián)網(wǎng)級視頻數(shù)據(jù)奠定了一定基礎(chǔ)。

實驗結(jié)果



在 CALVIN 仿真基準(zhǔn)上,ReconVLA 在長時序任務(wù)中顯著優(yōu)于現(xiàn)有方法:

  • ABC→D 泛化任務(wù):平均完成長度達到3.95,全面領(lǐng)先同期所有對比方法。
  • ABCD→D 長程任務(wù):平均完成長度為4.23,完整任務(wù)成功率達70.5%。

值得一提的是,在 CALVIN 極具挑戰(zhàn)的長程任務(wù)「stack block」上我們的方法成功率達到 79.5%,遠高于 Baseline 的 59.3%,這說明我們的局部重建作為隱式監(jiān)督的方法可以在復(fù)雜長程任務(wù)中實現(xiàn)更靈活的運動規(guī)劃。



在真實機器人實驗中,我們基于 AgileX PiPer 六自由度機械臂,測試了疊碗、放水果、翻杯與清理餐桌等任務(wù)。ReconVLA 在所有任務(wù)上均顯著優(yōu)于 OpenVLA 與 PD-VLA,并在未見物體條件下仍保持 40% 以上的成功率,展現(xiàn)出強大的視覺泛化能力。



對比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上獲得了遠高于前兩者的成功率,由此可分析出:

僅用精細化的目標(biāo)區(qū)域作為模型隱式監(jiān)督可以實現(xiàn)更加精確的注意力,更高的任務(wù)成功率以及更簡單的模型夾構(gòu)。



而消融實驗表明:

1. 全圖重建仍然由于僅有動作監(jiān)督的基線,因為全圖重建提升了模型的全局感知和理解能力。但由于視覺冗余使得在未知環(huán)境下難以展現(xiàn)更好的效果。

2. 重建目標(biāo)區(qū)域(Gaze region)具有顯著效果,這個機制使得模型專注于目標(biāo)物體,避免被無關(guān)背景干擾。

3. 大規(guī)模預(yù)訓(xùn)練顯著提升了模型在視覺重建,隱式 Grounding 及跨場景泛化的能力。

總結(jié)


ReconVLA 的核心貢獻并非引入更復(fù)雜的結(jié)構(gòu),而是重新審視了一個基礎(chǔ)問題:機器人是否真正理解了它正在注視的世界。

通過重建式隱式監(jiān)督,我們?yōu)?VLA 模型提供了一種更自然、更高效的視覺對齊機制,使機器人在復(fù)雜環(huán)境中做到「看得準(zhǔn)、動得穩(wěn)」。

我們期待這一工作能夠推動具身智能從經(jīng)驗驅(qū)動的系統(tǒng)設(shè)計,邁向更加扎實、可擴展的通用智能研究范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
茅臺渠道新政落地

茅臺渠道新政落地

第一財經(jīng)資訊
2026-03-13 15:16:38
保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個好故事
2026-03-11 17:26:56
【最新】南充市嘉陵區(qū)財政局一級主任科員何革生接受紀(jì)律審查和監(jiān)察調(diào)查

【最新】南充市嘉陵區(qū)財政局一級主任科員何革生接受紀(jì)律審查和監(jiān)察調(diào)查

南部微生活
2026-03-13 19:25:30
58歲那英改走顏值路線?過度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

58歲那英改走顏值路線?過度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

鋒哥與八卦哥
2026-01-25 13:26:51
滴滴發(fā)布財報:2025年GTV達4508億元,同比增長14.8%|公司頭條

滴滴發(fā)布財報:2025年GTV達4508億元,同比增長14.8%|公司頭條

北青網(wǎng)-北京青年報
2026-03-13 18:53:08
75歲有8個男朋友?凌晨在北京去世?劉曉慶身上的標(biāo)簽太離譜了

75歲有8個男朋友?凌晨在北京去世?劉曉慶身上的標(biāo)簽太離譜了

可樂談情感
2026-03-13 00:08:39
女排張常寧身高193,一身休閑裝照片,看起來眉眼清秀,十分明亮

女排張常寧身高193,一身休閑裝照片,看起來眉眼清秀,十分明亮

草莓解說體育
2026-03-13 17:56:09
高市早苗宣布:不管國際油價怎么變,日本油價將鎖定在170日元左右

高市早苗宣布:不管國際油價怎么變,日本油價將鎖定在170日元左右

風(fēng)向觀察
2026-03-12 16:00:02
萬萬沒想到!兩會最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動

萬萬沒想到!兩會最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動

瀲滟晴方DAY
2026-03-05 18:42:38
女籃世預(yù)賽最殘酷一夜!亞洲4隊三隊遭慘?。褐腥諠№n國卻贏了

女籃世預(yù)賽最殘酷一夜!亞洲4隊三隊遭慘?。褐腥諠№n國卻贏了

籃球快餐車
2026-03-13 05:44:27
CCTV5直播,中國女籃大戰(zhàn)非洲勁旅,實力優(yōu)勢明顯,勝負懸念不大

CCTV5直播,中國女籃大戰(zhàn)非洲勁旅,實力優(yōu)勢明顯,勝負懸念不大

中國籃壇快訊
2026-03-13 07:00:09
4名中國游客在亞庇浮潛時救下溺水韓國女生,當(dāng)事人:不用記住是誰救了她,只要知道是中國人伸出援手就夠了

4名中國游客在亞庇浮潛時救下溺水韓國女生,當(dāng)事人:不用記住是誰救了她,只要知道是中國人伸出援手就夠了

揚子晚報
2026-03-12 14:39:42
神操作再現(xiàn),單卡3090 起跑!Claude-4.6-Opus蒸餾Qwen3.5-27B

神操作再現(xiàn),單卡3090 起跑!Claude-4.6-Opus蒸餾Qwen3.5-27B

Ai學(xué)習(xí)的老章
2026-03-12 22:32:11
數(shù)名醫(yī)生叮囑:只要做過腸息肉切除手術(shù),術(shù)后患者一定關(guān)注這4點

數(shù)名醫(yī)生叮囑:只要做過腸息肉切除手術(shù),術(shù)后患者一定關(guān)注這4點

蜉蝣說
2026-03-13 15:02:38
高市早苗捅下馬蜂窩!日本爆發(fā)混亂,數(shù)萬人走上街頭,國會被圍

高市早苗捅下馬蜂窩!日本爆發(fā)混亂,數(shù)萬人走上街頭,國會被圍

命運自認(rèn)幽默
2026-03-12 18:38:25
伊朗革命衛(wèi)隊已經(jīng)事實獨立

伊朗革命衛(wèi)隊已經(jīng)事實獨立

難得君
2026-03-04 12:29:04
張凌赫搭檔女演員cp感排名:白鹿第三,田曦薇第二,榜首是她

張凌赫搭檔女演員cp感排名:白鹿第三,田曦薇第二,榜首是她

星星沒有你亮
2026-03-13 06:21:50
戰(zhàn)略運輸機來了,最大載重125噸,中國運40,已成定局?

戰(zhàn)略運輸機來了,最大載重125噸,中國運40,已成定局?

萬里繁華
2026-03-13 11:37:55
4輪不勝后!廣東隊做出重大決定,放棄張皓嘉,杜鋒面臨下課!

4輪不勝后!廣東隊做出重大決定,放棄張皓嘉,杜鋒面臨下課!

緋雨兒
2026-03-13 14:14:52
香港"第一美人"近況曝光:守寡16年,63歲無兒無女,現(xiàn)狀讓人意外

香港"第一美人"近況曝光:守寡16年,63歲無兒無女,現(xiàn)狀讓人意外

傲傲講歷史
2026-03-10 11:53:42
2026-03-13 20:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12497文章數(shù) 142583關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

特朗普鼓動油輪"大膽"過霍爾木茲海峽:伊朗沒有海軍

頭條要聞

特朗普鼓動油輪"大膽"過霍爾木茲海峽:伊朗沒有海軍

體育要聞

叕戰(zhàn)奧運,張雨霏要做回“小將”

娛樂要聞

小S復(fù)工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

2月M2同增9% 前兩個月存款增加9.26萬億

汽車要聞

置換補貼價8.68萬 五菱繽果S 525km旗艦款上市

態(tài)度原創(chuàng)

游戲
時尚
數(shù)碼
親子
軍事航空

一個月就打折?《仁王3》開啟首場促銷 光榮吆喝宣傳

真正有氣質(zhì)的女性不會總穿羽絨服!看看這些穿搭,大方不顯胖

數(shù)碼要聞

藍寶石PURE極地X870A WIFI7主板上架,1999元

親子要聞

萌娃對老媽的年齡感到震驚,他的話太逗了

軍事要聞

伊朗稱襲擊"林肯"號航母致其撤走

無障礙瀏覽 進入關(guān)懷版