国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

首獲AAAI杰出論文獎(jiǎng),這個(gè)具身團(tuán)隊(duì)讓機(jī)器人學(xué)會(huì)像人一樣凝視目標(biāo)

0
分享至

想象這樣一個(gè)場(chǎng)景:一個(gè)機(jī)器人面前的桌上擺著一堆物體,其中包含紅色積木和藍(lán)色積木,此時(shí),如果給出讓它“把紅色積木疊到藍(lán)色積木上”的指令,它是否能順利執(zhí)行?


(來源:Nano Banana Pro)

對(duì)人類來說,這個(gè)任務(wù)聽起來十分簡(jiǎn)單。因?yàn)槟阈枰龅闹皇茄劬Χ⒅t色積木,伸手拿起,然后鎖定藍(lán)色積木,放到上面就大功告成。但對(duì)當(dāng)前大多數(shù)機(jī)器人而言,事情并非如此。在很多時(shí)候,機(jī)器人的任務(wù)成功率并不穩(wěn)定,它有可能徑直去操縱其他物體,而非目標(biāo)物體。

為什么如此簡(jiǎn)單的任務(wù),對(duì)于機(jī)器人來說卻無法穩(wěn)定完成呢?

這是由于當(dāng)前主流的 VLA 模型(Vision-Language-Action Model,視覺-語(yǔ)言-動(dòng)作模型)在執(zhí)行抓取任務(wù)時(shí),視覺注意力往往呈彌散分布。也就是說,模型雖能輸出動(dòng)作序列,但其內(nèi)部注意力并未真正聚焦于指令所指的目標(biāo)物體(如紅色積木),而是分散在圖像多個(gè)區(qū)域。

這種注意力錯(cuò)位直接導(dǎo)致機(jī)器人的操作失誤,例如容易抓取錯(cuò)誤物體,或在多物體環(huán)境中定位不準(zhǔn)。

為了解決這一問題,來自香港科技大學(xué)(廣州)與西湖大學(xué)等高校的一支聯(lián)合研究團(tuán)隊(duì),在對(duì)主流 VLA 模型進(jìn)行系統(tǒng)分析后,提出了 ReconVLA(重建式視覺-語(yǔ)言-動(dòng)作模型)。

在這個(gè)模型中,他們創(chuàng)新性地引入了一種名為"隱式定位"(Implicit Grounding)的訓(xùn)練范式。不在推理階段額外加模塊,不輸出邊界框,而是在訓(xùn)練過程中,通過讓模型重建目標(biāo)操作區(qū)域的圖像,迫使它在視覺編碼階段就把注意力集中到正確的地方。


圖 | 團(tuán)隊(duì)論文(來源:arXiv)

據(jù)悉,該工作于上月榮獲 AAAI 國(guó)際先進(jìn)人工智能協(xié)會(huì) 2026 的杰出論文獎(jiǎng)(Outstanding Paper Award)。

論文第一作者宋文軒告訴 DeepTech,當(dāng)前 VLA 模型的主流架構(gòu),通常以一個(gè)預(yù)訓(xùn)練好的 VLM 為主干,再接上一個(gè)動(dòng)作生成頭(action head),用來輸出機(jī)器人的控制信號(hào)。這個(gè)架構(gòu)里,VLM 負(fù)責(zé)“看”和“理解”,動(dòng)作頭負(fù)責(zé)“做”。


圖 | 宋文軒 (來源:被訪者)

問題在于,VLM 最初是為圖像理解和對(duì)話任務(wù)設(shè)計(jì)的,它學(xué)到的視覺表征(visual representation)側(cè)重語(yǔ)義層面。比如識(shí)別一張圖里有什么東西、它們之間的關(guān)系。但對(duì)機(jī)器人操控來說,真正重要的不只是“圖里有什么”,而是“我該去操作哪里”,這涉及到操作可供性(affordance)的感知,是一種 VLM 原生訓(xùn)練目標(biāo)中并不包含的能力。

另一位團(tuán)隊(duì)核心成員之一丁鵬翔補(bǔ)充,通用視覺模型和具身控制任務(wù)之間存在顯著的領(lǐng)域差異(domain gap)。即便 VLM 在圖像理解上極為強(qiáng)大,它也未必能自然遷移到機(jī)器人場(chǎng)景。這種能力缺失直接表現(xiàn)為視覺注意力的高度彌散。


圖 | 丁鵬翔 (來源:受訪者)

在簡(jiǎn)單場(chǎng)景下,注意力分散或許影響不大。如果桌上只有一個(gè)物體,就算注意力散一點(diǎn),模型也大概率能抓對(duì)。但一旦場(chǎng)景變得雜亂,比如桌面上擺了五六樣?xùn)|西,麻煩就來了。

團(tuán)隊(duì)實(shí)驗(yàn)表明,此時(shí),“模型往往看到物體就抓”。只要腕部相機(jī)視野中出現(xiàn)可抓取目標(biāo),模型就傾向于執(zhí)行抓取動(dòng)作,至于抓的是不是人類期望的那個(gè),它并不總是關(guān)心。抓取動(dòng)作的成功率可能很高,但抓取的正確率則是另一回事。這說明模型完成了動(dòng)作層面的任務(wù),卻沒有與人類意圖對(duì)齊(intent alignment)。

另一個(gè)更隱蔽問題出現(xiàn)在長(zhǎng)程任務(wù)(long-horizon task)中。所謂長(zhǎng)程任務(wù),就是需要多個(gè)步驟依次完成的操作鏈。因?yàn)榧词姑恳徊侥呐轮挥形⑿∑?,誤差會(huì)逐步累積,到后面幾步時(shí),系統(tǒng)狀態(tài)可能已經(jīng)偏離了訓(xùn)練數(shù)據(jù)的分布。丁鵬翔舉了一個(gè)直觀的數(shù)字:即便單步成功率高達(dá) 99%,連續(xù)執(zhí)行 100 步后的整體成功率也只剩約 36.6%。

那么,“隱式定位”到底是什么意思?具體又該如何實(shí)現(xiàn)?丁鵬翔給了 DeepTech 類比:人類在執(zhí)行精細(xì)操作時(shí),雖然看到的是整個(gè)場(chǎng)景,但真正聚焦的只有一小片區(qū)域。如果指令是“拿杯子”,哪怕桌上放了十樣?xùn)|西,人類的視覺焦點(diǎn)會(huì)自動(dòng)鎖定在杯子上,周圍的一切都變得模糊。這種行為在視覺科學(xué)中叫做“凝視”(gaze)。

ReconVLA 借鑒了這一機(jī)制。在訓(xùn)練階段,除了常規(guī)的動(dòng)作預(yù)測(cè)損失之外,模型還需要完成一個(gè)輔助任務(wù):重建當(dāng)前圖像中與操作目標(biāo)對(duì)應(yīng)的區(qū)域,即所謂的“凝視區(qū)域”(gaze region)。


(來源:論文)

具體來說,模型的視覺輸出 token(稱為"重建 token",reconstructive token)會(huì)被輸入到一個(gè)輕量級(jí)的擴(kuò)散變壓器(diffusion transformer)中,該擴(kuò)散模塊的目標(biāo)是從噪聲中恢復(fù)出凝視區(qū)域的視覺特征。如果模型在編碼階段沒有把注意力放在目標(biāo)區(qū)域上,它輸出的重建 token 就不會(huì)包含足夠的細(xì)粒度信息,擴(kuò)散模塊就無法完成重建,損失函數(shù)就會(huì)懲罰它。

這形成了一個(gè)流暢的反饋回路:想要完成重建 → 必須關(guān)注目標(biāo) → 關(guān)注目標(biāo)后視覺表征更精確 → 動(dòng)作預(yù)測(cè)更準(zhǔn)。整個(gè)過程中,沒有任何顯式的邊界框輸出,也沒有外部檢測(cè)模型參與推理。重建模塊只在訓(xùn)練時(shí)存在,推理時(shí)被完全移除。這意味著 ReconVLA 在部署階段的推理速度與常規(guī) VLA 模型完全一致,不引入任何額外延遲。

這和此前的視覺定位方法有什么不同?

此前,視覺定位主要依賴于兩種范式。一種是"顯式定位"(Explicit Grounding),比如 RoboGround 和 VIP 等工作,它們使用外部檢測(cè)模型(如 YOLO 或 LISA)先把目標(biāo)物體裁剪出來,再把裁剪圖像和原圖一起輸入 VLA。這種方法確實(shí)提供了更聚焦的視覺信息,但它依賴外部模型的精度,且兩張圖像的簡(jiǎn)單拼接引入了信息冗余。

另一種是"思維鏈定位"(CoT Grounding),如 ECoT 和 GraspVLA,讓模型先輸出目標(biāo)的邊界框坐標(biāo),再輸出動(dòng)作。這種方式在理論上很漂亮,但實(shí)驗(yàn)結(jié)果顯示它甚至不如基線。在 CALVIN 基準(zhǔn)測(cè)試中,CoT 方式的 5 步連續(xù)任務(wù)成功率幾乎為零。原因可能在于,坐標(biāo)形式的定位信息對(duì) VLA 模型來說并不是一種高效的引導(dǎo)信號(hào),同時(shí)要輸出精確坐標(biāo)和精確動(dòng)作值,給訓(xùn)練帶來了額外負(fù)擔(dān)。


圖 | 不同范式之間的概念比較(來源:論文)

相比之下,ReconVLA 的隱式定位在同一基準(zhǔn)上取得了最高成績(jī)。

在 CALVIN ABC→D 測(cè)試(要求模型在未見過的環(huán)境 D 中執(zhí)行 5 步連續(xù)任務(wù))中,ReconVLA 在第 5 個(gè)子任務(wù)上達(dá)到了 64.1% 的成功率,而基線模型為 49.0%,顯式定位方法為 50.2%,提升約 15 個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的精細(xì)操作任務(wù)"積木堆疊"(stack block)中,基線成功率僅 59.3%,ReconVLA 達(dá)到 79.5%,提升超過 20 個(gè)百分點(diǎn)。


圖 | 不同范式之間的測(cè)試分?jǐn)?shù)對(duì)比(來源:論文)

為了讓重建能力具備泛化性,團(tuán)隊(duì)還構(gòu)建了一個(gè)大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集,包含超過 10 萬(wàn)條機(jī)器人操作軌跡和 200 萬(wàn)個(gè)數(shù)據(jù)樣本。數(shù)據(jù)來源包括開源的 BridgeData V2 以及 LIBERO、CALVIN 兩個(gè)仿真環(huán)境數(shù)據(jù)集。

凝視區(qū)域的標(biāo)注借助了 Grounding DINO 這一開放詞匯檢測(cè)模型(open-vocabulary detector),大部分?jǐn)?shù)據(jù)可以通過零樣本(zero-shot)方式直接標(biāo)注,對(duì)于機(jī)器人場(chǎng)景中一些較為罕見或復(fù)雜的物體,團(tuán)隊(duì)則進(jìn)行了定制化微調(diào)。消融實(shí)驗(yàn)證實(shí),預(yù)訓(xùn)練階段對(duì)泛化能力的提升是顯著的。移除預(yù)訓(xùn)練后,5 步連續(xù)任務(wù)的最終成功率從 64.1% 下降至 58.2%。

真實(shí)世界的實(shí)驗(yàn)進(jìn)一步驗(yàn)證了這一方法的可行性。

團(tuán)隊(duì)使用一臺(tái) 6 自由度的 AgileX PiPer 機(jī)械臂,配合兩個(gè)深度相機(jī)(分別作為基座視角和手部視角),在四個(gè)代表性任務(wù)上進(jìn)行了測(cè)試:將水果放入碗中、疊碗、翻杯子、整理桌面。在每個(gè)任務(wù)中,ReconVLA 都取得了最高成功率。

特別值得注意的是在“未見物體”(unseen objects)的測(cè)試中,當(dāng)目標(biāo)物體不在訓(xùn)練數(shù)據(jù)中時(shí),對(duì)比方法 OpenVLA 和 PD-VLA 的成功率接近零,而 ReconVLA 仍能成功定位目標(biāo)并完成操作,展現(xiàn)出其視覺泛化能力。


圖 | 四個(gè)代表性任務(wù)的真實(shí)世界設(shè)置(來源:論文)

當(dāng)然,任何方法都不是完美的。宋文軒向 DeepTech 坦言,ReconVLA 的主要額外成本在訓(xùn)練階段——引入重建目標(biāo)意味著更多的計(jì)算開銷,盡管團(tuán)隊(duì)已經(jīng)對(duì)擴(kuò)散模塊做了輕量化設(shè)計(jì)來控制這部分消耗。丁鵬翔指出了另一層局限:當(dāng)前建模仍然主要基于二維視覺空間,在需要深度信息和三維幾何約束的高精度任務(wù)中,即便二維定位更加精確,空間操作精度仍然可能受限。

團(tuán)隊(duì)透露,他們已在后續(xù)工作中開始探索三維感知建模(3D-aware modeling),相關(guān)成果已提交至近期的學(xué)術(shù)會(huì)議。此外,力覺感知和力控信號(hào)等多模態(tài)信息目前也尚未納入框架,但從方法結(jié)構(gòu)上看,這些模態(tài)完全可以通過同樣的隱式建模機(jī)制整合進(jìn)來。

談到具身智能的落地前景,丁鵬翔的看法頗為務(wù)實(shí)。他認(rèn)為 VLA 不必急于落地到某一個(gè)具體的垂直場(chǎng)景才算有價(jià)值。類比早期的 ChatGPT,GPT-3 發(fā)布時(shí)并沒有立即嵌入某個(gè)特定行業(yè)流程,但它顯著改變了寫作和內(nèi)容創(chuàng)作的效率。

VLA 的價(jià)值可能也會(huì)經(jīng)歷類似的“兩步走”。第一步是降低部署成本。過去每個(gè)工廠任務(wù)都需要獨(dú)立建模,如果有一個(gè)足夠強(qiáng)的基礎(chǔ)模型,企業(yè)只需少量微調(diào)就能完成適配;第二步才是結(jié)合 Agent 系統(tǒng)構(gòu)建具體場(chǎng)景的閉環(huán)工作流。

他還補(bǔ)充說,他們?cè)鴮⒔?jīng)過通用訓(xùn)練的模型部署到實(shí)際工業(yè)環(huán)境中測(cè)試擰螺絲、插接零部件等任務(wù),結(jié)果顯示只要基座模型足夠穩(wěn)定,下游任務(wù)性能就會(huì)顯著提升。他認(rèn)為短中期更具潛力的場(chǎng)景包括半結(jié)構(gòu)化工業(yè)裝配、輕工業(yè)精細(xì)操作以及商業(yè)服務(wù)機(jī)器人(如飲品制作)。這些場(chǎng)景的共同特點(diǎn)是操作鏈條明確、精度要求高、對(duì)重復(fù)性穩(wěn)定性有剛需。

除研究外,這支團(tuán)隊(duì)還共同創(chuàng)建了一個(gè)名為 OpenHelix 的開源社區(qū),目前已持續(xù)開源十余個(gè)項(xiàng)目,累計(jì)獲得約 3,600 個(gè) GitHub 星標(biāo)。在資源有限的條件下,他們選擇了一條"高效與聚焦"的路線。不追求數(shù)百?gòu)?GPU 的大規(guī)模訓(xùn)練和高度工程化的演示,而是專注于具有方法論洞見的研究方向。

他們相信,只有通過開放共享,研究成果才能真正落地到更多從業(yè)者手中。除了 ReconVLA 的后續(xù)迭代,團(tuán)隊(duì)還在推進(jìn)觸覺與力反饋、雙臂協(xié)作等方向的研究,目標(biāo)是拓寬 VLA 的能力邊界,而不僅僅停留在單一展示型應(yīng)用上。

https://arxiv.org/html/2508.10333v1

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
格力電器大股東珠海明駿擬套現(xiàn)43億!知情人士:6年分紅150億,足夠覆蓋貸款且有浮盈

格力電器大股東珠海明駿擬套現(xiàn)43億!知情人士:6年分紅150億,足夠覆蓋貸款且有浮盈

時(shí)代周報(bào)
2026-02-26 22:25:13
在岸人民幣兌美元收盤大漲275點(diǎn) 創(chuàng)2023年3月以來新高

在岸人民幣兌美元收盤大漲275點(diǎn) 創(chuàng)2023年3月以來新高

財(cái)聯(lián)社
2026-02-26 16:34:10
甘肅一中學(xué)回應(yīng)“不住校就去其他學(xué)校就讀”:表述方式不當(dāng)

甘肅一中學(xué)回應(yīng)“不住校就去其他學(xué)校就讀”:表述方式不當(dāng)

界面新聞
2026-02-26 15:37:28
星鏈大降價(jià)!馬斯克:無關(guān)競(jìng)爭(zhēng)對(duì)手 我只想平價(jià)服務(wù)大眾

星鏈大降價(jià)!馬斯克:無關(guān)競(jìng)爭(zhēng)對(duì)手 我只想平價(jià)服務(wù)大眾

快科技
2026-02-25 10:33:12
???5年老牌烘焙店嘉藝坊,資金鏈斷裂停業(yè)清算

???5年老牌烘焙店嘉藝坊,資金鏈斷裂停業(yè)清算

環(huán)球網(wǎng)資訊
2026-02-26 11:51:53
青島市最新人事任免

青島市最新人事任免

濱州日?qǐng)?bào)
2026-02-26 09:13:04
56歲李靜飛清邁陪戴軍過春節(jié),兩個(gè)人手牽手散步,相處更像夫妻

56歲李靜飛清邁陪戴軍過春節(jié),兩個(gè)人手牽手散步,相處更像夫妻

柒佰娛
2026-02-26 10:54:00
美荷兩國(guó)曾同時(shí)發(fā)聲,對(duì)中國(guó)獨(dú)立研發(fā)的光刻機(jī)技術(shù)給予了強(qiáng)烈批評(píng)

美荷兩國(guó)曾同時(shí)發(fā)聲,對(duì)中國(guó)獨(dú)立研發(fā)的光刻機(jī)技術(shù)給予了強(qiáng)烈批評(píng)

嫹筆牂牂
2026-02-26 19:35:26
妲己帶球上位要成霍家兒媳的瓜?

妲己帶球上位要成霍家兒媳的瓜?

香港內(nèi)地文娛
2026-02-24 19:28:12
為什么說要得饒人處且饒人?網(wǎng)友:卡里幾千萬(wàn),為了5塊錢命沒了

為什么說要得饒人處且饒人?網(wǎng)友:卡里幾千萬(wàn),為了5塊錢命沒了

另子維愛讀史
2026-02-25 23:23:26
2026,中國(guó)商業(yè)航天的起飛前夜

2026,中國(guó)商業(yè)航天的起飛前夜

鈦媒體APP
2026-02-26 19:38:09
酒窩天王被炮友演了

酒窩天王被炮友演了

毒舌扒姨太
2026-02-26 22:32:38
老虎灘104艦啟動(dòng)拆解,大連市民留戀告別!三代人記憶里美好永存

老虎灘104艦啟動(dòng)拆解,大連市民留戀告別!三代人記憶里美好永存

半島晨報(bào)
2026-02-26 17:00:35
個(gè)稅年度匯算開始,這些坑你可別跳進(jìn)去

個(gè)稅年度匯算開始,這些坑你可別跳進(jìn)去

賈話連篇
2026-02-26 17:55:13
前女友是吳昕,曾經(jīng)的未婚妻是張?zhí)鞇?,如今喜得貴子升級(jí)當(dāng)?shù)?>
    </a>
        <h3>
      <a href=地理三體說
2026-02-26 23:19:20
案牘:一種關(guān)于存在的邊緣書寫

案牘:一種關(guān)于存在的邊緣書寫

疾跑的小蝸牛
2026-02-26 22:06:21
一口氣刷全集,Netflix懸疑佳作值得看

一口氣刷全集,Netflix懸疑佳作值得看

陳意小可愛
2026-02-26 07:42:20
她是好聲音最“水”冠軍,奪冠一個(gè)月后無人問津,如今判若兩人

她是好聲音最“水”冠軍,奪冠一個(gè)月后無人問津,如今判若兩人

小熊侃史
2026-01-02 09:21:28
德國(guó)總理帶隊(duì)訪問宇樹科技!德企高管玩嗨了:當(dāng)場(chǎng)和機(jī)器人牽手熱舞

德國(guó)總理帶隊(duì)訪問宇樹科技!德企高管玩嗨了:當(dāng)場(chǎng)和機(jī)器人牽手熱舞

快科技
2026-02-26 16:50:12
常州家長(zhǎng):“堅(jiān)決反對(duì)取消中學(xué)早讀和晚自習(xí)”!市教育局答復(fù)…

常州家長(zhǎng):“堅(jiān)決反對(duì)取消中學(xué)早讀和晚自習(xí)”!市教育局答復(fù)…

常州大喇叭
2026-02-26 10:37:52
2026-02-26 23:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16325文章數(shù) 514659關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬(wàn)億":工廠可能會(huì)被拍賣

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬(wàn)億":工廠可能會(huì)被拍賣

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強(qiáng)公開表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

中國(guó)AI調(diào)用量超美國(guó) 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

游戲
手機(jī)
教育
數(shù)碼
健康

金亨泰曬AI賀圖翻車 被《尼爾》建模師公開痛批?

手機(jī)要聞

太好用!蘋果悄悄上線網(wǎng)絡(luò)測(cè)速工具,比第三方還準(zhǔn),你用上了嗎?

教育要聞

學(xué)習(xí)的真正對(duì)手,是精力分配失衡

數(shù)碼要聞

庫(kù)克預(yù)告下周一蘋果新品發(fā)布!且不止一款產(chǎn)品

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版