国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓機(jī)器人學(xué)會(huì)手往哪兒伸、怎么操作,東大團(tuán)隊(duì)給了新解法

0
分享至



本文的第一作者為東南大學(xué)碩士生莊啟源,合作者為徐赫洋、汪宜俊、趙欣陽、李洋洋。通訊作者為東南大學(xué)青年首席教授魏秀參,研究方向?yàn)橛?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)與機(jī)器人。

在具身智能領(lǐng)域,可供性(affordance)預(yù)測(cè) —— 即讓機(jī)器人從視覺觀測(cè)中理解 "在哪里操作"(接觸點(diǎn))與 "如何操作"(動(dòng)作方向)—— 是實(shí)現(xiàn)精細(xì)化機(jī)器人操作的基礎(chǔ)之一。精細(xì)操作要求機(jī)器人不僅能定位到物體的可交互區(qū)域,更要掌握接觸后的準(zhǔn)確運(yùn)動(dòng)方向,例如判斷抽屜把手的精確拉動(dòng)方向完成開合。

當(dāng)前主流方法主要分為兩大范式:基于檢索的方法無需大量機(jī)器人數(shù)據(jù),卻受限于單一匹配的脆弱性與未見類別的覆蓋盲區(qū);基于訓(xùn)練的大規(guī)模模型雖能學(xué)習(xí)可遷移視覺模式,卻頻繁出現(xiàn)接觸點(diǎn)定位不準(zhǔn)、動(dòng)作方向預(yù)測(cè)錯(cuò)誤的問題,難以支撐精細(xì)操作所需的空間精度。

為突破這一瓶頸,東南大學(xué)魏秀參團(tuán)隊(duì)提出了 RAAP(檢索增強(qiáng)型可供性預(yù)測(cè))。RAAP 將 affordance 分解為靜態(tài)接觸點(diǎn)與動(dòng)態(tài)動(dòng)作方向兩個(gè)分量并針對(duì)二者設(shè)計(jì)互補(bǔ)推理機(jī)制:接觸點(diǎn)通過與 Top-1 檢索參考的稠密特征匹配可靠遷移;動(dòng)作方向則由全新的檢索增強(qiáng)對(duì)齊模型負(fù)責(zé),通過聚合多個(gè)參考樣本與雙權(quán)重注意力機(jī)制為精細(xì)操作提供可靠運(yùn)動(dòng)指引。整個(gè)框架每任務(wù)僅需數(shù)十個(gè)訓(xùn)練樣本,即可實(shí)現(xiàn)跨類別的零樣本精細(xì)機(jī)器人操作。

目前,該論文已被機(jī)器人領(lǐng)域頂級(jí)會(huì)議 IEEE International Conference on Robotics & Automation (ICRA 2026) 接收。



  • 論文標(biāo)題: RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment
  • 論文鏈接:https://arxiv.org/abs/2603.29419
  • 項(xiàng)目主頁:https://github.com/SEU-VIPGroup/RAAP

RAAP:解耦靜態(tài)與動(dòng)態(tài)可供性的統(tǒng)一框架

RAAP 的核心設(shè)計(jì)思路是:靜態(tài)接觸點(diǎn)與動(dòng)態(tài)動(dòng)作方向雖同屬 affordance,但在預(yù)測(cè)難度和所需信息上有本質(zhì)區(qū)別,已有工作將二者作為可聯(lián)合遷移的屬性統(tǒng)一處理,往往顧此失彼。RAAP 明確將兩者解耦,分別采用最適合各自特性的推理機(jī)制。



檢索與靜態(tài) Affordance 遷移

RAAP 從 DROID 和 HOI4D 數(shù)據(jù)集構(gòu)建視覺 affordance 記憶庫,存儲(chǔ)分割后的物體圖像、CLIP 特征、任務(wù)標(biāo)簽以及標(biāo)注的 2D 接觸點(diǎn)與歸一化動(dòng)作方向向量,供推理時(shí)檢索調(diào)用。給定查詢場(chǎng)景,RAAP 首先通過 CLIP 文本與圖像編碼器從記憶庫中檢索 Top-K 個(gè)語義和視覺上最相關(guān)的參考樣本。對(duì)于接觸點(diǎn)定位,系統(tǒng)取 Top-1 參考,基于 Stable Diffusion 稠密特征進(jìn)行像素級(jí)匹配,將參考接觸點(diǎn)遷移至查詢圖像的對(duì)應(yīng)位置。這一策略在前人工作中已得到充分驗(yàn)證。

動(dòng)態(tài) Affordance 預(yù)測(cè):檢索增強(qiáng)跨圖像動(dòng)作對(duì)齊

動(dòng)作方向的預(yù)測(cè)是 RAAP 的核心創(chuàng)新所在。不同于接觸點(diǎn)的幾何對(duì)應(yīng)性,動(dòng)作方向高度依賴任務(wù)語義與操作意圖,單一檢索樣本極易因匹配偏差引發(fā)全局性方向錯(cuò)誤。為此,RAAP 引入了一個(gè)檢索增強(qiáng)的跨圖像動(dòng)作對(duì)齊模塊,通過聚合 Top-K 個(gè)參考樣本的方向先驗(yàn)來降低預(yù)測(cè)歧義。

具體而言,查詢圖像與各參考圖像共享 SigLIP-2 骨干網(wǎng)絡(luò)提取 patch 級(jí)特征。對(duì)于每個(gè)參考樣本,其標(biāo)注的動(dòng)作向量經(jīng) FiLM 調(diào)制作用于視覺特征,使外觀與操作意圖聯(lián)合編碼;隨后多個(gè)參考特征拼接為統(tǒng)一的 Key-Value 矩陣,以查詢特征為 Query 經(jīng)跨注意力機(jī)制融合多參考方向線索,再通過 Transformer 編碼器回歸出預(yù)測(cè)動(dòng)作方向。

為應(yīng)對(duì)檢索樣本質(zhì)量參差不齊的問題,RAAP 進(jìn)一步設(shè)計(jì)了雙權(quán)重注意力機(jī)制:以檢索階段的 CLIP 余弦相似度作為外觀先驗(yàn)權(quán)重,以輕量門控網(wǎng)絡(luò)輸出的語義相關(guān)性作為補(bǔ)充權(quán)重,二者歸一化融合后對(duì)參考樣本加權(quán) —— 外觀權(quán)重拉近視覺相似者,語義門控權(quán)重抑制語義錯(cuò)位的噪聲參考,共同保障多參考聚合的質(zhì)量。



2D 到 3D 的 Affordance 提升與執(zhí)行

預(yù)測(cè)得到的 2D affordance 經(jīng)由相機(jī)內(nèi)參與深度點(diǎn)云提升至 3D 空間。抓取后,2D 動(dòng)作方向結(jié)合局部表面法向變換為 3D 位移向量,真實(shí)環(huán)境中采用笛卡爾阻抗控制執(zhí)行接觸后動(dòng)作,保證柔順安全的交互,最終支撐從接觸定位到運(yùn)動(dòng)執(zhí)行的全流程精細(xì)操作。

實(shí)驗(yàn)結(jié)果與分析

研究團(tuán)隊(duì)在 DROID 和 HOI4D 數(shù)據(jù)集以及真實(shí) Franka 機(jī)械臂平臺(tái)上進(jìn)行了全面評(píng)估,與 RAM(單參考檢索遷移框架)和 A0(大規(guī)模可供性預(yù)測(cè)模型)展開系統(tǒng)對(duì)比。



動(dòng)態(tài)可供性預(yù)測(cè)

以均值角誤差(MAE,越低越好)評(píng)估動(dòng)作方向預(yù)測(cè)精度。RAAP(K=3)以 32.55° 的整體平均誤差取得最優(yōu),相比其他方法降低超過 50%。優(yōu)勢(shì)在開 / 關(guān)類任務(wù)上尤為顯著 ——RAM 的單樣本遷移和 A0 在方向預(yù)測(cè)上均頻繁出現(xiàn)全局性偏差,而 RAAP 通過多參考聚合有效消解了方向歧義。值得注意的是,DROID 子集平均每任務(wù)僅約 18 個(gè)訓(xùn)練樣本,充分體現(xiàn)了 RAAP 在極低數(shù)據(jù)代價(jià)下的競(jìng)爭(zhēng)力。



消融實(shí)驗(yàn)證實(shí)了雙權(quán)重機(jī)制的必要性:去掉門控權(quán)重或相似度權(quán)重均導(dǎo)致明顯性能下降,退化為均勻加權(quán)同樣不及完整模型,說明兩種權(quán)重信號(hào)功能互補(bǔ)、缺一不可。檢索數(shù)量 K 的實(shí)驗(yàn)表明 K=3 為最優(yōu)選擇:過少時(shí)模型易受單次檢索錯(cuò)誤影響,過多時(shí)噪聲參考開始拖累精度。



真實(shí)世界機(jī)械臂實(shí)驗(yàn)

研究團(tuán)隊(duì)在 Franka Research 3 機(jī)械臂上測(cè)試了未見物體泛化(任務(wù)相同,物體實(shí)例不同)與跨類別泛化(訓(xùn)練于開 / 關(guān)微波爐,測(cè)試于開 / 關(guān)柜子等新類別)兩類場(chǎng)景,每任務(wù)隨機(jī)位置下進(jìn)行 20 次試驗(yàn)。所有模型僅在 DROID 和 HOI4D 子集上訓(xùn)練,不使用任何真實(shí)世界演示數(shù)據(jù)。

RAAP 在未見物體場(chǎng)景下于開 / 關(guān)抽屜任務(wù)上超過 RAM 達(dá) 15 至 25 個(gè)百分點(diǎn),在所有拾取任務(wù)中同樣取得最高成功率??珙悇e場(chǎng)景中,RAAP 在關(guān)柜子任務(wù)上達(dá)到 100% 成功率,在其余任務(wù)上持續(xù)領(lǐng)先。



總結(jié)

RAAP 為精細(xì)機(jī)器人操作中的可供性泛化提供了一種將檢索與對(duì)齊學(xué)習(xí)統(tǒng)一的解耦框架。其核心貢獻(xiàn)在于:

  • 提出 RAAP,統(tǒng)一檢索與訓(xùn)練范式,在數(shù)據(jù)稀缺下實(shí)現(xiàn)泛化,每任務(wù)僅需少量訓(xùn)練樣本即可達(dá)到強(qiáng)性能,為精細(xì)操作場(chǎng)景下的低成本部署提供了可行路徑。
  • 設(shè)計(jì)檢索增強(qiáng)對(duì)齊模型,通過雙權(quán)重注意力聚合多個(gè)參考,同時(shí)對(duì)靜態(tài)與動(dòng)態(tài) affordance 采用互補(bǔ)機(jī)制。
  • 在 DROID、HOI4D 及真實(shí)平臺(tái)上的全面評(píng)估,證明 RAAP 在未見物體和跨類別泛化場(chǎng)景下均優(yōu)于基線,并在仿真與真實(shí)環(huán)境中驗(yàn)證了零樣本精細(xì)機(jī)器人操作能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭永年:不用糾結(jié)特朗普到底什么意思,中美客觀上已經(jīng)是G2了

鄭永年:不用糾結(jié)特朗普到底什么意思,中美客觀上已經(jīng)是G2了

上觀新聞
2026-04-11 14:49:04
A股:不用等周一開盤了,明天(4月13日),不出意外會(huì)這么走

A股:不用等周一開盤了,明天(4月13日),不出意外會(huì)這么走

財(cái)經(jīng)大拿
2026-04-12 07:10:10
上海二手房單日成交1632套:連續(xù)打破5年峰值紀(jì)錄,高端房源成交占比提升

上海二手房單日成交1632套:連續(xù)打破5年峰值紀(jì)錄,高端房源成交占比提升

澎湃新聞
2026-04-12 13:52:27
角力伊斯蘭堡,美伊都到了!宮殿風(fēng)格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經(jīng)驗(yàn);預(yù)計(jì)雙方各占酒店一邊,避免走廊偶遇

角力伊斯蘭堡,美伊都到了!宮殿風(fēng)格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經(jīng)驗(yàn);預(yù)計(jì)雙方各占酒店一邊,避免走廊偶遇

每日經(jīng)濟(jì)新聞
2026-04-11 16:34:11
明天周一A股將會(huì)怎么走?到底是漲是跌?我做了一個(gè)大膽的預(yù)判

明天周一A股將會(huì)怎么走?到底是漲是跌?我做了一個(gè)大膽的預(yù)判

股市皆大事
2026-04-12 11:30:57
馬筱梅帶汪寶回北京,張?zhí)m沒反應(yīng),汪小菲稱母親張總,關(guān)系微妙

馬筱梅帶汪寶回北京,張?zhí)m沒反應(yīng),汪小菲稱母親張總,關(guān)系微妙

楓塵余往逝
2026-04-11 23:52:17
48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

羅氏八卦
2026-04-11 18:00:03
美媒預(yù)測(cè)本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達(dá)48%

美媒預(yù)測(cè)本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達(dá)48%

你的籃球頻道
2026-04-12 12:01:46
笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

搗蛋窩
2026-04-11 10:57:44
48 小時(shí) 2 架飛機(jī):鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機(jī)抵臺(tái)

48 小時(shí) 2 架飛機(jī):鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機(jī)抵臺(tái)

眼界看視野
2026-04-11 20:50:20
鎮(zhèn)嵩軍的真實(shí)面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

鎮(zhèn)嵩軍的真實(shí)面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

混沌錄
2026-04-09 14:51:04
浪姐7一公排名:蕭薔團(tuán)墊底,李小冉團(tuán)喜劇效果拉滿,大黑馬誕生

浪姐7一公排名:蕭薔團(tuán)墊底,李小冉團(tuán)喜劇效果拉滿,大黑馬誕生

娛樂圈筆娛君
2026-04-12 11:17:01
巴拿馬總統(tǒng)尋求緩和與中國關(guān)系

巴拿馬總統(tǒng)尋求緩和與中國關(guān)系

參考消息
2026-04-11 19:52:15
太復(fù)雜了!天津一司機(jī)把奔馳開進(jìn)了中心路的地道…差幾步就到平地了…

太復(fù)雜了!天津一司機(jī)把奔馳開進(jìn)了中心路的地道…差幾步就到平地了…

天津人
2026-04-11 15:34:18
4人輪休+2人缺陣!火箭隊(duì)超級(jí)殘陣對(duì)戰(zhàn)灰熊!預(yù)計(jì)全新首發(fā)出爐

4人輪休+2人缺陣!火箭隊(duì)超級(jí)殘陣對(duì)戰(zhàn)灰熊!預(yù)計(jì)全新首發(fā)出爐

熊哥愛籃球
2026-04-12 12:36:12
不要錯(cuò)過!下周,光通信測(cè)試龍頭來了

不要錯(cuò)過!下周,光通信測(cè)試龍頭來了

新浪財(cái)經(jīng)
2026-04-12 13:37:47
投資群2947人,2946人是托:殺豬盤進(jìn)化史,只有你一個(gè)獵物

投資群2947人,2946人是托:殺豬盤進(jìn)化史,只有你一個(gè)獵物

覺叔說
2026-04-11 13:57:01
伊朗代表團(tuán)離開巴基斯坦

伊朗代表團(tuán)離開巴基斯坦

上觀新聞
2026-04-12 12:54:04
體檢報(bào)告出現(xiàn)這幾個(gè)字,距離腦梗只有一步之遙!別等嚴(yán)重了才后悔

體檢報(bào)告出現(xiàn)這幾個(gè)字,距離腦梗只有一步之遙!別等嚴(yán)重了才后悔

荊醫(yī)生科普
2026-04-11 14:23:04
解放軍唯一的一次烏龍,一野和二野打了一個(gè)晚上,各自傷亡多少人

解放軍唯一的一次烏龍,一野和二野打了一個(gè)晚上,各自傷亡多少人

舊史新譚
2026-04-05 17:00:22
2026-04-12 16:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側(cè)

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側(cè)

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

健康
藝術(shù)
手機(jī)
公開課
軍事航空

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

藝術(shù)要聞

日本建筑大師的中國首個(gè)住宅項(xiàng)目,被防盜網(wǎng)毀了?

手機(jī)要聞

榮耀600系列海外發(fā)預(yù)告片,外觀設(shè)計(jì)正式確認(rèn)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國副總統(tǒng)萬斯:美伊談判未能達(dá)成協(xié)議

無障礙瀏覽 進(jìn)入關(guān)懷版