国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓機(jī)器人學(xué)會(huì)手往哪兒伸、怎么操作,東大團(tuán)隊(duì)給了新解法

0
分享至



本文的第一作者為東南大學(xué)碩士生莊啟源,合作者為徐赫洋、汪宜俊、趙欣陽、李洋洋。通訊作者為東南大學(xué)青年首席教授魏秀參,研究方向?yàn)橛?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)與機(jī)器人。

在具身智能領(lǐng)域,可供性(affordance)預(yù)測(cè) —— 即讓機(jī)器人從視覺觀測(cè)中理解 "在哪里操作"(接觸點(diǎn))與 "如何操作"(動(dòng)作方向)—— 是實(shí)現(xiàn)精細(xì)化機(jī)器人操作的基礎(chǔ)之一。精細(xì)操作要求機(jī)器人不僅能定位到物體的可交互區(qū)域,更要掌握接觸后的準(zhǔn)確運(yùn)動(dòng)方向,例如判斷抽屜把手的精確拉動(dòng)方向完成開合。

當(dāng)前主流方法主要分為兩大范式:基于檢索的方法無需大量機(jī)器人數(shù)據(jù),卻受限于單一匹配的脆弱性與未見類別的覆蓋盲區(qū);基于訓(xùn)練的大規(guī)模模型雖能學(xué)習(xí)可遷移視覺模式,卻頻繁出現(xiàn)接觸點(diǎn)定位不準(zhǔn)、動(dòng)作方向預(yù)測(cè)錯(cuò)誤的問題,難以支撐精細(xì)操作所需的空間精度。

為突破這一瓶頸,東南大學(xué)魏秀參團(tuán)隊(duì)提出了 RAAP(檢索增強(qiáng)型可供性預(yù)測(cè))。RAAP 將 affordance 分解為靜態(tài)接觸點(diǎn)與動(dòng)態(tài)動(dòng)作方向兩個(gè)分量并針對(duì)二者設(shè)計(jì)互補(bǔ)推理機(jī)制:接觸點(diǎn)通過與 Top-1 檢索參考的稠密特征匹配可靠遷移;動(dòng)作方向則由全新的檢索增強(qiáng)對(duì)齊模型負(fù)責(zé),通過聚合多個(gè)參考樣本與雙權(quán)重注意力機(jī)制為精細(xì)操作提供可靠運(yùn)動(dòng)指引。整個(gè)框架每任務(wù)僅需數(shù)十個(gè)訓(xùn)練樣本,即可實(shí)現(xiàn)跨類別的零樣本精細(xì)機(jī)器人操作。

目前,該論文已被機(jī)器人領(lǐng)域頂級(jí)會(huì)議 IEEE International Conference on Robotics & Automation (ICRA 2026) 接收。



  • 論文標(biāo)題: RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment
  • 論文鏈接:https://arxiv.org/abs/2603.29419
  • 項(xiàng)目主頁:https://github.com/SEU-VIPGroup/RAAP

RAAP:解耦靜態(tài)與動(dòng)態(tài)可供性的統(tǒng)一框架

RAAP 的核心設(shè)計(jì)思路是:靜態(tài)接觸點(diǎn)與動(dòng)態(tài)動(dòng)作方向雖同屬 affordance,但在預(yù)測(cè)難度和所需信息上有本質(zhì)區(qū)別,已有工作將二者作為可聯(lián)合遷移的屬性統(tǒng)一處理,往往顧此失彼。RAAP 明確將兩者解耦,分別采用最適合各自特性的推理機(jī)制。



檢索與靜態(tài) Affordance 遷移

RAAP 從 DROID 和 HOI4D 數(shù)據(jù)集構(gòu)建視覺 affordance 記憶庫,存儲(chǔ)分割后的物體圖像、CLIP 特征、任務(wù)標(biāo)簽以及標(biāo)注的 2D 接觸點(diǎn)與歸一化動(dòng)作方向向量,供推理時(shí)檢索調(diào)用。給定查詢場(chǎng)景,RAAP 首先通過 CLIP 文本與圖像編碼器從記憶庫中檢索 Top-K 個(gè)語義和視覺上最相關(guān)的參考樣本。對(duì)于接觸點(diǎn)定位,系統(tǒng)取 Top-1 參考,基于 Stable Diffusion 稠密特征進(jìn)行像素級(jí)匹配,將參考接觸點(diǎn)遷移至查詢圖像的對(duì)應(yīng)位置。這一策略在前人工作中已得到充分驗(yàn)證。

動(dòng)態(tài) Affordance 預(yù)測(cè):檢索增強(qiáng)跨圖像動(dòng)作對(duì)齊

動(dòng)作方向的預(yù)測(cè)是 RAAP 的核心創(chuàng)新所在。不同于接觸點(diǎn)的幾何對(duì)應(yīng)性,動(dòng)作方向高度依賴任務(wù)語義與操作意圖,單一檢索樣本極易因匹配偏差引發(fā)全局性方向錯(cuò)誤。為此,RAAP 引入了一個(gè)檢索增強(qiáng)的跨圖像動(dòng)作對(duì)齊模塊,通過聚合 Top-K 個(gè)參考樣本的方向先驗(yàn)來降低預(yù)測(cè)歧義。

具體而言,查詢圖像與各參考圖像共享 SigLIP-2 骨干網(wǎng)絡(luò)提取 patch 級(jí)特征。對(duì)于每個(gè)參考樣本,其標(biāo)注的動(dòng)作向量經(jīng) FiLM 調(diào)制作用于視覺特征,使外觀與操作意圖聯(lián)合編碼;隨后多個(gè)參考特征拼接為統(tǒng)一的 Key-Value 矩陣,以查詢特征為 Query 經(jīng)跨注意力機(jī)制融合多參考方向線索,再通過 Transformer 編碼器回歸出預(yù)測(cè)動(dòng)作方向。

為應(yīng)對(duì)檢索樣本質(zhì)量參差不齊的問題,RAAP 進(jìn)一步設(shè)計(jì)了雙權(quán)重注意力機(jī)制:以檢索階段的 CLIP 余弦相似度作為外觀先驗(yàn)權(quán)重,以輕量門控網(wǎng)絡(luò)輸出的語義相關(guān)性作為補(bǔ)充權(quán)重,二者歸一化融合后對(duì)參考樣本加權(quán) —— 外觀權(quán)重拉近視覺相似者,語義門控權(quán)重抑制語義錯(cuò)位的噪聲參考,共同保障多參考聚合的質(zhì)量。



2D 到 3D 的 Affordance 提升與執(zhí)行

預(yù)測(cè)得到的 2D affordance 經(jīng)由相機(jī)內(nèi)參與深度點(diǎn)云提升至 3D 空間。抓取后,2D 動(dòng)作方向結(jié)合局部表面法向變換為 3D 位移向量,真實(shí)環(huán)境中采用笛卡爾阻抗控制執(zhí)行接觸后動(dòng)作,保證柔順安全的交互,最終支撐從接觸定位到運(yùn)動(dòng)執(zhí)行的全流程精細(xì)操作。

實(shí)驗(yàn)結(jié)果與分析

研究團(tuán)隊(duì)在 DROID 和 HOI4D 數(shù)據(jù)集以及真實(shí) Franka 機(jī)械臂平臺(tái)上進(jìn)行了全面評(píng)估,與 RAM(單參考檢索遷移框架)和 A0(大規(guī)模可供性預(yù)測(cè)模型)展開系統(tǒng)對(duì)比。



動(dòng)態(tài)可供性預(yù)測(cè)

以均值角誤差(MAE,越低越好)評(píng)估動(dòng)作方向預(yù)測(cè)精度。RAAP(K=3)以 32.55° 的整體平均誤差取得最優(yōu),相比其他方法降低超過 50%。優(yōu)勢(shì)在開 / 關(guān)類任務(wù)上尤為顯著 ——RAM 的單樣本遷移和 A0 在方向預(yù)測(cè)上均頻繁出現(xiàn)全局性偏差,而 RAAP 通過多參考聚合有效消解了方向歧義。值得注意的是,DROID 子集平均每任務(wù)僅約 18 個(gè)訓(xùn)練樣本,充分體現(xiàn)了 RAAP 在極低數(shù)據(jù)代價(jià)下的競(jìng)爭(zhēng)力。



消融實(shí)驗(yàn)證實(shí)了雙權(quán)重機(jī)制的必要性:去掉門控權(quán)重或相似度權(quán)重均導(dǎo)致明顯性能下降,退化為均勻加權(quán)同樣不及完整模型,說明兩種權(quán)重信號(hào)功能互補(bǔ)、缺一不可。檢索數(shù)量 K 的實(shí)驗(yàn)表明 K=3 為最優(yōu)選擇:過少時(shí)模型易受單次檢索錯(cuò)誤影響,過多時(shí)噪聲參考開始拖累精度。



真實(shí)世界機(jī)械臂實(shí)驗(yàn)

研究團(tuán)隊(duì)在 Franka Research 3 機(jī)械臂上測(cè)試了未見物體泛化(任務(wù)相同,物體實(shí)例不同)與跨類別泛化(訓(xùn)練于開 / 關(guān)微波爐,測(cè)試于開 / 關(guān)柜子等新類別)兩類場(chǎng)景,每任務(wù)隨機(jī)位置下進(jìn)行 20 次試驗(yàn)。所有模型僅在 DROID 和 HOI4D 子集上訓(xùn)練,不使用任何真實(shí)世界演示數(shù)據(jù)。

RAAP 在未見物體場(chǎng)景下于開 / 關(guān)抽屜任務(wù)上超過 RAM 達(dá) 15 至 25 個(gè)百分點(diǎn),在所有拾取任務(wù)中同樣取得最高成功率?珙悇e場(chǎng)景中,RAAP 在關(guān)柜子任務(wù)上達(dá)到 100% 成功率,在其余任務(wù)上持續(xù)領(lǐng)先。



總結(jié)

RAAP 為精細(xì)機(jī)器人操作中的可供性泛化提供了一種將檢索與對(duì)齊學(xué)習(xí)統(tǒng)一的解耦框架。其核心貢獻(xiàn)在于:

  • 提出 RAAP,統(tǒng)一檢索與訓(xùn)練范式,在數(shù)據(jù)稀缺下實(shí)現(xiàn)泛化,每任務(wù)僅需少量訓(xùn)練樣本即可達(dá)到強(qiáng)性能,為精細(xì)操作場(chǎng)景下的低成本部署提供了可行路徑。
  • 設(shè)計(jì)檢索增強(qiáng)對(duì)齊模型,通過雙權(quán)重注意力聚合多個(gè)參考,同時(shí)對(duì)靜態(tài)與動(dòng)態(tài) affordance 采用互補(bǔ)機(jī)制。
  • 在 DROID、HOI4D 及真實(shí)平臺(tái)上的全面評(píng)估,證明 RAAP 在未見物體和跨類別泛化場(chǎng)景下均優(yōu)于基線,并在仿真與真實(shí)環(huán)境中驗(yàn)證了零樣本精細(xì)機(jī)器人操作能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黎巴嫩宣布4月9日為全國哀悼日

黎巴嫩宣布4月9日為全國哀悼日

財(cái)聯(lián)社
2026-04-09 06:21:05
突然確定!中國3人全部離隊(duì)!楊瀚森未能入選!

突然確定!中國3人全部離隊(duì)!楊瀚森未能入選!

左右為籃
2026-04-08 12:34:18
香蕉被點(diǎn)名!醫(yī)生提醒:高血糖患者常吃香蕉,很快或迎來這些后果

香蕉被點(diǎn)名!醫(yī)生提醒:高血糖患者常吃香蕉,很快或迎來這些后果

白話電影院
2026-04-07 20:07:56
淺淺終于塌房!論文抄襲只是開胃小菜,詩歌才是重災(zāi)區(qū)!

淺淺終于塌房!論文抄襲只是開胃小菜,詩歌才是重災(zāi)區(qū)!

一支破筆半支煙
2026-04-09 12:53:21
金莎帶婆婆度假,主動(dòng)挽她手臂把婆婆當(dāng)親媽一樣親近,孫媽好年輕

金莎帶婆婆度假,主動(dòng)挽她手臂把婆婆當(dāng)親媽一樣親近,孫媽好年輕

八怪娛
2026-04-08 19:20:25
4 種最佳抗衰老的運(yùn)動(dòng),平均壽命延長5-10年

4 種最佳抗衰老的運(yùn)動(dòng),平均壽命延長5-10年

增肌減脂
2026-04-07 21:15:04
秋瓷炫透露兒子9月上三年級(jí):很辛苦,要學(xué)中韓英三門語言,曾因語言不通,要求“換個(gè)會(huì)韓語的爸爸”

秋瓷炫透露兒子9月上三年級(jí):很辛苦,要學(xué)中韓英三門語言,曾因語言不通,要求“換個(gè)會(huì)韓語的爸爸”

臺(tái)州交通廣播
2026-04-09 00:37:05
張嘉譯西安別墅慶生,染完頭發(fā)直接年輕10歲,年紀(jì)越大越有魅力!

張嘉譯西安別墅慶生,染完頭發(fā)直接年輕10歲,年紀(jì)越大越有魅力!

柒佰娛
2026-04-09 09:52:39
成都高新區(qū)生態(tài)環(huán)境和城市管理局原黨組成員、副局長牛波被“雙開”

成都高新區(qū)生態(tài)環(huán)境和城市管理局原黨組成員、副局長牛波被“雙開”

瀟湘晨報(bào)
2026-04-08 16:40:22
美國沒有衰落,千萬不要自欺欺人

美國沒有衰落,千萬不要自欺欺人

華人星光
2026-04-08 12:06:24
賣完80多個(gè)萬達(dá)廣場(chǎng),個(gè)人財(cái)富縮水9成,王健林手里還剩什么?

賣完80多個(gè)萬達(dá)廣場(chǎng),個(gè)人財(cái)富縮水9成,王健林手里還剩什么?

正經(jīng)的燒杯1
2026-04-08 13:29:04
"豬八戒"馬德華攤牌了!透露陳麗華追悼會(huì)細(xì)節(jié),遲重瑞狀態(tài)曝光

"豬八戒"馬德華攤牌了!透露陳麗華追悼會(huì)細(xì)節(jié),遲重瑞狀態(tài)曝光

觀察鑒娛
2026-04-09 10:22:56
取消年檢呼聲終于被聽見!交通部新規(guī)落地,車主:早該這么改了

取消年檢呼聲終于被聽見!交通部新規(guī)落地,車主:早該這么改了

復(fù)轉(zhuǎn)這些年
2026-04-09 11:29:42
張雪妻子談張雪母親:成長過程中不管開店還是造車,“都是媽媽援助之手,不需質(zhì)疑”

張雪妻子談張雪母親:成長過程中不管開店還是造車,“都是媽媽援助之手,不需質(zhì)疑”

界面新聞
2026-04-08 19:42:21
孫楊張豆豆官宣生娃!諸多細(xì)節(jié)被扒,兩人相親認(rèn)識(shí),21年確認(rèn)關(guān)系

孫楊張豆豆官宣生娃!諸多細(xì)節(jié)被扒,兩人相親認(rèn)識(shí),21年確認(rèn)關(guān)系

裕豐娛間說
2026-04-09 13:44:49
美國派16名特工暗殺斯諾登,駐澳特戰(zhàn)隊(duì)擊退CIA,榮獲集體一等功

美國派16名特工暗殺斯諾登,駐澳特戰(zhàn)隊(duì)擊退CIA,榮獲集體一等功

富強(qiáng)巨靠譜
2025-02-26 09:30:43
凈利潤暴跌19%!十萬員工失業(yè)震驚全網(wǎng),電車一哥到底怎么了?

凈利潤暴跌19%!十萬員工失業(yè)震驚全網(wǎng),電車一哥到底怎么了?

墨史軒
2026-04-08 14:38:11
毀掉所有關(guān)系的溝通方式:一句話噎死人

毀掉所有關(guān)系的溝通方式:一句話噎死人

洞見
2026-03-31 09:04:08
?怂25+5+7馬刺擊敗開拓者2連勝,阿夫迪亞29+6+6亨德森20分

?怂25+5+7馬刺擊敗開拓者2連勝,阿夫迪亞29+6+6亨德森20分

湖人崛起
2026-04-09 11:59:27
女演員金莎宣布領(lǐng)證結(jié)婚,孫丞瀟3年前就開始攢五金

女演員金莎宣布領(lǐng)證結(jié)婚,孫丞瀟3年前就開始攢五金

上游新聞
2026-04-09 13:48:14
2026-04-09 14:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12715文章數(shù) 142621關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

陳麗華告別儀式舉辦 馬德華:遲重瑞心里很難過

頭條要聞

陳麗華告別儀式舉辦 馬德華:遲重瑞心里很難過

體育要聞

8萬人面前心臟驟停 現(xiàn)在他還站在球場(chǎng)上

娛樂要聞

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

財(cái)經(jīng)要聞

談判基礎(chǔ)已被破壞!霍爾木茲海峽關(guān)閉

汽車要聞

8155芯片+L2智駕 瑞虎5運(yùn)動(dòng)版上市 置換補(bǔ)貼價(jià)6.79萬元起

態(tài)度原創(chuàng)

教育
數(shù)碼
本地
手機(jī)
游戲

教育要聞

北京這三位中小學(xué)校長書記上榜!全國五一勞動(dòng)獎(jiǎng)?wù)鹿久麊纬鰻t

數(shù)碼要聞

Google Gemini 新增“筆記本”功能 與 NotebookLM 打通知識(shí)庫

本地新聞

建水Color Walk | 古城慢調(diào),掉進(jìn)春天的調(diào)色盤里

手機(jī)要聞

蘋果良心了!蘋果2026新品加入自助維修計(jì)劃:用戶自己修,更省錢

《Starfield》現(xiàn)已登陸PlayStation 5 +“Terran Armada”DLC及“Free Lanes”更新

無障礙瀏覽 進(jìn)入關(guān)懷版