国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

大模型外掛三維物體知識庫來了,大幅增強機器人長程自主操作能力

0
分享至



近年來,以 GPT、Gemini 等為代表的視覺語言大模型(VLM)已能幫助機器人理解人類語言指令,并基于圖像進行一定程度的場景推理。然而,從“理解指令”到“動手操作”之間,仍存在一道關鍵鴻溝:大模型懂語義,卻未必懂三維空間;會生成任務步驟,卻未必能把步驟轉化為真實物理世界中的可執(zhí)行動作。

在抓取、擺放、整理等機器人操作任務中,物體的位置、朝向、尺寸、功能平面和可抓取部位都直接影響執(zhí)行結果。一旦模型對空間關系判斷不準,就可能給出看似合理、實際無法落地的規(guī)劃。如何讓大模型獲得可驗證、可遷移的三維空間知識,正成為具身智能研究中的核心問題。

近日,一項發(fā)表于 Science Robotics 的最新研究,提出了名為 RAM(Retrieval-Augmented Manipulation)的三維空間理解與操作框架。該框架通過檢索增強的方式為 VLM 補充物體級空間知識,使機器人能夠更好地理解物體的位置、朝向和可操作關系,并生成帶有明確空間約束的操作計劃。


(來源:Science Robotics)

這項研究的第一作者、香港中文大學博士后陳凱向 DeepTech 介紹,RAM 可以被理解為一套可檢索的“三維物體知識庫”:其中記錄了各類日常物體的三維形狀、穩(wěn)定擺放方式、可抓取部位和功能平面等信息。它并不是重新訓練 VLM,而是在模型規(guī)劃前為其提供更精細的空間上下文,讓大模型在任務規(guī)劃時不只“知道要做什么”,也更清楚“應該如何在三維空間中做”。

給大模型一本可檢索的“三維物體知識庫”

現(xiàn)有 VLM 在語義規(guī)劃層面表現(xiàn)出色,能夠將“整理桌面”“擺放餐具”等抽象指令拆解為若干邏輯步驟。但在機器人操作中,僅有語義規(guī)劃并不夠。機器人還必須理解物體之間的三維空間關系,并將這些關系轉化為位姿、抓取點、對齊方向和運動軌跡等可執(zhí)行約束。

這種局限與當前 VLM 的預訓練范式有關。多數模型主要基于二維圖像與文本配對數據訓練,擅長識別圖像內容,卻缺乏對深度、尺度和物理約束的直接經驗。業(yè)界也嘗試通過三維數據微調來補足能力,但高質量 3D 數據采集和標注成本高,計算資源和訓練時間開銷也很大。

RAM 的思路是:不把所有空間知識都壓進模型參數,而是構建一個外部、顯式、可查詢的物體空間知識庫。每當機器人執(zhí)行任務時,系統(tǒng)根據當前場景中的物體類別和觀測信息,檢索相應的三維先驗,并將其轉化為 VLM 可利用的空間上下文。


圖 | RAM 框架示意圖(來源:上述論文)

具體來看,RAM 可以概括為三個核心模塊。

第一個模塊是物體類別級知識引擎。研究團隊為不同物體類別建立標準化三維模板,并在模板上標注幾何屬性和操作屬性,例如標準姿態(tài)、尺寸、對稱性、抓取點、功能平面的位置與朝向等。相比為每個具體物體單獨建模,這種類別級模板能夠遷移到多種形狀、尺寸和外觀的同類物體實例上,從而降低真實數據采集和標注成本。

第二個模塊是三維視覺接地模型。模板提供的是一類物體的通用空間描述,但機器人在真實場景中看到的,是大小、姿態(tài)和外觀各不相同的物體實例。該模塊的作用,是基于二維圖像特征和三維點云信息,建立觀測物體與模板之間的對應關系,將模板中的姿態(tài)、抓取方式、功能平面等空間知識遷移到當前物體上。研究團隊表示,該模塊主要基于合成數據訓練,并在真實場景實驗中展現(xiàn)出對多種未見物體實例的泛化能力。

第三個模塊是檢索增強任務規(guī)劃器。系統(tǒng)將接地后的空間信息組織成結構化文本,與原始圖像和語言指令一起輸入 VLM。獲得增強后的空間上下文后,VLM 不再只生成“抓起杯子、放到某處”這類粗粒度步驟,而是可以規(guī)劃“使用哪個抓取點”“將哪個功能平面與目標物體的哪個平面對齊”“在什么方向和高度移動”等更細粒度的動作約束。隨后,系統(tǒng)再通過軌跡優(yōu)化方法,將這些約束轉化為機器人可執(zhí)行的運動軌跡。

14 項實驗檢驗 RAM 的空間操作能力

為了驗證 RAM 的能力,研究團隊在真實機械臂平臺上開展了 14 項空間操作實驗,覆蓋 31 個物體實例和 11 個物體類別。

實驗首先考察語言指令驅動的空間操作,任務包括單物體單步驟、多物體單步驟和多物體多步驟三類。結果顯示,RAM 在總計 120 次重復測試中取得 89.17% 的平均成功率,其中最復雜的多物體多步驟任務成功率達到 80%。

論文實驗中,研究團隊將 RAM 接入多種代表性 VLM 進行驗證,結果顯示該框架不依賴單一模型,可作為通用的空間增強模塊與不同視覺語言模型配合使用。實驗表明,當模型獲得明確的三維空間信息后,更容易生成符合物理約束的操作規(guī)劃。


圖 | 語言指令驅動的空間操作實驗(來源:上述論文)

不過,當任務對物體的空間位置和朝向要求較高時,僅靠語言描述會變得冗長,也容易產生歧義。陳凱表示,圖片在表達復雜空間布局時更加緊湊、直觀。因此,團隊進一步測試了 RAM 在圖像引導操作中的表現(xiàn)。

以餐具擺放為例,系統(tǒng)只需輸入一張目標擺放參考圖,機器人便需要理解圖中物體的相對位置和朝向,并將二維參考布局映射到當前三維工作空間中。實驗顯示,在單張圖像引導空間操作中,常規(guī)平面場景成功率達到 92%,復雜高低平面場景成功率為 72%,突破了傳統(tǒng)方法通常依賴俯視參考圖的限制。

RAM 還被用于測試與空間推理相關的自主決策。陳凱解釋,同一個目標任務往往存在多個語義上可行的方案,但考慮到物體尺寸、朝向、高度和位置關系后,其中一些方案在物理上并不可行。RAM 的價值在于讓機器人在規(guī)劃前顯式獲得這些空間約束,從而選擇更可執(zhí)行的策略。

在清理桌面任務中,機器人需要根據桌面高度、垃圾桶尺寸和物體位置選擇合適的清掃方案。實驗中,當直接清掃不可行時,系統(tǒng)能夠規(guī)劃借助簸箕等中間工具的間接方案,平均成功率達到 65%,展示了相比純語義規(guī)劃更強的物理可行性判斷能力。


圖 | 基于空間約束的自主決策示例(來源:上述論文)

從剛體到鉸接與柔性物體

除了常見剛體物體,研究團隊還探索了 RAM 在鉸接物體和柔性物體操作中的擴展能力。對于筆記本電腦、抽屜等具有鉸鏈結構的物體,團隊采用多模板匹配策略,預設不同開合狀態(tài)或滑動狀態(tài),并通過觀測結果匹配最接近的模板,從而估計旋轉軸或推動方向。基于這些空間信息,機器人能夠完成筆記本電腦開合、抽屜推拉等操作。

在柔性物體操作方面,團隊以疊衣服為例,將折疊過程拆解為展開、疊左袖、疊右袖等有限步驟,并為不同狀態(tài)匹配相應模板,輔助系統(tǒng)完成分階段操作。研究還初步探索了與觸覺傳感器的結合:當抓取過程中物體因重心分布不均發(fā)生相對移動時,系統(tǒng)可利用觸覺反饋重新規(guī)劃抓取姿勢。

談及未來方向,陳凱表示,“這一路徑可以繼續(xù)向更開放的物體類別、更復雜的物理交互和更長程的任務執(zhí)行擴展。一方面,機器人所需的知識庫可以從物體形狀、抓取點和功能平面,進一步拓展到材質、受力、可變形性、操作失敗模式和安全邊界等更豐富的具身知識;另一方面,空間知識的使用也可以從任務規(guī)劃階段進一步延伸到執(zhí)行過程,在機器人與環(huán)境交互的過程中持續(xù)感知、校正和重規(guī)劃,使外部知識庫提供的空間先驗與機器人自身積累的操作經驗形成閉環(huán)。對于家庭服務、養(yǎng)老照護等需要近距離人機交互的場景而言,這類能力將是機器人實現(xiàn)安全、可靠輔助操作的重要基礎。”

Chen K, Li C, Tu C, et al. A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation. Science Robotics. 2026;11(113):eaea2092. doi:10.1126/scirobotics.aea2092

運營/排版:何晨龍

注:封面/首圖由 AI 輔助生成

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
發(fā)現(xiàn)沒有,如今在農村頭胎是兒子的,多數不生二胎了,而頭胎是女兒的,也有不少不生二胎了!

發(fā)現(xiàn)沒有,如今在農村頭胎是兒子的,多數不生二胎了,而頭胎是女兒的,也有不少不生二胎了!

農夫也瘋狂
2026-04-30 15:37:38
40歲英格蘭傳奇宣布退役!結束23年生涯,曾任曼聯(lián)隊長+率隊奪6冠

40歲英格蘭傳奇宣布退役!結束23年生涯,曾任曼聯(lián)隊長+率隊奪6冠

我愛英超
2026-04-30 17:27:22
趙心童世錦賽出局,賽后回應墨菲的開球戰(zhàn)術,最新世界排名出爐了

趙心童世錦賽出局,賽后回應墨菲的開球戰(zhàn)術,最新世界排名出爐了

小火箭愛體育
2026-04-30 11:06:07
斬殺中年男性的三件套:陽痿、失業(yè)和心梗!

斬殺中年男性的三件套:陽痿、失業(yè)和心梗!

燈錦年
2026-04-30 10:04:05
日本140厘米人形機器人臨展故障,藏著什么信號

日本140厘米人形機器人臨展故障,藏著什么信號

爬蟲飼養(yǎng)員
2026-04-29 16:55:04
實在沒法搞了!美菲軍演提前結束,兩艘中國815A圍著演習轉

實在沒法搞了!美菲軍演提前結束,兩艘中國815A圍著演習轉

軒逸阿II
2026-04-30 10:04:28
知名男星樸東彬驟逝!在餐廳斷氣被發(fā)現(xiàn)「留下一女兒」 享年56歲

知名男星樸東彬驟逝!在餐廳斷氣被發(fā)現(xiàn)「留下一女兒」 享年56歲

ETtoday星光云
2026-04-30 12:04:05
殲15霸氣喊話日本軍機:你在我導彈射程內

殲15霸氣喊話日本軍機:你在我導彈射程內

閃電新聞
2026-04-30 15:08:43
醫(yī)院職工舉報院長兒子長期吃空餉 湖南中醫(yī)藥大學回應

醫(yī)院職工舉報院長兒子長期吃空餉 湖南中醫(yī)藥大學回應

閃電新聞
2026-04-30 13:44:26
外交部:昂山素季女士是中國的老朋友,我們一直關心她的情況

外交部:昂山素季女士是中國的老朋友,我們一直關心她的情況

新京報
2026-04-30 16:42:11
云南元陽發(fā)生車禍,致人員傷亡

云南元陽發(fā)生車禍,致人員傷亡

界面新聞
2026-04-30 17:54:58
漲停!7000億元巨頭爆發(fā)!

漲停!7000億元巨頭爆發(fā)!

環(huán)球網資訊
2026-04-30 15:28:31
扎心了!女兒頻繁用生殖器官類詞匯辱罵父母,一家長哭訴引發(fā)熱議

扎心了!女兒頻繁用生殖器官類詞匯辱罵父母,一家長哭訴引發(fā)熱議

火山詩話
2026-04-30 07:03:35
原董事長被曝涉嫌性侵,公司聲明:屬實

原董事長被曝涉嫌性侵,公司聲明:屬實

21世紀經濟報道
2026-04-30 12:53:07
廣東莫氏雞煲老板回應欠債180萬:近期雞煲爆火已還清大部分,還剩三四十萬

廣東莫氏雞煲老板回應欠債180萬:近期雞煲爆火已還清大部分,還剩三四十萬

大象新聞
2026-04-30 11:42:08
網紅“羅二哥”去世,年僅47歲,岳父5天前剛去世,原因令人惋惜

網紅“羅二哥”去世,年僅47歲,岳父5天前剛去世,原因令人惋惜

180視角
2026-04-30 13:22:07
激烈沖突!巴雷特怒噴哈登:來我們替補席拿球就是不尊重

激烈沖突!巴雷特怒噴哈登:來我們替補席拿球就是不尊重

仰臥撐FTUer
2026-04-30 13:03:06
重磅:烏克蘭摧毀克里米亞的“伊斯坎德爾”導彈基地!

重磅:烏克蘭摧毀克里米亞的“伊斯坎德爾”導彈基地!

項鵬飛
2026-04-29 19:14:55
王石“裸泳”再登熱搜!網友:身體非常好了,精氣神兒不輸小年輕

王石“裸泳”再登熱搜!網友:身體非常好了,精氣神兒不輸小年輕

火山詩話
2026-04-30 10:27:30
6小時連環(huán)追問,對伊開戰(zhàn)后美防長首次國會聽證現(xiàn)場“破防”:齜牙、咆哮、語無倫次

6小時連環(huán)追問,對伊開戰(zhàn)后美防長首次國會聽證現(xiàn)場“破防”:齜牙、咆哮、語無倫次

紅星新聞
2026-04-30 13:12:19
2026-04-30 18:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16647文章數 514913關注度
往期回顧 全部

科技要聞

四巨頭財報齊發(fā):AI已經不只是風口

頭條要聞

媒體:打了9周燒了250億 特朗普現(xiàn)在要“窒息”伊朗

頭條要聞

媒體:打了9周燒了250億 特朗普現(xiàn)在要“窒息”伊朗

體育要聞

季后賽場均5.4分,他憑啥在騎士打首發(fā)?

娛樂要聞

孫楊博士學歷有問題?官方含糊其辭

財經要聞

易會滿被“雙開”!

汽車要聞

專訪捷途汪如生:捷途雙線作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

游戲
旅游
家居
數碼
軍事航空

不坑國人!國產影游國區(qū)全球最低價 美區(qū)竟貴6倍

旅游要聞

河聲丨要體驗有情緒,五一假期澎湃消費新動能

家居要聞

靈動實用 生活藝術場

數碼要聞

專訪 | 創(chuàng)芯未來,華碩打造驍龍平臺重塑AI PC移動創(chuàng)作生產力

軍事要聞

意大利議會批準:捐贈航母給印度尼西亞

無障礙瀏覽 進入關懷版