国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

RoboTracer讓機器人理解復雜空間指令,開放世界也能精確行動

0
分享至



本文的主要作者來自北京航空航天大學、北京大學、北京智源人工智能研究院和中科院自動化研究所。本文的第一作者為北京航空航天大學博士生周恩申,主要研究方向為具身智能和多模態(tài)大模型。本文的共一作者兼項目負責人為北京智源研究院研究員遲程。本文的通訊作者為北京航空航天大學教授盛律和北京大學計算機學院研究員、助理教授仉尚航。

我們希望具身機器人真正走進真實世界,尤其走進每個人的家里,幫我們完成澆花、收納、清潔等日常任務。但家庭環(huán)境不像實驗室那樣干凈、單一、可控:物體種類多、擺放雜、隨時會變化,這讓機器人在三維物理世界中「看懂并做好」變得更難。

想象一下你下班回到家,對家用服務機器人說: 「按從左到右的順序給每盆花澆水;噴壺要在每朵花上方 1–5 厘米處停住再澆,這樣更均勻?!梗ㄈ缦聢D)



對人來說這很自然,但對機器人來說,難點不在「澆水」本身,而在指令里隱含了大量空間約束:既有定性的(從左到右、在上方),也有定量的(1–5 厘米)。在雜亂的開放世界場景中,讓機器人穩(wěn)定遵循這些約束,哪怕對目前最先進的視覺 - 語言 - 動作模型(VLA)也依然是挑戰(zhàn)。

一個直接的突破口是:讓視覺 - 語言模型(VLM)生成一條滿足這些空間約束的 3D 位置序列 ——空間軌跡(Spatial Trace)。它相當于一座橋梁:既能把「指令在 3D 空間中如何被理解與執(zhí)行」的過程表達清楚,也能進一步用來指導機器人生成可執(zhí)行的動作軌跡。但空間軌跡生成本質上非常困難,因為它需要在 3D 場景里進行多步、帶真實尺度約束的推理,并且每一步都要同時具備兩種關鍵能力:

  • 3D 空間指代:理解指令中的各種空間關系,并在 3D 場景中準確指代定位相關物體(例如按「從左到右」依次找到每盆花)。
  • 3D 空間度量:理解現實世界的絕對尺度并做計算(例如估計花的物理高度,確定其上方 1–5 厘米對應的具體 3D 位置)。

遺憾的是,現有很多 VLM 工作主要集中在 2D 空間推理或 2D 視覺軌跡生成:一方面往往弱化了軌跡生成最關鍵的「多步推理」過程,尤其缺少對中間關鍵對象的顯式建模,容易導致結果次優(yōu);另一方面輸出多停留在 2D 像素坐標,缺乏 3D 指代定位與絕對尺度理解。這也造成了 2D 視覺軌跡與 3D 空間軌跡之間的根本鴻溝。

為了解決這一問題,北京航空航天大學、北京智源人工智能研究院、北京大學等機構聯合推出了具備 3D 空間理解與推理能力的多模態(tài)大模型 ——RoboTracer。RoboTracer 通過全參數微調(SFT)強化空間信息的精準理解(空間感知 / 度量 / 指代),并進一步用強化學習微調(RFT)提升推理與泛化能力,最終在開放世界場景中實現可用的 3D 空間軌跡生成



  • 論文鏈接:https://arxiv.org/pdf/2512.13660
  • 論文標題:RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
  • 項目主頁:https://zhoues.github.io/RoboTracer/
  • 代碼倉庫:https://github.com/Zhoues/RoboTracer
  • 評測鏈接:https://huggingface.co/datasets/JingkunAn/TraceSpatial-Bench

下面是真機實拍的機器人澆花過程,包含多步、帶真實尺度約束的推理

SFT 訓練下的 RoboTracer 在空間理解 / 空間度量 / 空間指代任務中達到了79.1% 的平均成功率,刷新了當前最先進水平。而在研究者提出的高難度空間軌跡生成任務評測基準TraceSpatial-Bench上,RFT 訓練后的 RoboTracer 更是領先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均準確率,優(yōu)勢顯著。

更關鍵的是,RoboTracer 直接做到「開箱即用」:可以靈活集成到不同類型的機器人上,比如 UR5 機械臂、G1 仿人機器人等,在真實環(huán)境中完成復雜、動態(tài)、多步驟任務,讓機器人真正做到「聽得懂、看得清、動得準」。

RoboTracer 是什么?



RoboTracer 是一個三維空間理解與推理能力的多模態(tài)大模型,其擁有單獨的圖片編碼器和支持任意多幾何輸入(絕對深度圖,相機內參)的空間編碼器。該模型具備較完備的空間感知推理能力,不僅僅可以回答各種空間感知類問答,無論是「哪個物體在左邊?」這樣的定性問題,還是「這個物體高度是多少?」這樣的定量問題,并且還預測當前場景的尺度縮放因子;更厲害的是,它還可以基于 3D 空間指代和 3D 空間度量進行,復雜的組合式推理,最終準確生成精確的空間軌跡(如上圖,逐一從左到右確定每一盆花的 3D 位置及其高度)。

RoboTracer 的核心是什么?

為什么相較于以往的方法,RoboTracer 不僅可以精確的感知空間,而且又可以根據多個空間關系組合泛化進行帶真實尺度約束的推理呢?其關鍵因素在于以下幾點:

解耦 (u, v, d) 表達增強多任務學習

傳統方法直接回歸 (x, y, z) 坐標,往往要求模型強行根據單目圖片預測復雜的相機幾何信息(比如相機內參),導致訓練難、精度低。RoboTracer 提出了一種符合具身場景的解法:利用 (u, v, d) 進行解耦表達。這種表示法利用圖像像素 (u, v) 和深度 d,結合已知的相機內參,輕松換算真實 3D 坐標。其核心優(yōu)勢在于:

1. 降低學習門檻:不用讓 VLM「硬學」復雜的相機幾何信息,訓練更簡單,精度也更高。

2. 數據復用能力更強:(u, v, d) 很容易投影到更低維的任務上 —— 去掉 d 就變成 2D 軌跡;只保留起點 / 終點,又能構造成 2D/3D 的空間指代數據。

通用空間編碼器與尺度解碼器提升絕對尺度感知

想要精準定位物體、測量距離,模型必須理解「真實世界的尺寸」。但很多只用 RGB 訓練的VLM 缺少絕對尺度概念,因此距離 / 尺寸容易估不準。為了解決這一點,研究者加入兩個關鍵模塊:

1. 尺度解碼器:將

token直接回歸成一個數值尺度因子,把「尺度不變的特征」與「真實世界的絕對長度」對應起來。相比分類損失,用回歸損失監(jiān)督更能提升對三維真實尺度的感知。

2. 通用空間編碼器:借助前饋式三維度量幾何模型提供的強幾何先驗,顯著增強模型的空間與尺度理解。它還能按需融合不同幾何信息(如相機內參、位姿、深度):幾何信息越多,空間表示越精細。該設計帶來兩點好處:(1)訓練更靈活:通過靈活輸入增強,把不同數據集中帶尺度標注的信息用起來,提升空間學習效果(2)推理更自適應:無需重新訓練或改結構,就能融合當前可用的幾何信息。

SFT 增強感知,RFT 搭配過程獎勵提升推理

RoboTracer 采用兩階段訓練策略,其中 SFT 階段針對性地提升模型的單步 3D 空間理解 / 空間度量 / 空間指代能力;RFT 階段不僅關注最終軌跡結果的獎勵,還創(chuàng)新性地設計度量敏感過程獎勵,這些獎勵函數能夠顯式監(jiān)督軌跡生成中涉及的關鍵中間感知步驟(如 3D 指代、3D 度量和尺度預測)的質量。最終,模型增強了多步、帶真實尺度約束的推理,實現了對復雜空間約束任務的空間軌跡規(guī)劃。

提出 TraceSpatial 數據集

教一個多模態(tài)大模型從0到1學會生成空間軌跡



為了支持前述的 SFT 和 RFT 訓練,研究團隊構建了一個大規(guī)模、高質量、帶真實尺度的數據集 ——TraceSpatial,具有以下幾個核心特點:

  • 場景多樣:覆蓋室內外和桌面環(huán)境,包含物體和末端執(zhí)行器兩種分別為中心的空間軌跡,后者包含 3 種不同的單臂 / 雙臂機器人構型。
  • 維度豐富:包含大量尺度相關數據(占 48.2%),還附帶詳細的多步推理過程(最高有 9 步),為復雜空間軌跡生成提供支持。
  • 規(guī)模龐大:共包含 450 萬個樣本、3000 萬個問答對,目前最大 3D 空間數據集。
  • 精細標注:每個物體都配有層級式描述,從「花」這類種類類別,到像「左數第一個盆花」這樣的精確空間指代,確保在復雜場景中也能清晰用文字表述。同時包含大量絕對尺度的幾何信息標注(比如相機內參、深度圖)以支持靈活的輸入增強。
  • 高質量篩選:數據經過嚴格篩選,確保標注準確、語義清晰。
  • 易于擴展:支持從多種來源生成空間軌跡數據,包括 2D 圖像、3D 掃描數據和機器人操縱視頻,具備高度擴展性。

RoboTracer 到底有多厲害

空間理解 / 空間度量 / 空間指代

SFT 訓練下的 RoboTracer 在空間理解 / 空間度量 / 空間指代任務中達到了79.1% 的平均成功率,取得了當前最先進水平,比 Gemini-2.5-Pro 高出 11% 的平均準確率





空間軌跡評測

RFT 訓練后的 RoboTracer 在研究者們提出的高難度空間軌跡生成任務評測基準TraceSpatial-Bench上更是領先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均準確率



下面展示一些 RoboTracer 與其它模型輸出結果的可視化樣例,不難發(fā)現目前的 VLM 都理解空間關系并且生成 2D 軌跡,但是由于絕對深度預測不精確導致生成的空間軌跡往往浮空或者碰撞,而 RoboTracer 可以較為精確地預測,而且更多的幾何輸入預測結果更精確。



仿真與真機實驗

在空間操控的機械臂仿真評測中,RoboTracer 的表現遠超現有的視覺 - 語言 - 動作(VLA)系統。不僅在模擬環(huán)境中成功率遙遙領先,面對開放世界中需要多步、帶真實尺度約束的推理的復雜任務,唯有 RoboTracer 能夠完成





更多的實驗結果,可視化展示(包括更多的雜亂場景下的真機 Demo 視頻的空間軌跡生成結果)詳見論文和主頁。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
多省射擊隊,購買走私槍支配件?

多省射擊隊,購買走私槍支配件?

中國新聞周刊
2026-01-08 14:24:06
攤牌了?中企陸續(xù)收到光刻機,外媒:ASML公司不“乖”了

攤牌了?中企陸續(xù)收到光刻機,外媒:ASML公司不“乖”了

豐譚筆錄
2026-01-08 00:11:38
世界真是草臺班子,小米官方表示新款 SU7 標錯了價格!

世界真是草臺班子,小米官方表示新款 SU7 標錯了價格!

XCiOS俱樂部
2026-01-07 19:38:42
遲到的父愛也是愛!成龍向女兒拋橄欖枝,吳卓林回應已回香港創(chuàng)業(yè)

遲到的父愛也是愛!成龍向女兒拋橄欖枝,吳卓林回應已回香港創(chuàng)業(yè)

代軍哥哥談娛樂
2026-01-07 11:55:28
李在明訪華,日本產業(yè)界重磅施壓后,高市早苗突然向我國喊話

李在明訪華,日本產業(yè)界重磅施壓后,高市早苗突然向我國喊話

肖茲探秘說
2026-01-07 21:36:04
不到48小時,特朗普或下臺,印度多500%關稅,美國又搶千萬石油

不到48小時,特朗普或下臺,印度多500%關稅,美國又搶千萬石油

藍色海邊
2026-01-08 07:10:37
解密加勒萬河谷沖突全過程,我軍是如何以80人擊潰印軍600人的?

解密加勒萬河谷沖突全過程,我軍是如何以80人擊潰印軍600人的?

阿胡
2024-12-02 14:33:09
細思恐極!老板曝司曉迪事件來龍去脈,她曾暗示鹿晗關曉彤有娃!

細思恐極!老板曝司曉迪事件來龍去脈,她曾暗示鹿晗關曉彤有娃!

古希臘掌管月桂的神
2026-01-08 10:51:38
馬杜羅被抓細節(jié)曝光,4厘米的偏移,讓他沒躲進近在咫尺的安全屋

馬杜羅被抓細節(jié)曝光,4厘米的偏移,讓他沒躲進近在咫尺的安全屋

賤議你讀史
2026-01-08 04:25:03
特朗普強硬表態(tài),誰敢攔截對臺軍售就對誰開戰(zhàn),美國軍工股暴漲

特朗普強硬表態(tài),誰敢攔截對臺軍售就對誰開戰(zhàn),美國軍工股暴漲

我心縱橫天地間
2026-01-07 16:57:21
已失業(yè)半年!35歲巴洛特利赴沙特養(yǎng)老:簽2年半 經紀人騙了全世界

已失業(yè)半年!35歲巴洛特利赴沙特養(yǎng)老:簽2年半 經紀人騙了全世界

風過鄉(xiāng)
2026-01-08 08:24:02
樊振東奪冠第3天,德國俱樂部開出豐厚條件,給予了他極大的尊重

樊振東奪冠第3天,德國俱樂部開出豐厚條件,給予了他極大的尊重

十點街球體育
2026-01-08 00:05:03
亞足聯官方介紹U23中國隊:擁有強大的進攻火力 王鈺棟拜合拉木突出

亞足聯官方介紹U23中國隊:擁有強大的進攻火力 王鈺棟拜合拉木突出

新英體育
2026-01-08 10:41:52
韓國總統夫人金惠景:每晚都和丈夫一起敷面膜

韓國總統夫人金惠景:每晚都和丈夫一起敷面膜

看看新聞Knews
2026-01-08 00:17:03
特朗普,突襲!剛剛,集體大跳水!

特朗普,突襲!剛剛,集體大跳水!

券商中國
2026-01-08 07:19:48
震撼!上海一漲薪申請引熱議,網友:這么點工資,還這么多人簽字

震撼!上海一漲薪申請引熱議,網友:這么點工資,還這么多人簽字

火山詩話
2026-01-07 17:06:37
1955年,一名身體強壯的日本女人赤裸上身背著黑色編織袋站在海邊

1955年,一名身體強壯的日本女人赤裸上身背著黑色編織袋站在海邊

忠于法紀
2026-01-07 17:46:09
特雷楊怒了!賽中慘遭交易直接爆發(fā),苦笑返場握手,原來詹皇沒錯

特雷楊怒了!賽中慘遭交易直接爆發(fā),苦笑返場握手,原來詹皇沒錯

嘴炮體壇
2026-01-08 11:17:26
安理會無視中方發(fā)言后,中國記者靈魂提問:聯合國還有什么意義?

安理會無視中方發(fā)言后,中國記者靈魂提問:聯合國還有什么意義?

通文知史
2026-01-07 14:00:03
剛到法甲就獲盛贊!19歲新大羅逆襲,不當姆總替補2年內重返皇馬

剛到法甲就獲盛贊!19歲新大羅逆襲,不當姆總替補2年內重返皇馬

阿泰希特
2026-01-08 10:00:21
2026-01-08 15:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12077文章數 142531關注度
往期回顧 全部

科技要聞

雷軍:現在聽到營銷這兩個字都有點惡心

頭條要聞

國家級射擊教練因走私武器罪獲刑10年:多省射擊隊購買

頭條要聞

國家級射擊教練因走私武器罪獲刑10年:多省射擊隊購買

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強勢上映

財經要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

親子
本地
時尚
教育
公開課

親子要聞

早上老師發(fā)我的視頻,胡圖圖跳舞太賣力了,老師說他活力滿滿 楊雪呀

本地新聞

“閩東利劍·惠民安商”高效執(zhí)行專項行動

藍色+灰色、紅色+棕色,這4組配色怎么搭都好看!

教育要聞

學霸思維訓練:求陰影部分的面積,根據蝴蝶定理求解

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版