国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RoboTracer讓機器人理解復雜空間指令,開放世界也能精確行動

0
分享至



本文的主要作者來自北京航空航天大學、北京大學、北京智源人工智能研究院和中科院自動化研究所。本文的第一作者為北京航空航天大學博士生周恩申,主要研究方向為具身智能和多模態(tài)大模型。本文的共一作者兼項目負責人為北京智源研究院研究員遲程。本文的通訊作者為北京航空航天大學教授盛律和北京大學計算機學院研究員、助理教授仉尚航。

我們希望具身機器人真正走進真實世界,尤其走進每個人的家里,幫我們完成澆花、收納、清潔等日常任務。但家庭環(huán)境不像實驗室那樣干凈、單一、可控:物體種類多、擺放雜、隨時會變化,這讓機器人在三維物理世界中「看懂并做好」變得更難。

想象一下你下班回到家,對家用服務機器人說: 「按從左到右的順序給每盆花澆水;噴壺要在每朵花上方 1–5 厘米處停住再澆,這樣更均勻。」(如下圖)



對人來說這很自然,但對機器人來說,難點不在「澆水」本身,而在指令里隱含了大量空間約束:既有定性的(從左到右、在上方),也有定量的(1–5 厘米)。在雜亂的開放世界場景中,讓機器人穩(wěn)定遵循這些約束,哪怕對目前最先進的視覺 - 語言 - 動作模型(VLA)也依然是挑戰(zhàn)。

一個直接的突破口是:讓視覺 - 語言模型(VLM)生成一條滿足這些空間約束的 3D 位置序列 ——空間軌跡(Spatial Trace)。它相當于一座橋梁:既能把「指令在 3D 空間中如何被理解與執(zhí)行」的過程表達清楚,也能進一步用來指導機器人生成可執(zhí)行的動作軌跡。但空間軌跡生成本質上非常困難,因為它需要在 3D 場景里進行多步、帶真實尺度約束的推理,并且每一步都要同時具備兩種關鍵能力:

  • 3D 空間指代:理解指令中的各種空間關系,并在 3D 場景中準確指代定位相關物體(例如按「從左到右」依次找到每盆花)。
  • 3D 空間度量:理解現(xiàn)實世界的絕對尺度并做計算(例如估計花的物理高度,確定其上方 1–5 厘米對應的具體 3D 位置)。

遺憾的是,現(xiàn)有很多 VLM 工作主要集中在 2D 空間推理或 2D 視覺軌跡生成:一方面往往弱化了軌跡生成最關鍵的「多步推理」過程,尤其缺少對中間關鍵對象的顯式建模,容易導致結果次優(yōu);另一方面輸出多停留在 2D 像素坐標,缺乏 3D 指代定位與絕對尺度理解。這也造成了 2D 視覺軌跡與 3D 空間軌跡之間的根本鴻溝。

為了解決這一問題,北京航空航天大學、北京智源人工智能研究院、北京大學等機構聯(lián)合推出了具備 3D 空間理解與推理能力的多模態(tài)大模型 ——RoboTracer。RoboTracer 通過全參數(shù)微調(SFT)強化空間信息的精準理解(空間感知 / 度量 / 指代),并進一步用強化學習微調(RFT)提升推理與泛化能力,最終在開放世界場景中實現(xiàn)可用的 3D 空間軌跡生成



  • 論文鏈接:https://arxiv.org/pdf/2512.13660
  • 論文標題:RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
  • 項目主頁:https://zhoues.github.io/RoboTracer/
  • 代碼倉庫:https://github.com/Zhoues/RoboTracer
  • 評測鏈接:https://huggingface.co/datasets/JingkunAn/TraceSpatial-Bench

下面是真機實拍的機器人澆花過程,包含多步、帶真實尺度約束的推理

SFT 訓練下的 RoboTracer 在空間理解 / 空間度量 / 空間指代任務中達到了79.1% 的平均成功率,刷新了當前最先進水平。而在研究者提出的高難度空間軌跡生成任務評測基準TraceSpatial-Bench上,RFT 訓練后的 RoboTracer 更是領先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均準確率,優(yōu)勢顯著。

更關鍵的是,RoboTracer 直接做到「開箱即用」:可以靈活集成到不同類型的機器人上,比如 UR5 機械臂、G1 仿人機器人等,在真實環(huán)境中完成復雜、動態(tài)、多步驟任務,讓機器人真正做到「聽得懂、看得清、動得準」。

RoboTracer 是什么?



RoboTracer 是一個三維空間理解與推理能力的多模態(tài)大模型,其擁有單獨的圖片編碼器和支持任意多幾何輸入(絕對深度圖,相機內(nèi)參)的空間編碼器。該模型具備較完備的空間感知推理能力,不僅僅可以回答各種空間感知類問答,無論是「哪個物體在左邊?」這樣的定性問題,還是「這個物體高度是多少?」這樣的定量問題,并且還預測當前場景的尺度縮放因子;更厲害的是,它還可以基于 3D 空間指代和 3D 空間度量進行,復雜的組合式推理,最終準確生成精確的空間軌跡(如上圖,逐一從左到右確定每一盆花的 3D 位置及其高度)。

RoboTracer 的核心是什么?

為什么相較于以往的方法,RoboTracer 不僅可以精確的感知空間,而且又可以根據(jù)多個空間關系組合泛化進行帶真實尺度約束的推理呢?其關鍵因素在于以下幾點:

解耦 (u, v, d) 表達增強多任務學習

傳統(tǒng)方法直接回歸 (x, y, z) 坐標,往往要求模型強行根據(jù)單目圖片預測復雜的相機幾何信息(比如相機內(nèi)參),導致訓練難、精度低。RoboTracer 提出了一種符合具身場景的解法:利用 (u, v, d) 進行解耦表達。這種表示法利用圖像像素 (u, v) 和深度 d,結合已知的相機內(nèi)參,輕松換算真實 3D 坐標。其核心優(yōu)勢在于:

1. 降低學習門檻:不用讓 VLM「硬學」復雜的相機幾何信息,訓練更簡單,精度也更高。

2. 數(shù)據(jù)復用能力更強:(u, v, d) 很容易投影到更低維的任務上 —— 去掉 d 就變成 2D 軌跡;只保留起點 / 終點,又能構造成 2D/3D 的空間指代數(shù)據(jù)。

通用空間編碼器與尺度解碼器提升絕對尺度感知

想要精準定位物體、測量距離,模型必須理解「真實世界的尺寸」。但很多只用 RGB 訓練的VLM 缺少絕對尺度概念,因此距離 / 尺寸容易估不準。為了解決這一點,研究者加入兩個關鍵模塊:

1. 尺度解碼器:將

token直接回歸成一個數(shù)值尺度因子,把「尺度不變的特征」與「真實世界的絕對長度」對應起來。相比分類損失,用回歸損失監(jiān)督更能提升對三維真實尺度的感知。

2. 通用空間編碼器:借助前饋式三維度量幾何模型提供的強幾何先驗,顯著增強模型的空間與尺度理解。它還能按需融合不同幾何信息(如相機內(nèi)參、位姿、深度):幾何信息越多,空間表示越精細。該設計帶來兩點好處:(1)訓練更靈活:通過靈活輸入增強,把不同數(shù)據(jù)集中帶尺度標注的信息用起來,提升空間學習效果(2)推理更自適應:無需重新訓練或改結構,就能融合當前可用的幾何信息。

SFT 增強感知,RFT 搭配過程獎勵提升推理

RoboTracer 采用兩階段訓練策略,其中 SFT 階段針對性地提升模型的單步 3D 空間理解 / 空間度量 / 空間指代能力;RFT 階段不僅關注最終軌跡結果的獎勵,還創(chuàng)新性地設計度量敏感過程獎勵,這些獎勵函數(shù)能夠顯式監(jiān)督軌跡生成中涉及的關鍵中間感知步驟(如 3D 指代、3D 度量和尺度預測)的質量。最終,模型增強了多步、帶真實尺度約束的推理,實現(xiàn)了對復雜空間約束任務的空間軌跡規(guī)劃。

提出 TraceSpatial 數(shù)據(jù)集

教一個多模態(tài)大模型從0到1學會生成空間軌跡



為了支持前述的 SFT 和 RFT 訓練,研究團隊構建了一個大規(guī)模、高質量、帶真實尺度的數(shù)據(jù)集 ——TraceSpatial,具有以下幾個核心特點:

  • 場景多樣:覆蓋室內(nèi)外和桌面環(huán)境,包含物體和末端執(zhí)行器兩種分別為中心的空間軌跡,后者包含 3 種不同的單臂 / 雙臂機器人構型。
  • 維度豐富:包含大量尺度相關數(shù)據(jù)(占 48.2%),還附帶詳細的多步推理過程(最高有 9 步),為復雜空間軌跡生成提供支持。
  • 規(guī)模龐大:共包含 450 萬個樣本、3000 萬個問答對,目前最大 3D 空間數(shù)據(jù)集。
  • 精細標注:每個物體都配有層級式描述,從「花」這類種類類別,到像「左數(shù)第一個盆花」這樣的精確空間指代,確保在復雜場景中也能清晰用文字表述。同時包含大量絕對尺度的幾何信息標注(比如相機內(nèi)參、深度圖)以支持靈活的輸入增強。
  • 高質量篩選:數(shù)據(jù)經(jīng)過嚴格篩選,確保標注準確、語義清晰。
  • 易于擴展:支持從多種來源生成空間軌跡數(shù)據(jù),包括 2D 圖像、3D 掃描數(shù)據(jù)和機器人操縱視頻,具備高度擴展性。

RoboTracer 到底有多厲害

空間理解 / 空間度量 / 空間指代

SFT 訓練下的 RoboTracer 在空間理解 / 空間度量 / 空間指代任務中達到了79.1% 的平均成功率,取得了當前最先進水平,比 Gemini-2.5-Pro 高出 11% 的平均準確率





空間軌跡評測

RFT 訓練后的 RoboTracer 在研究者們提出的高難度空間軌跡生成任務評測基準TraceSpatial-Bench上更是領先所有其他模型,比 Gemini-2.5-Pro 高出 36% 的平均準確率



下面展示一些 RoboTracer 與其它模型輸出結果的可視化樣例,不難發(fā)現(xiàn)目前的 VLM 都理解空間關系并且生成 2D 軌跡,但是由于絕對深度預測不精確導致生成的空間軌跡往往浮空或者碰撞,而 RoboTracer 可以較為精確地預測,而且更多的幾何輸入預測結果更精確。



仿真與真機實驗

在空間操控的機械臂仿真評測中,RoboTracer 的表現(xiàn)遠超現(xiàn)有的視覺 - 語言 - 動作(VLA)系統(tǒng)。不僅在模擬環(huán)境中成功率遙遙領先,面對開放世界中需要多步、帶真實尺度約束的推理的復雜任務,唯有 RoboTracer 能夠完成





更多的實驗結果,可視化展示(包括更多的雜亂場景下的真機 Demo 視頻的空間軌跡生成結果)詳見論文和主頁。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
初中畢業(yè)裝貴婦,8萬退休金是編的,別墅是租的,就是帶貨的

初中畢業(yè)裝貴婦,8萬退休金是編的,別墅是租的,就是帶貨的

西樓知趣雜談
2025-12-30 13:16:05
雷軍致歉:因感冒嚴重,跨年直播推遲

雷軍致歉:因感冒嚴重,跨年直播推遲

界面新聞
2025-12-31 08:55:54
馬筱梅首次透露小寶寶屬相!和小玥兒一樣是屬馬的!比小寶大一輪

馬筱梅首次透露小寶寶屬相!和小玥兒一樣是屬馬的!比小寶大一輪

樂悠悠娛樂
2025-12-31 13:39:02
何長工7年守望無職,1975年致信毛主席,朱老總:我替你轉交

何長工7年守望無職,1975年致信毛主席,朱老總:我替你轉交

優(yōu)趣紀史記
2025-12-31 15:46:13
有人建議毛主席遺體移往韶山,如此重大問題堅決聽從黨中央決定!

有人建議毛主席遺體移往韶山,如此重大問題堅決聽從黨中央決定!

鶴羽說個事
2025-12-30 11:33:57
羅馬尼亞5000萬歐元加入北約對烏援助機制 強化地區(qū)安全紐帶

羅馬尼亞5000萬歐元加入北約對烏援助機制 強化地區(qū)安全紐帶

老馬拉車莫少裝
2025-12-31 18:06:10
給2025年演技最“爛”的8位男演員排座次:陳曉倒數(shù)!郭京飛第6

給2025年演技最“爛”的8位男演員排座次:陳曉倒數(shù)!郭京飛第6

好叫好伐
2025-12-31 18:02:39
1月轉運暴擊!大難已過,這3生肖徹底翻身,財運炸場,喜事堆成山

1月轉運暴擊!大難已過,這3生肖徹底翻身,財運炸場,喜事堆成山

人閒情事
2025-12-31 18:27:12
天門女司機墜河身亡進展:女子車牌號被曝,網(wǎng)友認為諧音聽著不順

天門女司機墜河身亡進展:女子車牌號被曝,網(wǎng)友認為諧音聽著不順

奇思妙想草葉君
2025-12-31 14:43:05
對峙升級,臺軍公布F16V“鎖定”殲16畫面,距開火只剩一個按鈕?

對峙升級,臺軍公布F16V“鎖定”殲16畫面,距開火只剩一個按鈕?

墨蘭史書
2025-12-31 12:30:03
趙國生任廣州市副市長

趙國生任廣州市副市長

南方都市報
2025-12-31 18:19:08
禁止電動車上樓充電,我們聽勸,你卻用充電樁偷我們的“錢”?

禁止電動車上樓充電,我們聽勸,你卻用充電樁偷我們的“錢”?

華商天下
2025-12-29 16:57:44
2換1,目標老將!雷霆隊尋求升級,克萊會是他們的選擇嗎?

2換1,目標老將!雷霆隊尋求升級,克萊會是他們的選擇嗎?

Haviven聊球
2025-12-31 16:57:10
曾被吹捧上天,如今卻淪為笑柄的6個坑人物品,大家別再買了!

曾被吹捧上天,如今卻淪為笑柄的6個坑人物品,大家別再買了!

室內(nèi)設計師有料兒
2025-12-27 17:07:20
1983年嚴打后,重刑犯都被遣送大西北,最終是什么結局?

1983年嚴打后,重刑犯都被遣送大西北,最終是什么結局?

觀史搜尋著
2025-12-03 22:30:28
永不向中國妥協(xié)?就算裁員9000人賣公司,也要將技術鎖死

永不向中國妥協(xié)?就算裁員9000人賣公司,也要將技術鎖死

知識TNT
2025-12-31 14:27:40
大膽預言,打工潮將在2026年結束!

大膽預言,打工潮將在2026年結束!

冬天來旅游
2025-12-29 11:01:20
6分輕敵,徐杰被針對,賽后看看各界媒體專家咋說,球迷:功臣

6分輕敵,徐杰被針對,賽后看看各界媒體專家咋說,球迷:功臣

籃球看比賽
2025-12-31 12:06:24
2026年央視跨年晚會陣容曝光,看完明星名單,廁所都不敢去上了

2026年央視跨年晚會陣容曝光,看完明星名單,廁所都不敢去上了

素衣讀史
2025-12-31 15:06:44
12月31日俄烏:最大規(guī)模的跨年襲擊

12月31日俄烏:最大規(guī)模的跨年襲擊

山河路口
2025-12-31 18:06:58
2025-12-31 19:08:50
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12031文章數(shù) 142525關注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

青島保時捷女銷售2025年再奪銷冠 1年賣192臺車破紀錄

頭條要聞

青島保時捷女銷售2025年再奪銷冠 1年賣192臺車破紀錄

體育要聞

快船大勝國王解鎖5連勝 小卡33+5+5

娛樂要聞

林俊杰女友被扒 父親涉經(jīng)濟案卷款13億?

財經(jīng)要聞

高培勇:分配制度改革是提振消費的抓手

汽車要聞

凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

藝術
旅游
親子
房產(chǎn)
公開課

藝術要聞

中國博物館全書!看遍中國8000年頂流審美

旅游要聞

推動稔平半島文旅融合發(fā)展,元旦之際惠東做了這件事

親子要聞

幼兒園娃娃當家作“市”義賣,迎新日里愛心暖滿園

房產(chǎn)要聞

終于等來了!2026年首個買房大利好

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版