網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

機(jī)器人大腦模型：從抽象到具體

2025-09-29 19:39:09　來(lái)源: CreateAMind

上海舉報(bào)

分享至

機(jī)器人大腦模型：從抽象到具體

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

https://arxiv.org/pdf/2502.21257

摘要

近年來(lái)，多模態(tài)大語(yǔ)言模型（MLLMs）在各類多模態(tài)場(chǎng)景中展現(xiàn)出卓越的能力。然而，將其應(yīng)用于機(jī)器人領(lǐng)域，尤其是長(zhǎng)時(shí)程操作任務(wù)時(shí)，暴露出顯著的局限性。這些局限源于當(dāng)前MLLMs缺乏三種關(guān)鍵的“機(jī)器人腦”能力：規(guī)劃能力（Planning Capability）——將復(fù)雜的操作指令分解為可執(zhí)行的子任務(wù)；功能感知能力（Affordance Perception）——識(shí)別并理解交互物體的功能屬性；以及軌跡預(yù)測(cè)能力（Trajectory Prediction）——預(yù)判完成任務(wù)所需的完整操作軌跡。

為從抽象到具體地增強(qiáng)機(jī)器人腦的核心能力，我們提出了ShareRobot——一個(gè)高質(zhì)量的異構(gòu)數(shù)據(jù)集，標(biāo)注了任務(wù)規(guī)劃、物體功能屬性和末端執(zhí)行器軌跡等多維信息。該數(shù)據(jù)集經(jīng)過(guò)三位人工標(biāo)注員精心打磨，確保了其多樣性與準(zhǔn)確性?；诖藬?shù)據(jù)集，我們開(kāi)發(fā)了RoboBrain——一種基于MLLM的模型，融合了機(jī)器人專用數(shù)據(jù)與通用多模態(tài)數(shù)據(jù)，采用多階段訓(xùn)練策略，并引入長(zhǎng)視頻與高分辨率圖像，以全面提升其機(jī)器人操作能力。大量實(shí)驗(yàn)表明，RoboBrain在多種機(jī)器人任務(wù)上均達(dá)到當(dāng)前最優(yōu)性能，展現(xiàn)出推動(dòng)機(jī)器人腦能力發(fā)展的巨大潛力。項(xiàng)目網(wǎng)站：RoboBrain。

引言

近年來(lái)，多模態(tài)大語(yǔ)言模型（Multimodal Large Language Models, MLLMs）的進(jìn)展顯著推動(dòng)了通用人工智能（AGI）的發(fā)展。通過(guò)利用從互聯(lián)網(wǎng)獲取的大規(guī)模多模態(tài)數(shù)據(jù)集并采用自監(jiān)督學(xué)習(xí)技術(shù)，MLLMs 在視覺(jué)感知和理解人類語(yǔ)言指令方面展現(xiàn)出卓越能力，在視覺(jué)問(wèn)答 [3, 15, 16]、圖像描述生成 [28, 42, 45] 和情感分析 [18, 21] 等任務(wù)中表現(xiàn)優(yōu)異。盡管 MLLMs 取得了顯著進(jìn)展，但其在機(jī)器人領(lǐng)域的應(yīng)用仍處于早期階段，凸顯出一個(gè)亟需深入研究與創(chuàng)新的關(guān)鍵方向。

近期研究已開(kāi)始探索 MLLMs 在機(jī)器人中的應(yīng)用，聚焦于任務(wù)規(guī)劃與子目標(biāo)分解 [6, 31]、動(dòng)作序列生成 [8, 9]，以及重規(guī)劃與反饋機(jī)制 [49, 57, 98]。然而，這些模型在機(jī)器人場(chǎng)景中——尤其是長(zhǎng)時(shí)程操作任務(wù)中——仍暴露出明顯局限。如圖1所示，這些局限源于當(dāng)前 MLLMs 缺乏三項(xiàng)關(guān)鍵的機(jī)器人能力：規(guī)劃能力（planning）、功能感知能力（affordance perception）和軌跡預(yù)測(cè)能力（trajectory prediction）。

例如，考慮一個(gè)機(jī)械臂被要求提起茶壺并將水倒入杯子的任務(wù)。理想的 MLLM 應(yīng)能將該任務(wù)分解為若干子任務(wù)，如“靠近茶壺并提起”、“將茶壺移動(dòng)至壺嘴位于杯子上方”以及“傾斜茶壺倒水”。對(duì)于每個(gè)子任務(wù)（如“靠近并抓取茶壺”），MLLM 必須利用功能感知能力，準(zhǔn)確識(shí)別茶壺上可抓取的區(qū)域。此外，軌跡預(yù)測(cè)對(duì)于確定從起始位置到茶壺可抓取部位的完整運(yùn)動(dòng)路徑至關(guān)重要?，F(xiàn)有 MLLMs 面臨這一挑戰(zhàn)，主要源于缺乏專為機(jī)器人操作任務(wù)設(shè)計(jì)的大規(guī)模、細(xì)粒度數(shù)據(jù)集。

為增強(qiáng)“RoboBrain”從抽象指令理解到具體動(dòng)作表達(dá)的核心能力，我們首先提出了ShareRobot——一個(gè)專為機(jī)器人操作任務(wù)構(gòu)建的大規(guī)模、細(xì)粒度數(shù)據(jù)集。該數(shù)據(jù)集對(duì)多維信息進(jìn)行了標(biāo)注，包括任務(wù)規(guī)劃、物體功能屬性（affordance）和末端執(zhí)行器軌跡?；?ShareRobot，我們開(kāi)發(fā)了RoboBrain——一種基于 LLaVA [48] 架構(gòu)的 MLLM 模型，旨在提升機(jī)器人在復(fù)雜任務(wù)中的感知與規(guī)劃能力。

在訓(xùn)練 RoboBrain 的過(guò)程中，我們精心設(shè)計(jì)了機(jī)器人數(shù)據(jù)與通用多模態(tài)數(shù)據(jù)的比例，采用了多階段訓(xùn)練策略，并引入了長(zhǎng)視頻序列與高分辨率圖像。這一方法賦予 RoboBrain 在機(jī)器人場(chǎng)景中強(qiáng)大的視覺(jué)信息感知能力，支持歷史幀記憶與高清圖像輸入，從而進(jìn)一步增強(qiáng)了其在機(jī)器人操作規(guī)劃方面的表現(xiàn)。

大量實(shí)驗(yàn)結(jié)果表明，RoboBrain 在多個(gè)機(jī)器人基準(zhǔn)測(cè)試中均優(yōu)于現(xiàn)有模型，包括 RoboVQA [73] 和 OpenEQA [61]，達(dá)到了當(dāng)前最優(yōu)（state-of-the-art）性能。此外，它在軌跡預(yù)測(cè)和功能感知準(zhǔn)確率方面也展現(xiàn)出競(jìng)爭(zhēng)力。這些結(jié)果驗(yàn)證了所提出數(shù)據(jù)集與框架在提升機(jī)器人“大腦”能力方面的有效性。

綜上所述，本文的主要貢獻(xiàn)如下：

我們提出了RoboBrain——一個(gè)面向機(jī)器人操作的統(tǒng)一多模態(tài)大語(yǔ)言模型，通過(guò)將抽象指令轉(zhuǎn)化為具體動(dòng)作，促進(jìn)更高效的任務(wù)執(zhí)行。
我們精心設(shè)計(jì)了機(jī)器人數(shù)據(jù)與通用多模態(tài)數(shù)據(jù)的比例，實(shí)施了多階段訓(xùn)練策略，并整合了長(zhǎng)視頻與高分辨率圖像，使 RoboBrain 具備歷史幀記憶和高清圖像輸入能力，從而進(jìn)一步提升其在機(jī)器人操作規(guī)劃中的性能。
我們構(gòu)建了ShareRobot——一個(gè)高質(zhì)量的異構(gòu)數(shù)據(jù)集，標(biāo)注了包括任務(wù)規(guī)劃、物體功能屬性和末端執(zhí)行器軌跡在內(nèi)的多維信息，有效增強(qiáng)了多種機(jī)器人能力。
全面的實(shí)驗(yàn)結(jié)果表明，RoboBrain 在多個(gè)機(jī)器人基準(zhǔn)上均取得當(dāng)前最優(yōu)性能，凸顯了其在現(xiàn)實(shí)機(jī)器人應(yīng)用中的巨大潛力。

相關(guān)工作

用于機(jī)器人操作規(guī)劃的 MLLM現(xiàn)有研究大多利用多模態(tài)大語(yǔ)言模型（MLLMs）主要聚焦于理解自然語(yǔ)言和視覺(jué)觀測(cè)任務(wù) [6–8, 37, 43, 96]，較少關(guān)注將高層任務(wù)指令分解為可執(zhí)行步驟。PaLME [20] 通過(guò)將真實(shí)世界觀測(cè)映射到語(yǔ)言嵌入空間來(lái)生成多模態(tài)輸入。RT-H [6] 和 RoboMamba [50] 在生成推理結(jié)果的同時(shí)，還通過(guò)額外的策略頭（policy head）輸出機(jī)器人動(dòng)作。然而，盡管這些模型能夠生成規(guī)劃文本和動(dòng)作，它們?cè)趫?zhí)行復(fù)雜原子任務(wù)方面仍缺乏足夠的機(jī)制，凸顯了對(duì)更強(qiáng)功能感知（affordance perception）和軌跡預(yù)測(cè)（trajectory prediction）能力的需求。

用于操作規(guī)劃的數(shù)據(jù)集早期的操作數(shù)據(jù)集 [12, 26, 38, 54, 76] 主要包含標(biāo)注的圖像和視頻，重點(diǎn)展示基礎(chǔ)的手-物交互行為，如抓取和推動(dòng)物體。近期在機(jī)器人操作領(lǐng)域的進(jìn)展 [19, 27, 73, 77] 更加強(qiáng)調(diào)多模態(tài)和跨具身（cross-embodiment）數(shù)據(jù)集，以提升泛化能力。諸如 RH20T [22]、BridgeDataV2 [84] 和 DROID [35] 等數(shù)據(jù)集增強(qiáng)了場(chǎng)景多樣性，拓展了操作任務(wù)的覆蓋范圍。值得注意的是，RT-X [67] 將來(lái)自22種不同機(jī)器人平臺(tái)的60個(gè)數(shù)據(jù)集整合到 Open X-Embodiment（OXE）倉(cāng)庫(kù)中。在本工作中，我們從 OXE 中提取高質(zhì)量數(shù)據(jù)，將高層任務(wù)描述分解為低層規(guī)劃指令，并將其轉(zhuǎn)換為問(wèn)答格式，以增強(qiáng)模型訓(xùn)練效果。

ShareRobot 數(shù)據(jù)集

為增強(qiáng) RoboBrain 在規(guī)劃、功能感知（affordance perception）和軌跡預(yù)測(cè)（trajectory prediction）方面的能力，我們構(gòu)建了一個(gè)名為ShareRobot的數(shù)據(jù)集——這是一個(gè)專為機(jī)器人操作任務(wù)設(shè)計(jì)的大規(guī)模、細(xì)粒度數(shù)據(jù)集。我們數(shù)據(jù)集的生成流程如圖2所示，具體細(xì)節(jié)在以下各節(jié)中描述。

3.1 概述

ShareRobot 是一個(gè)綜合性數(shù)據(jù)集，通過(guò)將抽象概念轉(zhuǎn)化為具體動(dòng)作，促進(jìn)更高效的任務(wù)執(zhí)行。ShareRobot 數(shù)據(jù)集的主要特點(diǎn)包括：

細(xì)粒度（Fine-grained）：與僅提供通用高層任務(wù)描述的 Open X-Embodiment 數(shù)據(jù)集 [66] 不同，ShareRobot 中的每個(gè)數(shù)據(jù)點(diǎn)均包含與單幀圖像關(guān)聯(lián)的詳細(xì)低層規(guī)劃指令。這種細(xì)粒度標(biāo)注提升了模型在正確時(shí)機(jī)執(zhí)行任務(wù)的準(zhǔn)確性。
多維標(biāo)注（Multi-dimensional）：為實(shí)現(xiàn)從抽象到具體的 RoboBrain 能力提升，我們對(duì)任務(wù)規(guī)劃、物體功能屬性（object affordances）和末端執(zhí)行器軌跡（end-effector trajectories）進(jìn)行了標(biāo)注，使任務(wù)處理更具靈活性和精確性。
高質(zhì)量（High quality）：我們制定了嚴(yán)格的標(biāo)準(zhǔn)，從 Open X-Embodiment 數(shù)據(jù)集 [66] 中篩選數(shù)據(jù)，重點(diǎn)關(guān)注高分辨率、描述準(zhǔn)確、任務(wù)成功執(zhí)行、功能區(qū)域可見(jiàn)以及運(yùn)動(dòng)軌跡清晰等要素?；谶@些標(biāo)準(zhǔn)，我們驗(yàn)證了 51,403 個(gè)高質(zhì)量實(shí)例，構(gòu)成了 RoboBrain 核心能力的基礎(chǔ)。
大規(guī)模（Large scale）：ShareRobot 包含 1,027,990 個(gè)問(wèn)答對(duì)，是目前面向任務(wù)規(guī)劃、功能感知和軌跡預(yù)測(cè)的最大開(kāi)源數(shù)據(jù)集，有助于模型更深入地理解從抽象到具體的復(fù)雜關(guān)聯(lián)。
豐富多樣性（Rich diversity）：與 RoboVQA [73] 數(shù)據(jù)集場(chǎng)景有限不同，ShareRobot 涵蓋 12 種不同機(jī)器人平臺(tái)（embodiments）、102 個(gè)場(chǎng)景和 107 類原子任務(wù)（如圖3所示）。這種多樣性使 MLLMs 能從多樣化的現(xiàn)實(shí)情境中學(xué)習(xí)，從而提升在復(fù)雜多步規(guī)劃中的魯棒性。
易于擴(kuò)展（Easy scalability）：我們的數(shù)據(jù)生成流程具有高度可擴(kuò)展性，便于隨著新型機(jī)器人平臺(tái)、任務(wù)類型和環(huán)境的出現(xiàn)而持續(xù)擴(kuò)展。這種適應(yīng)性確保 ShareRobot 能夠支持日益復(fù)雜的操作任務(wù)。

功能區(qū)域標(biāo)注（Affordance Labeling）我們篩選出 6,522 張圖像，并根據(jù)其高層描述，為每張圖像標(biāo)注功能區(qū)域，格式為 {l???, l???, r???, r???}，其中 {l???, l???} 表示左上角坐標(biāo)，{r???, r???} 表示右下角坐標(biāo)。隨后，我們對(duì)每條指令進(jìn)行嚴(yán)格的逐項(xiàng)人工審核與修正，確保其與對(duì)應(yīng)的功能區(qū)域精確對(duì)齊。

軌跡標(biāo)注（Trajectory Labeling）我們篩選出 6,870 張圖像，并根據(jù)其低層指令，為每張圖像標(biāo)注夾爪的運(yùn)動(dòng)軌跡，至少包含三個(gè) {x, y} 坐標(biāo)點(diǎn)。隨后，我們對(duì)每條指令進(jìn)行嚴(yán)格的逐項(xiàng)人工審核與修正，確保其與對(duì)應(yīng)的軌跡精確對(duì)齊。

3.4 數(shù)據(jù)統(tǒng)計(jì)

我們從 Open X-Embodiment 數(shù)據(jù)集 [66] 中選取了 23 個(gè)原始數(shù)據(jù)集。源數(shù)據(jù)的分布如圖3所示。該數(shù)據(jù)集涵蓋 102 種不同場(chǎng)景（例如臥室、實(shí)驗(yàn)室、廚房、辦公室），并涉及 12 種不同的機(jī)器人本體。根據(jù)統(tǒng)計(jì)數(shù)據(jù)，該數(shù)據(jù)集中共包含 132 種原子動(dòng)作類型，高頻詞任務(wù)類型如圖3(c)所示。最頻繁的五種原子任務(wù)是“pick”、“move”、“reach”、“l(fā)ift”和“place”，這些均為真實(shí)機(jī)器人操作場(chǎng)景中的常見(jiàn)任務(wù)類型，表明我們的數(shù)據(jù)集分布合理。最終，我們獲得了 1,027,990 個(gè)用于規(guī)劃的問(wèn)答（QA）對(duì)。對(duì)于規(guī)劃類 QA 對(duì)數(shù)據(jù)集，我們劃分 100 萬(wàn)組 QA 對(duì)作為訓(xùn)練集，2,050 組作為測(cè)試集。對(duì)于功能區(qū)域數(shù)據(jù)集，我們劃分 6,000 張圖像作為訓(xùn)練集，522 張圖像作為測(cè)試集。對(duì)于軌跡數(shù)據(jù)集，我們劃分 6,000 張圖像用于訓(xùn)練，870 張圖像用于測(cè)試。

RoboBrain 模型

在本節(jié)中，我們將概述 RoboBrain。我們的目標(biāo)是使多模態(tài)大語(yǔ)言模型（MLLM）能夠理解抽象指令，并顯式輸出物體的功能區(qū)域及潛在的操作軌跡，從而實(shí)現(xiàn)從抽象到具體的過(guò)渡。我們采用多階段訓(xùn)練策略：第一階段聚焦于通用 OneVision (OV) 訓(xùn)練，以構(gòu)建具備強(qiáng)大理解和指令跟隨能力的基礎(chǔ) MLLM；第二階段為機(jī)器人專項(xiàng)訓(xùn)練階段，旨在強(qiáng)化 RoboBrain 從抽象到具體的核心能力。

4.1 模型架構(gòu)

RoboBrain 由三個(gè)模塊組成：用于規(guī)劃的基礎(chǔ)模型、用于功能感知的 A-LoRA 模型，以及用于軌跡預(yù)測(cè)的 T-LoRA 模型。在實(shí)際應(yīng)用中，模型首先生成詳細(xì)計(jì)劃，然后將其拆分為子任務(wù)描述，以執(zhí)行功能感知和軌跡預(yù)測(cè)。RoboBrain 的整體流程如圖4所示。

用于規(guī)劃的基礎(chǔ)模型我們采用 LLaVA 作為 RoboBrain 的基礎(chǔ)模型，該模型由三個(gè)主要模塊組成：視覺(jué)編碼器（ViT）g(·)、投影器（Projector）h(·) 和大型語(yǔ)言模型（LLM）f(·)。具體而言，我們使用 SigLIP [92]、一個(gè)兩層 MLP [47] 以及 Qwen2.5-7B-Instruct [80]。給定圖像或視頻 X? 作為視覺(jué)輸入，ViT 將其編碼為視覺(jué)特征 Z? = g(X?)，再通過(guò)投影器映射至 LLM 的語(yǔ)義空間，得到視覺(jué)標(biāo)記序列 H? = h(Z?)。最后，LLM 根據(jù)人類語(yǔ)言指令 X? 和 H?，以自回歸方式生成文本響應(yīng)。

A-LoRA 功能感知模塊在本工作中，“功能”（affordance）一詞指人類手部與物體發(fā)生接觸的區(qū)域。在交互過(guò)程中，人類會(huì)本能地與特定區(qū)域內(nèi)的各種物體互動(dòng)。我們使用邊界框（bounding boxes）來(lái)表示功能區(qū)域。形式化地，考慮一幅包含多個(gè)物體及其功能區(qū)域的圖像 I：O? = {A??, A?1, ..., A??}，其中第 i 個(gè)物體擁有 N 個(gè)功能區(qū)域。功能區(qū)域的格式定義為 {l???, l???, r???, r???}，其中 {l???, l???} 表示功能區(qū)域的左上角坐標(biāo)，{r???, r???} 表示右下角坐標(biāo)。

T-LoRA 軌跡預(yù)測(cè)模塊在本工作中，“軌跡”（trajectory）一詞指的是文獻(xiàn) [25] 中提出的“2D 視覺(jué)軌跡”概念。我們將軌跡路點(diǎn)定義為一系列 2D 坐標(biāo)，用以表示末端執(zhí)行器或手在整個(gè)過(guò)程中的運(yùn)動(dòng)路徑。形式化地，在時(shí)間步 t，軌跡路點(diǎn)可表示為 P?:? = {(x?, y?) | i = t, t+1, ..., N}，其中 (x?, y?) 表示視覺(jué)軌跡中的第 i 個(gè)坐標(biāo)，N 表示該片段中的總時(shí)間步數(shù)。

用于規(guī)劃的基礎(chǔ)模型
我們采用 LLaVA 作為 RoboBrain 的基礎(chǔ)模型，該模型由三個(gè)主要模塊組成：視覺(jué)編碼器（ViT）g(·)、投影器（Projector）h(·) 和大型語(yǔ)言模型（LLM）f(·)。具體而言，我們使用 SigLIP [92]、一個(gè)兩層 MLP [47] 以及 Qwen2.5-7B-Instruct [80]。給定圖像或視頻 X? 作為視覺(jué)輸入，ViT 將其編碼為視覺(jué)特征 Z? = g(X?)，再通過(guò)投影器映射至 LLM 的語(yǔ)義空間，得到視覺(jué)標(biāo)記序列 H? = h(Z?)。最終，LLM 根據(jù)人類語(yǔ)言指令 X? 和 H?，以自回歸方式生成文本響應(yīng)。

A-LoRA 功能感知模塊
在本工作中，“功能”（affordance）一詞指人類手部與物體發(fā)生接觸的區(qū)域。在交互過(guò)程中，人類會(huì)本能地與特定區(qū)域內(nèi)的各種物體互動(dòng)。我們使用邊界框（bounding boxes）來(lái)表示功能區(qū)域。形式化地，考慮一幅包含多個(gè)物體及其功能區(qū)域的圖像 I：O? = {A??, A?1, ..., A??}，其中第 i 個(gè)物體擁有 N 個(gè)功能區(qū)域。功能區(qū)域的格式定義為 {l???, l???, r???, r???}，其中 {l???, l???} 表示功能區(qū)域的左上角坐標(biāo)，{r???, r???} 表示右下角坐標(biāo)。

T-LoRA 軌跡預(yù)測(cè)模塊
在本工作中，“軌跡”（trajectory）一詞指的是文獻(xiàn) [25] 中提出的“2D 視覺(jué)軌跡”概念。我們將軌跡路點(diǎn)定義為一系列 2D 坐標(biāo)，用以表示末端執(zhí)行器或手在整個(gè)過(guò)程中的運(yùn)動(dòng)路徑。形式化地，在時(shí)間步 t，軌跡路點(diǎn)可表示為 P?:? = {(x?, y?) | i = t, t+1, ..., N}，其中 (x?, y?) 表示視覺(jué)軌跡中的第 i 個(gè)坐標(biāo)，N 表示該片段中的總時(shí)間步數(shù)。

4.2 訓(xùn)練

階段1：通用 OV 訓(xùn)練
在第一階段，我們借鑒 LLaVA-OneVision [41] 的前沿訓(xùn)練數(shù)據(jù)和策略，構(gòu)建具備通用多模態(tài)理解和視覺(jué)指令跟隨能力的基礎(chǔ)模型。這為增強(qiáng)模型的機(jī)器人操作規(guī)劃能力奠定了基礎(chǔ)。

階段2：詳細(xì)信息見(jiàn)表1
在第一階段，我們利用 LCS-558K 數(shù)據(jù)集 [11, 72] 的圖文數(shù)據(jù)訓(xùn)練投影器，促進(jìn)視覺(jué)特征 Z? 與 LLM 語(yǔ)義特征 H? 的對(duì)齊。在階段1.5，我們使用 400 萬(wàn)高質(zhì)量圖文數(shù)據(jù)訓(xùn)練完整模型，以增強(qiáng)模型對(duì)多模態(tài)通用知識(shí)的理解能力。在第二階段，我們進(jìn)一步使用 320 萬(wàn)單圖數(shù)據(jù)和 160 萬(wàn)來(lái)自 LLaVA-OneVision-Data [41] 的圖文及視頻數(shù)據(jù)訓(xùn)練完整模型，旨在提升 RoboBrain 的指令跟隨能力，并改善對(duì)高分辨率圖像和視頻的理解。

階段2：機(jī)器人專項(xiàng)訓(xùn)練
在第二階段，我們?cè)诘谝浑A段開(kāi)發(fā)的強(qiáng)大多模態(tài)基礎(chǔ)模型之上，構(gòu)建更強(qiáng)大的機(jī)器人操作規(guī)劃模型。具體而言，我們的目標(biāo)是使 RoboBrain 能夠理解復(fù)雜抽象指令、支持歷史幀信息與高分辨率圖像的感知，并輸出物體功能區(qū)域及潛在操作軌跡。這將促進(jìn)操作規(guī)劃任務(wù)中從抽象到具體的過(guò)渡。詳細(xì)信息見(jiàn)表1。

在第三階段，我們收集了 130 萬(wàn)條機(jī)器人數(shù)據(jù)，以提升模型的操作規(guī)劃能力。具體而言，這些數(shù)據(jù)來(lái)源于 RoboVQA-800K [73]、ScanView-318K（包括 MMScan-224K [30, 59]）、3RScan-43K [30, 83]、ScanQA-25K [4, 30]、SQA3d-26K [30, 60]，以及本文引入的 ShareRobot-200K 子集。這些數(shù)據(jù)集包含大量場(chǎng)景掃描圖像數(shù)據(jù)、長(zhǎng)視頻數(shù)據(jù)和高分辨率圖像。

此外，ShareRobot 數(shù)據(jù)集中精細(xì)且高質(zhì)量的規(guī)劃數(shù)據(jù)進(jìn)一步增強(qiáng)了 RoboBrain 的操作規(guī)劃能力。為緩解災(zāi)難性遺忘問(wèn)題 [93]，我們從第一階段選取約 170 萬(wàn)高質(zhì)量圖文子集，與第三階段收集的機(jī)器人數(shù)據(jù)混合用于訓(xùn)練，并相應(yīng)調(diào)整整個(gè)模型。在第四階段，我們利用 ShareRobot 數(shù)據(jù)集及其他開(kāi)源資源 [58, 65] 中的功能區(qū)域與軌跡數(shù)據(jù)，進(jìn)一步增強(qiáng)模型根據(jù)指令感知物體功能并預(yù)測(cè)操作軌跡的能力。這一目標(biāo)通過(guò)在訓(xùn)練中引入 LoRA 模塊實(shí)現(xiàn)，從而賦予模型具體的操縱能力。

實(shí)驗(yàn)

5.1 實(shí)現(xiàn)細(xì)節(jié)
在整個(gè)訓(xùn)練階段，我們采用了 Zero3 [71] 分布式訓(xùn)練策略，所有實(shí)驗(yàn)均在配備 8×A800 GPU 的服務(wù)器集群上進(jìn)行。各訓(xùn)練階段的組件配置，包括圖像分辨率設(shè)置、批量大?。╞atch size）、訓(xùn)練輪數(shù)（epochs）和學(xué)習(xí)率（learning rates），詳見(jiàn)表1。

5.2 評(píng)估指標(biāo)

規(guī)劃任務(wù)（Planning Task）
我們選取 RoboVQA [73]、OpenEQA [61] 以及 ShareRobot 的測(cè)試集作為機(jī)器人基準(zhǔn)，進(jìn)行多維度評(píng)估。

對(duì)于 RoboVQA，我們采用 RoboMamba [50] 中使用的 BLEU1 至 BLEU4 指標(biāo) [69] 進(jìn)行評(píng)估。
對(duì)于 OpenEQA 和 ShareRobot，我們使用 GPT-4o [68] 作為評(píng)估工具，根據(jù)模型預(yù)測(cè)與真實(shí)答案之間的對(duì)齊程度或相似性進(jìn)行打分，該分?jǐn)?shù)作為模型的最終性能指標(biāo)。

功能區(qū)域預(yù)測(cè)（Affordance Prediction）
我們采用平均精度（Average Precision, AP）來(lái)評(píng)估模型的功能區(qū)域預(yù)測(cè)性能。AP 指標(biāo)綜合了不同閾值下的精度-召回率曲線，該曲線描繪了在不同 IoU（交并比）閾值下精度與召回率的關(guān)系，從而提供更全面的評(píng)估。

軌跡預(yù)測(cè)（Trajectory Prediction）
我們?cè)u(píng)估真實(shí)軌跡與預(yù)測(cè)軌跡之間的相似性，兩者均表示為歸一化到 [0, 1000) 范圍內(nèi)的 2D 路點(diǎn)序列（遵循 Qwen2-VL [87] 的設(shè)定）。評(píng)估采用三項(xiàng)指標(biāo)：

離散 Fréchet 距離（Discrete Fréchet Distance, DFD）[25]：捕捉軌跡的整體形狀和時(shí)序?qū)R；
Hausdorff 距離（Hausdorff Distance, HD）：識(shí)別最大偏差；
均方根誤差（Root Mean Square Error, RMSE）：衡量逐點(diǎn)平均誤差。

這三項(xiàng)指標(biāo)共同對(duì)軌跡的準(zhǔn)確性和相似性提供全面評(píng)估。

5.3 機(jī)器人腦任務(wù)評(píng)估

規(guī)劃任務(wù)評(píng)估
我們選取了6個(gè)強(qiáng)大的多模態(tài)大語(yǔ)言模型（MLLMs）作為基線進(jìn)行對(duì)比，涵蓋不同架構(gòu)的開(kāi)源與閉源模型，具體包括：GPT-4V [2]、Claude3 [1]、LLaVA-1.5 [48]、LLaVA-OneVision-7B [41]、Qwen2-VL-7B [86] 和 RoboMamba [50]。具體實(shí)驗(yàn)結(jié)果如圖5所示。

我們的 RoboBrain 在三個(gè)機(jī)器人基準(zhǔn)上均優(yōu)于所有基線模型。在 OpenEQA 和 ShareRobot 上，RoboBrain 表現(xiàn)尤為突出，這歸功于其在理解機(jī)器人任務(wù)和感知長(zhǎng)視頻方面的強(qiáng)大能力。此外，這一優(yōu)勢(shì)在其他基準(zhǔn)上也得到驗(yàn)證：在 RoboVQA 上，RoboBrain 的 BLEU-4 分?jǐn)?shù)比第二名模型高出 18.75，充分體現(xiàn)了其在分解復(fù)雜長(zhǎng)程任務(wù)規(guī)劃方面的卓越能力。

功能區(qū)域預(yù)測(cè)評(píng)估
結(jié)果匯總于表2。我們對(duì)比了 Qwen2-VL-7B 和 LLaVA-NeXT-7B 模型：Qwen2-VL [86] 具備更強(qiáng)的視覺(jué)定位能力，而 LLaVA-NeXT [44] 擁有高分辨率和強(qiáng)大的視覺(jué)編碼器。我們?cè)?AGD20K 功能區(qū)域測(cè)試集上對(duì)它們進(jìn)行評(píng)估。結(jié)果表明，RoboBrain 顯著優(yōu)于其他模型，AP 分?jǐn)?shù)分別比 Qwen2-VL 高出 14.6，比 LLaVA-NeXT 高出 17.3。這驗(yàn)證了 RoboBrain 能夠準(zhǔn)確理解物體的物理屬性，并提供精確的功能區(qū)域定位。

軌跡預(yù)測(cè)評(píng)估
我們對(duì)比了模型的多個(gè)變體，結(jié)果見(jiàn)表3：

(1)Baseline：在軌跡相關(guān)的 VQA 數(shù)據(jù)上微調(diào)的基礎(chǔ)模型；
(2)Start Points：增加末端執(zhí)行器的 2D 起始坐標(biāo)；
(3)Max Points：通過(guò)均勻采樣將路點(diǎn)數(shù)量限制為10個(gè)；
(4)Spec Token & End Points：加入末端執(zhí)行器位置和特殊標(biāo)記，以強(qiáng)調(diào)關(guān)鍵路點(diǎn)及起始/目標(biāo)點(diǎn)。

每個(gè)變體均在前一個(gè)基礎(chǔ)上構(gòu)建，最終模型整合了所有設(shè)計(jì)組件。如表3最后一行所示，與基線相比，DFD、HD 和 RMSE 分別下降了 42.9%、94.2% 和 31.6%。我們發(fā)現(xiàn)，加入起始點(diǎn)能有效校正生成軌跡與末端執(zhí)行器之間的平移偏移。

5.4 可視化

在本節(jié)中，我們?cè)趫D6中展示了 RoboBrain 的可視化示例。給定人類指令和視覺(jué)輸入后，RoboBrain 能夠進(jìn)行多輪交互，理解并規(guī)劃后續(xù)步驟，同時(shí)輸出更具體的物體功能區(qū)域（affordances）和操作軌跡。

結(jié)論

本文中，我們提出了ShareRobot——一個(gè)高質(zhì)量數(shù)據(jù)集，標(biāo)注了包括任務(wù)規(guī)劃、物體功能屬性和末端執(zhí)行器軌跡在內(nèi)的多維信息。我們還提出了RoboBrain——一種基于多模態(tài)大語(yǔ)言模型（MLLM）的模型，融合機(jī)器人專用數(shù)據(jù)與通用多模態(tài)數(shù)據(jù)，采用多階段訓(xùn)練策略，并利用長(zhǎng)視頻與高分辨率圖像，以增強(qiáng)機(jī)器人操作能力。大量實(shí)驗(yàn)表明，RoboBrain 在各類機(jī)器人任務(wù)中均達(dá)到當(dāng)前最優(yōu)性能，彰顯其在顯著提升機(jī)器人能力方面的巨大潛力。

原文鏈接：https://arxiv.org/pdf/2502.21257

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.