国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

機(jī)器人大腦模型:從抽象到具體

0
分享至

機(jī)器人大腦模型:從抽象到具體

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

https://arxiv.org/pdf/2502.21257



摘要

近年來(lái),多模態(tài)大語(yǔ)言模型(MLLMs)在各類多模態(tài)場(chǎng)景中展現(xiàn)出卓越的能力。然而,將其應(yīng)用于機(jī)器人領(lǐng)域,尤其是長(zhǎng)時(shí)程操作任務(wù)時(shí),暴露出顯著的局限性。這些局限源于當(dāng)前MLLMs缺乏三種關(guān)鍵的“機(jī)器人腦”能力:規(guī)劃能力(Planning Capability)——將復(fù)雜的操作指令分解為可執(zhí)行的子任務(wù);功能感知能力(Affordance Perception)——識(shí)別并理解交互物體的功能屬性;以及軌跡預(yù)測(cè)能力(Trajectory Prediction)——預(yù)判完成任務(wù)所需的完整操作軌跡。

為從抽象到具體地增強(qiáng)機(jī)器人腦的核心能力,我們提出了ShareRobot——一個(gè)高質(zhì)量的異構(gòu)數(shù)據(jù)集,標(biāo)注了任務(wù)規(guī)劃、物體功能屬性和末端執(zhí)行器軌跡等多維信息。該數(shù)據(jù)集經(jīng)過(guò)三位人工標(biāo)注員精心打磨,確保了其多樣性與準(zhǔn)確性?;诖藬?shù)據(jù)集,我們開(kāi)發(fā)了RoboBrain——一種基于MLLM的模型,融合了機(jī)器人專用數(shù)據(jù)與通用多模態(tài)數(shù)據(jù),采用多階段訓(xùn)練策略,并引入長(zhǎng)視頻與高分辨率圖像,以全面提升其機(jī)器人操作能力。大量實(shí)驗(yàn)表明,RoboBrain在多種機(jī)器人任務(wù)上均達(dá)到當(dāng)前最優(yōu)性能,展現(xiàn)出推動(dòng)機(jī)器人腦能力發(fā)展的巨大潛力。項(xiàng)目網(wǎng)站:RoboBrain。

  1. 引言

近年來(lái),多模態(tài)大語(yǔ)言模型(Multimodal Large Language Models, MLLMs)的進(jìn)展顯著推動(dòng)了通用人工智能(AGI)的發(fā)展。通過(guò)利用從互聯(lián)網(wǎng)獲取的大規(guī)模多模態(tài)數(shù)據(jù)集并采用自監(jiān)督學(xué)習(xí)技術(shù),MLLMs 在視覺(jué)感知和理解人類語(yǔ)言指令方面展現(xiàn)出卓越能力,在視覺(jué)問(wèn)答 [3, 15, 16]、圖像描述生成 [28, 42, 45] 和情感分析 [18, 21] 等任務(wù)中表現(xiàn)優(yōu)異。盡管 MLLMs 取得了顯著進(jìn)展,但其在機(jī)器人領(lǐng)域的應(yīng)用仍處于早期階段,凸顯出一個(gè)亟需深入研究與創(chuàng)新的關(guān)鍵方向。

近期研究已開(kāi)始探索 MLLMs 在機(jī)器人中的應(yīng)用,聚焦于任務(wù)規(guī)劃與子目標(biāo)分解 [6, 31]、動(dòng)作序列生成 [8, 9],以及重規(guī)劃與反饋機(jī)制 [49, 57, 98]。然而,這些模型在機(jī)器人場(chǎng)景中——尤其是長(zhǎng)時(shí)程操作任務(wù)中——仍暴露出明顯局限。如圖1所示,這些局限源于當(dāng)前 MLLMs 缺乏三項(xiàng)關(guān)鍵的機(jī)器人能力:規(guī)劃能力(planning)、功能感知能力(affordance perception)和軌跡預(yù)測(cè)能力(trajectory prediction)。

例如,考慮一個(gè)機(jī)械臂被要求提起茶壺并將水倒入杯子的任務(wù)。理想的 MLLM 應(yīng)能將該任務(wù)分解為若干子任務(wù),如“靠近茶壺并提起”、“將茶壺移動(dòng)至壺嘴位于杯子上方”以及“傾斜茶壺倒水”。對(duì)于每個(gè)子任務(wù)(如“靠近并抓取茶壺”),MLLM 必須利用功能感知能力,準(zhǔn)確識(shí)別茶壺上可抓取的區(qū)域。此外,軌跡預(yù)測(cè)對(duì)于確定從起始位置到茶壺可抓取部位的完整運(yùn)動(dòng)路徑至關(guān)重要?,F(xiàn)有 MLLMs 面臨這一挑戰(zhàn),主要源于缺乏專為機(jī)器人操作任務(wù)設(shè)計(jì)的大規(guī)模、細(xì)粒度數(shù)據(jù)集。

為增強(qiáng)“RoboBrain”從抽象指令理解具體動(dòng)作表達(dá)的核心能力,我們首先提出了ShareRobot——一個(gè)專為機(jī)器人操作任務(wù)構(gòu)建的大規(guī)模、細(xì)粒度數(shù)據(jù)集。該數(shù)據(jù)集對(duì)多維信息進(jìn)行了標(biāo)注,包括任務(wù)規(guī)劃、物體功能屬性(affordance)和末端執(zhí)行器軌跡?;?ShareRobot,我們開(kāi)發(fā)了RoboBrain——一種基于 LLaVA [48] 架構(gòu)的 MLLM 模型,旨在提升機(jī)器人在復(fù)雜任務(wù)中的感知與規(guī)劃能力。

在訓(xùn)練 RoboBrain 的過(guò)程中,我們精心設(shè)計(jì)了機(jī)器人數(shù)據(jù)與通用多模態(tài)數(shù)據(jù)的比例,采用了多階段訓(xùn)練策略,并引入了長(zhǎng)視頻序列與高分辨率圖像。這一方法賦予 RoboBrain 在機(jī)器人場(chǎng)景中強(qiáng)大的視覺(jué)信息感知能力,支持歷史幀記憶與高清圖像輸入,從而進(jìn)一步增強(qiáng)了其在機(jī)器人操作規(guī)劃方面的表現(xiàn)。

大量實(shí)驗(yàn)結(jié)果表明,RoboBrain 在多個(gè)機(jī)器人基準(zhǔn)測(cè)試中均優(yōu)于現(xiàn)有模型,包括 RoboVQA [73] 和 OpenEQA [61],達(dá)到了當(dāng)前最優(yōu)(state-of-the-art)性能。此外,它在軌跡預(yù)測(cè)和功能感知準(zhǔn)確率方面也展現(xiàn)出競(jìng)爭(zhēng)力。這些結(jié)果驗(yàn)證了所提出數(shù)據(jù)集與框架在提升機(jī)器人“大腦”能力方面的有效性。

綜上所述,本文的主要貢獻(xiàn)如下:

  • 我們提出了RoboBrain——一個(gè)面向機(jī)器人操作的統(tǒng)一多模態(tài)大語(yǔ)言模型,通過(guò)將抽象指令轉(zhuǎn)化為具體動(dòng)作,促進(jìn)更高效的任務(wù)執(zhí)行。

  • 我們精心設(shè)計(jì)了機(jī)器人數(shù)據(jù)與通用多模態(tài)數(shù)據(jù)的比例,實(shí)施了多階段訓(xùn)練策略,并整合了長(zhǎng)視頻與高分辨率圖像,使 RoboBrain 具備歷史幀記憶和高清圖像輸入能力,從而進(jìn)一步提升其在機(jī)器人操作規(guī)劃中的性能。

  • 我們構(gòu)建了ShareRobot——一個(gè)高質(zhì)量的異構(gòu)數(shù)據(jù)集,標(biāo)注了包括任務(wù)規(guī)劃、物體功能屬性和末端執(zhí)行器軌跡在內(nèi)的多維信息,有效增強(qiáng)了多種機(jī)器人能力。

  • 全面的實(shí)驗(yàn)結(jié)果表明,RoboBrain 在多個(gè)機(jī)器人基準(zhǔn)上均取得當(dāng)前最優(yōu)性能,凸顯了其在現(xiàn)實(shí)機(jī)器人應(yīng)用中的巨大潛力。

  1. 相關(guān)工作

用于機(jī)器人操作規(guī)劃的 MLLM現(xiàn)有研究大多利用多模態(tài)大語(yǔ)言模型(MLLMs)主要聚焦于理解自然語(yǔ)言和視覺(jué)觀測(cè)任務(wù) [6–8, 37, 43, 96],較少關(guān)注將高層任務(wù)指令分解為可執(zhí)行步驟。PaLME [20] 通過(guò)將真實(shí)世界觀測(cè)映射到語(yǔ)言嵌入空間來(lái)生成多模態(tài)輸入。RT-H [6] 和 RoboMamba [50] 在生成推理結(jié)果的同時(shí),還通過(guò)額外的策略頭(policy head)輸出機(jī)器人動(dòng)作。然而,盡管這些模型能夠生成規(guī)劃文本和動(dòng)作,它們?cè)趫?zhí)行復(fù)雜原子任務(wù)方面仍缺乏足夠的機(jī)制,凸顯了對(duì)更強(qiáng)功能感知(affordance perception)和軌跡預(yù)測(cè)(trajectory prediction)能力的需求。

用于操作規(guī)劃的數(shù)據(jù)集早期的操作數(shù)據(jù)集 [12, 26, 38, 54, 76] 主要包含標(biāo)注的圖像和視頻,重點(diǎn)展示基礎(chǔ)的手-物交互行為,如抓取和推動(dòng)物體。近期在機(jī)器人操作領(lǐng)域的進(jìn)展 [19, 27, 73, 77] 更加強(qiáng)調(diào)多模態(tài)和跨具身(cross-embodiment)數(shù)據(jù)集,以提升泛化能力。諸如 RH20T [22]、BridgeDataV2 [84] 和 DROID [35] 等數(shù)據(jù)集增強(qiáng)了場(chǎng)景多樣性,拓展了操作任務(wù)的覆蓋范圍。值得注意的是,RT-X [67] 將來(lái)自22種不同機(jī)器人平臺(tái)的60個(gè)數(shù)據(jù)集整合到 Open X-Embodiment(OXE)倉(cāng)庫(kù)中。在本工作中,我們從 OXE 中提取高質(zhì)量數(shù)據(jù),將高層任務(wù)描述分解為低層規(guī)劃指令,并將其轉(zhuǎn)換為問(wèn)答格式,以增強(qiáng)模型訓(xùn)練效果。

  1. ShareRobot 數(shù)據(jù)集

為增強(qiáng) RoboBrain 在規(guī)劃、功能感知(affordance perception)和軌跡預(yù)測(cè)(trajectory prediction)方面的能力,我們構(gòu)建了一個(gè)名為ShareRobot的數(shù)據(jù)集——這是一個(gè)專為機(jī)器人操作任務(wù)設(shè)計(jì)的大規(guī)模、細(xì)粒度數(shù)據(jù)集。我們數(shù)據(jù)集的生成流程如圖2所示,具體細(xì)節(jié)在以下各節(jié)中描述。

3.1 概述

ShareRobot 是一個(gè)綜合性數(shù)據(jù)集,通過(guò)將抽象概念轉(zhuǎn)化為具體動(dòng)作,促進(jìn)更高效的任務(wù)執(zhí)行。ShareRobot 數(shù)據(jù)集的主要特點(diǎn)包括:

  • 細(xì)粒度(Fine-grained):與僅提供通用高層任務(wù)描述的 Open X-Embodiment 數(shù)據(jù)集 [66] 不同,ShareRobot 中的每個(gè)數(shù)據(jù)點(diǎn)均包含與單幀圖像關(guān)聯(lián)的詳細(xì)低層規(guī)劃指令。這種細(xì)粒度標(biāo)注提升了模型在正確時(shí)機(jī)執(zhí)行任務(wù)的準(zhǔn)確性。

  • 多維標(biāo)注(Multi-dimensional):為實(shí)現(xiàn)從抽象到具體的 RoboBrain 能力提升,我們對(duì)任務(wù)規(guī)劃、物體功能屬性(object affordances)和末端執(zhí)行器軌跡(end-effector trajectories)進(jìn)行了標(biāo)注,使任務(wù)處理更具靈活性和精確性。

  • 高質(zhì)量(High quality):我們制定了嚴(yán)格的標(biāo)準(zhǔn),從 Open X-Embodiment 數(shù)據(jù)集 [66] 中篩選數(shù)據(jù),重點(diǎn)關(guān)注高分辨率、描述準(zhǔn)確、任務(wù)成功執(zhí)行、功能區(qū)域可見(jiàn)以及運(yùn)動(dòng)軌跡清晰等要素?;谶@些標(biāo)準(zhǔn),我們驗(yàn)證了 51,403 個(gè)高質(zhì)量實(shí)例,構(gòu)成了 RoboBrain 核心能力的基礎(chǔ)。

  • 大規(guī)模(Large scale):ShareRobot 包含 1,027,990 個(gè)問(wèn)答對(duì),是目前面向任務(wù)規(guī)劃、功能感知和軌跡預(yù)測(cè)的最大開(kāi)源數(shù)據(jù)集,有助于模型更深入地理解從抽象到具體的復(fù)雜關(guān)聯(lián)。

  • 豐富多樣性(Rich diversity):與 RoboVQA [73] 數(shù)據(jù)集場(chǎng)景有限不同,ShareRobot 涵蓋 12 種不同機(jī)器人平臺(tái)(embodiments)、102 個(gè)場(chǎng)景和 107 類原子任務(wù)(如圖3所示)。這種多樣性使 MLLMs 能從多樣化的現(xiàn)實(shí)情境中學(xué)習(xí),從而提升在復(fù)雜多步規(guī)劃中的魯棒性。

  • 易于擴(kuò)展(Easy scalability):我們的數(shù)據(jù)生成流程具有高度可擴(kuò)展性,便于隨著新型機(jī)器人平臺(tái)、任務(wù)類型和環(huán)境的出現(xiàn)而持續(xù)擴(kuò)展。這種適應(yīng)性確保 ShareRobot 能夠支持日益復(fù)雜的操作任務(wù)。

功能區(qū)域標(biāo)注(Affordance Labeling) 我們篩選出 6,522 張圖像,并根據(jù)其高層描述,為每張圖像標(biāo)注功能區(qū)域,格式為 {l???, l???, r???, r???},其中 {l???, l???} 表示左上角坐標(biāo),{r???, r???} 表示右下角坐標(biāo)。隨后,我們對(duì)每條指令進(jìn)行嚴(yán)格的逐項(xiàng)人工審核與修正,確保其與對(duì)應(yīng)的功能區(qū)域精確對(duì)齊。

軌跡標(biāo)注(Trajectory Labeling)我們篩選出 6,870 張圖像,并根據(jù)其低層指令,為每張圖像標(biāo)注夾爪的運(yùn)動(dòng)軌跡,至少包含三個(gè) {x, y} 坐標(biāo)點(diǎn)。隨后,我們對(duì)每條指令進(jìn)行嚴(yán)格的逐項(xiàng)人工審核與修正,確保其與對(duì)應(yīng)的軌跡精確對(duì)齊。

3.4 數(shù)據(jù)統(tǒng)計(jì)

我們從 Open X-Embodiment 數(shù)據(jù)集 [66] 中選取了 23 個(gè)原始數(shù)據(jù)集。源數(shù)據(jù)的分布如圖3所示。該數(shù)據(jù)集涵蓋 102 種不同場(chǎng)景(例如臥室、實(shí)驗(yàn)室、廚房、辦公室),并涉及 12 種不同的機(jī)器人本體。根據(jù)統(tǒng)計(jì)數(shù)據(jù),該數(shù)據(jù)集中共包含 132 種原子動(dòng)作類型,高頻詞任務(wù)類型如圖3(c)所示。最頻繁的五種原子任務(wù)是“pick”、“move”、“reach”、“l(fā)ift”和“place”,這些均為真實(shí)機(jī)器人操作場(chǎng)景中的常見(jiàn)任務(wù)類型,表明我們的數(shù)據(jù)集分布合理。最終,我們獲得了 1,027,990 個(gè)用于規(guī)劃的問(wèn)答(QA)對(duì)。對(duì)于規(guī)劃類 QA 對(duì)數(shù)據(jù)集,我們劃分 100 萬(wàn)組 QA 對(duì)作為訓(xùn)練集,2,050 組作為測(cè)試集。對(duì)于功能區(qū)域數(shù)據(jù)集,我們劃分 6,000 張圖像作為訓(xùn)練集,522 張圖像作為測(cè)試集。對(duì)于軌跡數(shù)據(jù)集,我們劃分 6,000 張圖像用于訓(xùn)練,870 張圖像用于測(cè)試。


  1. RoboBrain 模型

在本節(jié)中,我們將概述 RoboBrain。我們的目標(biāo)是使多模態(tài)大語(yǔ)言模型(MLLM)能夠理解抽象指令,并顯式輸出物體的功能區(qū)域及潛在的操作軌跡,從而實(shí)現(xiàn)從抽象到具體的過(guò)渡。我們采用多階段訓(xùn)練策略:第一階段聚焦于通用 OneVision (OV) 訓(xùn)練,以構(gòu)建具備強(qiáng)大理解和指令跟隨能力的基礎(chǔ) MLLM;第二階段為機(jī)器人專項(xiàng)訓(xùn)練階段,旨在強(qiáng)化 RoboBrain 從抽象到具體的核心能力。

4.1 模型架構(gòu)

RoboBrain 由三個(gè)模塊組成:用于規(guī)劃的基礎(chǔ)模型、用于功能感知的 A-LoRA 模型,以及用于軌跡預(yù)測(cè)的 T-LoRA 模型。在實(shí)際應(yīng)用中,模型首先生成詳細(xì)計(jì)劃,然后將其拆分為子任務(wù)描述,以執(zhí)行功能感知和軌跡預(yù)測(cè)。RoboBrain 的整體流程如圖4所示。


用于規(guī)劃的基礎(chǔ)模型我們采用 LLaVA 作為 RoboBrain 的基礎(chǔ)模型,該模型由三個(gè)主要模塊組成:視覺(jué)編碼器(ViT)g(·)、投影器(Projector)h(·) 和大型語(yǔ)言模型(LLM)f(·)。具體而言,我們使用 SigLIP [92]、一個(gè)兩層 MLP [47] 以及 Qwen2.5-7B-Instruct [80]。給定圖像或視頻 X? 作為視覺(jué)輸入,ViT 將其編碼為視覺(jué)特征 Z? = g(X?),再通過(guò)投影器映射至 LLM 的語(yǔ)義空間,得到視覺(jué)標(biāo)記序列 H? = h(Z?)。最后,LLM 根據(jù)人類語(yǔ)言指令 X? 和 H?,以自回歸方式生成文本響應(yīng)。

A-LoRA 功能感知模塊在本工作中,“功能”(affordance)一詞指人類手部與物體發(fā)生接觸的區(qū)域。在交互過(guò)程中,人類會(huì)本能地與特定區(qū)域內(nèi)的各種物體互動(dòng)。我們使用邊界框(bounding boxes)來(lái)表示功能區(qū)域。形式化地,考慮一幅包含多個(gè)物體及其功能區(qū)域的圖像 I:O? = {A??, A?1, ..., A??},其中第 i 個(gè)物體擁有 N 個(gè)功能區(qū)域。功能區(qū)域的格式定義為 {l???, l???, r???, r???},其中 {l???, l???} 表示功能區(qū)域的左上角坐標(biāo),{r???, r???} 表示右下角坐標(biāo)。

T-LoRA 軌跡預(yù)測(cè)模塊在本工作中,“軌跡”(trajectory)一詞指的是文獻(xiàn) [25] 中提出的“2D 視覺(jué)軌跡”概念。我們將軌跡路點(diǎn)定義為一系列 2D 坐標(biāo),用以表示末端執(zhí)行器或手在整個(gè)過(guò)程中的運(yùn)動(dòng)路徑。形式化地,在時(shí)間步 t,軌跡路點(diǎn)可表示為 P?:? = {(x?, y?) | i = t, t+1, ..., N},其中 (x?, y?) 表示視覺(jué)軌跡中的第 i 個(gè)坐標(biāo),N 表示該片段中的總時(shí)間步數(shù)。

用于規(guī)劃的基礎(chǔ)模型
我們采用 LLaVA 作為 RoboBrain 的基礎(chǔ)模型,該模型由三個(gè)主要模塊組成:視覺(jué)編碼器(ViT)g(·)、投影器(Projector)h(·) 和大型語(yǔ)言模型(LLM)f(·)。具體而言,我們使用 SigLIP [92]、一個(gè)兩層 MLP [47] 以及 Qwen2.5-7B-Instruct [80]。給定圖像或視頻 X? 作為視覺(jué)輸入,ViT 將其編碼為視覺(jué)特征 Z? = g(X?),再通過(guò)投影器映射至 LLM 的語(yǔ)義空間,得到視覺(jué)標(biāo)記序列 H? = h(Z?)。最終,LLM 根據(jù)人類語(yǔ)言指令 X? 和 H?,以自回歸方式生成文本響應(yīng)。

A-LoRA 功能感知模塊
在本工作中,“功能”(affordance)一詞指人類手部與物體發(fā)生接觸的區(qū)域。在交互過(guò)程中,人類會(huì)本能地與特定區(qū)域內(nèi)的各種物體互動(dòng)。我們使用邊界框(bounding boxes)來(lái)表示功能區(qū)域。形式化地,考慮一幅包含多個(gè)物體及其功能區(qū)域的圖像 I:O? = {A??, A?1, ..., A??},其中第 i 個(gè)物體擁有 N 個(gè)功能區(qū)域。功能區(qū)域的格式定義為 {l???, l???, r???, r???},其中 {l???, l???} 表示功能區(qū)域的左上角坐標(biāo),{r???, r???} 表示右下角坐標(biāo)。

T-LoRA 軌跡預(yù)測(cè)模塊
在本工作中,“軌跡”(trajectory)一詞指的是文獻(xiàn) [25] 中提出的“2D 視覺(jué)軌跡”概念。我們將軌跡路點(diǎn)定義為一系列 2D 坐標(biāo),用以表示末端執(zhí)行器或手在整個(gè)過(guò)程中的運(yùn)動(dòng)路徑。形式化地,在時(shí)間步 t,軌跡路點(diǎn)可表示為 P?:? = {(x?, y?) | i = t, t+1, ..., N},其中 (x?, y?) 表示視覺(jué)軌跡中的第 i 個(gè)坐標(biāo),N 表示該片段中的總時(shí)間步數(shù)。

4.2 訓(xùn)練

階段1:通用 OV 訓(xùn)練
在第一階段,我們借鑒 LLaVA-OneVision [41] 的前沿訓(xùn)練數(shù)據(jù)和策略,構(gòu)建具備通用多模態(tài)理解和視覺(jué)指令跟隨能力的基礎(chǔ)模型。這為增強(qiáng)模型的機(jī)器人操作規(guī)劃能力奠定了基礎(chǔ)。

階段2:詳細(xì)信息見(jiàn)表1
在第一階段,我們利用 LCS-558K 數(shù)據(jù)集 [11, 72] 的圖文數(shù)據(jù)訓(xùn)練投影器,促進(jìn)視覺(jué)特征 Z? 與 LLM 語(yǔ)義特征 H? 的對(duì)齊。在階段1.5,我們使用 400 萬(wàn)高質(zhì)量圖文數(shù)據(jù)訓(xùn)練完整模型,以增強(qiáng)模型對(duì)多模態(tài)通用知識(shí)的理解能力。在第二階段,我們進(jìn)一步使用 320 萬(wàn)單圖數(shù)據(jù)和 160 萬(wàn)來(lái)自 LLaVA-OneVision-Data [41] 的圖文及視頻數(shù)據(jù)訓(xùn)練完整模型,旨在提升 RoboBrain 的指令跟隨能力,并改善對(duì)高分辨率圖像和視頻的理解。


階段2:機(jī)器人專項(xiàng)訓(xùn)練
在第二階段,我們?cè)诘谝浑A段開(kāi)發(fā)的強(qiáng)大多模態(tài)基礎(chǔ)模型之上,構(gòu)建更強(qiáng)大的機(jī)器人操作規(guī)劃模型。具體而言,我們的目標(biāo)是使 RoboBrain 能夠理解復(fù)雜抽象指令、支持歷史幀信息與高分辨率圖像的感知,并輸出物體功能區(qū)域及潛在操作軌跡。這將促進(jìn)操作規(guī)劃任務(wù)中從抽象到具體的過(guò)渡。詳細(xì)信息見(jiàn)表1。

在第三階段,我們收集了 130 萬(wàn)條機(jī)器人數(shù)據(jù),以提升模型的操作規(guī)劃能力。具體而言,這些數(shù)據(jù)來(lái)源于 RoboVQA-800K [73]、ScanView-318K(包括 MMScan-224K [30, 59])、3RScan-43K [30, 83]、ScanQA-25K [4, 30]、SQA3d-26K [30, 60],以及本文引入的 ShareRobot-200K 子集。這些數(shù)據(jù)集包含大量場(chǎng)景掃描圖像數(shù)據(jù)、長(zhǎng)視頻數(shù)據(jù)和高分辨率圖像。

此外,ShareRobot 數(shù)據(jù)集中精細(xì)且高質(zhì)量的規(guī)劃數(shù)據(jù)進(jìn)一步增強(qiáng)了 RoboBrain 的操作規(guī)劃能力。為緩解災(zāi)難性遺忘問(wèn)題 [93],我們從第一階段選取約 170 萬(wàn)高質(zhì)量圖文子集,與第三階段收集的機(jī)器人數(shù)據(jù)混合用于訓(xùn)練,并相應(yīng)調(diào)整整個(gè)模型。在第四階段,我們利用 ShareRobot 數(shù)據(jù)集及其他開(kāi)源資源 [58, 65] 中的功能區(qū)域與軌跡數(shù)據(jù),進(jìn)一步增強(qiáng)模型根據(jù)指令感知物體功能并預(yù)測(cè)操作軌跡的能力。這一目標(biāo)通過(guò)在訓(xùn)練中引入 LoRA 模塊實(shí)現(xiàn),從而賦予模型具體的操縱能力。

  1. 實(shí)驗(yàn)

5.1 實(shí)現(xiàn)細(xì)節(jié)
在整個(gè)訓(xùn)練階段,我們采用了 Zero3 [71] 分布式訓(xùn)練策略,所有實(shí)驗(yàn)均在配備 8×A800 GPU 的服務(wù)器集群上進(jìn)行。各訓(xùn)練階段的組件配置,包括圖像分辨率設(shè)置、批量大?。╞atch size)、訓(xùn)練輪數(shù)(epochs)和學(xué)習(xí)率(learning rates),詳見(jiàn)表1。

5.2 評(píng)估指標(biāo)

規(guī)劃任務(wù)(Planning Task)
我們選取 RoboVQA [73]、OpenEQA [61] 以及 ShareRobot 的測(cè)試集作為機(jī)器人基準(zhǔn),進(jìn)行多維度評(píng)估。

  • 對(duì)于 RoboVQA,我們采用 RoboMamba [50] 中使用的 BLEU1 至 BLEU4 指標(biāo) [69] 進(jìn)行評(píng)估。

  • 對(duì)于 OpenEQA 和 ShareRobot,我們使用 GPT-4o [68] 作為評(píng)估工具,根據(jù)模型預(yù)測(cè)與真實(shí)答案之間的對(duì)齊程度或相似性進(jìn)行打分,該分?jǐn)?shù)作為模型的最終性能指標(biāo)。

功能區(qū)域預(yù)測(cè)(Affordance Prediction)
我們采用平均精度(Average Precision, AP)來(lái)評(píng)估模型的功能區(qū)域預(yù)測(cè)性能。AP 指標(biāo)綜合了不同閾值下的精度-召回率曲線,該曲線描繪了在不同 IoU(交并比)閾值下精度與召回率的關(guān)系,從而提供更全面的評(píng)估。

軌跡預(yù)測(cè)(Trajectory Prediction)
我們?cè)u(píng)估真實(shí)軌跡與預(yù)測(cè)軌跡之間的相似性,兩者均表示為歸一化到 [0, 1000) 范圍內(nèi)的 2D 路點(diǎn)序列(遵循 Qwen2-VL [87] 的設(shè)定)。評(píng)估采用三項(xiàng)指標(biāo):

  • 離散 Fréchet 距離(Discrete Fréchet Distance, DFD)[25]:捕捉軌跡的整體形狀和時(shí)序?qū)R;
  • Hausdorff 距離(Hausdorff Distance, HD):識(shí)別最大偏差;
  • 均方根誤差(Root Mean Square Error, RMSE):衡量逐點(diǎn)平均誤差。


這三項(xiàng)指標(biāo)共同對(duì)軌跡的準(zhǔn)確性和相似性提供全面評(píng)估。

5.3 機(jī)器人腦任務(wù)評(píng)估

規(guī)劃任務(wù)評(píng)估
我們選取了6個(gè)強(qiáng)大的多模態(tài)大語(yǔ)言模型(MLLMs)作為基線進(jìn)行對(duì)比,涵蓋不同架構(gòu)的開(kāi)源與閉源模型,具體包括:GPT-4V [2]、Claude3 [1]、LLaVA-1.5 [48]、LLaVA-OneVision-7B [41]、Qwen2-VL-7B [86] 和 RoboMamba [50]。具體實(shí)驗(yàn)結(jié)果如圖5所示。


我們的 RoboBrain 在三個(gè)機(jī)器人基準(zhǔn)上均優(yōu)于所有基線模型。在 OpenEQA 和 ShareRobot 上,RoboBrain 表現(xiàn)尤為突出,這歸功于其在理解機(jī)器人任務(wù)和感知長(zhǎng)視頻方面的強(qiáng)大能力。此外,這一優(yōu)勢(shì)在其他基準(zhǔn)上也得到驗(yàn)證:在 RoboVQA 上,RoboBrain 的 BLEU-4 分?jǐn)?shù)比第二名模型高出 18.75,充分體現(xiàn)了其在分解復(fù)雜長(zhǎng)程任務(wù)規(guī)劃方面的卓越能力。

功能區(qū)域預(yù)測(cè)評(píng)估
結(jié)果匯總于表2。我們對(duì)比了 Qwen2-VL-7B 和 LLaVA-NeXT-7B 模型:Qwen2-VL [86] 具備更強(qiáng)的視覺(jué)定位能力,而 LLaVA-NeXT [44] 擁有高分辨率和強(qiáng)大的視覺(jué)編碼器。我們?cè)?AGD20K 功能區(qū)域測(cè)試集上對(duì)它們進(jìn)行評(píng)估。結(jié)果表明,RoboBrain 顯著優(yōu)于其他模型,AP 分?jǐn)?shù)分別比 Qwen2-VL 高出 14.6,比 LLaVA-NeXT 高出 17.3。這驗(yàn)證了 RoboBrain 能夠準(zhǔn)確理解物體的物理屬性,并提供精確的功能區(qū)域定位。


軌跡預(yù)測(cè)評(píng)估
我們對(duì)比了模型的多個(gè)變體,結(jié)果見(jiàn)表3:


(1)Baseline:在軌跡相關(guān)的 VQA 數(shù)據(jù)上微調(diào)的基礎(chǔ)模型;
(2)Start Points:增加末端執(zhí)行器的 2D 起始坐標(biāo);
(3)Max Points:通過(guò)均勻采樣將路點(diǎn)數(shù)量限制為10個(gè);
(4)Spec Token & End Points:加入末端執(zhí)行器位置和特殊標(biāo)記,以強(qiáng)調(diào)關(guān)鍵路點(diǎn)及起始/目標(biāo)點(diǎn)。

每個(gè)變體均在前一個(gè)基礎(chǔ)上構(gòu)建,最終模型整合了所有設(shè)計(jì)組件。如表3最后一行所示,與基線相比,DFD、HD 和 RMSE 分別下降了 42.9%、94.2% 和 31.6%。我們發(fā)現(xiàn),加入起始點(diǎn)能有效校正生成軌跡與末端執(zhí)行器之間的平移偏移。

5.4 可視化

在本節(jié)中,我們?cè)趫D6中展示了 RoboBrain 的可視化示例。給定人類指令和視覺(jué)輸入后,RoboBrain 能夠進(jìn)行多輪交互,理解并規(guī)劃后續(xù)步驟,同時(shí)輸出更具體的物體功能區(qū)域(affordances)和操作軌跡。


  1. 結(jié)論

本文中,我們提出了ShareRobot——一個(gè)高質(zhì)量數(shù)據(jù)集,標(biāo)注了包括任務(wù)規(guī)劃、物體功能屬性和末端執(zhí)行器軌跡在內(nèi)的多維信息。我們還提出了RoboBrain——一種基于多模態(tài)大語(yǔ)言模型(MLLM)的模型,融合機(jī)器人專用數(shù)據(jù)與通用多模態(tài)數(shù)據(jù),采用多階段訓(xùn)練策略,并利用長(zhǎng)視頻與高分辨率圖像,以增強(qiáng)機(jī)器人操作能力。大量實(shí)驗(yàn)表明,RoboBrain 在各類機(jī)器人任務(wù)中均達(dá)到當(dāng)前最優(yōu)性能,彰顯其在顯著提升機(jī)器人能力方面的巨大潛力。

原文鏈接:https://arxiv.org/pdf/2502.21257

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

財(cái)經(jīng)網(wǎng)
2026-03-26 18:32:12
中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

混沌錄
2026-03-18 23:54:31
告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

阿離家居
2026-03-27 04:34:34
日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

輝哥說(shuō)動(dòng)漫
2026-03-27 07:12:50
廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

珠海消防
2026-03-25 20:08:08
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

橙星文娛
2026-03-26 13:40:27
為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

情感藝術(shù)家
2026-03-08 22:07:38
拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

萌蘭聊個(gè)球
2026-03-26 13:09:33
中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

南權(quán)先生
2026-03-23 15:11:48
徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

林子說(shuō)事
2026-03-27 00:33:44
廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

環(huán)球網(wǎng)資訊
2026-03-26 14:44:08
少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

仰臥撐FTUer
2026-03-27 07:58:03
你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛(ài)雜談
2026-02-21 21:37:02
你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

帶你感受人間冷暖
2026-03-20 00:47:24
蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

生活視覺(jué)攝影
2026-03-26 13:33:29
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

阿龍美食記
2026-03-24 09:50:48
中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光
2026-03-23 20:10:05
美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

勝研集
2026-03-25 00:02:51
國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
2026-03-27 08:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1305文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

游戲
藝術(shù)
家居
公開(kāi)課
軍事航空

任天堂加持!FS社新作或成為Switch 2永久獨(dú)占

藝術(shù)要聞

江青的書(shū)法秘訣!只練草書(shū)真的能提升書(shū)法水平嗎?

家居要聞

傍海而居 靜觀蝴蝶海

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版