国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大多視圖VLA模型賦能視覺具身導(dǎo)航!MM-Nav:多專家學(xué)習(xí)助力視覺導(dǎo)航穩(wěn)健前行

0
分享至

文章來源:視覺語(yǔ)言導(dǎo)航。

  • 作者:Tianyu Xu , Jiawei Chen , Jiazhao Zhang , Wenyao Zhang , Zekun Qi , Minghan Li , Zhizheng Zhang , He Wang

  • 單位: 北京大學(xué), Galbot, 上海交通大學(xué), 清華大學(xué), 北京人工智能研究院

  • 論文標(biāo)題:MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning

  • 論文鏈接:https://arxiv.org/pdf/2510.03142v1

  • 項(xiàng)目主頁(yè):https://pku-epic.github.io/MM-Nav-Web/

主要貢獻(xiàn)
  • 提出基于多視圖的視覺-語(yǔ)言-動(dòng)作模型 MM-Nav ,能夠從多個(gè)強(qiáng)化學(xué)習(xí)(RL)專家那里學(xué)習(xí)不同的導(dǎo)航能力,并通過多專家學(xué)習(xí)實(shí)現(xiàn)魯棒的視覺導(dǎo)航。

  • 設(shè)計(jì)了 包含兩個(gè)階段的訓(xùn)練過程 :首先利用從RL專家那里收集的大規(guī)模離線數(shù)據(jù)集對(duì)VLA模型進(jìn)行初始微調(diào);然后通過在線教師-學(xué)生訓(xùn)練迭代,以能力平衡的方式對(duì)VLA模型進(jìn)行進(jìn)一步的精細(xì)化調(diào)整,使其能夠?qū)W習(xí)到多種導(dǎo)航能力并實(shí)現(xiàn)性能的提升。

  • 在多種 合成環(huán)境和真實(shí)世界環(huán)境 中進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果表明該方法不僅在不同能力的測(cè)試場(chǎng)景中表現(xiàn)出色,還能夠?qū)崿F(xiàn)從仿真到現(xiàn)實(shí)的有效遷移,并且最終超越了專門訓(xùn)練的RL專家,證明了學(xué)習(xí)多種能力的協(xié)同效應(yīng)。

研究背景
  • 視覺導(dǎo)航因其模仿人類使用自身視覺觀察進(jìn)行導(dǎo)航的方式而備受關(guān)注,它能夠提供詳細(xì)的環(huán)境信息且成本較低。然而,視覺數(shù)據(jù)的解釋和適當(dāng)導(dǎo)航動(dòng)作的規(guī)劃是一個(gè)挑戰(zhàn),需要高度智能的模型和大規(guī)模的導(dǎo)航數(shù)據(jù)。

  • 現(xiàn)有的方法主要通過學(xué)習(xí)策略來隱式解釋視覺輸入并預(yù)測(cè)后續(xù)動(dòng)作,但這些方法受限于有限的觀察視角和相對(duì)寬敞的環(huán)境,難以適用于更具挑戰(zhàn)性的場(chǎng)景。

  • 真實(shí)世界的導(dǎo)航數(shù)據(jù)主要來自單相機(jī)設(shè)置,缺乏極具挑戰(zhàn)性或危險(xiǎn)性的場(chǎng)景;而合成導(dǎo)航數(shù)據(jù)雖然可以定制相機(jī)配置并生成反映不同導(dǎo)航能力的數(shù)據(jù),但存在仿真到現(xiàn)實(shí)的差距,因?yàn)樗鼈兺ǔ2皇潜普娴摹?/p>

方法 概述
  • 任務(wù)定義 :學(xué)習(xí)一個(gè)速度控制策略 π,使全向機(jī)器人能夠安全地導(dǎo)航到特定的目標(biāo)點(diǎn)。在每個(gè)時(shí)間步 t,給定目標(biāo)點(diǎn)位置 和多視圖 RGB 幀 ,策略 π 輸出一個(gè)動(dòng)作 ,表示全向速度。目標(biāo)是確保策略生成的速度無(wú)碰撞且能到達(dá)指定目標(biāo)。

  • 方法概述 :方法包括兩個(gè)主要步驟:

    • 訓(xùn)練多個(gè) RL 專家并進(jìn)行初始 VLA 微調(diào) :在仿真環(huán)境中訓(xùn)練三個(gè)具有不同導(dǎo)航能力(到達(dá)、擠壓、躲避)的 RL 專家,并收集他們的成功軌跡來初始化 VLA 模型。

    • 教師-學(xué)生在線訓(xùn)練迭代 :將初步訓(xùn)練的 VLA 模型部署到仿真環(huán)境中,通過在線收集 RL 專家的動(dòng)作數(shù)據(jù)并進(jìn)行能力平衡的數(shù)據(jù)聚合,迭代地微調(diào) VLA 模型,直到性能收斂。

不同導(dǎo)航能力的 RL 專家
  • 環(huán)境構(gòu)建

    • 到達(dá)(Reaching) :包含隨機(jī)靜態(tài)障礙物的場(chǎng)景,機(jī)器人需要接近并到達(dá)特定目標(biāo)點(diǎn)。

    • 擠壓(Squeezing) :包含密集排列的柱子和狹窄通道的場(chǎng)景,機(jī)器人需要通過視覺反饋安全地通過這些通道。

    • 躲避(Avoiding) :包含動(dòng)態(tài)障礙物的場(chǎng)景,機(jī)器人需要主動(dòng)躲避這些障礙物。

  • RL 專家架構(gòu)

    • 使用 PPO 算法進(jìn)行訓(xùn)練,每個(gè)時(shí)間步的觀察包括四個(gè)方向的深度圖像、上一動(dòng)作和目標(biāo)位置。

    • 每個(gè)深度圖像通過 ResNet-18 編碼成特征向量,與上一動(dòng)作、目標(biāo)位置和歷史標(biāo)記拼接后輸入到 MLP 中,預(yù)測(cè)速度動(dòng)作。

  • 獎(jiǎng)勵(lì)函數(shù) :獎(jiǎng)勵(lì)函數(shù)鼓勵(lì)合理、目標(biāo)導(dǎo)向且無(wú)碰撞的行為,不同能力的專家有不同的獎(jiǎng)勵(lì)系數(shù),以指導(dǎo)和專業(yè)化他們的行為。

學(xué)生 VLA 模型
  • 視覺觀察編碼

    • 使用四個(gè)相機(jī)視圖(前、右、后、左)獲取 360° 觀察。

    • 使用視覺基礎(chǔ)模型(SigLIP)和交叉模態(tài)投影器將多視圖 RGB 圖像編碼為視覺標(biāo)記。

    • 使用滑動(dòng)窗口選擇視覺標(biāo)記,以保持合理的視覺標(biāo)記序列長(zhǎng)度,確保推理速度。

  • 動(dòng)作預(yù)測(cè)

    • 將目標(biāo)點(diǎn)格式化為文本提示并編碼為語(yǔ)言標(biāo)記。

    • 將視覺標(biāo)記和語(yǔ)言標(biāo)記輸入到大型語(yǔ)言模型(Qwen2)中,預(yù)測(cè)動(dòng)作標(biāo)記。

    • 使用動(dòng)作頭(兩層 MLP)將動(dòng)作標(biāo)記轉(zhuǎn)換為機(jī)器人速度。

  • 損失函數(shù) :使用均方誤差損失進(jìn)行動(dòng)作預(yù)測(cè),并保留開放世界問答數(shù)據(jù)的交叉熵?fù)p失,以減輕仿真到現(xiàn)實(shí)的差距。

RL 專家與 VLA 迭代
  • 初始專家數(shù)據(jù)收集與 VLA 微調(diào)

    • 收集 RL 專家在仿真中生成的成功軌跡,形成包含 500k 步的數(shù)據(jù)集。

    • 使用這些數(shù)據(jù)對(duì) VLA 模型進(jìn)行初始微調(diào),確保模型在不同場(chǎng)景中具有初步的導(dǎo)航能力。

  • 教師-學(xué)生在線訓(xùn)練迭代

    • 將初步訓(xùn)練的 VLA 模型部署到仿真環(huán)境中,收集對(duì)應(yīng) RL 專家的動(dòng)作數(shù)據(jù)。

    • 使用能力平衡的數(shù)據(jù)聚合方法,根據(jù) VLA 模型與 RL 專家之間的性能差距動(dòng)態(tài)調(diào)整數(shù)據(jù)比例。

    • 使用聚合的數(shù)據(jù)微調(diào) VLA 模型,重復(fù)迭代直到性能不再提升。

實(shí)現(xiàn)細(xì)節(jié)
  • RL 訓(xùn)練策略

    • 在 IsaacLab 中使用 NVIDIA RTX 4090 GPU 訓(xùn)練 RL 專家,采用歷史感知的演員-評(píng)論家架構(gòu)。

    • 深度值被裁剪以過濾噪聲,動(dòng)作分布初始化時(shí)加入噪聲以鼓勵(lì)探索。

  • VLA 訓(xùn)練策略

    • 在 8 個(gè) NVIDIA H100 GPU 上對(duì)初始 VLA 模型進(jìn)行微調(diào),使用預(yù)訓(xùn)練的視覺編碼器和 LLM。

    • 初始訓(xùn)練包含來自三個(gè) RL 專家的 500k 步數(shù)據(jù)和 100k 視覺問答數(shù)據(jù)。

    • 每次教師-學(xué)生訓(xùn)練迭代包含 200k 步在線收集的專家數(shù)據(jù)和 40k 視覺問答數(shù)據(jù)。

  • 部署策略

    • 在 Unitree GO2 機(jī)器人上部署方法,使用服務(wù)器上的 NVIDIA RTX 5090 GPU 運(yùn)行 VLA 模型。

    • 使用四個(gè)魚眼相機(jī)獲取四視圖實(shí)時(shí)圖像,經(jīng)過校正后輸入到 VLA 模型中。

    • VLA 模型輸出的速度由低級(jí)控制器執(zhí)行,平均響應(yīng)頻率約為 7Hz。

實(shí)驗(yàn) 實(shí)驗(yàn)設(shè)置
  • 仿真環(huán)境設(shè)置

    • IsaacLab 仿真環(huán)境中評(píng)估方法,設(shè)計(jì)了三個(gè)特定能力的固定場(chǎng)景(Reaching、Squeezing、Avoiding)以及一個(gè)綜合測(cè)試場(chǎng)景(Mixed),后者包含靜態(tài)障礙物、動(dòng)態(tài)障礙物和狹窄通道,用于評(píng)估模型的泛化能力。

    • 每個(gè)仿真場(chǎng)景的終止條件包括:機(jī)器人成功到達(dá)目標(biāo)、與障礙物碰撞或超時(shí)(Reaching、Squeezing、Avoiding 場(chǎng)景為 90 秒,Mixed 場(chǎng)景為 120 秒)。


  • 真實(shí)世界環(huán)境設(shè)置

    • 構(gòu)建了四個(gè)真實(shí)世界場(chǎng)景,包括狹窄之字形走廊(Narrow Zigzag Corridor)、薄障礙物躲避(Thin Obstacle Avoidance)、動(dòng)態(tài)環(huán)境(Dynamic Environment)和雜亂靜態(tài)環(huán)境(Cluttered Static Environment),用于評(píng)估從仿真到現(xiàn)實(shí)的遷移能力和泛化能力。

    • 這些場(chǎng)景設(shè)計(jì)用于測(cè)試特定技能,并驗(yàn)證模型對(duì)訓(xùn)練數(shù)據(jù)中不存在的新物體和材料的魯棒性。

  • 評(píng)估指標(biāo)與基線

    • 使用三個(gè)指標(biāo)評(píng)估方法:成功率(Success Rate, SR)、碰撞率(Collision Rate, CR)和加權(quán)旅行時(shí)間(Weighted Travel Time, WTT,即成功場(chǎng)景的平均時(shí)間除以成功率)。

    • 每個(gè)方法和場(chǎng)景運(yùn)行 100 個(gè)回合以計(jì)算這些指標(biāo)。

定量結(jié)果
  • 仿真基準(zhǔn)測(cè)試結(jié)果

    • 上表總結(jié)了仿真環(huán)境中的定量結(jié)果。與現(xiàn)有方法(如 iPlanner、ViPlanner 和 NavDP)相比,MM-Nav 在幾乎所有測(cè)試場(chǎng)景中都實(shí)現(xiàn)了最高的成功率(SR)、最低的碰撞率(CR)和最短的加權(quán)旅行時(shí)間(WTT)。

    • 例如,在 Reaching 場(chǎng)景中,MM-Nav 的成功率為 80%,碰撞率為 20%,加權(quán)旅行時(shí)間為 31.0 秒;而在 Squeezing 場(chǎng)景中,成功率為 71%,碰撞率為 19%,加權(quán)旅行時(shí)間為 42.2 秒。

    • 這些結(jié)果表明 MM-Nav 不僅能夠確保無(wú)碰撞運(yùn)動(dòng),還能規(guī)劃出更有效的路徑。

定性結(jié)果


  • 真實(shí)世界場(chǎng)景中的表現(xiàn)

    • 在狹窄之字形走廊和雜亂靜態(tài)環(huán)境中,機(jī)器人能夠精確調(diào)整以通過障礙物,展現(xiàn)出出色的敏捷性。

    • 在薄障礙物躲避場(chǎng)景中,機(jī)器人成功避開了薄織物條,這些障礙物對(duì)于激光雷達(dá)傳感器來說很難檢測(cè)(激光雷達(dá)傳感器的本地避障系統(tǒng)完全失敗)。

    • 在辦公室走廊泛化場(chǎng)景中,模型能夠繞過未見過的物體,如椅子,并處理部分透明的玻璃墻等具有挑戰(zhàn)性的材料,確認(rèn)了其從仿真到現(xiàn)實(shí)的泛化能力。

消融研究
  • 在線訓(xùn)練迭代的性能提升

    • 上圖展示了初始 VLA 模型及其變體在前四次訓(xùn)練迭代后的性能。初始行為克隆訓(xùn)練后,VLA 模型在所有三種能力中都存在明顯的性能差距,特別是在擠壓能力方面。

    • 通過幾次在線訓(xùn)練迭代,模型的性能逐漸提高。在第一次迭代中,能力平衡的數(shù)據(jù)聚合方法重點(diǎn)關(guān)注擠壓能力,導(dǎo)致了顯著的改進(jìn)。經(jīng)過四次迭代后,三種任務(wù)的性能趨于穩(wěn)定,且 VLA 模型在所有任務(wù)中的表現(xiàn)都超過了 RL 專家。

  • 能力平衡數(shù)據(jù)聚合方法的優(yōu)勢(shì)

    • 基于相同的初始 VLA 模型,使用能力平衡的數(shù)據(jù)和不平衡的數(shù)據(jù)分別進(jìn)行訓(xùn)練迭代。結(jié)果表明,能力平衡的方法能夠及時(shí)補(bǔ)充缺乏的能力,實(shí)現(xiàn)更快更穩(wěn)定的訓(xùn)練。

    • 盡管不平衡的方法在 Reaching 場(chǎng)景中取得了更好的性能,但在 Squeezing 和 Avoiding 場(chǎng)景中學(xué)習(xí)效率低下。能力平衡的方法有助于將不同 RL 專家的數(shù)據(jù)融合在一起,防止 VLA 模型忽視特定能力。

  • 專家組合策略的效果

    • 通過訓(xùn)練三個(gè) VLA 模型,每個(gè)模型使用來自單一 RL 專家的數(shù)據(jù),以及在混合場(chǎng)景中訓(xùn)練的單一 RL 專家,來研究組合不同能力的 RL 專家對(duì) VLA 學(xué)生的影響。

    • 上表顯示,使用單一數(shù)據(jù)源訓(xùn)練的模型在對(duì)應(yīng)場(chǎng)景中表現(xiàn)出色,但在需要未見能力的任務(wù)中泛化能力差。相比之下,使用混合數(shù)據(jù)訓(xùn)練的 VLA 模型在跨能力性能上表現(xiàn)出顯著的優(yōu)勢(shì),超過了所有單一數(shù)據(jù)源訓(xùn)練的模型。

    • 這表明不同能力之間的互補(bǔ)性和相互增強(qiáng)性,單一專家訓(xùn)練的模型在特定領(lǐng)域表現(xiàn)出色,但缺乏其他能力提供的更廣泛上下文知識(shí)。而混合訓(xùn)練使學(xué)生接觸到多種技能維度,能夠構(gòu)建跨越多個(gè)能力的共享表示。

結(jié)論與未來工作
  • 結(jié)論

    • MM-Nav通過從多個(gè)專門的RL專家那里學(xué)習(xí),成功地獲得了一種強(qiáng)大的、通用的視覺導(dǎo)航策略,證明了學(xué)習(xí)多種能力的協(xié)同效應(yīng),并為訓(xùn)練新一代通用視覺導(dǎo)航智能體提供了一個(gè)可擴(kuò)展且有效的藍(lán)圖。

  • 未來工作

    • 探索該訓(xùn)練策略的跨實(shí)體潛力,并進(jìn)一步通過VLA和其他方法推進(jìn)僅視覺導(dǎo)航的發(fā)展。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一山不容二虎?許昕自曝與隊(duì)友不和,不是張繼科,而是全滿貫的他

一山不容二虎?許昕自曝與隊(duì)友不和,不是張繼科,而是全滿貫的他

以茶帶書
2025-12-23 19:22:37
上海反向換房的人越來越多

上海反向換房的人越來越多

魔都財(cái)觀
2025-12-24 07:21:36
馬刺3人20+雙殺雷霆!亞歷山大空砍62年NBA紀(jì)錄,聯(lián)盟第一被針對(duì)

馬刺3人20+雙殺雷霆!亞歷山大空砍62年NBA紀(jì)錄,聯(lián)盟第一被針對(duì)

毒舌NBA
2025-12-24 11:57:47
69年,山西第一書記謝振華下命令,為民除害、槍斃楊成效

69年,山西第一書記謝振華下命令,為民除害、槍斃楊成效

文史微鑒
2025-12-23 22:23:56
天了!中國(guó)向全球正式宣布,禁止跟美合作,一記重拳轟向美軍七寸

天了!中國(guó)向全球正式宣布,禁止跟美合作,一記重拳轟向美軍七寸

瞳哥視界
2025-12-23 20:17:07
項(xiàng)立剛再批羅永浩!為搞流量煽動(dòng)輿論,被封就是活該

項(xiàng)立剛再批羅永浩!為搞流量煽動(dòng)輿論,被封就是活該

雷科技
2025-12-23 21:30:04
水端麻美:長(zhǎng)腿御姐靠演員自覺殺出血路,Madonna不懂珍惜的人才

水端麻美:長(zhǎng)腿御姐靠演員自覺殺出血路,Madonna不懂珍惜的人才

素然追光
2025-12-22 02:15:04
洪森直接開罵了,指著他那個(gè)48歲的兒子

洪森直接開罵了,指著他那個(gè)48歲的兒子

百態(tài)人間
2025-12-23 16:39:10
大中午熱力公司入戶測(cè)溫,佩戴的記錄儀上咋印著警徽?住戶報(bào)警

大中午熱力公司入戶測(cè)溫,佩戴的記錄儀上咋印著警徽?住戶報(bào)警

大風(fēng)新聞
2025-12-23 11:43:29
本世紀(jì)火性最強(qiáng)的流年——赤馬紅羊,這幾類人尤其要注意!

本世紀(jì)火性最強(qiáng)的流年——赤馬紅羊,這幾類人尤其要注意!

神奇故事
2025-12-23 22:17:52
勇士?jī)?nèi)訌原因曝光!追夢(mèng)不想干累活,被罰100萬(wàn),名嘴建議他替補(bǔ)

勇士?jī)?nèi)訌原因曝光!追夢(mèng)不想干累活,被罰100萬(wàn),名嘴建議他替補(bǔ)

你的籃球頻道
2025-12-24 09:21:29
利比亞軍事領(lǐng)導(dǎo)人在土耳其墜機(jī)身亡

利比亞軍事領(lǐng)導(dǎo)人在土耳其墜機(jī)身亡

財(cái)聯(lián)社
2025-12-24 04:30:13
“左”和 “右”不是絕對(duì)的,約翰遜警告特朗普可能會(huì)被彈劾

“左”和 “右”不是絕對(duì)的,約翰遜警告特朗普可能會(huì)被彈劾

山河路口
2025-12-23 23:08:12
特朗普說了經(jīng)典一段話,還提到了中國(guó)

特朗普說了經(jīng)典一段話,還提到了中國(guó)

牛彈琴
2025-12-24 07:47:44
毛主席原定叫“支援軍”,黃炎培諫言改2字,杜魯門有苦說不出

毛主席原定叫“支援軍”,黃炎培諫言改2字,杜魯門有苦說不出

詩(shī)意世界
2025-12-23 10:12:36
港獨(dú)害人害己:黃之鋒父親賤賣房產(chǎn)舉家飛國(guó)外,不會(huì)被世界原諒!

港獨(dú)害人害己:黃之鋒父親賤賣房產(chǎn)舉家飛國(guó)外,不會(huì)被世界原諒!

凡知
2025-12-23 18:59:57
北京市發(fā)布大風(fēng)藍(lán)色預(yù)警 大部地區(qū)陣風(fēng)可達(dá)6至7級(jí)

北京市發(fā)布大風(fēng)藍(lán)色預(yù)警 大部地區(qū)陣風(fēng)可達(dá)6至7級(jí)

北青網(wǎng)-北京青年報(bào)
2025-12-24 07:51:13
深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

照亮你的前行之路
2025-12-24 03:10:08
69歲退休大爺哭訴:跳了半年廣場(chǎng)舞,每月8000元退休金都不夠用了

69歲退休大爺哭訴:跳了半年廣場(chǎng)舞,每月8000元退休金都不夠用了

人間百態(tài)大全
2025-12-17 06:35:03
柬埔寨要求泰國(guó)將邊界談判移至馬來西亞吉隆坡,泰媒稱泰方已拒絕該要求

柬埔寨要求泰國(guó)將邊界談判移至馬來西亞吉隆坡,泰媒稱泰方已拒絕該要求

環(huán)球網(wǎng)資訊
2025-12-24 06:54:00
2025-12-24 12:44:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5276文章數(shù) 64598關(guān)注度
往期回顧 全部

科技要聞

黑產(chǎn)大軍壓境 快手"拔網(wǎng)線"為何慢了兩小時(shí)

頭條要聞

媒體:澤連斯基威脅制裁中國(guó)公民 中方的回應(yīng)算客氣了

頭條要聞

媒體:澤連斯基威脅制裁中國(guó)公民 中方的回應(yīng)算客氣了

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

快手到底惹了誰(shuí)?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

家居
數(shù)碼
時(shí)尚
健康
公開課

家居要聞

法式大平層 智能家居添彩

數(shù)碼要聞

Counterpoint:全球智能手表出貨量預(yù)計(jì)將在2025年年底同比增長(zhǎng)7% 重回增長(zhǎng)軌道

歲月不敗美人,50歲銀發(fā)的她們也太會(huì)穿了

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版