国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

具身導(dǎo)航從模仿到超越!CompassNav:從路徑模仿到?jīng)Q策理解的導(dǎo)航

0
分享至

文章來源:視覺語言導(dǎo)航。

  • 作者:LinFeng Li , Jian Zhao , Yuan Xie , Xin Tan , Xuelong Li

  • 單位: 華東師范大學(xué), 中國電信人工智能研究所

  • 論文標(biāo)題:CompassNav: Steering From Path Imitation To Decision Understanding In Navigation

  • 論文鏈接:https://arxiv.org/pdf/2510.10154

  • 項(xiàng)目主頁:https://linengcs.github.io/CompassNav/

  • 代碼鏈接:https://github.com/linengcs/CompassNav

主要貢獻(xiàn)
  • 提出新的導(dǎo)航范式 :從傳統(tǒng)的路徑模仿轉(zhuǎn)變?yōu)闆Q策理解,旨在培養(yǎng)能夠真正理解導(dǎo)航?jīng)Q策的智能體,而不僅僅是模仿專家路徑。

  • 構(gòu)建Compass-Data-22k數(shù)據(jù)集 :包含22k軌跡,其中的RFT子集通過為每一步的所有可行動(dòng)作標(biāo)注A*測(cè)地線距離,為決策空間提供了全景視圖。

  • 設(shè)計(jì)差距感知混合獎(jiǎng)勵(lì)函數(shù) :根據(jù)決策確定性動(dòng)態(tài)調(diào)整反饋,既能為最優(yōu)動(dòng)作提供明確信號(hào),又能鼓勵(lì)探索,與RFT子集的密集標(biāo)注緊密結(jié)合,培養(yǎng)智能體的決策能力。

  • 實(shí)現(xiàn)CompassNav框架 :采用SFT-then-RFT的訓(xùn)練方案,使7B參數(shù)的智能體在目標(biāo)導(dǎo)航基準(zhǔn)測(cè)試中達(dá)到新的最高水平,超越了更大的專有模型,并在真實(shí)物理環(huán)境中實(shí)現(xiàn)了穩(wěn)健的目標(biāo)導(dǎo)航。

研究背景
  • 目標(biāo)導(dǎo)航的重要性 :目標(biāo)導(dǎo)航是智能體在復(fù)雜、未見過的環(huán)境中自主操作的關(guān)鍵能力之一,要求智能體能夠自由探索并進(jìn)行空間推理以實(shí)現(xiàn)目標(biāo),而無需明確的、逐步的指導(dǎo)。

  • 現(xiàn)有方法的局限性 :目前主流的訓(xùn)練視覺語言大模型(LVLM)進(jìn)行導(dǎo)航的方法依賴于模仿專家軌跡,這種方法將復(fù)雜的導(dǎo)航任務(wù)簡(jiǎn)化為單一正確路徑的序列復(fù)制,限制了智能體的探索能力和泛化能力。

Compass-Data數(shù)據(jù)集構(gòu)建 Compass-Data-RFT

創(chuàng)建一個(gè)能夠提供密集、細(xì)粒度監(jiān)督信號(hào)的數(shù)據(jù)集,以支持智能體學(xué)習(xí)決策理解,而不僅僅是模仿單一專家路徑。

  • 使用 Action Proposer Module(APM) ,在每個(gè)時(shí)間步生成可行的候選動(dòng)作,這些動(dòng)作以極坐標(biāo)元組(r,θ)表示,并在智能體的視野中以箭頭形式渲染。

  • 利用 Oracle A* Planner ,為每個(gè)候選動(dòng)作計(jì)算到目標(biāo)的測(cè)地線距離。智能體主要沿著最優(yōu)路徑前進(jìn),但在存在多個(gè)幾乎最優(yōu)的動(dòng)作(決策點(diǎn)模糊)時(shí),會(huì)探索并記錄這些替代路徑。

  • 記錄每一步中所有候選動(dòng)作的測(cè)地線距離,生成多樣化的目標(biāo)中心軌跡,每一步都標(biāo)注了全景式的監(jiān)督信號(hào),捕捉了到達(dá)目標(biāo)的多條有效路徑。

  • 數(shù)據(jù)結(jié)構(gòu) :將生成的密集標(biāo)注數(shù)據(jù)結(jié)構(gòu)化為RFT(Reinforcement Fine-Tuning)數(shù)據(jù)。每個(gè)RFT數(shù)據(jù)樣本包含標(biāo)準(zhǔn)輸入(指令提示和智能體當(dāng)前視覺觀察)以及用于獎(jiǎng)勵(lì)建模的專門目標(biāo)對(duì)象。目標(biāo)對(duì)象包含最優(yōu)動(dòng)作的ID以及該步驟所有候選動(dòng)作的完整A*距離向量,為差距感知混合獎(jiǎng)勵(lì)函數(shù)和GRPO(Group-wise Reward Policy Optimization)框架提供了必要的細(xì)粒度、分級(jí)偏好信號(hào)。

Compass-Data-SFT

解決從基礎(chǔ)LVLM(Large Vision-Language Model)直接開始RFT(Reinforcement Fine-Tuning)時(shí)面臨的“冷啟動(dòng)”問題,通過知識(shí)蒸餾策略為智能體提供一個(gè)基礎(chǔ)的“推理-行動(dòng)”能力。

  • 采用強(qiáng)大的教師模型Qwen-QvQ,在habitat-sim中執(zhí)行ObjectNav任務(wù),記錄其成功劇集中的完整推理過程和動(dòng)作選擇。

  • 僅從教師模型的成功劇集中提取數(shù)據(jù),形成SFT(Supervised Fine-Tuning)數(shù)據(jù)集,以反映有效的探索策略。

  • 數(shù)據(jù)結(jié)構(gòu) :每個(gè)SFT訓(xùn)練實(shí)例與RFT數(shù)據(jù)具有相同的輸入結(jié)構(gòu),但目標(biāo)輸出是一個(gè)包含教師完整推理過程和決策的單個(gè)字符串,格式為 ...reasoning... k ,明確訓(xùn)練模型在采取行動(dòng)之前外化其推理過程,建立基礎(chǔ)的“推理-行動(dòng)”行為。

CompassNav框架 監(jiān)督式微調(diào)策略初始化

通過模仿學(xué)習(xí)培養(yǎng)智能體的基礎(chǔ)“推理-行動(dòng)”能力,為后續(xù)的RFT階段提供一個(gè)良好的初始策略。

  • 使用Compass-Data-SFT-11k數(shù)據(jù)集,訓(xùn)練模型在每個(gè)時(shí)間步生成兩部分響應(yīng):推理過程和最終動(dòng)作選擇,格式為 ... k

  • 采用 掩碼多選解碼技術(shù) ,通過在解碼器的輸出logits上應(yīng)用掩碼softmax,限制詞匯表僅包含有效候選動(dòng)作的索引,確保生成的所有輸出都是可執(zhí)行的,這對(duì)于后續(xù)RFT階段的穩(wěn)定性至關(guān)重要。

  • 使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)對(duì)整個(gè)教師生成的序列(包括推理標(biāo)記和最終動(dòng)作標(biāo)記)進(jìn)行訓(xùn)練,以學(xué)習(xí)模仿教師模型的推理和決策過程。

差距感知混合獎(jiǎng)勵(lì)調(diào)整策略對(duì)齊

在SFT初始化的策略基礎(chǔ)上,利用環(huán)境目標(biāo)對(duì)齊策略,通過差距感知混合獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)真正的決策理解。

  • 使用GRPO(Group-wise Reward Policy Optimization)框架,對(duì)給定的輸入提示,使用策略πθ生成一組G個(gè)不同的輸出序列,并為每個(gè)生成的序列根據(jù)選擇的動(dòng)作質(zhì)量分配獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)由差距感知混合獎(jiǎng)勵(lì)函數(shù)計(jì)算。

  • 差距感知混合獎(jiǎng)勵(lì)函數(shù)

    • 基礎(chǔ)分?jǐn)?shù) :通過softmax函數(shù)根據(jù)到目標(biāo)的距離對(duì)所有可用選項(xiàng)進(jìn)行連續(xù)評(píng)估,距離越短的動(dòng)作得分越高,反映其相對(duì)質(zhì)量。

    • 動(dòng)態(tài)獎(jiǎng)金 :通過測(cè)量最佳和次佳選項(xiàng)之間的歸一化差距來評(píng)估當(dāng)前情況的確定性,差距越大,確定性越高,獎(jiǎng)金也越高,但僅對(duì)最優(yōu)行動(dòng)觸發(fā)。

    • 最終獎(jiǎng)勵(lì)將基礎(chǔ)分?jǐn)?shù)與動(dòng)態(tài)獎(jiǎng)金相結(jié)合,通過調(diào)整獎(jiǎng)勵(lì)信號(hào)的強(qiáng)度,既能在高確定性情況下提供明確的信號(hào),又能在低確定性情況下鼓勵(lì)探索。

  • 目標(biāo)函數(shù) :GRPO目標(biāo)函數(shù)最大化生成組的預(yù)期獎(jiǎng)勵(lì),在計(jì)算優(yōu)勢(shì)后,通過最小化損失函數(shù)來優(yōu)化策略,同時(shí)使用KL散度項(xiàng)對(duì)策略更新進(jìn)行正則化,以保持策略與SFT階段的參考策略之間的相似性,從而鼓勵(lì)策略生成導(dǎo)致高獎(jiǎng)勵(lì)動(dòng)作的序列。

實(shí)驗(yàn) 實(shí)驗(yàn)設(shè)置
  • 數(shù)據(jù)集和任務(wù)

    • 在habitat-sim中使用HM3Dv2訓(xùn)練集生成訓(xùn)練數(shù)據(jù)。

    • 在HM3Dv1-val、HM3Dv2-val和MP3D-val三個(gè)未見驗(yàn)證集上評(píng)估智能體的泛化能力,這些驗(yàn)證集包含完全未見過的場(chǎng)景和目標(biāo)實(shí)例,確保對(duì)智能體在新環(huán)境中的導(dǎo)航能力進(jìn)行嚴(yán)格評(píng)估。

    • 主要任務(wù)是Object-Goal(Chaplot et al., 2020)和Instance-Image-Goal Navigation(Krantz et al., 2022)。

  • 評(píng)估指標(biāo)

    • 成功率(SR):衡量成功劇集的比例。

    • 路徑長度加權(quán)成功率(SPL):根據(jù)實(shí)際路徑與最優(yōu)路徑長度的比值對(duì)每次成功進(jìn)行加權(quán)。

  • 實(shí)現(xiàn)細(xì)節(jié)

    • CompassNav基于開源的Qwen2.5-VL-7B模型構(gòu)建。

    • 使用兩階段SFT-then-RFT訓(xùn)練方案。

    • 具體訓(xùn)練框架、超參數(shù)和硬件配置等詳細(xì)信息見附錄E。

主要結(jié)果
  • 與模塊化導(dǎo)航方法的比較

    • 上表展示了CompassNav與多種先進(jìn)模塊化系統(tǒng)(如Habitat-Web、ESC、L3MVN、InstructNav、PSL、VoroNav、Pixel-Nav、VLFM、GAMap、SG-Nav和UniGoal等)的對(duì)比結(jié)果。

    • CompassNav在HM3D和MP3D驗(yàn)證集上的成功率(SR)和成功率加權(quán)路徑長度(SPL)指標(biāo)均優(yōu)于或接近這些模塊化方法,盡管CompassNav采用的是更簡(jiǎn)單的端到端方法,而模塊化方法通常依賴于復(fù)雜的多階段流程和顯式記憶(如語義地圖、歷史圖像等)。

    • 例如,在HM3Dv2-val驗(yàn)證集上,CompassNav的SR為56.6%,SPL為27.6%,而UniGoal的SR為54.5%,SPL為25.1%。

  • 與端到端LVLM的比較

    • 上表展示了CompassNav與各種開源和專有模型的對(duì)比結(jié)果。

    • CompassNav顯著優(yōu)于其他大型LVLM,如Qwen2-VL-7B、Qwen2.5-VL-3B、LLama3.2-11B等,甚至超過了以強(qiáng)大通用推理能力著稱的GPT-4o和Gemini-2.5-Flash等模型。

    • 例如,在ObjectNav任務(wù)上,CompassNav的SR為61.6%,SPL為27.8%,而GPT-4o的SR為52.4%,SPL為23.5%。

    • 特別地,CompassNav在HM3D-OVON基準(zhǔn)測(cè)試中超越了Nav-R1,盡管Nav-R1使用了更多的訓(xùn)練數(shù)據(jù),并且從3D專用模型開始訓(xùn)練,而CompassNav僅使用了十分之一的訓(xùn)練數(shù)據(jù),并從通用LVLM開始訓(xùn)練,這進(jìn)一步證明了CompassNav框架的有效性。

消融研究
  • SFT的有效性

    • 上表展示了從基礎(chǔ)模型直接開始RFT只能獲得有限的性能提升(SR為23.5%,SPL為6.95%),而經(jīng)過SFT初始化后再進(jìn)行RFT可以顯著提高性能(SR為35.6%,SPL為14.8%),驗(yàn)證了兩階段方法的協(xié)同作用。

    • 此外,僅在SFT階段教授模型輸出導(dǎo)航任務(wù)的動(dòng)作空間實(shí)際上會(huì)降低性能(SR為17.9%,SPL為5.78%),這表明CompassNav框架中完整的SFT過程對(duì)于培養(yǎng)智能體的推理能力至關(guān)重要。

  • 獎(jiǎng)勵(lì)函數(shù)的分析



    • 上圖和上表展示了差距感知混合獎(jiǎng)勵(lì)函數(shù)的優(yōu)越性。

    • 與二進(jìn)制獎(jiǎng)勵(lì)和線性歸一化最小-最大獎(jiǎng)勵(lì)等常見基線相比,差距感知混合獎(jiǎng)勵(lì)函數(shù)在不同導(dǎo)航場(chǎng)景下表現(xiàn)出更好的性能,能夠?yàn)橹悄荏w提供更有意義的學(xué)習(xí)信號(hào),促進(jìn)其泛化能力。

    • 例如,在高確定性情況下,差距感知混合獎(jiǎng)勵(lì)函數(shù)能夠?yàn)樽顑?yōu)動(dòng)作和次優(yōu)動(dòng)作之間創(chuàng)建較大的獎(jiǎng)勵(lì)差距(如1.00與0.12),而在低確定性情況下,它能夠?yàn)榻咏膭?dòng)作分配類似的非極端分?jǐn)?shù),鼓勵(lì)探索而不是任意懲罰可行的選擇。

    • 此外,訓(xùn)練動(dòng)態(tài)曲線表明,盡管二進(jìn)制和最小-最大獎(jiǎng)勵(lì)模型在訓(xùn)練過程中能夠獲得較高的分?jǐn)?shù),但這僅僅是因?yàn)樗鼈冊(cè)谀7聠我蛔罴褎?dòng)作方面表現(xiàn)出色,而差距感知混合獎(jiǎng)勵(lì)函數(shù)雖然在絕對(duì)分?jǐn)?shù)上較低,但它教會(huì)了模型評(píng)估所有選項(xiàng),從而培養(yǎng)了更通用的推理能力。

結(jié)論與未來工作
  • 結(jié)論

    • CompassNav框架通過從路徑模仿轉(zhuǎn)向決策理解,成功地將一個(gè)7B參數(shù)的LVLM轉(zhuǎn)變?yōu)榫哂行伦罡咚綄?dǎo)航能力的專家智能體。

    • 該框架不僅在模擬環(huán)境中超越了更大的專有模型,還在真實(shí)世界的部署中表現(xiàn)出了穩(wěn)健的性能,為未來低成本、智能的具身智能體研究鋪平了道路。

  • 未來工作

    • 進(jìn)一步優(yōu)化數(shù)據(jù)生成管道以提高效率和數(shù)據(jù)質(zhì)量;探索更復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),以更好地捕捉導(dǎo)航任務(wù)中的各種因素。

    • 研究如何將外部記憶模塊與框架更有效地集成,以增強(qiáng)智能體的長期規(guī)劃和記憶能力等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
裝逼撞到你擅長的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過這種事呀

裝逼撞到你擅長的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過這種事呀

夜深愛雜談
2025-12-21 17:57:28
又一百年巨頭塌了!從技術(shù)神話到貼牌代工,網(wǎng)友:買了個(gè)牌子殼!

又一百年巨頭塌了!從技術(shù)神話到貼牌代工,網(wǎng)友:買了個(gè)牌子殼!

青眼財(cái)經(jīng)
2025-11-18 23:16:47
定居美國13年回國撈金遭驅(qū)逐,52歲被笑話

定居美國13年回國撈金遭驅(qū)逐,52歲被笑話

白日追夢(mèng)人
2025-12-24 04:30:11
宗慶后被曝有7子,看了宗馥莉?yàn)樗⒌哪贡?,才知道她早就布局?>
    </a>
        <h3>
      <a href=麥大人
2025-07-18 12:05:16
紫牛頭條|下班遭車禍,接受公司賠償后他發(fā)現(xiàn)一份意外險(xiǎn)保單被公司隱瞞

紫牛頭條|下班遭車禍,接受公司賠償后他發(fā)現(xiàn)一份意外險(xiǎn)保單被公司隱瞞

揚(yáng)子晚報(bào)
2025-12-23 09:06:09
南京博物院又揭大瓜,前文物局局長曾問:賣幾個(gè)兵馬俑行不行?

南京博物院又揭大瓜,前文物局局長曾問:賣幾個(gè)兵馬俑行不行?

攬星河的筆記
2025-12-22 18:12:17
突發(fā)!法拉利撞上護(hù)欄后迅速起火,知名游戲大佬被困車內(nèi)身亡,警方通報(bào)!他被譽(yù)為“《使命召喚》之父”,眾多同行與玩家哀悼

突發(fā)!法拉利撞上護(hù)欄后迅速起火,知名游戲大佬被困車內(nèi)身亡,警方通報(bào)!他被譽(yù)為“《使命召喚》之父”,眾多同行與玩家哀悼

每日經(jīng)濟(jì)新聞
2025-12-23 15:06:07
受中國004核航母刺激太大,法國掀桌子了,砸鍋賣鐵也要建新航母

受中國004核航母刺激太大,法國掀桌子了,砸鍋賣鐵也要建新航母

云舟史策
2025-12-24 07:22:16
CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

弄月公子
2025-12-23 23:10:43
錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

古事尋蹤記
2025-12-20 07:13:47
南京博物院盜賣文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國寶還有多少黑幕

南京博物院盜賣文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國寶還有多少黑幕

爆角追蹤
2025-12-18 15:36:33
他用藥7年換來肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

他用藥7年換來肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

健身迷
2025-12-22 10:19:04
轉(zhuǎn)告父母:這6種病屬于老年病,過度治療反而傷身,安然接受

轉(zhuǎn)告父母:這6種病屬于老年病,過度治療反而傷身,安然接受

讀懂世界歷史
2025-12-23 20:31:37
卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

以茶帶書
2025-12-09 23:33:58
向大陸交底、對(duì)內(nèi)攤牌,鄭麗文把最怕被說破的那層窗戶紙,捅穿了

向大陸交底、對(duì)內(nèi)攤牌,鄭麗文把最怕被說破的那層窗戶紙,捅穿了

科普100克克
2025-12-24 00:10:32
哈佛大學(xué)研究:活過90歲的人29項(xiàng)共同特征

哈佛大學(xué)研究:活過90歲的人29項(xiàng)共同特征

尚曦讀史
2025-12-06 08:27:08
廣東5連勝,杜鋒:在廣東打球是幸福的!

廣東5連勝,杜鋒:在廣東打球是幸福的!

帶你領(lǐng)略快樂真諦
2025-12-24 02:50:13
黃金狂飆,一種交易正在悄悄進(jìn)行

黃金狂飆,一種交易正在悄悄進(jìn)行

鳳凰網(wǎng)財(cái)經(jīng)
2025-12-23 09:08:05
美國外交開始大洗牌

美國外交開始大洗牌

陸棄
2025-12-23 08:25:03
肥腸再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會(huì)出現(xiàn)6大變化

肥腸再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會(huì)出現(xiàn)6大變化

看世界的人
2025-12-04 10:51:31
2025-12-24 08:47:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5276文章數(shù) 64597關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強(qiáng)黑產(chǎn)攻擊

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

體育要聞

楊瀚森連續(xù)5場(chǎng)DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應(yīng)阿信感謝,自曝沒再收到邀約

財(cái)經(jīng)要聞

快手到底惹了誰?

汽車要聞

四款新車集中發(fā)布 星途正式走進(jìn)3.0時(shí)代

態(tài)度原創(chuàng)

本地
時(shí)尚
教育
旅游
公開課

本地新聞

云游安徽|宣城何以動(dòng)人心,百年塔影一城徽韻

歲月不敗美人,50歲銀發(fā)的她們也太會(huì)穿了

教育要聞

揭秘!淮南師范學(xué)院數(shù)學(xué)專業(yè)代碼一鍵鎖定

旅游要聞

這趟俄羅斯之行,感覺很割裂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版