網易首頁 > 網易號 > 正文申請入駐

具身導航觀行并進！S2E：強化學習助力導航基礎模型突破

2025-10-28 22:01:36　來源: 算法與數學之美

北京舉報

分享至

作者：Honglin He, Yukai Ma, Wayne Wu, Bolei Zhou
單位：加利福尼亞大學洛杉磯分校
論文標題：From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning
論文鏈接：https://arxiv.org/pdf/2507.22028
項目主頁：https://metadriverse.github.io/s2e/
代碼鏈接：https://github.com/metadriverse/S2E

主要貢獻

提出 Seeing-to-Experiencing （S2E）學習框架，將離線視頻預訓練和模擬環(huán)境中的強化學習相結合，既保持了模型從大規(guī)模真實世界視頻中獲得的泛化能力，又通過強化學習增強了模型的交互性。
引入 錨點引導分布匹配 （Anchor-Guided Distribution Matching，AGDM）策略用于離線預訓練，通過基于錨點的監(jiān)督穩(wěn)定學習并建模多樣化的運動模式。
提出 殘差注意力模塊 （Residual-Attention Module，RAM）用于強化學習階段，在模擬環(huán)境中獲得反應性行為的同時，保留模型的預訓練知識。
建立基于真實世界場景的光柵化三維高斯濺射重建的 NavBench-GS 綜合端到端評估基準，能夠系統(tǒng)評估導航基礎模型的泛化性和安全性。
通過 大量實驗 表明，S2E框架能夠顯著提升模型性能，緩解僅使用離線數據擴展時的收益遞減問題，并且在真實世界的不同機器人平臺上實現了零樣本泛化。

研究背景

導航基礎模型在大規(guī)模網絡規(guī)模數據上進行訓練，能夠使智能體在多樣化環(huán)境中泛化，但僅基于離線數據訓練的模型在現實世界城市導航中面臨局限性，如缺乏對行為后果的推理能力和通過反事實理解進行適應的能力，難以應對動態(tài)環(huán)境中的障礙物和行人等交互性和安全性要求高的任務。
以往的導航基礎模型研究主要依賴大規(guī)模網絡視頻和人類演示進行預訓練，但這些方法存在一些問題，如缺乏物理和因果關系的明確信息，導致模型在真實世界中的適應性和反應性有限。

S2E 學習框架框架概述

S2E（Seeing-to-Experiencing）學習框架旨在通過結合離線視頻預訓練和模擬環(huán)境中的強化學習，訓練出既具有泛化能力又具備交互性的導航基礎模型。該框架的核心目標是學習一個視覺導航策略π，使機器人能夠從起點ps導航到目標點pd。具體來說，S2E框架包含兩個關鍵部分：

離線預訓練 ：通過錨點引導分布匹配（Anchor-Guided Distribution Matching，AGDM）策略對真實世界視頻數據進行預訓練，以學習復雜的多模態(tài)分布并穩(wěn)定學習過程。
強化學習后訓練 ：通過殘差注意力模塊（Residual-Attention Module，RAM）在模擬環(huán)境中進行強化學習，以增強模型的交互性并保留預訓練知識。

錨點引導分布匹配預訓練

機器人導航軌跡具有多模態(tài)性，即在相同的觀察條件下，可能存在多個有效的動作。有效建模這種多模態(tài)性對于泛化策略至關重要。然而，常見的表示方法（如離散動作或單模態(tài)高斯分布）缺乏表達能力，而擴散模型雖然表達能力強，但過于靈活，難以控制，可能導致不安全的軌跡。

方法介紹 ：
- 提出了一種錨點引導的高斯混合模型（GMM）來表示機器人動作。具體來說，通過在機器人的前進方向上均勻采樣生成多個錨點，每個錨點對應GMM中的一個高斯模式。
- 這些錨點作為可解釋的高級意圖，模型通過學習這些錨點的分數來反映每個意圖點被選為引導模式的概率。通過這種方式，模型能夠在保持結構化的同時，生成多樣化且目標一致的行為。
模型架構 ：
- 模型接收連續(xù)的RGB幀和目標位置作為上下文信息，并使用預定義的與具體體現無關的錨點作為查詢進行預測。首先，通過自注意力模塊整合上下文嵌入，生成鍵（K）和值（V）。同時，錨點特征fP作為查詢（Q）。
- 隨后，RAM塊根據錨點查詢Q計算加權特征，并生成細化的錨點特征。最終，通過分類頭和回歸頭解碼錨點特征，預測分數和歸一化的軌跡以及速度尺度。
訓練過程 ：
- 模型采用端到端的訓練方式，使用兩種訓練損失。第一種是負對數似然（NLL）損失，用于監(jiān)督分類頭和軌跡頭。
- 通過選擇與真實軌跡方向最一致的模式進行優(yōu)化。第二種是L2回歸損失，用于優(yōu)化速度尺度。

殘差注意力強化學習

如果直接對整個模型參數進行強化學習微調，可能會導致模型對模擬數據過度擬合，從而在真實世界數據上表現不佳。特別是對于視覺編碼器等對領域變化敏感的組件，這種分布偏移可能會顯著降低性能。

方法介紹 ：
- RAM模塊通過復制預訓練的交叉注意力層，并在復制的層上進行微調，同時保持原始模塊凍結。
- 這種設計通過在復制的模塊周圍添加兩個零初始化的線性層，確保在初始化時，添加的適應分支對原始模型輸出沒有影響，但在微調過程中可以平滑地進行適應。

訓練過程 ：
- 使用PPO算法進行訓練，定義了綜合的獎勵函數，包括速度方向獎勵、位移懲罰、到達目標獎勵和碰撞懲罰。
- 通過策略梯度調整RAM模塊的參數，使用PPO剪輯目標和熵正則化進行微調。

實驗通過強化學習提升模型性能

研究問題 ：驗證強化學習（RL）是否能在離線預訓練的基礎上進一步提升導航性能。
模型變體 ：
- S2E-BC ：僅使用離線預訓練數據的行為克隆模型。
- S2E-PPO ：從頭開始使用PPO進行強化學習訓練的模型。
- S2E-SFT ：在預訓練后使用監(jiān)督微調（SFT）的模型。
- S2E-Full ：結合預訓練和強化學習微調的完整方法。
數據集 ：使用不同規(guī)模的離線數據進行訓練，評估模型在不同數據規(guī)模下的性能。
實驗結果 ：
- 數據規(guī)模與性能 ：S2E-BC在數據規(guī)模增加到一定程度后，性能提升有限（從100k樣本增加到200k樣本，成功率僅提高3%）。而S2E-PPO通過強化學習在模擬環(huán)境中學習交互性，成功率比預訓練模型提高了21%，且未使用更多離線數據。
- SFT與RL對比 ：在增加訓練成本的情況下，RL保持或提高了成功率，而SFT則出現嚴重的過擬合問題。這表明RL不僅樣本效率更高，而且在增加訓練成本時更具魯棒性。

NavBench-GS 基準測試

基準測試設計 ：
- 測試場景 ：基于光柵化三維高斯濺射重建的真實世界場景，包含26個場景，每個場景包含4種任務：空環(huán)境、有隨機靜態(tài)障礙物的環(huán)境、有移動行人的環(huán)境、有障礙物和行人的環(huán)境。
- 評估指標 ：成功率（SR）、路線完成率（RC）和碰撞次數（CT）。
基線方法 ：
- 圖像目標方法 ：GNM、ViNT、NoMaD。
- 點目標方法 ：CityWalker、MBRA、ViNT*、NoMaD*（*表示使用點作為目標重新訓練的模型）。
實驗結果 ：
- S2E-Full性能 ：S2E-Full在所有測試場景中均優(yōu)于基線方法。與S2E-BC相比，S2E-Full在障礙物場景中的成功率提高了21%，在行人場景中提高了3%，在障礙物-行人場景中提高了17%。這表明強化學習在增強策略的交互能力方面發(fā)揮了關鍵作用。
- 與其他方法對比 ：S2E-Full在成功率和碰撞避免方面均優(yōu)于其他基線方法，證明了S2E框架在復雜環(huán)境中的有效性和魯棒性。

真實世界評估

實驗設置 ：
- 環(huán)境類型 ：空環(huán)境和有靜態(tài)障礙物的環(huán)境。
- 機器人平臺 ：Unitree GO2四足機器人和COCO輪式機器人。
- 測試路線 ：共8條路線，每條路線重復3次。
實驗結果 ：
- S2E-Full在真實世界中展現了優(yōu)越的碰撞規(guī)避能力。在輪式機器人和四足機器人上，S2E-Full在成功率和碰撞避免指標上均取得了最高性能。
- 具體來說，輪式機器人上S2E-Full的成功率為0.42，碰撞次數為0.70；四足機器人上S2E-Full的成功率為0.50，碰撞次數為0.75。
- 這表明通過強化學習在模擬環(huán)境中獲得的交互能力能夠有效地遷移到真實世界中，實現零樣本泛化。

消融研究錨點引導分布匹配的有效性

實驗設置 ：
- 對比方法 ：ViNT*（單模態(tài)匹配）和S2E-BC（錨點引導分布匹配）。
- 測試場景 ：包含障礙物和行人的復雜環(huán)境。
實驗結果 ：
- 性能對比 ：S2E-BC在成功率上比ViNT*提高了33%，碰撞率降低。這表明錨點引導分布匹配能夠顯著提升模型在復雜環(huán)境中的性能，有效捕捉多模態(tài)分布。

殘差注意力模塊的有效性

實驗設置 ：
- 對比方法 ：S2E-SFT（監(jiān)督微調）、S2E-PPO（從頭開始的強化學習）、S2E-FullFT（全參數微調）和S2E-Full（使用RAM的強化學習）。
- 測試場景 ：NavBench-GS中的障礙物環(huán)境。
實驗結果 ：
- 性能對比 ：S2E-Full在成功率和碰撞次數上均優(yōu)于其他方法。具體來說，S2E-Full的成功率為0.76，碰撞次數為0.56，而S2E-SFT的成功率為0.71，碰撞次數為0.77。這表明RAM在有限模塊適應的情況下，能夠有效地提升模型的交互能力，同時保持預訓練知識。

結論與未來工作

結論：
- S2E框架通過結合離線預訓練和強化學習，有效地提升了導航基礎模型在多樣化真實世界環(huán)境中的泛化能力和交互性，能夠在不同的機器人平臺上實現零樣本泛化，為機器人導航領域提供了一種新的、有效的學習方法。
未來工作 ：
- 當前系統(tǒng)缺乏3D感知能力，導致即使S2E-full模型有時也會出現碰撞失敗的情況，未來可以考慮整合深度估計或占用預測任務來推斷3D結構線索。
- 此外，還需要解決由于機器人機械結構導致的問題，如模擬與真實機器人平臺之間的差異所引起的sim-to-real差距，以及運動控制不準確導致的性能下降問題，可以通過實施更高保真度的模擬建模并結合廣泛的數據增強策略來有效緩解這些問題。
- 在未來，還計劃將該框架擴展到其他機器人應用領域，例如移動操作等。

文章來源：視覺語言導航。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.