国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

具身導航觀行并進!S2E:強化學習助力導航基礎模型突破

0
分享至

  • 作者:Honglin He, Yukai Ma, Wayne Wu, Bolei Zhou

  • 單位:加利福尼亞大學洛杉磯分校

  • 論文標題:From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning

  • 論文鏈接:https://arxiv.org/pdf/2507.22028

  • 項目主頁:https://metadriverse.github.io/s2e/

  • 代碼鏈接:https://github.com/metadriverse/S2E

主要貢獻
  • 提出 Seeing-to-Experiencing (S2E)學習框架,將離線視頻預訓練和模擬環(huán)境中的強化學習相結合,既保持了模型從大規(guī)模真實世界視頻中獲得的泛化能力,又通過強化學習增強了模型的交互性。

  • 引入 錨點引導分布匹配 (Anchor-Guided Distribution Matching,AGDM)策略用于離線預訓練,通過基于錨點的監(jiān)督穩(wěn)定學習并建模多樣化的運動模式。

  • 提出 殘差注意力模塊 (Residual-Attention Module,RAM)用于強化學習階段,在模擬環(huán)境中獲得反應性行為的同時,保留模型的預訓練知識。

  • 建立基于真實世界場景的光柵化三維高斯濺射重建的 NavBench-GS 綜合端到端評估基準,能夠系統(tǒng)評估導航基礎模型的泛化性和安全性。

  • 通過 大量實驗 表明,S2E框架能夠顯著提升模型性能,緩解僅使用離線數據擴展時的收益遞減問題,并且在真實世界的不同機器人平臺上實現了零樣本泛化。

研究背景
  • 導航基礎模型在大規(guī)模網絡規(guī)模數據上進行訓練,能夠使智能體在多樣化環(huán)境中泛化,但僅基于離線數據訓練的模型在現實世界城市導航中面臨局限性,如缺乏對行為后果的推理能力和通過反事實理解進行適應的能力,難以應對動態(tài)環(huán)境中的障礙物和行人等交互性和安全性要求高的任務。

  • 以往的導航基礎模型研究主要依賴大規(guī)模網絡視頻和人類演示進行預訓練,但這些方法存在一些問題,如缺乏物理和因果關系的明確信息,導致模型在真實世界中的適應性和反應性有限。

S2E 學習框架 框架概述

S2E(Seeing-to-Experiencing)學習框架旨在通過結合離線視頻預訓練和模擬環(huán)境中的強化學習,訓練出既具有泛化能力又具備交互性的導航基礎模型。該框架的核心目標是學習一個視覺導航策略π,使機器人能夠從起點ps導航到目標點pd。具體來說,S2E框架包含兩個關鍵部分:

  • 離線預訓練 :通過錨點引導分布匹配(Anchor-Guided Distribution Matching,AGDM)策略對真實世界視頻數據進行預訓練,以學習復雜的多模態(tài)分布并穩(wěn)定學習過程。

  • 強化學習后訓練 :通過殘差注意力模塊(Residual-Attention Module,RAM)在模擬環(huán)境中進行強化學習,以增強模型的交互性并保留預訓練知識。

錨點引導分布匹配預訓練

機器人導航軌跡具有多模態(tài)性,即在相同的觀察條件下,可能存在多個有效的動作。有效建模這種多模態(tài)性對于泛化策略至關重要。然而,常見的表示方法(如離散動作或單模態(tài)高斯分布)缺乏表達能力,而擴散模型雖然表達能力強,但過于靈活,難以控制,可能導致不安全的軌跡。



  • 方法介紹

    • 提出了一種錨點引導的高斯混合模型(GMM)來表示機器人動作。具體來說,通過在機器人的前進方向上均勻采樣生成多個錨點,每個錨點對應GMM中的一個高斯模式。

    • 這些錨點作為可解釋的高級意圖,模型通過學習這些錨點的分數來反映每個意圖點被選為引導模式的概率。通過這種方式,模型能夠在保持結構化的同時,生成多樣化且目標一致的行為。

  • 模型架構

    • 模型接收連續(xù)的RGB幀和目標位置作為上下文信息,并使用預定義的與具體體現無關的錨點作為查詢進行預測。首先,通過自注意力模塊整合上下文嵌入,生成鍵(K)和值(V)。同時,錨點特征fP作為查詢(Q)。

    • 隨后,RAM塊根據錨點查詢Q計算加權特征,并生成細化的錨點特征。最終,通過分類頭和回歸頭解碼錨點特征,預測分數和歸一化的軌跡以及速度尺度。

  • 訓練過程

    • 模型采用端到端的訓練方式,使用兩種訓練損失。第一種是負對數似然(NLL)損失,用于監(jiān)督分類頭和軌跡頭。

    • 通過選擇與真實軌跡方向最一致的模式進行優(yōu)化。第二種是L2回歸損失,用于優(yōu)化速度尺度。

殘差注意力強化學習

如果直接對整個模型參數進行強化學習微調,可能會導致模型對模擬數據過度擬合,從而在真實世界數據上表現不佳。特別是對于視覺編碼器等對領域變化敏感的組件,這種分布偏移可能會顯著降低性能。



  • 方法介紹

    • RAM模塊通過復制預訓練的交叉注意力層,并在復制的層上進行微調,同時保持原始模塊凍結。

    • 這種設計通過在復制的模塊周圍添加兩個零初始化的線性層,確保在初始化時,添加的適應分支對原始模型輸出沒有影響,但在微調過程中可以平滑地進行適應。

  • 訓練過程

    • 使用PPO算法進行訓練,定義了綜合的獎勵函數,包括速度方向獎勵、位移懲罰、到達目標獎勵和碰撞懲罰。

    • 通過策略梯度調整RAM模塊的參數,使用PPO剪輯目標和熵正則化進行微調。

實驗 通過強化學習提升模型性能
  • 研究問題 :驗證強化學習(RL)是否能在離線預訓練的基礎上進一步提升導航性能。

  • 模型變體

    • S2E-BC :僅使用離線預訓練數據的行為克隆模型。

    • S2E-PPO :從頭開始使用PPO進行強化學習訓練的模型。

    • S2E-SFT :在預訓練后使用監(jiān)督微調(SFT)的模型。

    • S2E-Full :結合預訓練和強化學習微調的完整方法。

  • 數據集 :使用不同規(guī)模的離線數據進行訓練,評估模型在不同數據規(guī)模下的性能。

  • 實驗結果

    • 數據規(guī)模與性能 :S2E-BC在數據規(guī)模增加到一定程度后,性能提升有限(從100k樣本增加到200k樣本,成功率僅提高3%)。而S2E-PPO通過強化學習在模擬環(huán)境中學習交互性,成功率比預訓練模型提高了21%,且未使用更多離線數據。

    • SFT與RL對比 :在增加訓練成本的情況下,RL保持或提高了成功率,而SFT則出現嚴重的過擬合問題。這表明RL不僅樣本效率更高,而且在增加訓練成本時更具魯棒性。

NavBench-GS 基準測試
  • 基準測試設計

    • 測試場景 :基于光柵化三維高斯濺射重建的真實世界場景,包含26個場景,每個場景包含4種任務:空環(huán)境、有隨機靜態(tài)障礙物的環(huán)境、有移動行人的環(huán)境、有障礙物和行人的環(huán)境。

    • 評估指標 :成功率(SR)、路線完成率(RC)和碰撞次數(CT)。

  • 基線方法

    • 圖像目標方法 :GNM、ViNT、NoMaD。

    • 點目標方法 :CityWalker、MBRA、ViNT*、NoMaD*(*表示使用點作為目標重新訓練的模型)。

  • 實驗結果

    • S2E-Full性能 :S2E-Full在所有測試場景中均優(yōu)于基線方法。與S2E-BC相比,S2E-Full在障礙物場景中的成功率提高了21%,在行人場景中提高了3%,在障礙物-行人場景中提高了17%。這表明強化學習在增強策略的交互能力方面發(fā)揮了關鍵作用。

    • 與其他方法對比 :S2E-Full在成功率和碰撞避免方面均優(yōu)于其他基線方法,證明了S2E框架在復雜環(huán)境中的有效性和魯棒性。

真實世界評估
  • 實驗設置

    • 環(huán)境類型 :空環(huán)境和有靜態(tài)障礙物的環(huán)境。

    • 機器人平臺 :Unitree GO2四足機器人和COCO輪式機器人。

    • 測試路線 :共8條路線,每條路線重復3次。

  • 實驗結果


    • S2E-Full在真實世界中展現了優(yōu)越的碰撞規(guī)避能力。在輪式機器人和四足機器人上,S2E-Full在成功率和碰撞避免指標上均取得了最高性能。

    • 具體來說,輪式機器人上S2E-Full的成功率為0.42,碰撞次數為0.70;四足機器人上S2E-Full的成功率為0.50,碰撞次數為0.75。

    • 這表明通過強化學習在模擬環(huán)境中獲得的交互能力能夠有效地遷移到真實世界中,實現零樣本泛化。

消融研究 錨點引導分布匹配的有效性
  • 實驗設置

    • 對比方法 :ViNT*(單模態(tài)匹配)和S2E-BC(錨點引導分布匹配)。

    • 測試場景 :包含障礙物和行人的復雜環(huán)境。

  • 實驗結果

    • 性能對比 :S2E-BC在成功率上比ViNT*提高了33%,碰撞率降低。這表明錨點引導分布匹配能夠顯著提升模型在復雜環(huán)境中的性能,有效捕捉多模態(tài)分布。

殘差注意力模塊的有效性
  • 實驗設置

    • 對比方法 :S2E-SFT(監(jiān)督微調)、S2E-PPO(從頭開始的強化學習)、S2E-FullFT(全參數微調)和S2E-Full(使用RAM的強化學習)。

    • 測試場景 :NavBench-GS中的障礙物環(huán)境。

  • 實驗結果

    • 性能對比 :S2E-Full在成功率和碰撞次數上均優(yōu)于其他方法。具體來說,S2E-Full的成功率為0.76,碰撞次數為0.56,而S2E-SFT的成功率為0.71,碰撞次數為0.77。這表明RAM在有限模塊適應的情況下,能夠有效地提升模型的交互能力,同時保持預訓練知識。

結論與未來工作
  • 結論

    • S2E框架通過結合離線預訓練和強化學習,有效地提升了導航基礎模型在多樣化真實世界環(huán)境中的泛化能力和交互性,能夠在不同的機器人平臺上實現零樣本泛化,為機器人導航領域提供了一種新的、有效的學習方法。

  • 未來工作

    • 當前系統(tǒng)缺乏3D感知能力,導致即使S2E-full模型有時也會出現碰撞失敗的情況,未來可以考慮整合深度估計或占用預測任務來推斷3D結構線索。

    • 此外,還需要解決由于機器人機械結構導致的問題,如模擬與真實機器人平臺之間的差異所引起的sim-to-real差距,以及運動控制不準確導致的性能下降問題,可以通過實施更高保真度的模擬建模并結合廣泛的數據增強策略來有效緩解這些問題。

    • 在未來,還計劃將該框架擴展到其他機器人應用領域,例如移動操作等。

文章來源:視覺語言導航。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“小洛熙”事件最新進展:浙江省委省政府高度重視!醫(yī)療事故鑒定已啟動,醫(yī)療訴訟進入司法程序

“小洛熙”事件最新進展:浙江省委省政府高度重視!醫(yī)療事故鑒定已啟動,醫(yī)療訴訟進入司法程序

縱相新聞
2025-12-23 22:19:19
中央巡視期間落馬,湖北省政協(xié)機關辦公廳原主任何文被“雙開”

中央巡視期間落馬,湖北省政協(xié)機關辦公廳原主任何文被“雙開”

中國青年報
2025-12-23 23:02:06
當“硅膠臉”混進央視劇,美顏被打回原型,郭京飛再強也帶不動!

當“硅膠臉”混進央視劇,美顏被打回原型,郭京飛再強也帶不動!

點燃好奇心
2025-12-24 03:36:41
戰(zhàn)友聚會AA制每人交3500元,因兒子高燒39度會沒去成,次日民警上門

戰(zhàn)友聚會AA制每人交3500元,因兒子高燒39度會沒去成,次日民警上門

罪案洞察者
2025-12-16 14:42:51
張?zhí)m一家過冬至!汪小菲滿臉煩躁太尷尬,馬筱梅去臺北產子選對了

張?zhí)m一家過冬至!汪小菲滿臉煩躁太尷尬,馬筱梅去臺北產子選對了

心靜物娛
2025-12-23 09:59:47
叛變的紅軍師長方步舟,1949年率800余國軍起義,最后結局怎樣

叛變的紅軍師長方步舟,1949年率800余國軍起義,最后結局怎樣

抽象派大師
2025-12-24 01:51:37
江蘇一工廠趕單急,孫某為了600元獎勵主動扛下連續(xù)24小時雙機床

江蘇一工廠趕單急,孫某為了600元獎勵主動扛下連續(xù)24小時雙機床

搗蛋窩
2025-12-24 02:51:13
履新昆明軍區(qū)政委的劉志堅,上任后當即找到王必成,鄭重說道:“鄧公交給我的三道密令,我已帶到”

履新昆明軍區(qū)政委的劉志堅,上任后當即找到王必成,鄭重說道:“鄧公交給我的三道密令,我已帶到”

史海殘云
2025-12-23 11:33:22
妻子3人被發(fā)小殺害新進展:刀被砍斷后,又用包上繩子將三人勒死

妻子3人被發(fā)小殺害新進展:刀被砍斷后,又用包上繩子將三人勒死

江山揮筆
2025-12-23 17:51:09
愛潑斯坦惡魔島受害人照片公開!權貴左攬右抱留親密合影,網友嘲:卷卷有你名!

愛潑斯坦惡魔島受害人照片公開!權貴左攬右抱留親密合影,網友嘲:卷卷有你名!

英國報姐
2025-12-23 21:49:46
錢小豪“毀滅史”,他的故事比你想得更惡劣

錢小豪“毀滅史”,他的故事比你想得更惡劣

比利
2025-12-21 11:26:52
今晚,見證歷史了

今晚,見證歷史了

中國基金報
2025-12-24 00:11:07
孟子義「摔出神圖」炸網!網贊:畫面美到能跟珍妮弗勞倫斯媲美

孟子義「摔出神圖」炸網!網贊:畫面美到能跟珍妮弗勞倫斯媲美

達達哥
2025-12-22 16:05:27
觀察|俄首次在白俄羅斯部署“榛樹”導彈,對地區(qū)局勢影響有多大?

觀察|俄首次在白俄羅斯部署“榛樹”導彈,對地區(qū)局勢影響有多大?

澎湃新聞
2025-12-24 07:26:32
秦基偉剛任成都軍區(qū)司令,就果斷調動閻紅彥遺孀工作,叮囑:有困難來找我

秦基偉剛任成都軍區(qū)司令,就果斷調動閻紅彥遺孀工作,叮囑:有困難來找我

清風鑒史
2025-12-22 17:11:17
中牟滅門慘案開庭:妻兒三人遇害慘狀曝出,殺人犯曾“做戲”安慰

中牟滅門慘案開庭:妻兒三人遇害慘狀曝出,殺人犯曾“做戲”安慰

胡侃社會百態(tài)
2025-12-23 10:46:05
玩綜藝生龍活虎,打比賽僅2場就受傷,前遼籃核心已淪為玻璃人

玩綜藝生龍活虎,打比賽僅2場就受傷,前遼籃核心已淪為玻璃人

萌蘭聊個球
2025-12-24 09:27:11
巴薩行為什么我們不行?皇馬欲效仿上賽季巴薩,冬歇后實現大逆轉

巴薩行為什么我們不行?皇馬欲效仿上賽季巴薩,冬歇后實現大逆轉

星耀國際足壇
2025-12-23 23:52:13
時隔25年,周總理見到初戀女友張若名時詢問:是否愿意回北京工作

時隔25年,周總理見到初戀女友張若名時詢問:是否愿意回北京工作

歷史龍元閣
2025-12-23 09:30:07
深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產前狀態(tài)差

深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產前狀態(tài)差

草莓解說體育
2025-12-24 01:16:04
2025-12-24 11:36:49
算法與數學之美 incentive-icons
算法與數學之美
分享知識,交流思想
5276文章數 64598關注度
往期回顧 全部

科技要聞

黑產大軍壓境 快手"拔網線"為何慢了兩小時

頭條要聞

愛潑斯坦自殺前給性侵犯寫信:我們總統(tǒng)也喜歡性感少女

頭條要聞

愛潑斯坦自殺前給性侵犯寫信:我們總統(tǒng)也喜歡性感少女

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

曝闞清子女兒早產但沒保住

財經要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內飾官圖發(fā)布

態(tài)度原創(chuàng)

房產
藝術
旅游
數碼
親子

房產要聞

獨家猛料!16.1億,浙江老板搶下雅居樂清水灣261畝重磅宅地!

藝術要聞

砸了20億的恒大“五國溫泉”小鎮(zhèn),如今泡池冷清,別墅荒了?

旅游要聞

新疆溫泉文化旅游節(jié)打造冬日浪漫

數碼要聞

光帆科技全球首款具備視覺感知能力的主動式AI耳機正式發(fā)布

親子要聞

王小騫痛心:11歲女兒減肥致心肌損傷,母女關系緊張

無障礙瀏覽 進入關懷版