国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科大自適應(yīng)推理具身導(dǎo)航框架!AdaNav:基于不確定性驅(qū)動自適應(yīng)推理的視覺語言導(dǎo)航

0
分享至

文章來源:視覺語言導(dǎo)航。

  • 作者: Xin Ding , Jianyu Wei , Yifan Yang , Shiqi Jiang , Qianxi Zhang , Hao Wu , Fucheng Jia , Liang Mi , Yuxuan Yan , Weijun Wang , Yunxin Liu , Zhibo Chen , Ting Cao

  • 單位: 中國科學(xué)技術(shù)大學(xué), 微軟研究院, 南京大學(xué), 中南大學(xué), 浙江大學(xué), 清華大學(xué)人工智能產(chǎn)業(yè)研究院

  • 論文標(biāo)題:AdaNav: Adaptive Reasoning with Uncertainty for Vision-Language Navigation

  • 論文鏈接:https://arxiv.org/pdf/2509.24387v1

  • 代碼鏈接:https://github.com/xinding-sys/AdaNav

主要貢獻
  • 提出基于不確定性的自適應(yīng)推理框架了 AdaNav ,通過引入不確定性自適應(yīng)推理塊(UAR Block)和啟發(fā)式到強化學(xué)習(xí)(Heuristic-to-RL)的訓(xùn)練機制,使智能體能夠在導(dǎo)航過程中根據(jù)需要動態(tài)地觸發(fā)推理,解決了固定步長推理導(dǎo)致的性能次優(yōu)和計算開銷問題。

  • 在僅使用 6K訓(xùn)練樣本 的情況下,AdaNav在多個基準(zhǔn)測試中取得了顯著的性能提升,超過了使用百萬級數(shù)據(jù)訓(xùn)練的閉源模型。例如,在R2R val-unseen上成功率提高了20%,在RxR-CE上提高了11.7%,在真實世界場景中提高了11.4%。

  • 該框架使 推理更加困難感知和模式自適應(yīng) ,隨著訓(xùn)練的進行,推理步驟更加集中在困難的軌跡上,且推理模式的選擇也更加合理,同時減少了平均推理步數(shù),提高了效率。

研究背景
  • 視覺語言導(dǎo)航(VLN)要求智能體能夠理解自然語言指令,并將其與連續(xù)的視覺觀察相結(jié)合,以執(zhí)行長期的導(dǎo)航軌跡?,F(xiàn)有的基于視覺語言模型(VLM)的方法存在兩個主要挑戰(zhàn):一致的時間對齊和穩(wěn)健的感知-動作映射。

  • 為了應(yīng)對這些挑戰(zhàn),以往的研究引入了顯式推理,但固定步長的推理不僅計算開銷大,還會導(dǎo)致過度思考,降低導(dǎo)航質(zhì)量。理想的VLN智能體應(yīng)該能夠自適應(yīng)地推理,即根據(jù)需要決定何時以及如何推理,但實現(xiàn)這種自適應(yīng)性并緩解大語言模型(LLM)的過度自信問題通常需要大量的特定任務(wù)數(shù)據(jù)進行監(jiān)督微調(diào),而這些數(shù)據(jù)收集成本高昂。

方法 問題定義 視覺語言導(dǎo)航
  • 環(huán)境與動作空間 :考慮一個標(biāo)準(zhǔn)的VLN設(shè)置,智能體被放置在一個3D環(huán)境 中,具有狀態(tài)空間 和動作空間 ,其中 和 分別表示角度和距離。

  • 任務(wù)目標(biāo) :給定自然語言指令 和連續(xù)的視覺觀察 ,智能體需要執(zhí)行一個軌跡 ,以達到由指令 隱式指定的目標(biāo)狀態(tài) ,目標(biāo)是最大化任務(wù)成功率:

    其中, 是指示函數(shù),表示最終狀態(tài)是否為目標(biāo)狀態(tài)。

自適應(yīng)推理導(dǎo)航
  • 推理模式與內(nèi)容 :為了提高VLN在長期和復(fù)雜環(huán)境中的性能,允許智能體在每一步 進行顯式推理,推理模式變量 ,其中 表示不進行推理, 是預(yù)定義的推理模式集合(如描述、總結(jié)、錯誤糾正)。推理內(nèi)容為 。

  • 聯(lián)合策略 :智能體的策略由兩部分組成:

    1. 導(dǎo)航策略 :根據(jù)導(dǎo)航相關(guān)的歷史信息 、指令 和之前的推理內(nèi)容 決定動作 。

    2. 推理策略 :決定何時進行推理(通過 或 )以及使用哪種推理模式(通過 )。

  • 整體策略 :聯(lián)合策略為:

    其中, 表示完整的導(dǎo)航和推理歷史信息。

  • 優(yōu)化目標(biāo) :通過聯(lián)合優(yōu)化導(dǎo)航和推理策略,目標(biāo)是最大化任務(wù)性能,同時保持計算效率:

    其中, 同時考慮導(dǎo)航成功(如進度或成功指標(biāo))和推理調(diào)用引起的延遲懲罰。

AdaNav的設(shè)計與實現(xiàn) 動機
  • 自適應(yīng)推理需要智能體能夠選擇性地決定何時推理有益以及調(diào)用哪種模式。然而,現(xiàn)有的大語言模型(LLM)對任務(wù)難度不敏感,容易過度自信。

  • 在LLM研究中,通過監(jiān)督微調(diào)引入高質(zhì)量的推理痕跡可以緩解這一問題。但對于具身智能體,收集這樣的高質(zhì)量交互痕跡成本過高。

  • 因此,AdaNav提出了一種替代方法,利用可解釋的不確定性信號動態(tài)觸發(fā)推理,無需依賴大規(guī)模推理監(jiān)督。

不確定性自適應(yīng)推理塊
  • 動作熵作為不確定性度量 :受語言推理中高熵token對單步文本生成影響較大的啟發(fā),定義動作熵 作為不確定性度量:

    其中, 是生成的token數(shù)量, 是詞匯表大小, 是時間步 時詞匯表中第 個token的概率。

  • 動作熵的有效性驗證 :通過診斷研究發(fā)現(xiàn),失敗的軌跡具有高且持續(xù)的動作熵,而成功的軌跡保持較低的動作熵。單獨的即時動作熵不足以預(yù)測失敗,但結(jié)合歷史動作熵趨勢和當(dāng)前動作熵狀態(tài)可以提供更可靠的信號 。

  • UAR Block設(shè)計 :UAR Block結(jié)合歷史動作熵 和當(dāng)前觀察 ,形成推理相關(guān)信息 ,并將其轉(zhuǎn)化為緊湊的控制向量:

    直接參數(shù)化推理模式的logits。從這個向量中,模式選擇策略為:

啟發(fā)式到強化學(xué)習(xí)訓(xùn)練
  • 基于不確定性的先驗 :在冷啟動階段,由于RL策略尚未學(xué)會有意義的模式選擇,因此使用基于不確定性的先驗初始化訓(xùn)練。直觀上,較高的熵表示較高的不確定性,需要更強的推理。計算標(biāo)量熵分?jǐn)?shù)為過去熵的均值 ,并將其映射到包含“無推理”選項的推理模式上的軟先驗分布:

    其中, 是模式特定的熵閾值, 控制先驗的平滑度。

  • 啟發(fā)式到RL的過渡 :為了逐漸從啟發(fā)式先驗轉(zhuǎn)移到學(xué)習(xí)到的RL策略,將先驗分布與模型預(yù)測融合為:

    其中, 從1逐漸衰減到0,允許RL策略 逐漸接管啟發(fā)式先驗 。因此,模式選擇策略可以表示為:

  • 獎勵設(shè)計 :首先定義推理成本為基于相對推理長度的歸一化懲罰:

    其中, 是當(dāng)前步的推理長度, 是成功樣本組中最短的生成長度, 是一個常數(shù)懲罰窗口。

  • 導(dǎo)航目標(biāo)獎勵 :采用基于距離減少的常見外在獎勵,即時獎勵定義為 ,其中 表示從當(dāng)前狀態(tài) 到目標(biāo)位置 的測地線距離。

  • 整體任務(wù)獎勵 :將外在獎勵和推理成本結(jié)合起來,整體任務(wù)獎勵定義為折扣累積回報:

    其中, 是折扣因子,控制未來獎勵的權(quán)重。這種獎勵設(shè)計鼓勵智能體高效地向目標(biāo)導(dǎo)航,同時避免不必要的推理開銷。

實驗 性能提升 實驗設(shè)置
  • 基礎(chǔ)模型 :選擇兩個開源的VLN模型NAVID和NAVILA作為基礎(chǔ)模型,AdaNav被集成到這些模型中。

  • 訓(xùn)練數(shù)據(jù) :從R2R和RxR的訓(xùn)練集中隨機采樣3000個episode進行訓(xùn)練。

  • 硬件配置 :使用4塊NVIDIA RTX A100 GPU進行訓(xùn)練。

  • 基準(zhǔn)測試 :在R2R和RxR的val-unseen分割上評估導(dǎo)航性能,并在ScanQA驗證集上評估空間場景理解能力。

實驗結(jié)果
  • VLN-CE基準(zhǔn)測試 :與使用百萬級數(shù)據(jù)訓(xùn)練的閉源模型相比,AdaNav在僅使用6K訓(xùn)練樣本的情況下,成功率顯著提升。具體來說,在R2R val-unseen上成功率提高了20%,在RxR-CE val-unseen上提高了14.6%。

  • 跨數(shù)據(jù)集評估 :在僅使用R2R數(shù)據(jù)訓(xùn)練的情況下,AdaNav在RxR val-unseen上的零樣本評估中表現(xiàn)優(yōu)異,超過了所有閉源基線模型,展示了強大的泛化能力。

  • 空間場景理解 :在ScanQA驗證集上,AdaNav不僅保持了基礎(chǔ)模型的通用場景理解能力,還略有提升,表明其在推理訓(xùn)練后增強了魯棒性和泛化能力。

  • 真實世界評估 :在真實世界環(huán)境中,使用25個樣本或復(fù)雜指令進行實驗,AdaNav在會議室、家庭和辦公室三種環(huán)境中的成功率顯著提高,平均成功率提升了約11.4%。

UAR Block分析 實驗方法
  • 訓(xùn)練數(shù)據(jù)規(guī)模 :分別使用2K、4K和6K訓(xùn)練數(shù)據(jù)進行訓(xùn)練,觀察UAR Block的行為變化。

  • 推理調(diào)用分析 :統(tǒng)計推理調(diào)用的頻率、分布以及不同推理模式(描述、總結(jié)、錯誤糾正)的使用情況。

  • 任務(wù)難度分類 :根據(jù)基礎(chǔ)模型的成功與否將任務(wù)分為“容易”和“困難”兩類,分析UAR Block在不同難度任務(wù)中的推理觸發(fā)行為。

實驗結(jié)果
  • 推理頻率 :隨著訓(xùn)練數(shù)據(jù)的增加,模型傾向于減少推理調(diào)用的頻率,將推理集中在關(guān)鍵時刻,從而平衡效率和效果。

  • 推理模式選擇 :在后期步驟中,模型更傾向于使用總結(jié)和錯誤糾正模式,顯示出基于任務(wù)上下文的自適應(yīng)模式選擇能力。

  • 任務(wù)難度響應(yīng) :在基礎(chǔ)模型失敗的任務(wù)(即“困難”任務(wù))中,推理調(diào)用的頻率顯著增加,表明UAR Block能夠自適應(yīng)地將推理能力分配給更具挑戰(zhàn)性的場景。

消融研究 組件消融 實驗方法
  • 去除UAR Block :推理以固定步長(例如每5步)或隨機方式觸發(fā),不使用自適應(yīng)控制。

  • 去除啟發(fā)式先驗 :僅依賴強化學(xué)習(xí)從頭開始訓(xùn)練,不使用基于不確定性的啟發(fā)式先驗。

  • 去除強化學(xué)習(xí)微調(diào) :僅使用啟發(fā)式信號指導(dǎo)推理觸發(fā),不進行進一步的策略優(yōu)化。

實驗結(jié)果
  • 去除UAR Block :性能顯著下降,表明自適應(yīng)推理控制對于提升導(dǎo)航性能至關(guān)重要。

  • 去除啟發(fā)式先驗 :訓(xùn)練初期性能較差,說明啟發(fā)式先驗為訓(xùn)練提供了有效的初始引導(dǎo)。

  • 去除強化學(xué)習(xí)微調(diào) :性能不如完整AdaNav,表明強化學(xué)習(xí)微調(diào)能夠進一步優(yōu)化推理策略,提升性能。

超參數(shù)敏感性 實驗方法
  • 關(guān)鍵超參數(shù) :主要分析模式特定的熵閾值 和平滑因子 。

  • 實驗設(shè)置 :分別測試不同的 (如80%、85%、90%)和 值,觀察對性能的影響。

實驗結(jié)果
  • 熵閾值 :較低的 值(如80%)在訓(xùn)練初期提供了更寬松的推理觸發(fā)條件,有助于模型更快地學(xué)習(xí)推理模式。隨著 的增加,模型需要更高的不確定性才會觸發(fā)推理,從而提高了推理的效率。

  • 閾值增量 :適當(dāng)?shù)? 值能夠平衡不同推理模式之間的觸發(fā)條件,使模型能夠根據(jù)任務(wù)難度靈活選擇推理模式。

  • 平滑因子 :較大的 值使先驗分布更加平滑,有助于模型在不同推理模式之間平滑過渡,但過大的 可能導(dǎo)致模型對不確定性信號不夠敏感。

結(jié)論與未來工作
  • 結(jié)論

    • AdaNav通過結(jié)合可解釋的啟發(fā)式先驗和最優(yōu)的強化學(xué)習(xí),提供了一種可擴展的、自適應(yīng)的推理方法,無需依賴昂貴的標(biāo)記推理數(shù)據(jù),即可在具身任務(wù)中實現(xiàn)高效的、困難感知的和模式自適應(yīng)的推理。

    • 該方法在多個基準(zhǔn)測試和真實世界部署中都表現(xiàn)出色,為具身智能體的推理能力提升提供了一個有前景的方向。

  • 未來工作

    • 可以進一步探索如何在更復(fù)雜的環(huán)境和任務(wù)中應(yīng)用和優(yōu)化AdaNav,例如在多智能體交互場景中實現(xiàn)自適應(yīng)推理,或者將該框架擴展到其他需要推理的具身任務(wù)中。

    • 此外,還可以研究如何進一步提高推理的效率和準(zhǔn)確性,以及如何更好地利用有限的數(shù)據(jù)來訓(xùn)練更強大的推理模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
裝逼撞到你擅長的領(lǐng)域是啥體驗?網(wǎng)友:我曾經(jīng)也干過這種事呀

裝逼撞到你擅長的領(lǐng)域是啥體驗?網(wǎng)友:我曾經(jīng)也干過這種事呀

夜深愛雜談
2025-12-21 17:57:28
又一百年巨頭塌了!從技術(shù)神話到貼牌代工,網(wǎng)友:買了個牌子殼!

又一百年巨頭塌了!從技術(shù)神話到貼牌代工,網(wǎng)友:買了個牌子殼!

青眼財經(jīng)
2025-11-18 23:16:47
定居美國13年回國撈金遭驅(qū)逐,52歲被笑話

定居美國13年回國撈金遭驅(qū)逐,52歲被笑話

白日追夢人
2025-12-24 04:30:11
宗慶后被曝有7子,看了宗馥莉為他立的墓碑,才知道她早就布局了

宗慶后被曝有7子,看了宗馥莉為他立的墓碑,才知道她早就布局了

麥大人
2025-07-18 12:05:16
紫牛頭條|下班遭車禍,接受公司賠償后他發(fā)現(xiàn)一份意外險保單被公司隱瞞

紫牛頭條|下班遭車禍,接受公司賠償后他發(fā)現(xiàn)一份意外險保單被公司隱瞞

揚子晚報
2025-12-23 09:06:09
南京博物院又揭大瓜,前文物局局長曾問:賣幾個兵馬俑行不行?

南京博物院又揭大瓜,前文物局局長曾問:賣幾個兵馬俑行不行?

攬星河的筆記
2025-12-22 18:12:17
突發(fā)!法拉利撞上護欄后迅速起火,知名游戲大佬被困車內(nèi)身亡,警方通報!他被譽為“《使命召喚》之父”,眾多同行與玩家哀悼

突發(fā)!法拉利撞上護欄后迅速起火,知名游戲大佬被困車內(nèi)身亡,警方通報!他被譽為“《使命召喚》之父”,眾多同行與玩家哀悼

每日經(jīng)濟新聞
2025-12-23 15:06:07
受中國004核航母刺激太大,法國掀桌子了,砸鍋賣鐵也要建新航母

受中國004核航母刺激太大,法國掀桌子了,砸鍋賣鐵也要建新航母

云舟史策
2025-12-24 07:22:16
CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

弄月公子
2025-12-23 23:10:43
錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

古事尋蹤記
2025-12-20 07:13:47
南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國寶還有多少黑幕

南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國寶還有多少黑幕

爆角追蹤
2025-12-18 15:36:33
他用藥7年換來肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

他用藥7年換來肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

健身迷
2025-12-22 10:19:04
轉(zhuǎn)告父母:這6種病屬于老年病,過度治療反而傷身,安然接受

轉(zhuǎn)告父母:這6種病屬于老年病,過度治療反而傷身,安然接受

讀懂世界歷史
2025-12-23 20:31:37
卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

以茶帶書
2025-12-09 23:33:58
向大陸交底、對內(nèi)攤牌,鄭麗文把最怕被說破的那層窗戶紙,捅穿了

向大陸交底、對內(nèi)攤牌,鄭麗文把最怕被說破的那層窗戶紙,捅穿了

科普100克克
2025-12-24 00:10:32
哈佛大學(xué)研究:活過90歲的人29項共同特征

哈佛大學(xué)研究:活過90歲的人29項共同特征

尚曦讀史
2025-12-06 08:27:08
廣東5連勝,杜鋒:在廣東打球是幸福的!

廣東5連勝,杜鋒:在廣東打球是幸福的!

帶你領(lǐng)略快樂真諦
2025-12-24 02:50:13
黃金狂飆,一種交易正在悄悄進行

黃金狂飆,一種交易正在悄悄進行

鳳凰網(wǎng)財經(jīng)
2025-12-23 09:08:05
美國外交開始大洗牌

美國外交開始大洗牌

陸棄
2025-12-23 08:25:03
肥腸再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會出現(xiàn)6大變化

肥腸再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會出現(xiàn)6大變化

看世界的人
2025-12-04 10:51:31
2025-12-24 08:47:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5276文章數(shù) 64597關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產(chǎn)攻擊

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應(yīng)阿信感謝,自曝沒再收到邀約

財經(jīng)要聞

快手到底惹了誰?

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

藝術(shù)
家居
健康
公開課
軍事航空

藝術(shù)要聞

毛主席手書《水調(diào)歌頭》,生前最后發(fā)表的詞作曝光。

家居要聞

通透明亮 大氣輕奢風(fēng)

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突關(guān)鍵人物在莫斯科被炸死 烏方尚未公開認(rèn)領(lǐng)

無障礙瀏覽 進入關(guān)懷版