激發(fā)多模態(tài)智能體決策潛力！清華&北大&騰訊聯(lián)合提出GTR訓練框架

2026-03-13 14:09:58　來源: 機器之心Pro

河北舉報

分享至

論文第一作者為魏彤，清華大學在讀博士生，研究方向為大模型智能體和強化學習，導師為清華大學興軍亮、史元春；共同一作為騰訊楊一君；合作者為北京大學盧宗青；通訊作者為葉德珩。

基于可驗證獎勵的強化學習（Reinforcement Learning with Verifiable Reward, RLVR）能夠在大語言模型（LLMs）上有效提升思維鏈（Chain-of-Thought, CoT）決策的能力。然而對于多模態(tài)大模型（VLM）智能體的目標導向的動作推理任務(wù)，強化學習在復雜問題上并不能很好地提升決策能力，甚至會導致思維過程的退化。

來自清華、北大和騰訊的研究團隊深入研究了這一“思維崩塌”（thought collapse）的現(xiàn)象，發(fā)現(xiàn)由于模型訓練的反饋僅依賴于最終動作，RL 訓練無法有效約束 CoT 思維過程，導致 VLM 智能體思維退化，喪失多樣性，并輸出不一致和不完整的思路。

為了對抗思維崩塌，研究團隊提出思維引導的強化學習（Guided Thought Reinforcement, GTR）框架，通過自動化修正器提供過程引導，在 RL 訓練中實時優(yōu)化模型的思路，且無需依賴人類的精細標注。在困難的卡牌游戲和具身智能任務(wù)中，基于 LLaVA-7B 的智能體用很小的規(guī)模實現(xiàn)了相比 SOTA 顯著的成功率提升。

論文標題：GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
論文鏈接：https://arxiv.org/pdf/2503.08525

1.“思維崩塌” 現(xiàn)象影響 RLVR 訓練效果

不像純文本的智能體訓練，由于多模態(tài)信息的引入和決策流程復雜性的提高，在交互性視覺環(huán)境中用 RL 訓練 VLM 智能體更加困難。而其中 “思維崩塌” 的現(xiàn)象則主要體現(xiàn)在以下幾點：

智能體的 CoT 過程失去多樣性，對于不同的視覺和文本輸入給出相同的思路。
模型輸出思路不正確、不一致、不完整，雖在輸出思路，但已喪失思考能力。
思維能力的喪失極大限制了模型的決策能力，難以釋放模型潛力。

實驗中發(fā)現(xiàn)，更大的模型、更長的訓練時間也均展示出思維崩塌的情況。因此，問題的核心原因是強化學習的訓練機制：

環(huán)境提供的獎勵完全由模型最終的動作決定。
比動作輸出更長且更基礎(chǔ)的思維過程缺少評估和監(jiān)督，只能依賴結(jié)果獎勵間接引導。
在動作步驟多、狀態(tài)空間大、復雜程度高的任務(wù)中，這一問題更加顯著。

因此，這證明了 VLM 智能體的強化學習訓練中，過程引導有著至關(guān)重要的作用。

2.GTR 框架如何避免模型 “不懂裝懂”？

此前的相關(guān)工作也對過程引導的方法做出了研究。然而，常見的過程獎勵模型（Process Reward Models, PRMs）需要精細標注的多模態(tài)數(shù)據(jù)訓練，昂貴且費力；且固定數(shù)據(jù)集上的訓練容易產(chǎn)生偏差，不適用于動態(tài)的交互式環(huán)境。

此外，用 VLM 進行打分的 VLM-as-a-judge 方法效果也不佳。這是由于簡單的數(shù)值獎勵難以提供充足的信息量和有效的指導，尤其考慮到大模型更強的 reward hacking 能力。在模型基礎(chǔ)能力較差的情況下，缺少正向激勵也容易導致悲觀探索的問題。

因此，我們需要找到一個足夠簡單、可規(guī)模化且有信息量的思維引導方式。在 GTR 框架中，“修正器模型”（corrector model）承擔了這一至關(guān)重要的角色。

GTR 利用一個外部的 VLM 模型作為修正器，在強化學習的每一步，先對智能體思路中識別和推理的正確性進行評估，如果發(fā)現(xiàn)不正確或者不一致的情況，則利用智能體的狀態(tài)輸入進行修正。通過在常規(guī)的 PPO 過程中加入一個針對思路 token 的 SFT loss，將模型的思路與修正器給出的正確結(jié)果對齊，形成一個“思維 + 動作”、“SFT+PPO” 的聯(lián)合訓練框架。

通過這種方式，強化學習與思維引導互相形成了補充。思維引導為訓練提供了更多的監(jiān)督信號，強化學習也能通過可驗證獎勵的反饋，使得修正過程無需專家級別的外部模型提供高質(zhì)量的參考軌跡，讓智能體能夠突破外部模型的能力天花板。

針對在線訓練樣本偏移的問題，GTR 引入了 DAgger 策略緩解錯誤累積�？蚣苓€通過為智能體增加格式獎勵和重復懲罰、為修正器模型提供工具調(diào)用彌補專業(yè)知識等方法，進一步提升了數(shù)據(jù)質(zhì)量。

GTR 訓練過程的偽代碼如下：

3.GTR 的實驗效果

論文在 gym_cards 和 ALFWorld 兩個常用的 VLM 智能體測試任務(wù)上進行了實驗評估。智能體基于 LLaVA-7B，使用 GPT-4o 作為修正器訓練。以僅包含強化學習的 RL4VLM 和僅包含思路引導的方法（SFT-only）作為基線進行比較。

在 gym_cards 中最困難的 24 點紙牌游戲中，GTR 在 15k 的訓練步數(shù)內(nèi)達到了最高 17.5% 的成功率，大幅超過了兩個基線方法（2.5%、11.0%），甚至突破了 GPT-4o，即其修正器模型的水平（13.5%）。

而在更簡單的、思維崩塌現(xiàn)象不顯著的另外三個游戲中，GTR 相比于 RL4VLM 也能取得突破，并達到10 倍其規(guī)模的預訓練模型的能力水平。

對于家用機器人場景的具身智能任務(wù) ALFWorld，為了模擬真實環(huán)境，同時避免模型利用額外文本信息繞開多模態(tài)決策，實驗中去掉了環(huán)境提供的文本觀察，模型僅能依賴視覺信息進行決策。GTR 比起 RL4VLM 能夠有效避免思維崩塌帶來的性能下降，提升模型決策能力。

消融實驗研究則證明了訓練全過程思維引導的重要性、工具調(diào)用提升修正器專業(yè)知識的必要性和 DAgger 緩解在線訓練分布偏移的有效性。同時指出，采用完整輸出的 SFT 會限制 RL 的反饋，并使訓練容易受到修正器幻覺的影響。

4. 研究意義與展望

本項研究揭示了多模態(tài)大模型智能體強化學習訓練中，思維崩塌現(xiàn)象對訓練穩(wěn)定性和性能提升的限制。而通過修正器模型進行思路修改，GTR 在無需數(shù)據(jù)標注的條件下實現(xiàn)了實時自動化的思維過程監(jiān)督，使過程引導與強化學習有機結(jié)合，互為補充，展現(xiàn)出強大的性能優(yōu)勢。

這一創(chuàng)新性的分析和解決方案也能夠為復雜長時任務(wù)中大模型智能體的訓練提供更多的啟發(fā)和可能性。

更多細節(jié)請見原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.