国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

激發(fā)多模態(tài)智能體決策潛力!清華&北大&騰訊聯(lián)合提出GTR訓練框架

0
分享至



論文第一作者為魏彤,清華大學在讀博士生,研究方向為大模型智能體和強化學習,導師為清華大學興軍亮、史元春;共同一作為騰訊楊一君;合作者為北京大學盧宗青;通訊作者為葉德珩。

基于可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Reward, RLVR)能夠在大語言模型(LLMs)上有效提升思維鏈(Chain-of-Thought, CoT)決策的能力。然而對于多模態(tài)大模型(VLM)智能體的目標導向的動作推理任務(wù),強化學習在復雜問題上并不能很好地提升決策能力,甚至會導致思維過程的退化。

來自清華、北大和騰訊的研究團隊深入研究了這一“思維崩塌”(thought collapse)的現(xiàn)象,發(fā)現(xiàn)由于模型訓練的反饋僅依賴于最終動作,RL 訓練無法有效約束 CoT 思維過程,導致 VLM 智能體思維退化,喪失多樣性,并輸出不一致和不完整的思路。



為了對抗思維崩塌,研究團隊提出思維引導的強化學習(Guided Thought Reinforcement, GTR)框架,通過自動化修正器提供過程引導,在 RL 訓練中實時優(yōu)化模型的思路,且無需依賴人類的精細標注。在困難的卡牌游戲和具身智能任務(wù)中,基于 LLaVA-7B 的智能體用很小的規(guī)模實現(xiàn)了相比 SOTA 顯著的成功率提升。



  • 論文標題:GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
  • 論文鏈接:https://arxiv.org/pdf/2503.08525

1.“思維崩塌” 現(xiàn)象影響 RLVR 訓練效果

不像純文本的智能體訓練,由于多模態(tài)信息的引入和決策流程復雜性的提高,在交互性視覺環(huán)境中用 RL 訓練 VLM 智能體更加困難。而其中 “思維崩塌” 的現(xiàn)象則主要體現(xiàn)在以下幾點:

  • 智能體的 CoT 過程失去多樣性,對于不同的視覺和文本輸入給出相同的思路。
  • 模型輸出思路不正確、不一致、不完整,雖在輸出思路,但已喪失思考能力。
  • 思維能力的喪失極大限制了模型的決策能力,難以釋放模型潛力。

實驗中發(fā)現(xiàn),更大的模型、更長的訓練時間也均展示出思維崩塌的情況。因此,問題的核心原因是強化學習的訓練機制:

  • 環(huán)境提供的獎勵完全由模型最終的動作決定。
  • 比動作輸出更長且更基礎(chǔ)的思維過程缺少評估和監(jiān)督,只能依賴結(jié)果獎勵間接引導。
  • 在動作步驟多、狀態(tài)空間大、復雜程度高的任務(wù)中,這一問題更加顯著。

因此,這證明了 VLM 智能體的強化學習訓練中,過程引導有著至關(guān)重要的作用。

2.GTR 框架如何避免模型 “不懂裝懂”?

此前的相關(guān)工作也對過程引導的方法做出了研究。然而,常見的過程獎勵模型(Process Reward Models, PRMs)需要精細標注的多模態(tài)數(shù)據(jù)訓練,昂貴且費力;且固定數(shù)據(jù)集上的訓練容易產(chǎn)生偏差,不適用于動態(tài)的交互式環(huán)境。

此外,用 VLM 進行打分的 VLM-as-a-judge 方法效果也不佳。這是由于簡單的數(shù)值獎勵難以提供充足的信息量和有效的指導,尤其考慮到大模型更強的 reward hacking 能力。在模型基礎(chǔ)能力較差的情況下,缺少正向激勵也容易導致悲觀探索的問題。



因此,我們需要找到一個足夠簡單、可規(guī)模化且有信息量的思維引導方式。在 GTR 框架中,“修正器模型”(corrector model)承擔了這一至關(guān)重要的角色。



GTR 利用一個外部的 VLM 模型作為修正器,在強化學習的每一步,先對智能體思路中識別和推理的正確性進行評估,如果發(fā)現(xiàn)不正確或者不一致的情況,則利用智能體的狀態(tài)輸入進行修正。通過在常規(guī)的 PPO 過程中加入一個針對思路 token 的 SFT loss,將模型的思路與修正器給出的正確結(jié)果對齊,形成一個“思維 + 動作”、“SFT+PPO” 的聯(lián)合訓練框架。

通過這種方式,強化學習與思維引導互相形成了補充。思維引導為訓練提供了更多的監(jiān)督信號,強化學習也能通過可驗證獎勵的反饋,使得修正過程無需專家級別的外部模型提供高質(zhì)量的參考軌跡,讓智能體能夠突破外部模型的能力天花板。

針對在線訓練樣本偏移的問題,GTR 引入了 DAgger 策略緩解錯誤累積?蚣苓通過為智能體增加格式獎勵和重復懲罰、為修正器模型提供工具調(diào)用彌補專業(yè)知識等方法,進一步提升了數(shù)據(jù)質(zhì)量。

GTR 訓練過程的偽代碼如下:



3.GTR 的實驗效果


論文在 gym_cards 和 ALFWorld 兩個常用的 VLM 智能體測試任務(wù)上進行了實驗評估。智能體基于 LLaVA-7B,使用 GPT-4o 作為修正器訓練。以僅包含強化學習的 RL4VLM 和僅包含思路引導的方法(SFT-only)作為基線進行比較。

在 gym_cards 中最困難的 24 點紙牌游戲中,GTR 在 15k 的訓練步數(shù)內(nèi)達到了最高 17.5% 的成功率,大幅超過了兩個基線方法(2.5%、11.0%),甚至突破了 GPT-4o,即其修正器模型的水平(13.5%)。



而在更簡單的、思維崩塌現(xiàn)象不顯著的另外三個游戲中,GTR 相比于 RL4VLM 也能取得突破,并達到10 倍其規(guī)模的預訓練模型的能力水平。



對于家用機器人場景的具身智能任務(wù) ALFWorld,為了模擬真實環(huán)境,同時避免模型利用額外文本信息繞開多模態(tài)決策,實驗中去掉了環(huán)境提供的文本觀察,模型僅能依賴視覺信息進行決策。GTR 比起 RL4VLM 能夠有效避免思維崩塌帶來的性能下降,提升模型決策能力。







消融實驗研究則證明了訓練全過程思維引導的重要性、工具調(diào)用提升修正器專業(yè)知識的必要性和 DAgger 緩解在線訓練分布偏移的有效性。同時指出,采用完整輸出的 SFT 會限制 RL 的反饋,并使訓練容易受到修正器幻覺的影響。

4. 研究意義與展望

本項研究揭示了多模態(tài)大模型智能體強化學習訓練中,思維崩塌現(xiàn)象對訓練穩(wěn)定性和性能提升的限制。而通過修正器模型進行思路修改,GTR 在無需數(shù)據(jù)標注的條件下實現(xiàn)了實時自動化的思維過程監(jiān)督,使過程引導與強化學習有機結(jié)合,互為補充,展現(xiàn)出強大的性能優(yōu)勢。

這一創(chuàng)新性的分析和解決方案也能夠為復雜長時任務(wù)中大模型智能體的訓練提供更多的啟發(fā)和可能性。

更多細節(jié)請見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
斯盧茨基:米內(nèi)羅下周開始可以隨隊合練,蓋伊在訓練中受傷

斯盧茨基:米內(nèi)羅下周開始可以隨隊合練,蓋伊在訓練中受傷

懂球帝
2026-03-13 16:46:21
伊朗公布襲擊美軍基地衛(wèi)星圖像

伊朗公布襲擊美軍基地衛(wèi)星圖像

每日經(jīng)濟新聞
2026-03-13 06:46:53
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
聽民意 匯民智|2026年旁聽全國兩會工作多渠道速遞代表委員“好聲音”

聽民意 匯民智|2026年旁聽全國兩會工作多渠道速遞代表委員“好聲音”

新華社
2026-03-12 17:23:00
俄羅斯向聯(lián)合國控訴烏克蘭用導彈襲擊俄軍工廠是“恐怖襲擊”

俄羅斯向聯(lián)合國控訴烏克蘭用導彈襲擊俄軍工廠是“恐怖襲擊”

山河路口
2026-03-11 21:16:21
可愛在線!演技在線!熱播劇《逐玉》里的“寧娘”,是咱南通娃……

可愛在線!演技在線!熱播劇《逐玉》里的“寧娘”,是咱南通娃……

新浪財經(jīng)
2026-03-13 15:53:52
庫爾德人沒反,阿塞拜疆人沒反,胡齊斯坦省的阿拉伯人率先反了

庫爾德人沒反,阿塞拜疆人沒反,胡齊斯坦省的阿拉伯人率先反了

高博新視野
2026-03-12 08:10:13
女子相親帶男閨蜜蹭飯,狂點8000元海鮮,男方逃單失聯(lián),警方介入

女子相親帶男閨蜜蹭飯,狂點8000元海鮮,男方逃單失聯(lián),警方介入

離離言幾許
2026-03-07 15:52:24
48小時內(nèi)雙喜臨門,美媒氣惱中國悶聲撿大便宜

48小時內(nèi)雙喜臨門,美媒氣惱中國悶聲撿大便宜

解鎖世界風云
2026-03-12 10:39:40
突然,大幅下調(diào)!伊朗,發(fā)出重大警告!美國油輪遭襲

突然,大幅下調(diào)!伊朗,發(fā)出重大警告!美國油輪遭襲

數(shù)據(jù)寶
2026-03-13 07:40:51
伊朗繼續(xù)向以色列和中東發(fā)射導彈/無人機,法國士兵遭襲擊身亡

伊朗繼續(xù)向以色列和中東發(fā)射導彈/無人機,法國士兵遭襲擊身亡

山河路口
2026-03-13 16:28:16
向太也沒想到,自己那指望不上的兒子向佐,如今竟把老臉都丟光了

向太也沒想到,自己那指望不上的兒子向佐,如今竟把老臉都丟光了

削桐作琴
2026-03-11 15:09:07
Starz的史詩級黃暴美劇,也要完結(jié)了

Starz的史詩級黃暴美劇,也要完結(jié)了

來看美劇
2026-03-13 15:24:19
全新大眾新車官宣:3月16日,正式發(fā)布

全新大眾新車官宣:3月16日,正式發(fā)布

高科技愛好者
2026-03-12 23:05:45
汪小菲自曝身體出問題!雙眼凸起,不停饑餓,罵張?zhí)m是受病情影響

汪小菲自曝身體出問題!雙眼凸起,不停饑餓,罵張?zhí)m是受病情影響

空樽對月花獨瘦
2026-03-13 06:51:11
無緣美國隊就換隊!布倫森解鎖新國籍,2028奧運成最大變數(shù)

無緣美國隊就換隊!布倫森解鎖新國籍,2028奧運成最大變數(shù)

夜白侃球
2026-03-13 15:39:06
吉利發(fā)布最強磷酸鐵鋰電池,這是要做電池行業(yè)新標桿?

吉利發(fā)布最強磷酸鐵鋰電池,這是要做電池行業(yè)新標桿?

優(yōu)視汽車
2026-03-12 11:34:34
全票通過!委內(nèi)瑞拉歷史性大赦:27年政治恩怨,一朝和解

全票通過!委內(nèi)瑞拉歷史性大赦:27年政治恩怨,一朝和解

老馬拉車莫少裝
2026-02-20 15:13:49
不可錯過!3月13日晚上19:35比賽!中央5套CCTV5、CCTV5+直播表

不可錯過!3月13日晚上19:35比賽!中央5套CCTV5、CCTV5+直播表

皮皮觀天下
2026-03-13 15:21:53
逆市大爆發(fā)!儲能概念再掀漲停潮,中國電建強勢封板

逆市大爆發(fā)!儲能概念再掀漲停潮,中國電建強勢封板

21世紀經(jīng)濟報道
2026-03-13 16:09:20
2026-03-13 17:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12493文章數(shù) 142583關(guān)注度
往期回顧 全部

科技要聞

《后廠村AI派》:帶你玩轉(zhuǎn)OpenClaw龍蝦

頭條要聞

90后女子交給機構(gòu)10萬元相親 匹配5個"A8"都是70后

頭條要聞

90后女子交給機構(gòu)10萬元相親 匹配5個"A8"都是70后

體育要聞

叕戰(zhàn)奧運,張雨霏要做回“小將”

娛樂要聞

小S復工錄制 感謝賈永婕陪大S走到最后

財經(jīng)要聞

"短劇"苦抄襲

汽車要聞

大眾汽車與小鵬首款聯(lián)合開發(fā)車型與眾08正式量產(chǎn)

態(tài)度原創(chuàng)

家居
手機
房產(chǎn)
公開課
軍事航空

家居要聞

藝術(shù)之家 法式優(yōu)雅

手機要聞

消息稱某廠中端新機配備6.59英寸直屏,預計為小米旗下

房產(chǎn)要聞

不容易啊!?诮K于又要賣地了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗稱襲擊"林肯"號航母致其撤走

無障礙瀏覽 進入關(guān)懷版