国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

生成式Critic重新定義LLM強化學(xué)習(xí)信用分配

0
分享至



本文第一作者單子康是北京大學(xué)二年級在讀博士生,研究方向為大語言模型與強化學(xué)習(xí),曾于 ICML 2025 以共同一作發(fā)表 Spotlight 論文,本工作為微軟亞洲研究院實習(xí)期間完成。本文最后一作趙立是微軟亞洲研究院高級研究員,現(xiàn)任微軟亞洲研究院機器學(xué)習(xí)組負責(zé)人。

強化學(xué)習(xí)(RL)已經(jīng)成為大語言模型(LLM)后訓(xùn)練階段最重要的技術(shù)之一。早期伴隨著 ChatGPT 的出圈,價值對齊 RL 受到廣泛關(guān)注;DeepSeek-R1 以大規(guī)??沈炞C RL 激發(fā)了模型的推理能力,引領(lǐng)了推理 RL 的熱潮;如今的智能體(Agent)訓(xùn)練更是離不開 RL。

可以說,大模型時代的能力演進,很大程度上是 RL 范式不斷深化應(yīng)用的過程。

然而,RL 有一個經(jīng)典難題始終懸而未決:信用分配(credit assignment)。模型生成了一段長長的回答,最終收到一個獎勵信號。但這段回答里,哪些步驟真正做出了貢獻?哪些是冗余的,甚至引入了錯誤?信用分配不精準,訓(xùn)練信號就只能保持稀疏,模型的學(xué)習(xí)效率也就因此受限。



經(jīng)典 RL 算法 PPO(Proximal Policy Optimization)的解法是訓(xùn)練一個價值模型(Critic),估計序列中每個 token 的價值(Value),借此將信用精確分配到每一步。然而在 LLM 的實踐中,隨著生成序列越來越長、任務(wù)越來越復(fù)雜,Critic 的訓(xùn)練逐漸變得不穩(wěn)定,效果也難以保證。

于是,研究者轉(zhuǎn)向更簡單的無 Value 方法例如 GRPO,利用獎勵來構(gòu)造每個軌跡的優(yōu)勢,廣播到每一步上,相當(dāng)于將優(yōu)化過程簡化為一個多臂老虎機問題。盡管訓(xùn)練流程簡潔了許多,這種簡化的代價是徹底放棄了細粒度的信用分配。隨著推理鏈越來越長、Agent 任務(wù)越來越復(fù)雜,這一代價也變得越來越難以接受。

這不禁讓人重新審視一個根本問題:價值模型真的不堪一用嗎?還是我們一直沒能正確地實現(xiàn)它?

微軟亞洲研究院聯(lián)合北京大學(xué)的研究者,給出了答案。



  • 論文標題:Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2604.10701

判別式 Critic 的根本局限

傳統(tǒng) Critic 是「判別式」的:輸入一個狀態(tài),輸出一個標量作為價值估計。這一設(shè)計看似自然,卻暗藏著一個深層的架構(gòu)矛盾。

研究者將兩個已知的結(jié)論結(jié)合,得出了一個頗具啟發(fā)性的推論。其一,LLM 生成過程所對應(yīng)的馬爾可夫鏈的價值函數(shù)的精確建模,在計算復(fù)雜度上屬于 P-complete。其二,Transformer 單次前向傳播的表達能力上界已被證明為 TC?,一個遠弱于 P-complete 的復(fù)雜度類。

將這兩個結(jié)論結(jié)合來看,判別式 Critic 在 LLM 任務(wù)上的持續(xù)失敗或許并非偶然:價值建模本質(zhì)上依賴大量順序推理,難以通過簡單的并行前向傳播實現(xiàn)。判別式 Critic 是在用一個表達能力受限的架構(gòu),去擬合一個理論上更復(fù)雜的函數(shù)。更關(guān)鍵的是,這一錯配無法通過規(guī)模化來彌補:更多的參數(shù)、更多的數(shù)據(jù)或更多的計算,對于表達能力層面的鴻溝并無根本幫助。



研究者通過實驗印證了這一推斷。固定一個目標價值函數(shù),讓判別式 Critic 去擬合,其誤差與簡單的平均獎勵基線相比并無顯著優(yōu)勢。更重要的是,將模型規(guī)模從 0.6B 擴展到 14B,擬合誤差幾乎沒有改善。與此同時,判別式 Critic 在不同隨機種子下表現(xiàn)出極大的波動,說明其表現(xiàn)高度依賴初始化,而非穩(wěn)健地收斂。

不可擴展加上不穩(wěn)定,共同指向同一個結(jié)論:判別式 Critic 的問題并非調(diào)參不當(dāng),而是架構(gòu)層面的固有不足。

生成式 Critic:讓價值估計變得可推理

既然判別式架構(gòu)存在本質(zhì)局限,一個自然的問題是:換成生成式會怎樣?

生成式 Critic 的核心思路是:不直接輸出一個標量,而是先使用思維鏈推理,再給出價值的估計。這一思路與生成式獎勵模型有相通之處,后者已在多項工作中被驗證具有更強的魯棒性和泛化能力。從理論上看,顯式的推理鏈可以有效提升模型的表達能力,從而繞過 TC?的表達能力上界約束,為價值建模開辟新的空間。

但價值建模比獎勵建模面臨更深層的挑戰(zhàn):價值是與當(dāng)前策略深度綁定的。同一個中間狀態(tài),對于能力較弱的策略而言可能價值很高,而對于能力更強的策略則已不值一提。獎勵模型無需感知策略,但價值模型必須「知道自己在評估誰」。這一挑戰(zhàn)在一個具體對比中體現(xiàn)得格外清晰:生成式獎勵模型的訓(xùn)練通常以蒸餾強大的通用模型為起點,但對于價值建模而言,并不存在天然的「價值先知」可供蒸餾。

研究者發(fā)現(xiàn),即便是能力極強的通用大模型例如 GPT-5,直接被用作價值模型時,其擬合誤差甚至遠不如判別式 Critic。原因正在于它對被評估的策略一無所知,無從判斷同一狀態(tài)對當(dāng)前策略意味著什么。

為此,研究者引入了上下文條件注入(In-Context Conditioning)機制:在每次 Critic 推理時,將當(dāng)前策略的模型規(guī)模與實時更新的滑動平均成功率一并注入上下文,使 Critic 能夠感知并基于當(dāng)前策略的能力水平開展分析。消融實驗表明,這一簡單機制能夠有效降低價值估計誤差。



在訓(xùn)練流程上,由于缺乏可供直接蒸餾的高質(zhì)量標注,研究者設(shè)計了包含 SFT 和 RL 的兩階段價值預(yù)訓(xùn)練方案。SFT 階段作為熱身,幫助模型建立以估計價值為目標的基本推理模式;RL 階段則通過真實獎勵信號對初始偏差進行矯正,將推理能力真正落地到準確的價值估計上。經(jīng)過這兩階段預(yù)訓(xùn)練的生成式 Critic,可以作為可靠組件進入與策略的聯(lián)合 RL 訓(xùn)練。

實驗與分析

研究者將使用生成式 critic 的 PPO 命名為 GenAC,在數(shù)學(xué)推理任務(wù)上展開了實驗,并通過 6 個評測標準進行深度評測。為了比較價值函數(shù)的影響,研究者比較了使用判別式 Critic 的 VC-PPO,以及兩種主流的無 Value 方法 GRPO 和 RLOO。



GenAC 以 51.90% 的平均準確率領(lǐng)先所有基準方法。從訓(xùn)練動態(tài)來看,價值建模本身就能帶來顯著優(yōu)勢:VC-PPO 與 GenAC 在訓(xùn)練早期均表現(xiàn)出更高的樣本效率,模型能力迅速提升,而無 Value 方法由于細粒度信用分配的缺失,早期學(xué)習(xí)相對緩慢。然而,VC-PPO 的領(lǐng)先優(yōu)勢隨著訓(xùn)練推進而逐漸收窄,最終收斂表現(xiàn)與無 Value 方法相差無幾;GenAC 則截然不同,不僅始終保持領(lǐng)先,與其他方法的差距還在訓(xùn)練后期持續(xù)擴大。

是否進行價值建模影響的是早期的學(xué)習(xí)速率,而 Critic 的質(zhì)量則決定訓(xùn)練能走多遠。



那么,生成式與判別式 Critic 之間的差異,究竟通過什么機制傳導(dǎo)到最終的 RL 效果上?研究者從擬合誤差之外的角度進一步展開分析。



首先是相對排名實驗:針對相同狀態(tài)的一組候選片段,Critic 需要識別出哪個候選的價值最高。隨著候選數(shù)量增加,生成式 Critic 的排名準確率輕微下降,而判別式 Critic 則明顯退化。這意味著在區(qū)分相近候選的細微優(yōu)劣時,生成式 Critic 能給出更可靠的相判斷,而優(yōu)勢估計的精度正是依賴于此。

其次是分布外泛化實驗:要求 Critic 對分布外數(shù)據(jù)源的價值函數(shù)進行估計。生成式 Critic 的誤差相比判別式基線大幅下降,且分布偏移越大,兩者的差距越懸殊。這說明生成式 Critic 具有更強的泛化能力,當(dāng)策略通過探索進入新狀態(tài)時,它依然能夠給出可靠的信用分配,在關(guān)鍵的探索數(shù)據(jù)上保持有效的學(xué)習(xí)。

最后是定性分析:Critic 需要通過價值估計反映思維鏈中出現(xiàn)的錯誤。在這個例子中,判別式 Critic 在錯誤步驟前后的價值估計沒有明顯區(qū)別,而生成式 Critic 明確指出了錯誤,并基于此給出了更低的價值估計。這種細粒度的錯誤定位能力,正是精準信用分配在單步層面的直接體現(xiàn)。



結(jié)語

價值模型的失敗,從來不是價值建模這一思路本身有問題,而是判別式架構(gòu)的先天局限,使一個具有潛力的想法難以落地。生成式 Critic 通過引入顯式推理、策略感知和穩(wěn)健的兩階段訓(xùn)練,重新展示了細粒度信用分配在 LLM 強化學(xué)習(xí)中的可行性。隨著推理模型與 Agent 任務(wù)的持續(xù)推進,信用分配的質(zhì)量只會變得越來越關(guān)鍵。這件事值得被認真對待,而 GenAC 展示了一條可行的路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
8家新能源車企遠程“鎖電”被約談,3家被立案;有車主稱續(xù)航一夜蒸發(fā)200公里

8家新能源車企遠程“鎖電”被約談,3家被立案;有車主稱續(xù)航一夜蒸發(fā)200公里

魯中晨報
2026-05-08 11:46:14
50歲像25歲?李小冉自嘲臉垮,只用幾塊錢香皂

50歲像25歲?李小冉自嘲臉垮,只用幾塊錢香皂

小椰的奶奶
2026-05-09 16:56:45
變天了!保加利亞前空軍司令就任總理,上臺首件事竟是找俄對話

變天了!保加利亞前空軍司令就任總理,上臺首件事竟是找俄對話

一曲一場談
2026-05-09 02:55:37
瞞了6年!馬伊琍“隱婚”突然曝光:最狠的女人,最頂級的布局

瞞了6年!馬伊琍“隱婚”突然曝光:最狠的女人,最頂級的布局

兩只米老鼠
2026-05-07 22:42:50
文章虧大了!老鄉(xiāng)張藝謀攜7位陜西演員,上演40集央視大劇,缺他

文章虧大了!老鄉(xiāng)張藝謀攜7位陜西演員,上演40集央視大劇,缺他

冷紫葉
2026-05-08 23:20:13
讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

小莜讀史
2026-05-08 07:23:38
澤連斯基真的失控了,這或許是俄烏戰(zhàn)爭即將結(jié)束的標志

澤連斯基真的失控了,這或許是俄烏戰(zhàn)爭即將結(jié)束的標志

羅富強說
2026-05-09 14:02:37
研究表明:性生活次數(shù)不達標,不管男女容易早衰且癌癥風(fēng)險增高!

研究表明:性生活次數(shù)不達標,不管男女容易早衰且癌癥風(fēng)險增高!

黯泉
2026-05-03 20:25:37
國際奧委會直接官宣上海成為2028年奧運會賽事的舉辦城市!

國際奧委會直接官宣上海成為2028年奧運會賽事的舉辦城市!

回京歷史夢
2026-05-09 11:49:41
缺德到這種地步,已經(jīng)不是諷刺的問題了!

缺德到這種地步,已經(jīng)不是諷刺的問題了!

胖胖說他不胖
2026-05-08 08:55:19
陜西這個“石破天驚”的發(fā)現(xiàn),將要改寫歷史?它比夏朝還早幾百年

陜西這個“石破天驚”的發(fā)現(xiàn),將要改寫歷史?它比夏朝還早幾百年

娛樂圈的嗶嗶王
2026-05-09 13:38:28
河北多地漫天楊絮似大雪紛飛 省綠辦:多年前曾定下治理時間表 每年都有打藥等防治措施

河北多地漫天楊絮似大雪紛飛 省綠辦:多年前曾定下治理時間表 每年都有打藥等防治措施

閃電新聞
2026-05-09 12:40:08
長得太美被導(dǎo)演占為己有,25歲生下3個孩子,如今個個都給她爭光

長得太美被導(dǎo)演占為己有,25歲生下3個孩子,如今個個都給她爭光

攬星河的筆記
2026-05-07 20:18:36
阿聯(lián)酋決定給世界一點小小的王爺震撼

阿聯(lián)酋決定給世界一點小小的王爺震撼

李建秋
2026-05-08 20:31:37
2:4出局之后,3大核心擺上貨架,全明星后衛(wèi)也放棄,真要重建了?

2:4出局之后,3大核心擺上貨架,全明星后衛(wèi)也放棄,真要重建了?

籃球圈里的那些事
2026-05-09 17:13:03
公安部:吳某某被采取刑事強制措施

公安部:吳某某被采取刑事強制措施

澎湃新聞
2026-05-09 12:58:03
伊朗凌晨發(fā)動第二輪打擊,動用多種高爆導(dǎo)彈,美軍遭遇失利

伊朗凌晨發(fā)動第二輪打擊,動用多種高爆導(dǎo)彈,美軍遭遇失利

李橑在北漂
2026-05-09 11:49:17
48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

白面書誏
2026-05-07 17:50:08
用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

讓心靈得以棲息
2026-05-08 11:19:31
一次幾十塊!專割中年男人的新型騙局曝光,網(wǎng)友:連窮鬼也不放過

一次幾十塊!專割中年男人的新型騙局曝光,網(wǎng)友:連窮鬼也不放過

品牌觀察官
2026-05-08 16:43:01
2026-05-09 17:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12956文章數(shù) 142646關(guān)注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協(xié)議

頭條要聞

新華社調(diào)查"胖東來為啥總被黑" 于東來連發(fā)6動態(tài)回應(yīng)

頭條要聞

新華社調(diào)查"胖東來為啥總被黑" 于東來連發(fā)6動態(tài)回應(yīng)

體育要聞

成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經(jīng)要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

房產(chǎn)
教育
手機
藝術(shù)
公開課

房產(chǎn)要聞

低價甩賣!海口這個地標商業(yè),無人接盤!

教育要聞

采訪英國知名私校副校長:中國家庭每年花幾十萬留學(xué)值嗎?

手機要聞

vivo S60工程機曝光,這配置香不香?

藝術(shù)要聞

齊白石 紫藤蜜蜂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版