獨立研究者發(fā)表的大模型強化學習獎勵分配全景報告

2026-04-21 22:03:39　來源: 科技行者

天津舉報

分享至

這篇由獨立研究者完成的綜述論文發(fā)表于2026年4月，arXiv編號為2604.09459（v2版本于2026年4月13日更新），是目前學術界首篇系統(tǒng)性聚焦于大型語言模型強化學習中"功勞認定"問題的專題綜述。感興趣的讀者可通過該編號在arXiv平臺檢索全文。

當你雇了一個團隊幫你裝修房子，最后裝修效果很差，你會怎么追責？是罵負責設計的人、還是罵負責施工的人、還是罵負責采購材料的人？如果整個團隊分工明確、每人只做了一部分，而你只知道最終結果很糟糕，那要怎么判斷究竟是哪個環(huán)節(jié)出了問題、下次應該換掉誰？

這個看似日常的困境，正是當前人工智能領域最核心的技術難題之一。一個大型語言模型（也就是類似ChatGPT這樣的AI）在被訓練成"會做事的助手"時，會經(jīng)歷成千上萬次嘗試。每次嘗試，它可能做了幾十步、幾百步才得到一個結果，但訓練系統(tǒng)只告訴它"這次成功了"或"這次失敗了"——根本不知道是哪一步起了關鍵作用。這就是所謂的"功勞認定"問題（Credit Assignment），也是本文的核心議題。

這篇綜述梳理了2024年到2026年初之間發(fā)表的47篇相關論文，把這些解決方案分門別類地整理成一套完整的知識體系。它不只是一本目錄，還附帶了一套幫助研究者和工程師選方法的決策樹、一份給未來研究者的寫作規(guī)范清單，以及一個基準測試的協(xié)議規(guī)范。對于任何想在這一方向上開展研究或?qū)嶋H應用的人來說，這篇綜述是一份難得的導航地圖。

一、從"寫作業(yè)"到"干活"：AI能力進化帶來的新麻煩

要理解這個問題有多棘手，先得了解AI是如何一步步"進化"的。

早期的AI訓練方式，有點像雇人寫一篇作文然后請老師打分。系統(tǒng)生成一段話，人類或者評分程序打一個總分，AI據(jù)此調(diào)整自己。這個過程中，整篇作文只拿到一個分數(shù)，每個句子、每個詞都獲得了同等的"獎懲"。這就是所謂的"結果級別獎勵"。在任務比較簡單、回答比較短的情況下，這種方式勉強夠用。

后來，隨著DeepSeek-R1和OpenAI的o1這類模型的出現(xiàn)，AI開始被訓練去解數(shù)學題和寫代碼，而且要展示完整的推理過程。這時候，一段回答可能長達一兩萬個詞，里面包含幾十個推理步驟。這就是所謂的"推理型強化學習"階段。光靠最后一個"答對了"或"答錯了"來訓練，效率太低了——就像老師批改數(shù)學作業(yè)只寫"錯"但不指出哪一步算錯了，學生根本不知道該從哪里改。

再往后發(fā)展，AI被賦予了真正"干活"的能力：它可以上網(wǎng)搜索、執(zhí)行代碼、調(diào)用工具、發(fā)送消息、與其他AI協(xié)作。一個任務可能要來回操作幾十次甚至上百次，耗費的文字量可能高達幾十萬到上百萬個詞。這就是"智能體型強化學習"階段，也是目前技術前沿所在。在這種情況下，"功勞認定"問題達到了前所未有的復雜程度。

綜述提供了一組非常直觀的數(shù)字對比來說明這個落差。在解簡單數(shù)學題時，AI大約只需要兩三百到八百個詞，做出三到十個關鍵決策。在解競賽數(shù)學題時，可能需要一兩萬個詞、幾十到一百個關鍵步驟。而在處理像SWE-bench這樣的軟件工程任務時，AI可能需要來回操作二三十次到一百多次，總共用掉十萬到五十萬個詞，做出幾十到上百個關鍵決策。當一個AI在第三步做了一個糟糕的選擇，但之后的九十七步都還算正常，最終任務失敗——訓練系統(tǒng)如何知道是第三步的鍋？這就是問題的本質(zhì)。

二、"所有人平分獎金"為什么行不通

現(xiàn)在最流行的大模型訓練方法叫做GRPO（群體相對策略優(yōu)化），它的核心邏輯是：讓AI對同一個任務做出多次嘗試，然后根據(jù)每次嘗試的結果好壞來給那次嘗試的所有步驟打同樣的分。換句話說，如果這次嘗試成功了，那么這次嘗試中的每一個詞、每一步操作都獲得同等的"功勞"；如果失敗了，每一步都背同等的"黑鍋"。

這就像一家公司的績效考核制度是這樣的：如果這個月業(yè)績好，所有員工無論貢獻多少都拿同樣的獎金；如果業(yè)績差，所有人無論犯沒犯錯都被扣同等的工資。這種制度在員工很少、每個人的工作都清晰可見的小團隊中或許還能接受，但在一個有一百個部門、每個部門又有幾十個人的大公司里，就完全失效了。

綜述用了一個嚴格的數(shù)學分析來說明這個問題。在單純的統(tǒng)計學上，當你對一百個不同的決策都用同一個信號來判斷好壞時，平均到每個決策上的"信息量"只有單決策情況的百分之一。這不只是效率低的問題，而是會導致模型學到錯誤的東西。研究者們發(fā)現(xiàn)，在這種訓練方式下，AI會逐漸傾向于做那些"安全但毫無意義"的重復動作——因為做任何新奇的嘗試風險太高，不如一直重復已知的動作，反正獎懲信號那么模糊，誰也說不清楚。這個現(xiàn)象被研究者稱為"回聲陷阱"。

正因如此，四十七篇論文的核心目標只有一個：找到更好的方式，把那個模糊的最終結果獎勵，精準地分配到真正值得獎勵或懲罰的那一步上。

三、分類整理：解決問題的四十七種思路

這篇綜述把四十七種方法整理成了一張二維地圖。橫軸是"方法論"——用什么技術來計算功勞；縱軸是"粒度"——把功勞分配到哪個層級。

從粒度來說，最細的是詞語級別（每個詞都分開算），往上是段落級別（把一段推理當一個單元），再往上是步驟或回合級別（每一次AI說話或做操作算一個單元），最頂層是多AI級別（多個AI協(xié)作時，每個AI各算各的）。不同任務適合不同粒度——就像餐廳績效考核可以精細到每道菜（詞語級），也可以粗略到每個班次（回合級），更可以整體評價前廳還是后廚團隊（多智能體級）。

從方法論來說，主要有五大家族。第一類叫"蒙特卡洛法"，思路是：從中間某步開始，讓AI從那里繼續(xù)把任務做完，做很多次，用這多次的平均結果來估計這步的重要性。第二類叫"時序差分法"，思路是：訓練一個專門負責打分的輔助模型，這個模型負責預測"從當前狀態(tài)繼續(xù)下去大概能得多少分"，用這個預測值來分配功勞。第三類叫"AI自評法"，思路是：直接問AI自己"你覺得這一步重要嗎"，用AI自己的語言理解能力來做裁判。第四類叫"博弈論法"，主要是Shapley值——這是個來自經(jīng)濟學的方法，核心是問"如果去掉這一步，結果會差多少"，通過所有可能的組合排列來公平地分配貢獻。第五類叫"信息論法"，思路是衡量"這一步提供了多少關于任務成功的新信息"。

在這張地圖上，從左上角到右下角有一條進化路徑：推理型任務的方法主要集中在詞語級和段落級，用蒙特卡洛或時序差分；而智能體型任務的方法主要集中在回合級和多AI級，用事后分析、反事實推理和信息論。這條路徑本身就是一個重要發(fā)現(xiàn)。

四、推理AI的功勞分配：已有成熟方案

在推理型任務領域，方法已經(jīng)相對成熟，這里重點介紹幾個有代表性的。

VinePPO這個方法的核心比喻是"在棋局中途換人接著下"。它的做法是：在AI正在生成回答的某個詞的位置上，讓AI從那里繼續(xù)往下寫，寫很多個不同的版本，統(tǒng)計這些版本最終有多少比例能得到正確答案。這個比例就是那個詞的"預期價值"，而實際的功勞就是"真實結果"減去"預期價值"。好處是完全沒有偏差，不依賴任何輔助模型；壞處是計算量很大，每個詞都要生成額外的很多個版本。實驗證明，這個方法在數(shù)學推理上比傳統(tǒng)PPO效果顯著更好，說明功勞分配質(zhì)量本身就是訓練的瓶頸，而不是優(yōu)化算法的問題。

SPO走了一條更實用的路：不在每個詞上分配功勞，而是找到推理鏈條中的"分叉點"——那些推理從一個子問題跳躍到另一個子問題的地方，以這些有意義的段落作為單位。每個段落的功勞用比較"共享同一前綴的不同軌跡的結果"來估算。這樣既保留了比詞語級更細的信息，又避免了計算量爆炸。

SCAR走的是博弈論路線：把整段推理鏈條看作一個團隊協(xié)作，每個段落是一個"隊員"，用Shapley值來公平分配"誰的功勞最大"。Shapley值有一個很好的性質(zhì)，它滿足效率（所有人的功勞加起來等于總收益）、對稱性（貢獻相同則獎勵相同）和零貢獻性（對結果沒影響的步驟得零分）。缺點是計算復雜，因為要考慮所有可能的組合順序，但研究者用了抽樣近似來解決。

PURE提出了一個有趣的理論洞察。傳統(tǒng)的過程獎勵模型（簡單理解為"步驟打分器"）用的是"這步之后預期總得分"來衡量步驟質(zhì)量，PURE認為這樣會被模型鉆空子——模型可能學會制造一些看起來分數(shù)不低但實際上沒用的中間步驟。PURE改用"這步之后所有未來步驟中最低分"來衡量，強迫模型確保每一步都不拖后腿，而不是靠后面某些高分步驟來平攤。

HICRA發(fā)現(xiàn)了一個有趣的學習規(guī)律：AI在強化學習訓練的過程中，先學會的是"程序性技能"（也就是固定套路和計算步驟），后學會的是"戰(zhàn)略規(guī)劃"（也就是高層次的問題分解方式）?；诖耍琀ICRA建議把更多功勞集中在那些具有戰(zhàn)略意義的詞語和步驟上，而不是均勻分配。這個發(fā)現(xiàn)對智能體任務同樣有重要啟發(fā)價值。

五、智能體AI的功勞分配：全新挑戰(zhàn)，全新方案

從推理型到智能體型，不只是任務變復雜了那么簡單，而是有六個本質(zhì)性的結構變化，這六個變化共同構成了"為什么推理型方法不能直接搬過來用"的完整解釋。

第一個變化是"環(huán)境變得不可控"。當AI只是在生成文字時，環(huán)境完全可預測——下一步的狀態(tài)就是已有文字加上剛生成的詞。但當AI開始調(diào)用工具、執(zhí)行代碼、搜索網(wǎng)頁時，同樣的操作可能因為網(wǎng)絡狀態(tài)、數(shù)據(jù)庫變化、執(zhí)行時序而得到完全不同的結果。這讓"從中間狀態(tài)出發(fā)多次模擬"變得要么成本極高，要么根本不可能。

第二個變化是"只能看到部分信息"。推理型任務是全透明的，AI看到的就是完整狀態(tài)。但在智能體任務中，AI只能看到它執(zhí)行查詢后得到的返回結果，看不到數(shù)據(jù)庫的全貌；只能看到文件系統(tǒng)中它選擇查看的文件，看不到整個代碼庫的結構。這意味著即便某一步看起來是個"壞"決策，也可能是因為信息不足，而非真的決策失誤。

第三個變化是"時間跨度爆炸"。從做幾十步推理變成了做幾十到上百次來回操作，計算信號質(zhì)量急劇下降。統(tǒng)計上，信噪比大約下降了一百倍。

第四個變化是"操作類型千差萬別"。推理鏈條里的每一步都是"想清楚下一個論證"，相對同質(zhì)。但智能體的操作中，有制定高層計劃的戰(zhàn)略性決策，有選擇用哪個工具的技術性決策，有具體填寫參數(shù)的執(zhí)行性操作，有格式化輸出的收尾性操作。這些操作的"重要程度"天差地別，但如果用統(tǒng)一的功勞分配方式，就會一視同仁。

第五個變化是"中間過程難以驗證"。數(shù)學推理的每一步在邏輯上是可以檢驗的——這個代數(shù)變形對不對、這個推導步驟合不合法。但在智能體任務中，"選擇搜索哪個關鍵詞是個好選擇嗎"只有等看到搜索結果再說，"這段代碼寫得好不好"只有執(zhí)行之后才知道。

第六個變化是"分叉點稀少但致命"。在智能體任務中，大多數(shù)操作都是常規(guī)動作，真正改變命運走向的"關鍵決策點"其實非常少，但一旦在這個節(jié)點上做錯，就可能導致整個任務走入死胡同。這些點事先根本不知道是哪里，只有事后回頭看才能認出來。

基于這六個挑戰(zhàn)，研究者們發(fā)展出了一批專門針對智能體任務的新方法。

AgentPRM是把推理型的"步驟打分器"概念移植到智能體任務上，但把計算方式從"蒙特卡洛多次模擬"改成了"時序差分學習"——訓練一個輔助模型，讓它不斷預測"從當前步驟繼續(xù)下去，大概能得多少分"，通過迭代更新來學會這個預測。這樣就不需要重啟環(huán)境去模擬，但引入了預測誤差。實驗顯示樣本效率提升了八倍。

SWEET-RL提出了一個非常聰明的思路。訓練的時候，人們可以掌握AI在推理時看不到的信息——比如正確答案是什么、整個任務最終是否成功。這叫做"特權信息"。SWEET-RL用這些特權信息訓練一個專門的"裁判"模型，讓它在訓練期間給每一步打出高質(zhì)量的功勞分；而參與實際任務的AI在執(zhí)行任務時并不依賴這個裁判——它只用自己能看到的信息來做決策。這種"訓練時用特權，運行時不用特權"的不對稱設計，既提升了信號質(zhì)量，又不影響AI在真實環(huán)境中的獨立性。

CARL（關鍵行動強化學習）提出了一個大膽的簡化思路：與其給所有操作都分配精細的功勞，不如只管那些真正關鍵的操作。怎么判斷哪步關鍵？用"熵"——在某個狀態(tài)下，如果AI面臨很多種可能的操作選擇且各有可能，說明這是個真正需要做決策的關鍵時刻，熵值高；如果AI幾乎必然會做某個操作，說明這只是常規(guī)步驟，熵值低。CARL只對高熵操作步驟進行梯度更新，跳過其他所有步驟。結果令人意外：減少了72%的梯度更新量，但性能幾乎不下降。這說明智能體軌跡中絕大多數(shù)操作根本不值得優(yōu)化，只有少數(shù)關鍵決策真的重要。

GiGPO提出了一種"組中組"的巧妙設計。在GRPO原本的基礎上，它增加了一層：不只是在多次完整嘗試之間做比較，而是在同一次嘗試中，找出那些"從相同出發(fā)點繼續(xù)"的步驟，把它們相互比較，用組內(nèi)相對表現(xiàn)來分配步驟級別的功勞。這樣既不需要額外的輔助模型，也不需要重啟環(huán)境，在計算效率和信號質(zhì)量之間找到了一個不錯的平衡點。實驗中在網(wǎng)頁購物和家居任務兩個基準測試上分別超越GRPO達12%和9%。

最引人關注的是2026年3月同一周內(nèi)冒出的三篇獨立論文，它們都走向了同一個方向：事后反事實分析。

HCAPO的核心思路是"事后諸葛亮"：等整個任務做完之后，再回過頭來評估每一步的貢獻。它用AI來扮演裁判，讓裁判用完整的事后信息去問"如果這步換成另一個操作，結果會不同嗎"。這種方法的關鍵洞察是：事后的功勞評估天然比事前更準確，因為你已經(jīng)知道結果了，可以真正區(qū)分"這步是真的好"和"這步只是恰好運氣不錯"。

C3（上下文反事實功勞分配）用的是"留一法"——把某一步的操作替換成一個"默認操作"，用AI來估計在這種反事實情況下任務最終會怎么發(fā)展，然后比較真實結果和反事實結果的差值作為那步的功勞。不需要重跑環(huán)境，反事實估算完全在AI的"想象中"完成。

CCPO提供了更嚴格的理論框架：把整個任務軌跡看作一個因果結構，每步操作是一個"干預變量"，任務結果是被影響的"效果"。每步的功勞就是這個"干預"的平均處理效應。這個框架在一定假設條件下有嚴格的理論保證。

三篇論文獨立得出相同結論，本身就是一個強烈信號：對于智能體任務，"事后回溯式"的功勞認定思路正在成為主流范式。

六、多AI協(xié)作：最新的功勞認定前沿

當任務不是由一個AI獨立完成，而是由多個AI分工協(xié)作時，問題又多了一個維度：這個成果里，有多少是你的功勞，有多少是隊友的功勞？

這個問題在現(xiàn)實中并不陌生。電影上映后，演員、導演、攝影師、劇本作者各自貢獻了多少，誰應該拿最多的獎勵，一直是討論不完的話題。多AI場景面臨的是完全類似的挑戰(zhàn)，而且還更復雜：不同AI的能力和角色完全不同（一個專門負責搜索，一個專門寫代碼，一個專門做總結），共同完成了一個無法單獨拆開評估的整體任務。

SHARP把Shapley值從推理任務的"步驟層面"搬到了多AI任務的"智能體層面"：把整個AI團隊看作一個合作游戲，每個AI的功勞是它在所有可能的團隊組合中的"平均邊際貢獻"。實驗顯示，平均比單一AI高出23.7%，比沒有Shapley功勞分配的多AI系統(tǒng)高出14.1%。

MAPPA走了另一條路：不等任務結束才算總賬，而是在每個AI的每一步操作完成后，就用另一個AI來評判這一步的即時價值。這樣每次訓練時可以從每個軌跡里提取出更多的學習信號。實驗中，在數(shù)學競賽任務上提升幅度高達5到17個百分點，是目前多AI方向上報告的最大增益之一。

Dr. MAS發(fā)現(xiàn)了一個具體的失效模式：當用GRPO來訓練多AI系統(tǒng)時，如果用全局統(tǒng)一的基準線來計算各AI的優(yōu)勢分，會出問題——因為不同AI的任務難度和獎勵分布完全不同，一個統(tǒng)一的基準線對某些AI來說太高，對另一些來說太低。解決方案是給每個AI各自維護獨立的統(tǒng)計基準，分別歸一化。這個改動看起來簡單，但卻把原本發(fā)散的訓練過程穩(wěn)定下來，并帶來了5.6%的性能提升。

七、做選擇時的實用指南

這篇綜述不只是盤點方法，還給出了一套決策框架，幫助實際工作者根據(jù)自己的情況選擇合適的方法。

核心邏輯是一棵決策樹。首先問的是任務性質(zhì)：是推理型（AI生成一段文字）、智能體型（AI與環(huán)境交互多個回合），還是多AI協(xié)作？在推理型任務中，再問推理鏈條多長。如果短（五千詞以內(nèi)），用GRPO家族就夠，加上PURE或SPRO來強化步驟級別信號；如果長（超過五千詞），且計算資源有限，用HICRA或CAPO；如果計算資源充裕，用VinePPO或SCAR來追求更高質(zhì)量的功勞分配。

在智能體型任務中，先問軌跡有多長。如果不超過三十個回合，再問有沒有輔助模型資源：沒有的話用GiGPO、CARL或iStar；有的話用AgentPRM或SWEET-RL。如果超過三十個回合，再問計算資源是否充裕：資源有限就用CARL或HCAPO或ArCHer的簡化版；資源充裕就用C3/CCPO或HCAPO的完整版或IGPO。多AI協(xié)作場景則推薦M-GRPO、SHARP或MAPPA。

綜述還整理了幾個關鍵取舍。粒度越細的方法（詞語級）提供越精確的信號，但計算成本越高；事后分析（HCAPO、C3）信息質(zhì)量高但引入延遲；不需要輔助模型的方法（CARL、GiGPO、iStar）更容易部署；專門為推理型設計的方法在智能體任務上往往失效，反之則不然。

八、這個領域還缺什么

綜述誠實地指出了幾個尚未解決的重要問題。

在實踐層面，目前評測各種功勞分配方法的基準測試嚴重不統(tǒng)一。每篇論文用的任務、基礎模型、訓練配置各不相同，導致無法真正比較哪個方法更好，還是說哪個方法只是恰好在某個任務上更有優(yōu)勢。這讓整個領域的進展變得模糊。研究者呼吁建立一套共享的基準測試協(xié)議，包括已知正確功勞分配的推理任務、有控制分叉點的智能體任務，以及有設計好功勞結構的多AI任務。

在理論層面，絕大多數(shù)方法只有經(jīng)驗驗證而沒有理論保證。只有極少數(shù)方法（如VinePPO的無偏性證明、CCPO的因果假設下的保證）提供了形式化分析。在部分可觀測環(huán)境下，功勞分配如何收斂、樣本復雜度是多少，這些基本問題幾乎沒有答案。

在新興應用層面，當AI任務跨度極長（比如持續(xù)幾天的科研實驗）、獎勵信號本身不確定（比如"用戶是否滿意"這種主觀評價），或者AI的操作影響到了AI自己的"記憶"（比如把某些信息存入外部數(shù)據(jù)庫以備后用），功勞應該如何分配，現(xiàn)有方法幾乎無從應對。

還有一個被忽略的機會：功勞認定和探索策略本來可以互相增益。在功勞認定最不確定的狀態(tài)上，恰恰是AI最應該去探索的地方——因為那里信息最缺乏。但目前沒有任何方法把這兩件事真正結合在一起。

歸根結底，這個領域正在經(jīng)歷一個快速成熟的階段。推理型任務上的功勞分配問題，大致已有可用的工程答案；智能體任務上的功勞分配問題，思路已經(jīng)清晰但工具還不完備；多AI協(xié)作的功勞分配問題，才剛剛開始被認真對待。

三年前，幾乎沒有人把"功勞分配"當作一個獨立的研究方向來看待，它只是深藏在各種算法細節(jié)里的小問題。但隨著AI從"會回答問題"進化到"會干活"，這個問題已經(jīng)從背景噪音變成了舞臺中央最響亮的那個聲音。下一波突破，很可能就藏在"怎么讓AI明白自己真正做對了什么"這個問題的答案里。

有興趣深入了解的讀者可以通過arXiv編號2604.09459檢索這篇論文，或直接訪問作者在GitHub上維護的相關論文列表（xxzcc/Awesome-Credit-Assignment-in-LLM-RL）以獲取持續(xù)更新的研究動態(tài)。

Q&A

Q1：大模型強化學習中的功勞認定問題具體是什么？

A：功勞認定問題是指當AI完成一項多步驟任務后，訓練系統(tǒng)只知道最終結果的好壞，但不知道是哪一步操作真正起了決定性作用。就像一場球賽贏了，但說不清楚是誰的功勞。在AI做復雜任務時，可能經(jīng)歷幾十步到上百步，如果只靠最終獎勵來訓練，效率極低，甚至會讓AI學到錯誤的行為模式。

Q2：GRPO方法在智能體任務上為什么會出現(xiàn)"回聲陷阱"？

A：GRPO對整個任務軌跡中的每一步都給同樣的獎懲信號，當任務變得復雜、步驟達到幾十甚至上百步時，這個信號對每一步來說變得極其微弱且充滿噪聲。AI因為無法分清哪步真正有用，為了降低風險就開始不斷重復已知的安全動作，變得越來越保守和重復，完全失去了探索新方法的動力，這就是所謂的"回聲陷阱"。

Q3：CARL方法中用來判斷關鍵決策點的"熵"是什么意思？

A：在CARL方法里，"熵"衡量的是AI在某個狀態(tài)下面對多少種可能選擇、且這些選擇的可能性有多均勻。如果AI幾乎肯定會做某一個操作，熵值低，說明這只是常規(guī)步驟不需要特別訓練；如果AI面臨很多種同樣可能的選擇，熵值高，說明這是真正需要做判斷的關鍵時刻，才值得投入梯度更新資源。實驗發(fā)現(xiàn)跳過低熵步驟可以減少72%的計算量但性能幾乎不變。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.