南方科技大學(xué)等機(jī)構(gòu)聯(lián)手破解AI推理訓(xùn)練難題

2026-04-22 22:26:39　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由南方科技大學(xué)、北京郵電大學(xué)、微軟亞洲研究院、上海財(cái)經(jīng)大學(xué)、清華大學(xué)及INFLY TECH聯(lián)合開展的研究，以預(yù)印本形式于2026年4月發(fā)布，論文編號(hào)為arXiv:2604.08865。感興趣的讀者可以通過該編號(hào)在arXiv平臺(tái)查閱完整論文。

**當(dāng)AI做數(shù)學(xué)題，"打分員"卻失靈了**

假設(shè)你正在教一個(gè)學(xué)生做數(shù)學(xué)題，你的評(píng)分方式是：等他把整道題全部寫完，才告訴他"對(duì)"或"錯(cuò)"。問題來了——學(xué)生寫了滿滿兩頁紙的推理過程，最終答案錯(cuò)了，但你只能說一句"不對(duì)"。這位學(xué)生要怎么知道是第三行開始走偏，還是最后一步算術(shù)出錯(cuò)？你的反饋幾乎幫不上什么忙。

這正是目前大型語言模型（簡稱大模型，也就是ChatGPT、DeepSeek這類AI）在學(xué)習(xí)復(fù)雜推理時(shí)面臨的真實(shí)困境。研究人員發(fā)現(xiàn)，讓AI學(xué)會(huì)解數(shù)學(xué)題、做邏輯推理，需要用到一種叫做"強(qiáng)化學(xué)習(xí)"的訓(xùn)練方法——本質(zhì)上就是讓AI不斷嘗試、不斷根據(jù)反饋調(diào)整。但現(xiàn)有主流訓(xùn)練方法存在根本性的缺陷，而這篇論文提出的新方法，正是為了徹底解決這個(gè)問題。

**一、訓(xùn)練AI推理，為什么這么難**

要理解這項(xiàng)研究的價(jià)值，得先弄清楚AI推理訓(xùn)練的現(xiàn)狀。

目前讓大模型學(xué)會(huì)解題，主流方法叫做PPO（近端策略優(yōu)化）。你可以把它理解成一種"步步打分"的訓(xùn)練機(jī)制。AI每生成一個(gè)詞，系統(tǒng)就有一個(gè)"打分員"（技術(shù)上稱為Critic，批評(píng)家）在旁邊估算：按照現(xiàn)在這個(gè)走勢，最終能答對(duì)的概率是多少？然后根據(jù)這個(gè)概率，獎(jiǎng)勵(lì)或懲罰剛才的每一步操作。

聽起來很合理，但問題出在AI推理的特殊性上。當(dāng)AI解一道數(shù)學(xué)題時(shí)，它可能需要連續(xù)輸出幾千個(gè)字的推理過程——這就像一篇很長的偵探調(diào)查報(bào)告。而最終的反饋只有一個(gè)："答案正確"或"答案錯(cuò)誤"。打分員必須把這個(gè)唯一的結(jié)果，沿著幾千步的推理鏈條，一路往回分配功勞或責(zé)任。

研究團(tuán)隊(duì)通過實(shí)驗(yàn)直接觀察了這個(gè)"打分員"的行為，結(jié)果令人震驚。他們發(fā)現(xiàn)，打分員實(shí)際上是在偷懶——它根本不關(guān)心AI在推理過程中的第三步、第五步、第二十步在做什么，而是一直等到推理接近尾聲，才突然"清醒過來"，根據(jù)最后幾行文字的語義特征猜測答案是否正確。這就好比一個(gè)判卷老師，全程不看解題過程，只盯著最后一行看，憑"感覺"打分。

這種現(xiàn)象被研究團(tuán)隊(duì)命名為"尾部效應(yīng)"（Tail Effect）。它帶來了兩個(gè)直接后果：對(duì)于答對(duì)的推理鏈，打分員在接近結(jié)尾時(shí)才給出高分，導(dǎo)致AI的整個(gè)推理過程幾乎收不到任何有效的激勵(lì)信號(hào)；對(duì)于答錯(cuò)的推理鏈，打分員在中間過程中也沒有給出足夠的懲罰，無法讓AI知道哪里出了問題。如此一來，標(biāo)準(zhǔn)PPO訓(xùn)練出的AI，往往不僅沒有進(jìn)步，甚至比訓(xùn)練前更差。

面對(duì)這一困境，另一個(gè)流行方案應(yīng)運(yùn)而生，叫做GRPO（群組相對(duì)策略優(yōu)化）。它的思路是直接扔掉那個(gè)不靠譜的打分員，改用一種"橫向比較"的方式：對(duì)同一道題，讓AI同時(shí)生成一批答案（通常是8個(gè)），然后以這批答案的平均得分作為基準(zhǔn)，那些比平均水平好的答案就得到獎(jiǎng)勵(lì)，差的就受到懲罰。

這個(gè)方法在實(shí)踐中效果相當(dāng)不錯(cuò)，原因在于：它不再試圖給推理過程中的每一步打分，而是把整個(gè)推理鏈當(dāng)成一個(gè)整體來評(píng)價(jià)。然而，它的代價(jià)也很明顯——每道題都要生成8個(gè)答案，計(jì)算量直接翻了8倍。在訓(xùn)練大模型這種極度耗費(fèi)算力的場景下，這意味著訓(xùn)練時(shí)間大幅延長，成本急劇攀升。

**二、一個(gè)關(guān)鍵發(fā)現(xiàn)：GRPO其實(shí)在"偷偷做別的事"**

這篇論文最有趣的地方在于，研究團(tuán)隊(duì)對(duì)GRPO為何有效做出了一個(gè)全新的解讀，而這個(gè)解讀成為了他們提出新方法的理論基礎(chǔ)。

研究團(tuán)隊(duì)用數(shù)學(xué)工具仔細(xì)分析了GRPO的運(yùn)作機(jī)制后發(fā)現(xiàn)：GRPO之所以奏效，并不是因?yàn)?多采樣"本身有什么神奇之處，而是因?yàn)樗诓恢挥X中把整個(gè)推理任務(wù)從一種框架切換到了另一種框架。

具體而言，標(biāo)準(zhǔn)PPO把AI解題看作一個(gè)漫長的"連續(xù)決策過程"——就像下棋，每走一步都有意義，每一步都可能影響最終勝負(fù)。這在理論上很美好，但實(shí)踐中就會(huì)遇到前文描述的打分困難。而GRPO通過把整個(gè)答案當(dāng)成一個(gè)整體來評(píng)分，實(shí)際上是把解題任務(wù)變成了一個(gè)完全不同的模型——技術(shù)上叫做"序列級(jí)情境賭博機(jī)"（Sequence-Level Contextual Bandit）。

"賭博機(jī)"這個(gè)比喻很直觀：你走進(jìn)一家賭場，面前有一排老虎機(jī)（每臺(tái)代表一道題），你拉一次搖臂（生成一個(gè)完整答案），立刻得到一個(gè)結(jié)果（正確或錯(cuò)誤），然后你根據(jù)這個(gè)結(jié)果決定下次對(duì)這臺(tái)老虎機(jī)是否繼續(xù)拉。整個(gè)過程沒有"中間步驟"的概念，只有"整體行動(dòng)"和"最終結(jié)果"的對(duì)應(yīng)關(guān)系。

這個(gè)視角的轉(zhuǎn)變非常重要，因?yàn)樗馕吨寒?dāng)你不再試圖給每個(gè)步驟單獨(dú)打分，"打分員失靈"的問題就自然消失了。GRPO的成功，本質(zhì)上是這種框架切換的成功，而非多采樣的必然功勞。

這個(gè)發(fā)現(xiàn)讓研究團(tuán)隊(duì)想到了一個(gè)問題：既然框架切換才是關(guān)鍵，我們能不能在保留這個(gè)框架的同時(shí)，擺脫多采樣的高昂代價(jià)？

**三、SPPO：用一個(gè)聰明的"預(yù)測員"替代一批答案**

基于上述洞察，研究團(tuán)隊(duì)提出了他們的新方法：SPPO（序列級(jí)近端策略優(yōu)化）。

核心思路可以用一個(gè)生活場景來理解。假設(shè)你在準(zhǔn)備高考，你的家教老師給你出了一道難題。標(biāo)準(zhǔn)PPO的方式是：出題，你作答，老師給整道題的每一行打分，但他因?yàn)?尾部效應(yīng)"而打分失準(zhǔn)。GRPO的方式是：出題，你和7個(gè)同學(xué)同時(shí)作答，老師把你的成績和大家平均成績做比較，準(zhǔn)確但費(fèi)時(shí)。SPPO的方式是：出題，老師根據(jù)以往對(duì)你能力的了解，先預(yù)估你答對(duì)這道題的概率，然后你只作答一次，用"實(shí)際結(jié)果"減去"預(yù)估概率"來判斷你這次發(fā)揮是超水準(zhǔn)還是低水準(zhǔn)。

這個(gè)"預(yù)估概率"就是SPPO引入的關(guān)鍵組件：一個(gè)輕量級(jí)的"價(jià)值模型"（Value Model）。它的唯一任務(wù)是，在看到一道題之后，預(yù)測當(dāng)前的AI有多大概率能答對(duì)這道題——用一個(gè)0到1之間的數(shù)字表示。這個(gè)數(shù)字，就是"題目難度的預(yù)估"。

當(dāng)AI作答完畢，得到"對(duì)（1分）"或"錯(cuò)（0分）"的結(jié)果后，SPPO用一個(gè)極簡的公式計(jì)算優(yōu)勢信號(hào)：實(shí)際結(jié)果減去預(yù)估概率。比如，一道題預(yù)估答對(duì)率為0.3（很難），但AI答對(duì)了，那么優(yōu)勢信號(hào)就是1-0.3=0.7，說明這次表現(xiàn)遠(yuǎn)超預(yù)期，需要大力強(qiáng)化這個(gè)推理策略。反之，如果預(yù)估答對(duì)率0.9（很容易），但AI答錯(cuò)了，優(yōu)勢信號(hào)就是0-0.9=-0.9，說明這次翻車非常嚴(yán)重，需要強(qiáng)力糾正。

這個(gè)優(yōu)勢信號(hào)不再分配給推理過程中的每一步，而是均勻地廣播給整個(gè)推理鏈中的所有步驟。如果這道題答對(duì)了，每一步都受到同等強(qiáng)度的鼓勵(lì)；如果答錯(cuò)了，每一步都受到同等強(qiáng)度的懲罰。這種"一榮俱榮，一損俱損"的機(jī)制，完全繞開了"每步單獨(dú)打分"的難題。

與此同時(shí)，這個(gè)價(jià)值模型用一種叫做"二元交叉熵"的方式訓(xùn)練，本質(zhì)上就是讓它學(xué)會(huì)更準(zhǔn)確地預(yù)測題目難度。當(dāng)預(yù)測越來越準(zhǔn)確時(shí)，AI訓(xùn)練的穩(wěn)定性也隨之提升——因?yàn)橐粋€(gè)好的基準(zhǔn)讓AI能更清楚地區(qū)分"這次是真的進(jìn)步了"還是"只是運(yùn)氣好"。

**四、一個(gè)意外驚喜：小身材可以駕馭大模型**

SPPO在設(shè)計(jì)上還帶來了一個(gè)額外的好處，研究團(tuán)隊(duì)稱之為"解耦批評(píng)家策略"（Decoupled Critic）。

在標(biāo)準(zhǔn)PPO中，那個(gè)"打分員"（Critic）通常和被訓(xùn)練的AI模型一樣大。這是因?yàn)榇蚍謫T需要理解AI在每一步的輸出，從而估算當(dāng)前局面的價(jià)值，而這種理解能力要求打分員具備和AI相當(dāng)?shù)恼Z言理解能力。于是，如果你要訓(xùn)練一個(gè)70億參數(shù)的AI，打分員也需要70億參數(shù)，內(nèi)存占用直接翻倍。

但在SPPO的框架中，價(jià)值模型的任務(wù)極度簡化——它只需要看一道題，輸出一個(gè)數(shù)字，告訴你這道題的預(yù)估難度。這個(gè)任務(wù)遠(yuǎn)比"理解復(fù)雜推理過程"簡單得多。

研究團(tuán)隊(duì)測試了一種極端組合：用一個(gè)只有15億參數(shù)的小模型（DeepSeek-R1-Distill-Qwen-1.5B）作為價(jià)值模型，去輔助訓(xùn)練一個(gè)70億參數(shù)的大模型（DeepSeek-R1-Distill-Qwen-7B）。結(jié)果出乎意料——這個(gè)"小個(gè)子"價(jià)值模型不僅能正常工作，而且這個(gè)組合在所有測試基準(zhǔn)中取得了最高的平均分。顯卡內(nèi)存占用也從標(biāo)準(zhǔn)配置的91.5%下降到78.7%，降幅超過12個(gè)百分點(diǎn)。

這個(gè)發(fā)現(xiàn)在實(shí)踐層面意義重大。研究人員指出，預(yù)估一道題的難度，根本不需要具備解題能力，就好比一個(gè)經(jīng)驗(yàn)豐富的老師一眼就能判斷某道題"很多學(xué)生會(huì)錯(cuò)"，即使他自己不親自去做這道題。因此，用一個(gè)小模型完成這項(xiàng)預(yù)估任務(wù)，在邏輯上是合理的，而且在實(shí)驗(yàn)中也確實(shí)有效。

**五、數(shù)字驗(yàn)證：SPPO的表現(xiàn)到底如何**

論文通過大量實(shí)驗(yàn)來驗(yàn)證SPPO的實(shí)際效果，測試平臺(tái)涵蓋多個(gè)廣為認(rèn)可的數(shù)學(xué)推理基準(zhǔn)：AIME24、AIME25（美國數(shù)學(xué)邀請賽題目）、AMC23（美國數(shù)學(xué)競賽）、MATH500（5個(gè)難度等級(jí)的數(shù)學(xué)題集）以及Minerva Math（需要定量推理能力的科學(xué)題目）。

在1.5B規(guī)模（15億參數(shù)）的模型上，標(biāo)準(zhǔn)PPO的綜合平均分是44.06，甚至低于未經(jīng)訓(xùn)練的基礎(chǔ)模型（44.96）。這印證了"尾部效應(yīng)"的危害——錯(cuò)誤的訓(xùn)練信號(hào)不僅沒有幫助，反而起到了負(fù)面作用。GRPO在使用8個(gè)樣本的情況下，綜合平均分提升至47.08。而SPPO僅使用單個(gè)樣本，綜合平均分達(dá)到了48.06，超過了GRPO。

在7B規(guī)模（70億參數(shù)）的模型上，結(jié)果同樣清晰。標(biāo)準(zhǔn)PPO從基礎(chǔ)模型的52.49分提升到56.44分，進(jìn)步明顯但并不突出。GRPO達(dá)到57.44分，SPPO達(dá)到58.11分，配備小尺寸價(jià)值模型的SPPO組合更是達(dá)到了58.56分，拿下了所有方法中的最高分。

從訓(xùn)練速度的角度來看，差距更為直觀。GRPO因?yàn)槊康李}都需要生成8個(gè)答案，訓(xùn)練進(jìn)程推進(jìn)得很慢。SPPO每道題只生成1個(gè)答案，在相同時(shí)間內(nèi)能完成更多輪更新。實(shí)驗(yàn)數(shù)據(jù)顯示，SPPO大約在22小時(shí)內(nèi)就能達(dá)到約58分的峰值水平，而GRPO等方法需要明顯更長的時(shí)間才能達(dá)到可比水平，整體速度差距約為5.9倍。

為了確認(rèn)SPPO的優(yōu)勢確實(shí)來自其核心設(shè)計(jì)思想而非其他因素，研究團(tuán)隊(duì)還做了一個(gè)對(duì)照實(shí)驗(yàn)：把SPPO用來訓(xùn)練價(jià)值模型的方式（二元交叉熵?fù)p失）直接嫁接到標(biāo)準(zhǔn)PPO框架上，其他一切保持不變，命名為"PPO + BCE"。結(jié)果顯示，這個(gè)混合方案和標(biāo)準(zhǔn)PPO一樣不穩(wěn)定，同樣出現(xiàn)了性能崩潰。這意味著，SPPO的成功不是因?yàn)槟硞€(gè)特定的數(shù)學(xué)技巧，而是因?yàn)?把整個(gè)推理鏈當(dāng)作一個(gè)整體來評(píng)價(jià)"這個(gè)根本性的框架轉(zhuǎn)變。

**六、不只是紙上談兵：在經(jīng)典游戲控制任務(wù)上的驗(yàn)證**

為了排除"成功可能只是因?yàn)樵谀硞€(gè)特定訓(xùn)練框架下的系統(tǒng)優(yōu)化"這一疑慮，研究團(tuán)隊(duì)把SPPO移植到了五個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)控制任務(wù)上：精密版CartPole（控制桿子不倒）、MountainCar（讓小車爬上山）、Hopper（雙足機(jī)器人前進(jìn)）、LunarLander（月球著陸器著陸）和Pendulum（保持?jǐn)[桿直立）。

這些任務(wù)被專門改造成類似AI推理的稀疏獎(jiǎng)勵(lì)模式：整個(gè)過程中沒有任何中間反饋，只在最終時(shí)刻給出"成功"或"失敗"的二元結(jié)果。這和AI解數(shù)學(xué)題的情境高度吻合。

測試結(jié)果顯示，在難度最高的Hopper和MountainCar任務(wù)上，標(biāo)準(zhǔn)PPO幾乎完全失敗，成功率停在接近零的水平；而SPPO成功解決了這兩個(gè)任務(wù)，成功率穩(wěn)步攀升。在LunarLander上，SPPO保持了穩(wěn)定上升的學(xué)習(xí)曲線，而標(biāo)準(zhǔn)PPO則出現(xiàn)了明顯的波動(dòng)和倒退。在精密CartPole上，SPPO收斂速度明顯更快。這組實(shí)驗(yàn)表明，SPPO的優(yōu)越性是算法本身的特性，在不同的任務(wù)場景下都能復(fù)現(xiàn)。

**七、價(jià)值模型學(xué)到了什么**

研究團(tuán)隊(duì)還專門分析了價(jià)值模型的質(zhì)量，因?yàn)镾PPO的整個(gè)機(jī)制都依賴于一個(gè)能準(zhǔn)確預(yù)測題目難度的價(jià)值模型。

他們隨機(jī)抽取了200道題目，讓AI多次嘗試每道題，用實(shí)際答對(duì)率作為"真實(shí)難度"的衡量標(biāo)準(zhǔn)，再與價(jià)值模型的預(yù)測值做對(duì)比。皮爾遜相關(guān)系數(shù)（衡量線性相關(guān)程度的指標(biāo)，滿分1.0）達(dá)到0.642，斯皮爾曼等級(jí)相關(guān)系數(shù)（衡量排名是否一致）達(dá)到0.664。這意味著價(jià)值模型確實(shí)學(xué)會(huì)了區(qū)分難題和簡單題，雖然不完美，但相關(guān)性足夠顯著，能為訓(xùn)練提供有效的基準(zhǔn)信號(hào)。

研究團(tuán)隊(duì)還觀察到一個(gè)有趣的現(xiàn)象：價(jià)值模型的預(yù)測值整體呈現(xiàn)"保守"的特點(diǎn)，傾向于預(yù)測在0.6到0.7之間，而不是極端的0或1。這種"回歸均值"的行為實(shí)際上對(duì)訓(xùn)練是有益的——它不會(huì)因?yàn)檫^于自信或過于悲觀而產(chǎn)生扭曲的訓(xùn)練信號(hào)，而是始終保持一種適度的不確定性，讓真正的"超常發(fā)揮"和"出乎意料的失誤"都能產(chǎn)生足夠強(qiáng)的糾正信號(hào)。

**說到底，這項(xiàng)研究發(fā)現(xiàn)了什么，又意味著什么**

歸根結(jié)底，這項(xiàng)研究回答了一個(gè)在AI訓(xùn)練領(lǐng)域長期存在爭議的問題：大模型推理能力的訓(xùn)練，應(yīng)該用什么樣的框架來建模？

研究團(tuán)隊(duì)的答案是：把整個(gè)推理過程當(dāng)成"一次性行動(dòng)"來評(píng)價(jià)，而不是"一系列連續(xù)步驟"。這不是一種妥協(xié)，而是一種更貼近問題本質(zhì)的視角。推理過程本身是AI內(nèi)部的思考流，而外部可觀測的、有意義的評(píng)價(jià)對(duì)象是完整的推理結(jié)果，兩者之間不需要強(qiáng)行建立逐步對(duì)應(yīng)關(guān)系。

從實(shí)際影響來看，這項(xiàng)研究降低了訓(xùn)練高質(zhì)量推理AI的門檻。過去，訓(xùn)練一個(gè)70億參數(shù)的推理模型需要同時(shí)加載一個(gè)同等大小的打分員，內(nèi)存壓力極大；而SPPO允許用一個(gè)小十倍的模型擔(dān)任價(jià)值預(yù)測者，讓更多研究者能夠在有限的計(jì)算資源下開展實(shí)驗(yàn)。5.9倍的訓(xùn)練速度提升，則意味著同樣的算力能在更短時(shí)間內(nèi)完成實(shí)驗(yàn)迭代，加快AI推理能力的研究進(jìn)展。

當(dāng)然，這項(xiàng)研究也坦誠地指出了自身的局限：SPPO的設(shè)計(jì)前提是存在一個(gè)明確的對(duì)錯(cuò)判斷——數(shù)學(xué)題是否答正確。對(duì)于那些沒有標(biāo)準(zhǔn)答案的開放性任務(wù)，比如"幫我寫一首感情細(xì)膩的詩"，這個(gè)框架就無從評(píng)判，需要另辟蹊徑。

對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者，可以通過arXiv平臺(tái)，以論文編號(hào)arXiv:2604.08865查閱完整原文，研究團(tuán)隊(duì)也已將全部代碼開源，地址為github.com/sustech-nlp/SPPO，可以直接獲取實(shí)驗(yàn)?zāi)_本和復(fù)現(xiàn)所需的配置參數(shù)。

Q&A

Q1：SPPO和GRPO相比，訓(xùn)練速度快多少，性能有沒有損失？

A：根據(jù)論文實(shí)驗(yàn)數(shù)據(jù)，SPPO在訓(xùn)練速度上比GRPO快約5.9倍，主要原因是GRPO每道題需要同時(shí)生成8個(gè)答案，而SPPO只需生成1個(gè)。性能方面，SPPO不僅沒有損失，在1.5B和7B兩種規(guī)模的模型上，SPPO的綜合平均分都略高于GRPO（N=8）。使用更小尺寸價(jià)值模型的SPPO組合更是拿下了所有測試方法中的最高分。

Q2：SPPO里的價(jià)值模型要多大才夠用，能不能用比主模型小很多的模型？

A：實(shí)驗(yàn)結(jié)果表明，價(jià)值模型可以遠(yuǎn)小于主模型。研究團(tuán)隊(duì)測試了用15億參數(shù)模型作為價(jià)值模型來輔助訓(xùn)練70億參數(shù)主模型，兩者相差約4.7倍。結(jié)果顯示，這個(gè)"小個(gè)子"組合不僅正常工作，還取得了所有方案中的最高測試分?jǐn)?shù)，同時(shí)把顯卡內(nèi)存占用從91.5%降低到78.7%。這說明預(yù)測題目難度所需的能力，遠(yuǎn)比解題能力更容易學(xué)習(xí)。

Q3：標(biāo)準(zhǔn)PPO在推理訓(xùn)練中為什么會(huì)失敗，具體是哪里出了問題？

A：標(biāo)準(zhǔn)PPO失敗的核心原因是"尾部效應(yīng)"——其內(nèi)置的打分員（Critic）無法在幾千步的推理過程中有效分配獎(jiǎng)懲信號(hào)，而是一直等到推理接近結(jié)尾才根據(jù)最后幾行文字猜測結(jié)果，導(dǎo)致整個(gè)中間推理過程既收不到有效激勵(lì)，也收不到有效懲罰。論文通過可視化實(shí)驗(yàn)直接觀察到，正確和錯(cuò)誤推理鏈的價(jià)值曲線在中間階段幾乎完全重疊，只在結(jié)尾附近才分開，證實(shí)了這一失效機(jī)制。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.