網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

拒絕“熵崩塌”和“熵爆炸”！這項(xiàng)研究讓大模型推理成績飆升

2025-10-13 17:09:26　來源: 量子位

北京舉報(bào)

分享至

大語言模型在RLVR訓(xùn)練中面臨的“熵困境”，有解了！

2024年以來，以O(shè)penAI o1、DeepSeek-R1、Kimi K1、Qwen3等為代表的大模型，在數(shù)學(xué)、代碼和科學(xué)推理任務(wù)上取得了顯著突破。這些進(jìn)展很大程度上得益于一種名為RLVR （基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)）的方法。

該方法通過數(shù)學(xué)驗(yàn)證、單元測試等可自動(dòng)判斷對(duì)錯(cuò)的方式提供訓(xùn)練信號(hào)，替代了傳統(tǒng)依賴人類評(píng)判的流程，使模型能夠進(jìn)行大規(guī)模、高效率的自我改進(jìn)。

然而，RLVR在實(shí)踐中始終面臨“探索機(jī)制極易失衡”這一關(guān)鍵瓶頸——要么探索受限，陷入熵崩塌；要么探索失控，引發(fā)熵爆炸。

為突破這一瓶頸，來自上海人工智能實(shí)驗(yàn)室和復(fù)旦大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出選擇性熵正則化方法（SIREN），通過劃定探索范圍、聚焦關(guān)鍵決策、穩(wěn)定訓(xùn)練過程的三重機(jī)制，實(shí)現(xiàn)了對(duì)探索行為的精準(zhǔn)調(diào)控。

實(shí)驗(yàn)證明，該方法不僅在多項(xiàng)數(shù)學(xué)推理基準(zhǔn)上取得了顯著性能提升，更重要的是，它讓模型的探索過程變得更加高效與可控。

下面詳細(xì)來看——

核心困境：探索的“兩難陷阱”

在RLVR訓(xùn)練中，研究人員期望模型能夠持續(xù)探索多樣化的解題路徑，以避免過早陷入局部最優(yōu)。

一個(gè)自然的想法是：引入熵正則化（entropy regularization）。

這是強(qiáng)化學(xué)習(xí)中鼓勵(lì)探索的經(jīng)典手段。其核心思想很簡單：在優(yōu)化目標(biāo)中加入一項(xiàng)，鼓勵(lì)模型在每一步生成時(shí)保持一定的“不確定性”，不要過早把概率全壓在少數(shù)幾個(gè)詞上。

具體來說，就是計(jì)算每一步輸出分布的熵（衡量“混亂程度”），再把整條推理軌跡的平均熵加到訓(xùn)練目標(biāo)里，用一個(gè)系數(shù)控制探索強(qiáng)度。

以下公式分別為：熵的計(jì)算公式及熵正則的優(yōu)化目標(biāo)。

然而，這一策略在大型推理模型（LRM）的復(fù)雜場景下卻極易走向兩個(gè)極端：

探索受限（熵崩塌）

當(dāng)太小，熵項(xiàng)幾乎不起作用，模型迅速退化為近似確定性策略。平均熵迅速收斂，即發(fā)生熵崩塌。幾輪訓(xùn)練后，所有回答都高度相似，陷入“舒適區(qū)”。這種熵崩塌現(xiàn)象不僅扼殺了模型的多樣性，也使其推理能力在訓(xùn)練早期就觸及天花板，無法充分釋放潛力。

探索失控（熵爆炸）

反之，當(dāng)稍大，模型便極易在龐大的動(dòng)作空間（數(shù)十萬個(gè)token）與超長的推理軌跡（上千步生成）中失控。根據(jù)熵的定義，當(dāng)概率分布越“平”，熵就越高。而在如此龐大的詞表中，哪怕只把一點(diǎn)點(diǎn)概率質(zhì)量從高義詞（如“因此”）挪到無意義詞（如“<”“#@$%”），也能帶來顯著的熵增。

更糟的是，在自回歸生成中，這種不確定性會(huì)沿著軌跡逐步累積——早期幾步的微小混亂，會(huì)迅速放大為整條推理鏈的失控。最終使得模型為了“拉高熵”，在每個(gè)位置、對(duì)每個(gè)token都分配一點(diǎn)概率，導(dǎo)致生成內(nèi)容充斥無意義符號(hào)，邏輯斷裂、語義崩壞——這就是典型的熵爆炸（entropy explosion）。

傳統(tǒng)方法會(huì)失效的根本原因在于：熵正則化的激勵(lì)是“無差別”的——它假設(shè)所有token、所有位置都同等值得探索。但LRM的生成過程具有鮮明的結(jié)構(gòu)性：

在每個(gè)生成步驟上，僅有概率排名靠前的少數(shù)token具備語義合理性，其余絕大多數(shù)token概率趨近于零且無實(shí)際意義；
在整個(gè)生成序列中，僅有少數(shù)承擔(dān)邏輯樞紐作用的關(guān)鍵詞（如邏輯連接詞、變量名、結(jié)論引導(dǎo)詞）真正影響推理走向，而大量用于句法填充的常規(guī)詞則應(yīng)保持高確定性，以維持推理連貫性。

正因忽略了這種“探索價(jià)值的非均勻分布”，傳統(tǒng)熵正則化不僅難以有效引導(dǎo)探索，反而容易引發(fā)訓(xùn)練不穩(wěn)定，甚至背離提升推理能力的初衷。

下圖表明，訓(xùn)練前模型的概率分布高度集中，且只有少量位置在邏輯上關(guān)鍵，值得探索；過度探索后概率被攤薄，生成內(nèi)容混亂。

破局之道：為探索裝上“精準(zhǔn)導(dǎo)航”

針對(duì)傳統(tǒng)方法的不足，研究人員提出選擇性熵正則化方法（SIREN），通過結(jié)構(gòu)化約束實(shí)現(xiàn)探索過程的精細(xì)調(diào)控。SIREN包含三個(gè)核心機(jī)制：

1、劃定探索范圍（Top-p掩碼, Top-P Mask）

在每個(gè)生成步驟中，將熵的計(jì)算范圍嚴(yán)格限定于概率最高的核心token集合，確保探索僅在語義合理的候選詞中進(jìn)行，避免無效探索。

2、識(shí)別關(guān)鍵決策點(diǎn)（峰值熵掩碼，Peak-entropy Mask）

自動(dòng)識(shí)別生成序列中熵值顯著高于平均水平的邏輯關(guān)鍵詞（如推理連接詞、假設(shè)引導(dǎo)詞等），并將探索激勵(lì)集中作用于這些關(guān)鍵位置。

3、穩(wěn)定訓(xùn)練過程（自錨定正則化, Self-anchored Regularization）

將熵值目標(biāo)從最大化調(diào)整為維持合理區(qū)間，通過動(dòng)態(tài)錨定機(jī)制使探索強(qiáng)度始終處于可控范圍，避免訓(xùn)練失穩(wěn)。

這一方法首次在RLVR框架中實(shí)現(xiàn)了對(duì)探索范圍、位置和強(qiáng)度的三重精準(zhǔn)控制，為大規(guī)模推理模型的穩(wěn)定訓(xùn)練提供了可靠解決方案。

下圖為SIREN的方法流程：

實(shí)驗(yàn)驗(yàn)證：有效探索促進(jìn)性能提升

實(shí)驗(yàn)結(jié)果顯示，SIREN在不同模型和數(shù)據(jù)集上均取得顯著提升。

以下為SIREN在Qwen2.5-Math-7B上的實(shí)驗(yàn)結(jié)果：

以及SIREN在其他基座模型上的實(shí)驗(yàn)結(jié)果：

上述結(jié)果表明：

在Qwen2.5-Math-7B上，SIREN平均maj@k達(dá)54.6%，超越最強(qiáng)基線4.8%
在最具挑戰(zhàn)的AIME24/25上，提升均達(dá)6.6%
在1.5B到8B不同規(guī)模、不同基座的模型上均穩(wěn)定有效。

那么，這些性能提升從何而來？

分析表明，這正是有效探索帶來的根本性改變。與傳統(tǒng)的熵正則方法相比，SIREN展現(xiàn)出更合理有效的探索模式。

下圖中，SIREN展現(xiàn)出較高的pass@k，探索邊界顯著擴(kuò)展：

還能避免困惑度坍縮，SIREN將答案多樣性保持良好：

下圖表明，先加大探索再緩慢收斂，訓(xùn)練過程平穩(wěn)可控：

小結(jié)

這項(xiàng)研究致力于解決大語言模型在RLVR訓(xùn)練中面臨的策略探索難題。

通過系統(tǒng)的實(shí)證分析，研究人員發(fā)現(xiàn)傳統(tǒng)的探索機(jī)制在大規(guī)模動(dòng)作空間和長序列生成中極易失衡，導(dǎo)致模型陷入熵崩塌和熵爆炸的困境。

為突破這一瓶頸，團(tuán)隊(duì)提出了選擇性熵正則化方法（SIREN），通過劃定探索范圍、聚焦關(guān)鍵決策、穩(wěn)定訓(xùn)練過程的三重機(jī)制，實(shí)現(xiàn)了對(duì)探索行為的精準(zhǔn)調(diào)控。實(shí)驗(yàn)證明，該方法不僅在多項(xiàng)數(shù)學(xué)推理基準(zhǔn)上取得了顯著性能提升，更重要的是，它讓模型的探索過程變得更加高效與可控。

團(tuán)隊(duì)表示，展望未來，隨著強(qiáng)化學(xué)習(xí)成為大模型后訓(xùn)練的主流方法，如何實(shí)現(xiàn)穩(wěn)定、可控、高效的探索，將成為釋放大模型潛力、突破性能瓶頸的核心議題。該研究提出的選擇性探索調(diào)控機(jī)制，為探索的精細(xì)化提供了一種可行的解決方案。

團(tuán)隊(duì)期待這項(xiàng)工作能為下一代推理模型的訓(xùn)練范式提供啟發(fā)，推動(dòng)大模型在數(shù)學(xué)、代碼、科學(xué)推理等復(fù)雜任務(wù)以及其他更廣闊的應(yīng)用領(lǐng)域走得更遠(yuǎn)。

論文鏈接：https://arxiv.org/abs/2509.25133
項(xiàng)目主頁：https://github.com/Linn3a/siren

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.