国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

拒絕“熵崩塌”和“熵爆炸”!這項研究讓大模型推理成績飆升

0
分享至

大語言模型在RLVR訓練中面臨的“熵困境”,有解了!

2024年以來,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等為代表的大模型,在數(shù)學、代碼和科學推理任務上取得了顯著突破。這些進展很大程度上得益于一種名為RLVR (基于可驗證獎勵的強化學習)的方法。

該方法通過數(shù)學驗證、單元測試等可自動判斷對錯的方式提供訓練信號,替代了傳統(tǒng)依賴人類評判的流程,使模型能夠進行大規(guī)模、高效率的自我改進。

然而,RLVR在實踐中始終面臨“探索機制極易失衡”這一關鍵瓶頸——要么探索受限,陷入熵崩塌;要么探索失控,引發(fā)熵爆炸。

為突破這一瓶頸,來自上海人工智能實驗室和復旦大學等機構的研究團隊提出選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關鍵決策、穩(wěn)定訓練過程的三重機制,實現(xiàn)了對探索行為的精準調控。

實驗證明,該方法不僅在多項數(shù)學推理基準上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。



下面詳細來看——

核心困境:探索的“兩難陷阱”

在RLVR訓練中,研究人員期望模型能夠持續(xù)探索多樣化的解題路徑,以避免過早陷入局部最優(yōu)。

一個自然的想法是:引入熵正則化(entropy regularization)。

這是強化學習中鼓勵探索的經典手段。其核心思想很簡單:在優(yōu)化目標中加入一項,鼓勵模型在每一步生成時保持一定的“不確定性”,不要過早把概率全壓在少數(shù)幾個詞上。

具體來說,就是計算每一步輸出分布的熵(衡量“混亂程度”),再把整條推理軌跡的平均熵加到訓練目標里,用一個系數(shù)控制探索強度。

以下公式分別為:熵的計算公式及熵正則的優(yōu)化目標。





然而,這一策略在大型推理模型(LRM)的復雜場景下卻極易走向兩個極端:

  • 探索受限(熵崩塌)

當太小,熵項幾乎不起作用,模型迅速退化為近似確定性策略。平均熵迅速收斂,即發(fā)生熵崩塌。幾輪訓練后,所有回答都高度相似,陷入“舒適區(qū)”。這種熵崩塌現(xiàn)象不僅扼殺了模型的多樣性,也使其推理能力在訓練早期就觸及天花板,無法充分釋放潛力。

  • 探索失控(熵爆炸)

反之,當稍大,模型便極易在龐大的動作空間(數(shù)十萬個token)與超長的推理軌跡(上千步生成)中失控。根據(jù)熵的定義,當概率分布越“平”,熵就越高。而在如此龐大的詞表中,哪怕只把一點點概率質量從高義詞(如“因此”)挪到無意義詞(如“<”“#@$%”),也能帶來顯著的熵增。

更糟的是,在自回歸生成中,這種不確定性會沿著軌跡逐步累積——早期幾步的微小混亂,會迅速放大為整條推理鏈的失控。最終使得模型為了“拉高熵”,在每個位置、對每個token都分配一點概率,導致生成內容充斥無意義符號,邏輯斷裂、語義崩壞——這就是典型的熵爆炸(entropy explosion)。

傳統(tǒng)方法會失效的根本原因在于:熵正則化的激勵是“無差別”的——它假設所有token、所有位置都同等值得探索。但LRM的生成過程具有鮮明的結構性:

  • 在每個生成步驟上,僅有概率排名靠前的少數(shù)token具備語義合理性,其余絕大多數(shù)token概率趨近于零且無實際意義;
  • 在整個生成序列中,僅有少數(shù)承擔邏輯樞紐作用的關鍵詞(如邏輯連接詞、變量名、結論引導詞)真正影響推理走向,而大量用于句法填充的常規(guī)詞則應保持高確定性,以維持推理連貫性。

正因忽略了這種“探索價值的非均勻分布”,傳統(tǒng)熵正則化不僅難以有效引導探索,反而容易引發(fā)訓練不穩(wěn)定,甚至背離提升推理能力的初衷。

下圖表明,訓練前模型的概率分布高度集中,且只有少量位置在邏輯上關鍵,值得探索;過度探索后概率被攤薄,生成內容混亂。



破局之道:為探索裝上“精準導航”

針對傳統(tǒng)方法的不足,研究人員提出選擇性熵正則化方法(SIREN),通過結構化約束實現(xiàn)探索過程的精細調控。SIREN包含三個核心機制:

1、劃定探索范圍(Top-p掩碼, Top-P Mask)

在每個生成步驟中,將熵的計算范圍嚴格限定于概率最高的核心token集合,確保探索僅在語義合理的候選詞中進行,避免無效探索。

2、識別關鍵決策點(峰值熵掩碼,Peak-entropy Mask)

自動識別生成序列中熵值顯著高于平均水平的邏輯關鍵詞(如推理連接詞、假設引導詞等),并將探索激勵集中作用于這些關鍵位置。

3、穩(wěn)定訓練過程(自錨定正則化, Self-anchored Regularization)

將熵值目標從最大化調整為維持合理區(qū)間,通過動態(tài)錨定機制使探索強度始終處于可控范圍,避免訓練失穩(wěn)。

這一方法首次在RLVR框架中實現(xiàn)了對探索范圍、位置和強度的三重精準控制,為大規(guī)模推理模型的穩(wěn)定訓練提供了可靠解決方案。

下圖為SIREN的方法流程:



實驗驗證:有效探索促進性能提升

實驗結果顯示,SIREN在不同模型和數(shù)據(jù)集上均取得顯著提升。

以下為SIREN在Qwen2.5-Math-7B上的實驗結果:



以及SIREN在其他基座模型上的實驗結果:



上述結果表明:

  • 在Qwen2.5-Math-7B上,SIREN平均maj@k達54.6%,超越最強基線4.8%
  • 在最具挑戰(zhàn)的AIME24/25上,提升均達6.6%
  • 在1.5B到8B不同規(guī)模、不同基座的模型上均穩(wěn)定有效。

那么,這些性能提升從何而來?

分析表明,這正是有效探索帶來的根本性改變。與傳統(tǒng)的熵正則方法相比,SIREN展現(xiàn)出更合理有效的探索模式。

下圖中,SIREN展現(xiàn)出較高的pass@k,探索邊界顯著擴展:



還能避免困惑度坍縮,SIREN將答案多樣性保持良好:



下圖表明,先加大探索再緩慢收斂,訓練過程平穩(wěn)可控:



小結

這項研究致力于解決大語言模型在RLVR訓練中面臨的策略探索難題

通過系統(tǒng)的實證分析,研究人員發(fā)現(xiàn)傳統(tǒng)的探索機制在大規(guī)模動作空間和長序列生成中極易失衡,導致模型陷入熵崩塌和熵爆炸的困境。

為突破這一瓶頸,團隊提出了選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關鍵決策、穩(wěn)定訓練過程的三重機制,實現(xiàn)了對探索行為的精準調控。實驗證明,該方法不僅在多項數(shù)學推理基準上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。

團隊表示,展望未來,隨著強化學習成為大模型后訓練的主流方法,如何實現(xiàn)穩(wěn)定、可控、高效的探索,將成為釋放大模型潛力、突破性能瓶頸的核心議題。該研究提出的選擇性探索調控機制,為探索的精細化提供了一種可行的解決方案。

團隊期待這項工作能為下一代推理模型的訓練范式提供啟發(fā),推動大模型在數(shù)學、代碼、科學推理等復雜任務以及其他更廣闊的應用領域走得更遠。

論文鏈接:https://arxiv.org/abs/2509.25133
項目主頁:https://github.com/Linn3a/siren

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
憋尿看完阿凡達3,我連連感慨:留給好萊塢的時間,真的不多了

憋尿看完阿凡達3,我連連感慨:留給好萊塢的時間,真的不多了

糊咖娛樂
2025-12-22 17:14:59
已失業(yè)6個月 35歲巴神獲沙特土豪3年肥約:身價40萬歐 去年6場0球

已失業(yè)6個月 35歲巴神獲沙特土豪3年肥約:身價40萬歐 去年6場0球

風過鄉(xiāng)
2025-12-23 09:15:13
出現(xiàn)這種情況,黃金才會下跌

出現(xiàn)這種情況,黃金才會下跌

柏年說政經
2025-12-23 18:00:03
中國10大美食之都,西安第4,廣州第2,第1實至名歸,有空逛一逛

中國10大美食之都,西安第4,廣州第2,第1實至名歸,有空逛一逛

簡食記工作號
2025-12-23 00:13:58
這個說法很火:中日若開戰(zhàn),除俄羅斯外,全世界各國都會暗自叫好

這個說法很火:中日若開戰(zhàn),除俄羅斯外,全世界各國都會暗自叫好

百態(tài)人間
2025-12-23 16:38:00
山東20億輪胎項目爛尾,1375萬“白菜價”拍賣

山東20億輪胎項目爛尾,1375萬“白菜價”拍賣

輪胎報官方
2025-12-22 15:41:27
這一次,國家真的聽了盧麒元的話,盧麒元真的開了個好處方。

這一次,國家真的聽了盧麒元的話,盧麒元真的開了個好處方。

放開他讓wo來
2025-12-23 08:51:40
舊石器時代長達三百萬年,為啥直到幾千年前才突然開竅?

舊石器時代長達三百萬年,為啥直到幾千年前才突然開竅?

詩意世界
2025-12-23 11:20:57
8連漲停!001331,最新公告!

8連漲停!001331,最新公告!

證券時報e公司
2025-12-23 21:53:49
穩(wěn)了!中央三部門集中發(fā)聲!2026年,樓市開啟“絕地反擊”…

穩(wěn)了!中央三部門集中發(fā)聲!2026年,樓市開啟“絕地反擊”…

居者
2025-12-23 18:07:04
88年陳偉文果斷亮劍,擊沉越軍三艘軍艦,拿下200萬平方公里三沙市

88年陳偉文果斷亮劍,擊沉越軍三艘軍艦,拿下200萬平方公里三沙市

睡前講故事
2025-12-21 16:02:50
壽命與起夜次數(shù)有關?研究發(fā)現(xiàn):壽命長的人,每晚起夜在這個次數(shù)

壽命與起夜次數(shù)有關?研究發(fā)現(xiàn):壽命長的人,每晚起夜在這個次數(shù)

九天攬月1
2025-12-21 18:57:31
北京工大附中體育老師李想猝死,年僅39歲,生前常健身,滿身肌肉

北京工大附中體育老師李想猝死,年僅39歲,生前常健身,滿身肌肉

180視角
2025-12-22 11:38:11
沒有回旋余地,中國下令直接收回,17萬日本人淚奔,高市闖禍了!

沒有回旋余地,中國下令直接收回,17萬日本人淚奔,高市闖禍了!

春秋論娛
2025-12-23 07:30:17
中日各方已準備就緒!就等12月26日,高市早苗敢不敢去參拜神廁

中日各方已準備就緒!就等12月26日,高市早苗敢不敢去參拜神廁

扶蘇聊歷史
2025-12-22 14:10:47
特朗普急眼了!美軍公海劫中國11億原油,中國反制信號已亮

特朗普急眼了!美軍公海劫中國11億原油,中國反制信號已亮

陳博世財經
2025-12-22 10:52:10
同樣是輸3場,今年雷霆26勝3負,16年勇士多少勝3負?差距真不小

同樣是輸3場,今年雷霆26勝3負,16年勇士多少勝3負?差距真不小

大西體育
2025-12-23 16:04:31
泰國的聰明,不亞于朝鮮和巴基斯坦,打完泰柬沖突后,鐵定上桌了

泰國的聰明,不亞于朝鮮和巴基斯坦,打完泰柬沖突后,鐵定上桌了

離離言幾許
2025-12-23 16:03:54
雷軍、劉強東都穿的跑鞋,成了進入中產的新“敲門磚”?

雷軍、劉強東都穿的跑鞋,成了進入中產的新“敲門磚”?

新10億商業(yè)參考
2025-12-23 18:42:48
央視曝光!真的不要買!頭皮發(fā)麻!這些“爆火產品”竟來自垃圾站

央視曝光!真的不要買!頭皮發(fā)麻!這些“爆火產品”竟來自垃圾站

凡知
2025-12-23 19:57:28
2025-12-24 01:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11903文章數(shù) 176341關注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產攻擊

頭條要聞

法國倉庫被指遭盜竊損失超3億元 京東深夜回應

頭條要聞

法國倉庫被指遭盜竊損失超3億元 京東深夜回應

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應阿信感謝,自曝沒再收到邀約

財經要聞

祥源系百億產品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

親子
房產
教育
家居
數(shù)碼

親子要聞

幼兒園小朋友雙手運球,動作絲滑,平衡滿分。網(wǎng)友:仿佛看到了未來之星

房產要聞

獨家猛料!16.1億,浙江老板搶下雅居樂清水灣261畝重磅宅地!

教育要聞

一定要讓孩子明白,什么是無效學習

家居要聞

通透明亮 大氣輕奢風

數(shù)碼要聞

創(chuàng)新推出ACE SXFI藍牙耳機,699元

無障礙瀏覽 進入關懷版