国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

LLM強化學習不穩(wěn)定之謎,被Qwen團隊從「一階近似」視角解開

0
分享至


來源:機器之心

如今,強化學習(RL)已成為提升大語言模型(LLM)復雜推理與解題能力的關鍵技術范式,而穩(wěn)定的訓練過程對于成功擴展 RL 至關重要。由于語言具有強烈的上下文屬性,LLM 的 RL 通常依賴序列級獎勵 —— 即根據完整生成序列給一個標量分數。

然而,主流 RL 算法(如 REINFORCE 與 GRPO)普遍采用基于 token 的優(yōu)化目標。這種「獎勵在序列級、優(yōu)化在 token 級」的不匹配引發(fā)了對于它們理論健全性與訓練穩(wěn)定性的擔憂,因此已經有研究嘗試直接使用序列級優(yōu)化目標。

此外,token 級優(yōu)化目標在混合專家(MoE)模型的 RL 訓練中帶來了新的挑戰(zhàn),比如 MoE 的動態(tài)專家路由機制可能破壞 token 級重要性采樣比的有效性。由此引出的關鍵問題是:在什么條件下,用 token 級目標優(yōu)化序列級獎勵是合理的?有效程度又是怎樣的?

針對這些問題,阿里千問團隊提出了一種針對 LLM 的全新 RL 公式化方法。核心洞察是:為了優(yōu)化序列級獎勵的期望值,可以使用一個替代(surrogate)token 級目標作為其一階近似。這一近似在以下兩種偏差都足夠小的條件下才成立:

  • 訓練與推理之間的數值差異

  • 用于采樣響應的 rollout 策略與需要優(yōu)化的目標策略之間的偏差

這一觀點從原理上解釋了多種 RL 穩(wěn)定訓練技巧的有效性,比如 1)重要性采樣權重天然出現(xiàn)在基于該一階近似的 token 級替代目標中;2)剪切(Clipping)機制通過限制策略變化幅度來抑制策略陳舊;3)在 MoE 中,路由重放(Routing Replay)方法通過在策略優(yōu)化過程中固定專家路由,能夠同時減少訓練–推理差異與策略陳舊,從而提高訓練穩(wěn)定性。


  • 論文標題:Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

  • 論文地址:https://www.arxiv.org/pdf/2512.01374

為驗證本文理論洞察并探索實現(xiàn)穩(wěn)定 RL 訓練的有效實踐,團隊使用一個 30B 參數的 MoE 模型進行大量實驗,總計耗費數十萬 GPU 小時。

主要結論包括如下:

  • 在 on-policy 訓練中,帶重要性采樣校正的基本策略梯度方法能夠實現(xiàn)最高的訓練穩(wěn)定性;

  • 在引入 off-policy 更新以加速收斂時(即將大規(guī)模生成的響應批次拆分成多個 mini-batch 進行多次梯度更新),要緩解因策略陳舊而導致的不穩(wěn)定性,就必須同時使用 Clipping 與 Routing Replay;

  • 在訓練穩(wěn)定后,不同冷啟動方式的模型最終性能趨于一致。這說明未來研究應更關注 RL 方法本身,而不必過度強調冷啟動細節(jié)。隨著 RL 訓練的持續(xù),冷啟動帶來的差異最終會消失。

大語言模型(LLM)強化學習的公式化方法

團隊將一個由參數 θ 表示的自回歸大語言模型(LLM)定義為策略 π_θ。他們使用 表示提示集,用 表示數據集。在策略 π_θ 下,給定提示 x,模型生成響應 y 的似然可寫作,其中 |y| 是響應 y 的 token 數。

由于團隊采用的是序列級獎勵設置,即對整個響應 y 賦予一個標量獎勵 R (x, y),因此專注于序列級優(yōu)化,而不考慮基于價值函數的設置(比如 PPO),其中每個 token 會從價值模型獲得一個標量評分從而引導策略優(yōu)化。

至于為什么不采用價值函數方法,是因為團隊發(fā)現(xiàn):構建通用、可擴展且可靠的價值模型本身就極為困難(甚至幾乎不可能)。

直接優(yōu)化期望序列級獎勵非常困難

團隊的公式化方法從真正希望最大化的序列級獎勵期望出發(fā):


其中 π_θ 是目標策略。由于模型生成響應通常并非在訓練引擎(如 Megatron、FSDP)中完成,而是在推理引擎(如 SGLang、vLLM)中進行,團隊采用重要性采樣(IS)來完成等價的變換:


Token 級目標作為序列級目標的一階近似

關鍵步驟是引入以下替代的 token 級優(yōu)化目標:


其梯度為:

這一梯度形式實際上就是帶 token 級重要性采樣權重的基本策略梯度算法(REINFORCE)。核心洞察是:公式 (3) 中的 token 級目標可以視為公式 (1) 中序列級目標的一階近似。也就是說,團隊用一個更易優(yōu)化的 token 級替代目標來逼近真正希望最大化的序列級期望獎勵。

一階近似成立的條件

為了使上述一階近似有效,需要滿足一個關鍵條件:目標策略 π_θ 與 rollout 策略 μ_{θ_old} 必須足夠接近。這一點乍看不太直觀,因此為了便于理解,對于給定的提示 x 和任意 token y_t,團隊將其重要性采樣權重(IS)重寫為:


MoE 模型的挑戰(zhàn)及 Routing Replay 方法

對于 MoE 模型而言,使一階近似成立的條件變得更為復雜。具體來說,在生成每個 token 的前向計算中,MoE 模型會通過專家路由機制動態(tài)選擇并激活少量專家參數。將專家路由納入公式 (5) 后,MoE 模型的 token 級 IS 權重可寫為:


由此可以看出,MoE 場景下的強化學習挑戰(zhàn)在于:專家路由與訓練 — 推理差異、策略陳舊的緊密耦合,從而更容易導致公式 (3) 中基于一階近似的 token 級替代優(yōu)化目標失效。

Routing Replay 使一階近似重新成立,但可能引入偏差

由于專家路由會削弱 MoE 模型中一階近似的有效性,可通過 Routing Replay 方法消除這一影響。Routing Replay 的核心思想是在策略優(yōu)化過程中固定路由到的專家,從而穩(wěn)定 MoE 模型的 RL 訓練,使其在優(yōu)化行為上更接近稠密模型。

Routing Replay 主要有兩種具體實現(xiàn)方式:Vanilla Routing Replay(R2) 與 Rollout Routing Replay(R3)。

R2 的目標是減輕專家路由對策略陳舊的影響,其方法是在梯度更新階段,復現(xiàn)訓練引擎中 rollout 策略所選擇的路由專家:


R3 的目標是減輕專家路由對訓練 — 推理差異的影響,其實現(xiàn)方式是在訓練引擎中統(tǒng)一復現(xiàn)推理引擎中 rollout 策略所選定的路由專家。這一做法不僅降低了訓練 — 推理差異,也同時緩解了專家路由對策略陳舊的影響:


實驗結果

在實驗中,團隊對公式 (3) 的 REINFORCE 優(yōu)化目標進行了兩項最小化修改,從而構建了一個極簡基線算法,稱為 MiniRL。

團隊在數學推理任務上進行了實驗,內容為:模型生成的回答會與標準答案比對,并獲得一個二值獎勵。團隊構建了包含 4096 道、均具有經過驗證答案的數學題目作為 RL 訓練的提示集。評測時,團隊在 HMMT25、AIME25 和 AIME24 基準上(這三個基準共包含 90 道競賽級數學題)分別采樣 32 個響應,并報告其平均準確率。

實驗采用了從 Qwen3-30B-A3B-Base 微調得到的冷啟動模型。訓練采用 BF16 精度,而推理由于使用 FP8 精度而具有更低數值精度,從而構成一種嚴格的應力測試場景,即訓練與推理之間存在較大的數值差異。除了訓練獎勵,團隊還監(jiān)測了兩項動態(tài)指標:目標策略的 token 級熵以及推理引擎與訓練引擎中 rollout 策略之間的 KL 散度。

On-policy 訓練結果

從下圖 1 中,團隊得到了以下觀察結果與結論:

  • MiniRL(即帶重要性采樣校正的基本策略梯度算法)取得了最佳性能和最高訓練穩(wěn)定性。

  • 即使訓練過程仍然穩(wěn)定,引入長度歸一化仍會導致性能下降。這一現(xiàn)象符合預期,因為長度歸一化破壞了對真實序列級獎勵的一階近似,從而使 token 級優(yōu)化目標產生偏差。

  • 移除訓練 — 推理階段的 IS 校正會導致訓練迅速崩潰,并伴隨熵的急劇下降。這進一步驗證了:IS 權重是該一階近似中不可或缺的組成部分;一旦移除,token 級優(yōu)化目標將立即失效。


Off-policy 訓練結果

從下圖 2 至圖 4 中,團隊得到了以下觀察結果與結論:一旦引入 off-policy 更新,Routing Replay 與 clipping 都成為實現(xiàn)穩(wěn)定訓練的關鍵要素。

具體來講,如圖 2 和圖 3 所示,只要缺失 Routing Replay 或 clipping 中的任一項,訓練都會提前崩潰,進而導致峰值性能下降。這說明:Routing Replay 能夠緩解專家路由帶來的不穩(wěn)定因素;Clipping 則能有效抑制過度激進的策略更新。兩者共同作用,從而抑制策略陳舊,保障訓練穩(wěn)定性。




不同冷啟動初始化的結果

在下圖 5 中,團隊展示了三種不同的冷啟動初始化方式最終都取得了相近的性能。這一現(xiàn)象表明,研究重點應更多放在強化學習(RL)方法本身,而不必過度關注冷啟動初始化的具體細節(jié)。

此外,通過對比圖 1 至圖 4,團隊發(fā)現(xiàn):無論是 on-policy 還是 off-policy,只要訓練過程得以穩(wěn)定,其峰值性能都高度一致。這些結果進一步說明:穩(wěn)定的訓練過程在成功擴展 RL 中起著決定性作用。


更多技術細節(jié)請參閱原論文。

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩千年來“赤馬紅羊年”總是多事之秋,歷史上都發(fā)生了哪些大事?

兩千年來“赤馬紅羊年”總是多事之秋,歷史上都發(fā)生了哪些大事?

天罡密錄局
2025-02-20 15:21:31
一路走好!不到48小時傳來3位名人離世的消息,一個比一個意外

一路走好!不到48小時傳來3位名人離世的消息,一個比一個意外

鋭娛之樂
2025-12-27 19:13:29
把副省長文國棟拉下馬的環(huán)保案件,賠償了50億

把副省長文國棟拉下馬的環(huán)保案件,賠償了50億

極目新聞
2025-12-26 22:46:14
齒輪上的薄霜:女秘書的無聲詩

齒輪上的薄霜:女秘書的無聲詩

疾跑的小蝸牛
2025-12-27 22:54:05
不是迷信,元旦,最不能做“4件事”!

不是迷信,元旦,最不能做“4件事”!

狼小妖
2025-12-28 00:12:13
首批中國游客赴俄遭“天價宰殺”落地即“失聯(lián)”支付系統(tǒng)全面失靈

首批中國游客赴俄遭“天價宰殺”落地即“失聯(lián)”支付系統(tǒng)全面失靈

深度報
2025-12-23 22:47:10
無錫著名大市場 將整體搬遷

無錫著名大市場 將整體搬遷

無錫eTV全媒體
2025-12-27 20:08:54
面試官:“一根5米長的木棍,不使用任何手段,如何變短?

面試官:“一根5米長的木棍,不使用任何手段,如何變短?

In風尚
2025-12-02 21:35:19
山西省運城市絳縣縣委原書記、二級巡視員解芳被“雙開”

山西省運城市絳縣縣委原書記、二級巡視員解芳被“雙開”

界面新聞
2025-12-27 17:06:04
此前歸還給中國的土地,普京又起念頭了,外媒:中國再度雪中送暖

此前歸還給中國的土地,普京又起念頭了,外媒:中國再度雪中送暖

科普100克克
2025-12-06 15:45:55
阿森納遭重創(chuàng)!后防線僅3人完全健康 下輪還得踢維拉

阿森納遭重創(chuàng)!后防線僅3人完全健康 下輪還得踢維拉

球事百科吖
2025-12-28 02:14:41
醫(yī)學博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

醫(yī)學博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

深度報
2025-12-21 23:01:02
法國拒不接受中國反制,馬克龍轉身發(fā)現(xiàn)不妙,特朗普也對歐盟出手

法國拒不接受中國反制,馬克龍轉身發(fā)現(xiàn)不妙,特朗普也對歐盟出手

歷史有些冷
2025-12-26 17:50:03
洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

阿柒的訊
2025-12-23 18:22:55
2026年開始,建議你用回現(xiàn)金不是懷舊,是很多人已經開始后悔了

2026年開始,建議你用回現(xiàn)金不是懷舊,是很多人已經開始后悔了

搬磚營Z
2025-12-26 17:23:45
“聽話,趕緊去柬埔寨和大鵝旅游!”這波操作太魔幻

“聽話,趕緊去柬埔寨和大鵝旅游!”這波操作太魔幻

胡嚴亂語
2025-12-26 15:08:03
承德外八廟文物被盜案與李春平

承德外八廟文物被盜案與李春平

戶外小阿隋
2025-12-27 13:53:01
徐波生了300個孩子?揭露了人類社會的本質問題

徐波生了300個孩子?揭露了人類社會的本質問題

歷史總在押韻
2025-11-17 00:05:07
中央特科最美傳奇女特工被判槍決,毛主席拍案大怒:她是全黨的恩人

中央特科最美傳奇女特工被判槍決,毛主席拍案大怒:她是全黨的恩人

睡前講故事
2025-12-21 16:15:28
錢再多有什么用?看到馬斯克大兒子巴黎走秀視頻,才知他有多可悲

錢再多有什么用?看到馬斯克大兒子巴黎走秀視頻,才知他有多可悲

娛圈小愚
2025-12-26 11:45:20
2025-12-28 04:40:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4423文章數 37357關注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

教育
藝術
旅游
本地
軍事航空

教育要聞

五年級附加題難度確實不小,很多孩子看到就直接放棄!

藝術要聞

驚艷!這件木雕美得讓人心動,絕對不容錯過!

旅游要聞

來廣東跨年,大家的選擇就是最寶貴的信任票

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

軍事要聞

俄稱已控制庫皮揚斯克 正清繳烏軍

無障礙瀏覽 進入關懷版