国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

RL特訓(xùn)出「押題大師」?破解模型微調(diào)中的多樣性危機(jī)與災(zāi)難性遺忘

0
分享至


新智元報(bào)道

編輯:YHluck

【新智元導(dǎo)讀】RL之后,大模型為什么更容易「越訓(xùn)越單一」?面對(duì)五花八門(mén)的改進(jìn)思路,也許答案并不復(fù)雜:先試著改一改KL項(xiàng)。

近年來(lái),基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Verifiable Reward, RLVR)已成為提升大語(yǔ)言模型推理能力的重要路徑。

從數(shù)學(xué)求解到代碼生成,再到SQL推斷,大量研究表明,RL能顯著提升模型在單次作答場(chǎng)景下的成功率。

然而,一個(gè)關(guān)鍵現(xiàn)象始終未得到充分解釋:為什么許多經(jīng)過(guò)RL微調(diào)的模型,雖然 Pass@1提升了,但在允許多次嘗試時(shí),Pass@k反而下降了?

這表明,模型或許更擅長(zhǎng)「押中一次正確答案」,卻喪失了原本豐富的解題路徑與候選解空間。更進(jìn)一步,這種現(xiàn)象往往伴隨著災(zāi)難性遺忘(Catastrophic Forgetting)和跨領(lǐng)域泛化能力的下降。

現(xiàn)有方法通常將注意力集中于獎(jiǎng)勵(lì)設(shè)計(jì)、采樣策略或熵調(diào)控,但研究團(tuán)隊(duì)發(fā)現(xiàn),一個(gè)更基礎(chǔ)、更關(guān)鍵的問(wèn)題長(zhǎng)期被忽視:RL目標(biāo)中的divergence項(xiàng),究竟應(yīng)如何選擇?

針對(duì)這一問(wèn)題,復(fù)旦大學(xué)、無(wú)限光年、上??茖W(xué)智能研究院(下稱上智院)、上海創(chuàng)智學(xué)院的聯(lián)合研究團(tuán)隊(duì)聚焦于長(zhǎng)期被忽視的KL散度項(xiàng),從divergence選擇的角度破解這一難題。相關(guān)研究成果已被ICLR2026接收。


論文標(biāo)題:The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

論文鏈接:https://arxiv.org/abs/2509.07430

代碼鏈接:https://github.com/seamoke/DPH-RL

復(fù)旦大學(xué)博士生、無(wú)限光年實(shí)習(xí)生李龍,復(fù)旦大學(xué)及上海創(chuàng)智學(xué)院博士生周潪劍,為共同一作。復(fù)旦大學(xué)研究員、上海科學(xué)智能研究院AI科學(xué)家屈超,為通訊作者。

divergence 選擇困境:

反向KL與約束缺失的代價(jià)

在大多數(shù)RL后訓(xùn)練方法中,常見(jiàn)做法是采用reverse-KL,或直接移除 divergence 約束。然而,這兩種選擇均存在明顯缺陷:


  • Reverse-KL本質(zhì)上是mode-seeking的,會(huì)鼓勵(lì)策略向少數(shù)高概率模式收縮;

  • 缺失divergence項(xiàng)意味著模型在訓(xùn)練過(guò)程中缺乏對(duì)原始知識(shí)分布的顯式保護(hù)機(jī)制。


這兩種設(shè)定都會(huì)導(dǎo)致模型日益集中于少量「熟悉答案」,進(jìn)而引發(fā)Pass@k下降、既有能力遺忘以及跨任務(wù)泛化能力減弱。若以更形式化的方式表述,傳統(tǒng) RLVR 可概括為:


其中,πθ為當(dāng)前策略,πref為參考策略(通常為初始模型或SFT模型)。問(wèn)題的關(guān)鍵在于:若此處的divergence選擇不當(dāng),后半部分將不再是「保護(hù)機(jī)制」,反而會(huì)淪為「多樣性壓縮器」。


若將基礎(chǔ)模型視為已掌握大量知識(shí)與多樣解法的「知識(shí)分布」,那么RL微調(diào)的目標(biāo)本應(yīng)是在保留既有能力的前提下進(jìn)一步提升任務(wù)表現(xiàn)。

然而現(xiàn)實(shí)中,許多RL方法更像是在不斷強(qiáng)化少數(shù)高回報(bào)軌跡——模型逐漸偏向一兩種最易獲得獎(jiǎng)勵(lì)的解法,而舍棄了原本同樣有效但出現(xiàn)頻率較低的其他路徑。

研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)有趣的實(shí)驗(yàn):通過(guò)SFT讓模型學(xué)習(xí)到多種不同風(fēng)格的回答方式,僅憑前綴即可判斷模型采用了哪種風(fēng)格;然而經(jīng)過(guò)標(biāo)準(zhǔn)GRPO訓(xùn)練后,模型幾乎只保留了一種風(fēng)格。

因此,研究團(tuán)隊(duì)認(rèn)為,RLVR中真正需要解決的,不僅是「如何學(xué)得更強(qiáng)」,更包括:如何在優(yōu)化獎(jiǎng)勵(lì)的同時(shí),保全模型原本擁有的多樣性。

方法:

將divergence從「約束項(xiàng)」重塑為「保多樣性機(jī)制」


基于上述觀察,團(tuán)隊(duì)提出了DPH-RL(Diversity-Preserving Hybrid RL)。這項(xiàng)工作的核心思想是:

divergence不應(yīng)僅是訓(xùn)練時(shí)的附帶正則項(xiàng),而應(yīng)被重新設(shè)計(jì)為主動(dòng)保護(hù)模型多樣性的機(jī)制。

具體而言,不再沿用傳統(tǒng)的reverse-KL,而是引入更具mass-covering性質(zhì)的 ,例如:


與傾向于收縮至單一模式的reverse-KL不同,這類divergence會(huì)鼓勵(lì)新策略繼續(xù)覆蓋參考策略中原本存在的多種解法。換言之,它并非強(qiáng)迫模型「只記住最優(yōu)路徑」,而是在提醒模型:「你可以繼續(xù)變強(qiáng),但不要忘記原本掌握的東西?!?/p>

從機(jī)制上看,該研究的方法可理解為一種rehearsal mechanism(復(fù)現(xiàn)機(jī)制):模型在訓(xùn)練過(guò)程中持續(xù)參考初始策略的分布,從而保留原有的知識(shí)覆蓋范圍,避免在強(qiáng)化學(xué)習(xí)過(guò)程中發(fā)生過(guò)度收縮。

以提到的forward-KL為例:

此處的期望是對(duì)參考策略πref取的。只要參考策略曾覆蓋過(guò)某些合理解法,新策略πθ便不能輕易將其概率壓至接近零。正因如此,forward-KL更具mass-covering傾向,更適合作為「保多樣性」的工具。

進(jìn)一步地,論文還引入了JS divergence作為更穩(wěn)定、對(duì)稱的替代方案。若記:, 則對(duì)應(yīng)的生成函數(shù)可寫(xiě)為:。由此得到一類更加平滑的分布約束方式。

此外,DPH-RL在實(shí)現(xiàn)上也更為高效。作者采用基于generator function的方式計(jì)算f-divergence,僅需從初始πref預(yù)采樣,無(wú)需在訓(xùn)練過(guò)程中維護(hù)在線reference model。

這使得方法在訓(xùn)練成本上更加友好,更適合實(shí)際大規(guī)模后訓(xùn)練場(chǎng)景。在具體訓(xùn)練時(shí),DPH-RL 并非對(duì)所有樣本「一刀切」地施加同一種約束,而是先將數(shù)據(jù)劃分為兩部分:

  • 探索集合Dexp:針對(duì)模型尚未掌握的困難樣本,不加入任何KL penalty,

讓模型在困難樣本上更激進(jìn)地探索高獎(jiǎng)勵(lì)解法。此處采用標(biāo)準(zhǔn) PPO-clip 目標(biāo):


  • 完美集合Dpef:針對(duì)模型已基本掌握的樣本,πref從Dpef采樣,依靠f-divergence保持在正確樣本上的多樣性。更直觀地說(shuō),模型在這部分樣本上不再追求「獲取更高獎(jiǎng)勵(lì)」,而是盡量不偏離原本已表現(xiàn)良好的行為分布,其一般形式為:


因此,整體訓(xùn)練過(guò)程更適合表述為「分情況計(jì)算」的形式:


換言之,并非對(duì)每個(gè)樣本同時(shí)疊加「探索項(xiàng) + 保持項(xiàng)」,而是先判斷樣本屬于Dexp還是Dpef,再計(jì)算對(duì)應(yīng)的loss。

更優(yōu)的divergence選擇

可同時(shí)兼顧性能提升、多樣性保留與泛化能力

實(shí)驗(yàn)設(shè)置

論文采用Llama3.1-8b作為實(shí)驗(yàn)?zāi)P?,僅在BIRD數(shù)據(jù)集上訓(xùn)練,并在BIRD、Spider 及數(shù)學(xué)任務(wù)數(shù)據(jù)集上測(cè)試OOD泛化能力。


In-Domain性能:Pass@k的恢復(fù)

在BIRD數(shù)據(jù)集上,結(jié)果清晰表明:

  • GRPO與DAPO雖可能提升了Greedy(相當(dāng)于Pass@1)表現(xiàn),但其Pass@8Pass@16分?jǐn)?shù)均顯著低于Base Model,證實(shí)了多樣性坍塌的存在;

  • RKL(反向KL)表現(xiàn)同樣不佳,Pass@k出現(xiàn)下降;

  • DPH-F與DPH-JS不僅Greedy分?jǐn)?shù)最高,其Pass@8分?jǐn)?shù)也超越了Base Model。其中,DPH-JS的Pass@8分?jǐn)?shù)較GRPO高出4.3%在更大的k設(shè)置下,DPH-RL更接近base model,緩解了Pass@k的崩塌。



Cross-Domain與OOD性能:

泛化能力的保持


我們將SQL任務(wù)上的Spider數(shù)據(jù)集視為cross-domain,將數(shù)學(xué)數(shù)據(jù)集視為out-of-domain??梢钥吹?,所有僅在SQL數(shù)據(jù)集Bird上訓(xùn)練得到的RL模型,在分布發(fā)生偏移時(shí)都會(huì)出現(xiàn)不同程度的性能下降。

正如圖中所示,隨著任務(wù)與訓(xùn)練分布的差異逐步增大,Pass@k整體呈現(xiàn)明顯下降趨勢(shì),這也是OOD場(chǎng)景中的普遍挑戰(zhàn)。

不過(guò),更值得關(guān)注的是各方法的相對(duì)表現(xiàn)


  • DPH-F與DPH-JSPass@k分?jǐn)?shù)顯著高于其他所有RL方法,最接近Base Model的原始水平;

  • DAPO在OOD任務(wù)上表現(xiàn)不穩(wěn)定、性能保留能力不如DPH-F,DPH-F的Pass@16分?jǐn)?shù)較DAPO高出9.0%;

  • Reverse-KL在OOD場(chǎng)景下表現(xiàn)嚴(yán)重下滑。


這表明,通過(guò)保留解決方案的多樣性,DPH-RL能夠更有效地防止災(zāi)難性遺忘,從而在面對(duì)新領(lǐng)域問(wèn)題時(shí)保持更強(qiáng)的泛化能力。

保留 (Keep)與探索 (Exploration)的顯式平衡


為了揭示DPH-RL的核心機(jī)制,論文通過(guò)解構(gòu)模型在Pass@8上的表現(xiàn),分析了 RL 微調(diào)前后的知識(shí)動(dòng)態(tài):


  • 保留率 (Keep Rate):衡量知識(shí)穩(wěn)固度。指基礎(chǔ)模型原先能做對(duì)的樣本在微調(diào)后依然保持正確的比例。

  • 額外探索率 (Additional Exploration Rate):衡量能力增量。指基礎(chǔ)模型原先做錯(cuò)的樣本在微調(diào)后轉(zhuǎn)而做對(duì)的比例。


實(shí)驗(yàn)結(jié)果揭示了DPH-RL與GRPO之間的核心區(qū)別:


  1. 高保全性DPH-RL擁有極高的保留率,能有效留存模型已有的穩(wěn)固知識(shí),從根本上避免了「災(zāi)難性遺忘」。

  2. 凈增益優(yōu)勢(shì)相比之下,GRPO雖然具有一定的探索能力,但在獲取新知識(shí)的同時(shí),往往伴隨著對(duì)原有能力的劇烈侵蝕——即典型的「學(xué)新忘舊」。


由此可見(jiàn),DPH-RL通過(guò)對(duì)強(qiáng)化學(xué)習(xí)組件的功能解耦,實(shí)現(xiàn)了保留探索的顯式平衡。它證明了在通過(guò) RL 提升模型能力上限的同時(shí),穩(wěn)固已有的知識(shí)底座是取得最終勝出的關(guān)鍵。

總結(jié)

本文系統(tǒng)分析了RLVR中普遍存在的diversity collapse現(xiàn)象,指出常用的reverse-KL 及無(wú)divergence設(shè)定均缺乏有效的知識(shí)保留機(jī)制。 為此,作者提出DPH-RL,將mass-coveringf-divergence作為保護(hù)模型多樣性與緩解遺忘的核心工具。

實(shí)驗(yàn)表明,DPH-RL不僅能緩解Pass@k下降問(wèn)題,還可同時(shí)提升Pass@1,并在跨域任務(wù)上展現(xiàn)出更優(yōu)的穩(wěn)定性與泛化能力。更重要的是,這一結(jié)果啟示我們:在RL后訓(xùn)練時(shí)代,保住多樣性與提高獎(jiǎng)勵(lì)同等重要。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
<老友記>演員自曝當(dāng)年在劇組被人忽視,網(wǎng)友批:靠這部劇掙這么多錢還反倒苦水,差評(píng)!

<老友記>演員自曝當(dāng)年在劇組被人忽視,網(wǎng)友批:靠這部劇掙這么多錢還反倒苦水,差評(píng)!

英國(guó)那些事兒
2026-04-12 23:19:49
特朗普:美國(guó)海軍將攔截所有向伊朗支付通行費(fèi)的船只,同時(shí)“摧毀”伊朗人在霍爾木茲海峽布設(shè)的水雷!原油暗盤(pán)應(yīng)聲大漲5%

特朗普:美國(guó)海軍將攔截所有向伊朗支付通行費(fèi)的船只,同時(shí)“摧毀”伊朗人在霍爾木茲海峽布設(shè)的水雷!原油暗盤(pán)應(yīng)聲大漲5%

每日經(jīng)濟(jì)新聞
2026-04-12 21:55:06
比土木更難就業(yè)的專業(yè)出現(xiàn)了:全班同學(xué)都沒(méi)簽三方,輔導(dǎo)員被氣暈

比土木更難就業(yè)的專業(yè)出現(xiàn)了:全班同學(xué)都沒(méi)簽三方,輔導(dǎo)員被氣暈

黯泉
2026-04-11 15:57:13
離譜!皇馬天才被教練當(dāng)替罪羊,7 球 7 助還被公開(kāi)辱罵

離譜!皇馬天才被教練當(dāng)替罪羊,7 球 7 助還被公開(kāi)辱罵

瀾歸序
2026-04-13 05:20:34
單桿獎(jiǎng)金134萬(wàn)!中國(guó)23歲帥小伙閃耀世錦賽:短短139天轟出2個(gè)147

單桿獎(jiǎng)金134萬(wàn)!中國(guó)23歲帥小伙閃耀世錦賽:短短139天轟出2個(gè)147

風(fēng)過(guò)鄉(xiāng)
2026-04-13 06:47:32
詹?。毫_塞尼爾處分恩佐還會(huì)被質(zhì)疑;謝爾基是英超最佳引援

詹?。毫_塞尼爾處分恩佐還會(huì)被質(zhì)疑;謝爾基是英超最佳引援

懂球帝
2026-04-13 02:21:32
為什么不能把楊柳樹(shù)都砍了?官方回應(yīng)

為什么不能把楊柳樹(shù)都砍了?官方回應(yīng)

環(huán)球網(wǎng)資訊
2026-04-12 21:54:33
訪陸結(jié)束,鄭麗文乘飛機(jī)返臺(tái),拿到10項(xiàng)大禮包,對(duì)賴清德稱呼變了

訪陸結(jié)束,鄭麗文乘飛機(jī)返臺(tái),拿到10項(xiàng)大禮包,對(duì)賴清德稱呼變了

藍(lán)色海邊
2026-04-13 03:27:55
又一新勢(shì)力暴雷!賓利的中國(guó)山寨兄弟,兩年沒(méi)發(fā)工資

又一新勢(shì)力暴雷!賓利的中國(guó)山寨兄弟,兩年沒(méi)發(fā)工資

象視汽車
2026-04-11 07:00:09
于根偉:不想用運(yùn)氣來(lái)形容這場(chǎng)比賽,最后的丟球非常低級(jí)

于根偉:不想用運(yùn)氣來(lái)形容這場(chǎng)比賽,最后的丟球非常低級(jí)

懂球帝
2026-04-13 00:12:07
后來(lái),我才明白,斷聯(lián)后不刪除、不拉黑、不聯(lián)系的人,不是在等對(duì)方回頭,而是在等自己放下

后來(lái),我才明白,斷聯(lián)后不刪除、不拉黑、不聯(lián)系的人,不是在等對(duì)方回頭,而是在等自己放下

品讀時(shí)刻
2026-04-12 09:08:19
弱者著相,強(qiáng)者破相,智者無(wú)相(深度好文)

弱者著相,強(qiáng)者破相,智者無(wú)相(深度好文)

洞見(jiàn)
2026-04-12 15:24:55
又丟臉了,時(shí)隔四年,烏克蘭再次命中俄羅斯黑海艦隊(duì)旗艦

又丟臉了,時(shí)隔四年,烏克蘭再次命中俄羅斯黑海艦隊(duì)旗艦

林子說(shuō)事
2026-04-12 11:48:54
11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

半糖甜而不膩
2026-04-06 12:09:15
慘!千億房企正榮破產(chǎn),長(zhǎng)沙業(yè)主房貸照還,交房遙遙無(wú)期

慘!千億房企正榮破產(chǎn),長(zhǎng)沙業(yè)主房貸照還,交房遙遙無(wú)期

靚仔情感
2026-04-13 05:14:03
曝何超蕸去世更多細(xì)節(jié),閨蜜楊千嬅痛哭,最后露面狀態(tài)已水腫疲憊

曝何超蕸去世更多細(xì)節(jié),閨蜜楊千嬅痛哭,最后露面狀態(tài)已水腫疲憊

麥芽是個(gè)小趴菜
2026-04-12 18:47:48
美以伊“?;饍芍堋钡谖逄?,最新動(dòng)態(tài)

美以伊“?;饍芍堋钡谖逄欤钚聞?dòng)態(tài)

參考消息
2026-04-12 11:30:37
不裝了?高市早苗通告全世界:降級(jí)對(duì)華關(guān)系,中國(guó)欠下日本兩筆賬

不裝了?高市早苗通告全世界:降級(jí)對(duì)華關(guān)系,中國(guó)欠下日本兩筆賬

凡知
2026-04-11 21:07:09
這是李鴻章妻妾的真實(shí)樣貌,個(gè)個(gè)美艷身材修長(zhǎng),顏值不輸當(dāng)代女星

這是李鴻章妻妾的真實(shí)樣貌,個(gè)個(gè)美艷身材修長(zhǎng),顏值不輸當(dāng)代女星

阿廢冷眼觀察所
2026-04-11 18:41:14
缺兵少將廣東憑啥還能掀翻廣廈!數(shù)據(jù)一目了然,最大功臣是這4人

缺兵少將廣東憑啥還能掀翻廣廈!數(shù)據(jù)一目了然,最大功臣是這4人

后仰大風(fēng)車
2026-04-12 21:41:54
2026-04-13 08:31:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

4000億智譜,想變得更貴

頭條要聞

大伯為35歲女兒周末連跑3處相親角:女兒平時(shí)工作太忙

頭條要聞

大伯為35歲女兒周末連跑3處相親角:女兒平時(shí)工作太忙

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂(lè)要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

家居
數(shù)碼
時(shí)尚
公開(kāi)課
軍事航空

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

數(shù)碼要聞

PocketTerm35掌上電腦現(xiàn)身,內(nèi)置樹(shù)莓派4/5

被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國(guó)副總統(tǒng)萬(wàn)斯:美伊談判未能達(dá)成協(xié)議

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版