網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

SFT遠不如RL？永不過時的剃刀原則打開終身學習大模型訓練的大門

2025-09-09 20:19:13　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：冷貓

我們已經(jīng)進入了大模型時代，越來越多的應用依賴大模型的能力，可以說大模型已經(jīng)成為智能化基礎設施的核心組成部分，支撐著語言，視覺分析，智能駕駛，機器人等各種下游應用。

在大模型的實際使用中我們發(fā)現(xiàn)，大部分的模型還只是某個細分領域任務的大牛，離我們理想中的 AGI 仍然遙遙無期。

準確的說，這些投入部署的大模型大多是「靜態(tài)」模型，對于其預訓練或微調(diào)時優(yōu)化的系列任務表現(xiàn)良好，但是在動態(tài)學習，自我提升這部分能力是缺位的。

如果我們希望實現(xiàn)更加通用的大模型，使其能像長期的智能助手一樣，隨時間不斷適應新的任務與需求，很多技術瓶頸亟待突破。而最大的挑戰(zhàn)之一就是「災難性遺忘」。

相信大家對這個概念已經(jīng)非常熟悉了，災難性遺忘指的是模型在學習新任務時，會丟掉之前學到的技能。擴大模型規(guī)模、增加預訓練數(shù)據(jù)確實能稍微緩解遺忘現(xiàn)象，但始終不能徹底解決。

圖源：小紅書 @機器壞人（AI 版）

針對災難性遺忘的問題，研究者們提出了各種各樣的改進方法，包括正則化、經(jīng)驗回放、參數(shù)微調(diào)等等。

但有沒有一種可能，我們對大模型遺忘的研究想的有些太復雜了，如無必要勿增實體的剃刀原則才是根治問題的最佳手段。

幾天前，來自麻省理工學院（MIT）Improbable AI Lab 的研究者針對該問題發(fā)表了一篇研究論文，將奧卡姆的剃刀伸向了大模型后訓練，揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓練策略，目前已在 Alphaxiv 上熱度排名第一。

論文標題：RL's Razor: Why Online Reinforcement Learning Forgets Less
論文鏈接：https://www.arxiv.org/abs/2509.04259v1

現(xiàn)代 AI 系統(tǒng)面臨一個根本性挑戰(zhàn)：在學習新任務時，它們常常災難性地遺忘先前獲得的知識。這種現(xiàn)象嚴重限制了基礎模型作為長期、持續(xù)學習代理的能力。

這項研究集中在一個驚人的實證觀察上：

研究者比較了兩種常見的后訓練方式：監(jiān)督微調(diào)（SFT）和強化學習（RL）。結(jié)果很出乎意料：

即便 SFT 和 RL 在新任務上表現(xiàn)一樣好，SFT 往往是通過「犧牲舊知識」來換取新任務的提升；
RL 卻能在學習新技能的同時，更多地保留原有能力。

那么問題來了：為什么 RL 不容易遺忘？

遺忘定律

研究揭示了一個新的規(guī)律，稱為「遺忘定律」：

當模型 π 在新任務 τ 上進行微調(diào)時，遺忘程度可以通過精確預測，即在新任務上評估的微調(diào)策略和基線策略之間的KL散度

這條定律在實踐中非常有用，因為它可以在微調(diào)過程中進行測量甚至影響，而無需訪問舊任務數(shù)據(jù)。盡管其機制仍有待充分理解，但這條定律在不同模型和領域之間的一致性表明它反映了遺忘的一個基本屬性。

也就是說，微調(diào)后模型與原始模型在新任務分布上的差異越大，遺忘就越嚴重。

偏向 KL - 最小解減少了遺忘。左圖顯示，在能夠解決新任務的策略中，RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示，在相同的新任務性能下，這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗任務的知識。

研究者進行了廣泛的實驗，以確定什么因素預示著災難性遺忘。他們測試了各種假設，包括權重級變化、表示偏移和分布差異。通過對多個領域和模型架構進行系統(tǒng)性消融研究，他們發(fā)現(xiàn)微調(diào)策略和基礎策略之間的前向 KL 散度是遺忘的一個驚人一致的預測指標

前向 KL 散度定義為：

其中代表微調(diào)策略，代表原始模型。

這種關系適用于不同的訓練算法和超參數(shù)，形成了作者所稱的「經(jīng)驗性遺忘定律」。在使用簡化 ParityMNIST 任務的對照實驗中，這種關系實現(xiàn)了 0.96 的 R2，證明了其預測能力。

該圖顯示，在帕累托前沿上，RL 始終優(yōu)于 SFT，在語言模型（數(shù)學、科學問答、工具使用）和機器人任務中，RL 在新任務性能和先驗知識保留之間實現(xiàn)了更好的權衡。

RL 的剃刀：KL 最小路徑原理

更有意思的是，RL 的優(yōu)勢正來自于它的「KL 偏好」。

在新任務上，存在許多能達到高表現(xiàn)的解。
RL 天然偏向選擇那些離原始模型更近（KL 更小）的解；
而 SFT 則可能收斂到距離原始模型很遠的解，從而帶來嚴重遺忘。

核心理論貢獻是「RL 的剃刀」—— 即在解決新任務的所有方法中，RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

為了驗證 KL 假設，研究者構造了一個理想的「oracle SFT」分布：它在保證新任務完美準確的同時，也做到 KL 最小化。結(jié)果顯示，在這個分布上訓練，遺忘比 RL 還少。這說明 RL 的優(yōu)勢并不是來自某種「本質(zhì)上的不同」，而是源于它隱式地執(zhí)行了 KL 最小化。只要訓練過程偏向 KL 最小解，模型遺忘就會隨之減少。

左圖通過使用一個「Oracle SFT」分布來證明這一原理，該分布在實現(xiàn)完美新任務準確性的同時，解析地最小化了 KL 散度。使用這種 Oracle 分布進行訓練產(chǎn)生的遺忘比標準 RL 更少，證實了 KL 最小化是關鍵機制。中圖展示了 KL 散度與遺忘之間的強關聯(lián)（R2 = 0.961），而右圖則說明了與 SFT 相比，RL 如何通過較小的 KL 偏移實現(xiàn)高準確性。

機制分析：在線策略學習與離線策略學習

為了理解 RL 何種機制驅(qū)動了其 KL 保守行為，研究人員比較了四種不同的訓練范式：

分析揭示，數(shù)據(jù)收集的在線策略性質(zhì)是關鍵因素，而不是負面示例的使用。在線策略方法（GRPO 和 1-0 Reinforce）保持較小的 KL 偏移和更好的先驗任務保留，而離線方法（SFT 和 SimPO）無論是否使用負面示例，其行為都相似。

理論基礎

作者通過信息幾何的視角，為強化學習的 KL - 最小收斂提供了理論基礎。他們表明，帶有二元獎勵的策略梯度方法可以被理解為在概率空間中執(zhí)行交替的信息（I-）投影和期望（M-）投影：

這種迭代過程收斂到可表示策略類中的 KL - 最小最優(yōu)策略，為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎勵約束的同時最小化 KL 散度，而 M - 投影步驟則朝著更高獎勵的動作更新。

更多數(shù)據(jù)

這項研究表明，這一原理超越了簡單的實驗環(huán)境。使用中心核對齊（Centered Kernel Alignment）進行的表示保留分析表明，與 SFT 相比，RL 保持與基礎模型更高的相似性：

此外，對更大模型（70 億和 140 億參數(shù)）的實驗證實，僅僅擴大規(guī)模并不能消除 SFT 中固有的遺忘權衡：

總結(jié)

本篇論文的核心貢獻有三點：

1. 實驗證明：在相同性能下，RL 比 SFT 更不容易遺忘

2. 提出遺忘定律：新任務上的KL 散度是預測遺忘的關鍵指標。

3. 理論與實證結(jié)合，解釋了RL 的優(yōu)勢來自其 on-policy 特性

這項研究為后訓練提供了新的視角：為了實現(xiàn)無遺忘的持續(xù)適應，算法應該明確地旨在最小化與基模型之間的 KL 散度，確立了 KL 散度作為持續(xù)學習系統(tǒng)的基本設計原則。

這一原則為設計未來的訓練方法打開了大門，這些方法將 RL 保留先驗知識的能力與 SFT 的效率相結(jié)合，使基礎模型能夠真正地「終身學習」。

對于使用基礎模型的實踐者來說，這項研究提供了明確的指導：當持續(xù)適應很重要時，在線策略 RL 方法比標準微調(diào)方法具有顯著優(yōu)勢。KL 散度指標還為模型適應期間的遺忘監(jiān)測和預測提供了一個實用工具。

這項工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實踐是有效的，將經(jīng)驗觀察提升到理論基礎。這種原則性理解為開發(fā)真正長壽、能夠持續(xù)學習而不會災難性遺忘的 AI 代理開辟了新方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.