国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

SFT遠不如RL?永不過時的剃刀原則打開終身學習大模型訓練的大門

0
分享至



機器之心報道

編輯:冷貓

我們已經(jīng)進入了大模型時代,越來越多的應用依賴大模型的能力,可以說大模型已經(jīng)成為智能化基礎設施的核心組成部分,支撐著語言,視覺分析,智能駕駛,機器人等各種下游應用。

在大模型的實際使用中我們發(fā)現(xiàn),大部分的模型還只是某個細分領域任務的大牛,離我們理想中的 AGI 仍然遙遙無期。

準確的說,這些投入部署的大模型大多是「靜態(tài)」模型,對于其預訓練或微調(diào)時優(yōu)化的系列任務表現(xiàn)良好,但是在動態(tài)學習,自我提升這部分能力是缺位的。

如果我們希望實現(xiàn)更加通用的大模型,使其能像長期的智能助手一樣,隨時間不斷適應新的任務與需求,很多技術瓶頸亟待突破。而最大的挑戰(zhàn)之一就是「災難性遺忘」。

相信大家對這個概念已經(jīng)非常熟悉了,災難性遺忘指的是模型在學習新任務時,會丟掉之前學到的技能。擴大模型規(guī)模、增加預訓練數(shù)據(jù)確實能稍微緩解遺忘現(xiàn)象,但始終不能徹底解決。



圖源:小紅書 @機器壞人(AI 版)

針對災難性遺忘的問題,研究者們提出了各種各樣的改進方法,包括正則化、經(jīng)驗回放、參數(shù)微調(diào)等等。

但有沒有一種可能,我們對大模型遺忘的研究想的有些太復雜了,如無必要勿增實體的剃刀原則才是根治問題的最佳手段。

幾天前,來自麻省理工學院(MIT)Improbable AI Lab 的研究者針對該問題發(fā)表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓練,揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓練策略,目前已在 Alphaxiv 上熱度排名第一。



  • 論文標題:RL's Razor: Why Online Reinforcement Learning Forgets Less
  • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

現(xiàn)代 AI 系統(tǒng)面臨一個根本性挑戰(zhàn):在學習新任務時,它們常常災難性地遺忘先前獲得的知識。這種現(xiàn)象嚴重限制了基礎模型作為長期、持續(xù)學習代理的能力。

這項研究集中在一個驚人的實證觀察上:

研究者比較了兩種常見的后訓練方式:監(jiān)督微調(diào)(SFT) 和 強化學習(RL)。結(jié)果很出乎意料:

  • 即便 SFT 和 RL 在新任務上表現(xiàn)一樣好,SFT 往往是通過 「犧牲舊知識」 來換取新任務的提升;
  • RL 卻能在學習新技能的同時,更多地保留原有能力。

那么問題來了:為什么 RL 不容易遺忘?

遺忘定律

研究揭示了一個新的規(guī)律,稱為 「遺忘定律」:

當模型 π 在新任務 τ 上進行微調(diào)時,遺忘程度可以通過 精確預測,即在新任務上評估的微調(diào)策略和基線策略之間的KL散度



這條定律在實踐中非常有用,因為它可以在微調(diào)過程中進行測量甚至影響,而無需訪問舊任務數(shù)據(jù)。盡管其機制仍有待充分理解,但這條定律在不同模型和領域之間的一致性表明它反映了遺忘的一個基本屬性。

也就是說,微調(diào)后模型與原始模型在新任務分布上的差異越大,遺忘就越嚴重。



偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗任務的知識。

研究者進行了廣泛的實驗,以確定什么因素預示著災難性遺忘。他們測試了各種假設,包括權重級變化、表示偏移和分布差異。通過對多個領域和模型架構進行系統(tǒng)性消融研究,他們發(fā)現(xiàn)微調(diào)策略和基礎策略之間的前向 KL 散度是遺忘的一個驚人一致的預測指標

前向 KL 散度定義為:



其中代表微調(diào)策略,代表原始模型。





這種關系適用于不同的訓練算法和超參數(shù),形成了作者所稱的「經(jīng)驗性遺忘定律」。在使用簡化 ParityMNIST 任務的對照實驗中,這種關系實現(xiàn)了 0.96 的 R2,證明了其預測能力。



該圖顯示,在帕累托前沿上,RL 始終優(yōu)于 SFT,在語言模型(數(shù)學、科學問答、工具使用)和機器人任務中,RL 在新任務性能和先驗知識保留之間實現(xiàn)了更好的權衡。

RL 的剃刀:KL 最小路徑原理

更有意思的是,RL 的優(yōu)勢正來自于它的 「KL 偏好」。

  • 在新任務上,存在許多能達到高表現(xiàn)的解。
  • RL 天然偏向選擇那些 離原始模型更近(KL 更小) 的解;
  • 而 SFT 則可能收斂到距離原始模型很遠的解,從而帶來嚴重遺忘。

核心理論貢獻是「RL 的剃刀」—— 即在解決新任務的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

為了驗證 KL 假設,研究者構造了一個理想的 「oracle SFT」 分布:它在保證新任務完美準確的同時,也做到 KL 最小化。結(jié)果顯示,在這個分布上訓練,遺忘比 RL 還少。這說明 RL 的優(yōu)勢并不是來自某種「本質(zhì)上的不同」,而是源于它 隱式地執(zhí)行了 KL 最小化。只要訓練過程偏向 KL 最小解,模型遺忘就會隨之減少。



左圖通過使用一個「Oracle SFT」分布來證明這一原理,該分布在實現(xiàn)完美新任務準確性的同時,解析地最小化了 KL 散度。使用這種 Oracle 分布進行訓練產(chǎn)生的遺忘比標準 RL 更少,證實了 KL 最小化是關鍵機制。中圖展示了 KL 散度與遺忘之間的強關聯(lián)(R2 = 0.961),而右圖則說明了與 SFT 相比,RL 如何通過較小的 KL 偏移實現(xiàn)高準確性。

機制分析:在線策略學習與離線策略學習

為了理解 RL 何種機制驅(qū)動了其 KL 保守行為,研究人員比較了四種不同的訓練范式:

分析揭示,數(shù)據(jù)收集的在線策略性質(zhì)是關鍵因素,而不是負面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗任務保留,而離線方法(SFT 和 SimPO)無論是否使用負面示例,其行為都相似。

理論基礎

作者通過信息幾何的視角,為強化學習的 KL - 最小收斂提供了理論基礎。他們表明,帶有二元獎勵的策略梯度方法可以被理解為在概率空間中執(zhí)行交替的信息(I-)投影和期望(M-)投影:



這種迭代過程收斂到可表示策略類中的 KL - 最小最優(yōu)策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎勵約束的同時最小化 KL 散度,而 M - 投影步驟則朝著更高獎勵的動作更新。

更多數(shù)據(jù)

這項研究表明,這一原理超越了簡單的實驗環(huán)境。使用中心核對齊(Centered Kernel Alignment)進行的表示保留分析表明,與 SFT 相比,RL 保持與基礎模型更高的相似性:



此外,對更大模型(70 億和 140 億參數(shù))的實驗證實,僅僅擴大規(guī)模并不能消除 SFT 中固有的遺忘權衡:



總結(jié)

本篇論文的核心貢獻有三點:

1. 實驗證明:在相同性能下,RL 比 SFT 更不容易遺忘

2. 提出遺忘定律:新任務上的KL 散度是預測遺忘的關鍵指標。

3. 理論與實證結(jié)合,解釋了RL 的優(yōu)勢來自其 on-policy 特性

這項研究為后訓練提供了新的視角:為了實現(xiàn)無遺忘的持續(xù)適應,算法應該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續(xù)學習系統(tǒng)的基本設計原則。

這一原則為設計未來的訓練方法打開了大門,這些方法將 RL 保留先驗知識的能力與 SFT 的效率相結(jié)合,使基礎模型能夠真正地「終身學習」。

對于使用基礎模型的實踐者來說,這項研究提供了明確的指導:當持續(xù)適應很重要時,在線策略 RL 方法比標準微調(diào)方法具有顯著優(yōu)勢。KL 散度指標還為模型適應期間的遺忘監(jiān)測和預測提供了一個實用工具。

這項工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實踐是有效的,將經(jīng)驗觀察提升到理論基礎。這種原則性理解為開發(fā)真正長壽、能夠持續(xù)學習而不會災難性遺忘的 AI 代理開辟了新方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普稱對英國首相的立場“非常失望”

特朗普稱對英國首相的立場“非常失望”

新華社
2026-03-02 22:06:40
哈梅內(nèi)伊身亡現(xiàn)場照片曝光

哈梅內(nèi)伊身亡現(xiàn)場照片曝光

名人茍或
2026-03-02 10:37:43
中方的資本,已經(jīng)開始不受管控了,政府必須要提高警惕!

中方的資本,已經(jīng)開始不受管控了,政府必須要提高警惕!

大靜吖
2026-02-07 23:30:36
王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

南權先生
2026-02-02 15:59:44
內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領館及一軍事基地,擊落3架美軍機

內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領館及一軍事基地,擊落3架美軍機

新民晚報
2026-03-02 19:04:01
張?zhí)鞇鄣哪_真漂亮,頭一次看到這樣的腳丫子

張?zhí)鞇鄣哪_真漂亮,頭一次看到這樣的腳丫子

動物奇奇怪怪
2026-03-03 00:15:26
中國地震臺網(wǎng)正式測定:3月2日11時55分在日本火山列島地區(qū)(北緯23.10度,東經(jīng)144.15度)發(fā)生5.9級地震

中國地震臺網(wǎng)正式測定:3月2日11時55分在日本火山列島地區(qū)(北緯23.10度,東經(jīng)144.15度)發(fā)生5.9級地震

每日經(jīng)濟新聞
2026-03-02 12:26:27
為何說美國打伊朗實際針對的是中國?我們會不會出手取決一個條件

為何說美國打伊朗實際針對的是中國?我們會不會出手取決一個條件

阿胡
2026-03-02 11:53:54
北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

觀察鑒娛
2026-03-02 10:22:34
內(nèi)賈德沒有死,秘書公布遇襲細節(jié)

內(nèi)賈德沒有死,秘書公布遇襲細節(jié)

世家寶
2026-03-02 14:06:27
伊朗反擊太快,只給以2小時,導彈從天而降,以色列民眾抱頭鼠竄

伊朗反擊太快,只給以2小時,導彈從天而降,以色列民眾抱頭鼠竄

書紀文譚
2026-03-02 17:24:46
英國、法國和德國聯(lián)合聲明

英國、法國和德國聯(lián)合聲明

澎湃新聞
2026-03-02 10:11:31
嚴厲制止網(wǎng)絡上過度宣揚“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

嚴厲制止網(wǎng)絡上過度宣揚“失業(yè)潮失業(yè)人數(shù)及躺平”等不良思想——

葉初七
2026-03-02 17:06:05
560名美軍死傷,彈藥庫劇烈大爆炸,伊朗導彈雨把以色列炸成火海

560名美軍死傷,彈藥庫劇烈大爆炸,伊朗導彈雨把以色列炸成火海

策略述
2026-03-02 14:41:25
伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
伊朗生死關頭,一個關鍵人物走向前臺……

伊朗生死關頭,一個關鍵人物走向前臺……

補壹刀
2026-03-02 16:08:19
“伊朗德黑蘭飛烏魯木齊航班進入中國領空 機艙內(nèi)傳來廣播”視頻熱傳 川航:未開通伊朗航線

“伊朗德黑蘭飛烏魯木齊航班進入中國領空 機艙內(nèi)傳來廣播”視頻熱傳 川航:未開通伊朗航線

閃電新聞
2026-03-02 17:29:47
暴跌40%,關店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

暴跌40%,關店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

好賢觀史記
2026-03-02 20:17:10
涉美伊局勢,復旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢,復旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報橙柿互動
2026-03-02 15:33:41
一場戰(zhàn)爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

一場戰(zhàn)爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

達文西看世界
2026-03-02 14:25:12
2026-03-03 04:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

本地
游戲
藝術
時尚
公開課

本地新聞

津南好·四時總相宜

外媒給《寶可夢》新作60分:不夠有趣的縫合怪

藝術要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

今年春天一定要擁有的4件衣服,太好看了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版