国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型SFT后效果≠RL潛力!港科大、阿里提出自適應(yīng)冷啟動(dòng)新范式

0
分享至



本文第一作者是來自香港科技大學(xué)的博士生李欣然,并由胡張廣達(dá)、廈門大學(xué)沈思淇副教授、阿里集團(tuán)陳慶國(guó)、徐昭、駱衛(wèi)華、張凱夫和香港科技大學(xué)張軍教授合作完成。

自 2025 年以來,強(qiáng)化學(xué)習(xí)(RL)逐漸成為了大語言模型(LLM)后訓(xùn)練(Post-training)階段的默認(rèn)范式。大量研究與實(shí)踐表明:不依賴海量人工標(biāo)注,僅靠 RL 就能激發(fā)出模型令人驚嘆的復(fù)雜推理和長(zhǎng)思維鏈(Long-CoT)能力,甚至賦予了模型達(dá)成超人類表現(xiàn)的潛力。

然而,盡管強(qiáng)化學(xué)習(xí)范式提供了極高的理論上限,許多研究者和開發(fā)者在復(fù)現(xiàn) RL 訓(xùn)練時(shí)卻遭遇了現(xiàn)實(shí)的問題:如果直接把一個(gè)普通的基座模型扔給強(qiáng)化學(xué)習(xí)算法,由于缺乏方向性的引導(dǎo),RL 算法往往會(huì)像個(gè)無頭蒼蠅一樣亂撞,在有限的步數(shù)內(nèi)根本探索不出正確的推理路徑。

為了解決這個(gè)問題,目前的標(biāo)準(zhǔn)做法是:在 RL 之前,先用少量的優(yōu)質(zhì)數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT),給模型做一個(gè)「冷啟動(dòng)(Cold-start)」熱身,以此提高 RL 階段的效率。

但這又引出了一個(gè)極具爭(zhēng)議的新問題:冷啟動(dòng) SFT 到底要訓(xùn)練到什么程度?SFT 的分?jǐn)?shù)越高,后續(xù)的 RL 效果就一定越好嗎?

近期,來自香港科技大學(xué)、阿里巴巴以及廈門大學(xué)的研究團(tuán)隊(duì),聯(lián)合發(fā)表了一項(xiàng)已被ICLR 2026接收的重磅研究。他們首次揭示了 SFT 冷啟動(dòng)階段的一個(gè)「致命陷阱」——冷啟后表現(xiàn)最好的 Checkpoint,往往并不對(duì)應(yīng)最大的強(qiáng)化學(xué)習(xí)潛力

研究團(tuán)隊(duì)指出,想要模型最終在后訓(xùn)練整體效果達(dá)到最佳,SFT 冷啟階段就不應(yīng)過度追求測(cè)試集準(zhǔn)確率,而必須兼顧準(zhǔn)確率與多樣性(Diversity)。基于此,團(tuán)隊(duì)提出了一種全新的自適應(yīng)早停損失函數(shù)(AESL),為大模型的 RL 訓(xùn)練打造了最完美的起跑線。

目前,該論文的代碼已全面開源。



  • 論文標(biāo)題:GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT
  • 論文鏈接:https://openreview.net/pdf?id=yezWGJmODg
  • 代碼主頁:https://github.com/LXXXXR/AESL

一個(gè)反直覺的真相:

「好學(xué)生」反而跑不遠(yuǎn)?

在傳統(tǒng)認(rèn)知里,SFT 的目標(biāo)是讓模型完美模仿訓(xùn)練數(shù)據(jù)。損失(Loss)越低、準(zhǔn)確率越高,說明學(xué)得越好。但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)極度反直覺的現(xiàn)象:把 SFT 階段評(píng)估性能最好的 Checkpoint 拿去跑 RL,最終成績(jī)往往不是最好的,甚至?xí)雇耍?/strong>

為什么會(huì)「南轅北轍」?

研究人員指出,這主要是因?yàn)?strong>「作為 RL 冷啟動(dòng)的 SFT」與「單純的 SFT」在核心目標(biāo)上存在根本分歧。

在以往只依靠 SFT 的后訓(xùn)練范式中,目的是盡可能多地從數(shù)據(jù)集中學(xué)習(xí),且數(shù)據(jù)集往往充足且豐富,因此傳統(tǒng)的交叉熵(CE)損失完美契合這一目標(biāo)。但在作為 RL 準(zhǔn)備的冷啟動(dòng)階段,情況發(fā)生了變化:

  • 數(shù)據(jù)量有限:過度優(yōu)化會(huì)導(dǎo)致模型過擬合(Overfit),變成單純「背誦」小數(shù)據(jù)集。
  • 探索與利用的失衡:RL 算法的成功高度依賴于「探索(Exploration)」與「利用(Exploitation)」的平衡。如果模型在進(jìn)入 RL 階段之前就丟失了輸出的多樣性,RL 階段就會(huì)因?yàn)樘剿骺臻g不足,導(dǎo)致最終效果大打折扣。

我們可以打個(gè)比方:基座模型就像是一個(gè)充滿想象力但缺乏解題套路的孩子。SFT 冷啟動(dòng)的目的,是為了教他一些基本的解題格式(比如長(zhǎng)思維鏈的思考模式)。但是,如果 SFT 訓(xùn)練過度,傳統(tǒng)的交叉熵?fù)p失函數(shù)會(huì)強(qiáng)迫模型「死記硬背」演示數(shù)據(jù)中的每一個(gè)細(xì)節(jié)。模型雖然學(xué)會(huì)了套路,卻丟失了原本豐富的知識(shí)分布和生成多樣性。當(dāng)這個(gè)「做題機(jī)器」進(jìn)入 RL 階段時(shí),它已失去探索新路徑的能力,RL 的上限就被死死鎖住了。



圖1:研究團(tuán)隊(duì)發(fā)現(xiàn),隨著 SFT 步數(shù)的增加,模型在驗(yàn)證集上的性能(黃線)還在上升,但經(jīng)過 RL 訓(xùn)練后的最終潛力(藍(lán)線)卻早早開始下滑。

破局關(guān)鍵:

尋找「多樣性」的黃金拐點(diǎn)

既然準(zhǔn)確率不能作為 SFT 冷啟動(dòng)停止的標(biāo)準(zhǔn),那我們?cè)摽词裁矗?/p>

研究團(tuán)隊(duì)將目光投向了「輸出多樣性」,追蹤了模型在冷啟動(dòng)訓(xùn)練過程中的熵(Entropy)和 self-BLEU 分?jǐn)?shù)。

奇妙的現(xiàn)象出現(xiàn)了:在 SFT 的早期,模型在學(xué)習(xí)新推理格式的同時(shí),還保留著基座的原始知識(shí),此時(shí)模型的多樣性會(huì)達(dá)到一個(gè)峰值。而隨著訓(xùn)練繼續(xù),模型開始過擬合,多樣性迅速暴跌。

這個(gè)多樣性的「黃金拐點(diǎn)」,恰恰就對(duì)應(yīng)著模型 RL 潛力的最高點(diǎn)!





冷啟動(dòng)過程中的多樣性指標(biāo)變化。多樣性達(dá)到頂峰的時(shí)刻,正是開啟 RL 訓(xùn)練的最佳時(shí)機(jī)。

基于這一洞察,最簡(jiǎn)單的改進(jìn)方法就是「基于多樣性早停(Diversity-based Early Stopping)」。但這還不夠完美,因?yàn)椤敢坏肚小沟娜衷缤:雎粤艘粋€(gè)事實(shí):模型對(duì)不同 Token 和不同上下文的掌握速度是完全不同的。

AESL:深入大模型

「毛細(xì)血管」的自適應(yīng)冷啟動(dòng)

為了實(shí)現(xiàn)更靈活、更極致的冷啟動(dòng),研究團(tuán)隊(duì)改進(jìn)了傳統(tǒng)的交叉熵?fù)p失,提出了一種全新的輕量級(jí)訓(xùn)練目標(biāo)——自適應(yīng)早停損失(Adaptive Early-Stop Loss,簡(jiǎn)稱 AESL)。

AESL 的核心數(shù)學(xué)表達(dá)如下:



其中的自適應(yīng)權(quán)重定義為:



AESL 的核心哲學(xué)是「因材施教」:它不再盲目要求模型在所有地方都完美擬合演示數(shù)據(jù),而是在 Token 和子序列(Subsequence)兩個(gè)微觀層面上,動(dòng)態(tài)調(diào)節(jié)學(xué)習(xí)的力度。

  • Token 級(jí)別的調(diào)控

生成每個(gè)詞時(shí),如果模型當(dāng)前預(yù)測(cè)概率已經(jīng)很高,AESL 會(huì)自動(dòng)降低該 Token 的損失權(quán)重。就像告訴模型:「這道題你已經(jīng)會(huì)了,不用反復(fù)抄寫,保留你原本的直覺吧。」這有效防止了對(duì)特定詞匯的過擬合。

  • Subsequence 級(jí)別的調(diào)控

AESL 會(huì)實(shí)時(shí)計(jì)算當(dāng)前生成前綴的平均置信度。如果前半句話已經(jīng)非常符合目標(biāo)分布,AESL 會(huì)在后續(xù)生成中放寬限制。就像走迷宮:前面走對(duì)了方向,后面就可以大膽探索;前面不確定,后面就老實(shí)跟著指示走。

通過這種精細(xì)的動(dòng)態(tài)平衡,AESL 成功地讓模型在「學(xué)會(huì)長(zhǎng)思維鏈推理模式」和「保留基座原始探索能力」之間,找到了完美的平衡點(diǎn)。

以退為進(jìn):更優(yōu)的 RL 后性能

研究團(tuán)隊(duì)在極具挑戰(zhàn)性的數(shù)學(xué)推理任務(wù)上進(jìn)行了大規(guī)模實(shí)驗(yàn)。選用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct作為基座,在 AIME 24/25、AMC 23、MATH-500 等榜單上進(jìn)行了測(cè)試。

結(jié)果令人振奮:無論是在哪種基座模型上,使用 AESL 作為冷啟動(dòng)策略,其后續(xù)經(jīng)過 RL 訓(xùn)練的最終性能,全面碾壓了直接 RL、標(biāo)準(zhǔn) CE 損失 SFT 以及現(xiàn)有的其他前沿方法。AESL 真正做到了「贏在起跑線」。



在 Qwen2.5 系列模型上,AESL + RL 的組合在各項(xiàng)數(shù)學(xué)競(jìng)賽級(jí)榜單中均取得了最高平均分。

此外,研究團(tuán)隊(duì)還測(cè)試了不同數(shù)據(jù)量以及不同難度數(shù)據(jù)切分下的表現(xiàn)。結(jié)果證明,無論數(shù)據(jù)多寡、無論數(shù)據(jù)難易,AESL 都能穩(wěn)定發(fā)揮,始終提供優(yōu)于傳統(tǒng)方法的 RL 潛力。



不同冷啟動(dòng)數(shù)據(jù)量下,AESL都能帶來更好的冷啟動(dòng)性能



不同冷啟動(dòng)數(shù)據(jù)難度下,AESL都能帶來更好的冷啟動(dòng)性能

結(jié)語:重塑我們對(duì)「后訓(xùn)練」的認(rèn)知

在通往 AGI 的征程上,強(qiáng)化學(xué)習(xí)(RL)無疑是極具潛力的一條道路,因?yàn)樗哂衅渌妒剿鶝]有的「超越人類本身能力」的潛力。

但比起傳統(tǒng)的監(jiān)督學(xué)習(xí),RL 的過程更加復(fù)雜,特別是需要注意探索(Exploration)和利用(Exploitation)的平衡。而探索的能力,本質(zhì)上來源于模型的基礎(chǔ)能力和它產(chǎn)生多種「Educated Guess(有根據(jù)的猜測(cè))」的能力,因此保持輸出多樣性至關(guān)重要

ICLR 2026 的這項(xiàng)研究給我們敲響了警鐘:多樣性的丟失,甚至可能早于 RL 階段的開始。因此,我們需要在后訓(xùn)練的每一個(gè)環(huán)節(jié)都對(duì)多樣性保持敬畏。

AESL 的提出,不僅僅是一個(gè)損失函數(shù)的改進(jìn),更是一次對(duì) LLM 后訓(xùn)練范式的認(rèn)知刷新。它打破了「SFT 擬合越好越好」的迷思,證明了在冷啟動(dòng)階段,「保持多樣性」比「滿分模仿」在后續(xù)的 RL 訓(xùn)練中更具長(zhǎng)期價(jià)值。

未來,我們相信在從 SFT 到 RL 范式的轉(zhuǎn)變過程中,會(huì)有更多的研究去探索這兩種范式帶來的根本不同。而 AESL,無疑為這場(chǎng)探索提供了一個(gè)絕佳的起點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭永年:不用糾結(jié)特朗普到底什么意思,中美客觀上已經(jīng)是G2了

鄭永年:不用糾結(jié)特朗普到底什么意思,中美客觀上已經(jīng)是G2了

上觀新聞
2026-04-11 14:49:04
A股:不用等周一開盤了,明天(4月13日),不出意外會(huì)這么走

A股:不用等周一開盤了,明天(4月13日),不出意外會(huì)這么走

財(cái)經(jīng)大拿
2026-04-12 07:10:10
上海二手房單日成交1632套:連續(xù)打破5年峰值紀(jì)錄,高端房源成交占比提升

上海二手房單日成交1632套:連續(xù)打破5年峰值紀(jì)錄,高端房源成交占比提升

澎湃新聞
2026-04-12 13:52:27
角力伊斯蘭堡,美伊都到了!宮殿風(fēng)格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經(jīng)驗(yàn);預(yù)計(jì)雙方各占酒店一邊,避免走廊偶遇

角力伊斯蘭堡,美伊都到了!宮殿風(fēng)格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經(jīng)驗(yàn);預(yù)計(jì)雙方各占酒店一邊,避免走廊偶遇

每日經(jīng)濟(jì)新聞
2026-04-11 16:34:11
明天周一A股將會(huì)怎么走?到底是漲是跌?我做了一個(gè)大膽的預(yù)判

明天周一A股將會(huì)怎么走?到底是漲是跌?我做了一個(gè)大膽的預(yù)判

股市皆大事
2026-04-12 11:30:57
馬筱梅帶汪寶回北京,張?zhí)m沒反應(yīng),汪小菲稱母親張總,關(guān)系微妙

馬筱梅帶汪寶回北京,張?zhí)m沒反應(yīng),汪小菲稱母親張總,關(guān)系微妙

楓塵余往逝
2026-04-11 23:52:17
48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

羅氏八卦
2026-04-11 18:00:03
美媒預(yù)測(cè)本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達(dá)48%

美媒預(yù)測(cè)本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達(dá)48%

你的籃球頻道
2026-04-12 12:01:46
笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

笑噴全網(wǎng)!高速路上妻子數(shù)落丈夫停不下來,貓咪聽不下去直接捂嘴

搗蛋窩
2026-04-11 10:57:44
48 小時(shí) 2 架飛機(jī):鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機(jī)抵臺(tái)

48 小時(shí) 2 架飛機(jī):鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機(jī)抵臺(tái)

眼界看視野
2026-04-11 20:50:20
鎮(zhèn)嵩軍的真實(shí)面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

鎮(zhèn)嵩軍的真實(shí)面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

混沌錄
2026-04-09 14:51:04
浪姐7一公排名:蕭薔團(tuán)墊底,李小冉團(tuán)喜劇效果拉滿,大黑馬誕生

浪姐7一公排名:蕭薔團(tuán)墊底,李小冉團(tuán)喜劇效果拉滿,大黑馬誕生

娛樂圈筆娛君
2026-04-12 11:17:01
巴拿馬總統(tǒng)尋求緩和與中國(guó)關(guān)系

巴拿馬總統(tǒng)尋求緩和與中國(guó)關(guān)系

參考消息
2026-04-11 19:52:15
太復(fù)雜了!天津一司機(jī)把奔馳開進(jìn)了中心路的地道…差幾步就到平地了…

太復(fù)雜了!天津一司機(jī)把奔馳開進(jìn)了中心路的地道…差幾步就到平地了…

天津人
2026-04-11 15:34:18
4人輪休+2人缺陣!火箭隊(duì)超級(jí)殘陣對(duì)戰(zhàn)灰熊!預(yù)計(jì)全新首發(fā)出爐

4人輪休+2人缺陣!火箭隊(duì)超級(jí)殘陣對(duì)戰(zhàn)灰熊!預(yù)計(jì)全新首發(fā)出爐

熊哥愛籃球
2026-04-12 12:36:12
不要錯(cuò)過!下周,光通信測(cè)試龍頭來了

不要錯(cuò)過!下周,光通信測(cè)試龍頭來了

新浪財(cái)經(jīng)
2026-04-12 13:37:47
投資群2947人,2946人是托:殺豬盤進(jìn)化史,只有你一個(gè)獵物

投資群2947人,2946人是托:殺豬盤進(jìn)化史,只有你一個(gè)獵物

覺叔說
2026-04-11 13:57:01
伊朗代表團(tuán)離開巴基斯坦

伊朗代表團(tuán)離開巴基斯坦

上觀新聞
2026-04-12 12:54:04
體檢報(bào)告出現(xiàn)這幾個(gè)字,距離腦梗只有一步之遙!別等嚴(yán)重了才后悔

體檢報(bào)告出現(xiàn)這幾個(gè)字,距離腦梗只有一步之遙!別等嚴(yán)重了才后悔

荊醫(yī)生科普
2026-04-11 14:23:04
解放軍唯一的一次烏龍,一野和二野打了一個(gè)晚上,各自傷亡多少人

解放軍唯一的一次烏龍,一野和二野打了一個(gè)晚上,各自傷亡多少人

舊史新譚
2026-04-05 17:00:22
2026-04-12 16:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側(cè)

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側(cè)

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

本地
健康
數(shù)碼
游戲
藝術(shù)

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

數(shù)碼要聞

榮耀YOYO Claw PC版首曝,有望隨MagicBook Pro 14一起亮相

多款經(jīng)典卡普空游戲獲Steam Deck兼容效果提升

藝術(shù)要聞

日本建筑大師的中國(guó)首個(gè)住宅項(xiàng)目,被防盜網(wǎng)毀了?

無障礙瀏覽 進(jìn)入關(guān)懷版