網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大模型SFT后效果≠RL潛力！港科大、阿里提出自適應(yīng)冷啟動(dòng)新范式

2026-04-07 13:37:51　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文第一作者是來自香港科技大學(xué)的博士生李欣然，并由胡張廣達(dá)、廈門大學(xué)沈思淇副教授、阿里集團(tuán)陳慶國(guó)、徐昭、駱衛(wèi)華、張凱夫和香港科技大學(xué)張軍教授合作完成。

自 2025 年以來，強(qiáng)化學(xué)習(xí)（RL）逐漸成為了大語言模型（LLM）后訓(xùn)練（Post-training）階段的默認(rèn)范式。大量研究與實(shí)踐表明：不依賴海量人工標(biāo)注，僅靠 RL 就能激發(fā)出模型令人驚嘆的復(fù)雜推理和長(zhǎng)思維鏈（Long-CoT）能力，甚至賦予了模型達(dá)成超人類表現(xiàn)的潛力。

然而，盡管強(qiáng)化學(xué)習(xí)范式提供了極高的理論上限，許多研究者和開發(fā)者在復(fù)現(xiàn) RL 訓(xùn)練時(shí)卻遭遇了現(xiàn)實(shí)的問題：如果直接把一個(gè)普通的基座模型扔給強(qiáng)化學(xué)習(xí)算法，由于缺乏方向性的引導(dǎo)，RL 算法往往會(huì)像個(gè)無頭蒼蠅一樣亂撞，在有限的步數(shù)內(nèi)根本探索不出正確的推理路徑。

為了解決這個(gè)問題，目前的標(biāo)準(zhǔn)做法是：在 RL 之前，先用少量的優(yōu)質(zhì)數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)（SFT），給模型做一個(gè)「冷啟動(dòng)（Cold-start）」熱身，以此提高 RL 階段的效率。

但這又引出了一個(gè)極具爭(zhēng)議的新問題：冷啟動(dòng) SFT 到底要訓(xùn)練到什么程度？SFT 的分?jǐn)?shù)越高，后續(xù)的 RL 效果就一定越好嗎？

近期，來自香港科技大學(xué)、阿里巴巴以及廈門大學(xué)的研究團(tuán)隊(duì)，聯(lián)合發(fā)表了一項(xiàng)已被ICLR 2026接收的重磅研究。他們首次揭示了 SFT 冷啟動(dòng)階段的一個(gè)「致命陷阱」——冷啟后表現(xiàn)最好的 Checkpoint，往往并不對(duì)應(yīng)最大的強(qiáng)化學(xué)習(xí)潛力

研究團(tuán)隊(duì)指出，想要模型最終在后訓(xùn)練整體效果達(dá)到最佳，SFT 冷啟階段就不應(yīng)過度追求測(cè)試集準(zhǔn)確率，而必須兼顧準(zhǔn)確率與多樣性（Diversity）。基于此，團(tuán)隊(duì)提出了一種全新的自適應(yīng)早停損失函數(shù)（AESL），為大模型的 RL 訓(xùn)練打造了最完美的起跑線。

目前，該論文的代碼已全面開源。

論文標(biāo)題：GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT
論文鏈接：https://openreview.net/pdf?id=yezWGJmODg
代碼主頁：https://github.com/LXXXXR/AESL

一個(gè)反直覺的真相：

「好學(xué)生」反而跑不遠(yuǎn)？

在傳統(tǒng)認(rèn)知里，SFT 的目標(biāo)是讓模型完美模仿訓(xùn)練數(shù)據(jù)。損失（Loss）越低、準(zhǔn)確率越高，說明學(xué)得越好。但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)極度反直覺的現(xiàn)象：把 SFT 階段評(píng)估性能最好的 Checkpoint 拿去跑 RL，最終成績(jī)往往不是最好的，甚至?xí)雇耍?/strong>

為什么會(huì)「南轅北轍」？

研究人員指出，這主要是因?yàn)?strong>「作為 RL 冷啟動(dòng)的 SFT」與「單純的 SFT」在核心目標(biāo)上存在根本分歧。

在以往只依靠 SFT 的后訓(xùn)練范式中，目的是盡可能多地從數(shù)據(jù)集中學(xué)習(xí)，且數(shù)據(jù)集往往充足且豐富，因此傳統(tǒng)的交叉熵（CE）損失完美契合這一目標(biāo)。但在作為 RL 準(zhǔn)備的冷啟動(dòng)階段，情況發(fā)生了變化：

數(shù)據(jù)量有限：過度優(yōu)化會(huì)導(dǎo)致模型過擬合（Overfit），變成單純「背誦」小數(shù)據(jù)集。
探索與利用的失衡：RL 算法的成功高度依賴于「探索（Exploration）」與「利用（Exploitation）」的平衡。如果模型在進(jìn)入 RL 階段之前就丟失了輸出的多樣性，RL 階段就會(huì)因?yàn)樘剿骺臻g不足，導(dǎo)致最終效果大打折扣。

我們可以打個(gè)比方：基座模型就像是一個(gè)充滿想象力但缺乏解題套路的孩子。SFT 冷啟動(dòng)的目的，是為了教他一些基本的解題格式（比如長(zhǎng)思維鏈的思考模式）。但是，如果 SFT 訓(xùn)練過度，傳統(tǒng)的交叉熵?fù)p失函數(shù)會(huì)強(qiáng)迫模型「死記硬背」演示數(shù)據(jù)中的每一個(gè)細(xì)節(jié)。模型雖然學(xué)會(huì)了套路，卻丟失了原本豐富的知識(shí)分布和生成多樣性。當(dāng)這個(gè)「做題機(jī)器」進(jìn)入 RL 階段時(shí)，它已失去探索新路徑的能力，RL 的上限就被死死鎖住了。

圖1：研究團(tuán)隊(duì)發(fā)現(xiàn)，隨著 SFT 步數(shù)的增加，模型在驗(yàn)證集上的性能（黃線）還在上升，但經(jīng)過 RL 訓(xùn)練后的最終潛力（藍(lán)線）卻早早開始下滑。

破局關(guān)鍵：

尋找「多樣性」的黃金拐點(diǎn)

既然準(zhǔn)確率不能作為 SFT 冷啟動(dòng)停止的標(biāo)準(zhǔn)，那我們?cè)摽词裁矗?/p>

研究團(tuán)隊(duì)將目光投向了「輸出多樣性」，追蹤了模型在冷啟動(dòng)訓(xùn)練過程中的熵（Entropy）和 self-BLEU 分?jǐn)?shù)。

奇妙的現(xiàn)象出現(xiàn)了：在 SFT 的早期，模型在學(xué)習(xí)新推理格式的同時(shí)，還保留著基座的原始知識(shí)，此時(shí)模型的多樣性會(huì)達(dá)到一個(gè)峰值。而隨著訓(xùn)練繼續(xù)，模型開始過擬合，多樣性迅速暴跌。

這個(gè)多樣性的「黃金拐點(diǎn)」，恰恰就對(duì)應(yīng)著模型 RL 潛力的最高點(diǎn)！

冷啟動(dòng)過程中的多樣性指標(biāo)變化。多樣性達(dá)到頂峰的時(shí)刻，正是開啟 RL 訓(xùn)練的最佳時(shí)機(jī)。

基于這一洞察，最簡(jiǎn)單的改進(jìn)方法就是「基于多樣性早停（Diversity-based Early Stopping）」。但這還不夠完美，因?yàn)椤敢坏肚小沟娜衷缤：雎粤艘粋€(gè)事實(shí)：模型對(duì)不同 Token 和不同上下文的掌握速度是完全不同的。

AESL：深入大模型

「毛細(xì)血管」的自適應(yīng)冷啟動(dòng)

為了實(shí)現(xiàn)更靈活、更極致的冷啟動(dòng)，研究團(tuán)隊(duì)改進(jìn)了傳統(tǒng)的交叉熵?fù)p失，提出了一種全新的輕量級(jí)訓(xùn)練目標(biāo)——自適應(yīng)早停損失（Adaptive Early-Stop Loss，簡(jiǎn)稱 AESL）。

AESL 的核心數(shù)學(xué)表達(dá)如下：

其中的自適應(yīng)權(quán)重定義為：

AESL 的核心哲學(xué)是「因材施教」：它不再盲目要求模型在所有地方都完美擬合演示數(shù)據(jù)，而是在 Token 和子序列（Subsequence）兩個(gè)微觀層面上，動(dòng)態(tài)調(diào)節(jié)學(xué)習(xí)的力度。

Token 級(jí)別的調(diào)控

生成每個(gè)詞時(shí)，如果模型當(dāng)前預(yù)測(cè)概率已經(jīng)很高，AESL 會(huì)自動(dòng)降低該 Token 的損失權(quán)重。就像告訴模型：「這道題你已經(jīng)會(huì)了，不用反復(fù)抄寫，保留你原本的直覺吧。」這有效防止了對(duì)特定詞匯的過擬合。

Subsequence 級(jí)別的調(diào)控

AESL 會(huì)實(shí)時(shí)計(jì)算當(dāng)前生成前綴的平均置信度。如果前半句話已經(jīng)非常符合目標(biāo)分布，AESL 會(huì)在后續(xù)生成中放寬限制。就像走迷宮：前面走對(duì)了方向，后面就可以大膽探索；前面不確定，后面就老實(shí)跟著指示走。

通過這種精細(xì)的動(dòng)態(tài)平衡，AESL 成功地讓模型在「學(xué)會(huì)長(zhǎng)思維鏈推理模式」和「保留基座原始探索能力」之間，找到了完美的平衡點(diǎn)。

以退為進(jìn)：更優(yōu)的 RL 后性能

研究團(tuán)隊(duì)在極具挑戰(zhàn)性的數(shù)學(xué)推理任務(wù)上進(jìn)行了大規(guī)模實(shí)驗(yàn)。選用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct作為基座，在 AIME 24/25、AMC 23、MATH-500 等榜單上進(jìn)行了測(cè)試。

結(jié)果令人振奮：無論是在哪種基座模型上，使用 AESL 作為冷啟動(dòng)策略，其后續(xù)經(jīng)過 RL 訓(xùn)練的最終性能，全面碾壓了直接 RL、標(biāo)準(zhǔn) CE 損失 SFT 以及現(xiàn)有的其他前沿方法。AESL 真正做到了「贏在起跑線」。

在 Qwen2.5 系列模型上，AESL + RL 的組合在各項(xiàng)數(shù)學(xué)競(jìng)賽級(jí)榜單中均取得了最高平均分。

此外，研究團(tuán)隊(duì)還測(cè)試了不同數(shù)據(jù)量以及不同難度數(shù)據(jù)切分下的表現(xiàn)。結(jié)果證明，無論數(shù)據(jù)多寡、無論數(shù)據(jù)難易，AESL 都能穩(wěn)定發(fā)揮，始終提供優(yōu)于傳統(tǒng)方法的 RL 潛力。

不同冷啟動(dòng)數(shù)據(jù)量下，AESL都能帶來更好的冷啟動(dòng)性能

不同冷啟動(dòng)數(shù)據(jù)難度下，AESL都能帶來更好的冷啟動(dòng)性能

結(jié)語：重塑我們對(duì)「后訓(xùn)練」的認(rèn)知

在通往 AGI 的征程上，強(qiáng)化學(xué)習(xí)（RL）無疑是極具潛力的一條道路，因?yàn)樗哂衅渌妒剿鶝]有的「超越人類本身能力」的潛力。

但比起傳統(tǒng)的監(jiān)督學(xué)習(xí)，RL 的過程更加復(fù)雜，特別是需要注意探索（Exploration）和利用（Exploitation）的平衡。而探索的能力，本質(zhì)上來源于模型的基礎(chǔ)能力和它產(chǎn)生多種「Educated Guess（有根據(jù)的猜測(cè)）」的能力，因此保持輸出多樣性至關(guān)重要

ICLR 2026 的這項(xiàng)研究給我們敲響了警鐘：多樣性的丟失，甚至可能早于 RL 階段的開始。因此，我們需要在后訓(xùn)練的每一個(gè)環(huán)節(jié)都對(duì)多樣性保持敬畏。

AESL 的提出，不僅僅是一個(gè)損失函數(shù)的改進(jìn)，更是一次對(duì) LLM 后訓(xùn)練范式的認(rèn)知刷新。它打破了「SFT 擬合越好越好」的迷思，證明了在冷啟動(dòng)階段，「保持多樣性」比「滿分模仿」在后續(xù)的 RL 訓(xùn)練中更具長(zhǎng)期價(jià)值。

未來，我們相信在從 SFT 到 RL 范式的轉(zhuǎn)變過程中，會(huì)有更多的研究去探索這兩種范式帶來的根本不同。而 AESL，無疑為這場(chǎng)探索提供了一個(gè)絕佳的起點(diǎn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.