清華團(tuán)隊(duì)：1.5B 模型新基線！用「最笨」的 RL 配方達(dá)到頂尖性能

2025-11-13 14:56:23　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

如果有人告訴你：不用分階段做強(qiáng)化學(xué)習(xí)、不搞課程學(xué)習(xí)、不動(dòng)態(tài)調(diào)參，只用最基礎(chǔ)的 RL 配方就能達(dá)到小模型數(shù)學(xué)推理能力 SOTA，你信嗎？

清華團(tuán)隊(duì)用兩個(gè) 1.5B 模型給出了答案：不僅可行，還特別高效。

核心發(fā)現(xiàn)：單階段訓(xùn)練 + 固定超參數(shù) = SOTA 性能 + 省一半算力
意外之喜：訓(xùn)練曲線平滑得像教科書，4000 步?jīng)]遇到任何 "典型問題"
關(guān)鍵啟示：充分 scale 的簡單 baseline，可能比我們想象的強(qiáng)大得多

技術(shù)博客：https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
開源模型：https://huggingface.co/collections/hbx/justrl
評(píng)測腳本：https://github.com/thunlp/JustRL

背景：RL 訓(xùn)練小模型的 "技術(shù)軍備競賽"

2025 年初，DeepSeek-R1 開源后，如何用 RL 訓(xùn)練 1.5B 級(jí)別的推理模型成為了熱門研究方向。短短幾個(gè)月內(nèi)，這個(gè)領(lǐng)域經(jīng)歷了快速的技術(shù)演進(jìn)：早期的工作嘗試超參數(shù)調(diào)優(yōu)和長度控制；隨后出現(xiàn)了多階段漸進(jìn)訓(xùn)練，每個(gè)階段調(diào)整數(shù)據(jù)難度和 RL 超參數(shù)；也有方法引入了課程學(xué)習(xí)，用部分解作為提示精心設(shè)計(jì)難度梯度；最激進(jìn)的做法直接將 rollout 數(shù)量提升到 512 次，用算力進(jìn)行暴力探索。

近期工作用到的技術(shù)對比

這些方法都取得了不錯(cuò)的效果，性能在不斷刷新。動(dòng)態(tài)采樣、KL 重置、自適應(yīng)懲罰、長度控制…… 各種穩(wěn)定技術(shù)和優(yōu)化 trick 被逐一引入。每個(gè)新工作都在前人基礎(chǔ)上增加新的模塊和機(jī)制，整個(gè)訓(xùn)練 pipeline 變得越來越復(fù)雜。

然而，這種復(fù)雜度的增長也帶來了困惑：這些技術(shù)真的都是必要的嗎？當(dāng)不同工作組合使用不同的技術(shù)子集時(shí)，我們很難分辨哪些是解決根本問題的，哪些只是在修補(bǔ)其他設(shè)計(jì)選擇帶來的副作用。更重要的是，如果 baseline 本身就不穩(wěn)定，那么為了穩(wěn)定它而加入的技術(shù)，可能只是在治標(biāo)而非治本。

清華團(tuán)隊(duì)帶著一個(gè)樸素的想法開始了這項(xiàng)工作："如果我們用最基礎(chǔ)的配方，但訓(xùn)練得足夠充分，能到什么水平？"

于是就有了JustRL—— 名字的意思是 "就這樣"。

方法：極簡到極致的訓(xùn)練配方

JustRL 的設(shè)計(jì)哲學(xué)是 "減到不能再減"。研究者刻意避免了近期工作中常見的復(fù)雜技術(shù)，只保留了最基礎(chǔ)的組件。

訓(xùn)練配方簡單到令人意外：算法使用標(biāo)準(zhǔn)的 GRPO，沒有任何魔改；訓(xùn)練只有一個(gè)階段，從頭到尾連續(xù)進(jìn)行；超參數(shù)完全固定，不做任何動(dòng)態(tài)調(diào)整；數(shù)據(jù)來自常規(guī)的數(shù)學(xué)問題集，不進(jìn)行離線難度篩選、不做數(shù)據(jù)增強(qiáng)、不使用 dynamic sampling。

更關(guān)鍵的是，同一套超參數(shù)在兩個(gè)完全不同的起點(diǎn)上都有效。第一個(gè)實(shí)驗(yàn)使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座，這是一個(gè)相對較弱的起點(diǎn)（AIME 2024 準(zhǔn)確率 29%）；第二個(gè)實(shí)驗(yàn)使用 OpenMath-Nemotron-1.5B，這已經(jīng)是一個(gè)相當(dāng)強(qiáng)的基座（AIME 2024 準(zhǔn)確率 61%）。研究者沒有針對不同模型調(diào)整任何參數(shù)，在 9 個(gè)數(shù)學(xué)推理基準(zhǔn)（AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025）上的全面評(píng)測顯示，JustRL 達(dá)到了 1.5B 模型的最高水平。

一個(gè)關(guān)鍵問題：會(huì)不會(huì)是用了更多算力？正好相反，我們用了更少。

從弱基座起步的 JustRL-DeepSeek-1.5B，最終在 9 項(xiàng)基準(zhǔn)上平均達(dá)到 54.87%，超越了采用 9 階段訓(xùn)練的 ProRL-V2（53.08%）。更值得注意的是計(jì)算效率：JustRL 使用的總 token 預(yù)算約為 1.4E+11，僅為 ProRL-V2 的一半，為 BroRL 的五分之一。在算力 - 性能的權(quán)衡上，JustRL 達(dá)到了一個(gè)新的平衡點(diǎn)。

從強(qiáng)基座起步的 JustRL-Nemotron-1.5B 表現(xiàn)更加出色，平均準(zhǔn)確率達(dá)到 64.32%，略微超過使用課程學(xué)習(xí)的 QuestA（63.81%）。關(guān)鍵的差異在于，QuestA 需要完整的推理軌跡來構(gòu)建 hint，還要分階段調(diào)整提示難度；而 JustRL只需要標(biāo)準(zhǔn)的問題與標(biāo)答，不需要額外的數(shù)據(jù)工程，總 token 預(yù)算也相對較小。

整個(gè)訓(xùn)練在 32 張 A800-80GB GPU 上進(jìn)行，每個(gè)模型訓(xùn)練約 15 天。相比一些需要多階段訓(xùn)練、頻繁調(diào)參的方法，JustRL 的工程復(fù)雜度和計(jì)算開銷都顯著更低。這些結(jié)果的意義不僅在于數(shù)字本身，更在于它們揭示的一個(gè)可能性：很多時(shí)候，我們可能低估了簡單方法在充分 scale 下的潛力。

意外發(fā)現(xiàn)：4000 步訓(xùn)練，異常平穩(wěn)

也許比最終性能更令人驚訝的是訓(xùn)練過程本身。研究者詳細(xì)記錄了 JustRL-DeepSeek-1.5B 整個(gè) 4000 步 RL 過程中的關(guān)鍵動(dòng)態(tài)指標(biāo)：策略熵、平均獎(jiǎng)勵(lì)、響應(yīng)長度。

策略熵始終在 1.2-1.4 范圍內(nèi)健康震蕩，沒有出現(xiàn)向上漂移（探索崩塌）或向下崩潰（過早收斂）；平均獎(jiǎng)勵(lì)從 - 0.6 單調(diào)上升到 +0.4，雖然有噪聲但趨勢清晰，沒有長時(shí)間的 plateau 或突然的下跌；響應(yīng)長度從初始的 8000 tokens 自然壓縮到 4000-5000 tokens，并穩(wěn)定在這個(gè)范圍，這一切都是在沒有使用 overlong penalty 的情況下發(fā)生的，僅僅設(shè)置了最大 16k 的上下文長度。

JustRL-DeepSeek-1.5B 的訓(xùn)練 dynamic

這與很多現(xiàn)有工作報(bào)告的訓(xùn)練困難形成鮮明對比。

ProRL："我們觀察到熵崩潰和訓(xùn)練不穩(wěn)定性…"
BroRL："訓(xùn)練到瓶頸只能加 rollout 加大探索…"
QuestA："需要課程學(xué)習(xí)避免熵崩塌（簡單題）或者減緩學(xué)習(xí)效率（難任務(wù)）…"

而在 JustRL 的訓(xùn)練中，這些問題都沒有出現(xiàn)。這給了我們一個(gè)有趣的觀察：也許在某些配置下，當(dāng) baseline 足夠簡單、訓(xùn)練規(guī)模足夠充分時(shí)，一些在復(fù)雜系統(tǒng)中出現(xiàn)的穩(wěn)定性問題可能就不容易發(fā)生。

一個(gè)有趣的插曲：加 "優(yōu)化" 反而更差

訓(xùn)練過程中，團(tuán)隊(duì)嘗試了兩個(gè) "按常理應(yīng)該有幫助" 的修改。這兩個(gè)實(shí)驗(yàn)的結(jié)果頗具啟發(fā)性。

第一個(gè)實(shí)驗(yàn)是加入顯式的長度懲罰。動(dòng)機(jī)很直接：不少工作證明長度懲罰有效，那么添加一個(gè)懲罰項(xiàng)應(yīng)該能讓模型輸出更簡潔，提高訓(xùn)練效率。結(jié)果卻令人意外：性能從 55% 下降到 50%。深入分析發(fā)現(xiàn)，顯式懲罰導(dǎo)致了熵崩塌，熵值從 1.2-1.4 降到 0.4-0.6 ，探索空間被過早壓縮。模型還沒來得及充分探索有效的解題策略，就被迫收斂到更短的響應(yīng)上。

第二個(gè)實(shí)驗(yàn)是換用更寬松的驗(yàn)證器。邏輯同樣合理：減少假陰性（正確答案被誤判為錯(cuò)誤）應(yīng)該能提供更清晰的學(xué)習(xí)信號(hào)。但性能繼續(xù)下滑到 45%。可能的原因包括：更寬松的驗(yàn)證器雖然減少了誤判，但也降低了學(xué)習(xí)信號(hào)的細(xì)粒度 ——"幾乎正確" 和 "完全正確" 不再有明顯區(qū)分；另一種可能是，嚴(yán)格的格式要求實(shí)際上在迫使模型發(fā)展更魯棒的內(nèi)部推理，而寬松的驗(yàn)證器消除了這種壓力。

兩組 ablation 效果

這說明什么？一方面，ablation 在接近 2ksteps 的尺度上才開始分道揚(yáng)鑣，意味著現(xiàn)有的 RL tricks ablation 可能在小規(guī)模上（幾十 / 幾百步）得到的結(jié)論不一定適合于大規(guī)模 scaling，要驗(yàn)證 tricks 的作用可能長期才能看出區(qū)別；另一方面，不是說這些技術(shù)本身不好（它們在其他工作中確實(shí)有效），而是：

技術(shù)的價(jià)值高度依賴于baseline 的特性
在一個(gè)穩(wěn)定的 baseline 上，某些 "優(yōu)化" 可能適得其反
不是所有看起來合理的東西都該加

這個(gè)工作想說什么？

不是要證明 "簡單永遠(yuǎn)最好"

不是說： "復(fù)雜方法都沒用"
而是說： "我們可能低估了簡單方法在充分 scale 下的潛力"
不是說： "大家都做錯(cuò)了"
而是說： "建立清晰的簡單 baseline，能更準(zhǔn)確地評(píng)估復(fù)雜技術(shù)的價(jià)值"
不是說： "永遠(yuǎn)別用復(fù)雜技術(shù)"
而是說： "先驗(yàn)證簡單方法的極限在哪，再?zèng)Q定是否需要復(fù)雜度"

寫在最后：關(guān)于 "夠用" 的哲學(xué)

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“
— Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要證明 "簡單就是答案"。它想提醒的是：在不斷追求技術(shù)創(chuàng)新的同時(shí)，別忘了回頭看看 —— 最樸素的方法，在足夠的努力下，能做到什么程度。

也許在 RL 訓(xùn)練小模型這個(gè)領(lǐng)域，我們一直在做加法：加階段、加調(diào)度、加采樣策略、加穩(wěn)定技巧。也許現(xiàn)在是時(shí)候試試奧卡姆剃刀的做法：減到不能再減，看看還剩什么。JustRL 的發(fā)現(xiàn)是：剩下的，可能已經(jīng)夠用了。

如果你正在做 RL，不妨試試：先把簡單配方訓(xùn)練充分，看看它能帶你走多遠(yuǎn)。

也許你會(huì)發(fā)現(xiàn)：夠用了。

也許你會(huì)發(fā)現(xiàn)：還不夠，但現(xiàn)在你知道差在哪了。

無論哪種，都是有價(jià)值的收獲。"如無必要，勿增實(shí)體"。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.