国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清華團(tuán)隊(duì):1.5B 模型新基線!用「最笨」的 RL 配方達(dá)到頂尖性能

0
分享至



如果有人告訴你:不用分階段做強(qiáng)化學(xué)習(xí)、不搞課程學(xué)習(xí)、不動(dòng)態(tài)調(diào)參,只用最基礎(chǔ)的 RL 配方就能達(dá)到小模型數(shù)學(xué)推理能力 SOTA,你信嗎?

清華團(tuán)隊(duì)用兩個(gè) 1.5B 模型給出了答案:不僅可行,還特別高效。

  • 核心發(fā)現(xiàn): 單階段訓(xùn)練 + 固定超參數(shù) = SOTA 性能 + 省一半算力
  • 意外之喜: 訓(xùn)練曲線平滑得像教科書,4000 步?jīng)]遇到任何 "典型問題"
  • 關(guān)鍵啟示: 充分 scale 的簡單 baseline,可能比我們想象的強(qiáng)大得多





  • 技術(shù)博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
  • 開源模型:https://huggingface.co/collections/hbx/justrl
  • 評(píng)測腳本:https://github.com/thunlp/JustRL

背景:RL 訓(xùn)練小模型的 "技術(shù)軍備競賽"

2025 年初,DeepSeek-R1 開源后,如何用 RL 訓(xùn)練 1.5B 級(jí)別的推理模型成為了熱門研究方向。短短幾個(gè)月內(nèi),這個(gè)領(lǐng)域經(jīng)歷了快速的技術(shù)演進(jìn):早期的工作嘗試超參數(shù)調(diào)優(yōu)和長度控制;隨后出現(xiàn)了多階段漸進(jìn)訓(xùn)練,每個(gè)階段調(diào)整數(shù)據(jù)難度和 RL 超參數(shù);也有方法引入了課程學(xué)習(xí),用部分解作為提示精心設(shè)計(jì)難度梯度;最激進(jìn)的做法直接將 rollout 數(shù)量提升到 512 次,用算力進(jìn)行暴力探索。



近期工作用到的技術(shù)對(duì)比

這些方法都取得了不錯(cuò)的效果,性能在不斷刷新。 動(dòng)態(tài)采樣、KL 重置、自適應(yīng)懲罰、長度控制…… 各種穩(wěn)定技術(shù)和優(yōu)化 trick 被逐一引入。每個(gè)新工作都在前人基礎(chǔ)上增加新的模塊和機(jī)制,整個(gè)訓(xùn)練 pipeline 變得越來越復(fù)雜。

然而,這種復(fù)雜度的增長也帶來了困惑:這些技術(shù)真的都是必要的嗎?當(dāng)不同工作組合使用不同的技術(shù)子集時(shí),我們很難分辨哪些是解決根本問題的,哪些只是在修補(bǔ)其他設(shè)計(jì)選擇帶來的副作用。更重要的是,如果 baseline 本身就不穩(wěn)定,那么為了穩(wěn)定它而加入的技術(shù),可能只是在治標(biāo)而非治本。

清華團(tuán)隊(duì)帶著一個(gè)樸素的想法開始了這項(xiàng)工作:"如果我們用最基礎(chǔ)的配方,但訓(xùn)練得足夠充分,能到什么水平?"

于是就有了JustRL—— 名字的意思是 "就這樣"。

方法:極簡到極致的訓(xùn)練配方

JustRL 的設(shè)計(jì)哲學(xué)是 "減到不能再減"。研究者刻意避免了近期工作中常見的復(fù)雜技術(shù),只保留了最基礎(chǔ)的組件。

訓(xùn)練配方簡單到令人意外: 算法使用標(biāo)準(zhǔn)的 GRPO,沒有任何魔改;訓(xùn)練只有一個(gè)階段,從頭到尾連續(xù)進(jìn)行;超參數(shù)完全固定,不做任何動(dòng)態(tài)調(diào)整;數(shù)據(jù)來自常規(guī)的數(shù)學(xué)問題集,不進(jìn)行離線難度篩選、不做數(shù)據(jù)增強(qiáng)、不使用 dynamic sampling。

更關(guān)鍵的是,同一套超參數(shù)在兩個(gè)完全不同的起點(diǎn)上都有效。 第一個(gè)實(shí)驗(yàn)使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座,這是一個(gè)相對(duì)較弱的起點(diǎn)(AIME 2024 準(zhǔn)確率 29%);第二個(gè)實(shí)驗(yàn)使用 OpenMath-Nemotron-1.5B,這已經(jīng)是一個(gè)相當(dāng)強(qiáng)的基座(AIME 2024 準(zhǔn)確率 61%)。研究者沒有針對(duì)不同模型調(diào)整任何參數(shù),在 9 個(gè)數(shù)學(xué)推理基準(zhǔn)(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面評(píng)測顯示,JustRL 達(dá)到了 1.5B 模型的最高水平。



一個(gè)關(guān)鍵問題:會(huì)不會(huì)是用了更多算力?正好相反,我們用了更少。

從弱基座起步的 JustRL-DeepSeek-1.5B,最終在 9 項(xiàng)基準(zhǔn)上平均達(dá)到 54.87%,超越了采用 9 階段訓(xùn)練的 ProRL-V2(53.08%)。更值得注意的是計(jì)算效率:JustRL 使用的總 token 預(yù)算約為 1.4E+11,僅為 ProRL-V2 的一半,為 BroRL 的五分之一。在算力 - 性能的權(quán)衡上,JustRL 達(dá)到了一個(gè)新的平衡點(diǎn)。

從強(qiáng)基座起步的 JustRL-Nemotron-1.5B 表現(xiàn)更加出色,平均準(zhǔn)確率達(dá)到 64.32%,略微超過使用課程學(xué)習(xí)的 QuestA(63.81%)。關(guān)鍵的差異在于,QuestA 需要完整的推理軌跡來構(gòu)建 hint,還要分階段調(diào)整提示難度;而 JustRL只需要標(biāo)準(zhǔn)的問題與標(biāo)答,不需要額外的數(shù)據(jù)工程,總 token 預(yù)算也相對(duì)較小。

整個(gè)訓(xùn)練在 32 張 A800-80GB GPU 上進(jìn)行,每個(gè)模型訓(xùn)練約 15 天。相比一些需要多階段訓(xùn)練、頻繁調(diào)參的方法,JustRL 的工程復(fù)雜度和計(jì)算開銷都顯著更低。這些結(jié)果的意義不僅在于數(shù)字本身,更在于它們揭示的一個(gè)可能性:很多時(shí)候,我們可能低估了簡單方法在充分 scale 下的潛力。

意外發(fā)現(xiàn):4000 步訓(xùn)練,異常平穩(wěn)

也許比最終性能更令人驚訝的是訓(xùn)練過程本身。研究者詳細(xì)記錄了 JustRL-DeepSeek-1.5B 整個(gè) 4000 步 RL 過程中的關(guān)鍵動(dòng)態(tài)指標(biāo):策略熵、平均獎(jiǎng)勵(lì)、響應(yīng)長度。

策略熵始終在 1.2-1.4 范圍內(nèi)健康震蕩,沒有出現(xiàn)向上漂移(探索崩塌)或向下崩潰(過早收斂);平均獎(jiǎng)勵(lì)從 - 0.6 單調(diào)上升到 +0.4,雖然有噪聲但趨勢清晰,沒有長時(shí)間的 plateau 或突然的下跌;響應(yīng)長度從初始的 8000 tokens 自然壓縮到 4000-5000 tokens,并穩(wěn)定在這個(gè)范圍,這一切都是在沒有使用 overlong penalty 的情況下發(fā)生的,僅僅設(shè)置了最大 16k 的上下文長度。



JustRL-DeepSeek-1.5B 的訓(xùn)練 dynamic

這與很多現(xiàn)有工作報(bào)告的訓(xùn)練困難形成鮮明對(duì)比。

  • ProRL:"我們觀察到熵崩潰和訓(xùn)練不穩(wěn)定性…"
  • BroRL:"訓(xùn)練到瓶頸只能加 rollout 加大探索…"
  • QuestA:"需要課程學(xué)習(xí)避免熵崩塌(簡單題)或者減緩學(xué)習(xí)效率(難任務(wù))…"

而在 JustRL 的訓(xùn)練中,這些問題都沒有出現(xiàn)。這給了我們一個(gè)有趣的觀察:也許在某些配置下,當(dāng) baseline 足夠簡單、訓(xùn)練規(guī)模足夠充分時(shí),一些在復(fù)雜系統(tǒng)中出現(xiàn)的穩(wěn)定性問題可能就不容易發(fā)生。

一個(gè)有趣的插曲:加 "優(yōu)化" 反而更差

訓(xùn)練過程中,團(tuán)隊(duì)嘗試了兩個(gè) "按常理應(yīng)該有幫助" 的修改。這兩個(gè)實(shí)驗(yàn)的結(jié)果頗具啟發(fā)性。

第一個(gè)實(shí)驗(yàn)是加入顯式的長度懲罰。 動(dòng)機(jī)很直接:不少工作證明長度懲罰有效,那么添加一個(gè)懲罰項(xiàng)應(yīng)該能讓模型輸出更簡潔,提高訓(xùn)練效率。結(jié)果卻令人意外:性能從 55% 下降到 50%。深入分析發(fā)現(xiàn),顯式懲罰導(dǎo)致了熵崩塌,熵值從 1.2-1.4 降到 0.4-0.6 ,探索空間被過早壓縮。模型還沒來得及充分探索有效的解題策略,就被迫收斂到更短的響應(yīng)上。

第二個(gè)實(shí)驗(yàn)是換用更寬松的驗(yàn)證器。 邏輯同樣合理:減少假陰性(正確答案被誤判為錯(cuò)誤)應(yīng)該能提供更清晰的學(xué)習(xí)信號(hào)。但性能繼續(xù)下滑到 45%??赡艿脑虬ǎ焊鼘捤傻尿?yàn)證器雖然減少了誤判,但也降低了學(xué)習(xí)信號(hào)的細(xì)粒度 ——"幾乎正確" 和 "完全正確" 不再有明顯區(qū)分;另一種可能是,嚴(yán)格的格式要求實(shí)際上在迫使模型發(fā)展更魯棒的內(nèi)部推理,而寬松的驗(yàn)證器消除了這種壓力。



兩組 ablation 效果

這說明什么?一方面,ablation 在接近 2ksteps 的尺度上才開始分道揚(yáng)鑣,意味著現(xiàn)有的 RL tricks ablation 可能在小規(guī)模上(幾十 / 幾百步)得到的結(jié)論不一定適合于大規(guī)模 scaling,要驗(yàn)證 tricks 的作用可能長期才能看出區(qū)別;另一方面,不是說這些技術(shù)本身不好(它們?cè)谄渌ぷ髦写_實(shí)有效),而是:

  • 技術(shù)的價(jià)值高度依賴于baseline 的特性
  • 在一個(gè)穩(wěn)定的 baseline 上,某些 "優(yōu)化" 可能適得其反
  • 不是所有看起來合理的東西都該加

這個(gè)工作想說什么?

不是要證明 "簡單永遠(yuǎn)最好"

  • 不是說: "復(fù)雜方法都沒用"
  • 而是說: "我們可能低估了簡單方法在充分 scale 下的潛力"
  • 不是說: "大家都做錯(cuò)了"
  • 而是說: "建立清晰的簡單 baseline,能更準(zhǔn)確地評(píng)估復(fù)雜技術(shù)的價(jià)值"
  • 不是說: "永遠(yuǎn)別用復(fù)雜技術(shù)"
  • 而是說: "先驗(yàn)證簡單方法的極限在哪,再?zèng)Q定是否需要復(fù)雜度"

寫在最后:關(guān)于 "夠用" 的哲學(xué)

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“
— Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要證明 "簡單就是答案"。它想提醒的是:在不斷追求技術(shù)創(chuàng)新的同時(shí),別忘了回頭看看 —— 最樸素的方法,在足夠的努力下,能做到什么程度。

也許在 RL 訓(xùn)練小模型這個(gè)領(lǐng)域,我們一直在做加法:加階段、加調(diào)度、加采樣策略、加穩(wěn)定技巧。也許現(xiàn)在是時(shí)候試試奧卡姆剃刀的做法:減到不能再減,看看還剩什么。JustRL 的發(fā)現(xiàn)是:剩下的,可能已經(jīng)夠用了。

如果你正在做 RL,不妨試試:先把簡單配方訓(xùn)練充分,看看它能帶你走多遠(yuǎn)。

也許你會(huì)發(fā)現(xiàn):夠用了。

也許你會(huì)發(fā)現(xiàn):還不夠,但現(xiàn)在你知道差在哪了。

無論哪種,都是有價(jià)值的收獲。"如無必要,勿增實(shí)體"。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
炸鍋!安徽父子娶母女親上加親,知情人透露隱情

炸鍋!安徽父子娶母女親上加親,知情人透露隱情

凡知
2026-03-02 14:30:05
伊朗總統(tǒng)任命代理國防部長

伊朗總統(tǒng)任命代理國防部長

澎湃新聞
2026-03-02 19:57:02
哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

哈梅內(nèi)伊一死,普京急召全體高層,防空系統(tǒng)全失靈,俄這次背大鍋

夢在深巷aqa
2026-03-02 01:17:46
資本大佬為何總緊盯孫千?并非演技多出眾,顏值有多高

資本大佬為何總緊盯孫千?并非演技多出眾,顏值有多高

觀察鑒娛
2026-03-02 10:18:18
大量日系“電視棒”流入閑魚,跟打火機(jī)一樣小,預(yù)裝安卓系統(tǒng)

大量日系“電視棒”流入閑魚,跟打火機(jī)一樣小,預(yù)裝安卓系統(tǒng)

科技拌飯
2025-09-08 19:21:46
最高法:明確夫妻一方違反忠實(shí)義務(wù)將共同財(cái)產(chǎn)贈(zèng)與第三人的行為無效

最高法:明確夫妻一方違反忠實(shí)義務(wù)將共同財(cái)產(chǎn)贈(zèng)與第三人的行為無效

紅星新聞
2026-03-02 15:17:26
一場戰(zhàn)爭掀開了一個(gè)政治乞丐

一場戰(zhàn)爭掀開了一個(gè)政治乞丐

維美麗心甜
2025-11-12 07:20:03
你敢相信伊朗領(lǐng)導(dǎo)層48人團(tuán)滅,而現(xiàn)任總統(tǒng)佩澤希齊揚(yáng)卻完好無損

你敢相信伊朗領(lǐng)導(dǎo)層48人團(tuán)滅,而現(xiàn)任總統(tǒng)佩澤希齊揚(yáng)卻完好無損

我心縱橫天地間
2026-03-02 14:22:23
有事真不管!佩斯科夫攤牌:金磚不是軍事同盟,不負(fù)責(zé)協(xié)防伊朗

有事真不管!佩斯科夫攤牌:金磚不是軍事同盟,不負(fù)責(zé)協(xié)防伊朗

老馬拉車莫少裝
2026-03-02 23:29:20
78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

78歲連路都走不穩(wěn)還開演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

洲洲影視娛評(píng)
2026-01-28 12:23:18
撕毀合同倒向日本,拒賠中國361億違約金,這個(gè)國家如今怎么樣了

撕毀合同倒向日本,拒賠中國361億違約金,這個(gè)國家如今怎么樣了

墨印齋
2026-02-17 13:48:41
為拿美國綠卡,在聯(lián)合國大樓舉牌抹黑中國的張曉寧,如今“圓夢”

為拿美國綠卡,在聯(lián)合國大樓舉牌抹黑中國的張曉寧,如今“圓夢”

嫹筆牂牂
2026-03-02 17:03:39
美伊開戰(zhàn)2萬旅客滯留!阿聯(lián)酋政府霸氣喊:滯留費(fèi)用國家全買單

美伊開戰(zhàn)2萬旅客滯留!阿聯(lián)酋政府霸氣喊:滯留費(fèi)用國家全買單

環(huán)球趣聞分享
2026-03-02 16:45:37
湖南出現(xiàn)歷史上最荒唐法官!判男方凈身出戶,然后跟拿到全部資產(chǎn)的女方結(jié)婚

湖南出現(xiàn)歷史上最荒唐法官!判男方凈身出戶,然后跟拿到全部資產(chǎn)的女方結(jié)婚

爆角追蹤
2025-11-23 11:25:00
豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

蜉蝣說
2026-02-23 21:23:05
齋戒期間突尼斯聯(lián)賽下午一點(diǎn)比賽,終場哨響兩隊(duì)球員體力不支均趴窩

齋戒期間突尼斯聯(lián)賽下午一點(diǎn)比賽,終場哨響兩隊(duì)球員體力不支均趴窩

懂球帝
2026-03-02 22:29:12
山西一高速服務(wù)區(qū)附近四五十輛車被扎胎,多名車主凌晨補(bǔ)胎,交警:大貨車散落鐵屑導(dǎo)致,已找到涉事司機(jī),正在走理賠程序

山西一高速服務(wù)區(qū)附近四五十輛車被扎胎,多名車主凌晨補(bǔ)胎,交警:大貨車散落鐵屑導(dǎo)致,已找到涉事司機(jī),正在走理賠程序

極目新聞
2026-03-02 13:20:04
300344,或被終止上市!

300344,或被終止上市!

中國基金報(bào)
2026-03-02 21:11:33
油市“末日時(shí)鐘”: 中東產(chǎn)油國將被迫停產(chǎn) 油價(jià)沖擊200美元?

油市“末日時(shí)鐘”: 中東產(chǎn)油國將被迫停產(chǎn) 油價(jià)沖擊200美元?

每日經(jīng)濟(jì)新聞
2026-03-02 21:42:28
中東戰(zhàn)云密布,A股波瀾不驚?十大基金公司解盤:黃金、原油、AI誰主沉浮

中東戰(zhàn)云密布,A股波瀾不驚?十大基金公司解盤:黃金、原油、AI誰主沉浮

財(cái)聯(lián)社
2026-03-02 19:58:18
2026-03-03 06:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

時(shí)尚
家居
本地
公開課
軍事航空

今年春天一定要擁有的4件衣服,太好看了!

家居要聞

萬物互聯(lián) 享科技福祉

本地新聞

津南好·四時(shí)總相宜

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版