国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

JustGRPO:擴(kuò)散語言模型的極簡(jiǎn)主義回歸

0
分享至



擴(kuò)散語言模型(Diffusion LLMs, dLLMs)因支持「任意順序生成」和并行解碼而備受矚目。直覺上,打破傳統(tǒng)自回歸(AR)「從左到右」的束縛,理應(yīng)賦予模型更廣闊的解空間,從而在數(shù)學(xué)、代碼等復(fù)雜任務(wù)上解鎖更強(qiáng)的推理潛力。

然而,本研究揭示了一個(gè)反直覺的現(xiàn)實(shí):當(dāng)前的任意順序生成,反而通過「規(guī)避不確定性」收窄了模型的推理邊界。

基于此,本文提出了一種回歸極簡(jiǎn)的方法——JustGRPO。實(shí)驗(yàn)表明,在 RL 階段讓模型自回歸生成,并直接用標(biāo)準(zhǔn)的 GRPO 進(jìn)行訓(xùn)練,即可超越當(dāng)前各類針對(duì) dLLM 設(shè)計(jì)的 RL 算法表現(xiàn)。更重要的是,這種訓(xùn)練方式在提升推理表現(xiàn)的同時(shí),并未犧牲dLLM 引以為傲的并行解碼能力。



  • 論文標(biāo)題:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
  • 論文鏈接:https://huggingface.co/papers/2601.15165
  • 項(xiàng)目主頁(yè):https://nzl-thu.github.io/the-flexibility-trap
  • 論文代碼:https://github.com/LeapLabTHU/JustGRPO

「靈活性陷阱」:

為什么選擇多反而考不好?

為了探究「靈活性是否等同于推理潛力」,本文引入了 Pass@k 作為核心衡量指標(biāo)。該指標(biāo)量化了在 k 次采樣中至少生成一個(gè)正確答案的概率,能夠有效反映模型解空間的覆蓋廣度以及 RL 訓(xùn)練可激發(fā)的推理潛力上限(Yue et al., 2025)。

對(duì)比實(shí)驗(yàn)涵蓋了兩種主要的解碼模式:

  • 任意順序(Arbitrary Order):允許模型根據(jù)置信度動(dòng)態(tài)選擇生成順序,這是擴(kuò)散語言模型的標(biāo)準(zhǔn)解碼方式。
  • AR 順序(AR Order):約束模型遵循傳統(tǒng) LLM 從左到右的生成順序。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)值得深思的趨勢(shì):雖然任意順序在 k=1 時(shí)表現(xiàn)尚可,但隨著采樣次數(shù) k 的增加,AR 順序的 Pass@k 曲線不僅攀升速率更快,且最終達(dá)到的上限顯著更高。這表明,在涉及復(fù)雜推理時(shí),AR 順序?qū)嶋H上可幫助模型覆蓋更廣闊的正確解空間。



圖:限制 dLLM 使用標(biāo)準(zhǔn)的 AR 順序,反而比靈活的任意順序擁有更高的推理上限。

熵坍塌現(xiàn)象

為何看似受限的 AR 順序反而更具潛力?這與兩種順序如何處理不確定性有關(guān)。

在自回歸模式下,模型被迫直面第一個(gè)未知 Token;而在任意順序模式下,模型則有跳過(bypass)當(dāng)前不確定 Token、優(yōu)先填充后續(xù)更確定的內(nèi)容的「特權(quán)」。統(tǒng)計(jì)顯示,被頻繁跳過的往往是諸如「Therefore」、「Thus」、「To」等邏輯銜接詞(下圖左):



圖左:任意順序下,模型傾向于跳過不確定token而先填后續(xù)token,且這些被跳過的token往往是一些邏輯銜接詞;圖右:這些邏輯銜接詞解碼時(shí)的entropy顯著低于自回歸順序(虛線代表average token entropy)。以上結(jié)果為L(zhǎng)LaDA-Instruct在MATH-500數(shù)據(jù)集的結(jié)果。

已有工作(Wang et al., 2025)表明,這些邏輯銜接詞往往起到通往不同推理路徑的功能,且將這些詞保持高熵狀態(tài)對(duì)模型探索豐富的解空間至關(guān)重要。而在任意順序下,這些銜接詞被解碼時(shí)的熵(Entropy)顯著低于自回歸順序(上圖右)。

我們將這種現(xiàn)象稱為「熵降級(jí)」(Entropy Degradation)。形象地說,模型利用了任意順序的靈活性進(jìn)行了一種「局部貪婪優(yōu)化」:它跳過了艱難的推理決策點(diǎn),試圖通過先生成后續(xù)上下文來「湊」出邏輯連接。雖然這在單次生成中可能有效,但卻犧牲了對(duì)多樣化推理路徑的有效探索。



圖:任意順序生成傾向于繞過高熵的邏輯連接詞,導(dǎo)致解空間過早坍縮。

返璞歸真:

JustGRPO

既然「任意順序」反而可能限制推理路徑的探索,本文提出了一種回歸極簡(jiǎn)的方法——JustGRPO。不同于現(xiàn)有 RL 算法,JustGRPO 不再試圖用各種近似處理以顯式保留任意順序特性,而是選擇了一條更為徹底的路徑:

在 RL 訓(xùn)練階段,直接摒棄對(duì)任意順序的執(zhí)念,強(qiáng)制擴(kuò)散語言模型采用自回歸(AR)順序生成。這樣不僅保持了更廣闊的推理路徑,同時(shí)也讓我們得以直接復(fù)用成熟的 GRPO 算法進(jìn)行優(yōu)化。這種「生成軌跡的確定性」也自然使得強(qiáng)化學(xué)習(xí)時(shí)的信用分配(Credit Assignment)更加清晰,有助于模型更有效地學(xué)習(xí)魯棒的聯(lián)合分布。

值得一提的是:「訓(xùn)練時(shí)的約束」≠「推理時(shí)的退化」

自回歸的約束僅存在于訓(xùn)練階段。它的目的是為了讓模型更有效地進(jìn)行 RL 階段的探索與信用分配,模型本身的雙向注意力機(jī)制并未被破壞。一旦訓(xùn)練完成,我們依然可以在推理階段無損地應(yīng)用并行解碼,在享受 AR 訓(xùn)練帶來的更優(yōu)推理表現(xiàn)的同時(shí),保留擴(kuò)散模型引以為傲的生成速度。

實(shí)驗(yàn)結(jié)果:

簡(jiǎn)單,但極其有效

性能大幅提升

在數(shù)學(xué)推理和代碼生成這兩類通用的推理任務(wù)上,JustGRPO 均有優(yōu)秀的表現(xiàn):

  • 數(shù)學(xué)推理:在 GSM8K 和 MATH-500 上,模型展現(xiàn)了極高的推理上限,準(zhǔn)確率最高分別可達(dá) 89.8% 和 45.2%,相比之前的最佳方法(SPG)顯著提升。

  • 代碼生成:在 HumanEval 與 MBPP 數(shù)據(jù)集上,準(zhǔn)確率分別達(dá)到 49.4% 和 52.4%。



表:JustGRPO在多個(gè)基準(zhǔn)測(cè)試中超越了現(xiàn)有的 dLLM 強(qiáng)化學(xué)習(xí)方法,基座模型:LLaDA-Instruct。注:LLaDA-1.5使用了大規(guī)模私有數(shù)據(jù)集訓(xùn)練、LLaDOU在訓(xùn)練中引入了額外模塊,因此未列入對(duì)比。

并行能力不僅沒丟,還更強(qiáng)了

一個(gè)可能的擔(dān)憂是:用 AR 方式訓(xùn)練是否會(huì)讓 dLLM 退化,失去其并行優(yōu)勢(shì)?實(shí)驗(yàn)結(jié)果恰恰相反。使用現(xiàn)成的 training-free 并行采樣器(Ben-Hamu et al., 2025),JustGRPO 訓(xùn)練后的模型在并行解碼下表現(xiàn)更佳。例如在 MBPP 數(shù)據(jù)集上,當(dāng)每步并行解碼 5 個(gè) Token 時(shí),JustGRPO 相比基座模型(LLaDA-Instruct)的準(zhǔn)確率優(yōu)勢(shì)從單步的 10.6% 擴(kuò)大到了25.5%。

這表明訓(xùn)練后的模型學(xué)到了更魯棒的聯(lián)合分布,使其更能適應(yīng)并行采樣過程中的近似誤差。



圖:JustGRPO 訓(xùn)練后的模型在并行解碼時(shí)表現(xiàn)出更好的速度-精度權(quán)衡。

結(jié)語:

少即是多

這篇工作挑戰(zhàn)了該領(lǐng)域的一個(gè)普遍假設(shè),即「必須在 RL 中保留任意順序靈活性」。事實(shí)證明,通過限制訓(xùn)練時(shí)的生成順序,迫使模型直面邏輯分叉點(diǎn)的高不確定性,反而能更有效地激發(fā) dLLMs 的推理潛能。

JustGRPO以一種極簡(jiǎn)的方式,實(shí)現(xiàn)了推理能力的大幅提升,同時(shí)未犧牲擴(kuò)散模型標(biāo)志性的推理速度。也希望借此工作啟發(fā)社區(qū)重新審視「任意順序生成」在通用推理任務(wù)中的真實(shí)價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
劉燁養(yǎng)了15年的兒子諾一,如今帥到搶老爸風(fēng)頭!近照曝光變化太大

劉燁養(yǎng)了15年的兒子諾一,如今帥到搶老爸風(fēng)頭!近照曝光變化太大

阿廢冷眼觀察所
2026-03-27 01:42:49
馬拉多納臨終前有多慘?巴蒂斯圖塔親曝:他像狗一樣孤獨(dú)死去

馬拉多納臨終前有多慘?巴蒂斯圖塔親曝:他像狗一樣孤獨(dú)死去

有態(tài)度的體育小白
2026-03-27 04:23:29
張雪峰經(jīng)典名言 100 條(完整版)

張雪峰經(jīng)典名言 100 條(完整版)

新浪財(cái)經(jīng)
2026-03-25 06:17:25
川普:我們想讓你成為伊朗最高領(lǐng)袖,“不,我不要”

川普:我們想讓你成為伊朗最高領(lǐng)袖,“不,我不要”

移光幻影
2026-03-27 07:52:25
18歲少女發(fā)明凈水黑科技:無濾芯循環(huán)過濾,微塑料去除率超95%

18歲少女發(fā)明凈水黑科技:無濾芯循環(huán)過濾,微塑料去除率超95%

DeepTech深科技
2026-03-25 13:48:24
重大轉(zhuǎn)折!俄羅斯,公開下場(chǎng)了!

重大轉(zhuǎn)折!俄羅斯,公開下場(chǎng)了!

大嘴說天下
2026-03-26 22:17:57
寫小說判十年,把生殖器放女孩嘴巴里判兩年九個(gè)月

寫小說判十年,把生殖器放女孩嘴巴里判兩年九個(gè)月

昊軒看世界
2026-03-24 19:56:42
人民日?qǐng)?bào)、環(huán)球時(shí)報(bào)接連發(fā)出警示:日本的軍國(guó)主義獠牙已露出來了

人民日?qǐng)?bào)、環(huán)球時(shí)報(bào)接連發(fā)出警示:日本的軍國(guó)主義獠牙已露出來了

賤議你讀史
2026-03-24 00:30:08
奧恰洛夫:我從圈內(nèi)聽說,樊振東明年甚至有可能再換一次俱樂部

奧恰洛夫:我從圈內(nèi)聽說,樊振東明年甚至有可能再換一次俱樂部

懂球帝
2026-03-26 11:24:21
美伊一戰(zhàn),“打醒”3個(gè)亞洲國(guó)家,中國(guó)已經(jīng)不用再多說啥了!

美伊一戰(zhàn),“打醒”3個(gè)亞洲國(guó)家,中國(guó)已經(jīng)不用再多說啥了!

小舟談歷史
2026-03-27 09:34:31
太堵了!網(wǎng)友盼早日修成都地鐵29號(hào)線,官方回應(yīng)

太堵了!網(wǎng)友盼早日修成都地鐵29號(hào)線,官方回應(yīng)

天府觀察
2026-03-26 16:00:34
香港千億豪門要改姓?第一個(gè)跌落神壇的“四大家族”,出現(xiàn)了!

香港千億豪門要改姓?第一個(gè)跌落神壇的“四大家族”,出現(xiàn)了!

BenSir本色說
2026-03-26 22:08:00
黃一鳴回應(yīng)公開孩子父親身份:你不給撫養(yǎng)費(fèi),我就用你的流量賺錢

黃一鳴回應(yīng)公開孩子父親身份:你不給撫養(yǎng)費(fèi),我就用你的流量賺錢

每一次點(diǎn)擊
2026-02-22 12:02:41
中原消費(fèi)金融為催收“買”借款人手機(jī)號(hào)碼 三大運(yùn)營(yíng)商均中標(biāo) 或涉買賣個(gè)人信息惹爭(zhēng)議

中原消費(fèi)金融為催收“買”借款人手機(jī)號(hào)碼 三大運(yùn)營(yíng)商均中標(biāo) 或涉買賣個(gè)人信息惹爭(zhēng)議

信網(wǎng)
2026-03-26 19:12:37
親身跑完500公里高速,才懂電車和油車差距有多大,選錯(cuò)車太糟心

親身跑完500公里高速,才懂電車和油車差距有多大,選錯(cuò)車太糟心

老特有話說
2026-03-24 15:07:23
把自己吃的圓又大:這一身肉肉,摸起來舒服,看起來喜慶

把自己吃的圓又大:這一身肉肉,摸起來舒服,看起來喜慶

飛娛日記
2026-03-21 07:41:05
隨著萊萬破門+2-1逆轉(zhuǎn),波蘭晉級(jí)世預(yù)賽歐洲區(qū)附加賽決賽

隨著萊萬破門+2-1逆轉(zhuǎn),波蘭晉級(jí)世預(yù)賽歐洲區(qū)附加賽決賽

側(cè)身凌空斬
2026-03-27 05:43:13
毛主席看完工資方案沉默良久,對(duì)周總理說:這不是把我架爐子上烤嗎

毛主席看完工資方案沉默良久,對(duì)周總理說:這不是把我架爐子上烤嗎

文史明鑒
2026-03-26 15:22:47
2025年演唱會(huì)票房最高的10位歌手排行榜,這些歌手太賺錢了!

2025年演唱會(huì)票房最高的10位歌手排行榜,這些歌手太賺錢了!

小椰的奶奶
2026-03-26 08:40:13
巴基斯坦把稀土賣給美國(guó),以為捏住中國(guó)“七寸”,其實(shí)在玩火自焚

巴基斯坦把稀土賣給美國(guó),以為捏住中國(guó)“七寸”,其實(shí)在玩火自焚

通文知史
2026-03-24 08:35:03
2026-03-27 10:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12611文章數(shù) 142595關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

媒體:內(nèi)塔尼亞胡夫人為兩個(gè)兒子訴苦 加沙兒童怎么看

頭條要聞

媒體:內(nèi)塔尼亞胡夫人為兩個(gè)兒子訴苦 加沙兒童怎么看

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強(qiáng)?

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

線控底盤+千問上車 智己LS8預(yù)售權(quán)益價(jià)25.98萬起

態(tài)度原創(chuàng)

手機(jī)
房產(chǎn)
本地
親子
數(shù)碼

手機(jī)要聞

聯(lián)想旗下moto razr 70 Ultra手機(jī)渲染圖曝光

房產(chǎn)要聞

勁銷64億后,?谶@座改善標(biāo)桿盤,又要引爆樓市!

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

親子要聞

原生家庭真的是會(huì)傷害子女嗎?

數(shù)碼要聞

新款Meta雷朋聯(lián)名智能眼鏡現(xiàn)身美國(guó)FCC認(rèn)證文件,提供雙版本

無障礙瀏覽 進(jìn)入關(guān)懷版