国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

JustGRPO:擴(kuò)散語言模型的極簡主義回歸

0
分享至



擴(kuò)散語言模型(Diffusion LLMs, dLLMs)因支持「任意順序生成」和并行解碼而備受矚目。直覺上,打破傳統(tǒng)自回歸(AR)「從左到右」的束縛,理應(yīng)賦予模型更廣闊的解空間,從而在數(shù)學(xué)、代碼等復(fù)雜任務(wù)上解鎖更強(qiáng)的推理潛力。

然而,本研究揭示了一個(gè)反直覺的現(xiàn)實(shí):當(dāng)前的任意順序生成,反而通過「規(guī)避不確定性」收窄了模型的推理邊界。

基于此,本文提出了一種回歸極簡的方法——JustGRPO。實(shí)驗(yàn)表明,在 RL 階段讓模型自回歸生成,并直接用標(biāo)準(zhǔn)的 GRPO 進(jìn)行訓(xùn)練,即可超越當(dāng)前各類針對 dLLM 設(shè)計(jì)的 RL 算法表現(xiàn)。更重要的是,這種訓(xùn)練方式在提升推理表現(xiàn)的同時(shí),并未犧牲dLLM 引以為傲的并行解碼能力。



  • 論文標(biāo)題:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
  • 論文鏈接:https://huggingface.co/papers/2601.15165
  • 項(xiàng)目主頁:https://nzl-thu.github.io/the-flexibility-trap
  • 論文代碼:https://github.com/LeapLabTHU/JustGRPO

「靈活性陷阱」:

為什么選擇多反而考不好?

為了探究「靈活性是否等同于推理潛力」,本文引入了 Pass@k 作為核心衡量指標(biāo)。該指標(biāo)量化了在 k 次采樣中至少生成一個(gè)正確答案的概率,能夠有效反映模型解空間的覆蓋廣度以及 RL 訓(xùn)練可激發(fā)的推理潛力上限(Yue et al., 2025)。

對比實(shí)驗(yàn)涵蓋了兩種主要的解碼模式:

  • 任意順序(Arbitrary Order):允許模型根據(jù)置信度動態(tài)選擇生成順序,這是擴(kuò)散語言模型的標(biāo)準(zhǔn)解碼方式。
  • AR 順序(AR Order):約束模型遵循傳統(tǒng) LLM 從左到右的生成順序。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)值得深思的趨勢:雖然任意順序在 k=1 時(shí)表現(xiàn)尚可,但隨著采樣次數(shù) k 的增加,AR 順序的 Pass@k 曲線不僅攀升速率更快,且最終達(dá)到的上限顯著更高。這表明,在涉及復(fù)雜推理時(shí),AR 順序?qū)嶋H上可幫助模型覆蓋更廣闊的正確解空間。



圖:限制 dLLM 使用標(biāo)準(zhǔn)的 AR 順序,反而比靈活的任意順序擁有更高的推理上限。

熵坍塌現(xiàn)象

為何看似受限的 AR 順序反而更具潛力?這與兩種順序如何處理不確定性有關(guān)。

在自回歸模式下,模型被迫直面第一個(gè)未知 Token;而在任意順序模式下,模型則有跳過(bypass)當(dāng)前不確定 Token、優(yōu)先填充后續(xù)更確定的內(nèi)容的「特權(quán)」。統(tǒng)計(jì)顯示,被頻繁跳過的往往是諸如「Therefore」、「Thus」、「To」等邏輯銜接詞(下圖左):



圖左:任意順序下,模型傾向于跳過不確定token而先填后續(xù)token,且這些被跳過的token往往是一些邏輯銜接詞;圖右:這些邏輯銜接詞解碼時(shí)的entropy顯著低于自回歸順序(虛線代表average token entropy)。以上結(jié)果為LLaDA-Instruct在MATH-500數(shù)據(jù)集的結(jié)果。

已有工作(Wang et al., 2025)表明,這些邏輯銜接詞往往起到通往不同推理路徑的功能,且將這些詞保持高熵狀態(tài)對模型探索豐富的解空間至關(guān)重要。而在任意順序下,這些銜接詞被解碼時(shí)的熵(Entropy)顯著低于自回歸順序(上圖右)。

我們將這種現(xiàn)象稱為「熵降級」(Entropy Degradation)。形象地說,模型利用了任意順序的靈活性進(jìn)行了一種「局部貪婪優(yōu)化」:它跳過了艱難的推理決策點(diǎn),試圖通過先生成后續(xù)上下文來「湊」出邏輯連接。雖然這在單次生成中可能有效,但卻犧牲了對多樣化推理路徑的有效探索。



圖:任意順序生成傾向于繞過高熵的邏輯連接詞,導(dǎo)致解空間過早坍縮。

返璞歸真:

JustGRPO

既然「任意順序」反而可能限制推理路徑的探索,本文提出了一種回歸極簡的方法——JustGRPO。不同于現(xiàn)有 RL 算法,JustGRPO 不再試圖用各種近似處理以顯式保留任意順序特性,而是選擇了一條更為徹底的路徑:

在 RL 訓(xùn)練階段,直接摒棄對任意順序的執(zhí)念,強(qiáng)制擴(kuò)散語言模型采用自回歸(AR)順序生成。這樣不僅保持了更廣闊的推理路徑,同時(shí)也讓我們得以直接復(fù)用成熟的 GRPO 算法進(jìn)行優(yōu)化。這種「生成軌跡的確定性」也自然使得強(qiáng)化學(xué)習(xí)時(shí)的信用分配(Credit Assignment)更加清晰,有助于模型更有效地學(xué)習(xí)魯棒的聯(lián)合分布。

值得一提的是:「訓(xùn)練時(shí)的約束」≠「推理時(shí)的退化」

自回歸的約束僅存在于訓(xùn)練階段。它的目的是為了讓模型更有效地進(jìn)行 RL 階段的探索與信用分配,模型本身的雙向注意力機(jī)制并未被破壞。一旦訓(xùn)練完成,我們依然可以在推理階段無損地應(yīng)用并行解碼,在享受 AR 訓(xùn)練帶來的更優(yōu)推理表現(xiàn)的同時(shí),保留擴(kuò)散模型引以為傲的生成速度。

實(shí)驗(yàn)結(jié)果:

簡單,但極其有效

性能大幅提升

在數(shù)學(xué)推理和代碼生成這兩類通用的推理任務(wù)上,JustGRPO 均有優(yōu)秀的表現(xiàn):

  • 數(shù)學(xué)推理:在 GSM8K 和 MATH-500 上,模型展現(xiàn)了極高的推理上限,準(zhǔn)確率最高分別可達(dá) 89.8% 和 45.2%,相比之前的最佳方法(SPG)顯著提升。

  • 代碼生成:在 HumanEval 與 MBPP 數(shù)據(jù)集上,準(zhǔn)確率分別達(dá)到 49.4% 和 52.4%。



表:JustGRPO在多個(gè)基準(zhǔn)測試中超越了現(xiàn)有的 dLLM 強(qiáng)化學(xué)習(xí)方法,基座模型:LLaDA-Instruct。注:LLaDA-1.5使用了大規(guī)模私有數(shù)據(jù)集訓(xùn)練、LLaDOU在訓(xùn)練中引入了額外模塊,因此未列入對比。

并行能力不僅沒丟,還更強(qiáng)了

一個(gè)可能的擔(dān)憂是:用 AR 方式訓(xùn)練是否會讓 dLLM 退化,失去其并行優(yōu)勢?實(shí)驗(yàn)結(jié)果恰恰相反。使用現(xiàn)成的 training-free 并行采樣器(Ben-Hamu et al., 2025),JustGRPO 訓(xùn)練后的模型在并行解碼下表現(xiàn)更佳。例如在 MBPP 數(shù)據(jù)集上,當(dāng)每步并行解碼 5 個(gè) Token 時(shí),JustGRPO 相比基座模型(LLaDA-Instruct)的準(zhǔn)確率優(yōu)勢從單步的 10.6% 擴(kuò)大到了25.5%。

這表明訓(xùn)練后的模型學(xué)到了更魯棒的聯(lián)合分布,使其更能適應(yīng)并行采樣過程中的近似誤差。



圖:JustGRPO 訓(xùn)練后的模型在并行解碼時(shí)表現(xiàn)出更好的速度-精度權(quán)衡。

結(jié)語:

少即是多

這篇工作挑戰(zhàn)了該領(lǐng)域的一個(gè)普遍假設(shè),即「必須在 RL 中保留任意順序靈活性」。事實(shí)證明,通過限制訓(xùn)練時(shí)的生成順序,迫使模型直面邏輯分叉點(diǎn)的高不確定性,反而能更有效地激發(fā) dLLMs 的推理潛能。

JustGRPO以一種極簡的方式,實(shí)現(xiàn)了推理能力的大幅提升,同時(shí)未犧牲擴(kuò)散模型標(biāo)志性的推理速度。也希望借此工作啟發(fā)社區(qū)重新審視「任意順序生成」在通用推理任務(wù)中的真實(shí)價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陳毅之子陳丹淮求學(xué)時(shí)遇同學(xué)攀比家世,被問及父親情況,他回應(yīng):我父親只是個(gè)處長

陳毅之子陳丹淮求學(xué)時(shí)遇同學(xué)攀比家世,被問及父親情況,他回應(yīng):我父親只是個(gè)處長

文史明鑒
2026-01-26 18:00:13
54歲朱茵現(xiàn)狀:依舊開97年的車,住在深山殘屋,狀態(tài)一如既往的好

54歲朱茵現(xiàn)狀:依舊開97年的車,住在深山殘屋,狀態(tài)一如既往的好

小熊侃史
2025-12-17 09:43:27
謝霆鋒加拿大留學(xué)舊照火了,開法拉利、坐直升機(jī),這才是真少爺

謝霆鋒加拿大留學(xué)舊照火了,開法拉利、坐直升機(jī),這才是真少爺

可樂談情感
2026-01-28 19:00:31
阿門拒投一戰(zhàn)遭休媒狂批:4米無人不敢投 可作交易籌碼 絕非球星

阿門拒投一戰(zhàn)遭休媒狂批:4米無人不敢投 可作交易籌碼 絕非球星

顏小白的籃球夢
2026-01-29 13:34:35
值得珍藏:科技龍頭+6G+電力設(shè)備+稀有小金屬+可控核聚變+英偉達(dá)

值得珍藏:科技龍頭+6G+電力設(shè)備+稀有小金屬+可控核聚變+英偉達(dá)

Thurman在昆明
2026-01-29 08:29:07
建議取消中考?xì)v史道法閉卷考試?廣州市教育局回復(fù)了!

建議取消中考?xì)v史道法閉卷考試?廣州市教育局回復(fù)了!

南方都市報(bào)
2026-01-28 21:38:16
孫千私房寫真瘋傳!上露下緊蝴蝶釘在胸前,黑褲包裹蜜桃臀性感撩人

孫千私房寫真瘋傳!上露下緊蝴蝶釘在胸前,黑褲包裹蜜桃臀性感撩人

八星人
2026-01-24 10:24:17
夏朝到底存不存在?上個(gè)世紀(jì),胡適提出了一條簡單的驗(yàn)證辦法

夏朝到底存不存在?上個(gè)世紀(jì),胡適提出了一條簡單的驗(yàn)證辦法

小豫講故事
2025-10-29 06:00:06
42歲王寶強(qiáng)整容了!戴金框眼鏡很像汪小菲,為配學(xué)霸女友不惜一切

42歲王寶強(qiáng)整容了!戴金框眼鏡很像汪小菲,為配學(xué)霸女友不惜一切

喜歡歷史的阿繁
2026-01-29 12:37:58
最新:曝俄軍或從赫爾松敗退!烏克蘭破壞對手后勤中心

最新:曝俄軍或從赫爾松敗退!烏克蘭破壞對手后勤中心

聊歷史的阿稼
2026-01-29 12:01:37
從美國“虎口脫險(xiǎn)”?牢A真實(shí)身份是什么?為啥倉皇回國?

從美國“虎口脫險(xiǎn)”?牢A真實(shí)身份是什么?為啥倉皇回國?

大江看潮
2026-01-29 09:16:15
雪到底下在哪?能下多大?河南今起迎本輪雨雪核心時(shí)段

雪到底下在哪?能下多大?河南今起迎本輪雨雪核心時(shí)段

大象新聞
2026-01-29 08:13:05
寧波警方突襲!9人當(dāng)場被帶走!寫字樓一房間內(nèi)藏著不可告人的秘密……

寧波警方突襲!9人當(dāng)場被帶走!寫字樓一房間內(nèi)藏著不可告人的秘密……

環(huán)球網(wǎng)資訊
2026-01-29 07:33:06
外籍網(wǎng)紅雙面嘴臉曝光!靠夸中國簽證爆火,轉(zhuǎn)頭外網(wǎng)罵國人還抹黑

外籍網(wǎng)紅雙面嘴臉曝光!靠夸中國簽證爆火,轉(zhuǎn)頭外網(wǎng)罵國人還抹黑

離離言幾許
2026-01-28 00:12:12
我媽給我500萬,我買了一套房,男友大發(fā)雷霆:那是我妹的救命錢

我媽給我500萬,我買了一套房,男友大發(fā)雷霆:那是我妹的救命錢

紙鳶奇譚
2026-01-26 16:59:59
安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

安徽小伙在小國家創(chuàng)業(yè),“享受”一夫多妻、開放生活的他如今怎樣

牛牛叨史
2026-01-06 12:59:43
省政府工作報(bào)告采納27條意見建議

省政府工作報(bào)告采納27條意見建議

廣東發(fā)布
2026-01-29 12:24:59
3少婦出租屋賣淫:一次時(shí)長不限收費(fèi)百元,現(xiàn)場曝光,正面照流出

3少婦出租屋賣淫:一次時(shí)長不限收費(fèi)百元,現(xiàn)場曝光,正面照流出

博士觀察
2026-01-28 19:22:20
深度 | 眾院選戰(zhàn)打響,高市早苗選前再發(fā)涉臺狂言,政治豪賭能否保住相位?

深度 | 眾院選戰(zhàn)打響,高市早苗選前再發(fā)涉臺狂言,政治豪賭能否保住相位?

上觀新聞
2026-01-28 21:39:16
訂單暴漲2000%!一舉突破美國壟斷,這家中國企業(yè)實(shí)在太“猛”了

訂單暴漲2000%!一舉突破美國壟斷,這家中國企業(yè)實(shí)在太“猛”了

牛牛叨史
2026-01-22 00:01:48
2026-01-29 14:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12213文章數(shù) 142552關(guān)注度
往期回顧 全部

科技要聞

周亞輝的AI新賭局:國內(nèi)太卷 出海另起爐灶

頭條要聞

82歲大爺背包獨(dú)自出國旅行10年 1個(gè)月花掉近1年退休金

頭條要聞

82歲大爺背包獨(dú)自出國旅行10年 1個(gè)月花掉近1年退休金

體育要聞

詹姆斯哭了!騎士視頻致敬41歲超巨

娛樂要聞

張譯不再隱瞞!公開回應(yīng)退圈息影真相

財(cái)經(jīng)要聞

黃金價(jià)格太高了嗎

汽車要聞

車長超5米還帶后輪轉(zhuǎn)向 比亞迪海豹08/海獅08將亮相

態(tài)度原創(chuàng)

家居
房產(chǎn)
健康
游戲
教育

家居要聞

極簡輕奢 家的無限可能

房產(chǎn)要聞

50米一線海景,實(shí)景示范區(qū)火熱開放!三亞TOP級旅居王牌來了

耳石癥分類型,癥狀大不同

任天堂VB游戲回歸在線服務(wù) 難得超前設(shè)計(jì)慘遭失敗

教育要聞

江蘇將迎80天“超短學(xué)期”

無障礙瀏覽 進(jìn)入關(guān)懷版