国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

訓(xùn)練到推理「瘦身」演進(jìn):首篇高效擴(kuò)散語言模型(dLLM)深度綜述

0
分享至



在生成式 AI 的浪潮中,自回歸(Autoregressive, AR)模型憑借其卓越的性能占據(jù)了統(tǒng)治地位。然而,其「從左到右」逐個(gè)預(yù)測 Token 的串行機(jī)制,天生限制了并行生成的可能性。

作為一種極具潛力的替代方案,擴(kuò)散語言模型(Diffusion Language Models, dLLMs)引入了全新的非自回歸范式:通過迭代去噪來優(yōu)化文本序列 。這種機(jī)制不僅支持雙向上下文建模,更允許并行更新多個(gè) Token,為更快的生成速度和更強(qiáng)的可控性打開了大門。

但在「美好愿景」與「實(shí)際落地」之間,橫亙著一道巨大的鴻溝 ——效率。

相比于高度成熟的 AR 模型,dLLM 面臨著訓(xùn)練成本高昂、推理步驟繁瑣、KV Cache 難以復(fù)用等棘手問題 。為了厘清這一新興領(lǐng)域的關(guān)鍵技術(shù)路徑,自動(dòng)化所、香港中文大學(xué)與香港大學(xué)等機(jī)構(gòu)撰寫了一篇最新的綜述論文,該綜述系統(tǒng)地梳理了高效 dLLM 的研究進(jìn)展,從訓(xùn)練、推理、上下文及系統(tǒng)框架等維度,拆解 dLLM 是如何一步步跨越效率瓶頸的。





  • 論文標(biāo)題:Efficient Diffusion Language Models: A Comprehensive Survey
  • 論文鏈接:https://www.authorea.com/users/1021451/articles/1381451-efficient-diffusion-language-models-a-comprehensive-survey
  • 項(xiàng)目倉庫:https://github.com/FelixMessi/Awesome-Efficient-dLLMs

一、訓(xùn)練效率:如何站在 AR 的肩膀上起飛?

dLLM 若要從頭訓(xùn)練,不僅數(shù)據(jù)需求大,算力消耗也極其驚人。因此,如何「借力」現(xiàn)有的預(yù)訓(xùn)練模型成為關(guān)鍵。

論文將訓(xùn)練側(cè)的提效策略主要?dú)w納為「AR 到 dLLM 的遷移」與「架構(gòu)優(yōu)化」。

  • 從 AR 到擴(kuò)散模型的無縫遷移:

與其從零開始,不如利用已有的 AR 模型權(quán)重。DiffuLLaMA 和 Dream 等工作探索了通過調(diào)整注意力掩碼(Attention Mask)或引入特定的過渡微調(diào)階段,將 AR 模型的能力「蒸餾」或「轉(zhuǎn)換」為擴(kuò)散模型 。更有趣的是Block Diffusion(塊擴(kuò)散)的思路,它保留了部分自回歸的結(jié)構(gòu)(塊與塊之間串行),但在塊內(nèi)部進(jìn)行并行擴(kuò)散,這種折中方案在保留 AR 預(yù)訓(xùn)練優(yōu)勢(shì)的同時(shí),顯著降低了適應(yīng)成本 。

  • 架構(gòu)層面的「加減法」:

為了減少計(jì)算量,研究人員開始對(duì)架構(gòu)動(dòng)刀。E2D2 采用了編碼器 - 解碼器(Encoder-Decoder)架構(gòu),讓編碼器處理清晰的輸入,解碼器專注于去噪,從而復(fù)用特征并降低訓(xùn)練成本 。此外,MoE(混合專家)架構(gòu)也被引入 dLLM(如 LLaDA-MoE),通過稀疏激活在保持模型容量的同時(shí)減少推理時(shí)的參數(shù)計(jì)算量 。

二、推理加速:并行解碼與采樣策略的博弈

推理速度是 dLLM 能否落地的核心痛點(diǎn)。由于擴(kuò)散過程本質(zhì)上是多步迭代,如果每一步都全量計(jì)算,延遲將無法接受。綜述將推理加速主要分為「并行解碼」和「壓縮技術(shù)」兩大類。



1. 并行解碼(Parallel Decoding)

dLLM 的核心優(yōu)勢(shì)在于可以一次性更新多個(gè) Token。但具體更新哪些?更新多少?

  • 啟發(fā)式方法(Heuristic Methods):這類方法不需要重新訓(xùn)練模型,而是利用「不確定性」作為信號(hào)。例如 Fast-dLLM 會(huì)計(jì)算每個(gè) Token 的置信度,只有置信度高的 Token 才會(huì)保留,低的則繼續(xù)去噪 。還有基于「屬性感知」的采樣,利用生成的局部一致性或早期收斂現(xiàn)象來提前終止計(jì)算 。

  • 基于學(xué)習(xí)的方法(Learning-based Methods):這是一種更「主動(dòng)」的策略。通過訓(xùn)練額外的輕量級(jí)網(wǎng)絡(luò)或使用強(qiáng)化學(xué)習(xí)(RL),讓模型自己學(xué)會(huì)規(guī)劃「這一步該解開哪些 Token」。dParallel和LSD等工作通過蒸餾技術(shù),讓學(xué)生模型用更少的步數(shù)模仿教師模型的采樣軌跡 。

2. 壓縮與量化

除了少走幾步,把模型「變小」也是硬道理。雖然量化(Quantization)在 AR 模型中已很成熟,但 dLLM 對(duì)異常值和時(shí)間步(Timestep)高度敏感。QDLM和Quant-dLLM等工作專門針對(duì)擴(kuò)散過程中的激活分布特點(diǎn),設(shè)計(jì)了細(xì)粒度的量化方案,甚至實(shí)現(xiàn)了 2-bit 的極低比特量化 。

三、KV Cache 管理:應(yīng)對(duì)「動(dòng)態(tài)」挑戰(zhàn)

這是 dLLM 與 AR 模型在底層機(jī)制上最大的不同點(diǎn),也是工程優(yōu)化的深水區(qū)。

在 AR 模型中,歷史 Token 是固定的,因此 KV Cache 可以一直復(fù)用。但在 dLLM 中,整個(gè)序列在每一步去噪中都在變化,雙向注意力機(jī)制意味著所有 Token 互相依賴,導(dǎo)致標(biāo)準(zhǔn)的 KV Cache 失效。



綜述總結(jié)了三種應(yīng)對(duì)策略:

1.架構(gòu)范式調(diào)整:采用 Block Diffusion 或 DualCache 設(shè)計(jì),將序列分為「固定的前綴」和「動(dòng)態(tài)的后綴」,只對(duì)變化的部分進(jìn)行重計(jì)算 。

2.自適應(yīng)刷新(Adaptive Refresh):利用 Token 的穩(wěn)定性。如果某個(gè) Token 的特征在兩步之間變化很小(Similarity Threshold),就直接復(fù)用上一輪的 Cache,否則才更新。dKV-Cache 和 d2Cache 就是此類策略的代表 。

3.稀疏化與驅(qū)逐(Sparsity & Eviction):既然存不下,就只存重要的。通過注意力顯著性(Attention Saliency)判斷哪些 Token 對(duì)當(dāng)前生成最關(guān)鍵,動(dòng)態(tài)驅(qū)逐不重要的 KV 對(duì),從而在有限顯存下支持更長的序列 。

四、投機(jī)解碼:dLLM 的「自我博弈」與「協(xié)同作戰(zhàn)」

投機(jī)解碼(Speculative Decoding, SD)在 dLLM 中呈現(xiàn)出兩種獨(dú)特的形態(tài):

  • dLLM-only 自我投機(jī):模型自己預(yù)測未來的中間狀態(tài)(Self-Speculation),或者利用 "Jump-Share" 機(jī)制,在迭代中跳過某些去噪步驟并共享計(jì)算結(jié)果 。
  • dLLM-AR 協(xié)同(Synergy):結(jié)合 AR 和 dLLM 的長處。一種思路是用小的 AR 模型輔助 dLLM 判斷采樣的聯(lián)合概率;另一種則是用 dLLM 快速生成草稿(Draft),再由大參數(shù)的 AR 模型進(jìn)行驗(yàn)證(Verify)。這種 "Diffusion-as-Drafter" 的模式正在成為提升 AR 模型整體吞吐量的新熱點(diǎn) 。

五、總結(jié)與展望:邁向生產(chǎn)環(huán)境

除了上述算法層面的優(yōu)化,論文還探討了上下文擴(kuò)展(Context Scalability)和系統(tǒng)框架(System Framework)。目前,包括 SGLang 在內(nèi)的主流推理引擎已開始初步支持 dLLM,但相比 vLLM 對(duì) AR 模型的那種極致優(yōu)化,dLLM 的生態(tài)系統(tǒng)仍處于「基建」階段 。

未來值得關(guān)注的方向:

1.統(tǒng)一的評(píng)測標(biāo)準(zhǔn):目前的效率對(duì)比往往基于不同的假設(shè),急需建立涵蓋訓(xùn)練成本、顯存占用、端到端延遲的統(tǒng)一 Benchmark。

2.硬件感知的內(nèi)核優(yōu)化:目前的加速很多停留在算法層,缺乏針對(duì) FlashAttention 那樣底層的 CUDA Kernel 優(yōu)化,這限制了理論加速比向?qū)嶋H墻鐘時(shí)間(Wall-clock time)的轉(zhuǎn)化 。

3.多模態(tài)融合:dLLM 天然適合多模態(tài)任務(wù)(因?yàn)閳D像生成本身多為擴(kuò)散模型),如何在多模態(tài)場景下實(shí)現(xiàn)統(tǒng)一的高效推理,將是下一個(gè)爆發(fā)點(diǎn) 。

這篇綜述不僅是對(duì)現(xiàn)有技術(shù)的總結(jié),更是一份「作戰(zhàn)地圖」。它清晰地表明,dLLM 正從純粹的學(xué)術(shù)探索走向工業(yè)級(jí)應(yīng)用。隨著 KV Cache 管理、并行解碼策略的日益成熟,我們有理由相信,在不久的將來,dLLM 將在需要高質(zhì)量、高可控性生成的場景中,成為 AR 模型強(qiáng)有力的競爭者甚至互補(bǔ)者。

延伸閱讀與資源

紙上得來終覺淺。為了方便大家查閱文中提到的所有算法實(shí)現(xiàn)及后續(xù)更新的論文,作者整理了配套的 GitHub 資源庫。如果你關(guān)注擴(kuò)散語言模型推理加速、模型壓縮 或 高性能計(jì)算,建議將此鏈接加入書簽:

  • https://github.com/FelixMessi/Awesome-Efficient-dLLMs

該倉庫實(shí)時(shí)追蹤 dLLM 領(lǐng)域的最新動(dòng)態(tài),歡迎 Star 關(guān)注或貢獻(xiàn)你的代碼!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
恭喜快船升第8!倫納德創(chuàng)紀(jì)錄,2大新援合砍51分!2換5交易賺大了

恭喜快船升第8!倫納德創(chuàng)紀(jì)錄,2大新援合砍51分!2換5交易賺大了

毒舌NBA
2026-03-10 12:53:11
梁山上唯一沒有朋友的好漢:無人與他玩,就算生病到死都沒人問津

梁山上唯一沒有朋友的好漢:無人與他玩,就算生病到死都沒人問津

銘記歷史呀
2026-03-08 14:05:52
公布了!1332人遇難!內(nèi)塔尼亞胡或被關(guān)進(jìn)大牢,特朗普開始急了

公布了!1332人遇難!內(nèi)塔尼亞胡或被關(guān)進(jìn)大牢,特朗普開始急了

凡知
2026-03-09 17:50:33
開戰(zhàn)第9天,伊朗宣布重大戰(zhàn)果,新導(dǎo)彈首次立功,美軍航母再被炸

開戰(zhàn)第9天,伊朗宣布重大戰(zhàn)果,新導(dǎo)彈首次立功,美軍航母再被炸

說歷史的老牢
2026-03-09 11:42:03
伊朗伊斯蘭革命衛(wèi)隊(duì):擁有“更強(qiáng)大、數(shù)量更多”的導(dǎo)彈

伊朗伊斯蘭革命衛(wèi)隊(duì):擁有“更強(qiáng)大、數(shù)量更多”的導(dǎo)彈

新華社
2026-03-10 10:25:50
吳柳芳首次公開退役原因!8年15金16銀 不如管晨辰1枚奧運(yùn)金牌

吳柳芳首次公開退役原因!8年15金16銀 不如管晨辰1枚奧運(yùn)金牌

念洲
2026-03-09 12:21:54
美UFO專家離奇失蹤11天:掌握美國最敏感機(jī)密,曾擔(dān)任空軍多個(gè)要職;其離開住所后未帶手機(jī),F(xiàn)BI介入調(diào)查

美UFO專家離奇失蹤11天:掌握美國最敏感機(jī)密,曾擔(dān)任空軍多個(gè)要職;其離開住所后未帶手機(jī),F(xiàn)BI介入調(diào)查

極目新聞
2026-03-10 13:18:11
神奇的中國村:一村兩國,一天出國數(shù)次,游客跨過黃線會(huì)被罰款

神奇的中國村:一村兩國,一天出國數(shù)次,游客跨過黃線會(huì)被罰款

壹知眠羊
2026-03-10 07:25:20
不容錯(cuò)過!3月10日晚19:00,中央電視臺(tái)CCTV5、CCTV5+直播節(jié)目表

不容錯(cuò)過!3月10日晚19:00,中央電視臺(tái)CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2026-03-10 10:14:24
恐怖!美軍的陰暗操作令世界不寒而栗

恐怖!美軍的陰暗操作令世界不寒而栗

補(bǔ)壹刀
2026-03-09 15:41:03
BBC神劇這尺度?怕不是要404

BBC神劇這尺度?怕不是要404

i書與房
2026-03-10 09:53:34
最高院:民間借貸沒有借條只有轉(zhuǎn)賬記錄,能否證明存在借貸關(guān)系?

最高院:民間借貸沒有借條只有轉(zhuǎn)賬記錄,能否證明存在借貸關(guān)系?

周軍律師聊案子
2026-03-10 08:43:14
胡齊斯坦倒向巴列維!伊朗南部三大阿拉伯部落公開叛向世俗化

胡齊斯坦倒向巴列維!伊朗南部三大阿拉伯部落公開叛向世俗化

老馬拉車莫少裝
2026-03-10 12:05:47
蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

談史論天地
2026-02-28 13:35:18
錢學(xué)森的女兒錢永真:80年代赴美留學(xué)定居美國,育有一子是美國人

錢學(xué)森的女兒錢永真:80年代赴美留學(xué)定居美國,育有一子是美國人

浩渺青史
2026-03-09 16:48:52
難以置信!因油價(jià)持續(xù)上漲,一早餐店通知每根油條上漲價(jià)格2.5元

難以置信!因油價(jià)持續(xù)上漲,一早餐店通知每根油條上漲價(jià)格2.5元

火山詩話
2026-03-09 15:09:03
你以為在減肥,其實(shí)在長肉!這些食物,熱量比米飯還要高

你以為在減肥,其實(shí)在長肉!這些食物,熱量比米飯還要高

增肌減脂
2026-03-09 17:04:33
我在西藏旅游,一個(gè)喇嘛見我后突然跪下:活佛,我們等了您百年

我在西藏旅游,一個(gè)喇嘛見我后突然跪下:活佛,我們等了您百年

千秋文化
2026-01-29 21:35:02
TACO!特朗普稱“戰(zhàn)爭很快結(jié)束”,原油殘暴式狂跌

TACO!特朗普稱“戰(zhàn)爭很快結(jié)束”,原油殘暴式狂跌

金石隨筆
2026-03-10 09:10:59
愛潑斯坦案兩尸檢法醫(yī)“致命爭論”曝光:舌骨骨折在尖端是自縊VS頸部三處骨折是他殺

愛潑斯坦案兩尸檢法醫(yī)“致命爭論”曝光:舌骨骨折在尖端是自縊VS頸部三處骨折是他殺

紅星新聞
2026-03-10 12:30:22
2026-03-10 13:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12456文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”狂歡 賣“飼料”先掙錢了?

頭條要聞

媒體:伊各方誓言贏得戰(zhàn)爭 美國現(xiàn)在即使想退出也很難

頭條要聞

媒體:伊各方誓言贏得戰(zhàn)爭 美國現(xiàn)在即使想退出也很難

體育要聞

韓國女足羨慕的奢侈品,為何選擇中國女足

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財(cái)經(jīng)要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

汽車要聞

蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

家居
健康
親子
數(shù)碼
公開課

家居要聞

自然肌理 溫度質(zhì)感婚房

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

8歲小朋友智商高達(dá)146!“天才兒童”都有以下特征,你家滿足幾個(gè)

數(shù)碼要聞

2025年中國腕戴設(shè)備出貨量暴漲20.8% 華為穩(wěn)居第一

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版