網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

訓(xùn)練到推理「瘦身」演進(jìn)：首篇高效擴(kuò)散語言模型（dLLM）深度綜述

2026-03-10 10:00:07　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在生成式 AI 的浪潮中，自回歸（Autoregressive, AR）模型憑借其卓越的性能占據(jù)了統(tǒng)治地位。然而，其「從左到右」逐個(gè)預(yù)測 Token 的串行機(jī)制，天生限制了并行生成的可能性。

作為一種極具潛力的替代方案，擴(kuò)散語言模型（Diffusion Language Models, dLLMs）引入了全新的非自回歸范式：通過迭代去噪來優(yōu)化文本序列。這種機(jī)制不僅支持雙向上下文建模，更允許并行更新多個(gè) Token，為更快的生成速度和更強(qiáng)的可控性打開了大門。

但在「美好愿景」與「實(shí)際落地」之間，橫亙著一道巨大的鴻溝 ——效率。

相比于高度成熟的 AR 模型，dLLM 面臨著訓(xùn)練成本高昂、推理步驟繁瑣、KV Cache 難以復(fù)用等棘手問題。為了厘清這一新興領(lǐng)域的關(guān)鍵技術(shù)路徑，自動(dòng)化所、香港中文大學(xué)與香港大學(xué)等機(jī)構(gòu)撰寫了一篇最新的綜述論文，該綜述系統(tǒng)地梳理了高效 dLLM 的研究進(jìn)展，從訓(xùn)練、推理、上下文及系統(tǒng)框架等維度，拆解 dLLM 是如何一步步跨越效率瓶頸的。

論文標(biāo)題：Efficient Diffusion Language Models: A Comprehensive Survey
論文鏈接：https://www.authorea.com/users/1021451/articles/1381451-efficient-diffusion-language-models-a-comprehensive-survey
項(xiàng)目倉庫：https://github.com/FelixMessi/Awesome-Efficient-dLLMs

一、訓(xùn)練效率：如何站在 AR 的肩膀上起飛？

dLLM 若要從頭訓(xùn)練，不僅數(shù)據(jù)需求大，算力消耗也極其驚人。因此，如何「借力」現(xiàn)有的預(yù)訓(xùn)練模型成為關(guān)鍵。

論文將訓(xùn)練側(cè)的提效策略主要?dú)w納為「AR 到 dLLM 的遷移」與「架構(gòu)優(yōu)化」。

從 AR 到擴(kuò)散模型的無縫遷移：

與其從零開始，不如利用已有的 AR 模型權(quán)重。DiffuLLaMA 和 Dream 等工作探索了通過調(diào)整注意力掩碼（Attention Mask）或引入特定的過渡微調(diào)階段，將 AR 模型的能力「蒸餾」或「轉(zhuǎn)換」為擴(kuò)散模型。更有趣的是Block Diffusion（塊擴(kuò)散）的思路，它保留了部分自回歸的結(jié)構(gòu)（塊與塊之間串行），但在塊內(nèi)部進(jìn)行并行擴(kuò)散，這種折中方案在保留 AR 預(yù)訓(xùn)練優(yōu)勢(shì)的同時(shí)，顯著降低了適應(yīng)成本。

架構(gòu)層面的「加減法」：

為了減少計(jì)算量，研究人員開始對(duì)架構(gòu)動(dòng)刀。E2D2 采用了編碼器 - 解碼器（Encoder-Decoder）架構(gòu)，讓編碼器處理清晰的輸入，解碼器專注于去噪，從而復(fù)用特征并降低訓(xùn)練成本。此外，MoE（混合專家）架構(gòu)也被引入 dLLM（如 LLaDA-MoE），通過稀疏激活在保持模型容量的同時(shí)減少推理時(shí)的參數(shù)計(jì)算量。

二、推理加速：并行解碼與采樣策略的博弈

推理速度是 dLLM 能否落地的核心痛點(diǎn)。由于擴(kuò)散過程本質(zhì)上是多步迭代，如果每一步都全量計(jì)算，延遲將無法接受。綜述將推理加速主要分為「并行解碼」和「壓縮技術(shù)」兩大類。

1. 并行解碼（Parallel Decoding）

dLLM 的核心優(yōu)勢(shì)在于可以一次性更新多個(gè) Token。但具體更新哪些？更新多少？

啟發(fā)式方法（Heuristic Methods）：這類方法不需要重新訓(xùn)練模型，而是利用「不確定性」作為信號(hào)。例如 Fast-dLLM 會(huì)計(jì)算每個(gè) Token 的置信度，只有置信度高的 Token 才會(huì)保留，低的則繼續(xù)去噪。還有基于「屬性感知」的采樣，利用生成的局部一致性或早期收斂現(xiàn)象來提前終止計(jì)算。

基于學(xué)習(xí)的方法（Learning-based Methods）：這是一種更「主動(dòng)」的策略。通過訓(xùn)練額外的輕量級(jí)網(wǎng)絡(luò)或使用強(qiáng)化學(xué)習(xí)（RL），讓模型自己學(xué)會(huì)規(guī)劃「這一步該解開哪些 Token」。dParallel和LSD等工作通過蒸餾技術(shù)，讓學(xué)生模型用更少的步數(shù)模仿教師模型的采樣軌跡。

2. 壓縮與量化

除了少走幾步，把模型「變小」也是硬道理。雖然量化（Quantization）在 AR 模型中已很成熟，但 dLLM 對(duì)異常值和時(shí)間步（Timestep）高度敏感。QDLM和Quant-dLLM等工作專門針對(duì)擴(kuò)散過程中的激活分布特點(diǎn)，設(shè)計(jì)了細(xì)粒度的量化方案，甚至實(shí)現(xiàn)了 2-bit 的極低比特量化。

三、KV Cache 管理：應(yīng)對(duì)「動(dòng)態(tài)」挑戰(zhàn)

這是 dLLM 與 AR 模型在底層機(jī)制上最大的不同點(diǎn)，也是工程優(yōu)化的深水區(qū)。

在 AR 模型中，歷史 Token 是固定的，因此 KV Cache 可以一直復(fù)用。但在 dLLM 中，整個(gè)序列在每一步去噪中都在變化，雙向注意力機(jī)制意味著所有 Token 互相依賴，導(dǎo)致標(biāo)準(zhǔn)的 KV Cache 失效。

綜述總結(jié)了三種應(yīng)對(duì)策略：

1.架構(gòu)范式調(diào)整：采用 Block Diffusion 或 DualCache 設(shè)計(jì)，將序列分為「固定的前綴」和「動(dòng)態(tài)的后綴」，只對(duì)變化的部分進(jìn)行重計(jì)算。

2.自適應(yīng)刷新（Adaptive Refresh）：利用 Token 的穩(wěn)定性。如果某個(gè) Token 的特征在兩步之間變化很小（Similarity Threshold），就直接復(fù)用上一輪的 Cache，否則才更新。dKV-Cache 和 d2Cache 就是此類策略的代表。

3.稀疏化與驅(qū)逐（Sparsity & Eviction）：既然存不下，就只存重要的。通過注意力顯著性（Attention Saliency）判斷哪些 Token 對(duì)當(dāng)前生成最關(guān)鍵，動(dòng)態(tài)驅(qū)逐不重要的 KV 對(duì)，從而在有限顯存下支持更長的序列。

四、投機(jī)解碼：dLLM 的「自我博弈」與「協(xié)同作戰(zhàn)」

投機(jī)解碼（Speculative Decoding, SD）在 dLLM 中呈現(xiàn)出兩種獨(dú)特的形態(tài)：

dLLM-only 自我投機(jī)：模型自己預(yù)測未來的中間狀態(tài)（Self-Speculation），或者利用 "Jump-Share" 機(jī)制，在迭代中跳過某些去噪步驟并共享計(jì)算結(jié)果。
dLLM-AR 協(xié)同（Synergy）：結(jié)合 AR 和 dLLM 的長處。一種思路是用小的 AR 模型輔助 dLLM 判斷采樣的聯(lián)合概率；另一種則是用 dLLM 快速生成草稿（Draft），再由大參數(shù)的 AR 模型進(jìn)行驗(yàn)證（Verify）。這種 "Diffusion-as-Drafter" 的模式正在成為提升 AR 模型整體吞吐量的新熱點(diǎn) 。

五、總結(jié)與展望：邁向生產(chǎn)環(huán)境

除了上述算法層面的優(yōu)化，論文還探討了上下文擴(kuò)展（Context Scalability）和系統(tǒng)框架（System Framework）。目前，包括 SGLang 在內(nèi)的主流推理引擎已開始初步支持 dLLM，但相比 vLLM 對(duì) AR 模型的那種極致優(yōu)化，dLLM 的生態(tài)系統(tǒng)仍處于「基建」階段。

未來值得關(guān)注的方向：

1.統(tǒng)一的評(píng)測標(biāo)準(zhǔn)：目前的效率對(duì)比往往基于不同的假設(shè)，急需建立涵蓋訓(xùn)練成本、顯存占用、端到端延遲的統(tǒng)一 Benchmark。

2.硬件感知的內(nèi)核優(yōu)化：目前的加速很多停留在算法層，缺乏針對(duì) FlashAttention 那樣底層的 CUDA Kernel 優(yōu)化，這限制了理論加速比向?qū)嶋H墻鐘時(shí)間（Wall-clock time）的轉(zhuǎn)化。

3.多模態(tài)融合：dLLM 天然適合多模態(tài)任務(wù)（因?yàn)閳D像生成本身多為擴(kuò)散模型），如何在多模態(tài)場景下實(shí)現(xiàn)統(tǒng)一的高效推理，將是下一個(gè)爆發(fā)點(diǎn) 。

這篇綜述不僅是對(duì)現(xiàn)有技術(shù)的總結(jié)，更是一份「作戰(zhàn)地圖」。它清晰地表明，dLLM 正從純粹的學(xué)術(shù)探索走向工業(yè)級(jí)應(yīng)用。隨著 KV Cache 管理、并行解碼策略的日益成熟，我們有理由相信，在不久的將來，dLLM 將在需要高質(zhì)量、高可控性生成的場景中，成為 AR 模型強(qiáng)有力的競爭者甚至互補(bǔ)者。

延伸閱讀與資源

紙上得來終覺淺。為了方便大家查閱文中提到的所有算法實(shí)現(xiàn)及后續(xù)更新的論文，作者整理了配套的 GitHub 資源庫。如果你關(guān)注擴(kuò)散語言模型推理加速、模型壓縮或高性能計(jì)算，建議將此鏈接加入書簽：

https://github.com/FelixMessi/Awesome-Efficient-dLLMs

該倉庫實(shí)時(shí)追蹤 dLLM 領(lǐng)域的最新動(dòng)態(tài)，歡迎 Star 關(guān)注或貢獻(xiàn)你的代碼！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.