国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

微信煉出擴(kuò)散語言模型,vLLM部署AR模型3倍加速,低熵場(chǎng)景超10倍

0
分享至



騰訊微信 AI 團(tuán)隊(duì)提出 WeDLM(WeChat Diffusion Language Model),通過在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)擴(kuò)散式解碼,在數(shù)學(xué)推理等任務(wù)上實(shí)現(xiàn)相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵場(chǎng)景更可達(dá) 10 倍以上,同時(shí)保持甚至提升生成質(zhì)量。

引言

自回歸(AR)生成是當(dāng)前大語言模型的主流解碼范式,但其逐 token 生成的特性限制了推理效率。擴(kuò)散語言模型(Diffusion LLMs)通過并行恢復(fù)多個(gè) mask token 提供了一種替代方案,然而在實(shí)踐中,現(xiàn)有擴(kuò)散模型往往難以在推理速度上超越經(jīng)過高度優(yōu)化的 AR 推理引擎(如 vLLM)。

問題的關(guān)鍵在于:大多數(shù)擴(kuò)散語言模型采用雙向注意力機(jī)制,這與標(biāo)準(zhǔn)的 KV 緩存機(jī)制不兼容,導(dǎo)致并行預(yù)測(cè)的優(yōu)勢(shì)無法轉(zhuǎn)化為實(shí)際的速度提升。

近日,騰訊微信 AI 團(tuán)隊(duì)提出了WeDLM(WeChat Diffusion Language Model),這是首個(gè)在工業(yè)級(jí)推理引擎(vLLM)優(yōu)化條件下,推理速度超越同等 AR 模型的擴(kuò)散語言模型。



  • 論文標(biāo)題:WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
  • 論文作者:劉璦瑋、何明樺、曾少勛、張思鈞、張林昊、武楚涵、賈巍、劉源、周霄、周杰(騰訊微信 AI)
  • 項(xiàng)目主頁:https://wedlm.github.io
  • GitHub:https://github.com/tencent/WeDLM
  • 模型權(quán)重:https://huggingface.co/collections/tencent/wedlm

以下是模型效果:



上圖展示了vLLM 部署的 Qwen3-8B-Instruct(左) 與 WeDLM-8B-Instruct(右) 在相同 prompt 下的實(shí)時(shí)生成對(duì)比??梢灾庇^看到,WeDLM 的生成速度明顯更快。

核心思路:讓擴(kuò)散解碼兼容 KV 緩存

WeDLM 的核心洞察是:mask 恢復(fù)并不需要雙向注意力。擴(kuò)散式解碼只需要讓每個(gè) mask 位置能夠訪問所有已觀測(cè)的 token,這完全可以在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)。

研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵指標(biāo) ——前綴可緩存性(Prefix Cacheability):在 KV 緩存解碼中,只有形成連續(xù)左到右前綴的 token 才能被緩存復(fù)用。因此,真正影響推理效率的不是「每步預(yù)測(cè)多少 token」,而是「有多少預(yù)測(cè)能夠轉(zhuǎn)化為可緩存的前綴」。



圖:WeDLM-8B 在數(shù)學(xué)推理任務(wù)上實(shí)現(xiàn)約 3 倍加速,同時(shí)在準(zhǔn)確率和推理速度上顯著超越 LLaDA、Dream 等擴(kuò)散模型。

技術(shù)方案

拓?fù)渲嘏判颍═opological Reordering)

WeDLM 通過拓?fù)渲嘏判蛟诒3忠蚬⒁饬Φ耐瑫r(shí),讓 mask 位置能夠訪問完整的觀測(cè)上下文。具體而言,將所有已觀測(cè) token 移動(dòng)到物理序列的前端,同時(shí)通過 RoPE 位置編碼保留其邏輯位置。這樣,在標(biāo)準(zhǔn)因果 mask 下,每個(gè)待預(yù)測(cè)位置都能看到所有已知信息。



雙流掩碼(Dual-Stream Masking)

為縮小訓(xùn)練與推理的分布差異,WeDLM 設(shè)計(jì)了雙流訓(xùn)練策略:構(gòu)建一個(gè)干凈的「記憶流」和一個(gè)帶 mask 的「預(yù)測(cè)流」,兩者共享位置編碼。預(yù)測(cè)流中的每個(gè) block 從記憶流獲取干凈的歷史上下文,而非可能帶噪的中間預(yù)測(cè)結(jié)果。

流式并行解碼(Streaming Parallel Decoding)

推理階段,WeDLM 采用流式并行解碼策略:

  • 距離懲罰機(jī)制:優(yōu)先解碼靠左的位置,促進(jìn)左到右的前綴增長(zhǎng)
  • 即時(shí)緩存:在因果注意力下,已解碼 token 立即成為有效緩存
  • 動(dòng)態(tài)滑動(dòng)窗口:持續(xù)填充新的 mask 位置,避免 block 邊界的等待開銷



圖:傳統(tǒng) block 解碼需要等待整個(gè) block 完成才能提交,而 WeDLM 的流式解碼可以即時(shí)提交已解析的前綴。

實(shí)驗(yàn)結(jié)果

生成質(zhì)量

WeDLM 基于 Qwen2.5-7B 和 Qwen3-8B 進(jìn)行訓(xùn)練,使用 100B token 進(jìn)行繼續(xù)預(yù)訓(xùn)練,10B token 進(jìn)行 SFT。



在 base 模型評(píng)測(cè)中,WeDLM-8B 平均得分 74.72,超越 Qwen3-8B(72.61)2.1 個(gè)點(diǎn)。在數(shù)學(xué)推理任務(wù)上提升尤為顯著:GSM8K 提升 4.2 個(gè)點(diǎn),MATH 提升 2.8 個(gè)點(diǎn)。



在 instruct 模型評(píng)測(cè)中,WeDLM-8B-Instruct 平均得分 77.53,超越 Qwen3-8B-Instruct(75.12)2.4 個(gè)點(diǎn),也領(lǐng)先于 SDAR-8B-Instruct(74.22)等擴(kuò)散模型。

推理速度

關(guān)鍵亮點(diǎn):所有速度對(duì)比均基于 vLLM 部署的 AR 模型基線,而非未優(yōu)化的實(shí)現(xiàn)。



研究團(tuán)隊(duì)在論文中展示了不同熵值場(chǎng)景下的速度差異:

  • 低熵場(chǎng)景(如計(jì)數(shù)任務(wù)):由于輸出高度可預(yù)測(cè),模型可以大膽并行預(yù)測(cè)并接受多個(gè) token,實(shí)測(cè)達(dá)到 1673.3 tokens/s
  • 中熵場(chǎng)景(如數(shù)學(xué)推導(dǎo)):結(jié)構(gòu)化的推理步驟仍然具有較好的可預(yù)測(cè)性,實(shí)測(cè) 745.2 tokens/s
  • 高熵場(chǎng)景(如開放問答):語義多樣性高,并行接受率下降,實(shí)測(cè) 197.8 tokens/s

快速上手

安裝方式非常簡(jiǎn)單,只需通過 pip 從 GitHub 安裝即可。安裝完成后,可使用 Python API 快速調(diào)用模型進(jìn)行推理。詳細(xì)的使用文檔和示例代碼請(qǐng)參見項(xiàng)目 GitHub 主頁。

總結(jié)

WeDLM 的貢獻(xiàn)可以歸納為:

  • 因果擴(kuò)散框架:在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn) mask 恢復(fù),天然兼容 KV 緩存和現(xiàn)有推理基礎(chǔ)設(shè)施(FlashAttention、PagedAttention、CUDA Graphs 等)
  • 流式并行解碼:通過距離懲罰和動(dòng)態(tài)滑動(dòng)窗口,最大化前綴提交率
  • 首次在速度上超越工業(yè)級(jí)推理引擎部署的 AR 模型:在 vLLM 優(yōu)化條件下的公平對(duì)比中,數(shù)學(xué)推理實(shí)現(xiàn) 3 倍以上加速,低熵場(chǎng)景超過 10 倍

研究團(tuán)隊(duì)指出,這項(xiàng)工作表明「前綴可緩存性」應(yīng)當(dāng)作為并行文本生成的一等設(shè)計(jì)目標(biāo)。未來的擴(kuò)散語言模型應(yīng)更多地被視為高效的多 token 預(yù)測(cè)機(jī)制 —— 并行生成 token 的價(jià)值,取決于這些 token 能多快地轉(zhuǎn)化為可緩存的前綴。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
劉燁的基因太強(qiáng)大了,兒子太像他了,諾一是中法混血兒,很帥

劉燁的基因太強(qiáng)大了,兒子太像他了,諾一是中法混血兒,很帥

手工制作阿殲
2026-01-11 03:00:48
三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
王思聰示愛懶懶:99朵玫瑰與2億豪宅的幸福

王思聰示愛懶懶:99朵玫瑰與2億豪宅的幸福

清晨的鳥叫聲
2026-01-11 18:28:52
52歲吳綺莉欣慰不已!71歲成龍和女兒關(guān)系破冰,返港工作事業(yè)穩(wěn)定

52歲吳綺莉欣慰不已!71歲成龍和女兒關(guān)系破冰,返港工作事業(yè)穩(wěn)定

陳意小可愛
2026-01-11 07:13:37
連退31群后,聯(lián)合國(guó)不再手軟,正式警告美國(guó),中國(guó)前大使一針見血

連退31群后,聯(lián)合國(guó)不再手軟,正式警告美國(guó),中國(guó)前大使一針見血

博覽歷史
2026-01-10 19:21:25
曝閆學(xué)晶兒子憑啥入中戲新疆班?錄取名單未公布,中戲還能躲清靜

曝閆學(xué)晶兒子憑啥入中戲新疆班?錄取名單未公布,中戲還能躲清靜

伴史緣
2026-01-11 18:08:42
1.6萬億消費(fèi)大遷徙!商場(chǎng)空到只剩導(dǎo)購(gòu),中產(chǎn)的錢都流向了這里

1.6萬億消費(fèi)大遷徙!商場(chǎng)空到只剩導(dǎo)購(gòu),中產(chǎn)的錢都流向了這里

墨印齋
2026-01-10 21:32:39
香港餐廳收內(nèi)地客“天價(jià)”小費(fèi)?港人怒批:香港結(jié)業(yè)潮是有原因的

香港餐廳收內(nèi)地客“天價(jià)”小費(fèi)?港人怒批:香港結(jié)業(yè)潮是有原因的

朝子亥
2026-01-06 11:35:03
王曼昱輸?shù)貌辉?,韓瑩曾點(diǎn)名孫穎莎,公認(rèn)她為最強(qiáng)者!

王曼昱輸?shù)貌辉?,韓瑩曾點(diǎn)名孫穎莎,公認(rèn)她為最強(qiáng)者!

十點(diǎn)街球體育
2026-01-11 00:40:03
閆學(xué)晶多平臺(tái)賬號(hào)被禁止關(guān)注,馮鞏刪除所有相關(guān)視頻

閆學(xué)晶多平臺(tái)賬號(hào)被禁止關(guān)注,馮鞏刪除所有相關(guān)視頻

映射生活的身影
2026-01-10 10:38:36
徐江:王鈺棟跟不上米特里策的節(jié)奏,若去歐洲要提高足球理解

徐江:王鈺棟跟不上米特里策的節(jié)奏,若去歐洲要提高足球理解

懂球帝
2026-01-11 15:27:09
離婚傳聞?wù)嫦啻蟀?個(gè)月后,馮小剛近況曝光,一點(diǎn)都不意外

離婚傳聞?wù)嫦啻蟀?個(gè)月后,馮小剛近況曝光,一點(diǎn)都不意外

楓塵余往逝
2026-01-11 18:45:40
辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

觸摸史跡
2026-01-08 17:30:40
人財(cái)兩空!河北29歲帥哥李晨鵬去世,結(jié)婚半年中招,錯(cuò)診長(zhǎng)達(dá)一年

人財(cái)兩空!河北29歲帥哥李晨鵬去世,結(jié)婚半年中招,錯(cuò)診長(zhǎng)達(dá)一年

鋭娛之樂
2025-10-17 11:50:47
獨(dú)家|切出二十天,抖音退貨重回順豐

獨(dú)家|切出二十天,抖音退貨重回順豐

鈦媒體APP
2026-01-11 11:55:06
《流浪地球3》劉德華殺青,導(dǎo)演郭帆發(fā)文祝賀,此前該片已定檔2027大年初一公映

《流浪地球3》劉德華殺青,導(dǎo)演郭帆發(fā)文祝賀,此前該片已定檔2027大年初一公映

魯中晨報(bào)
2026-01-10 11:13:03
父母若是有以下8種疾病, 子女基本會(huì)遺傳

父母若是有以下8種疾病, 子女基本會(huì)遺傳

犀利強(qiáng)哥
2026-01-05 07:03:18
壽命與大便次數(shù)有關(guān)?研究發(fā)現(xiàn):壽命長(zhǎng)的人,每天排便在這個(gè)次數(shù)

壽命與大便次數(shù)有關(guān)?研究發(fā)現(xiàn):壽命長(zhǎng)的人,每天排便在這個(gè)次數(shù)

DrX說
2025-10-24 14:15:19
巴薩發(fā)布國(guó)家德比預(yù)熱海報(bào),亞馬爾、佩德里及埃里克出鏡

巴薩發(fā)布國(guó)家德比預(yù)熱海報(bào),亞馬爾、佩德里及埃里克出鏡

懂球帝
2026-01-11 17:45:17
鄭爽廣電封禁通知曝光!日子久了都忘了她有多惡劣,違法還棄養(yǎng)

鄭爽廣電封禁通知曝光!日子久了都忘了她有多惡劣,違法還棄養(yǎng)

萌神木木
2026-01-11 16:41:19
2026-01-11 19:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

小學(xué)生留遺書在家中服藥自殺 母親起訴學(xué)校和英語老師

頭條要聞

小學(xué)生留遺書在家中服藥自殺 母親起訴學(xué)校和英語老師

體育要聞

詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無誤判

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

本地
數(shù)碼
時(shí)尚
游戲
公開課

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

數(shù)碼要聞

智能廚電成CES最卷品類:AI接管一切,人人都能當(dāng)「甩手掌柜」

朱珠美上熱搜的老錢風(fēng)穿搭,太值得借鑒了!

《GTA6》注定創(chuàng)造歷史 但難復(fù)刻十年前午夜首發(fā)情懷

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版