国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微信煉出擴(kuò)散語言模型,vLLM部署AR模型3倍加速,低熵場景超10倍

0
分享至



騰訊微信 AI 團(tuán)隊(duì)提出 WeDLM(WeChat Diffusion Language Model),通過在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)擴(kuò)散式解碼,在數(shù)學(xué)推理等任務(wù)上實(shí)現(xiàn)相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵場景更可達(dá) 10 倍以上,同時(shí)保持甚至提升生成質(zhì)量。

引言

自回歸(AR)生成是當(dāng)前大語言模型的主流解碼范式,但其逐 token 生成的特性限制了推理效率。擴(kuò)散語言模型(Diffusion LLMs)通過并行恢復(fù)多個(gè) mask token 提供了一種替代方案,然而在實(shí)踐中,現(xiàn)有擴(kuò)散模型往往難以在推理速度上超越經(jīng)過高度優(yōu)化的 AR 推理引擎(如 vLLM)。

問題的關(guān)鍵在于:大多數(shù)擴(kuò)散語言模型采用雙向注意力機(jī)制,這與標(biāo)準(zhǔn)的 KV 緩存機(jī)制不兼容,導(dǎo)致并行預(yù)測的優(yōu)勢無法轉(zhuǎn)化為實(shí)際的速度提升。

近日,騰訊微信 AI 團(tuán)隊(duì)提出了WeDLM(WeChat Diffusion Language Model),這是首個(gè)在工業(yè)級推理引擎(vLLM)優(yōu)化條件下,推理速度超越同等 AR 模型的擴(kuò)散語言模型。



  • 論文標(biāo)題:WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
  • 論文作者:劉璦瑋、何明樺、曾少勛、張思鈞、張林昊、武楚涵、賈巍、劉源、周霄、周杰(騰訊微信 AI)
  • 項(xiàng)目主頁:https://wedlm.github.io
  • GitHub:https://github.com/tencent/WeDLM
  • 模型權(quán)重:https://huggingface.co/collections/tencent/wedlm

以下是模型效果:



上圖展示了vLLM 部署的 Qwen3-8B-Instruct(左) 與 WeDLM-8B-Instruct(右) 在相同 prompt 下的實(shí)時(shí)生成對比??梢灾庇^看到,WeDLM 的生成速度明顯更快。

核心思路:讓擴(kuò)散解碼兼容 KV 緩存

WeDLM 的核心洞察是:mask 恢復(fù)并不需要雙向注意力。擴(kuò)散式解碼只需要讓每個(gè) mask 位置能夠訪問所有已觀測的 token,這完全可以在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)。

研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵指標(biāo) ——前綴可緩存性(Prefix Cacheability):在 KV 緩存解碼中,只有形成連續(xù)左到右前綴的 token 才能被緩存復(fù)用。因此,真正影響推理效率的不是「每步預(yù)測多少 token」,而是「有多少預(yù)測能夠轉(zhuǎn)化為可緩存的前綴」。



圖:WeDLM-8B 在數(shù)學(xué)推理任務(wù)上實(shí)現(xiàn)約 3 倍加速,同時(shí)在準(zhǔn)確率和推理速度上顯著超越 LLaDA、Dream 等擴(kuò)散模型。

技術(shù)方案

拓?fù)渲嘏判颍═opological Reordering)

WeDLM 通過拓?fù)渲嘏判蛟诒3忠蚬⒁饬Φ耐瑫r(shí),讓 mask 位置能夠訪問完整的觀測上下文。具體而言,將所有已觀測 token 移動到物理序列的前端,同時(shí)通過 RoPE 位置編碼保留其邏輯位置。這樣,在標(biāo)準(zhǔn)因果 mask 下,每個(gè)待預(yù)測位置都能看到所有已知信息。



雙流掩碼(Dual-Stream Masking)

為縮小訓(xùn)練與推理的分布差異,WeDLM 設(shè)計(jì)了雙流訓(xùn)練策略:構(gòu)建一個(gè)干凈的「記憶流」和一個(gè)帶 mask 的「預(yù)測流」,兩者共享位置編碼。預(yù)測流中的每個(gè) block 從記憶流獲取干凈的歷史上下文,而非可能帶噪的中間預(yù)測結(jié)果。

流式并行解碼(Streaming Parallel Decoding)

推理階段,WeDLM 采用流式并行解碼策略:

  • 距離懲罰機(jī)制:優(yōu)先解碼靠左的位置,促進(jìn)左到右的前綴增長
  • 即時(shí)緩存:在因果注意力下,已解碼 token 立即成為有效緩存
  • 動態(tài)滑動窗口:持續(xù)填充新的 mask 位置,避免 block 邊界的等待開銷



圖:傳統(tǒng) block 解碼需要等待整個(gè) block 完成才能提交,而 WeDLM 的流式解碼可以即時(shí)提交已解析的前綴。

實(shí)驗(yàn)結(jié)果

生成質(zhì)量

WeDLM 基于 Qwen2.5-7B 和 Qwen3-8B 進(jìn)行訓(xùn)練,使用 100B token 進(jìn)行繼續(xù)預(yù)訓(xùn)練,10B token 進(jìn)行 SFT。



在 base 模型評測中,WeDLM-8B 平均得分 74.72,超越 Qwen3-8B(72.61)2.1 個(gè)點(diǎn)。在數(shù)學(xué)推理任務(wù)上提升尤為顯著:GSM8K 提升 4.2 個(gè)點(diǎn),MATH 提升 2.8 個(gè)點(diǎn)。



在 instruct 模型評測中,WeDLM-8B-Instruct 平均得分 77.53,超越 Qwen3-8B-Instruct(75.12)2.4 個(gè)點(diǎn),也領(lǐng)先于 SDAR-8B-Instruct(74.22)等擴(kuò)散模型。

推理速度

關(guān)鍵亮點(diǎn):所有速度對比均基于 vLLM 部署的 AR 模型基線,而非未優(yōu)化的實(shí)現(xiàn)。



研究團(tuán)隊(duì)在論文中展示了不同熵值場景下的速度差異:

  • 低熵場景(如計(jì)數(shù)任務(wù)):由于輸出高度可預(yù)測,模型可以大膽并行預(yù)測并接受多個(gè) token,實(shí)測達(dá)到 1673.3 tokens/s
  • 中熵場景(如數(shù)學(xué)推導(dǎo)):結(jié)構(gòu)化的推理步驟仍然具有較好的可預(yù)測性,實(shí)測 745.2 tokens/s
  • 高熵場景(如開放問答):語義多樣性高,并行接受率下降,實(shí)測 197.8 tokens/s

快速上手

安裝方式非常簡單,只需通過 pip 從 GitHub 安裝即可。安裝完成后,可使用 Python API 快速調(diào)用模型進(jìn)行推理。詳細(xì)的使用文檔和示例代碼請參見項(xiàng)目 GitHub 主頁。

總結(jié)

WeDLM 的貢獻(xiàn)可以歸納為:

  • 因果擴(kuò)散框架:在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn) mask 恢復(fù),天然兼容 KV 緩存和現(xiàn)有推理基礎(chǔ)設(shè)施(FlashAttention、PagedAttention、CUDA Graphs 等)
  • 流式并行解碼:通過距離懲罰和動態(tài)滑動窗口,最大化前綴提交率
  • 首次在速度上超越工業(yè)級推理引擎部署的 AR 模型:在 vLLM 優(yōu)化條件下的公平對比中,數(shù)學(xué)推理實(shí)現(xiàn) 3 倍以上加速,低熵場景超過 10 倍

研究團(tuán)隊(duì)指出,這項(xiàng)工作表明「前綴可緩存性」應(yīng)當(dāng)作為并行文本生成的一等設(shè)計(jì)目標(biāo)。未來的擴(kuò)散語言模型應(yīng)更多地被視為高效的多 token 預(yù)測機(jī)制 —— 并行生成 token 的價(jià)值,取決于這些 token 能多快地轉(zhuǎn)化為可緩存的前綴。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“演員閆學(xué)晶”,被禁止關(guān)注

“演員閆學(xué)晶”,被禁止關(guān)注

第一財(cái)經(jīng)資訊
2026-01-10 10:23:52
L燈!超大杯 !與凪光同行的女神!

L燈!超大杯 !與凪光同行的女神!

貴圈真亂
2026-01-10 12:39:39
娶妻當(dāng)娶這3生肖女,天生福運(yùn)旺,家興財(cái)旺子孫賢

娶妻當(dāng)娶這3生肖女,天生福運(yùn)旺,家興財(cái)旺子孫賢

人閒情事
2026-01-10 17:00:49
外賣員送餐發(fā)現(xiàn)是自己地址,接下單:我倒要看看誰在我家!

外賣員送餐發(fā)現(xiàn)是自己地址,接下單:我倒要看看誰在我家!

曉艾故事匯
2025-07-14 17:13:00
蘋果立大功!美研究發(fā)現(xiàn):其天然成分黃酮類,可使肝臟年輕4.69歲

蘋果立大功!美研究發(fā)現(xiàn):其天然成分黃酮類,可使肝臟年輕4.69歲

思思夜話
2026-01-09 10:53:04
周琦失誤珀賽爾絕殺!謝智杰末節(jié)封神 山東4人滿分,許導(dǎo)驗(yàn)貨失敗

周琦失誤珀賽爾絕殺!謝智杰末節(jié)封神 山東4人滿分,許導(dǎo)驗(yàn)貨失敗

后仰大風(fēng)車
2026-01-09 21:38:37
河南一男孩校內(nèi)離奇身亡,家長堵車:胸口現(xiàn)釘子洞,學(xué)校竟欲搶運(yùn)尸體?新蔡縣教育局:當(dāng)?shù)毓膊块T已介入

河南一男孩校內(nèi)離奇身亡,家長堵車:胸口現(xiàn)釘子洞,學(xué)校竟欲搶運(yùn)尸體?新蔡縣教育局:當(dāng)?shù)毓膊块T已介入

揚(yáng)子晚報(bào)
2026-01-09 12:24:37
1972年尼克松問該怎么稱呼蔣介石?毛主席淡定回了7個(gè)字,全場瞬間笑翻

1972年尼克松問該怎么稱呼蔣介石?毛主席淡定回了7個(gè)字,全場瞬間笑翻

源溯歷史
2026-01-01 23:46:13
52票贊成47票反對!美國投票結(jié)果公布;美國或?qū)⑹ヂ?lián)大投票權(quán)

52票贊成47票反對!美國投票結(jié)果公布;美國或?qū)⑹ヂ?lián)大投票權(quán)

南宗歷史
2026-01-09 10:24:03
1950年,無錫一位帶8個(gè)娃的母親走投無路,給毛主席寫了封信:我是您恩師的兒媳婦

1950年,無錫一位帶8個(gè)娃的母親走投無路,給毛主席寫了封信:我是您恩師的兒媳婦

清風(fēng)鑒史
2026-01-04 23:43:12
李現(xiàn)哪兒是不拍戲啊,根本不是沒劇本找他,好本子都快堆成山了!

李現(xiàn)哪兒是不拍戲啊,根本不是沒劇本找他,好本子都快堆成山了!

小光侃娛樂
2026-01-08 18:40:03
97年毛新宇在京結(jié)婚,300位老將軍齊刷刷到場,輪椅上那位老人一露面,全場眼眶都紅了

97年毛新宇在京結(jié)婚,300位老將軍齊刷刷到場,輪椅上那位老人一露面,全場眼眶都紅了

清風(fēng)鑒史
2025-12-18 20:10:17
徹底攤牌了!郭臺銘做夢也沒料到,中國再也不“賞飯”吃了

徹底攤牌了!郭臺銘做夢也沒料到,中國再也不“賞飯”吃了

胖哥不胡說
2026-01-10 16:58:38
伊朗最高領(lǐng)袖哈梅內(nèi)伊呼吁伊朗人民保持團(tuán)結(jié)

伊朗最高領(lǐng)袖哈梅內(nèi)伊呼吁伊朗人民保持團(tuán)結(jié)

界面新聞
2026-01-09 17:26:42
宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

雍親王府
2026-01-09 15:20:02
反噬!買洗碗機(jī)被砸家后續(xù): 女子準(zhǔn)備回老家,提出離婚丈夫已同意

反噬!買洗碗機(jī)被砸家后續(xù): 女子準(zhǔn)備回老家,提出離婚丈夫已同意

單手搓核彈
2026-01-10 12:47:38
蔣萬安四歲時(shí)與母親黃美倫的合影,母親年輕時(shí)漂亮又有氣質(zhì)

蔣萬安四歲時(shí)與母親黃美倫的合影,母親年輕時(shí)漂亮又有氣質(zhì)

大江
2026-01-09 16:27:54
商業(yè)航天+核聚變!5家硬核隱形冠軍全解析,搶占雙萬億賽道風(fēng)口

商業(yè)航天+核聚變!5家硬核隱形冠軍全解析,搶占雙萬億賽道風(fēng)口

Thurman在昆明
2026-01-10 09:35:46
飯后吃藥,等于白吃?醫(yī)生多次提醒:一天中這些時(shí)間吃藥才最好

飯后吃藥,等于白吃?醫(yī)生多次提醒:一天中這些時(shí)間吃藥才最好

路醫(yī)生健康科普
2025-12-16 12:45:03
官方通報(bào)深夜播發(fā)5分鐘廣播節(jié)目:對3名相關(guān)責(zé)任人停職檢查

官方通報(bào)深夜播發(fā)5分鐘廣播節(jié)目:對3名相關(guān)責(zé)任人停職檢查

界面新聞
2026-01-09 15:39:39
2026-01-10 17:36:50
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

閆學(xué)晶"哭窮"后多賬號被禁止關(guān)注 其代言品牌:將索賠

頭條要聞

閆學(xué)晶"哭窮"后多賬號被禁止關(guān)注 其代言品牌:將索賠

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

家居
游戲
藝術(shù)
公開課
軍事航空

家居要聞

木色留白 演繹現(xiàn)代自由

主播抨擊《ARC Raiders》作弊猖獗 開發(fā)商正在應(yīng)對

藝術(shù)要聞

你能認(rèn)出毛主席手書的全部嗎?揭秘其中隱藏的秘密!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

??沼⑿鄹呦枋攀?曾駕駛殲-6打爆美軍機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版