国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型推理8倍加速,完全無損,以Qwen3.5-27B-DFlash為例

0
分享至

前文介紹了 Qwen3.5-27B-DFlash,非常神奇

本文更進一步,深入了解一下 DFlash 技術(shù)細(xì)節(jié)


DFlash + DDTree 加速流水線 先說背景:推測解碼(Speculative Decoding)

大模型生成文本的時候,最大的瓶頸是什么?一個 token 一個 token 地吐

不管你 GPU 有多猛,自回歸生成就是一步一步來,快不了

推測解碼(Speculative Decoding)是目前主流的加速思路:用一個小模型快速"猜"一串 token,再讓大模型一次性驗證。猜對了就賺了,猜錯了也不虧——大模型自己糾正就行

但傳統(tǒng)推測解碼有個問題:小模型也是自回歸的,猜的速度也不夠快。

DFlash:用擴散模型替代自回歸草稿

DFlash(Block Diffusion for Flash Speculative Decoding)來自 Z Lab,核心創(chuàng)新就一句話:用輕量級 block diffusion 模型,單次前向傳播并行生成整個 token block 作為草稿

傳統(tǒng)小模型一個一個猜,DFlash 一次猜一整塊(block size = 16)


DFlash 方法流水線

怎么做到的?

關(guān)鍵技術(shù)叫 KV Injection——把目標(biāo)大模型多層 hidden features 融合后注入草稿小模型的 KV cache,讓小模型也能高質(zhì)量預(yù)測

加速效果有多猛?

基準(zhǔn)

模型

DFlash 加速

HumanEval T=0.0

Qwen3-30B-MoE

6.09x

MATH-500 T=0.0

Qwen3-8B

6.17x

GSM8K T=0.0

Qwen3-8B

5.20x

AIME24 T=0.0

Qwen3-8B

5.91x

MBPP T=0.0

Qwen3-8B

4.75x

對比 EAGLE-3(目前最流行的推測解碼方案),DFlash 快了約 2.5 倍。EAGLE-3 的極限大概 2-3x 加速,DFlash 直接干到 5-6x

而且在采樣模式(Temperature=1)和 thinking mode 下仍然保持約 4.5x 加速,這一點非常重要——大部分加速方案在有隨機性的時候就拉胯了

DDTree:把 DFlash 再推一把

DDTree(Diffusion Draft Tree)是以色列理工學(xué)院 Liran Ringel 在 DFlash 基礎(chǔ)上做的進一步優(yōu)化

核心思路:DFlash 一次前向傳播輸出的是每個位置的概率分布。DDTree 不是從中只取一條路徑,而是用 best-first heap 算法構(gòu)建一棵草稿樹,選出最有希望的多條分支,然后讓目標(biāo)模型一次前向傳播驗證整棵樹


DDTree 四步流程:

  1. Block diffusion 一次前向生成 L 個位置的分布

  2. Best-first heap 在節(jié)點預(yù)算 B 下構(gòu)建最優(yōu)草稿樹

  3. Tree attention 編譯為目標(biāo)模型輸入

  4. 驗證遍歷:匹配子節(jié)點則繼續(xù),不匹配則取 bonus token 進入下輪

這套方案有個數(shù)學(xué)保證:構(gòu)建的樹在 draft 模型分布下可證明最大化期望接受長度。

效果:

在 HumanEval T=0.0 上,DDTree 把 DFlash 的 6.09x 直接拉到了 8.22x,額外多賺了 2.13x。

最關(guān)鍵的是——完全無損。目標(biāo)模型用自己的解碼規(guī)則,DDTree 只是幫它更高效地探索搜索空間,輸出分布和不加速時完全一致。

已支持的模型

DFlash 已經(jīng)為一批主流模型訓(xùn)好了 Draft 模型:

目標(biāo)模型

Draft 模型

Kimi-K2.5 (Preview)

z-lab/Kimi-K2.5-DFlash

Qwen3.5-4B/9B/27B

z-lab/Qwen3.5-*-DFlash

Qwen3.5-35B-A3B

z-lab/Qwen3.5-35B-A3B-DFlash

Qwen3-Coder-30B-A3B

z-lab/Qwen3-Coder-30B-A3B-DFlash

Llama-3.1-8B-Instruct

z-lab/LLaMA3.1-8B-Instruct-DFlash

Qwen3.5-122B、397B 和 GLM-5.1 的 Draft 模型也在路上了。

怎么用?

DFlash 已經(jīng)接入了三大推理框架:

SGLang:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.5-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash \
--tp-size 1 --attention-backend trtllm_mha

vLLM:

vllm serve Qwen/Qwen3.5-27B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}'

Apple Silicon(MLX):

pip install -e ".[mlx]"

對,Mac 用戶也能用。

DDTree 跑基準(zhǔn)測試:

git clone https://github.com/liranringel/ddtree
cd ddtree
pip install -r requirements.txt
bash run_benchmark.sh
python3 plot_results.py
總結(jié)

DFlash + DDTree 這對組合拳,代表了推測解碼的下一個階段:

  • DFlash 解決了"猜得慢"的問題 ——用 block diffusion 一次猜一整塊

  • DDTree 解決了"猜得不夠多"的問題 ——用概率樹探索多條路徑

最終效果是 8x+ 無損加速,而且已經(jīng)接入 SGLang、vLLM、MLX 三大框架,實際可用。

對于部署大模型推理服務(wù)的團隊來說,這幾乎是免費的午餐——加速 5-8 倍,不犧牲任何輸出質(zhì)量,只需要加載一個很小的 Draft 模型

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張掖地委專員被人打死,法醫(yī)將他的腦組織保存十年,等來昭雪

張掖地委專員被人打死,法醫(yī)將他的腦組織保存十年,等來昭雪

隴史薈王文元
2026-04-20 16:28:54
日本100多年來根本沒有變,中國人要記住村田晃大這個名字

日本100多年來根本沒有變,中國人要記住村田晃大這個名字

近史閣
2026-04-21 04:16:38
貴州網(wǎng)紅曉浪哥去世,僅34歲,愛在墓地拍視頻,早給自己選好墓地

貴州網(wǎng)紅曉浪哥去世,僅34歲,愛在墓地拍視頻,早給自己選好墓地

觀察鑒娛
2026-04-20 09:24:45
許晉亨曾單方面透露生子計劃,但遭何超瓊嚴(yán)厲駁斥和否認(rèn)!

許晉亨曾單方面透露生子計劃,但遭何超瓊嚴(yán)厲駁斥和否認(rèn)!

玖宇維
2026-04-20 20:44:16
扎心但清醒|莫言:沒人閑得整天關(guān)注你,各人都有各人的雞毛蒜皮

扎心但清醒|莫言:沒人閑得整天關(guān)注你,各人都有各人的雞毛蒜皮

杏花煙雨江南的碧園
2026-04-20 14:15:03
國際觀察|美伊談判懸念叢生,局勢走向有幾種可能?

國際觀察|美伊談判懸念叢生,局勢走向有幾種可能?

新華社
2026-04-20 22:02:14
清風(fēng)北京:彭偉鵬被查

清風(fēng)北京:彭偉鵬被查

極目新聞
2026-04-20 09:48:27
斯諾克世錦賽,中國選手晉級16強

斯諾克世錦賽,中國選手晉級16強

大漢體育解說
2026-04-21 05:03:30
別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

雨月海星
2026-04-18 05:25:40
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
切爾西有救了!藍軍全力挖鐵血名帥,羅塞尼爾命懸一線

切爾西有救了!藍軍全力挖鐵血名帥,羅塞尼爾命懸一線

奶蓋熊本熊
2026-04-21 05:20:47
35分不碰瓷,馬刺贏球送亞歷山大上熱門,17個罰球讓MVP成笑話!

35分不碰瓷,馬刺贏球送亞歷山大上熱門,17個罰球讓MVP成笑話!

林子說事
2026-04-20 19:17:58
“打烊”不讀dǎ yáng,也不讀dǎ xiáng,九成人在這樣錯讀!

“打烊”不讀dǎ yáng,也不讀dǎ xiáng,九成人在這樣錯讀!

未央看點
2026-04-21 00:05:41
鄭麗文判斷準(zhǔn)確,解放軍通牒在即,賴清德將登機離臺

鄭麗文判斷準(zhǔn)確,解放軍通牒在即,賴清德將登機離臺

風(fēng)雨與陽光
2026-04-21 03:13:01
特朗普女婿被查,61億資產(chǎn)99%來自外國,特朗普:中國會感謝我

特朗普女婿被查,61億資產(chǎn)99%來自外國,特朗普:中國會感謝我

阿傖說事
2026-04-21 03:24:22
脫掉衣服才看清:女人之間真正的差距,其實藏在這3處,不是容貌

脫掉衣服才看清:女人之間真正的差距,其實藏在這3處,不是容貌

周哥一影視
2026-03-15 14:30:11
江南造船廠這艘核動力巨輪亮相,軍迷都懂了:距離核航母還遠嗎?

江南造船廠這艘核動力巨輪亮相,軍迷都懂了:距離核航母還遠嗎?

林子說事
2026-04-21 00:55:45
贏得尊重,籃網(wǎng)隊與喬迪·費爾南德斯及其整個教練組續(xù)約

贏得尊重,籃網(wǎng)隊與喬迪·費爾南德斯及其整個教練組續(xù)約

好火子
2026-04-21 03:59:38
C919交付再遇阻礙:國產(chǎn)大飛機的夢想與現(xiàn)實有多遠?

C919交付再遇阻礙:國產(chǎn)大飛機的夢想與現(xiàn)實有多遠?

普陀動物世界
2026-04-21 00:52:40
“老實人”任重甘愿成為接盤俠,迎娶內(nèi)娛第一海王,網(wǎng)友:絕配

“老實人”任重甘愿成為接盤俠,迎娶內(nèi)娛第一海王,網(wǎng)友:絕配

天天熱點見聞
2026-04-21 05:14:09
2026-04-21 06:00:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

時尚
本地
藝術(shù)
親子
房產(chǎn)

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實用又不過時

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

藝術(shù)要聞

春天最適合小住三五天的地方

親子要聞

居家防夾刻不容緩,多名兒童在家玩鬧時手指被夾斷

房產(chǎn)要聞

大規(guī)模商改?。『?谖骱0叮@波項目要贏麻了!

無障礙瀏覽 進入關(guān)懷版