国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Qwen3.6-35B,量化、蒸餾版本推薦

0
分享至

一文中我已經(jīng)把這個模型和部署(原版 + 量化版)介紹的很清楚了,閑逛又發(fā)現(xiàn)幾個版本(4bit 量化版、推理加速版、Claude Opus 蒸餾版)很亮眼,推薦給大家。

第一路:三個 4bit 量化版本

Qwen3.6 發(fā)布還沒捂熱,社區(qū)已經(jīng)搞出了三個 4bit 量化版本

目標(biāo)很明確:把顯存需求壓下來,讓消費級顯卡能跑起來

1. cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit

AWQ(Activation-aware Weight Quantization)量化,可以用 vLLM 0.19 直接拉起來

網(wǎng)友測試 2x4060 可以跑出 83tok/s


2. QuantTrio/Qwen3.6-35B-A3B-AWQ

同樣是 AWQ 量化,這個版本出自 QuantTrio 團(tuán)隊,量化后模型大小約 24GB

有詳細(xì)的 vLLM 啟動腳本,支持 MTP(Multi-Token Prediction)推測解碼

啟動命令參考:

vllm serve QuantTrio/Qwen3.6-35B-A3B-AWQ \
--served-model-name MY_MODEL \
--max-model-len 32768 \
--gpu-memory-utilization 0.9 \
--tensor-parallel-size 4 \
--enable-expert-parallel \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' \
--trust-remote-code

注意 TP=8 時要加--enable-expert-parallel,否則專家參數(shù)分片不均勻會出問題。

效果在線


3. RedHatAI/Qwen3.6-35B-A3B-NVFP4

這個來自 Red Hat AI 團(tuán)隊,用的是 NVFP4 格式——權(quán)重和激活都量化到 FP4

用 llm-compressor 工具做的量化

初步評測結(jié)果有個小驚喜:

模型

GSM8K Platinum 準(zhǔn)確率

Qwen3.6-35B-A3B(原版)

95.62%

Qwen3.6-35B-A3B-NVFP4

96.28%

恢復(fù)率

100.69%

量化后準(zhǔn)確率居然還漲了一點點

當(dāng)然 Red Hat 團(tuán)隊也說了這只是初步結(jié)果,更嚴(yán)格的評測還在進(jìn)行中

三個量化版本怎么選?

版本

量化格式

特點

推薦場景

cyankiwi

AWQ 4bit

快速可用

想嘗鮮、快速驗證

QuantTrio

AWQ

文檔詳細(xì)、附啟動腳本

生產(chǎn)部署參考

RedHatAI

NVFP4

權(quán)重 + 激活雙量化、官方團(tuán)隊出品

追求更極致壓縮

三個版本都兼容 vLLM 0.19+,直接vllm serve就能跑

第二路:DFlash 推理加速版

DFlash 我介紹過兩次了,老讀者應(yīng)該不陌生

簡單回顧一下:DFlash 是一種基于塊擴(kuò)散模型(Block Diffusion)的推測解碼方法。傳統(tǒng)推測解碼(比如 EAGLE-3)的草稿模型還是自回歸的,一次只能預(yù)測一個 token。DFlash 換了個思路——用一個輕量的擴(kuò)散模型,一次并行生成一整個 block 的 token。

核心技巧在于:DFlash 不讓小模型從零開始預(yù)測,而是從目標(biāo)大模型的隱層特征中提取上下文信息,注入到草稿模型的每一層 KV Cache 中。這樣即使草稿模型很小,也能"借用"大模型的推理能力。

在 Qwen3-8B 上的實測數(shù)據(jù):

基準(zhǔn)測試

原版

EAGLE-3 加速

DFlash 加速

GSM8K

2.13×

5.20×

MATH-500

2.18×

6.17×

HumanEval

2.48×

5.20×

MBPP

2.27×

4.75×

EAGLE-3 大概 2-2.5 倍加速,DFlash 直接拉到 5-6 倍

而且這是完全無損的——輸出跟原版一模一樣

現(xiàn)在 z-lab 團(tuán)隊第一時間跟進(jìn)了 Qwen3.6:

? z-lab/Qwen3.6-35B-A3B-DFlash

需要注意的是,這個草稿模型還在訓(xùn)練中(目前 2000 步),所以效果還會繼續(xù)提升。

使用方式也很簡單,vLLM 一行命令:

vllm serve Qwen/Qwen3.6-35B-A3B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' \
--attention-backend flash_attn \
--max-num-batched-tokens 32768

SGLang 也已經(jīng)支持了:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.6-35B-A3B-DFlash \
--speculative-num-draft-tokens 16 \
--tp-size 1 \
--attention-backend fa3 \
--mem-fraction-static 0.75 \
--trust-remote-code

早期測試的接受長度(Accept Length)數(shù)據(jù):

數(shù)據(jù)集

接受長度

GSM8K

6.5

Math500

7.2

HumanEval

6.2

MBPP

5.6

MT-Bench

5.0

接受長度越高意味著加速比越大

Math500 上平均每次能接受 7.2 個 token,這個數(shù)字相當(dāng)可觀


第三路:Claude Opus 4.6 蒸餾版

這條路線大家也應(yīng)該很熟悉了,我一直在追

Jackrong 在 Qwen3.5 上做的 Claude Opus 蒸餾系列我介紹過 V2 和 V3,每一版都有明顯提升

現(xiàn)在社區(qū)開發(fā)者 hesamation 把這套思路搬到了 Qwen3.6 上:

? hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

核心思路:保留 Qwen3.6 強(qiáng)大的 Agentic Coding 底座,同時注入 Claude Opus 4.6 風(fēng)格的結(jié)構(gòu)化推理能力

訓(xùn)練方式是用 LoRA 做有監(jiān)督微調(diào)(SFT),然后合并回完整模型

訓(xùn)練數(shù)據(jù)來自三個公開數(shù)據(jù)集:

數(shù)據(jù)集

樣本量

用途

nohurry/Opus-4.6-Reasoning-3000x-filtered

3,900

Claude Opus 推理軌跡

Jackrong/Qwen3.5-reasoning-700x

700

精選 Qwen 推理樣本

Roman1111111/claude-opus-4.6-10000x

9,633

更多 Claude Opus 推理示例

總共約 14,000 條數(shù)據(jù),規(guī)模不大,但質(zhì)量很高——都是經(jīng)過篩選的鏈?zhǔn)酵评恚–hain-of-Thought)示例。

訓(xùn)練配置:

配置項

微調(diào)方法

LoRA(僅 Attention 模塊)

LoRA rank / alpha

32 / 32

梯度累積

32

訓(xùn)練輪次

2

最終訓(xùn)練 loss

最大序列長度

初步評測數(shù)據(jù)很亮眼:

基準(zhǔn)測試

Base 模型

蒸餾后

提升

MMLU-Pro(70 題子集)

42.86%

75.71%+32.85pp

當(dāng)然,作者也說了這只是 70 道題的小規(guī)模測試(14 個學(xué)科各 5 題),應(yīng)該當(dāng)做 smoke test 看,不是完整評測。但 +32.85 個百分點的提升還是很說明問題的——Claude Opus 的推理數(shù)據(jù)確實能顯著增強(qiáng)模型的結(jié)構(gòu)化推理能力。

值得注意的是,這個微調(diào)是純文本的。Qwen3.6 底座雖然自帶視覺編碼器,但這輪訓(xùn)練沒有用到圖像/視頻數(shù)據(jù),所以多模態(tài)能力基本就是繼承自 base model。

三路并行,選哪個?

需求

推薦方案

顯存有限,想跑 Qwen3.6

AWQ/NVFP4 量化版

追求推理速度,愿意多占點顯存

DFlash 加速版

需要更強(qiáng)的推理/分析能力

Claude Opus 蒸餾版

又想快又想省顯存

量化版 + DFlash(理論可疊加,待驗證)

這三條路線其實不沖突

量化解決的是"跑得起"的問題

DFlash 解決的是"跑得快"的問題

蒸餾解決的是"跑得好"的問題

我的看法

  1. 評測數(shù)據(jù)普遍不夠充分。蒸餾版只跑了 70 道 MMLU-Pro 題,NVFP4 版只有一個 GSM8K 分?jǐn)?shù),量化版基本沒有獨立評測。社區(qū)還需要更多人來做嚴(yán)格的 benchmark

  2. DFlash 版本還在訓(xùn)練中。2000 步的草稿模型效果肯定不是最終水平,現(xiàn)階段的性能數(shù)據(jù)參考價值有限

  3. Qwen3.6 的 base model 本身也是新出的。官方 benchmark 看著很強(qiáng),但實際使用中的表現(xiàn)還需要時間檢驗

總的來說,開源 AI 社區(qū)圍繞一個模型形成了量化→加速→蒸餾的完整優(yōu)化鏈,每條路線都有獨立團(tuán)隊在推進(jìn)。

這種分布式協(xié)作的效率和活力,可能比任何單個模型的發(fā)布都更值得關(guān)注

.6

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

火山詩話
2026-04-21 06:36:18
何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉(zhuǎn)頭第一句話是:你想要什么,我都買給你

何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉(zhuǎn)頭第一句話是:你想要什么,我都買給你

LULU生活家
2026-04-20 14:34:28
警惕致命風(fēng)險!張雪機(jī)車緊急叫停500F后貨架改裝:已裝者需立即拆除

警惕致命風(fēng)險!張雪機(jī)車緊急叫停500F后貨架改裝:已裝者需立即拆除

快科技
2026-04-21 13:22:05
上海男童被虐致死案家屬回應(yīng)一審判決:將提起抗訴

上海男童被虐致死案家屬回應(yīng)一審判決:將提起抗訴

大象新聞
2026-04-21 12:55:03
賈躍亭發(fā)財了,到賬230億

賈躍亭發(fā)財了,到賬230億

新浪財經(jīng)
2026-04-20 18:59:10
特朗普已做好開戰(zhàn)準(zhǔn)備?王毅曾警告:中美一旦沖突,結(jié)局只剩一個

特朗普已做好開戰(zhàn)準(zhǔn)備?王毅曾警告:中美一旦沖突,結(jié)局只剩一個

蜉蝣說
2026-04-21 11:23:11
今晚24點油價或大幅下調(diào),92號汽油會降到七元時代嗎?

今晚24點油價或大幅下調(diào),92號汽油會降到七元時代嗎?

卷史
2026-04-21 09:20:59
減速機(jī)訂單已排到明年!人形機(jī)器人“物種爆發(fā)” 2030年全球出貨量將超50萬?

減速機(jī)訂單已排到明年!人形機(jī)器人“物種爆發(fā)” 2030年全球出貨量將超50萬?

財聯(lián)社
2026-04-21 07:54:05
大數(shù)據(jù)分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

大數(shù)據(jù)分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

深度報
2026-04-18 23:37:27
空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙數(shù)億

空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙數(shù)億

面包夾知識
2026-04-20 17:08:30
惡心!浙江新娘吐槽,18萬禮金被拿走15萬,結(jié)婚像給婆婆賺養(yǎng)老錢

惡心!浙江新娘吐槽,18萬禮金被拿走15萬,結(jié)婚像給婆婆賺養(yǎng)老錢

火山詩話
2026-04-20 08:59:19
李春江是被做掉的?楊毅曝三年前假球內(nèi)幕:李楠講義氣史琳杰活該

李春江是被做掉的?楊毅曝三年前假球內(nèi)幕:李楠講義氣史琳杰活該

大嘴爵爺侃球
2026-04-20 20:56:47
CBA公司給迪亞洛開出了新罰單!

CBA公司給迪亞洛開出了新罰單!

體育哲人
2026-04-21 10:02:01
斯諾克世錦賽!4月21最新賽程公布,趙心童PK丁俊暉,吳宜澤晉級

斯諾克世錦賽!4月21最新賽程公布,趙心童PK丁俊暉,吳宜澤晉級

曹說體育
2026-04-21 11:59:59
普通家庭存款到這個數(shù),已經(jīng)是天花板級別,以前不信,現(xiàn)在很肯定

普通家庭存款到這個數(shù),已經(jīng)是天花板級別,以前不信,現(xiàn)在很肯定

貓叔東山再起
2026-04-21 08:40:10
掘金丟G2弊端盡顯!約基奇穆雷末節(jié)啞火,主帥7人輪換還不防三分

掘金丟G2弊端盡顯!約基奇穆雷末節(jié)啞火,主帥7人輪換還不防三分

籃球資訊達(dá)人
2026-04-21 14:39:43
一”字跌停英維克最新回應(yīng)

一”字跌停英維克最新回應(yīng)

每日經(jīng)濟(jì)新聞
2026-04-21 11:44:31
郭富城結(jié)婚周年秀恩愛翻車,評論區(qū)爆笑熱梗頻出!句句戳他心窩

郭富城結(jié)婚周年秀恩愛翻車,評論區(qū)爆笑熱梗頻出!句句戳他心窩

臨云史策
2026-04-21 13:48:43
周亮,被免職

周亮,被免職

新京報政事兒
2026-04-21 10:28:07
杭州灣“古斯特”要來了?極氪8S第三方設(shè)計圖曝光

杭州灣“古斯特”要來了?極氪8S第三方設(shè)計圖曝光

CNMO科技
2026-04-20 13:44:03
2026-04-21 15:04:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3341文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

丈夫在海外做生意 妻子和兒子在家里充電經(jīng)歷驚魂一夜

頭條要聞

丈夫在海外做生意 妻子和兒子在家里充電經(jīng)歷驚魂一夜

體育要聞

“被優(yōu)化”8年后,國乒方博決定換一條路重新上場

娛樂要聞

周潤發(fā)時隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財經(jīng)要聞

減速機(jī)訂單已排到明年!

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

藝術(shù)
親子
健康
公開課
軍事航空

藝術(shù)要聞

任伯年寫竹,真帶勁

親子要聞

4歲女兒養(yǎng)的兔子,爸爸養(yǎng)夠了想給它送人,結(jié)果女兒的話讓人意外

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普公開對伊開戰(zhàn)真正原因

無障礙瀏覽 進(jìn)入關(guān)懷版