国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

三大推理框架vLLM、llama.cpp、MLX 全部跟進(jìn)!??!

0
分享至

本文是續(xù)集,看下主流推理框架跟進(jìn)了情況

全面開花:誰在做,做到了什么程度?

先給一張全景圖,讓你 30 秒掌握當(dāng)前進(jìn)展:

框架

平臺

狀態(tài)

核心亮點(diǎn)

oMLX

Apple Silicon

? 已發(fā)布(v0.2.21)

128K 上下文 KV 省 79%,一鍵開啟

mlx-vlm

Apple Silicon

PR 進(jìn)行中

Metal kernel 實(shí)現(xiàn),解碼速度逼近全精度

llama.cpp

全平臺

實(shí)驗(yàn)中

已有可編譯分支,社區(qū)在推進(jìn)

vLLM

CUDA

方案已出

完整 6 步集成計劃,等 PR


oMLX:Mac 用戶已經(jīng)可以用了

這是目前進(jìn)度最快的——oMLX v0.2.21 已經(jīng)把 TurboQuant KV Cache 作為實(shí)驗(yàn)功能正式發(fā)布了。


oMLX TurboQuant KV Cache 功能界面

先簡單說說 oMLX 是什么:這是一個專為 Mac 優(yōu)化的本地 LLM 推理服務(wù)器,支持菜單欄管理、連續(xù)批處理、熱/冷兩級 KV Cache(內(nèi)存+SSD),還有漂亮的 Admin Dashboard。用 Homebrew 裝完就能跑,OpenAI API 兼容,Claude Code、OpenCode 都能直接對接。

更具體介紹請看:

TurboQuant 在 oMLX 里的實(shí)現(xiàn)思路很巧妙:

Prefill 階段完全用 fp16,零質(zhì)量損失。第一個 decode token 生成時,才把累積的 KV Cache 量化成 3-bit 或 4-bit 的 codebook 索引。Decode 注意力用的是一個 fused 兩遍 Flash Attention Metal kernel,直接從 packed 索引讀取——不需要反量化,不需要 fp16 中間張量。

這個設(shè)計太聰明了,Prefill 不碰你的精度,decode 階段才壓縮,而且 kernel 直接操作壓縮后的數(shù)據(jù),不走解壓再算的老路。

實(shí)測大海撈針(Qwen3.5-35B-A3B,3-bit TurboQuant):

上下文長度

Baseline

TurboQuant

KV 內(nèi)存節(jié)省

32K

735MB → 195MB(省 73%)

64K

1407MB → 327MB(省 77%)

128K

2749MB → 589MB(省 79%)

128K 上下文,KV Cache 從 2.7GB 壓到 589MB,質(zhì)量零損失。

對于 Mac 用戶來說,這意味著你的機(jī)器一下子能裝下更長的上下文了。

速度方面也很穩(wěn):

模型

Prefill 速度

Decode 速度

Qwen3.5-35B-A3B

fp16 的 95%

fp16 的 87%

Qwen3.5-27B

fp16 的 97%

fp16 的 95%

用起來也簡單——Admin UI → 模型設(shè)置 → 實(shí)驗(yàn)功能 → 打開 TurboQuant KV Cache 開關(guān),完事。

# 安裝 oMLX
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx


# 啟動服務(wù)
brew services start omlx

順便提一句,這個版本還帶了 **oQ+**——在 oQ 的混合精度量化基礎(chǔ)上加了 GPTQ 權(quán)重優(yōu)化。對 MoE 模型做了批處理算法加速,Qwen3.5-35B-A3B(256 experts × 40 layers)6 分鐘搞定,比順序處理快 15 倍。

mlx-vlm:Metal Kernel 正在逼近全精度

mlx-vlm 的作者 Blaizzy 在 PR [1] 里提交了一套完整的 TurboQuant Metal kernel 實(shí)現(xiàn)。

這個 PR 一共提了 5 個 commit,逐步構(gòu)建了完整的 TurboQuant 推理鏈路:

基礎(chǔ) kernel:

  • _mse_score_kernel—— MSE 評分

  • _pack_lowbit_kernel/_unpack_lowbit_kernel—— 低位打包/解包

  • _qjl_score_kernel—— QJL 1-bit 殘差糾偏

  • _prod_score_kernel—— 內(nèi)積計算

多頭優(yōu)化 kernel:

  • _prod_score_multi_kernel—— 多頭批處理

  • _mse_weighted_rot_multi_kernel—— 加權(quán)旋轉(zhuǎn)多頭處理

  • _prod_score_repeat_kernel—— 重復(fù)模式優(yōu)化

4-bit PolarQuant 路徑:

  • _polar_prod_score_kernel—— 極坐標(biāo)內(nèi)積

  • _polar_turbo_score_repeat_kernel—— 極坐標(biāo)重復(fù)模式

同時scaled_dot_product_attention函數(shù)也做了適配,針對單 query 輸入走 TurboQuant 快速解碼路徑。

從已知數(shù)據(jù)看,MLX TurboQuant kernel 的解碼速度已經(jīng)追到全精度的 **70-85%**,還在繼續(xù)優(yōu)化。這個 PR 合進(jìn)去之后,所有用 mlx-vlm 的項(xiàng)目都能直接受益。

llama.cpp:Issue 已開,社區(qū)在推

llama.cpp 這邊,Issue [2] 已經(jīng)有人開了 feature request。

更值得關(guān)注的是,開發(fā)者 @mudler 已經(jīng)在動手了——他 fork 了一個 feat/turbo-quant 分支[3],目前已經(jīng)能編譯和啟動,正在評估效果。

llama.cpp 一旦正式支持 TurboQuant,影響面是最大的。

因?yàn)?llama.cpp 是目前本地部署生態(tài)的基石——Ollama、LM Studio、GPT4All 等等一大堆上層應(yīng)用都依賴它。

llama.cpp 支持了,意味著整個本地部署生態(tài)都支持了。

vLLM:方案最詳細(xì),等 PR

vLLM 這邊開的 Issue [4] 信息量最大,直接給出了一份 6 步集成方案:

  1. 擴(kuò)展 Cache 配置—— 在CacheDType里加"turboquant"

  2. 創(chuàng)建 TurboQuantConfig 類—— 用@register_quantization_config裝飾器

  3. 實(shí)現(xiàn) KV Cache Method—— 繼承BaseKVCacheMethod,注冊 codebook 參數(shù)

  4. 更新量化檢測—— 讓is_quantized_kv_cache()識別 TurboQuant

  5. 實(shí)現(xiàn) CUDA/Triton Kernel—— 編碼 kernel(量化存儲)+ 解碼 kernel(注意力計算前還原)

  6. 內(nèi)存管理更新—— 適配 codebook 額外開銷和可變壓縮率

這個 Issue 寫得像一份小型技術(shù)設(shè)計文檔,給后來接手的開發(fā)者鋪好了路。

對于跑云端推理的場景,vLLM + TurboQuant 的組合會非常有沖擊力——4-5 倍 KV Cache 壓縮,意味著同樣的 H100 能撐更多并發(fā)、更長上下文。

2026 年的本地 AI 體驗(yàn),會因?yàn)?TurboQuant 而躍遷一個檔次。我很期待。

.cpp

制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個關(guān)注。給我個三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個 ,謝謝你看我的文章,我們下篇再見!

參考資料

PR : https://github.com/Blaizzy/mlx-vlm/pull/858

Issue : https://github.com/ggml-org/llama.cpp/issues/20977

feat/turbo-quant 分支: https://github.com/mudler/llama.cpp/tree/feat/turbo-quant

Issue : https://github.com/vllm-project/vllm/issues/38171

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
杜蘭特遭遇右髕腱深度挫傷!參加一半訓(xùn)練內(nèi)容 對湖人G2出戰(zhàn)成疑

杜蘭特遭遇右髕腱深度挫傷!參加一半訓(xùn)練內(nèi)容 對湖人G2出戰(zhàn)成疑

羅說NBA
2026-04-21 07:53:32
王端端,1978年3月16日出生于遼寧沈陽,本科畢業(yè)于沈陽理工大學(xué)

王端端,1978年3月16日出生于遼寧沈陽,本科畢業(yè)于沈陽理工大學(xué)

歲月有情1314
2026-04-21 07:44:52
052D穿過日本橫當(dāng)水道!這步棋有多狠?

052D穿過日本橫當(dāng)水道!這步棋有多狠?

牲產(chǎn)隊(duì)
2026-04-20 22:21:15
騎士滅猛龍總分2-0:哈登28分創(chuàng)3項(xiàng)里程碑 米切爾30+7+5

騎士滅猛龍總分2-0:哈登28分創(chuàng)3項(xiàng)里程碑 米切爾30+7+5

醉臥浮生
2026-04-21 09:37:55
負(fù)債2萬億!向太:許家印拖著麻袋來賭牌+故意送錢 我知道他想干啥

負(fù)債2萬億!向太:許家印拖著麻袋來賭牌+故意送錢 我知道他想干啥

趣味萌寵的日常
2026-04-20 19:43:53
朝鮮5枚導(dǎo)彈齊射,金正恩親自督戰(zhàn),日本找上中國,發(fā)出強(qiáng)烈抗議

朝鮮5枚導(dǎo)彈齊射,金正恩親自督戰(zhàn),日本找上中國,發(fā)出強(qiáng)烈抗議

書紀(jì)文譚
2026-04-20 17:13:41
美國女大學(xué)生一句玩笑,面臨15年牢獄的指控

美國女大學(xué)生一句玩笑,面臨15年牢獄的指控

慕容律師
2026-04-21 00:51:17
油混同強(qiáng)還超省心,全球SUV王者榮放這次誠意拉滿

油混同強(qiáng)還超省心,全球SUV王者榮放這次誠意拉滿

鐘叔駕道
2026-04-15 17:05:11
雖然贏不了中國隊(duì),卻贏得了全世界球迷的心!

雖然贏不了中國隊(duì),卻贏得了全世界球迷的心!

楊晨大神
2026-04-20 12:06:28
4月20日俄烏最新:莫斯科火光沖天?

4月20日俄烏最新:莫斯科火光沖天?

西樓飲月
2026-04-20 19:58:50
拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
中國禁硫酸出口,全球農(nóng)業(yè)震蕩,第一次看到了日本的窮

中國禁硫酸出口,全球農(nóng)業(yè)震蕩,第一次看到了日本的窮

月滿大江流
2026-04-20 18:06:06
伊朗:最高領(lǐng)袖完全健康,出于安全考慮,目前錄制穆杰塔巴的任何影像或聲音均不妥當(dāng)

伊朗:最高領(lǐng)袖完全健康,出于安全考慮,目前錄制穆杰塔巴的任何影像或聲音均不妥當(dāng)

瀟湘晨報
2026-04-20 22:40:10
嚴(yán)打來了,5月起8種行為直接入刑,退休老人需格外注意!

嚴(yán)打來了,5月起8種行為直接入刑,退休老人需格外注意!

小談食刻美食
2026-04-21 07:52:09
中央層面整治形式主義為基層減負(fù)專項(xiàng)工作機(jī)制辦公室 中央紀(jì)委辦公廳公開通報4起整治形式主義為基層減負(fù)典型問題

中央層面整治形式主義為基層減負(fù)專項(xiàng)工作機(jī)制辦公室 中央紀(jì)委辦公廳公開通報4起整治形式主義為基層減負(fù)典型問題

新華社
2026-04-20 17:44:02
最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

項(xiàng)鵬飛
2026-04-20 20:13:15
山西長治萬達(dá)廣場一女子墜樓身亡,警方通報:張某(女,31歲)獨(dú)自進(jìn)入商場到4樓,翻越欄桿后墜落,排除刑事案件

山西長治萬達(dá)廣場一女子墜樓身亡,警方通報:張某(女,31歲)獨(dú)自進(jìn)入商場到4樓,翻越欄桿后墜落,排除刑事案件

揚(yáng)子晚報
2026-04-21 09:21:30
臺灣回歸新方案浮出水面:國民黨若同意,解放軍或無需動武

臺灣回歸新方案浮出水面:國民黨若同意,解放軍或無需動武

老范談史
2026-04-20 22:13:51
伊朗籍中國貨輪!在公海被美軍扣押后,不到24小時,中方表態(tài)

伊朗籍中國貨輪!在公海被美軍扣押后,不到24小時,中方表態(tài)

離離言幾許
2026-04-20 22:15:30
湖人官方:東契奇和里夫斯缺陣與火箭的系列賽G2

湖人官方:東契奇和里夫斯缺陣與火箭的系列賽G2

懂球帝
2026-04-21 08:03:19
2026-04-21 10:51:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

體育要聞

“被優(yōu)化”8年后,國乒方博決定換一條路重新上場

娛樂要聞

周潤發(fā)時隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財經(jīng)要聞

減速機(jī)訂單已排到明年!

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

本地
親子
手機(jī)
游戲
房產(chǎn)

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

親子要聞

孩子休學(xué)躺平,我做的第一件事,是放過自己

手機(jī)要聞

四星好評反成“差評”,蘋果App Store評分體系遭開發(fā)者質(zhì)疑

《識質(zhì)存在》一百萬銷量 卡普空發(fā)布可愛賀圖

房產(chǎn)要聞

大規(guī)模商改??!海口西海岸,這波項(xiàng)目要贏麻了!

無障礙瀏覽 進(jìn)入關(guān)懷版