国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

vLLM v0.18.0 更新,KV Cache 迎來(lái)大升級(jí)

0
分享至

上周剛寫完 v0.17.1 的補(bǔ)丁,vLLM v0.17.1 緊急補(bǔ)丁,修了一個(gè)讓 Qwen3.5 越跑越蠢的隱形 Bug,v0.18.0 就來(lái)了。


兄弟們總是問(wèn)這個(gè)圖哪來(lái)的,就是 vllm 官網(wǎng) vllm.ai

不只是功能堆疊,這次有幾個(gè)變化會(huì)直接影響你的部署配置。

先看全貌:v0.18.0 改了什么

變更

類型

Ray 從默認(rèn)依賴中移除

?? 破壞性變更

gRPC 服務(wù)支持

--grpc標(biāo)志)

新功能

GPU-less 渲染服務(wù)

vllm launch render

新功能

NGram 投機(jī)解碼遷移至 GPU

? 性能提升

KV Cache 智能 CPU 卸載

? 性能提升

FlexKV 卸載后端

新功能

彈性專家并行 Milestone 2

(NIXL-EP)

新功能

FlashInfer 升級(jí)至 0.6.6

?? 依賴升級(jí)

Responses API 流式工具調(diào)用

新功能

ASR 在線 Beam Search

新功能

FA4 用于 MLA Prefill

(DeepSeek V3)

? 性能提升

新架構(gòu)

:Sarvam MoE、OLMo Hybrid、Kimi-Audio-7B 等

模型支持


1. Ray 被請(qǐng)出默認(rèn)依賴

這是最需要注意的一條。

從 v0.18.0 開(kāi)始,Ray 不再作為默認(rèn)依賴安裝。

# 以前安裝 vLLM,Ray 會(huì)自動(dòng)裝進(jìn)來(lái)
pip install vllm


# 現(xiàn)在如果你需要 Ray(多節(jié)點(diǎn)/Ray Cluster),需要顯式安裝
pip install vllm ray

為什么移除?Ray 是個(gè)重型依賴,安裝慢、體積大,但絕大多數(shù)單機(jī)部署場(chǎng)景根本用不到它。拆開(kāi)之后,單機(jī)部署的安裝速度和鏡像體積都會(huì)明顯改善。

什么情況下你還需要 Ray?

  • 使用 Ray Cluster 做多節(jié)點(diǎn)分布式推理

  • 用 Ray Data Pipeline 做批量推理

  • 依賴ray serve做服務(wù)編排

如果你只是在單機(jī)跑 vLLM,這個(gè)變化對(duì)你透明,什么都不用改。

2. gRPC 服務(wù)支持

一行 flag 開(kāi)啟 gRPC:

vllm serve meta-llama/Llama-3.1-8B-Instruct --grpc

同時(shí)開(kāi)啟 HTTP 和 gRPC:兩個(gè)接口獨(dú)立運(yùn)行,互不干擾。

為什么 gRPC 比 HTTP/REST 更快?

HTTP/REST 每次請(qǐng)求需要解析文本格式的 JSON,頭部字段冗余多,長(zhǎng)連接復(fù)用效率低。gRPC 基于 HTTP/2,用 Protocol Buffers 做二進(jìn)制序列化,同一連接可以多路復(fù)用,延遲和吞吐都有明顯優(yōu)勢(shì)。

在高并發(fā)、低延遲的場(chǎng)景(比如內(nèi)部微服務(wù)互調(diào)、Agent Pipeline)里,gRPC 的優(yōu)勢(shì)會(huì)被明顯放大。

目前 gRPC 端口默認(rèn)是8001,HTTP 保持8000不變。

3. KV Cache 智能 CPU 卸載 + FlexKV

這一版對(duì) KV Cache 的卸載邏輯做了兩個(gè)升級(jí)。

3.1 只卸載"值得卸載"的 block

之前的 CPU offloading 是無(wú)差別的——只要顯存緊張就往 CPU 搬。

現(xiàn)在加了一個(gè)復(fù)用頻率門控(reuse-frequency-gated):只有被多次復(fù)用的 block才會(huì)寫入 CPU。

邏輯很直接:一個(gè) block 如果只被用了一次,把它寫到 CPU 再讀回來(lái),開(kāi)銷比收益大。只有那些在 prefix cache 里高頻命中的 block,才值得花帶寬卸載到 CPU 保留。

這對(duì)長(zhǎng)對(duì)話、系統(tǒng) prompt 固定的場(chǎng)景幫助很大——那些高頻復(fù)用的 prefix 塊會(huì)被優(yōu)先保留,冷塊直接丟棄,減少無(wú)效 CPU?GPU 傳輸。

3.2 FlexKV:新的卸載后端

FlexKV 作為全新的 KV Cache 卸載后端引入,支持更靈活的存儲(chǔ)策略(不只是 CPU 內(nèi)存,還可以擴(kuò)展到 SSD 等介質(zhì))。

目前是實(shí)驗(yàn)性功能,通過(guò)--kv-transfer-config指定:

vllm serve your-model \
--kv-transfer-config '{"kv_connector":"FlexKVConnector","kv_role":"kv_both"}'

配合多 KV group 支持(--kv-groups),對(duì) PD 分離架構(gòu)的部署有直接幫助。

4. NGram 投機(jī)解碼遷移至 GPU

NGram 是一種不依賴草稿模型的投機(jī)解碼方法——直接從輸入 prompt 里找 n-gram 模式來(lái)預(yù)測(cè)后續(xù) token。

以前這個(gè)匹配邏輯在 CPU 上跑,每一步都需要 CPU→GPU 數(shù)據(jù)傳輸,開(kāi)銷抵消了不少收益。

現(xiàn)在整個(gè) NGram 匹配遷移到 GPU 上,同時(shí)兼容 async scheduler,spec decode 的額外開(kāi)銷大幅下降。

適合用 NGram 的場(chǎng)景:代碼補(bǔ)全、文檔續(xù)寫、固定模板生成——這些場(chǎng)景里 prompt 和輸出之間有大量重復(fù) n-gram,投機(jī)命中率高。不需要單獨(dú)加載一個(gè)草稿模型,只要加一個(gè) flag:

vllm serve your-model \
--speculative-model "[ngram]" \
--num-speculative-tokens 5 \
--ngram-prompt-lookup-max 4
5. 彈性專家并行 Milestone 2:NIXL-EP 集成

這一版是彈性專家并行(Elastic EP)的第二個(gè)里程碑,核心變化是引入了NIXL-EP 集成

對(duì)于跑 MoE 大模型(DeepSeek、Qwen3.5 MoE、Mixtral 等)的用戶,這意味著什么?

之前:EP(Expert Parallelism)的 GPU 數(shù)量在啟動(dòng)時(shí)就固定了,擴(kuò)縮容需要重啟服務(wù)。

現(xiàn)在:通過(guò) NIXL(NVIDIA Interconnect eXtension Library)做專家權(quán)重的動(dòng)態(tài)調(diào)度,GPU 可以動(dòng)態(tài)加入/移出集群,不需要完全重啟。

另外新增--enable-ep-weight-filterflag,啟動(dòng)時(shí)只加載本地 GPU 負(fù)責(zé)的專家權(quán)重,跳過(guò)不需要的參數(shù):

vllm serve deepseek-ai/DeepSeek-V3 \
--tensor-parallel-size 8 \
--enable-ep-weight-filter

大模型加載速度會(huì)有明顯提升,尤其是 EP 節(jié)點(diǎn)數(shù)多的時(shí)候。

6. FA4 用于 MLA Prefill

DeepSeek 系列用了MLA(Multi-head Latent Attention)架構(gòu)——把 KV cache 壓縮到低秩空間,顯存占用大幅下降,但也帶來(lái)了額外的矩陣運(yùn)算。

這一版為 MLA 的 prefill 階段引入了FlashAttention 4(FA4)內(nèi)核,同時(shí)還有:

  • Triton MLA decode 的 FP8 KV cache 支持

  • DeepSeek-V3.2 向量化 MLA query concat kernel

  • context parallel 下 FP8 KV cache gather 優(yōu)化

對(duì)于在生產(chǎn)環(huán)境跑 DeepSeek V3/V3.2 的用戶,這些內(nèi)核優(yōu)化疊加下來(lái),prefill 吞吐會(huì)有可觀的提升。

7. GPU-less 渲染服務(wù)

這是一個(gè)架構(gòu)解耦的新玩法。

# 啟動(dòng)一個(gè)純 CPU 的預(yù)處理節(jié)點(diǎn),不需要 GPU
vllm launch render --model your-model

背后的邏輯:多模態(tài)推理(圖像/音頻/視頻)的預(yù)處理(圖像解碼、resize、特征提?。┖?GPU 推理之間其實(shí)是解耦的。

把預(yù)處理從 GPU 節(jié)點(diǎn)拆出來(lái),單獨(dú)用 CPU 節(jié)點(diǎn)跑,GPU 只專注計(jì)算:

  • CPU 節(jié)點(diǎn)可以水平擴(kuò)展,處理高并發(fā)的媒體上傳

  • GPU 不再被預(yù)處理任務(wù)占用

  • 有助于降低整體服務(wù)成本

8. Responses API 支持流式工具調(diào)用

OpenAI Responses API 現(xiàn)在支持流式(streaming)的工具/函數(shù)調(diào)用了。

這對(duì) Agent 類應(yīng)用很關(guān)鍵——工具調(diào)用的結(jié)果不再需要等整個(gè)響應(yīng)生成完才返回,可以在生成過(guò)程中實(shí)時(shí) stream 出來(lái),大幅降低 Agent 的感知延遲。

模型支持更新

新增支持

類型

Sarvam MoE

新架構(gòu)

OLMo Hybrid

新架構(gòu)

HyperCLOVAX-SEED-Think-32B VLM

新架構(gòu)

Kimi-Audio-7B-Instruct

音頻模型

ColPali 延遲交互檢索

RAG 檢索

Eagle3 for Qwen3.5

投機(jī)解碼

Eagle3 for Kimi K2.5 MLA

投機(jī)解碼

Whisper LoRA

LoRA

FP8 LoRA dense kernel

量化

另外修了一批國(guó)內(nèi)常用模型的 bug:DeepSeek-V3.2 tokenizer 空格截?cái)唷wen3.5 工具調(diào)用、Qwen3-VL 時(shí)間戳不一致、MiniCPM-V 音頻推理等。

該不該升?

跑 MoE 大模型(DeepSeek、Qwen3.5 MoE)+ 多 GPU:建議升。FA4 MLA 內(nèi)核 + Elastic EP Milestone 2 是實(shí)實(shí)在在的提升。

用 NGram 投機(jī)解碼的:必須升。GPU 化之后性能質(zhì)變。

用 Ray 管多節(jié)點(diǎn)集群的:升級(jí)前先確認(rèn)pip install ray已在你的部署腳本里,否則啟動(dòng)會(huì)報(bào)找不到 Ray。

用 KV Cache CPU offloading 的:升級(jí)可以順手用上智能門控,省掉無(wú)效的 CPU 寫入。

單機(jī)小模型部署:穩(wěn)定性修復(fù) + FlashInfer 0.6.6,升級(jí)無(wú)壞處。

制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“愛(ài)奇藝瘋了”沖上熱搜第一,CEO獨(dú)家回應(yīng)

“愛(ài)奇藝瘋了”沖上熱搜第一,CEO獨(dú)家回應(yīng)

第一財(cái)經(jīng)資訊
2026-04-20 17:24:18
將對(duì)決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進(jìn)16強(qiáng)

將對(duì)決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進(jìn)16強(qiáng)

風(fēng)過(guò)鄉(xiāng)
2026-04-20 19:41:28
達(dá)州雙龍鎮(zhèn)遭暴雨襲擊,街道被淹多輛車被沖走 鎮(zhèn)政府:已全力進(jìn)入清淤階段

達(dá)州雙龍鎮(zhèn)遭暴雨襲擊,街道被淹多輛車被沖走 鎮(zhèn)政府:已全力進(jìn)入清淤階段

紅星新聞
2026-04-21 00:00:30
賈躍亭發(fā)財(cái)了,到賬230億

賈躍亭發(fā)財(cái)了,到賬230億

新浪財(cái)經(jīng)
2026-04-20 18:59:10
“上海的夜晚,怎么這么熱鬧!”舊金山市市長(zhǎng)到訪大豫園

“上海的夜晚,怎么這么熱鬧!”舊金山市市長(zhǎng)到訪大豫園

上觀新聞
2026-04-20 22:48:05
別再尬演情婦了!一臉疲態(tài)、五大三粗,這是迷倒男人該有的皮囊?

別再尬演情婦了!一臉疲態(tài)、五大三粗,這是迷倒男人該有的皮囊?

白面書誏
2026-04-14 14:09:53
無(wú)數(shù)身價(jià)過(guò)億的大佬,都在想方設(shè)法把國(guó)內(nèi)的錢偷偷轉(zhuǎn)移到海外

無(wú)數(shù)身價(jià)過(guò)億的大佬,都在想方設(shè)法把國(guó)內(nèi)的錢偷偷轉(zhuǎn)移到海外

流蘇晚晴
2026-04-14 19:58:25
特朗普稱伊朗將進(jìn)行談判

特朗普稱伊朗將進(jìn)行談判

界面新聞
2026-04-21 07:41:12
為什么說(shuō)印度的海岸線,遠(yuǎn)看是老天爺賞飯,近看是逗你玩兒?

為什么說(shuō)印度的海岸線,遠(yuǎn)看是老天爺賞飯,近看是逗你玩兒?

半解智士
2026-04-16 17:10:39
國(guó)臺(tái)辦果然沒(méi)看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

國(guó)臺(tái)辦果然沒(méi)看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
亞洲身價(jià)之王!烏茲別克斯坦后衛(wèi)在曼城閃耀,完封阿森納鋒線

亞洲身價(jià)之王!烏茲別克斯坦后衛(wèi)在曼城閃耀,完封阿森納鋒線

星耀國(guó)際足壇
2026-04-20 23:51:03
坐擁北京一條街,丈夫是京劇名家,如今身價(jià)過(guò)億32歲兒子卻成心病

坐擁北京一條街,丈夫是京劇名家,如今身價(jià)過(guò)億32歲兒子卻成心病

不似少年游
2026-04-07 22:24:49
價(jià)格大跳水,部分車型直降27萬(wàn)!豪華汽車品牌溢價(jià)已經(jīng)開(kāi)始松動(dòng)了

價(jià)格大跳水,部分車型直降27萬(wàn)!豪華汽車品牌溢價(jià)已經(jīng)開(kāi)始松動(dòng)了

財(cái)經(jīng)八卦
2026-04-19 16:32:12
山西偷情女子已社死,丈夫扒出賬號(hào),不止一次出軌,酒店也受牽連

山西偷情女子已社死,丈夫扒出賬號(hào),不止一次出軌,酒店也受牽連

劉哥談體育
2026-04-20 19:01:24
德國(guó)法院判了:AI二創(chuàng)漫畫不侵權(quán),但有個(gè)前提

德國(guó)法院判了:AI二創(chuàng)漫畫不侵權(quán),但有個(gè)前提

賽博蘭博
2026-04-19 22:21:28
2028美國(guó)總統(tǒng)大選預(yù)演!70%民主黨人力挺黑馬,紐森要失寵了?

2028美國(guó)總統(tǒng)大選預(yù)演!70%民主黨人力挺黑馬,紐森要失寵了?

牛鍋巴小釩
2026-04-20 13:20:21
別人上浪姐是逆天改命,她們上浪姐是現(xiàn)出原形,這5位姐姐太慘了

別人上浪姐是逆天改命,她們上浪姐是現(xiàn)出原形,這5位姐姐太慘了

娛樂(lè)圈十三太保
2026-04-20 15:41:41
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

十點(diǎn)讀書
2026-04-18 18:36:15
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開(kāi)放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開(kāi)放!

黯泉
2026-04-01 17:28:39
新黨副主席李勝峰:臺(tái)灣人對(duì)統(tǒng)一的民意變化過(guò)去難想象

新黨副主席李勝峰:臺(tái)灣人對(duì)統(tǒng)一的民意變化過(guò)去難想象

海峽導(dǎo)報(bào)社
2026-04-21 07:12:05
2026-04-21 09:35:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫(kù)克卸任,特努斯接任蘋果CEO

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

減速機(jī)訂單已排到明年!

汽車要聞

把天門山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

親子
藝術(shù)
手機(jī)
旅游
公開(kāi)課

親子要聞

大體重孩子家長(zhǎng)要關(guān)注孩子運(yùn)動(dòng)足部壓力是否正常

藝術(shù)要聞

鄭麗文牛仔平底鞋引發(fā)爭(zhēng)議,洪秀柱題字黃河橋引關(guān)注!

手機(jī)要聞

庫(kù)克發(fā)布感謝信,感謝蘋果iPhone等用戶15年來(lái)的信任與支持

旅游要聞

貴州千戶苗寨景區(qū)山體滑坡致道路中斷,景區(qū)回應(yīng)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版