国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

vLLM v0.17.0來了,Qwen3.5 全系列完美支持,Anthropic API 兼容

0
分享至

關(guān)于 vLLM,我之前寫過不少:

今天 vLLMv0.17.0 正式發(fā)布


十大核心亮點速覽

我從 Release Notes 里提煉了 v0.17.0 最值得關(guān)注的十大核心亮點,按重要程度排列:

1?? FlashAttention 4 集成

這可能是這個版本最讓人興奮的更新。vLLM 現(xiàn)在正式支持FlashAttention 4 后端了。

FlashAttention 一路從 1 到 2 到 3,現(xiàn)在 4 也來了。每一代都在推動 attention 計算的效率極限。FA4 在前代基礎上又做了大量底層優(yōu)化,對于長序列、大模型的推理性能提升顯著。

如果你在用 H100/H200 或者更新的 GPU 跑大模型推理,升級到 v0.17 應該能明顯感受到速度提升。

2?? Model Runner V2 里程碑:全面成熟

Model Runner V2 是 vLLM 下一代模型執(zhí)行架構(gòu),在這個版本中達到了一個重要的成熟里程碑

  • Pipeline Parallel(流水線并行)

  • Decode Context Parallel(解碼上下文并行)

  • Eagle3 推測解碼+ CUDA Graph

  • Pooling 模型支持

  • 分段 & 混合 CUDA Graph 捕獲

  • DP+EP 推測解碼

  • 全新 ModelState 架構(gòu)

此外官方還發(fā)布了Model Runner V2 的設計文檔,對于想深入了解 vLLM 內(nèi)部架構(gòu)的同學,這是一份非常好的學習資料。

簡單來說,Model Runner V2 是 vLLM 的「心臟升級」。它讓 vLLM 在多卡、多節(jié)點、各種并行策略下的推理變得更加靈活和高效。

3?? Qwen3.5 全家桶支持

我之前介紹過的方法,vLLM一節(jié)都是用的nightly版()

Qwen3.5 模型全系列在這個版本得到了完整支持,包括:

  • 基于GDN(Gated Delta Networks)的全新架構(gòu)

  • FP8 量化支持

  • MTP 推測解碼

  • 推理解析器(reasoning parser)支持

這意味著你可以直接在 vLLM 上跑 Qwen3.5 的各種版本,享受推測解碼和量化加速的全套優(yōu)化。

對于國內(nèi)用戶來說,這可能是最實際的更新之一——Qwen3.5 是目前開源圈里最強的中文大模型之一,但是這一波 vLLM 有點慢了。

4??--performance-mode一鍵性能調(diào)優(yōu)

這個功能太貼心了。之前部署 vLLM,性能調(diào)優(yōu)需要手動設置一堆參數(shù)(batch size、調(diào)度策略等),對新手非常不友好。

現(xiàn)在只需要一個參數(shù):

vllm serve your-model --performance-mode throughput

提供三種模式:

  • **balanced**:均衡模式,適合大多數(shù)場景

  • **interactivity**:交互模式,優(yōu)先降低首 token 延遲,適合聊天場景

  • **throughput**:吞吐模式,最大化吞吐量,適合批處理場景

不用再去查文檔翻參數(shù)了,一個 flag 搞定。這種把復雜度封裝起來的思路,我很喜歡。

5?? Anthropic API 兼容

vLLM 之前一直兼容 OpenAI API 格式,現(xiàn)在開始支持Anthropic API 兼容了:

  • thinking blocks(思考塊)支持

  • count_tokensAPI

  • tool_choice=none選項

  • streaming 和圖片處理修復

這意味著如果你的應用代碼之前是基于 Anthropic Claude API 寫的,現(xiàn)在可以無縫切換到本地 vLLM 部署的模型。API 兼容性做得越來越好,這對于降低遷移成本太重要了。

6?? 權(quán)重卸載 V2:預取技術(shù)隱藏延遲

對于顯存不夠用的同學,這個更新很關(guān)鍵。

v0.17 的權(quán)重卸載器引入了預取機制(Prefetching),可以在 GPU 計算的同時,把下一層的權(quán)重從 CPU 加載到 GPU,從而隱藏權(quán)重加載延遲。

此外還支持了:

  • 選擇性 CPU 權(quán)重卸載:不用全部卸載,只卸載你指定的層

  • 無需雙倍 pinned memory 的 CPU 卸載:省內(nèi)存

這對于在消費級 GPU(3090、4090)上跑大模型的同學來說,是實打?qū)嵉膬?yōu)化。

7?? 彈性專家并行 Phase 2

MoE(Mixture of Experts)模型是當前大模型的主流架構(gòu)(DeepSeek-V3/V3.2、Qwen3 MoE、Llama 4 等),vLLM 在這個版本引入了彈性專家并行 Milestone 2。

核心能力:動態(tài) GPU 縮放。

什么意思?就是你的 MoE 模型可以根據(jù)負載動態(tài)調(diào)整使用的 GPU 數(shù)量,負載低的時候少用幾張卡省錢,負載高的時候自動擴展。這對于生產(chǎn)環(huán)境的成本優(yōu)化太重要了。

8?? 量化 LoRA 適配器直接加載

之前在 vLLM 上用 LoRA 微調(diào)后的模型,如果是量化版本(比如 QLoRA),需要各種周折才能加載。

現(xiàn)在,vLLM 可以直接加載量化 LoRA 適配器了。

這對于做 LoRA 微調(diào) + 量化部署的工作流來說是個大利好。QLoRA 訓練完直接扔到 vLLM 里就能跑,中間環(huán)節(jié)省了。

9?? 推測解碼全面進化

推測解碼(Speculative Decoding)是加速 LLM 推理的關(guān)鍵技術(shù),v0.17 在這方面做了大量優(yōu)化:

  • Eagle3推測解碼支持 CUDA Graph,速度更快

  • Nemotron-HMTP 和 Mamba 推測解碼

  • Sparse MLA + MTP全 CUDA Graph 支持

  • DP+EP推測解碼(數(shù)據(jù)并行 + 專家并行)

  • Eagle3 支持disaggregated serving(分離式推理)

特別是 Eagle3 + CUDA Graph 這個組合,是這次推測解碼部分最值得關(guān)注的組合之一。

Kernel 層面的深度優(yōu)化

這個版本在底層內(nèi)核上做了大量「不起眼但很重要」的優(yōu)化:

  • FlashInfer Sparse MLA后端

  • Triton top-k / top-p 采樣器內(nèi)核

  • TRTLLM DSV3 Router GEMM 內(nèi)核:batch-1 場景加速 6%

  • FA3 swizzle 優(yōu)化

  • 256-bit LDG/STG 激活內(nèi)核

  • Helion 內(nèi)核框架:自動調(diào)優(yōu)基礎設施

這些優(yōu)化可能單個看不起眼,但加在一起就是量變引起質(zhì)變。實際測試中,DeepSeek R1 BF16 最低延遲 QKV GEMM 做到了0.5% 端到端加速,Pipeline Parallel 異步收發(fā)做到了2.9% 端到端吞吐提升,pooling maxsim 做到了13.9% 吞吐提升。

硬件支持:不止 NVIDIA

vLLM 越來越不是 NVIDIA 的專屬了。v0.17 在硬件支持上做了大量工作:

NVIDIA 方面:

  • SM100(Blackwell)FP8 MLA prefill 支持

  • SM100 MXFP8 塊級縮放分組矩陣乘法

  • SM120 FP8 GEMM 優(yōu)化

  • FlashInfer DeepGEMM 在 SM90 上默認開啟 swapAB

AMD ROCm 方面:

  • AITER 融合 RoPE+KVCache

  • gfx950 上 MXFP4 MoE 權(quán)重預混洗

  • bitsandbytes 量化支持

  • CK(Composable Kernel)MoE 量化后端

Intel XPU 方面:

  • CUDA graph 支持終于來了

  • NIXL GPUDirect RDMA

CPU 方面:

  • ARM BF16 交叉編譯

  • s390x FP16 支持

  • 同時支持 AVX2 和 AVX512 的 CPU 發(fā)行版

如果你是 AMD 或 Intel 的用戶,現(xiàn)在上 vLLM 的體驗已經(jīng)好了很多。雖然和 NVIDIA 比還有差距,但差距在快速縮小。

ASR 模型支持:不只是 LLM 了

v0.17 有一個很有意思的變化——開始支持ASR(語音識別)模型了:

  • FunASR

  • FireRedASR2

  • Qwen3-ASR 實時流式識別

vLLM 從名字看是「vLLM」——Virtual LLM,但現(xiàn)在它的野心顯然不止于文本大模型。之前加了多模態(tài)(視覺、音頻),現(xiàn)在又加了 ASR,正在進化成一個全模態(tài)推理引擎。

升級注意事項

在你興沖沖跑去升級之前,說幾個需要注意的點:

1. PyTorch 2.10 升級(Breaking Change?。?/strong>

v0.17 升級到了 PyTorch 2.10,這是環(huán)境依賴的破壞性變更。如果你的環(huán)境依賴特定版本的 PyTorch,需要做好兼容性測試。

2. CUDA 12.9+ 已知問題

如果你在 CUDA 12.9+ 上遇到CUBLAS_STATUS_INVALID_VALUE錯誤,可以試試:

# 方法 1:清理 LD_LIBRARY_PATH
unset LD_LIBRARY_PATH

# 方法 2:uv 安裝
uv pip install vllm --torch-backend=auto

# 方法 3:指定 CUDA 版本
pip install vllm --extra-index-url https://download.pytorch.org/whl/cu129

3. KV 緩存加載策略變更

KV load failure policy 默認值從recompute變?yōu)?code>fail。如果你的部署依賴自動重算行為,需要手動設置回去。

安裝

安裝很簡單,一行命令:

uv pip install vllm

Docker 用戶:

docker pull vllm/vllm-openai:v0.17.0
docker run --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=$HF_TOKEN" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:v0.17.0 \
--model Qwen/Qwen3-0.6B
和 SGLang 怎么選?

這是評論區(qū)最常被問到的問題之一。我簡單說下我的看法:

  • vLLM:更成熟,社區(qū)更大(GitHub 50k+ stars),硬件兼容性更好,企業(yè)級特性更豐富(pipeline parallel、disaggregated serving 等)。適合生產(chǎn)環(huán)境部署。

  • SGLang:在某些場景下性能更極致(特別是 DeepSeek 系列模型),API 更現(xiàn)代化。適合追求極致性能的場景。

兩者都是頂級的推理引擎,現(xiàn)在更像是Chrome vs Firefox的關(guān)系——競爭推動了整個行業(yè)的進步。

總結(jié)

vLLM v0.17.0 是一個里程碑式的版本。FlashAttention 4 集成、Model Runner V2 成熟、Qwen3.5 全面支持、一鍵性能調(diào)優(yōu)、Anthropic API 兼容……幾乎每一個更新都是硬核的工程突破。

如果你正在做 LLM 推理部署,不管是研發(fā)還是生產(chǎn)環(huán)境,vLLM 依然是最值得關(guān)注的推理引擎之一

.5

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
為什么腦梗逐年增多?提醒:與肥肉無關(guān),有一樣東西要少碰

為什么腦梗逐年增多?提醒:與肥肉無關(guān),有一樣東西要少碰

芹姐說生活
2026-04-19 08:33:41
斯諾克世錦賽:囧哥10-7連贏7局逆轉(zhuǎn)穆迪晉級16強

斯諾克世錦賽:囧哥10-7連贏7局逆轉(zhuǎn)穆迪晉級16強

縱橫之策
2026-04-21 05:20:24
丁俊暉趙心童上演中國德比

丁俊暉趙心童上演中國德比

界面新聞
2026-04-20 20:17:40
特朗普稱其女婿及美國總統(tǒng)特使將參與美伊談判

特朗普稱其女婿及美國總統(tǒng)特使將參與美伊談判

新京報
2026-04-19 21:44:09
花27萬元拍下周口太昊陵廟會攤位的“標王”攤主已盈利,當事人:每天工作十多個小時賣豬蹄數(shù)千只,明年會繼續(xù)競拍

花27萬元拍下周口太昊陵廟會攤位的“標王”攤主已盈利,當事人:每天工作十多個小時賣豬蹄數(shù)千只,明年會繼續(xù)競拍

極目新聞
2026-04-19 22:39:27
日本軍艦闖臺海后,美國接到通知,中國東海劃5處警戒區(qū),有動作

日本軍艦闖臺海后,美國接到通知,中國東海劃5處警戒區(qū),有動作

說歷史的老牢
2026-04-20 05:04:04
連續(xù)兩個月從中國進口鎵鍺為零后,日本宣布:無人機要做世界第一

連續(xù)兩個月從中國進口鎵鍺為零后,日本宣布:無人機要做世界第一

丁丁鯉史紀
2026-04-20 16:54:16
劍指20億票房,《捕風追影2》立項開發(fā),成龍不服梁家輝五奪影帝

劍指20億票房,《捕風追影2》立項開發(fā),成龍不服梁家輝五奪影帝

電影票房預告片
2026-04-20 22:15:50
同樣是一線城市,北京和上海差距太大,4個真實感受,越想越明白

同樣是一線城市,北京和上海差距太大,4個真實感受,越想越明白

娛樂圈見解說
2026-04-21 00:53:31
新規(guī)落地,國家反腐再升級

新規(guī)落地,國家反腐再升級

謝公信財經(jīng)
2026-04-20 13:21:19
世錦賽戰(zhàn)報:中國小將1-3落后大滿貫,囧哥追至6-7僅差一局

世錦賽戰(zhàn)報:中國小將1-3落后大滿貫,囧哥追至6-7僅差一局

工從昊懂球阿靖
2026-04-21 03:57:56
定了!中超第7輪只有一支熱門奪冠球隊有CCTV直播

定了!中超第7輪只有一支熱門奪冠球隊有CCTV直播

80后體育大蜀黍
2026-04-20 20:31:39
19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

丫頭舫
2025-09-22 20:39:00
浦東新添一家三甲醫(yī)院,上海長征醫(yī)院浦東院區(qū)明起面向社會公眾服務

浦東新添一家三甲醫(yī)院,上海長征醫(yī)院浦東院區(qū)明起面向社會公眾服務

澎湃新聞
2026-04-20 13:58:26
解放軍剛按住日本,又有6國派兵,3面圍堵中國,名單上都不是善茬

解放軍剛按住日本,又有6國派兵,3面圍堵中國,名單上都不是善茬

聞香閣
2026-04-21 00:18:35
空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

快樂彼岸
2026-04-21 03:15:21
想遠離癌癥,先管住嘴!腫瘤科醫(yī)生內(nèi)部的“忌口清單”,很多人天天吃

想遠離癌癥,先管住嘴!腫瘤科醫(yī)生內(nèi)部的“忌口清單”,很多人天天吃

環(huán)球網(wǎng)資訊
2026-04-18 17:59:25
太摳了??!開拓者老板!酒店退房錢都要計較!

太摳了??!開拓者老板!酒店退房錢都要計較!

柚子說球
2026-04-20 18:36:37
涉嫌嚴重違紀違法,范光明被查

涉嫌嚴重違紀違法,范光明被查

吉刻新聞
2026-04-20 20:36:13
孫藝珍曬兒子拍的合影,她穿玄彬外套給玄彬臉打貼紙,真的好幸福

孫藝珍曬兒子拍的合影,她穿玄彬外套給玄彬臉打貼紙,真的好幸福

動物奇奇怪怪
2026-04-20 18:51:04
2026-04-21 06:20:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

家居
時尚
本地
藝術(shù)
教育

家居要聞

自然慢調(diào) 慢享時光

春天衣服不用準備太多!這幾大單品提前備好,百搭實用又不過時

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

藝術(shù)要聞

春天最適合小住三五天的地方

教育要聞

“真大方,還拍給外人看”,女兒蹭枕頭,家長放網(wǎng)上,網(wǎng)友卻毛了

無障礙瀏覽 進入關(guān)懷版