国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

vLLM 部署 Qwen3.5 滿血&量化版,并發(fā)性能測試,附部署腳本

0
分享至

最近openclaw在國內(nèi)火的優(yōu)點離譜,脫離其實力范圍的火,以至于我也要在文中加上兩句才可能有流量。。。主要是我個人一直玩的是自己折騰的一套,比較放心

不過本周我會測試國產(chǎn)的兩個claw,敬請期待。

本文繼續(xù)折騰Qwen3.5 不出意外是最后一篇了。

Qwen3.5 系列我一直沒有拿 vLLM 部署,,趁著周末,玩一下。

首先需要升級 vLLM,唯一需要注意的是自己的硬件及 CUDA 版本


我的系統(tǒng)總是有幺蛾子,所有還是用的 Docker

正常拉取鏡像即可:docker pull vllm/vllm-openai:v0.17.0

我是 4090 的卡,所以選擇官方 FP8

35B 權(quán)重文件 37GB

27B 權(quán)重文件 30GB


遭遇各種 OOM 之后。。。。


最終調(diào)整到了一版合適的參數(shù),腳本以 35B 為例,27B 僅需修改模型文具地址和對應(yīng) name 即可,我只有 4 卡,所有還要測完 35B 后 stop 才能起 27B

#!/usr/bin/env bash
set -euo pipefail

MODEL_DIR="/data/models/Qwen3.5-35B-A3B-FP8"
CONTAINER_NAME="qwen35-35b-a3b-fp8"
PORT=8000

docker rm -f ${CONTAINER_NAME} 2>/dev/null || true

docker run -d \
--name ${CONTAINER_NAME} \
--gpus '"device=0,1,2,3"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v ${MODEL_DIR}:/model:ro \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
-e VLLM_USE_V1=1 \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35b-a3b-fp8 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 4 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0 \
--port 8000

這里說明一下
--tensor-parallel-size 4我又 4 張 4090 顯卡
--max-model-len 262144是我的強需求,可以稍微犧牲一點并發(fā)
--kv-cache-dtype fp8這是為了降低 KV cache 內(nèi)存占用,從而支持更長上下文
--gpu-memory-utilization 0.9是為了給真實運行時留空間。實際部署中,除了權(quán)重和 KV cache,還會吃掉顯存的還有:CUDA graph、NCCL 通信 buffer、allocator 碎片、連續(xù) batching 帶來的波動等等
--max-num-seqs 4避免長上下文 + 高并發(fā)疊加把顯存直接頂爆,感覺還有空間往上加
--max-num-batched-tokens 8192參數(shù)控制一次調(diào)度里的總 token 規(guī)模。它過大時,會帶來更高吞吐,但也會加大運行時顯存波動和調(diào)度壓力
--language-model-only我不需要多模態(tài),所以只要文本推理
--enable-prefix-caching高效的 KV 管理和吞吐優(yōu)化參數(shù)
--default-chat-template-kwargs '{"enable_thinking": false}':加了思考我這配置卡的很,思考太過漫長了

而且我用的 FP8 它的思考居然是英文


實際運行,性能特別差 27B 幾乎沒有并發(fā)能力,35B-A3B 還可以,但是 RPS 很低,首 Token 延遲都奔 10s 了


沒辦法,我放棄官方 FP8,上了 4bit


cyankiwi/Qwen3.5-35B-A3B-AWQ-4bitcyankiwi/Qwen3.5-27B-AWQ-4bit

然后使用了同樣的部署腳本,只是它倆更省卡,2 張 4090 就能跑起來,我可以同時跑 27B 和 35B,而且我還在原代碼基礎(chǔ)上 加大了 max-num-seqs


Moe 確實省顯卡

我把它倆接入到了 openwebui,都關(guān)閉思考情況下,27B 也慢得多!看樣子我之前的判斷大錯特錯了,27 太拉垮了。

日志顯示 27B 70+ t/s


35B 100+ t/s



代碼能力呢,都不太能看,臥龍鳳雛了


性能方面,27B 依然相當(dāng)差勁,比 PF8 好多了


35B 比 FP8 提升多了,也比 27B 強多了


總結(jié),以我的需求,暫時不想替代 Qwen3-32B,還是 32B 跟穩(wěn)。

而且 3.5 還整了騷操作,把開頭的 從“動態(tài)生成”變成了“靜態(tài)預(yù)置”,下游對接的系統(tǒng)苦了。。。要么模型測,要么應(yīng)用測,是要改的。

再加上它本身不支持思考與否的軟關(guān)閉,這個級別能力提升也不見得能彌補這些缺點,企業(yè)級應(yīng)用,我感覺很多都不太樂意升 3.5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
澆小麥的地下水變成血紅色,誰來守護我們的生存底線?

澆小麥的地下水變成血紅色,誰來守護我們的生存底線?

記錄劉杰
2026-04-19 21:39:47
伊朗籍中國貨輪!在公海被美軍扣押后,不到24小時,中方表態(tài)

伊朗籍中國貨輪!在公海被美軍扣押后,不到24小時,中方表態(tài)

離離言幾許
2026-04-20 22:15:30
19歲女孩挪用自家1700萬當(dāng)“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

19歲女孩挪用自家1700萬當(dāng)“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

封面新聞
2026-04-20 17:48:14
日本將地震震級調(diào)整至7.5級

日本將地震震級調(diào)整至7.5級

界面新聞
2026-04-20 16:30:33
這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

天天熱點見聞
2026-04-18 08:09:59
將對決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進16強

將對決趙心童!39歲丁俊暉爆發(fā):10-5淘汰世界第25 連續(xù)2年進16強

風(fēng)過鄉(xiāng)
2026-04-20 19:41:28
伊朗萬噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點中國的名

伊朗萬噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點中國的名

二大爺觀世界
2026-04-20 20:36:50
被蘋果、華為干倒的諾基亞,又殺回來了!

被蘋果、華為干倒的諾基亞,又殺回來了!

大佬灼見
2026-04-19 10:28:53
余承東:我們成本扛不住了,希望大家早點購買

余承東:我們成本扛不住了,希望大家早點購買

映射生活的身影
2026-04-20 21:53:17
歐爾班下臺,這個歐洲國家卻可能再次擁抱一位親俄領(lǐng)導(dǎo)人

歐爾班下臺,這個歐洲國家卻可能再次擁抱一位親俄領(lǐng)導(dǎo)人

上觀新聞
2026-04-20 15:58:42
狂跌90%!造假成風(fēng),中產(chǎn)追捧的網(wǎng)紅飲品淪為“智商稅”!

狂跌90%!造假成風(fēng),中產(chǎn)追捧的網(wǎng)紅飲品淪為“智商稅”!

青眼財經(jīng)
2026-04-20 15:03:39
“按按鈕就行”:官媒的“大國工匠”是如何失誤的?

“按按鈕就行”:官媒的“大國工匠”是如何失誤的?

虔青
2026-04-20 13:25:48
人心散了!34分慘敗引發(fā)內(nèi)訌,趙繼偉發(fā)社媒表達不滿,怒噴隊友

人心散了!34分慘敗引發(fā)內(nèi)訌,趙繼偉發(fā)社媒表達不滿,怒噴隊友

南海浪花
2026-04-20 23:37:05
“愛奇藝瘋了”沖上熱搜第一,CEO獨家回應(yīng)

“愛奇藝瘋了”沖上熱搜第一,CEO獨家回應(yīng)

第一財經(jīng)資訊
2026-04-20 17:24:18
4月21日精選熱點:光纖價格暴漲650%  這3家處于底部龍頭要起爆

4月21日精選熱點:光纖價格暴漲650% 這3家處于底部龍頭要起爆

元芳說投資
2026-04-20 21:31:20
為什么全國人民都在拒接電話?

為什么全國人民都在拒接電話?

黯泉
2026-04-18 17:00:56
77歲的牛群:折騰半生傾家蕩產(chǎn),晚年被美國畢業(yè)的兒子悉心照料

77歲的牛群:折騰半生傾家蕩產(chǎn),晚年被美國畢業(yè)的兒子悉心照料

她時尚丫
2026-04-19 21:41:30
日本一觀光直升機墜入火山口,2名中國臺灣游客與1名日本機長失蹤已3月,日媒稱生還可能性極低,擬動用無人機重機具進入火口作業(yè)

日本一觀光直升機墜入火山口,2名中國臺灣游客與1名日本機長失蹤已3月,日媒稱生還可能性極低,擬動用無人機重機具進入火口作業(yè)

大風(fēng)新聞
2026-04-20 15:11:31
小學(xué)生拒絕借車遭毆打搜家,一名施暴者及家長上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調(diào)查

小學(xué)生拒絕借車遭毆打搜家,一名施暴者及家長上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調(diào)查

極目新聞
2026-04-20 16:20:59
2026-04-21 06:03:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

游戲
本地
數(shù)碼
公開課
軍事航空

大司馬回歸兩個月,某音人氣穩(wěn)居頂流行列,道出風(fēng)光背后心酸現(xiàn)狀

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

數(shù)碼要聞

REDMI 顯示器 G Pro 27U 2026輕體驗:電競利器 桌面上的“小鋼炮”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關(guān)懷版