国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Qwen3-Next 實(shí)測(cè),有點(diǎn)失望

0
分享至

大家好,我是 Ai 學(xué)習(xí)的老章

前文:,Qwen3-Next 的思考和指令兩個(gè)模型官方性能測(cè)試結(jié)果十分誘人。僅用 3B 活躍參數(shù)即可達(dá)到 DeepSeek V3.1 級(jí)別的智能水平


Qwen3 Next 80B(推理版)在 Qwen3 模型家族中智能程度排名第二,介于 Qwen3 235B 2507(推理版)與剛發(fā)布的 Qwen3-Max(預(yù)覽版,不使用推理)之間


我早就下好了完整模型文件 -160GB+


但是后來(lái)出了 FP8 量化版,模型文件大小減半,可裝入單張 H200 GPU

但是我用 0.10.2 版本的 vLLM 無(wú)論怎么改參數(shù)都部署失敗

無(wú)奈就還跑原版,2xH200 開(kāi)跑

腳本如下:

docker run --rm -d --runtime nvidia  --name qwen3-next-tk-server  --ipc=host --gpus '"device=4,5"'  -p 8001:8000  -v /data/ai:/models vllm/vllm-openai:v0.10.2  --model /models/Qwen3-Next-80B-A3B-Thinking  --served-model-name qwen3-next-tk-fp8 --port 8000   --max-num-seqs 50 --max-model-len  131072  --tensor-parallel-size 2
[! 注意] 默認(rèn)上下文長(zhǎng)度為 256K。如果遇到內(nèi)存不足(OOM)問(wèn)題,可以考慮將上下文長(zhǎng)度減少到更小的值。但是,由于模型可能需要更長(zhǎng)的 token 序列進(jìn)行推理,我們強(qiáng)烈建議盡可能使用大于 131,072 的上下文長(zhǎng)度。

ps:上下文上限跑起需要使用 4 張 H200/H20 或 4 張 A100/A800 GPU 來(lái)啟動(dòng),這里我減半到官方建議的 131072

每卡上模型加載 75GB,耗時(shí) 44 秒,KV Cache 49.5GB,峰值激活內(nèi)存 0.62GB,非 Torch 顯存占用 1.38GB,合計(jì) 126GB 的樣子

運(yùn)行成功后接入 OpenWebUI,簡(jiǎn)單測(cè)試了一下,略失望,原因有幾:

1 是首 token 響應(yīng)延遲,大幾秒的樣子才開(kāi)始回復(fù)

2 是 think 標(biāo)簽缺失,導(dǎo)致整個(gè)思考過(guò)程無(wú)法被識(shí)別,直接被打印,而非可隱藏

原因阿里也有解釋?zhuān)?/p>

[! 注意] Qwen3-Next-80B-A3B-Thinking 僅支持思考模式。為了強(qiáng)制模型進(jìn)行思考,默認(rèn)聊天模板自動(dòng)包含 \ 。因此,模型的輸出只包含 \<\/think\> 而沒(méi)有顯式的 \ 標(biāo)簽是正常的。

我看魔塔社區(qū)也有網(wǎng)友在抱怨,不知道為啥 Qwen 要這么搞,與之前模型保持一致不好嗎?無(wú)故增加下游應(yīng)用適配成本


3 是思考過(guò)程非常、非常、非常長(zhǎng),長(zhǎng)到時(shí)常會(huì)無(wú)限思考

原因阿里還是有解釋?zhuān)?/p>

[! 注意] Qwen3-Next-80B-A3B-Thinking 可能會(huì)生成比其前身更長(zhǎng)的思考內(nèi)容。我們強(qiáng)烈建議將其用于高度復(fù)雜的推理任務(wù)。

4 是并發(fā)太低了

啟動(dòng)腳本設(shè)置了--max-num-seqs 50,但是我用測(cè)試工具跑了一下,由于前面三個(gè)問(wèn)題,并發(fā)幾乎跑不起來(lái),全是 error


5Qwen3-Next 也支持多詞元預(yù)測(cè)(簡(jiǎn)稱 MTP),它既提升了預(yù)訓(xùn)練效率,也加快了推理速度。我試了一下,單請(qǐng)求快了點(diǎn),但是上面四個(gè)問(wèn)題都存在。

docker run --rm -d --runtime nvidia  --name qwen3-next-tk-server  --ipc=host --gpus '"device=4,5"'  -p 8001:8000  -v /data/ai:/models vllm/vllm-openai:v0.10.2  --model /models/Qwen3-Next-80B-A3B-Thinking  --served-model-name qwen3-next-tk-fp8 --port 8000   --max-num-seqs 50 --max-model-len  131072  --tensor-parallel-size 2 --speculative-config '{"method": "qwen3_next_mtp", "num_speculative_tokens": 2}'  --no-enable-chunked-prefill

哪位兄弟本地部署過(guò)Qwen3-Next-80B-A3B-Thinking,感受如何?

如有發(fā)現(xiàn)我的腳本有問(wèn)題,歡迎提出,我還是有點(diǎn)不敢相信它會(huì)這么不堪。

或許它真就只適合高度復(fù)雜的推理任務(wù)?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
百年龐家故事大揭秘:他們?yōu)楹尾贿x擇離開(kāi)大陸?

百年龐家故事大揭秘:他們?yōu)楹尾贿x擇離開(kāi)大陸?

金牌輿情官
2025-12-25 20:15:34
中美兩軍代表密會(huì)4天后,中國(guó)再次見(jiàn)識(shí)到了,特朗普的不顧后果

中美兩軍代表密會(huì)4天后,中國(guó)再次見(jiàn)識(shí)到了,特朗普的不顧后果

小俎娛樂(lè)
2025-12-26 02:55:09
一夜之間狂漲,刷新歷史最高點(diǎn)!有人狂呼“解套”,有人抓緊買(mǎi)入:趁價(jià)格還不算高

一夜之間狂漲,刷新歷史最高點(diǎn)!有人狂呼“解套”,有人抓緊買(mǎi)入:趁價(jià)格還不算高

環(huán)球網(wǎng)資訊
2025-12-25 07:24:58
豐田新款皇冠Sport震撼上市,21萬(wàn)起售價(jià)令對(duì)手心慌!

豐田新款皇冠Sport震撼上市,21萬(wàn)起售價(jià)令對(duì)手心慌!

生活魔術(shù)專(zhuān)家
2025-12-25 16:29:38
官媒對(duì)劉強(qiáng)東的稱呼變了,3字之差釋放強(qiáng)烈信號(hào),雷軍真沒(méi)說(shuō)錯(cuò)

官媒對(duì)劉強(qiáng)東的稱呼變了,3字之差釋放強(qiáng)烈信號(hào),雷軍真沒(méi)說(shuō)錯(cuò)

風(fēng)月得自難尋
2025-12-25 08:12:20
鬧大了!中J某局的員工在網(wǎng)上掀桌子了!

鬧大了!中J某局的員工在網(wǎng)上掀桌子了!

黯泉
2025-12-24 20:53:06
J杯秘書(shū)人妻會(huì)說(shuō)中文!Madonna 2025年最神秘新人"櫻涼香"來(lái)了!

J杯秘書(shū)人妻會(huì)說(shuō)中文!Madonna 2025年最神秘新人"櫻涼香"來(lái)了!

素然追光
2025-12-26 00:40:01
晚到卻是“全球一流”!搭載800V固態(tài)電池,純電續(xù)航可達(dá)1500km!

晚到卻是“全球一流”!搭載800V固態(tài)電池,純電續(xù)航可達(dá)1500km!

隔壁說(shuō)車(chē)?yán)贤?/span>
2025-12-24 05:46:48
臀大腰粗的女生看過(guò)來(lái),白色長(zhǎng)袖搭配灰色瑜伽褲,這微胖身材真棒

臀大腰粗的女生看過(guò)來(lái),白色長(zhǎng)袖搭配灰色瑜伽褲,這微胖身材真棒

小喬古裝漢服
2025-12-24 10:52:46
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽(yáng)
2025-12-23 18:33:38
研究發(fā)現(xiàn):每天都喝酒的人,多半到了60歲后,身體或有這4種苦楚

研究發(fā)現(xiàn):每天都喝酒的人,多半到了60歲后,身體或有這4種苦楚

蜉蝣說(shuō)
2025-12-25 18:22:47
中國(guó)油輪為何掛巴拿馬國(guó)旗?若掛中國(guó)國(guó)旗,美敢扣留嗎?

中國(guó)油輪為何掛巴拿馬國(guó)旗?若掛中國(guó)國(guó)旗,美敢扣留嗎?

劍道萬(wàn)古似長(zhǎng)夜
2025-12-25 16:36:03
古天樂(lè)解釋?zhuān)簽楹螞](méi)找江華演《尋秦記》電影!

古天樂(lè)解釋?zhuān)簽楹螞](méi)找江華演《尋秦記》電影!

我愛(ài)追港劇
2025-12-25 23:42:36
中國(guó)的鄭大世?18歲日本J聯(lián)賽后衛(wèi)選擇中國(guó)籍:國(guó)足可征召!

中國(guó)的鄭大世?18歲日本J聯(lián)賽后衛(wèi)選擇中國(guó)籍:國(guó)足可征召!

邱澤云
2025-12-25 16:19:54
聶磊栽在一個(gè)女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

聶磊栽在一個(gè)女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

千年人參它會(huì)跑
2024-11-18 21:18:41
美媒報(bào)道:2008年跳樓自殺的頂級(jí)模特魯斯拉娜,的確是蘿莉島女孩

美媒報(bào)道:2008年跳樓自殺的頂級(jí)模特魯斯拉娜,的確是蘿莉島女孩

老范談史
2025-12-24 17:24:57
第一個(gè)房?jī)r(jià)回升的城市出現(xiàn)了!

第一個(gè)房?jī)r(jià)回升的城市出現(xiàn)了!

新浪財(cái)經(jīng)
2025-12-26 00:23:14
中日爭(zhēng)端大結(jié)局?高市連送中國(guó)兩份大禮,日本50年國(guó)運(yùn)沒(méi)了!

中日爭(zhēng)端大結(jié)局?高市連送中國(guó)兩份大禮,日本50年國(guó)運(yùn)沒(méi)了!

花花娛界
2025-12-25 20:42:12
美國(guó):你的船,我想扣就扣!中國(guó):公海之上,誰(shuí)給你的膽子?

美國(guó):你的船,我想扣就扣!中國(guó):公海之上,誰(shuí)給你的膽子?

扶蘇聊歷史
2025-12-24 10:21:30
深淵的引力:黑色與禁欲的美學(xué)悖論

深淵的引力:黑色與禁欲的美學(xué)悖論

疾跑的小蝸牛
2025-12-25 23:34:24
2025-12-26 04:31:00
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3234文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

俄軍中將在汽車(chē)炸彈爆炸中身亡 俄軍報(bào)復(fù)

頭條要聞

俄軍中將在汽車(chē)炸彈爆炸中身亡 俄軍報(bào)復(fù)

體育要聞

約基奇有多喜歡馬?

娛樂(lè)要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來(lái)了,年化超24%的小貸被即刻叫停

汽車(chē)要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

親子
健康
本地
數(shù)碼
公開(kāi)課

親子要聞

三歲打娘娘會(huì)笑,三十打娘娘上調(diào),教子有方家興旺教子無(wú)方家敗光

這些新療法,讓化療不再那么痛苦

本地新聞

這輩子要積多少德,下輩子才能投胎到德國(guó)當(dāng)狗

數(shù)碼要聞

年終復(fù)盤(pán)不用愁,鴻蒙電腦讓高效貫穿每一刻

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版