国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

vLLM v0.19.1 補丁發(fā)布

0
分享至


vLLM 0.19.1 正式版發(fā)布了,這次是一個補丁版本,11 個 cherry-pick,主題非常集中:把 Transformers v5 正式拉進來,然后把 Gemma 4 的一堆坑填上。

v0.19.0 對 Gemma 4 做到了"發(fā)布當(dāng)天可用",但"可用"和"好用"之間差著不少 bug

這次 v0.19.1 就是來還債的,可以說這是一個 Gemma 4 專項修復(fù)版本

變更

類型

一句話

Transformers v5 正式升級

生態(tài)

從兼容升級到正式依賴

Gemma 4 流式工具調(diào)用 JSON 損壞

修復(fù)

流式輸出時部分分隔符導(dǎo)致無效 JSON

Gemma 4 流式 HTML 重復(fù)

修復(fù)

工具調(diào)用后 HTML 內(nèi)容被重復(fù)輸出

Gemma 4 流式布爾/數(shù)字值損壞

修復(fù)

跨 chunk 的布爾和數(shù)字值被截斷

Gemma 4 推理解析 + 多輪工具調(diào)用

修復(fù)

推理解析器支持 adjust_request,修復(fù)多輪對話

Gemma 4 量化 MoE 支持

? 新功能

FP8 和 NVFP4 量化的 MoE 模型可以跑了

Gemma 4 Eagle3 推測解碼

? 新功能

支持隱藏狀態(tài)提取,可訓(xùn)練專屬草稿模型

Gemma 4 LoRA 適配器加載

修復(fù)

LoRA 加載路徑修正

Gemma 4 null 值轉(zhuǎn)字符串

修復(fù)

裸 null 被錯誤轉(zhuǎn)為 "null" 字符串

Gemma 4 PT 模型 token 重復(fù)

修復(fù)

預(yù)訓(xùn)練模型缺失 BOS token 導(dǎo)致輸出重復(fù)

Kimi-K2.5 媒體占位符 token

修復(fù)

上游 config 和 tokenizer 的 ID 不一致

一、Transformers v5:從兼容到正式依賴

這個 PR(#30566)從 2025 年 12 月就開始做了,歷時四個多月終于合入。

HuggingFace Transformers v5 是一次大版本升級,改了不少底層 API。

vLLM 作為最依賴 Transformers 生態(tài)的推理引擎,這次升級涉及面很廣:

  • 模型加載方式變了 :配置注冊、tokenizer 獲取路徑都有調(diào)整

  • 部分模型暫不兼容 :比如 XVERSE 的 tokenizer 在 v5 下會報錯,暫時鎖定了 transformers<=4.57

  • LoRA 加載路徑修復(fù) :適配器目錄下沒有 config.json 時不再報錯

v0.19.0 已經(jīng)做了大面積適配,但還是"兼容"狀態(tài)

v0.19.1 把 Transformers v5.5.4 正式拉進依賴——如果你之前一直卡在 v4 不敢升,現(xiàn)在可以放心了

二、Gemma 4 工具調(diào)用:流式輸出的六連修

Gemma 4 的工具調(diào)用在 v0.19.0 發(fā)布時就能用,但流式場景下問題一大堆:

Bug 1:部分分隔符導(dǎo)致無效 JSON(#38992)

Gemma 4 的工具調(diào)用格式用特殊分隔符標(biāo)記參數(shù)

流式輸出時,一個分隔符可能被拆成兩個 chunk 發(fā)出去

前半截分隔符被當(dāng)成普通文本輸出,后半截又被正確識別,導(dǎo)致最終拼出來的 JSON 是壞的

修復(fù)方式:在流式輸出中檢測并剝離不完整的分隔符字符。

Bug 2:工具調(diào)用后 HTML 內(nèi)容重復(fù)(#38909)

Gemma 4 在執(zhí)行工具調(diào)用后繼續(xù)生成 HTML 內(nèi)容時,parser 內(nèi)部會從緩沖的 delta 重建 current_text,導(dǎo)致已經(jīng)發(fā)過的內(nèi)容被重復(fù)發(fā)送。

修復(fù)方式:停止從緩沖 delta 重建文本,直接使用原始流。

Bug 3:跨 chunk 的布爾/數(shù)字值被截斷(#39114)

工具調(diào)用參數(shù)如果是 true、false 或數(shù)字,這些值可能跨兩個 chunk 被拆開。比如 tru 在第一個 chunk,e 在第二個 chunk,parser 把 tru 當(dāng)成了字符串。

修復(fù)方式:在流式模式下扣留冒號和后續(xù)空白字符,等值完整后再發(fā)送。

Bug 4:裸 null 被轉(zhuǎn)成字符串 "null"(#39679)

_parse_gemma4_value 函數(shù)處理了 true/false 的裸值,但漏了 null。結(jié)果 param:null 被解析成 {"param": "null"} 而不是 {"param": null}。

這會導(dǎo)致 tool_choice="auto"tool_choice=" " 產(chǎn)生不一致的輸出——后者走了 guided decoding 能正確處理 JSON schema,前者不行。

修復(fù)方式:在值解析中補上 null 的處理。

Bug 5:多輪工具調(diào)用 + 推理模式修復(fù)(#39027)

這是最大的一個修復(fù),解決了多個問題:

  • 新增了 Gemma 4 專用 chat template,正確編碼工具結(jié)果,處理多輪對話中交替出現(xiàn)的工具調(diào)用和推理內(nèi)容

  • 給 ReasoningParser 基類添加了 adjust_request() 方法——Gemma 4 用它來強制設(shè)置 skip_special_tokens=False ,保留邊界 token

  • 修復(fù)了流式推理中 thought\n 前綴的剝離邏輯

  • 清理了 Anthropic Messages API 轉(zhuǎn)換中產(chǎn)生的空 user 消息

Bug 6:LoRA 適配器加載失?。?38844)

Gemma4ForCausalLM 加載 LoRA 適配器時路徑有誤,現(xiàn)已修正。想在 Gemma 4 上微調(diào)+部署的同學(xué),這個必須有。

? 老章說:這六個 bug 放一起看,就能理解為什么 Gemma 4 的工具調(diào)用在 v0.19.0 發(fā)布時被那么多人吐槽。流式 + 工具調(diào)用 + 特殊分隔符,這三個東西疊在一起,邊界條件多到爆炸。如果你在用 Gemma 4 做 function calling,v0.19.1 是必升版本。
三、Gemma 4 量化 MoE:顯存殺手終于被馴服了

Gemma 4 的 26B MoE 模型(實際激活 4B)跑起來并不重,但完整加載仍然需要不少顯存。v0.19.1 正式支持了量化 MoE:

  • FP8 動態(tài)量化 (W8A8):RedHat 團隊已經(jīng)發(fā)布了現(xiàn)成的量化模型 gemma-4-26B-A4B-it-FP8-Dynamic

  • NVFP4 量化 (W4A4):更激進的壓縮,gemma-4-26B-A4B-it-NVFP4

對應(yīng)的 llm-compressor 也同步更新了,支持 Gemma 4 MoE 的專家級校準(zhǔn)和量化流程。

四、Gemma 4 Eagle3 推測解碼支持

上篇文章我詳細(xì)講了 vLLM v0.19.0 新增的隱藏狀態(tài)提取功能

v0.19.1 把這個能力擴展到了 Gemma 4:

  • Gemma4Model 繼承了 EagleModelMixin ,支持輔助隱藏狀態(tài)的逐層收集

  • Gemma4ForCausalLMGemma4ForConditionalGeneration (多模態(tài)包裝器)都實現(xiàn)了 SupportsEagle3 接口

  • 在推測解碼配置驗證的模型白名單中加入了 gemma4

這意味著你現(xiàn)在可以用上篇介紹的那套流程,為 Gemma 4 訓(xùn)練專屬的 Eagle3 草稿模型,實現(xiàn)定制化的推測解碼加速。

五、Gemma 4 PT 模型的 token 重復(fù)問題

這個 bug 專門針對 Gemma 4 的預(yù)訓(xùn)練模型(不帶 -it 后綴的那些)

問題根源:預(yù)訓(xùn)練模型沒有 chat template,走的是原始 completions 接口。但 Gemma 4 的 ProcessingInfo 默認(rèn)設(shè)置了 add_special_tokens=False——這個設(shè)置對 IT(指令微調(diào))模型是對的,因為 chat template 渲染時已經(jīng)加了 BOS token???PT 模型沒有 template,BOS token 就丟了。

缺少 BOS token 的后果:模型輸出開始瘋狂重復(fù)。

修復(fù)方式:動態(tài)檢測模型是否有 chat_template,沒有的話自動設(shè) add_special_tokens=True,確保 BOS token 被正確注入。

六、Kimi-K2.5 媒體占位符修復(fù)

這個跟 Gemma 4 無關(guān),但也值得提一嘴

月之暗面的 Kimi-K2.5 模型的 config.json 里,media_placeholder_token_id 寫的是 163605,但 tokenizer 實際映射的 <|media_pad|> ID 是 163602

為什么不一致?因為 Kimi-K2.5 沒有附帶 tokenizer.json,Transformers 從 tiktoken 自動轉(zhuǎn)換時,特殊 token 的 ID 被悄悄壓縮了。

修復(fù)方式:在初始化時從 tokenizer 重新解析 token ID,如果和 config 不一致就自動修正。

升級建議

如果你不用 Gemma 4,v0.19.0 到 v0.19.1 的變化對你幾乎沒有影響,可以按需升級

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
生吞A4紙,毆打執(zhí)法人員!拼多多暴力抗法細(xì)節(jié)曝光

生吞A4紙,毆打執(zhí)法人員!拼多多暴力抗法細(xì)節(jié)曝光

說財貓
2026-04-20 18:03:02
山東男子當(dāng)街將70歲老母雙腿打斷,得知真相后,眾人都說老母該死

山東男子當(dāng)街將70歲老母雙腿打斷,得知真相后,眾人都說老母該死

神奇的錘子
2024-09-02 16:01:35
廣東隊96-106不敵山西隊,徐杰表現(xiàn)引媒體廣泛討論

廣東隊96-106不敵山西隊,徐杰表現(xiàn)引媒體廣泛討論

五姑娘臺球
2026-04-20 22:52:52
網(wǎng)購?fù)晔O碌摹翱爝f氣柱袋”都能拿來干嘛?網(wǎng)友的點子,絕了

網(wǎng)購?fù)晔O碌摹翱爝f氣柱袋”都能拿來干嘛?網(wǎng)友的點子,絕了

美家指南
2026-04-20 16:05:59
越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

云舟史策
2026-04-20 07:21:35
“劉儀偉,我們的百億去哪了?”大片投資騙局受害人聯(lián)名質(zhì)問

“劉儀偉,我們的百億去哪了?”大片投資騙局受害人聯(lián)名質(zhì)問

文娛春秋Plus
2026-04-20 09:00:08
澳洲神話破滅!大批華人集體回國?失業(yè)率飆升!留學(xué)生暴跌! 移民光環(huán)不再

澳洲神話破滅!大批華人集體回國?失業(yè)率飆升!留學(xué)生暴跌! 移民光環(huán)不再

澳洲紅領(lǐng)巾
2026-04-20 13:46:42
復(fù)旦大學(xué)兒科醫(yī)院發(fā)表NEJM論著:不建議使用糖皮質(zhì)激素疊加治療兒童川崎病

復(fù)旦大學(xué)兒科醫(yī)院發(fā)表NEJM論著:不建議使用糖皮質(zhì)激素疊加治療兒童川崎病

生物世界
2026-04-19 09:22:02
五種蛋白質(zhì),特別牛!雞蛋牛奶都比不了,常吃增強抵抗力

五種蛋白質(zhì),特別牛!雞蛋牛奶都比不了,常吃增強抵抗力

椰青美食分享
2026-04-20 06:28:43
大連男子與家人在莊河爬山,8歲兒子突然說:“爸爸,這座山下有黃金!”

大連男子與家人在莊河爬山,8歲兒子突然說:“爸爸,這座山下有黃金!”

環(huán)球網(wǎng)資訊
2026-04-20 19:39:17
剛剛,全線跳水!伊朗,突然宣布

剛剛,全線跳水!伊朗,突然宣布

中國基金報
2026-04-20 16:23:10
初中的幾個潛規(guī)則:初一成績就中下,甚至倒數(shù)的,基本跟高中無緣

初中的幾個潛規(guī)則:初一成績就中下,甚至倒數(shù)的,基本跟高中無緣

好爸育兒
2026-04-20 15:00:49
土耳其美女來中國旅游,回國后大哭,坦言土耳其與中國差距太大了

土耳其美女來中國旅游,回國后大哭,坦言土耳其與中國差距太大了

千秋歷史
2026-04-08 20:11:37
我發(fā)現(xiàn)一個殘酷真相:孩子長大后,最怨恨的不是管太嚴(yán)的父母……

我發(fā)現(xiàn)一個殘酷真相:孩子長大后,最怨恨的不是管太嚴(yán)的父母……

新東方家庭教育
2026-04-20 11:10:07
美日徹底慌了!日本軍艦闖臺海,中國解放軍把軍艦開到家門口!

美日徹底慌了!日本軍艦闖臺海,中國解放軍把軍艦開到家門口!

咣當(dāng)?shù)厍?/span>
2026-04-20 19:44:03
珍妮-巴斯:我希望詹姆斯在湖人退役,也許他想悄無聲息地退役

珍妮-巴斯:我希望詹姆斯在湖人退役,也許他想悄無聲息地退役

懂球帝
2026-04-21 01:19:09
臺軍到底能不能打?7萬字告訴你答案

臺軍到底能不能打?7萬字告訴你答案

述策
2026-04-20 11:08:57
機器人跑半馬破人類紀(jì)錄:一場精心設(shè)計的"勝利"

機器人跑半馬破人類紀(jì)錄:一場精心設(shè)計的"勝利"

Ping值焦慮
2026-04-20 02:53:18
美媒感慨:要不是中國還在反抗特朗普,幾乎全世界都向他投降了

美媒感慨:要不是中國還在反抗特朗普,幾乎全世界都向他投降了

正經(jīng)的燒杯1
2026-04-20 22:08:46
大量硼砂,別再給家里人吃了!這10類食物最易摻硼砂,超危險

大量硼砂,別再給家里人吃了!這10類食物最易摻硼砂,超危險

笑熬漿糊111
2026-04-13 00:05:12
2026-04-21 06:27:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

家居
健康
親子
教育
房產(chǎn)

家居要聞

自然慢調(diào) 慢享時光

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

親子要聞

居家防夾刻不容緩,多名兒童在家玩鬧時手指被夾斷

教育要聞

“真大方,還拍給外人看”,女兒蹭枕頭,家長放網(wǎng)上,網(wǎng)友卻毛了

房產(chǎn)要聞

大規(guī)模商改??!海口西海岸,這波項目要贏麻了!

無障礙瀏覽 進入關(guān)懷版