国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek倒逼vLLM升級(jí)!芯片內(nèi)卷、MoE橫掃千模,vLLM核心維護(hù)者獨(dú)家回應(yīng):如何憑PyTorch坐穩(wěn)推理“鐵王座”

0
分享至


作者 | 褚杏娟 、Tina

vLLM 的故事始于加州大學(xué)伯克利分校 Sky Computing Lab 里一群充滿熱情的學(xué)生與研究員。2023 年,他們開源了核心的 PagedAttention 技術(shù),vLLM 在短短一年多內(nèi) GitHub Star 數(shù)突破 4 萬,并迅速增長至如今的 6.5 萬,如今已成為全球科技公司首選的推理引擎。

在這一成功背后,Neural Magic 扮演了關(guān)鍵角色。這家由 MIT 研究員創(chuàng)立的企業(yè),在巨頭林立的 AI 優(yōu)化領(lǐng)域中,以獨(dú)特的“免費(fèi)平臺(tái) + 開源工具”策略脫穎而出。通過深入貢獻(xiàn) vLLM,Neural Magic 不僅構(gòu)建了成熟的企業(yè)級(jí)推理堆棧,還持續(xù)推動(dòng)模型優(yōu)化研究,維護(hù)著可直接與 vLLM 集成的預(yù)優(yōu)化模型庫。

正是其在 vLLM 開源社區(qū)的深厚積累與工程實(shí)力,吸引了紅帽的注意。2024 年 11 月,紅帽正式收購 Neural Magic,并將包括 vLLM 核心維護(hù)者 Michael Goin 在內(nèi)的核心團(tuán)隊(duì)納入旗下。Michael 在優(yōu)化推理性能、最大化 CPU/GPU 效能方面擁有超過十年的經(jīng)驗(yàn)。在 vLLM 社區(qū),他專注于內(nèi)核調(diào)優(yōu)、模型壓縮及系統(tǒng)優(yōu)化等工作。

紅帽成為重要參與者之后,AI 大模型領(lǐng)域發(fā)生了非常多變化。期間,vLLM 如何應(yīng)對(duì)各種變化和挑戰(zhàn)?紅帽又如何幫助 vLLM 保持競(jìng)爭(zhēng)優(yōu)勢(shì)?我們采訪了紅帽首席工程師、vLLM 核心貢獻(xiàn)者 Michael Goin 和紅帽亞太 CTO 辦公室首席架構(gòu)師兼大中華區(qū) CTO 張家駒,他們?cè)敿?xì)介紹了 vLLM 的發(fā)展近況以及這期間的一些思考。


紅帽首席工程師、vLLM 核心貢獻(xiàn)者 Michael Goin

從 Llama 轉(zhuǎn)向 DeepSeek

Michael 團(tuán)隊(duì)作為 vLLM 項(xiàng)目的“內(nèi)核團(tuán)隊(duì)”,始終專注于集成與開發(fā)高性能推理內(nèi)核,支撐著整個(gè)項(xiàng)目在快速迭代中保持領(lǐng)先。

隨著各類模型競(jìng)相發(fā)布,vLLM 的開發(fā)節(jié)奏也持續(xù)加快。尤其是 DeepSeek R1 的發(fā)布,推動(dòng)團(tuán)隊(duì)從聚焦 Llama 系列模型效率優(yōu)化,轉(zhuǎn)向全力投入 DeepSeek 模型相關(guān)特性的優(yōu)化中。

為迅速響應(yīng) DeepSeek 的新特性,整個(gè) 0.7.2 版本的開發(fā)周期都很緊湊,此外還高效支持了 Qwen 2.5 VL 并引入了 Transformers backend,使用戶能夠直接運(yùn)行任意 Hugging Face 模型。隨后的 0.7.3 版本則成為一次規(guī)模更大的更新,短時(shí)間內(nèi)有眾多貢獻(xiàn)者參與,開發(fā)過程高效且緊張。

該版不僅為 DeepSeek 啟用了多 Token 預(yù)測(cè)(MTP)、MLA 注意力等優(yōu)化,還擴(kuò)展了對(duì) AMD 硬件的支持與調(diào)優(yōu)。此外,專家并行在 DeepSeek 之前并不常見,團(tuán)隊(duì)也因此推動(dòng)了 vLLM 從支持張量并行、流水線并行到支持專家并行的演進(jìn)。Michael 還將 DeepSeek 開源的一系列高性能工具,如 DeepGEMM、DeepEP、專家并行負(fù)載均衡等,系統(tǒng)化地融入 vLLM 生態(tài)。


面向推理場(chǎng)景,團(tuán)隊(duì)不斷擴(kuò)充高性能內(nèi)核庫,涵蓋定制版 Triton、CUTLASS、CUDA 內(nèi)核、HIP 內(nèi)核等,還包括各種量化支持、眾多定制內(nèi)核實(shí)現(xiàn)等。

DeepSeek 的復(fù)雜性反而為團(tuán)隊(duì)帶來了優(yōu)化與泛化的契機(jī)。Michael 指出,團(tuán)隊(duì)將原本主要用于 DeepSeek 私有環(huán)境的技術(shù),轉(zhuǎn)化為可持續(xù)、通用化的實(shí)現(xiàn),使其能服務(wù)更多基于 MoE 架構(gòu)的模型。他強(qiáng)調(diào),vLLM 的某些演進(jìn)正是受 DeepSeek 所推動(dòng),并非因?yàn)?DeepSeek 模型本身運(yùn)行更快,而是其開源的一系列先進(jìn)技術(shù)為整個(gè)生態(tài)帶來了提升。

這個(gè)過程中,DeepSeek 揭示了大模型高效部署的可行路徑,而 vLLM 團(tuán)隊(duì)則將這些經(jīng)驗(yàn)復(fù)現(xiàn)并通用化,構(gòu)建出更強(qiáng)大的推理框架?!拔覀兣c DeepSeek 合作,將優(yōu)秀算法與底層框架的實(shí)現(xiàn)相結(jié)合,構(gòu)建出更高效的推理框架,真正實(shí)現(xiàn)了強(qiáng)強(qiáng)聯(lián)合?!盡ichael 總結(jié)道。

除了主導(dǎo) DeepSeek V3 的整合,Michael 還帶領(lǐng)團(tuán)隊(duì)完成了 GPT-OSS、Qwen、Kimi 等多個(gè)模型的適配與優(yōu)化。

一個(gè)框架如何支持各家硬件

vLLM 團(tuán)隊(duì)的另一個(gè)核心使命,是構(gòu)建開放、高效的硬件推理生態(tài)。他們不僅廣泛支持各類主流芯片,更深度參與到新硬件的架構(gòu)設(shè)計(jì)與性能優(yōu)化中,推動(dòng)整個(gè)社區(qū)向多硬件兼容的方向演進(jìn)。

過去幾個(gè)月,Michael 一直在與 NVIDIA 共同推進(jìn) Blackwell 芯片的支持工作,優(yōu)化 B200 相關(guān)性能。團(tuán)隊(duì)成員還與 AMD 團(tuán)隊(duì)保持緊密協(xié)作,確保 AMD 在 vLLM 中的性能表現(xiàn)。Michael 還與 Google TPU 團(tuán)隊(duì)緊密合作一年多,完成了多次版本發(fā)布。最近,Michael 還作為最高決策者,參與設(shè)計(jì)了整體沐曦的支持架構(gòu)。

以與沐曦的合作為例,可以看到紅帽團(tuán)隊(duì)的參與程度之深:在項(xiàng)目非常早期階段,Michael 便與沐曦團(tuán)隊(duì)共同討論支持框架的設(shè)計(jì)方向。他主導(dǎo)高層架構(gòu),而團(tuán)隊(duì)中的社區(qū)貢獻(xiàn)者則深入細(xì)節(jié),甚至專程赴上海進(jìn)行面對(duì)面技術(shù)對(duì)接。雙方還專門在 Slack 上創(chuàng)建了頻道,組建起一個(gè)跨公司的“線上聯(lián)合工作組”,確保支持工作持續(xù)高效推進(jìn)。

整個(gè)流程體現(xiàn)了團(tuán)隊(duì)對(duì)生態(tài)建設(shè)的嚴(yán)謹(jǐn)投入:他們先為硬件伙伴指明實(shí)現(xiàn)方向;待沐曦完成相應(yīng)工作后,再共同進(jìn)行代碼審查與迭代優(yōu)化。例如,協(xié)助沐曦將最初的支持方案,通過插件機(jī)制重構(gòu)得更為優(yōu)雅和可維護(hù)。在 GitHub 上,大量的修訂建議(RC)經(jīng)過團(tuán)隊(duì)的仔細(xì)審核?,F(xiàn)在,Michael 手中持有一份很長的待審核列表。

這種深度協(xié)作,最終讓雙方共贏。正如張家駒所言:“對(duì)沐曦而言,他們找到了讓社區(qū)支持其硬件的優(yōu)雅方式,這意味著未來的維護(hù)工作量將比以往更少。對(duì)社區(qū)而言,我們也推動(dòng)了一個(gè)支持不同硬件的生態(tài)系統(tǒng)的發(fā)展?!?/p>

PyTorch 之重

在異構(gòu)計(jì)算時(shí)代,vLLM 之所以能廣泛支持從 NVIDIA、AMD 到 Google TPU 乃至國內(nèi)眾多芯片,其核心戰(zhàn)略在于:深度擁抱 PyTorch,將其作為連接上層框架與底層硬件的“最大公約數(shù)”。

從技術(shù)棧來看,硬件之上是 PyTorch,PyTorch 之上才是 vLLM。這意味著,只要硬件廠商提供了對(duì) PyTorch 的良好支持,那么適配 vLLM 的工作就已完成大半。vLLM 中的模型定義幾乎完全基于 PyTorch 編寫,僅對(duì)注意力機(jī)制等少數(shù)關(guān)鍵模塊保留了可替換的定制化空間。

PyTorch 自身已提供 SDPA 注意力實(shí)現(xiàn),而 vLLM 在此基礎(chǔ)上還支持十余種其他硬件 backend 的注意力實(shí)現(xiàn),比如 NVIDIA 的 FlashAttention 與 FlashInfer、AMD 的 ROCm Attention 與 Triton Attention、Google TPU 的 Pathways Attention,以及昇騰 NPU 的 Attention 等。

正是通過這種統(tǒng)一的 PyTorch 抽象層,vLLM 得以集成各家硬件的加速實(shí)現(xiàn)。只要硬件供應(yīng)商提供適用于 PyTorch 的集成或分發(fā)版本,絕大部分(約 90%)工作就已自然完成。而剩余約 10% 主要涉及對(duì) PyTorch 中效率較低的部分進(jìn)行定制優(yōu)化,例如融合 MoE、矩陣乘法量化以及特定的注意力實(shí)現(xiàn)。

Michael 解釋稱,vLLM 之所以深度依賴 PyTorch,是因?yàn)閹缀跛杏布?yīng)商都有充分理由基于 PyTorch 進(jìn)行開發(fā):它不僅用于訓(xùn)練,也用于推理,并且與絕大多數(shù)開源軟件深度集成。

他進(jìn)一步表示,PyTorch 的主要競(jìng)爭(zhēng)者是 Google 的 JAX,但 JAX 的開源程度相對(duì)較低,比如其 XLA 編譯器 backend 并未開放,實(shí)際生態(tài)普及度遠(yuǎn)不及 PyTorch。正因?yàn)?PyTorch 被視為從機(jī)器學(xué)習(xí)到硬件層的最佳抽象框架,vLLM 才緊密依托其基礎(chǔ)架構(gòu),并圍繞高效大語言模型推理進(jìn)行功能擴(kuò)展,這也部分解釋了 vLLM 選擇加入 PyTorch 基金會(huì)的原因。

張家駒也指出,PyTorch 的應(yīng)用如此廣泛,以至于任何硬件廠商均主動(dòng)適配 PyTorch 生態(tài)。像國內(nèi)各類芯片廠商也正是通過 PyTorch 這一路徑進(jìn)行集成與適配的。

簡(jiǎn)言之,vLLM 不直接面對(duì)紛繁復(fù)雜的硬件技術(shù)棧,而是依托 PyTorch 這一成熟、開放的中間層,與硬件廠商及社區(qū)協(xié)同共建。這既降低了多硬件支持的復(fù)雜度,也讓整個(gè)生態(tài)能在統(tǒng)一的基礎(chǔ)上持續(xù)演進(jìn)與優(yōu)化。

NVIDIA 所謂護(hù)城河還很堅(jiān)固?

那我們自然需要面對(duì)一個(gè)更深層的問題:如果說 CUDA 是 GPU 加速的“引擎”,PyTorch 就是調(diào)用它的“框架”,那么新興硬件廠商究竟該如何追趕,才能達(dá)到與 NVIDIA CUDA 同等的高效與易用水平?

在 Michael 看來,這是一個(gè)充滿挑戰(zhàn)的命題。核心難點(diǎn)在于,即便最終能在 PyTorch 層實(shí)現(xiàn)功能兼容,其效率往往難以匹敵 NVIDIA 經(jīng)過十?dāng)?shù)年深度打磨的 CUDA 生態(tài)。“CUDA 對(duì)其他硬件而言并非一種可直接遷移的語言,”他指出,這本質(zhì)上是硬件抽象與軟件生態(tài)的長期累積差距。

不過,路徑依然存在。

Michael 指出,在硬件抽象層,采用類似 Triton 這樣的領(lǐng)域特定語言是一種解決方案:只需用 Triton 編寫一次算法,便可在多種硬件平臺(tái)上運(yùn)行。但該模式也存在局限:即使軟件最終能夠支持所有硬件 backend,內(nèi)核開發(fā)人員仍需投入大量手動(dòng)調(diào)試與內(nèi)核開發(fā)工作,針對(duì)具體硬件進(jìn)行深度調(diào)優(yōu)才能實(shí)現(xiàn)高效率。

而張家駒分析稱,實(shí)現(xiàn)與 CUDA 同等能力,有多種技術(shù)路徑。例如沐曦選擇完全兼容 CUDA API 的路線,此外也可借助領(lǐng)域特定語言通過不同的 backend 編譯實(shí)現(xiàn)跨硬件運(yùn)行,如 Triton 就是一種編寫 GPU 算子的新興語言。但這本質(zhì)上仍是一種需要大量人工優(yōu)化與適配的模式。

但轉(zhuǎn)折點(diǎn)也正在出現(xiàn)。Michael 敏銳地指出,新型注意力算法正在不斷涌現(xiàn),對(duì)于這些嶄新技術(shù),其他硬件供應(yīng)商有可能實(shí)現(xiàn)超越。

“它們非常新穎,供應(yīng)商或許能提供比 CUDA 更快速、更原生的支持。例如 Kimi 提出的 KDA 算法,便率先通過 Triton 獲得支持。在新算法領(lǐng)域,其他廠商有時(shí)反而能更敏捷地響應(yīng)?!盡ichael 說道。

隨著模型供應(yīng)商不斷探索比標(biāo)準(zhǔn) Transformer 更高效的新架構(gòu),硬件廠商也獲得了更大的靈活性與快速響應(yīng)空間。就像 Michael 的那個(gè)比喻:這就像體育競(jìng)賽,一切又回到了同一條起跑線。

多模態(tài)支持

在軟件與硬件生態(tài)持續(xù)融合的背景下,vLLM 并未止步于優(yōu)化單一模態(tài)的推理。當(dāng)多模態(tài) AI 浪潮席卷而來時(shí),團(tuán)隊(duì)將 vLLM 從一個(gè)純文本推理引擎,全面升級(jí)為一個(gè)支持全模態(tài)生成與理解的統(tǒng)一服務(wù)平臺(tái)。可以說,多模態(tài)模型架構(gòu)如今改變了 vLLM 的架構(gòu)。

“無論是文生圖、文檔理解,還是其他生成任務(wù),其底層均依賴于大模型推理,因此都可以通過 vLLM 進(jìn)行處理?!盡ichael 指出。

為此,團(tuán)隊(duì)對(duì) vLLM v1 版本進(jìn)行了徹底重構(gòu),其中一項(xiàng)關(guān)鍵創(chuàng)新是多模態(tài)前綴緩存(multimodal prefix caching)。傳統(tǒng)上,vLLM 通過 Page Attention 復(fù)用文本 token 的鍵值緩存;如今,這一機(jī)制已擴(kuò)展至圖像、音頻等任意模態(tài)輸入?,F(xiàn)在團(tuán)隊(duì)維護(hù)的是多模態(tài)緩存,重復(fù)請(qǐng)求的處理效率因此大幅提升。

為進(jìn)一步支撐大規(guī)模推理部署,團(tuán)隊(duì)實(shí)現(xiàn)了編碼器解耦技術(shù),將視覺、音頻編碼器與語言模型 backbone 解耦。這既符合多模態(tài)模型的結(jié)構(gòu)特點(diǎn),也為超大規(guī)模推理場(chǎng)景提供了極致的彈性與資源利用率。

今年 12 月,這項(xiàng)演進(jìn)迎來了一個(gè)里程碑:vLLM-Omni 作為其首個(gè)“全模態(tài)”推理框架正式發(fā)布,它將文本、圖像、音頻、視頻的統(tǒng)一生成從概念變?yōu)榭陕涞氐纳a(chǎn)級(jí)代碼。Omni 并非在原有框架上簡(jiǎn)單封裝,而是引入了一套完全解耦的流水線架構(gòu),讓不同階段按需分配資源,并通過統(tǒng)一調(diào)度銜接。一個(gè) omni-modality 推理請(qǐng)求大致會(huì)經(jīng)過模態(tài)編碼器、LLM 核心與模態(tài)生成器三類組件,通過管線調(diào)度在不同 GPU/ 節(jié)點(diǎn)間協(xié)同工作。


這一進(jìn)化極大拓展了 vLLM 的應(yīng)用邊界。如今,vLLM 作為一個(gè)推理引擎與服務(wù)器,其支持的范圍十分廣泛:它不僅能運(yùn)行文本生成模型,還支持多模態(tài)理解與生成、嵌入模型(用于 RAG 與向量數(shù)據(jù)庫)、智能體編程(驅(qū)動(dòng) Claude Code 等工具),甚至在企業(yè)級(jí)層面,可應(yīng)用于文檔理解、OCR、推薦系統(tǒng)、客服、編程輔助乃至缺陷檢測(cè)等判別式任務(wù)。此外,在強(qiáng)化學(xué)習(xí)等訓(xùn)練流程中,最終部署的推理模型、思維模型或工具調(diào)用模型,同樣可以構(gòu)建在或內(nèi)置于 vLLM 之上。

“vLLM 的核心角色,是一個(gè)高效的推理引擎與服務(wù)器,”Michael 總結(jié)道,“這類似于 Web 服務(wù)器托管各種網(wǎng)頁應(yīng)用(如 HTML 或 JavaScript 頁面)的邏輯。vLLM 需要承載各種各樣的模型與應(yīng)用,并致力于在各種使用場(chǎng)景下,無論是應(yīng)對(duì)一千名還是十萬名用戶的訪問,都能提供優(yōu)異的性能?!?/p>

從統(tǒng)一硬件抽象層到定義全模態(tài)推理架構(gòu),vLLM 正穩(wěn)步推進(jìn)其愿景:成為 AI 時(shí)代最通用、最高效的推理基礎(chǔ)架構(gòu)。

如何保持競(jìng)爭(zhēng)優(yōu)勢(shì)

隨著 vLLM 在過去兩年半中逐漸發(fā)展成熟,一個(gè)趨勢(shì)越來越明顯:無論是去年還是今年,許多公司都開始將更多修改回饋至上游。

“這是因?yàn)?vLLM 本身已經(jīng)有了大量的改進(jìn),這些改進(jìn)對(duì)他們私下開發(fā)的版本來說也是有增益性的,所以他們希望能更頻繁地與上游同步。他們開始愿意把自己定制的改動(dòng) upstream 到項(xiàng)目中,并且更傾向于直接使用 upstream vLLM,而不是開發(fā)一個(gè)非常不同的私有版本。我們已經(jīng)在多個(gè)案例中看到了這種情況的發(fā)生。”Michael 解釋道。

這一良性循環(huán)的核心驅(qū)動(dòng)力,在于“速度”。

“我們的上游版本有一個(gè)獨(dú)特優(yōu)勢(shì):就是和眾多領(lǐng)先的模型實(shí)驗(yàn)室和公司合作,快速收集他們的反饋,有 bug 就去修,修完之后也會(huì)放回社區(qū),讓更多人看到?!睆埣荫x補(bǔ)充道。vLLM 的合作名單涵蓋了從 DeepSeek、Qwen、字節(jié)、騰訊,到 LinkedIn、亞馬遜、Mistral、Azure 和 Snowflake 等。

“了解他們可能如何使用 vLLM,以及未來模型架構(gòu)可能對(duì) vLLM 提出哪些改進(jìn)需求,通過開發(fā)這些功能,來確保 vLLM 始終保持競(jìng)爭(zhēng)力,緊跟行業(yè)發(fā)展?!睆埣荫x說道。

用戶越多,反饋就越快,迭代也越迅猛。當(dāng)社區(qū)版本的迭代速度遠(yuǎn)超私有分支時(shí),即使后者曾開發(fā)某些獨(dú)有功能,也會(huì)很快發(fā)現(xiàn)社區(qū)版本的功能更多,可能有些功能與其類似。為了保留自己的少量修改而放棄社區(qū)的更多功能,顯然得不償失。張家駒指出。

據(jù)張家駒觀察,去年很多人可能還用自己的版本做一些小開發(fā),但今年在發(fā)現(xiàn)社區(qū)版本比他們“跑”得快很多后,大家都更傾向于使用社區(qū)版本。這種“速度優(yōu)勢(shì)”正推動(dòng) vLLM 加速成為大模型推理領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。

one more thing:回應(yīng)開發(fā)者問題

作為一個(gè)每月下載量超 20 萬次的熱門推理框架,vLLM 的廣泛采用也使其必須直面生產(chǎn)環(huán)境中的真實(shí)挑戰(zhàn)。近期,不少開發(fā)者集中反饋了啟動(dòng)速度偏慢的問題。

對(duì)此,Michael 回應(yīng)道,團(tuán)隊(duì)大約從幾個(gè)月前已經(jīng)開始明確著手解決。團(tuán)隊(duì)不僅在 GitHub 上建立了專項(xiàng)跟蹤與“啟動(dòng)體驗(yàn)優(yōu)化”項(xiàng)目,還在 Slack 開設(shè)了專門頻道,以持續(xù)收集并響應(yīng)用戶的實(shí)際痛點(diǎn)。

Michael 解釋,導(dǎo)致啟動(dòng)時(shí)間較長的因素有幾個(gè),其一是 CUDA graph capture time:為了獲得最佳性能,開發(fā)者希望能捕獲盡可能多的 CUDA graph,但每多捕獲一個(gè) graph,啟動(dòng)時(shí)間也會(huì)增加,因此這需要做好權(quán)衡。另一個(gè)因素是 torch.compile,它本身也會(huì)需要一定的時(shí)間。開發(fā)團(tuán)隊(duì)已推動(dòng) torch.compile 團(tuán)隊(duì)重視啟動(dòng)時(shí)間問題,也取得了一些顯著改進(jìn)。

另外,vLLM 團(tuán)隊(duì)還打造了一些工具和指南,指導(dǎo)用戶如何處理冷啟動(dòng)與熱啟動(dòng)的差異,即模型是否首次運(yùn)行與部署。團(tuán)隊(duì)設(shè)置了緩存目錄,用于存儲(chǔ) torch.compile 的輸出結(jié)果、Triton 的輸出結(jié)果以及其他編譯或初始化的內(nèi)容。若開發(fā)者正在部署單個(gè)模型,并計(jì)劃擴(kuò)展至多個(gè)副本,團(tuán)隊(duì)建議在部署中復(fù)制該緩存目錄以實(shí)現(xiàn)熱啟動(dòng),這比冷啟動(dòng)快得多。

結(jié)束語

在 vLLM 這一由社區(qū)驅(qū)動(dòng)的項(xiàng)目中,紅帽以其深厚的開源基因扮演著重要的角色。正如張家駒所說:“紅帽全球約有兩萬名員工,其中可能有一兩千名工程師完全在社區(qū)中做貢獻(xiàn)。他們貢獻(xiàn)的工作并不針對(duì)紅帽的商業(yè)方面,做的事情非常中立?!?/p>

Michael 進(jìn)一步指出,vLLM 的治理結(jié)構(gòu)本身高度分散,共有 15 到 20 個(gè)不同組織的成員擔(dān)任提交者或維護(hù)者。紅帽正是在這樣的多元生態(tài)中,以其工程實(shí)力與對(duì)開源原則的堅(jiān)持發(fā)揮影響力。

紅帽如此投入 vLLM,源于一個(gè)戰(zhàn)略判斷:推理是 AI 應(yīng)用成本的核心環(huán)節(jié)。例如,若 DeepSeek 以其公開的成本效率托管模型,企業(yè)也必然期望在本地部署中達(dá)到同等水平。實(shí)現(xiàn)這種性能,需要 vLLM 集成最前沿的模型優(yōu)化,而紅帽正致力于此。

最具代表性的貢獻(xiàn)是紅帽主導(dǎo)推動(dòng)了 vLLM v1 版本的架構(gòu)重構(gòu)。這次升級(jí)不僅為未來系統(tǒng)設(shè)計(jì)奠定了基礎(chǔ),更實(shí)質(zhì)性地推動(dòng)了社區(qū)標(biāo)準(zhǔn)化進(jìn)程。例如,與 PyTorch torch.compile 團(tuán)隊(duì)長達(dá)一年半的合作,優(yōu)化了上游框架以更好支持 vLLM 的高階場(chǎng)景?!斑@些工作讓支持新硬件、新模型變得更容易,”張家駒解釋道,“紅帽力圖把這個(gè)標(biāo)準(zhǔn)化的層做得越來越厚、越來越穩(wěn)定?!?/p>

面向更加多變的未來,紅帽和 vLLM 如何守住“推理服務(wù)標(biāo)準(zhǔn)”的地位,我們拭目以待。

AI 重塑組織的浪潮已至,Agentic 企業(yè)時(shí)代正式開啟!當(dāng) AI 不再是單純的輔助工具,而是深度融入業(yè)務(wù)核心、驅(qū)動(dòng)組織形態(tài)與運(yùn)作邏輯全面革新的核心力量。

把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),12 月 19 日 - 20 日,AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)(北京站) 即將重磅啟幕!本屆大會(huì)精準(zhǔn)錨定行業(yè)前沿,聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構(gòu)建起可信賴、可規(guī)?;?、可商業(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長天花板的核心引擎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
兩市成交額歷史第5次突破3萬億

兩市成交額歷史第5次突破3萬億

財(cái)聯(lián)社
2026-01-09 14:54:10
特朗普的支持者稱,若巴倫迎娶丹麥公主,格陵蘭可作為嫁妝贈(zèng)美國

特朗普的支持者稱,若巴倫迎娶丹麥公主,格陵蘭可作為嫁妝贈(zèng)美國

遍體鱗傷為我證明
2026-01-09 08:18:58
上海國盛(集團(tuán))有限公司原副總裁陳為被“雙開”

上海國盛(集團(tuán))有限公司原副總裁陳為被“雙開”

界面新聞
2026-01-09 17:03:17
收評(píng):滬指漲0.92%站上4100點(diǎn) 兩市成交額突破3萬億大關(guān)

收評(píng):滬指漲0.92%站上4100點(diǎn) 兩市成交額突破3萬億大關(guān)

財(cái)聯(lián)社
2026-01-09 15:04:43
白宮“購島”方案流出:向格陵蘭人一次性付款,以說服他們脫離丹麥并可能加入美國,每人或得1萬-10萬美元

白宮“購島”方案流出:向格陵蘭人一次性付款,以說服他們脫離丹麥并可能加入美國,每人或得1萬-10萬美元

都市快報(bào)橙柿互動(dòng)
2026-01-09 08:14:32
剛剛,谷歌反超蘋果成全球第二大市值公司!而救它的,竟然是一個(gè)連名字都沒有的產(chǎn)品

剛剛,谷歌反超蘋果成全球第二大市值公司!而救它的,竟然是一個(gè)連名字都沒有的產(chǎn)品

AI范兒
2026-01-09 09:44:00
涉嫌嚴(yán)重違紀(jì)違法!丹陽市水利局原黨組副書記、副局長許立新接受紀(jì)律審查和監(jiān)察調(diào)查

涉嫌嚴(yán)重違紀(jì)違法!丹陽市水利局原黨組副書記、副局長許立新接受紀(jì)律審查和監(jiān)察調(diào)查

揚(yáng)子晚報(bào)
2026-01-08 17:48:33
59年,赫魯曉夫當(dāng)眾呵斥陳毅:你是中國元帥,但政治上得聽我的!

59年,赫魯曉夫當(dāng)眾呵斥陳毅:你是中國元帥,但政治上得聽我的!

古書記史
2026-01-09 00:17:48
沖突升級(jí)!美抓捕影子油輪與俄核潛艇大西洋對(duì)峙,強(qiáng)行登船扣船

沖突升級(jí)!美抓捕影子油輪與俄核潛艇大西洋對(duì)峙,強(qiáng)行登船扣船

史政先鋒
2026-01-08 12:50:30
特朗普稱取消對(duì)委內(nèi)瑞拉第二波打擊

特朗普稱取消對(duì)委內(nèi)瑞拉第二波打擊

界面新聞
2026-01-09 17:28:08
中國向全世界曝光:美國4400顆衛(wèi)星,圍堵中國空間站,這是要干啥

中國向全世界曝光:美國4400顆衛(wèi)星,圍堵中國空間站,這是要干啥

趣文說娛
2026-01-08 18:49:48
買洗碗機(jī)遭丈夫砸家后續(xù):女子發(fā)聲,欠了20萬外債,更多內(nèi)幕曝光

買洗碗機(jī)遭丈夫砸家后續(xù):女子發(fā)聲,欠了20萬外債,更多內(nèi)幕曝光

甜檸聊史
2026-01-09 11:34:13
外媒稱伊朗出現(xiàn)“全國范圍”斷網(wǎng) 騷亂蔓延至首都

外媒稱伊朗出現(xiàn)“全國范圍”斷網(wǎng) 騷亂蔓延至首都

國際在線
2026-01-09 16:41:06
購洗碗機(jī)遭丈夫砸家后續(xù):女子回應(yīng)披露更多細(xì)節(jié),家當(dāng)下仍有外債

購洗碗機(jī)遭丈夫砸家后續(xù):女子回應(yīng)披露更多細(xì)節(jié),家當(dāng)下仍有外債

天天熱點(diǎn)見聞
2026-01-09 08:34:00
特朗普接受專訪:“我不需要國際法”

特朗普接受專訪:“我不需要國際法”

澎湃新聞
2026-01-09 13:57:08
突發(fā):伊朗大范圍斷網(wǎng)

突發(fā):伊朗大范圍斷網(wǎng)

中國能源網(wǎng)
2026-01-09 11:08:20
再次退讓:潛艇護(hù)衛(wèi)艦就在附近,坐視美國扣押掛俄羅斯國旗的油輪

再次退讓:潛艇護(hù)衛(wèi)艦就在附近,坐視美國扣押掛俄羅斯國旗的油輪

鷹眼Defence
2026-01-08 17:41:20
男子撞死一家三口被判死緩,被害方家屬發(fā)聲

男子撞死一家三口被判死緩,被害方家屬發(fā)聲

中國新聞周刊
2026-01-09 11:08:03
10歲白血病男孩豪豪病情加重 “王子請(qǐng)恢復(fù)健康”的呼喚再次響起

10歲白血病男孩豪豪病情加重 “王子請(qǐng)恢復(fù)健康”的呼喚再次響起

極目新聞
2026-01-09 17:18:52
已確認(rèn),是75歲的王石!

已確認(rèn),是75歲的王石!

財(cái)經(jīng)要參
2026-01-08 21:33:30
2026-01-09 18:12:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11920文章數(shù) 51689關(guān)注度
往期回顧 全部

科技要聞

市場(chǎng)偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

10歲抗癌"小王子"病情加重:用藥都已無效 不能吃飯

頭條要聞

10歲抗癌"小王子"病情加重:用藥都已無效 不能吃飯

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

英偉達(dá)的野心:做一套自動(dòng)駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

游戲
旅游
手機(jī)
家居
公開課

每天白賺10塊錢!上KK官方對(duì)戰(zhàn)平臺(tái)免費(fèi)玩DotA OMG4+2

旅游要聞

冬日入川,踏雪尋暖,赴一場(chǎng)冰與火的詩意邀約|長圖

手機(jī)要聞

消息稱奇鋐科技、安費(fèi)諾供應(yīng)蘋果折疊屏iPhone鉸鏈,兩家各占50%

家居要聞

木色留白 演繹現(xiàn)代自由

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版