国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

如何在Kubernetes上運(yùn)行AI/ML?

0
分享至

  在機(jī)器學(xué)習(xí)(ML)領(lǐng)域,訓(xùn)練出高性能模型只是第一步,真正的挑戰(zhàn)在于如何將模型快速、可靠且經(jīng)濟(jì)、高效地部署到生產(chǎn)環(huán)境中進(jìn)行推理。特別是在大規(guī)模場景下,GPU資源管理、延遲優(yōu)化、批處理策略、模型版本控制、可觀測性以及輔助服務(wù)(如預(yù)處理器、特征存儲(chǔ)庫和向量數(shù)據(jù)庫)的編排,都是亟待解決的難題。Kubernetes作為容器編排領(lǐng)域的佼佼者,為AI/ML應(yīng)用提供了一個(gè)可擴(kuò)展、可移植的平臺(tái),不僅能夠有效管理GPU等計(jì)算資源,還能自動(dòng)調(diào)整工作負(fù)載規(guī)模,以應(yīng)對(duì)批處理任務(wù)以及實(shí)時(shí)推理的不同需求。

  Kubernetes,一個(gè)為AI/ML高效分配資源的理想平臺(tái)

  Kubernetes通過其強(qiáng)大的調(diào)度能力,能夠高效分配GPU和其他計(jì)算資源,實(shí)現(xiàn)工作負(fù)載的緊密打包和自動(dòng)伸縮。同時(shí),還能協(xié)調(diào)包含模型服務(wù)器、預(yù)處理器、向量數(shù)據(jù)庫和特征存儲(chǔ)在內(nèi)的復(fù)雜系統(tǒng),確保低延遲端點(diǎn)的穩(wěn)定運(yùn)行。容器化技術(shù)為模型環(huán)境提供了可重復(fù)性和一致性,使得模型的持續(xù)集成與持續(xù)部署(CI/CD)成為可能。Kubernetes內(nèi)置的滾動(dòng)更新、流量分割以及指標(biāo)追蹤功能,進(jìn)一步增強(qiáng)了生產(chǎn)環(huán)境的安全性和可靠性。

  對(duì)于追求操作簡便性的團(tuán)隊(duì),托管端點(diǎn)服務(wù)或許是一個(gè)選擇,但在需要高度控制、可移植性、高級(jí)編排以及實(shí)時(shí)服務(wù)能力的場景下,Kubernetes無疑是首選。

  典型ML推理設(shè)置,KServe在Kubernetes上的應(yīng)用

  使用KServe在Kubernetes上進(jìn)行機(jī)器學(xué)習(xí)推理,有一個(gè)典型架構(gòu),那就是客戶端(如數(shù)據(jù)科學(xué)家、應(yīng)用程序或批處理作業(yè))通過Ingress向KServe的InferenceService發(fā)送請(qǐng)求。內(nèi)部,通過可選的Transformer組件負(fù)責(zé)預(yù)處理輸入數(shù)據(jù),預(yù)測器用來加載模型并提供預(yù)測功能,而可選的解釋器則提供模型洞察。模型工件從模型存儲(chǔ)中提取,并通過TensorFlow、PyTorch、scikit-learn、ONNX或Triton等運(yùn)行時(shí)進(jìn)行處理。整個(gè)系統(tǒng)運(yùn)行在Knative/Kubernetes之上,支持CPU和GPU計(jì)算層,并可與AWS、Azure、Google Cloud等云服務(wù)提供商集成。


  至于,MLFlow與KServe的集成如何操作?MLFlow是一個(gè)開源的機(jī)器學(xué)習(xí)框架,旨在解決模型從實(shí)驗(yàn)到生產(chǎn)過程中遇到的常見問題,如實(shí)驗(yàn)數(shù)據(jù)丟失、結(jié)果重現(xiàn)困難以及模型版本管理混亂。它通過跟蹤運(yùn)行情況、保存環(huán)境代碼和管理模型版本,為模型部署提供了有序的流程。MLFlow還支持將模型打包為Docker鏡像,便于分發(fā)到Kubernetes等服務(wù)平臺(tái)。

  MLFlow與Kubernetes的集成,有一個(gè)關(guān)鍵點(diǎn)需要注意,雖然MLFlow提供了基于FastAPI的推理服務(wù)器,并通過mlflow models build-docker命令支持容器化部署,但這種方法在大規(guī)模生產(chǎn)環(huán)境中可能不夠高效。FastAPI的輕量級(jí)特性使其難以應(yīng)對(duì)極端并發(fā)或復(fù)雜的自動(dòng)伸縮模式。相比之下,KServe(前身為KFServing)為TensorFlow、XGBoost、scikit-learn和PyTorch等主流機(jī)器學(xué)習(xí)庫提供了高性能、可擴(kuò)展且與框架無關(guān)的推理平臺(tái)。

  更好地托管AutoML,把Azure ML轉(zhuǎn)為AKS

  首先,Azure ML與AKS進(jìn)行集成。Azure ML是一個(gè)全面的機(jī)器學(xué)習(xí)生命周期管理平臺(tái),支持實(shí)驗(yàn)跟蹤、模型注冊(cè)表、訓(xùn)練、部署和監(jiān)控。對(duì)于需要高度控制運(yùn)行時(shí)、擴(kuò)展和網(wǎng)絡(luò)的場景,Azure Kubernetes Service(AKS)是一個(gè)理想的選擇。它允許自定義運(yùn)行時(shí)、進(jìn)行嚴(yán)格的性能調(diào)整,并與現(xiàn)有Kubernetes基礎(chǔ)設(shè)施集成。

  其次,進(jìn)行分步操作,在AKS上部署Azure ML AutoML模型。

  讓Kubernetes上的LLM服務(wù)更好地運(yùn)行,還需要vLLM與KServe的集成。接下來的問題是,如何把LLM與Kubernetes進(jìn)行結(jié)合?在Kubernetes上運(yùn)行大型語言模型(LLM)可以實(shí)現(xiàn)可靠、可擴(kuò)展且可重復(fù)的推理。Kubernetes提供了GPU調(diào)度、自動(dòng)伸縮和基本功能編排,而vLLM等優(yōu)化運(yùn)行時(shí)則提供了高通量、高內(nèi)存效率的推理能力。通過結(jié)合請(qǐng)求批處理和可觀測性(指標(biāo)、日志記錄和健康檢查),可以提供低延遲的API服務(wù)。

  使用vLLM和KServe部署LLM的步驟如下:

  1.準(zhǔn)備集群和KServe。配置Kubernetes集群(AKS/GKE/EKS或本地),并安裝KServe。

  2.獲取vLLM??寺LLM倉庫,安裝vLLM,并在本地測試vllm serve命令。

  3.創(chuàng)建vLLM服務(wù)運(yùn)行時(shí)/容器。構(gòu)建容器鏡像,或使用KServe支持的vLLM服務(wù)時(shí)間配置。

  4.部署InferenceService。應(yīng)用KServe InferenceService YAML文件,引用vLLM服務(wù)的運(yùn)行時(shí)和模型存儲(chǔ)。

  5.驗(yàn)證和調(diào)諧。通過Ingress/負(fù)載均衡器調(diào)用端點(diǎn),測量延遲/吞吐量,并調(diào)整vLLM批處理/令牌緩存設(shè)置和KServe自動(dòng)伸縮規(guī)則。

  另外, vLLM、KServe,還要與BentoML進(jìn)行集成。vLLM,作為高通量、GPU高效的推理引擎,負(fù)責(zé)實(shí)際執(zhí)行LLM;BentoML,封裝模型加載、自定義預(yù)處理/后處理以及穩(wěn)定的REST/gRPC API,構(gòu)建可重復(fù)的Docker鏡像或工件;KServe,作為Kubernetes控制平面,部署B(yǎng)ento鏡像或vLLM鏡像,并處理自動(dòng)伸縮、路由、健康檢查和生命周期管理。最終,通過BentoML打包模型和請(qǐng)求邏輯,KServe將該容器以InferenceService的形式運(yùn)行,提供自動(dòng)伸縮、流量控制和可觀測性。

  值得一提的是,不同的技術(shù)路線選擇,都有自己的優(yōu)缺點(diǎn)。KServe作為Kubernetes-原生機(jī)器學(xué)習(xí)服務(wù)與編排框架,提供了豐富的路由、內(nèi)置遙測和解釋器集成以及多運(yùn)行時(shí)支持,但學(xué)習(xí)曲線較陡,操作面較大。BentoML以Python為中心,提供了出色的開發(fā)者人體工學(xué)設(shè)計(jì)和可重復(fù)的圖像,但集群原生控件較少。NVIDIA Triton推理服務(wù)器則以其出色的GPU吞吐量和混合幀支持著稱,但同樣需要額外的設(shè)置來實(shí)現(xiàn)自動(dòng)伸縮和高級(jí)Kubernetes操作。

  結(jié)論

  在生產(chǎn)環(huán)境中運(yùn)行可靠、低延遲的AI/ML應(yīng)用,同時(shí)控制成本、性能和可重復(fù)性,是每個(gè)ML團(tuán)隊(duì)的目標(biāo)。Kubernetes通過其強(qiáng)大的編排能力,為模型及其支持服務(wù)提供了所需的資源管理和自動(dòng)伸縮功能。結(jié)合優(yōu)化的運(yùn)行時(shí)、服務(wù)層和推理引擎,我們可以在保持高輸入性能的同時(shí),獲得生產(chǎn)級(jí)操作控制。從小處著手,使用單個(gè)模型進(jìn)行驗(yàn)證,然后根據(jù)清晰的SLO選擇符合性能和操作需求的服務(wù)棧,最終迭代出彈性且可擴(kuò)展的服務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
電影《挽救計(jì)劃》高口碑熱映 以跨文明協(xié)作詮釋守望相助溫暖內(nèi)核

電影《挽救計(jì)劃》高口碑熱映 以跨文明協(xié)作詮釋守望相助溫暖內(nèi)核

封面新聞
2026-03-26 18:56:02
不是試點(diǎn)是強(qiáng)制執(zhí)行!2026村村必建的部門,農(nóng)村這波紅利別錯(cuò)過

不是試點(diǎn)是強(qiáng)制執(zhí)行!2026村村必建的部門,農(nóng)村這波紅利別錯(cuò)過

三農(nóng)雷哥
2026-03-26 19:35:03
傳張雪峰二婚妻子清純甜美:去年已生子,11歲女兒遺傳繼承恐生變

傳張雪峰二婚妻子清純甜美:去年已生子,11歲女兒遺傳繼承恐生變

博士觀察
2026-03-25 21:33:04
肝最喜歡的一種水果,春分后堅(jiān)持喝,大補(bǔ)肝血,整個(gè)春天肝都舒服

肝最喜歡的一種水果,春分后堅(jiān)持喝,大補(bǔ)肝血,整個(gè)春天肝都舒服

江江食研社
2026-03-27 03:30:03
教育徹底變天!2026屆初中生注意,這是最后一屆只拼分?jǐn)?shù)的一屆

教育徹底變天!2026屆初中生注意,這是最后一屆只拼分?jǐn)?shù)的一屆

老特有話說
2026-03-25 15:22:58
摩薩德局長被指誤導(dǎo)美以政府決策:曾提交計(jì)劃認(rèn)為有能力在美以發(fā)動(dòng)襲擊后的幾天內(nèi)鼓動(dòng)伊朗國內(nèi)暴動(dòng),甚至可能導(dǎo)致伊朗政府垮臺(tái)

摩薩德局長被指誤導(dǎo)美以政府決策:曾提交計(jì)劃認(rèn)為有能力在美以發(fā)動(dòng)襲擊后的幾天內(nèi)鼓動(dòng)伊朗國內(nèi)暴動(dòng),甚至可能導(dǎo)致伊朗政府垮臺(tái)

極目新聞
2026-03-26 07:44:44
美國記者挖坑提問:萬一臺(tái)灣不想被統(tǒng)一怎么辦?被中方精準(zhǔn)反殺

美國記者挖坑提問:萬一臺(tái)灣不想被統(tǒng)一怎么辦?被中方精準(zhǔn)反殺

雪中風(fēng)車
2026-02-23 19:34:34
岳云鵬現(xiàn)身上海,氣場跟以前完全不一樣了,助理當(dāng)街抽煙也不避諱

岳云鵬現(xiàn)身上海,氣場跟以前完全不一樣了,助理當(dāng)街抽煙也不避諱

仙味少女心
2026-03-24 16:47:29
7000 家央國企春招,本科卻成廢紙?門檻高到離譜求職者徹底破防

7000 家央國企春招,本科卻成廢紙?門檻高到離譜求職者徹底破防

眼界看視野
2026-03-24 11:00:18
60歲王志文海南打高爾夫球被偶遇,他看起來蒼老了好多,氣場強(qiáng)大

60歲王志文海南打高爾夫球被偶遇,他看起來蒼老了好多,氣場強(qiáng)大

陳意小可愛
2026-03-26 11:17:22
網(wǎng)易開了個(gè)壞頭?

網(wǎng)易開了個(gè)壞頭?

虎嗅APP
2026-03-26 19:40:05
iPhone4回收價(jià)暴漲80倍?借著二手手機(jī)漲價(jià)熱點(diǎn)的又一波瘋狂收割

iPhone4回收價(jià)暴漲80倍?借著二手手機(jī)漲價(jià)熱點(diǎn)的又一波瘋狂收割

柴狗夫斯基
2026-03-26 21:15:05
巴基斯坦外長說美伊正進(jìn)行間接談判

巴基斯坦外長說美伊正進(jìn)行間接談判

新華社
2026-03-26 18:55:07
國際油價(jià)26日顯著上漲

國際油價(jià)26日顯著上漲

澎湃新聞
2026-03-27 05:11:05
加速心梗惡化的原因:飲酒排第5,排第1的,很多朋友天天做

加速心梗惡化的原因:飲酒排第5,排第1的,很多朋友天天做

岐黃傳人孫大夫
2026-03-26 18:31:00
加拿大宣布對(duì)伊朗實(shí)施新制裁

加拿大宣布對(duì)伊朗實(shí)施新制裁

財(cái)聯(lián)社
2026-03-27 02:08:08
瘋爽被塘主追著求復(fù)合

瘋爽被塘主追著求復(fù)合

毒舌扒姨太
2026-03-26 22:44:25
太可恨!飛機(jī)一落地上海,女孩立馬報(bào)案!更多年輕受害人浮出水面……

太可恨!飛機(jī)一落地上海,女孩立馬報(bào)案!更多年輕受害人浮出水面……

環(huán)球網(wǎng)資訊
2026-03-26 21:48:04
流量退去之后|南京“10元手沖咖啡”阿姨:火過,就很滿足

流量退去之后|南京“10元手沖咖啡”阿姨:火過,就很滿足

澎湃新聞
2026-03-26 07:06:31
一代香港美人,感覺不是很開心的樣子,大家還記得她的名字嗎?

一代香港美人,感覺不是很開心的樣子,大家還記得她的名字嗎?

動(dòng)物奇奇怪怪
2026-03-26 08:35:16
2026-03-27 07:20:49
ITPUB學(xué)院
ITPUB學(xué)院
分享技術(shù)干貨,了解最新動(dòng)態(tài)
1189文章數(shù) 628關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:對(duì)伊朗能源設(shè)施空襲再推遲10天

頭條要聞

特朗普:對(duì)伊朗能源設(shè)施空襲再推遲10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
手機(jī)
時(shí)尚
房產(chǎn)
藝術(shù)

教育要聞

高考沖刺階段打基礎(chǔ)還來得及嗎?

手機(jī)要聞

三星闊折疊渲染圖曝光,Galaxy Z Fold 8寬屏版

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

藝術(shù)要聞

最美花卉圖譜!記住后保你啥花都認(rèn)識(shí)!

無障礙瀏覽 進(jìn)入關(guān)懷版