国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

那些爛尾的DeepSeek一體機(jī)項(xiàng)目,怎么收?qǐng)觯?/h1>
0
分享至

老曹這幾年,太難了。

他是第一批對(duì)大模型有先知先覺(jué)的人,兩年前從大廠辭職出來(lái),開(kāi)始圍繞大模型做生意。



從最初倒騰GPU,到后來(lái)攢智算中心,再到幫人做萬(wàn)卡訓(xùn)練集群的優(yōu)化,啥火搞啥。

每天忙得像個(gè)「影帝」,年底一算收入,掙得還不如「群演」。



可是這半年,老曹徹底轉(zhuǎn)運(yùn)了,搞得風(fēng)生水起。

為啥,原來(lái),他轉(zhuǎn)型幫人做大模型推理方案咨詢服務(wù)。

在我看來(lái),這生意卷的很,什么各種大模型一體機(jī)滿天飛,真能掙到錢?



老曹嘿嘿一笑,講起了他的生意經(jīng)↓

你以為那些DeepSeek一體機(jī)真能滿足需求?

我現(xiàn)在的項(xiàng)目核心切入點(diǎn),就是讓那些爛尾的DeepSeek一體機(jī)重新支棱起來(lái)。



年初跟風(fēng)上一體機(jī)的客戶太多了,但現(xiàn)在不少客戶的一體機(jī)都砸手里了,遠(yuǎn)遠(yuǎn)低于他們的預(yù)期。

說(shuō)著,老曹站起身,在他辦公室的白板上一頓寫(xiě)寫(xiě)畫(huà)畫(huà),給我講起了「爛尾」原因。



剛開(kāi)年的時(shí)候,客戶們的關(guān)注點(diǎn)都是搶DeepSeek一體機(jī),能不能跑滿血、性能是多少,追求總吞吐量、TPOT、TTFT…

說(shuō)白了,開(kāi)始還是嘗鮮心態(tài),后來(lái)真用起來(lái),才發(fā)現(xiàn)問(wèn)題多了去了↓

推理性能宣傳吊炸天,實(shí)際場(chǎng)景拉垮

很多廠商宣傳的TPTT、TPOT都是理想極限值,一旦上下文長(zhǎng)度增加,或者加上RAG,就拉稀。



多模型適配、升級(jí)、調(diào)度,完全搞不定

這半年出了很多爆款開(kāi)源模型,Qwen、K2…,很多客戶希望在一體機(jī)平臺(tái)上嘗試,還希望多模型調(diào)度、切換…,跑起來(lái)容易,跑得好很難。



多機(jī)并行推理,PD分離部署,坑多水深

對(duì)很多企業(yè)來(lái)講,一臺(tái)往往不夠用,當(dāng)他們希望擴(kuò)展到集群部署,再搞PD分離架構(gòu),簡(jiǎn)直就是遇到“嘆息之墻”,難以跨越。



還有,客戶自己有些存量智算服務(wù)器,也希望一起跑起來(lái)。

老曹balabala講了半天,我越聽(tīng)越不信↓

雖然老曹是智算老司機(jī),但這些都是新問(wèn)題,他憑啥搞定?



老曹嘿嘿一笑,說(shuō):我給你講個(gè)秘密↓

不是我牛B,是我用的方案牛B。

我現(xiàn)在用紅帽的「AI全家桶」,瞬間就把這些項(xiàng)目盤活了。



這個(gè)“桶”里都有啥黑科技呢?

紅帽AI的第一個(gè)神器,叫做:AI Inference Server,紅帽AI推理服務(wù)器。

聽(tīng)聽(tīng)這名字,一看就是專門干模型推理的。

但別無(wú)誤會(huì),這不是硬件,而是軟件,它的工作是適配各種AI服務(wù)器,讓它們把推理服務(wù)跑得更歡。



紅帽AI推理服務(wù)器有三大絕技↓

首先,它提供經(jīng)過(guò)加固的、提供持續(xù)支持服務(wù)的vLLM商業(yè)發(fā)行版

vLLM大家都不陌生吧?堪稱最受歡迎的開(kāi)源推理引擎,市面上生產(chǎn)環(huán)境部署的大模型推理服務(wù),背后都有vLLM的影子。



但有一點(diǎn)你可能不知道,紅帽是vLLM開(kāi)源社區(qū)最大的貢獻(xiàn)者之一。

所以,紅帽推出vLLM發(fā)行版,就好比紅帽是Linux開(kāi)源社區(qū)的領(lǐng)先貢獻(xiàn)者,推出了最流行的企業(yè)級(jí)Linux發(fā)行版RHEL。

“紅帽版vLLM”,底層仍基于開(kāi)源vLLM,但紅帽會(huì)對(duì)其做企業(yè)級(jí)加固,確保更高的穩(wěn)定性、安全性和版本一致性。



按老曹的說(shuō)法,用社區(qū)版vLLM,要自己適配硬件、調(diào)試優(yōu)化、修復(fù)漏洞,遇到bug,也只能依賴社區(qū)issue。

現(xiàn)在用紅帽提供的企業(yè)版vLLM,就能獲得紅帽的企業(yè)級(jí)支持,兼容性保證、bug修復(fù)、安全補(bǔ)丁全部都有人兜底“背鍋”。



vLLM提供多種推理優(yōu)化手段,以便處理數(shù)千億甚至萬(wàn)億參數(shù)規(guī)模的模型。

比如張量并行、流水線并行,還有針對(duì)MoE模型的專家并行,以及面向PD分離場(chǎng)景的數(shù)據(jù)并行。



不止如此,紅帽還在vLLM基礎(chǔ)上做了擴(kuò)展,內(nèi)置模型壓縮器(LLM Compressor),這是個(gè)統(tǒng)一的量化庫(kù),進(jìn)一步優(yōu)化性能,大幅降低顯存占用。

還額外增加了推測(cè)解碼(Speculative Decoding)技術(shù),通過(guò)類似小模型“打草稿”、大模型“審稿”的工作流程,減少大模型逐token解碼次數(shù),從而進(jìn)一步提升推理速度。



更重要的是,紅帽已經(jīng)針對(duì)主流GPU、AI加速卡做好了適配和優(yōu)化,這對(duì)企業(yè)場(chǎng)景很重要,在實(shí)際落地中,支持異構(gòu)硬件是剛需。



老曹深有體會(huì),他去幫客戶做一體機(jī)落地,情況千奇百怪。

客戶原來(lái)只調(diào)好了一臺(tái)一體機(jī),后面要擴(kuò)展的時(shí)候,各種卡、各種硬件都冒出來(lái)了。

此時(shí)用紅帽AI Inference Server,配上官方“蓋章”的vLLM,適配無(wú)壓力、少踩太多坑。



第二,紅帽AI Inference Server用標(biāo)準(zhǔn)化的容器鏡像交付,無(wú)論是在RHEL上,還是在OpenShift環(huán)境下,都可以快速部署。

即便是其他K8s或者其他五花八門的Linux發(fā)行版,也可以“一次構(gòu)建,處處運(yùn)行”。

這一點(diǎn),老曹也是贊不絕口,真正趟過(guò)行業(yè)落地深水區(qū)的老司機(jī)都懂,各種復(fù)雜的Infra環(huán)境,跨環(huán)境一致性可太重要了。



第三,為了讓推理服務(wù)器運(yùn)行的更輕松,紅帽還悄悄干了一件大事,它們把業(yè)界幾乎所有的熱門開(kāi)源模型都做了二次優(yōu)化,免費(fèi)提供下載。

你打開(kāi)Hugging Face,跳到紅帽目錄下,一定會(huì)被他家的默默努力所震驚,足足有500多個(gè)優(yōu)化過(guò)的模型,不同版本、尺寸、量化規(guī)格的DeepSeek、Qwen、Kimi、Llama、Mistral…















這對(duì)老曹來(lái)說(shuō),可太方便了,不管客戶們的原來(lái)一體機(jī)想要改跑什么模型,都能搞定。

硬件適配好了,系統(tǒng)適配好了,連模型都給定制優(yōu)化好了,老曹只需要搞點(diǎn)「拿來(lái)主義」,就可以輕松治“爛尾”。



紅帽AI的第二個(gè)神器,叫做:llm-d,面向生產(chǎn)環(huán)境的大規(guī)模AI推理項(xiàng)目。

llm-d是由紅帽發(fā)起的開(kāi)源項(xiàng)目,目標(biāo)就是要打造一個(gè)面向生產(chǎn)環(huán)境的、可調(diào)度、可觀測(cè)、高效率的K8s原生分布式推理平臺(tái)。



是不是看著有點(diǎn)抽象?可是當(dāng)你需要真正在生產(chǎn)環(huán)境大規(guī)模部署AI推理服務(wù)的時(shí)候,這個(gè)東西就是神器。

比如大模型推理的兩個(gè)階段Prefill和Decode,前者需要強(qiáng)計(jì)算,后者需要高顯存帶寬。

讓他倆擠到一個(gè)節(jié)點(diǎn),就會(huì)爭(zhēng)搶資源,降低效率。



此時(shí)用PD分離方案,把他們分別“塞”到不同節(jié)點(diǎn)/Pod,分別優(yōu)化,就能顯著提升推理效率。

但是,節(jié)點(diǎn)多了以后,PD分離部署和調(diào)度靠手搓太麻煩!

此時(shí),llm-d就非常擅長(zhǎng)干這事,它借助官方預(yù)先提供的PD分離配方(Helmfile),指揮好搭檔K8s,一鍵完成部署。



部署完了還不夠,不同的業(yè)務(wù)場(chǎng)景,往往需要不同的PD節(jié)點(diǎn)配比。

所以,你還得做好調(diào)度,持續(xù)監(jiān)測(cè)和優(yōu)化。



這個(gè)時(shí)候,llm-d的智能調(diào)度能力可觀測(cè)性就發(fā)揮出來(lái)。

首先llm-d提供了推理調(diào)度網(wǎng)關(guān)(IGW,Inference Gateway),這就好比是推理流量大腦,負(fù)責(zé)接入流量、調(diào)度流量、管控服務(wù)質(zhì)量。

實(shí)戰(zhàn)中,IGW作為統(tǒng)一入口,接受用戶請(qǐng)求,并綜合多種指標(biāo),智能選擇最優(yōu)的P節(jié)點(diǎn)和D節(jié)點(diǎn),優(yōu)先減少重復(fù)計(jì)算,保證推理效果。



這種操作對(duì)用戶是完全透明的,以前老曹搞完P(guān)D分離部署后,要反復(fù)手搓調(diào)度策略。

現(xiàn)在,交給llm-d,效果又好又省心。



另外,除了K8s原生的那些基礎(chǔ)監(jiān)控能力,llm-d還有專門針對(duì)模型推理層和分布式層的監(jiān)控指標(biāo),精確判斷PD分離是否健康、調(diào)度是否合理,并跟蹤每一跳的延遲和狀態(tài)。

在實(shí)操中,可以充分利用llm-d提供的這種可觀測(cè)性,進(jìn)行效果評(píng)估、持續(xù)優(yōu)化。



老曹坦言,紅帽AI Inference Server穩(wěn)住了大模型推理的基本盤,堆高了推理的下限。

而llm-d則可以繼續(xù)拉升推理能力的上限,進(jìn)一步壓榨硬件能力,讓老曹得意輕松應(yīng)對(duì)用戶各種千奇百怪的需求。



講到這里,老曹頓了頓,繼續(xù)說(shuō)↓

其實(shí)不止這兩個(gè)寶貝,連紅帽企業(yè)版Linux操作系統(tǒng)RHEL和混合云平臺(tái)OpenShift也都有“AI版”了。



RHEL AI是RHEL的AI增強(qiáng)版,是為大模型和AI工作負(fù)載量身定制的「AI原生Linux」,內(nèi)置AI Inference Server、模型壓縮優(yōu)化、跨加速器支持、模型倉(cāng)庫(kù)、覆蓋AI組件的全生命周期安全。

企業(yè)可以直接把它當(dāng)作AI原生基礎(chǔ)設(shè)施,而不是「裸金屬+裸OS+自己折騰」。



OpenShift AI相當(dāng)于集成了「AI工具鏈+模型推理+模型管理+多云AI適配+Agent開(kāi)發(fā)支持」的AI原生版OpenShift。

OpenShift AI包含端到端的AI/ML生命周期支持,整體打通了從開(kāi)發(fā)、訓(xùn)練、部署,到持續(xù)監(jiān)控、運(yùn)維的AI工作流。



同時(shí),OpenShift AI也繼承了OpenShift的多云、跨云一致性體驗(yàn)

這就又能讓人少踩很多坑,目前老曹服務(wù)的幾個(gè)大客戶,都開(kāi)始規(guī)劃混合部署了:涉及合規(guī)的放本地,開(kāi)放服務(wù)的放云上,低延遲需求的放業(yè)務(wù)現(xiàn)場(chǎng)…

用了OpenShift AI,客戶在本地生產(chǎn)環(huán)境驗(yàn)證成功的大模型方案,可以輕松搬到任意地點(diǎn)(本地機(jī)房、托管IDC、公有云、邊緣節(jié)點(diǎn))。



講完這些,老曹在白板上擦了又畫(huà)。

開(kāi)始了他的總結(jié):還有一點(diǎn)至關(guān)重要,紅帽AI是100%開(kāi)源的,選擇自由,用著放心,我很看重,客戶們也很看重!



基礎(chǔ)設(shè)施搞定了、AI推理性能上來(lái)了,怎么與業(yè)務(wù)場(chǎng)景結(jié)合,更好的服務(wù)業(yè)務(wù)應(yīng)用呢?

老曹看我還有疑問(wèn),于是講出來(lái)他最后一個(gè)妙招——



這次他算是跟對(duì)人了:紅帽已經(jīng)聯(lián)合CIO社群組織、核心企業(yè)CIO、上下游企業(yè)等,成立了企業(yè)級(jí)AI+專家委員會(huì),與客戶、伙伴一起共創(chuàng),加速企業(yè)級(jí)AI落地。

比如,這份報(bào)告,就是他們匯聚了百位大型企業(yè)CIO真實(shí)調(diào)研數(shù)據(jù),深入分析AI在企業(yè)級(jí)應(yīng)用中的實(shí)踐,對(duì)AI落地太有幫助了……



老曹已經(jīng)有客戶加入了“組織”,老曹自己也要加入,大家一起“共創(chuàng)”。

我一聽(tīng),也立馬來(lái)了精神↓

如今,無(wú)論是國(guó)家層面還是產(chǎn)業(yè)層面,都非??粗亻_(kāi)源,紅帽AI不僅100%開(kāi)源,還提供廣泛的兼容能力、多環(huán)境的一致性體驗(yàn)、覆蓋AI全生命周期的方案…,而且,現(xiàn)在連探索行業(yè)落地的組織保障都有了。

紅帽AI這趟車,千萬(wàn)不能錯(cuò)過(guò)!





特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
開(kāi)國(guó)十大元帥是如何離世的

開(kāi)國(guó)十大元帥是如何離世的

祁州校尉
2025-12-10 16:35:05
被中國(guó)說(shuō)根本沒(méi)資格入常,日本人氣炸了:信不信我們退出聯(lián)合國(guó)?

被中國(guó)說(shuō)根本沒(méi)資格入常,日本人氣炸了:信不信我們退出聯(lián)合國(guó)?

小鬼頭體育
2026-01-22 16:38:06
CCTV5調(diào)整直播!中國(guó)隊(duì)沖首座冠軍,決賽還未開(kāi)打,迎來(lái)2個(gè)壞消息

CCTV5調(diào)整直播!中國(guó)隊(duì)沖首座冠軍,決賽還未開(kāi)打,迎來(lái)2個(gè)壞消息

侃球熊弟
2026-01-22 00:10:35
32歲程序員周末暈倒后猝死,搶救期間曾被拉入工作群,工傷申請(qǐng)已被受理

32歲程序員周末暈倒后猝死,搶救期間曾被拉入工作群,工傷申請(qǐng)已被受理

上觀新聞
2026-01-22 15:12:18
高中各科考試規(guī)律:數(shù)學(xué)滿分150分,大部分人都是不及格狀態(tài)!

高中各科考試規(guī)律:數(shù)學(xué)滿分150分,大部分人都是不及格狀態(tài)!

好爸育兒
2026-01-08 15:58:19
中央?yún)R金堅(jiān)定持有多只龍頭寬基ETF

中央?yún)R金堅(jiān)定持有多只龍頭寬基ETF

財(cái)聯(lián)社
2026-01-21 22:54:06
韓國(guó)最大在野黨黨首張東赫絕食8天,樸槿惠到場(chǎng)看望

韓國(guó)最大在野黨黨首張東赫絕食8天,樸槿惠到場(chǎng)看望

瀟湘晨報(bào)
2026-01-22 16:33:38
特朗普弄混格陵蘭島與冰島,再提北約秘書(shū)長(zhǎng)叫他“爸爸”,稱北約一直都“愛(ài)”他,直到提起“冰島”一事

特朗普弄混格陵蘭島與冰島,再提北約秘書(shū)長(zhǎng)叫他“爸爸”,稱北約一直都“愛(ài)”他,直到提起“冰島”一事

魯中晨報(bào)
2026-01-22 10:31:02
帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅(jiān)持,別馬虎了!

帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅(jiān)持,別馬虎了!

垚垚分享健康
2026-01-19 20:30:10
錢再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

錢再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

削桐作琴
2025-12-10 16:53:18
美國(guó)終于回過(guò)味來(lái)了:這個(gè)世界上,不會(huì)再有第二個(gè)“中國(guó)”了

美國(guó)終于回過(guò)味來(lái)了:這個(gè)世界上,不會(huì)再有第二個(gè)“中國(guó)”了

忠于法紀(jì)
2026-01-16 21:06:27
利物浦1億歐報(bào)價(jià)求購(gòu)當(dāng)紅邊鋒,球員夢(mèng)想加盟安菲爾德

利物浦1億歐報(bào)價(jià)求購(gòu)當(dāng)紅邊鋒,球員夢(mèng)想加盟安菲爾德

夜白侃球
2026-01-22 15:52:18
麥當(dāng)勞發(fā)160萬(wàn)個(gè)雞蛋兩天被搶空,預(yù)制菜狂魔“養(yǎng)雞種地”是在打西貝的臉嗎?

麥當(dāng)勞發(fā)160萬(wàn)個(gè)雞蛋兩天被搶空,預(yù)制菜狂魔“養(yǎng)雞種地”是在打西貝的臉嗎?

Vista氫商業(yè)
2026-01-22 15:04:32
WTT阿曼站:林詩(shī)棟1-8逆轉(zhuǎn)險(xiǎn)勝西多仁科,雖勝但不足喜

WTT阿曼站:林詩(shī)棟1-8逆轉(zhuǎn)險(xiǎn)勝西多仁科,雖勝但不足喜

光輝與陰暗
2026-01-22 17:44:13
鄭麗文闡明兩岸立場(chǎng):拒絕“一國(guó)兩制”意味著什么?

鄭麗文闡明兩岸立場(chǎng):拒絕“一國(guó)兩制”意味著什么?

魯源寫(xiě)作讀書(shū)會(huì)
2026-01-22 17:30:05
瑞安航空宣布推出“大傻瓜”特價(jià)機(jī)票,稱專為馬斯克和 X 上的蠢貨準(zhǔn)備

瑞安航空宣布推出“大傻瓜”特價(jià)機(jī)票,稱專為馬斯克和 X 上的蠢貨準(zhǔn)備

中國(guó)能源網(wǎng)
2026-01-21 10:51:04
美國(guó)華裔黑馬傷退無(wú)緣挑戰(zhàn)阿卡,要拿澳網(wǎng)冠軍的15歲中國(guó)少女奪冠

美國(guó)華裔黑馬傷退無(wú)緣挑戰(zhàn)阿卡,要拿澳網(wǎng)冠軍的15歲中國(guó)少女奪冠

網(wǎng)球之家
2026-01-22 13:45:39
最小紅軍向軒:7歲投身革命9歲長(zhǎng)征路,1955年授銜他獲封什么軍銜

最小紅軍向軒:7歲投身革命9歲長(zhǎng)征路,1955年授銜他獲封什么軍銜

磊子講史
2026-01-14 11:16:27
“90后”曾患唇腭裂網(wǎng)紅給李亞鵬捐10萬(wàn),其曾申請(qǐng)嫣然天使基金幫助,但當(dāng)時(shí)沒(méi)排上隊(duì)“我們是天使,不是惡魔”

“90后”曾患唇腭裂網(wǎng)紅給李亞鵬捐10萬(wàn),其曾申請(qǐng)嫣然天使基金幫助,但當(dāng)時(shí)沒(méi)排上隊(duì)“我們是天使,不是惡魔”

揚(yáng)子晚報(bào)
2026-01-20 17:53:40
大寒后,使勁吃這菜,一養(yǎng)肝、二促消化、三強(qiáng)免疫、四強(qiáng)骨骼

大寒后,使勁吃這菜,一養(yǎng)肝、二促消化、三強(qiáng)免疫、四強(qiáng)骨骼

阿龍美食記
2026-01-21 13:20:05
2026-01-22 18:51:00

AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1113文章數(shù) 715關(guān)注度
往期回顧 全部

財(cái)經(jīng)要聞

潘功勝:繼續(xù)實(shí)施好適度寬松的貨幣政策

頭條要聞

加拿大有人眼紅:就算便宜 也別買中國(guó)車

頭條要聞

加拿大有人眼紅:就算便宜 也別買中國(guó)車

體育要聞

跑個(gè)步而已,他們?cè)谌际裁矗?/h3>

娛樂(lè)要聞

田亮一家新年全家福!森碟變清純少女

科技要聞

幾千億只是開(kāi)胃菜,AI基建還得再砸?guī)兹f(wàn)億

汽車要聞

配備多塊娛樂(lè)屏 極氪8X內(nèi)飾曝光

態(tài)度原創(chuàng)

房產(chǎn)
親子
本地
健康
公開(kāi)課

房產(chǎn)要聞

開(kāi)年王炸!四重政策紅利加碼,廣州置業(yè)窗口期邁入倒計(jì)時(shí)!

親子要聞

兒子的智商遺傳誰(shuí)多一點(diǎn)

本地新聞

云游中國(guó)|格爾木的四季朋友圈,張張值得你點(diǎn)贊

打工人年終總結(jié)!健康通關(guān)=贏麻了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版