国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

“養(yǎng)蝦”太貴勸退?華為云FlexNPU專(zhuān)治算力“吃空餉”

0
分享至

最近“龍蝦”徹底火了,一個(gè)24*7待命的數(shù)字員工,效率直接起飛,看得人心里直癢癢。

不少老板看到后一拍大腿:上!

真把“龍蝦”請(qǐng)進(jìn)公司,劇情開(kāi)始反轉(zhuǎn):表面上是自動(dòng)化流水線(xiàn),背地里卻像是給Token打工,月底一算賬,好家伙,比雇人還貴。

你以為請(qǐng)來(lái)的是個(gè)全能員工,結(jié)果更像一個(gè)“高薪但不太穩(wěn)定的實(shí)習(xí)生”。

為什么會(huì)這樣呢?因?yàn)橄瘛褒埼r”這樣的Agent,其工作方式和過(guò)去完全不同。

普通的聊天,一問(wèn)一答,幾百幾千個(gè)Token就結(jié)束了,現(xiàn)在“龍蝦”自主規(guī)劃,多輪迭代,上下文超級(jí)長(zhǎng),一個(gè)任務(wù)跑下來(lái),動(dòng)不動(dòng)就是幾十萬(wàn),甚至上百萬(wàn) Token。

現(xiàn)在大家通過(guò)FlashAttention、混合精度、融合算子、KV Cache池化緩存等技術(shù)拼命優(yōu)化模型、優(yōu)化推理性能,也只能解決單機(jī)的性能問(wèn)題。

如果把目光移向整個(gè)AI算力池,重新審視Token性?xún)r(jià)比的時(shí)候,就會(huì)發(fā)現(xiàn)這里的平均推理利用率竟然不到30%,相當(dāng)于花費(fèi)重金建設(shè)、動(dòng)輒數(shù)萬(wàn)、數(shù)十萬(wàn)卡的AI硬件算力池,竟有超過(guò)一半以上的算力在“摸魚(yú),吃空餉”!

面對(duì)這個(gè)核心挑戰(zhàn),華為云走出了一條創(chuàng)新的道路。

他們沒(méi)有再去一味堆模型、卷算力,而是在推理/訓(xùn)練框架和底層算力(比如 CANN、CUDA)之間,插入了一層全新的系統(tǒng)——FlexNPU,你可以把它理解成一個(gè)“AI算力操作系統(tǒng)”。

FlexNPU通過(guò)創(chuàng)新的虛擬化和智能調(diào)度系統(tǒng),把一塊塊固定僵硬的“硅片”,拆開(kāi)、重組、再分配,變成了一種可以自由流動(dòng)的柔性或“液態(tài)化”資源。


就像孫悟空的金箍棒那樣,需要的時(shí)候,可以撐到整個(gè)集群那么大,不需要的時(shí)候,可以縮到一根針那么細(xì),“可大可小、變化隨心”,完全根據(jù)業(yè)務(wù)需求,“隨需而動(dòng)”。

FlexNPU具體是怎么做的呢? 我們?cè)敿?xì)來(lái)看一看。

0 1

讀題目+寫(xiě)答案:AI算力混合部署

你給大模型發(fā)送了消息后,它就需要讀取你的輸入,建立上下文,相當(dāng)于在考試時(shí)把題目完整讀一遍。這一階段叫做Prefill(預(yù)填充),計(jì)算量很大,NPU需要全力運(yùn)作。

大模型回答你的時(shí)候,就像是“寫(xiě)答案”,是一個(gè)字(token)一個(gè)字往外生成,這一階段叫Decode,每次計(jì)算量小,但是持續(xù)生成。

由于兩階段任務(wù)的特點(diǎn)不同,所以業(yè)界的主流方案就是PD分離,一個(gè)NPU專(zhuān)門(mén)讀題目,另一個(gè)專(zhuān)門(mén)寫(xiě)答案。


但是在“龍蝦”這種Agent場(chǎng)景下,用戶(hù)的請(qǐng)求充滿(mǎn)了極端的上下文和不可預(yù)測(cè)性,根本沒(méi)法提前規(guī)劃“讀題目”需要多少機(jī)器,“寫(xiě)答案”需要多少機(jī)器。很容易出現(xiàn)有的機(jī)器閑著,有的忙死。

FlexNPU則采用了一種“PD動(dòng)態(tài)混合部署”的方法,把“讀題目”和“寫(xiě)答案”部署在同一套NPU上,然后用負(fù)載感知、算子劫持、資源調(diào)度等技術(shù)來(lái)調(diào)度兩種任務(wù)。

當(dāng)系統(tǒng)“寫(xiě)答案”的時(shí)候,如果發(fā)現(xiàn)算力閑著(因?yàn)镈ecode不怎么計(jì)算),立刻塞一個(gè)“讀題目” (Prefill) 任務(wù)進(jìn)去!


當(dāng)然,這種調(diào)度非常之快(微秒級(jí)),讓硬件利用率直接拉滿(mǎn)。最終實(shí)現(xiàn)在同等服務(wù)質(zhì)量下,完美解決了傳統(tǒng)PD分離架構(gòu)下Prefill和Decode集群不均衡的AI Core與顯存利用率問(wèn)題,將帶來(lái)至少40%的Token性?xún)r(jià)比提升空間。

0 2

不會(huì)摸魚(yú)的打工人:白天接單,晚上加班

中小企業(yè)上AI系統(tǒng),通常需要兩套集群。

一套是“在線(xiàn)集群”,處理白天的實(shí)時(shí)請(qǐng)求,例如用戶(hù)聊天、問(wèn)答這些需要“秒回”的任務(wù),資源調(diào)度要高效,避免任何卡頓。

另外一套是“離線(xiàn)集群”,處理晚上的非實(shí)時(shí)任務(wù),如生成embeddings,數(shù)據(jù)清洗、預(yù)處理等,延遲不敏感,可以慢慢排隊(duì)等。

這種部署的問(wèn)題就是白天的實(shí)時(shí)請(qǐng)求其實(shí)不穩(wěn)定,很多時(shí)候NPU就用了30%,剩下的70%在發(fā)呆,資源浪費(fèi)。

能不能把在線(xiàn)任務(wù)和離線(xiàn)任務(wù)在同一套機(jī)器上混著跑呢?

白天優(yōu)先跑在線(xiàn)任務(wù)(用戶(hù)請(qǐng)求),同時(shí)如果有空閑資源,插入離線(xiàn)任務(wù)。

晚上在線(xiàn)請(qǐng)求變少,系統(tǒng)自動(dòng)把大部分資源給離線(xiàn)任務(wù)。

華為的FlexNPU就是這么干的,在同一套集群中實(shí)現(xiàn)了毫秒級(jí)無(wú)縫穿插實(shí)時(shí)請(qǐng)求和非實(shí)時(shí)任務(wù)。


這就像一個(gè)超級(jí)打工人,他既能不斷地回答用戶(hù)的各種問(wèn)題,“沒(méi)人”的時(shí)候見(jiàn)縫插針地去做一些數(shù)據(jù)清洗,文檔總結(jié)的離線(xiàn)任務(wù)。

到了深夜的業(yè)務(wù)低谷期,它會(huì)自動(dòng)釋放出大量計(jì)算資源,利用自研的 iTransformer 預(yù)測(cè)算法會(huì)精準(zhǔn)判斷這些資源能閑置多久,然后協(xié)同彈性引擎立刻把這些空閑資源“調(diào)度”給其他嗷嗷待哺的任務(wù),比如正在排隊(duì)的Agent強(qiáng)化學(xué)習(xí)作業(yè)等。

利用這種削峰填谷的方式,每一分的NPU的算力都不浪費(fèi)。

在華為云內(nèi)部的AI代碼生成和外部MaaS業(yè)務(wù)場(chǎng)景中,這種方式解決了推理業(yè)務(wù)潮汐變化規(guī)律所導(dǎo)致的大量AI算力空轉(zhuǎn)浪費(fèi)難題,同樣為大模型推理貢獻(xiàn)了至少40%的性?xún)r(jià)比提升!

0 3

AI合租時(shí)代:多模型共卡不打架

研究表明,現(xiàn)在Agent中的任務(wù)很多都是重復(fù)性和專(zhuān)業(yè)化的子任務(wù),比如調(diào)用工具、解析文檔、生成報(bào)告。這些工作如果使用千億參數(shù)的“巨無(wú)霸”模型,那簡(jiǎn)直就是用超級(jí)計(jì)算機(jī)玩掃雷,是巨大的資源浪費(fèi)。

最好是把這些子任務(wù)放到小模型中來(lái)運(yùn)行,例如一個(gè)大模型負(fù)責(zé)路由,一個(gè)小模型做記憶壓縮,另外一個(gè)做常識(shí)推理,還需要一個(gè)小模型做摘要提取。


在傳統(tǒng)云上,你得為這四個(gè)模型買(mǎi)四張卡,TCO直接爆炸,中小企業(yè)根本扛不住。

當(dāng)然,為了省錢(qián),可以把模型硬塞在一張卡上,但沒(méi)有底層資源隔離和精細(xì)調(diào)度,結(jié)果在極端情況下性能會(huì)崩。

一個(gè)模型突然來(lái)一波高并發(fā),占滿(mǎn)了算力和帶寬,直接影響其他模型,推理變慢,延遲增加,甚至超時(shí)。

這就像多家公司擠在一個(gè)開(kāi)放辦公區(qū), 雖然分了桌子,但網(wǎng)絡(luò)是共用的,電源是共用的,空調(diào)是共用的。

一家公司開(kāi)大會(huì),網(wǎng)絡(luò)卡了,別人全被影響。

FlexNPU參照操作系統(tǒng)的理念,接管了物理的NPU資源,通過(guò)對(duì)AI Core的時(shí)分調(diào)度和對(duì)顯存的空分調(diào)度,實(shí)現(xiàn)了多個(gè)AI模型在同一張NPU卡上的精細(xì)化混部。


FlexNPU不但實(shí)現(xiàn)最小粒度達(dá)1% NPU卡及128MB顯存的顆粒度的AI Core時(shí)分復(fù)用,以及顯存空分復(fù)用。還實(shí)現(xiàn)了堅(jiān)實(shí)的QoS與安全隔離。更重要的是可以在運(yùn)行時(shí)可按需調(diào)整NPU算力大小、上層業(yè)務(wù)根本感知不到。

實(shí)戰(zhàn)效果顯示,在保障時(shí)延前提下,單NPU卡部署密度從5個(gè)提升到7個(gè),F(xiàn)lexNPU為小模型提供了真正完美匹配其算力訴求、量體裁衣的虛擬NPU資源,將小模型的平均算力成本降低2-3倍以上。真正實(shí)現(xiàn)了降本增效。


0 4

斷點(diǎn)續(xù)命:任務(wù)不會(huì)再“白干一場(chǎng)”

現(xiàn)在的Agent有個(gè)致命的缺點(diǎn):任務(wù)鏈路特別長(zhǎng)。

它不是“一次推理就結(jié)束”,而是需要幾十步甚至上百步,持續(xù)幾分鐘甚至幾十分鐘。

就像你寫(xiě)一篇幾萬(wàn)字報(bào)告,寫(xiě)到第95%時(shí),沒(méi)有存盤(pán),電腦突然死機(jī)了!

全部白寫(xiě),只好從頭再來(lái)。

在AI推理的時(shí)候也是類(lèi)似,因?yàn)槿蝿?wù)必須一口氣跑完,中間一旦某個(gè)NPU出問(wèn)題, 完了,任務(wù)直接失敗,狀態(tài)丟失,不得不回到第一步從頭兒再來(lái)。

你剛剛消耗的Token、算力、時(shí)間全部作廢,讓人欲哭無(wú)淚。


FlexNPU做了什么呢? 它實(shí)現(xiàn)了一套軟硬件解耦的架構(gòu):


推理服務(wù)不再直接綁定物理卡,而是通過(guò)虛擬映射實(shí)現(xiàn)靈活調(diào)度。

在任務(wù)運(yùn)行的過(guò)程中,系統(tǒng)不斷“偷偷”記錄當(dāng)前狀態(tài),比如:模型推理進(jìn)度,中間計(jì)算結(jié)果(KV Cache、狀態(tài)機(jī)),Agent 的上下文等。

而且關(guān)鍵點(diǎn)是:開(kāi)銷(xiāo)極低,你幾乎感覺(jué)不到。

這樣一旦發(fā)生問(wèn)題,F(xiàn)lexNPU就會(huì)讀取最近一次快照,恢復(fù)任務(wù)狀態(tài),從中斷點(diǎn)開(kāi)始執(zhí)行,這一切,秒級(jí)即可完成,相當(dāng)于原地滿(mǎn)血復(fù)活了。


這一切對(duì)上層完全無(wú)感,你不需要寫(xiě)任何恢復(fù)邏輯,不需要重試機(jī)制,不需要 checkpoint 管理,一切自動(dòng)完成。

一句話(huà):AI 任務(wù)變得“又長(zhǎng)又脆”,而 FlexNPU 讓它變成“又長(zhǎng)又穩(wěn)”。

0 5

總結(jié)

從上面的介紹可以看出,F(xiàn)lexNPU通過(guò)架構(gòu)創(chuàng)新,為智能體帶來(lái)了3重突破性?xún)r(jià)值。

(1) 動(dòng)態(tài)混合部署,用戶(hù)不需要為閑置資源買(mǎi)單;

(2) 小模型共卡復(fù)用,用戶(hù)不需要為生態(tài)冗余買(mǎi)單;

(3) 秒級(jí)快速恢復(fù),用戶(hù)不需要為硬件故障買(mǎi)單。

華為云FlexNPU所做的一切,其實(shí)都是為了一個(gè)最終的目標(biāo):降低Agent的入局門(mén)檻。

讓每一分錢(qián)的AI算力投入,都迸發(fā)出最大化的價(jià)值;讓智能體時(shí)代海量的Token,人人都能消費(fèi)得起

值得注意的是,F(xiàn)lexNPU 其實(shí)只是華為云整個(gè) AI 解決方案中的一塊拼圖:


在最底層,是 AI 基礎(chǔ)設(shè)施。

依托 CloudMatrix 超節(jié)點(diǎn)和 FlexNPU 這套“柔性智算”能力,華為云解決的,是最核心的問(wèn)題——算力不再浪費(fèi),成本真正可控。為上層各種模型、各種 Agent 形態(tài),提供了一個(gè)極致性?xún)r(jià)比的算力底座。

再往上一層,是模型服務(wù)層。通過(guò) MaaS,華為云把主流開(kāi)源大模型都“整理好、調(diào)教好”,企業(yè)不需要自己折騰部署和適配,就可以直接使用。

再往上,是開(kāi)發(fā)者最熟悉的一層:Agent 平臺(tái)。這里更像一個(gè)“AI 操作臺(tái)”, 無(wú)論是程序員,還是業(yè)務(wù)人員,都可以通過(guò)簡(jiǎn)單編排,快速搭建屬于自己的智能體。

最上面這一層,其實(shí)是最有意思的:場(chǎng)景工廠(chǎng)。

華為云把過(guò)去服務(wù) 2600 多家企業(yè)、500 多個(gè)實(shí)際場(chǎng)景的經(jīng)驗(yàn),沉淀成了 40+ 個(gè)高頻 AI 模板。 不需要從零開(kāi)始,開(kāi)箱即用,對(duì)于中小企業(yè)來(lái)說(shuō),這一層的價(jià)值,甚至是最大的。

華為云給我的感覺(jué)就是,它不只在賣(mài)各種黑技術(shù),而是深刻地洞察了企業(yè)在使用AI的過(guò)程中遇到的各種問(wèn)題,然后提供了一站式的、全方位的解決方案,這才是正確的AI之路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大量硼砂,別再給家里人吃了!這10類(lèi)食物最易摻硼砂,超危險(xiǎn)

大量硼砂,別再給家里人吃了!這10類(lèi)食物最易摻硼砂,超危險(xiǎn)

笑熬漿糊111
2026-04-13 00:05:12
油價(jià)調(diào)整:倒計(jì)時(shí)1天,預(yù)計(jì)下調(diào)780元/噸,明晚油價(jià)要跌!

油價(jià)調(diào)整:倒計(jì)時(shí)1天,預(yù)計(jì)下調(diào)780元/噸,明晚油價(jià)要跌!

金投網(wǎng)
2026-04-20 11:01:32
為什么說(shuō)印度的海岸線(xiàn),遠(yuǎn)看是老天爺賞飯,近看是逗你玩兒?

為什么說(shuō)印度的海岸線(xiàn),遠(yuǎn)看是老天爺賞飯,近看是逗你玩兒?

半解智士
2026-04-16 17:10:39
一個(gè)收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

一個(gè)收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

另子維愛(ài)讀史
2026-04-20 09:36:56
利好突襲!剛剛,火速漲停

利好突襲!剛剛,火速漲停

中國(guó)基金報(bào)
2026-04-20 13:36:02
魯尼:槍手能贏下剩余所有比賽,但曼城可能在埃弗頓身上失分

魯尼:槍手能贏下剩余所有比賽,但曼城可能在埃弗頓身上失分

懂球帝
2026-04-20 11:23:07
季后賽G1總結(jié):都在溫水煮青蛙,只有掘金大火收汁,魔術(shù)太聰明了

季后賽G1總結(jié):都在溫水煮青蛙,只有掘金大火收汁,魔術(shù)太聰明了

鐵甲西奇
2026-04-20 17:40:25
“保障房”真搶不起來(lái)了?北京昌平放號(hào)當(dāng)天,中介刷起了短視頻

“保障房”真搶不起來(lái)了?北京昌平放號(hào)當(dāng)天,中介刷起了短視頻

石辰搞笑日常
2026-04-20 14:50:09
珠海家長(zhǎng):自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

珠海家長(zhǎng):自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

南方都市報(bào)
2026-04-17 15:48:13
快檢查自家陽(yáng)臺(tái)!有人家里已大量出現(xiàn),官方提醒:千萬(wàn)別摸

快檢查自家陽(yáng)臺(tái)!有人家里已大量出現(xiàn),官方提醒:千萬(wàn)別摸

環(huán)球網(wǎng)資訊
2026-04-18 16:23:18
中國(guó)2部門(mén)已追責(zé),新西蘭急找中方對(duì)話(huà),想讓軍機(jī)事件盡快了結(jié)

中國(guó)2部門(mén)已追責(zé),新西蘭急找中方對(duì)話(huà),想讓軍機(jī)事件盡快了結(jié)

青煙小先生
2026-04-20 14:44:20
志愿軍發(fā)現(xiàn)敵軍揮毛巾傳遞信息,頓時(shí)靈光一閃,巧妙設(shè)下圈套獲勝

志愿軍發(fā)現(xiàn)敵軍揮毛巾傳遞信息,頓時(shí)靈光一閃,巧妙設(shè)下圈套獲勝

紀(jì)實(shí)文錄
2025-07-08 14:03:43
烏克蘭開(kāi)始收復(fù)失土,即將進(jìn)行大反攻?俄軍為何打不過(guò)烏軍?

烏克蘭開(kāi)始收復(fù)失土,即將進(jìn)行大反攻?俄軍為何打不過(guò)烏軍?

余生嫵媚小妖精
2026-03-23 16:48:33
活久見(jiàn)!趙櫻子回應(yīng)與楊子戀情,直言不怕黃圣依反擊,想紅想瘋了

活久見(jiàn)!趙櫻子回應(yīng)與楊子戀情,直言不怕黃圣依反擊,想紅想瘋了

八卦王者
2026-04-20 14:10:53
女子離婚分80萬(wàn),回娘家和弟弟,合伙蓋房子,蓋好后被暴打出門(mén)!

女子離婚分80萬(wàn),回娘家和弟弟,合伙蓋房子,蓋好后被暴打出門(mén)!

川渝視覺(jué)
2026-04-20 16:00:06
咱輸?shù)闷?網(wǎng)友批張雪機(jī)車(chē)奪冠是偶然 張雪回應(yīng)2場(chǎng)0冠:這才是常態(tài)

咱輸?shù)闷?網(wǎng)友批張雪機(jī)車(chē)奪冠是偶然 張雪回應(yīng)2場(chǎng)0冠:這才是常態(tài)

風(fēng)過(guò)鄉(xiāng)
2026-04-20 06:58:27
丘吉爾:日本如果不是被原子彈炸過(guò),日本這個(gè)國(guó)家可能就沒(méi)有了

丘吉爾:日本如果不是被原子彈炸過(guò),日本這個(gè)國(guó)家可能就沒(méi)有了

海佑講史
2026-04-20 21:10:03
國(guó)際奧委會(huì):滬蓉廣均不申辦2036奧運(yùn)令人失望

國(guó)際奧委會(huì):滬蓉廣均不申辦2036奧運(yùn)令人失望

觀(guān)察者小海風(fēng)
2026-04-20 16:34:35
車(chē)窗告別貼膜時(shí)代!京東方光幕技術(shù)上車(chē)小鵬、蔚來(lái):0.16秒從透明變黑墻

車(chē)窗告別貼膜時(shí)代!京東方光幕技術(shù)上車(chē)小鵬、蔚來(lái):0.16秒從透明變黑墻

快科技
2026-04-20 19:39:18
世界上“最透明”的國(guó)家:男女不注重隱私,晚上睡覺(jué)連門(mén)都不關(guān)

世界上“最透明”的國(guó)家:男女不注重隱私,晚上睡覺(jué)連門(mén)都不關(guān)

珺瑤婉史
2026-04-20 19:30:13
2026-04-20 21:43:00
碼農(nóng)翻身 incentive-icons
碼農(nóng)翻身
有趣且硬核的技術(shù)文章
252文章數(shù) 645關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

保價(jià)2000元機(jī)蓋運(yùn)輸中損壞 德邦僅愿以1300元回購(gòu)

頭條要聞

保價(jià)2000元機(jī)蓋運(yùn)輸中損壞 德邦僅愿以1300元回購(gòu)

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車(chē)要聞

把天門(mén)山搬進(jìn)廠(chǎng)?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

數(shù)碼
親子
藝術(shù)
教育
公開(kāi)課

數(shù)碼要聞

惠普推出2026款HyperX暗影精靈MAX游戲本

親子要聞

【孤獨(dú)癥科普】啥是孤獨(dú)癥,哪些孩子易發(fā)生,如何應(yīng)對(duì)?

藝術(shù)要聞

王羲之《換鵝帖》尚在人間,驚艷無(wú)比!

教育要聞

關(guān)注!海淀這所學(xué)校不再具備辦學(xué)資格

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版