国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

深度揭秘華為昇騰超節(jié)點(diǎn)!不盲目自信也不妄自菲薄

0
分享至

剛剛,華為聯(lián)合硅基流動(dòng)悄悄發(fā)了一篇論文,把自家的昇騰超節(jié)點(diǎn)CloudMatrix 384狠狠“安利”了一把。

這篇論文有兩大看點(diǎn):

1、詳細(xì)介紹了CloudMatrix384超節(jié)點(diǎn)的硬件架構(gòu):910C芯片、節(jié)點(diǎn)板卡、尤其是UB架構(gòu)。

2、針對(duì)像DeepSeek這樣數(shù)千億參數(shù)、MoE架構(gòu)、超長(zhǎng)上下文的推理需求,如何用軟硬協(xié)同的“菊花寶典”來(lái)搞定。

這份「菊花寶典」,包含CloudMatrix 384超節(jié)點(diǎn)硬件和CloudMatrix-Infer推理優(yōu)化方案。

首先看硬件

華為 CloudMatrix 384 將 384 顆 昇騰 910C NPU、192 顆鯤鵬 CPU 封裝進(jìn)單一“超節(jié)點(diǎn)”,通過(guò) UB(Unified Bus)高帶寬、低時(shí)延總線實(shí)現(xiàn)全互聯(lián),使計(jì)算、內(nèi)存、網(wǎng)絡(luò)資源可池化、等價(jià)訪問(wèn)并獨(dú)立伸縮。

具體的架構(gòu)長(zhǎng)這樣↓

包含三個(gè)平面:①UB平面完成超節(jié)點(diǎn)Scale-up;②RDMA平面,提供多個(gè)超節(jié)點(diǎn)Scale-out;③VPC平面,南北向通信,連接到數(shù)據(jù)中心網(wǎng)絡(luò)。

1、昇騰910C芯片參數(shù)

910C為雙die封裝,每die算力達(dá)到376TFLOPS@FP16或1054TFLOPS@INT8。(比較遺憾的是,910系列不支持FP8,也不支持現(xiàn)在N卡和A卡都在狂帶節(jié)奏的FP4/FP6,期待下一代可以)

板載128GB HBM3顯存,帶寬3.2TB/s。

每die提供7 × 224 Gbps UB 通道 + 200 Gbps RDMA 通道,既能 scale-up 又能 scale-out。

2、昇騰910C子節(jié)點(diǎn)

整個(gè)超節(jié)點(diǎn)由48個(gè)910C子節(jié)點(diǎn)組成。

每個(gè)子節(jié)點(diǎn)板載8張昇騰910C芯片+4張?chǎng)H鵬CPU+7張UB交換芯片,并集成一張擎天DPU卡,負(fù)責(zé)節(jié)點(diǎn)級(jí)資源管理和南北向網(wǎng)絡(luò)連接。

3、UB統(tǒng)一總線架構(gòu)首次揭秘

超級(jí)節(jié)點(diǎn)橫跨了16個(gè)機(jī)架,其中12個(gè)計(jì)算機(jī)架(含48個(gè)昇騰910C節(jié)點(diǎn))、4個(gè)通信機(jī)架,通信機(jī)架其實(shí)就是所謂的UB統(tǒng)一總線。

這很像典型的Spine-Leaf兩層脊葉架構(gòu),一層Leaf集成在每個(gè)910C節(jié)點(diǎn)機(jī)上,二層Spine擱在4個(gè)通信機(jī)架里面。

每個(gè)L1端口對(duì)應(yīng)16條上行鏈路(16×28GB/s),確保整個(gè)超級(jí)節(jié)點(diǎn)網(wǎng)絡(luò)無(wú)阻塞。

UB 架構(gòu)的本質(zhì),是把傳統(tǒng)“CPU-GPU-交換機(jī)多層異構(gòu)系統(tǒng)”壓縮進(jìn)一個(gè)機(jī)柜內(nèi)部的單級(jí)互連域,交付“近芯片級(jí)帶寬 + 微秒級(jí)延遲 + 統(tǒng)一尋址”的算力池。

大家可以看看菊廠給出的節(jié)點(diǎn)內(nèi)和跨節(jié)點(diǎn)通信的帶寬/時(shí)延對(duì)比:跨die帶寬接近die內(nèi)帶寬,單跳時(shí)延接近1微秒。

菊廠不愧是做通信出身的,這UB做得真NB,大模型推理的三個(gè)主要瓶頸(帶寬、延遲、內(nèi)存可用性),UB都提供了顯著改進(jìn)。

正是因?yàn)閁B的存在,CloudMartix才可以放棄傳統(tǒng)Scale out的做法,用Scale up的理念攢一臺(tái)大家伙,來(lái)搞定計(jì)算墻、顯存墻、通信墻。

當(dāng)然,“一菊獨(dú)放不是春,百菊齊放春滿園”,就像下圖一樣,CloudMatrix的遠(yuǎn)景是先Scale-UP,再Scale-Out,組成一片超級(jí)“大菊?qǐng)@”。

再看軟件部分

配套軟件上,華為有自己的“菊版CUDA”,這就是CANN,包括驅(qū)動(dòng)、運(yùn)行時(shí)和庫(kù)三層架構(gòu)。

同時(shí),為了實(shí)現(xiàn)在更大規(guī)模的云環(huán)境中部署 CloudMatrix384,菊廠提供了一套“Matrix全家桶”,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer。

下圖給出了一個(gè)16.5萬(wàn)張卡組成的超大集群的示范,以及在這樣的云平臺(tái)上,全家桶各自的位置。

為了更好的跑DeepSeek這樣的大參數(shù)、MoE、長(zhǎng)上下文模型,菊廠專門(mén)提出了CloudMartrix-Infer推理優(yōu)化方案。

本質(zhì)上講,這是一個(gè)多層級(jí)的軟件優(yōu)化技術(shù),簡(jiǎn)要概括下。

1、PDC 解耦(Prefill-Decode-Caching):
Prefill:16 × NPU 實(shí)例(EP32)專管長(zhǎng)輸入串、首 token 生成。
Decode:160 × NPU 實(shí)例(EP320)追求極低 TPOT 的自回歸生成。
Caching:所有 NPU 通過(guò) UB 總線直連一片分布式 DRAM 池,歷史 KV + 模型權(quán)重都放這兒,誰(shuí)需要誰(shuí) DMA 取。
2、LEP 大規(guī)模專家并行
讓 DeepSeek-R1 的 320 個(gè)專家“一人一核”地?cái)偟?320 個(gè) NPU die 上,通信靠 UB,MoE 延遲不再是瓶頸。
3、硬件友好的優(yōu)化包
Ascend-native算子 + 微批管線并發(fā),通信與計(jì)算重疊。
INT8 五件套量化:混合精度、自適應(yīng)尺度搜索、離群點(diǎn)抑制、高效INT8 GEMM、塊級(jí)剪裁與誤差補(bǔ)償。(彌補(bǔ)昇騰芯片不支持FP8的短板,)

所有這些優(yōu)化手段,在論文中都有超長(zhǎng)篇幅的圖文介紹,詳細(xì)到足以讓你相信,這是菊廠真干成了。

實(shí)戰(zhàn)效果如何

用這套軟硬協(xié)同的“菊花寶典”,進(jìn)行滿血版DeepSeek推理實(shí)戰(zhàn),是一種怎樣的體驗(yàn)?

論文中給出了詳細(xì)的數(shù)據(jù),以及與N記H100/H800對(duì)比。(注意不是比H200更不是B200)

1、Prefill預(yù)填充階段:

在同樣16384×4096 的重載場(chǎng)景里,華為單卡吞吐達(dá)到6688tps,并拿到全場(chǎng)最佳算力利用率(4.45tok/s/TPFOPS)。

2、Decode解碼階段:

在TPOT=50ms的級(jí)別下,華為吞吐達(dá)到每卡1943tps。同樣獲得了最高的算力利用率(1.29tok/s/TFlops)。

而且華為并沒(méi)有使用更大的Batch Size堆吞吐,仍然拿到了高效輸出。

總體來(lái)講,這波實(shí)戰(zhàn)華為客觀的展示了自身的能力,起到了雙重袪魅效果:

①昇騰的確很能打,在單卡通用硬件算力不如H100的前提下,憑超節(jié)點(diǎn)互聯(lián) + 架構(gòu)級(jí)優(yōu)化,實(shí)現(xiàn)整體性能反超。

②昇騰沒(méi)有坊間吃瓜群眾吹得那么能打,一頓操作猛如虎,也只是能跟H100掰掰手腕。

華為通過(guò)這波操作,驗(yàn)證了“超節(jié)點(diǎn)+軟硬協(xié)同”在 LLM 時(shí)代的工程可行性與性能上限,為后續(xù)萬(wàn)億參數(shù)、大稀疏推理平臺(tái)提供了可實(shí)戰(zhàn)的“菊花寶典”。

總之,這篇論文來(lái)得非常及時(shí),讓我們可以既不盲目自信,也不妄自菲薄。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
石破天驚的發(fā)現(xiàn),中國(guó)漢字已正式推至7000年前,別再糾結(jié)夏朝了

石破天驚的發(fā)現(xiàn),中國(guó)漢字已正式推至7000年前,別再糾結(jié)夏朝了

沈言論
2025-12-11 17:05:02
沒(méi)有陽(yáng)剛之氣就別演“大俠”,《鏢人》中謝霆鋒,給內(nèi)娛上了一課

沒(méi)有陽(yáng)剛之氣就別演“大俠”,《鏢人》中謝霆鋒,給內(nèi)娛上了一課

糊咖娛樂(lè)
2026-01-22 11:48:48
茅臺(tái)確認(rèn)“馬茅”包裝少寫(xiě)一撇:消費(fèi)者可更換

茅臺(tái)確認(rèn)“馬茅”包裝少寫(xiě)一撇:消費(fèi)者可更換

中新經(jīng)緯
2026-01-22 07:55:12
方紅衛(wèi),被罷免人大代表職務(wù)

方紅衛(wèi),被罷免人大代表職務(wù)

觀察者網(wǎng)
2026-01-22 17:11:29
俄羅斯發(fā)動(dòng)大規(guī)模空襲,導(dǎo)彈中途居然還會(huì)轉(zhuǎn)向,基輔一半地區(qū)停電

俄羅斯發(fā)動(dòng)大規(guī)??找u,導(dǎo)彈中途居然還會(huì)轉(zhuǎn)向,基輔一半地區(qū)停電

碳基生物關(guān)懷組織
2026-01-20 19:48:05
短短11天 2烏克蘭女將發(fā)聲抵制薩巴倫卡:我的家毀了 她是危險(xiǎn)分子

短短11天 2烏克蘭女將發(fā)聲抵制薩巴倫卡:我的家毀了 她是危險(xiǎn)分子

風(fēng)過(guò)鄉(xiāng)
2026-01-22 10:11:42
北京朝陽(yáng)區(qū)衛(wèi)健委出手!嫣然天使兒童醫(yī)院欠租糾紛有新進(jìn)展

北京朝陽(yáng)區(qū)衛(wèi)健委出手!嫣然天使兒童醫(yī)院欠租糾紛有新進(jìn)展

小陸搞笑日常
2026-01-22 09:50:26
深圳地鐵車(chē)廂兩女生掏出活蛇玩耍,被乘客舉報(bào)!地鐵最新回應(yīng):除軍犬警犬和導(dǎo)盲犬,其他動(dòng)物禁止攜帶

深圳地鐵車(chē)廂兩女生掏出活蛇玩耍,被乘客舉報(bào)!地鐵最新回應(yīng):除軍犬警犬和導(dǎo)盲犬,其他動(dòng)物禁止攜帶

環(huán)球網(wǎng)資訊
2026-01-22 15:27:01
中美一旦開(kāi)戰(zhàn),美軍將全面轟炸中國(guó)?基辛格曾稱:中美正走向懸崖

中美一旦開(kāi)戰(zhàn),美軍將全面轟炸中國(guó)?基辛格曾稱:中美正走向懸崖

通文知史
2026-01-21 18:20:03
耗時(shí)四個(gè)半小時(shí)+決勝搶10,瓦林卡時(shí)隔六年重返澳網(wǎng)第三輪

耗時(shí)四個(gè)半小時(shí)+決勝搶10,瓦林卡時(shí)隔六年重返澳網(wǎng)第三輪

懂球帝
2026-01-22 18:04:11
最后48小時(shí),無(wú)一國(guó)領(lǐng)導(dǎo)人確定出席,普京都不給特朗普留薄面

最后48小時(shí),無(wú)一國(guó)領(lǐng)導(dǎo)人確定出席,普京都不給特朗普留薄面

諦聽(tīng)骨語(yǔ)本尊
2026-01-21 13:27:56
昔年混入紅軍的土匪頭子,建國(guó)后毛主席指示賀晉年:此人一定要抓

昔年混入紅軍的土匪頭子,建國(guó)后毛主席指示賀晉年:此人一定要抓

鶴羽說(shuō)個(gè)事
2026-01-22 11:51:54
21歲國(guó)足李昊:身高187會(huì)說(shuō)西班牙語(yǔ),女友很漂亮 偶像是王大雷

21歲國(guó)足李昊:身高187會(huì)說(shuō)西班牙語(yǔ),女友很漂亮 偶像是王大雷

攬星河的筆記
2026-01-21 19:25:22
北約稱將確保中俄不在格陵蘭島獲得軍事立足點(diǎn),外交部回應(yīng)

北約稱將確保中俄不在格陵蘭島獲得軍事立足點(diǎn),外交部回應(yīng)

澎湃新聞
2026-01-22 16:05:28
打虎!張建龍被查

打虎!張建龍被查

新京報(bào)政事兒
2026-01-22 09:10:16
深圳市龍華區(qū)一店鋪凌晨發(fā)生火情,居民穿睡衣疏散

深圳市龍華區(qū)一店鋪凌晨發(fā)生火情,居民穿睡衣疏散

南方都市報(bào)
2026-01-22 16:56:04
老字號(hào)不坑窮人?成本3塊7,賣(mài)你60!一批中國(guó)老字號(hào)集體塌房!

老字號(hào)不坑窮人?成本3塊7,賣(mài)你60!一批中國(guó)老字號(hào)集體塌房!

阿纂看事
2026-01-20 10:38:13
一盤(pán)未失豪取12連勝!中國(guó)15歲網(wǎng)球天才震撼世界,成澳網(wǎng)奪冠熱門(mén)

一盤(pán)未失豪取12連勝!中國(guó)15歲網(wǎng)球天才震撼世界,成澳網(wǎng)奪冠熱門(mén)

體壇小二哥
2026-01-21 22:28:56
越南數(shù)萬(wàn)名球迷街頭圍觀“中越之戰(zhàn)”,鄭州球迷“混入”其中:中國(guó)隊(duì)進(jìn)球時(shí),周?chē)羌澎o的、我內(nèi)心是沸騰的

越南數(shù)萬(wàn)名球迷街頭圍觀“中越之戰(zhàn)”,鄭州球迷“混入”其中:中國(guó)隊(duì)進(jìn)球時(shí),周?chē)羌澎o的、我內(nèi)心是沸騰的

極目新聞
2026-01-21 12:05:57
以為吳磊要塌,結(jié)果“嫂子”的房先塌了

以為吳磊要塌,結(jié)果“嫂子”的房先塌了

八卦三缺一
2026-01-21 14:32:49
2026-01-22 18:47:00
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1113文章數(shù) 715關(guān)注度
往期回顧 全部

科技要聞

幾千億只是開(kāi)胃菜,AI基建還得再砸?guī)兹f(wàn)億

頭條要聞

加拿大有人眼紅:就算便宜 也別買(mǎi)中國(guó)車(chē)

頭條要聞

加拿大有人眼紅:就算便宜 也別買(mǎi)中國(guó)車(chē)

體育要聞

跑個(gè)步而已,他們?cè)谌际裁矗?/h3>

娛樂(lè)要聞

田亮一家新年全家福!森碟變清純少女

財(cái)經(jīng)要聞

潘功勝:繼續(xù)實(shí)施好適度寬松的貨幣政策

汽車(chē)要聞

配備多塊娛樂(lè)屏 極氪8X內(nèi)飾曝光

態(tài)度原創(chuàng)

手機(jī)
教育
本地
健康
時(shí)尚

手機(jī)要聞

iQOO15 Ultra雙配色登場(chǎng) 以代號(hào)演繹未來(lái)科技

教育要聞

上海財(cái)經(jīng)大學(xué)排名怎么樣?全國(guó)前四,力壓清北復(fù)交的好選擇?

本地新聞

云游中國(guó)|格爾木的四季朋友圈,張張值得你點(diǎn)贊

打工人年終總結(jié)!健康通關(guān)=贏麻了

2026大預(yù)測(cè)!這4件衣服今年必火

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版