国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型進(jìn)入萬億參數(shù)時(shí)代,超節(jié)點(diǎn)是唯一“解”么?丨ToB產(chǎn)業(yè)觀察

0
分享至


模型發(fā)展的兩極化趨勢(shì)已經(jīng)愈發(fā)明顯,一方面,在企業(yè)級(jí)應(yīng)用側(cè),小參數(shù)模型成為應(yīng)用落地的最佳選擇;另一方面,通用大模型的參數(shù)正在不斷攀升,大模型已經(jīng)進(jìn)入了萬億參數(shù)時(shí)代。

當(dāng)前,MoE (Mixture of Experts)高效模型架構(gòu)正在驅(qū)動(dòng)大模型參數(shù)規(guī)模持續(xù)提升,比如采用 MoE混合專家架構(gòu)的KIMI K2開源模型,其總參數(shù)量達(dá)1.2萬億,但每個(gè)Token 推理時(shí)僅激活32B參數(shù)。

算力系統(tǒng)面臨挑戰(zhàn)

隨著模型參數(shù)的不斷增加,萬億參數(shù)模型時(shí)代已經(jīng)到來,無論是KIMI K2,還是GPT、Grok,參數(shù)量都已經(jīng)發(fā)展到萬億階段,而萬億參數(shù)的模型也對(duì)算力系統(tǒng)架構(gòu)提出新的挑戰(zhàn)。

首先要面臨的就是龐大算力需求。萬億參數(shù)模型的訓(xùn)練需要極高的算力支撐。以GPT-3為例,其1750億參數(shù)的訓(xùn)練量相當(dāng)于在2.5萬張A100 GPU上運(yùn)行90-100天。萬億參數(shù)模型的算力需求可能達(dá)到數(shù)十倍,傳統(tǒng)計(jì)算架構(gòu)難以滿足。

同時(shí),模型并行和數(shù)據(jù)并行的分布式訓(xùn)練雖能分?jǐn)傆?jì)算壓力,但跨節(jié)點(diǎn)的通信開銷(如梯度同步)會(huì)顯著降低算力利用率。例如,GPT-4訓(xùn)練的算力利用率(MFU)僅為32%-36%,主要受限于顯存帶寬導(dǎo)致的“內(nèi)存墻”問題。

此外,超大規(guī)模MoE模型的訓(xùn)練穩(wěn)定性也是不小的挑戰(zhàn)。參數(shù)規(guī)模和數(shù)據(jù)體量的激增會(huì)導(dǎo)致梯度范數(shù)頻繁突刺,影響收斂效率。同時(shí),模型參數(shù)量的增加以及序列長(zhǎng)度的增加將會(huì)帶來KV cache(鍵值緩存,Transformer架構(gòu)大模型在推理過程中常用的一種優(yōu)化技術(shù)),數(shù)量的激增,尤其是序列長(zhǎng)度的增加可能會(huì)帶來指數(shù)級(jí)的KV cache存儲(chǔ)空間的需求。

以FP16格式計(jì)算,萬億參數(shù)模型僅權(quán)重就需約20TB顯存,加上KV cache、激活值等動(dòng)態(tài)數(shù)據(jù),實(shí)際內(nèi)存需求可能超過50TB。例如,GPT-3的1750億參數(shù)需350GB顯存,而萬億參數(shù)模型可能需要2.3TB,遠(yuǎn)超單卡顯存容量(如H100的120GB)。此外,長(zhǎng)序列(如2000K Tokens)的訓(xùn)練會(huì)使計(jì)算復(fù)雜度呈平方級(jí)增長(zhǎng),進(jìn)一步加劇內(nèi)存壓力。這些需求遠(yuǎn)超過了傳統(tǒng)AI服務(wù)器的顯存能力極限,亟需構(gòu)建具有更大顯存空間的計(jì)算系統(tǒng)承載,才能解決模型“放得下”的問題。

此外,MoE架構(gòu)的路由機(jī)制容易導(dǎo)致專家負(fù)載不均衡,部分專家因過度使用成為計(jì)算瓶頸,而其他專家則訓(xùn)練不足。具體來看,傳統(tǒng)局部負(fù)載均衡損失(Micro-batch LBL)會(huì)阻礙專家領(lǐng)域特化,因?yàn)閱蝹(gè)Micro-batch的數(shù)據(jù)分布往往單一。

對(duì)此,阿里云提出了全局負(fù)載均衡損失(Global-batch LBL),通過跨Micro-batch同步專家激活頻率,在保障全局均衡的同時(shí)允許局部波動(dòng),顯著提升了模型性能(平均PPL降低 1.5 個(gè)點(diǎn))。

此外,當(dāng)大模型技術(shù)方向逐漸從訓(xùn)練轉(zhuǎn)向推理場(chǎng)景,清程極智CEO湯雄超在WAIC 2025期間曾向筆者表示,AI技術(shù)的主要方向,已經(jīng)從預(yù)訓(xùn)練轉(zhuǎn)向了后訓(xùn)練及推理階段,“算力需求也正在從訓(xùn)練側(cè),轉(zhuǎn)向推理側(cè)。”湯雄超指出。

大模型推理屬于敏感型計(jì)算,對(duì)分布式計(jì)算通信延時(shí)要求很高,以MoE架構(gòu)模型為例,其分布式訓(xùn)練涉及大量跨設(shè)備通信,如Token分發(fā)與結(jié)果聚合,通信時(shí)間占比可高達(dá)40%。浪潮信息副總經(jīng)理趙帥表示,在此背景下,企業(yè)需要構(gòu)建更大Scale Up高速互連域。

總體來看,趙帥告訴筆者,萬億模型對(duì)算力系統(tǒng)也提出了很大挑戰(zhàn),“企業(yè)需要具有更大顯存空間、更大高速互連域、更高算力的超節(jié)點(diǎn)系統(tǒng)支持。”趙帥指出。

構(gòu)建大規(guī)模Scale Up系統(tǒng)或是最優(yōu)解

面對(duì)算力需求的增加,以及新需求所帶來的挑戰(zhàn),傳統(tǒng)Scale Out 集群通過增加節(jié)點(diǎn)數(shù)量擴(kuò)展算力,但節(jié)點(diǎn)間通信瓶頸(如InfiniBand 的10微秒時(shí)延)在萬億參數(shù)模型訓(xùn)練中被無限放大。單節(jié)點(diǎn)已經(jīng)不能滿足超大規(guī)模參數(shù)模型的訓(xùn)練需求,Scale Up系統(tǒng)通過超節(jié)點(diǎn)技術(shù),將數(shù)百顆AI芯片封裝為統(tǒng)一計(jì)算實(shí)體,實(shí)現(xiàn)跨節(jié)點(diǎn)通信性能接近節(jié)點(diǎn)內(nèi)水平。

從大模型應(yīng)用角度出發(fā),面對(duì)單點(diǎn)算力/顯存的天花板,構(gòu)建大規(guī)模Scale Up 系統(tǒng),通過并行計(jì)算技術(shù)(如專家并行、張量并行)將模型權(quán)重與KV Cache拆分到多個(gè)AI芯片上協(xié)同工作,在趙帥看來,這種路徑是解決萬億參數(shù)模型計(jì)算挑戰(zhàn)的唯一可行路徑!拔覀冃枰獦(gòu)建大規(guī)模、高集成度的Scale Up系統(tǒng),通過緊密耦合大量的AI芯片形成單一高速互連域,才能匯聚起超大顯存池以承載模型,并通過優(yōu)化互連拓?fù)渑c協(xié)議實(shí)現(xiàn)芯片間超低延遲、高帶寬通信,從而滿足萬億模型推理‘放得下、算得快’的要求!壁w帥指出。

通過Scale Up系統(tǒng)的方式,已經(jīng)成為未來萬億參數(shù)模型的必然趨勢(shì),對(duì)于萬億大模型推理,不僅需要構(gòu)建更大的顯存空間,還需要實(shí)現(xiàn)卡間超低延遲的互連,構(gòu)建更大的scale up高速互連域。

除了構(gòu)建龐大的系統(tǒng)之外,多芯片協(xié)同也是目前企業(yè)較為常用的一種方式,將多枚芯片封裝到一個(gè)計(jì)算帶上,縮短芯片間的距離,以實(shí)現(xiàn)更高的性能。

針對(duì)此,服務(wù)器廠商也在尋找新的技術(shù)方向,以滿足客戶在超大規(guī)模參數(shù)模型訓(xùn)推方面的需求。以浪潮信息為例,在近日舉辦的2025開放計(jì)算技術(shù)大會(huì)上,浪潮信息就發(fā)布了面向萬億參數(shù)大模型的超節(jié)點(diǎn)AI服務(wù)器“元腦SD200”。趙帥向筆者介紹道,該產(chǎn)品基于浪潮信息創(chuàng)新研發(fā)的多主機(jī)低延遲內(nèi)存語義通信架構(gòu),以開放系統(tǒng)設(shè)計(jì)聚合64路本土GPU芯片。

具體來看,此次發(fā)布的元腦SD200在可單機(jī)運(yùn)行1.2萬億參數(shù)Kimi K2模型的同時(shí),還支持DeepSeek、Qwen、GLM等模型同時(shí)運(yùn)行,并支持多Agent協(xié)同按需調(diào)用!皹(gòu)建具有更大顯存空間、更大scale up高速互連域,以及更高算力的超節(jié)點(diǎn)系統(tǒng),應(yīng)對(duì)萬億模型的算力挑戰(zhàn)!壁w帥與筆者分享了浪潮信息推出元腦SD200的“初心”。

從系統(tǒng)開放協(xié)同角度出發(fā),元腦SD200基于全局路由自動(dòng)構(gòu)建技術(shù),得以實(shí)現(xiàn)64卡P2P全互連與業(yè)務(wù)感知的拓補(bǔ)動(dòng)態(tài)切換,并配合多層級(jí)通信機(jī)制,降低了All Reduce/All Gather 時(shí)延。

與此同時(shí),依托開放PD分離框架,支持異步KV Cache高效傳輸與差異化并行策略,在提升業(yè)務(wù)SLO的同時(shí)保持對(duì)多元算力的兼容性,實(shí)現(xiàn)計(jì)算與通信架構(gòu)的深度協(xié)同優(yōu)化。

從架構(gòu)創(chuàng)新角度出發(fā),元腦SD200采用了多主機(jī)3D Mesh系統(tǒng)架構(gòu),基于Open Fabric Switch實(shí)現(xiàn)64路GPU高速互連。面對(duì)為何選擇創(chuàng)新性的3D Mesh系統(tǒng)架構(gòu)的提問,趙帥表示,3D Mesh系統(tǒng)架構(gòu)能夠讓服務(wù)器擁有一個(gè)更大的、統(tǒng)一地址的顯存空間,“通過3D Mesh系統(tǒng)架構(gòu),將原先單機(jī)8卡全互連拓展到了多機(jī),跨域互連!壁w帥指出。

從應(yīng)用角度出發(fā),隨著推理場(chǎng)景的不斷發(fā)展,對(duì)低延遲的要求也越來越高,這也導(dǎo)致了Scale Up會(huì)成為接下來技術(shù)重點(diǎn)發(fā)展的方向,“Scale Out技術(shù)已經(jīng)相對(duì)成熟,同時(shí),在推理場(chǎng)景中,Scale Up是首先需要解決的問題,這也讓Scale Up成為未來大模型技術(shù)發(fā)展重點(diǎn)探索的領(lǐng)域,”趙帥進(jìn)一步指出,“但這也并不意味著Scale Out就不適用了,Scale Up與Scale Out會(huì)保持同步前行的狀態(tài)。”

軟硬協(xié)同是關(guān)鍵

Scale Up的發(fā)展除了硬件架構(gòu)的變革之外,也離不開軟件系統(tǒng)的搭建,只有做好軟硬協(xié)同,才能激發(fā)芯片更大的潛能,提升算力利用率。

當(dāng)前,軟硬協(xié)同是解決萬億參數(shù)大模型算力瓶頸的核心路徑,其本質(zhì)是通過軟件層深度適配硬件特性、硬件層針對(duì)性支撐軟件需求,實(shí)現(xiàn)“1+1>2”的效率躍升。

硬件能力的釋放需軟件層深度適配,比如,字節(jié)跳動(dòng) COMET 技術(shù)通過動(dòng)態(tài) KV 緩存重組,將MoE模型的通信延遲從0.944秒降至 0.053 秒,使超節(jié)點(diǎn)硬件利用率突破 90%。若缺乏軟件優(yōu)化,即使硬件帶寬提升 10 倍,實(shí)際通信效率可能僅提升 2-3 倍。

基于此,趙帥表示,通過多年,歷經(jīng)從實(shí)驗(yàn)室到應(yīng)用,再到用戶POC的過程,浪潮信息發(fā)現(xiàn),軟件在超節(jié)點(diǎn)復(fù)雜的系統(tǒng)中,發(fā)揮著重要的作用,“當(dāng)scale up鏈路復(fù)雜程度逐漸升高之后,就更需要對(duì)其進(jìn)行更為細(xì)致的監(jiān)控和管理,”趙帥進(jìn)一步指出,“這種監(jiān)控和管理與之前單機(jī)內(nèi)的監(jiān)控管理相比,復(fù)雜度更高,同時(shí)還需要在上層實(shí)現(xiàn)匹配創(chuàng)新系統(tǒng)架構(gòu)的應(yīng)用框架。”

以此次浪潮信息發(fā)布的元腦SD200為例,其中就針對(duì)3D Mesh系統(tǒng)架構(gòu)開發(fā)了一套PD分離框架,但受限于PD分離技術(shù)定制化程度高、開源方案經(jīng)驗(yàn)少等特點(diǎn),趙帥表示,在整體開發(fā)過程中,還是經(jīng)歷了很長(zhǎng)的POC環(huán)節(jié),才將軟硬協(xié)同做到最優(yōu)。

除此之外,數(shù)據(jù)中心就像一枚硬幣,一面是要面對(duì)日益增加的單機(jī)柜功率,另一面是要有序推進(jìn)碳中和進(jìn)程,如何平衡好硬幣的兩面,也是當(dāng)前企業(yè)需要考慮的因素。尤其是使用超節(jié)點(diǎn),其功耗密度已達(dá)兆瓦級(jí)(如萬卡集群功耗 > 10MW),軟硬協(xié)同是破局關(guān)鍵,若軟件未適配硬件的動(dòng)態(tài)功耗調(diào)節(jié),可能導(dǎo)致芯片長(zhǎng)期處于高功耗狀態(tài),甚至引發(fā)過熱降頻。

萬億參數(shù)大模型的爆發(fā)式增長(zhǎng),正推動(dòng)算力系統(tǒng)進(jìn)入從“量變”到“質(zhì)變”的關(guān)鍵轉(zhuǎn)折期。龐大的參數(shù)規(guī)模、激增的顯存需求、復(fù)雜的通信開銷,以及MoE架構(gòu)帶來的負(fù)載均衡與訓(xùn)練穩(wěn)定性挑戰(zhàn),共同指向一個(gè)核心命題:傳統(tǒng)算力架構(gòu)已難以承載智能進(jìn)化的新需求。在此背景下,硬件架構(gòu)的創(chuàng)新需要軟件層的精準(zhǔn)適配,從動(dòng)態(tài)KV cache重組到全局負(fù)載均衡策略,從通信協(xié)議優(yōu)化到功耗智能調(diào)控,軟件系統(tǒng)正在成為釋放硬件潛能的“鑰匙”。唯有讓硬件特性與軟件需求形成閉環(huán),才能真正突破“內(nèi)存墻”、“通信墻”的桎梏,將超節(jié)點(diǎn)的算力優(yōu)勢(shì)轉(zhuǎn)化為大模型落地的實(shí)際效能。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達(dá))

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
第一批免簽去俄羅斯的中產(chǎn)傻眼了

第一批免簽去俄羅斯的中產(chǎn)傻眼了

風(fēng)向觀察
2025-12-16 18:26:08
日本加息,為什么日元反而暴跌了?假期前要出事?

日本加息,為什么日元反而暴跌了?假期前要出事?

匯通網(wǎng)
2025-12-19 20:25:16
截胡國(guó)安失!海港豪擲千萬簽新援,冬窗將簽4將,趁火打劫蓉城

截胡國(guó)安失敗!海港豪擲千萬簽新援,冬窗將簽4將,趁火打劫蓉城

體壇鑒春秋
2025-12-19 13:49:23
首先回應(yīng)俄烏局勢(shì),經(jīng)濟(jì)民生也是重點(diǎn),普京“年度盤點(diǎn)”傳遞俄核心關(guān)切

首先回應(yīng)俄烏局勢(shì),經(jīng)濟(jì)民生也是重點(diǎn),普京“年度盤點(diǎn)”傳遞俄核心關(guān)切

環(huán)球網(wǎng)資訊
2025-12-20 06:52:08
“插座一哥”公牛怒了

“插座一哥”公牛怒了

中國(guó)新聞周刊
2025-12-19 15:32:41
據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

忠于法紀(jì)
2025-12-04 11:25:07
斯諾克賽場(chǎng)驚現(xiàn)“交白卷”

斯諾克賽場(chǎng)驚現(xiàn)“交白卷”

五星體育
2025-12-19 18:34:08
天津警方通報(bào):劉某某(男,23歲,該醫(yī)院護(hù)士)多次在護(hù)士辦公室內(nèi)實(shí)施偷拍行為并上傳網(wǎng)絡(luò),已被抓獲

天津警方通報(bào):劉某某(男,23歲,該醫(yī)院護(hù)士)多次在護(hù)士辦公室內(nèi)實(shí)施偷拍行為并上傳網(wǎng)絡(luò),已被抓獲

新京報(bào)政事兒
2025-12-19 16:19:04
官方發(fā)文,高調(diào)官宣56歲王菲喜訊,讓謝霆鋒和整個(gè)娛樂圈沉默了

官方發(fā)文,高調(diào)官宣56歲王菲喜訊,讓謝霆鋒和整個(gè)娛樂圈沉默了

阿銍武器裝備科普
2025-12-18 16:00:20
“廉價(jià)包包”與“高級(jí)包包”差別太大,看對(duì)比圖就知道,你也有嗎

“廉價(jià)包包”與“高級(jí)包包”差別太大,看對(duì)比圖就知道,你也有嗎

八分搭配
2025-12-20 08:02:13
歷史上這些沒能繼位的太子,遺憾程度該如何排名?

歷史上這些沒能繼位的太子,遺憾程度該如何排名?

淮下書生
2025-12-18 17:32:04
1956年國(guó)共秘密談判時(shí),周總理稱:臺(tái)灣如回歸,蔣介石父子可到中央擔(dān)任要職

1956年國(guó)共秘密談判時(shí),周總理稱:臺(tái)灣如回歸,蔣介石父子可到中央擔(dān)任要職

桃煙讀史
2025-12-17 18:58:11
副軍長(zhǎng)編造理由不參加授銜,被彭德懷追著打,彭總大罵:不成器

副軍長(zhǎng)編造理由不參加授銜,被彭德懷追著打,彭總大罵:不成器

歷史龍?jiān)w
2025-12-19 07:15:06
我退休后回老家養(yǎng)老,村書記擺架子要給我上一課,不料縣長(zhǎng)來考察

我退休后回老家養(yǎng)老,村書記擺架子要給我上一課,不料縣長(zhǎng)來考察

五元講堂
2025-12-04 11:49:42
警惕!12月后不換社保卡,醫(yī)保報(bào)銷將面臨大問題!

警惕!12月后不換社?ǎt(yī)保報(bào)銷將面臨大問題!

復(fù)轉(zhuǎn)這些年
2025-12-19 23:48:14
現(xiàn)代沖突戰(zhàn)略默契:誰先動(dòng)用150公里射程的大殺器,誰就掀翻整張談判桌

現(xiàn)代沖突戰(zhàn)略默契:誰先動(dòng)用150公里射程的大殺器,誰就掀翻整張談判桌

Hi秒懂科普
2025-12-17 19:30:07
本場(chǎng)DNP洛夫頓,盧偉:上場(chǎng)失利他要負(fù)責(zé)任,我不該讓他繼續(xù)打

本場(chǎng)DNP洛夫頓,盧偉:上場(chǎng)失利他要負(fù)責(zé)任,我不該讓他繼續(xù)打

懂球帝
2025-12-19 22:33:29
越南再論中越戰(zhàn)爭(zhēng):若中國(guó)五日內(nèi)不撤軍,諒山主力或遭全殲,最終結(jié)局怎樣?

越南再論中越戰(zhàn)爭(zhēng):若中國(guó)五日內(nèi)不撤軍,諒山主力或遭全殲,最終結(jié)局怎樣?

孔孔說體育
2025-12-19 07:08:27
掛著“干死豆包”標(biāo)語?阿里千問相關(guān)人員:假的

掛著“干死豆包”標(biāo)語?阿里千問相關(guān)人員:假的

看看新聞Knews
2025-12-19 19:04:09
35歲后,真的一天不如一天!研究發(fā)現(xiàn):體能從40歲起“斷崖式”下降,但運(yùn)動(dòng)可顯著延緩衰退

35歲后,真的一天不如一天!研究發(fā)現(xiàn):體能從40歲起“斷崖式”下降,但運(yùn)動(dòng)可顯著延緩衰退

醫(yī)諾維
2025-12-17 17:11:24
2025-12-20 09:28:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
127818文章數(shù) 861507關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

牛彈琴:歐洲最后還是慫了 最打臉的就是馮德萊恩

頭條要聞

牛彈琴:歐洲最后還是慫了 最打臉的就是馮德萊恩

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

十大熱詞回顧2025中國(guó)經(jīng)濟(jì)

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

健康
房產(chǎn)
教育
游戲
公開課

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

教育要聞

你怎么看待冬天跑步就怎么看待人生道路的選擇

WBG2-1擊敗JDG,德杯首秀成功!jiejie發(fā)揮出色,中野配合完美

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版