国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

無(wú)問芯穹FUSCO以「空中變陣」突破MoE通信瓶頸,專為Agent爆發(fā)設(shè)計(jì)

0
分享至



機(jī)器之心發(fā)布

隨著 ChatGPT、Gemini、DeepSeek-V3、Kimi-K2 等主流大模型紛紛采用混合專家架構(gòu)(Mixture-of-Experts, MoE)及專家并行策略(Expert Parallelism, EP),MoE 技術(shù)已在產(chǎn)業(yè)應(yīng)用中逐漸成為主流。

與此同時(shí),以代碼智能體、Cursor 類對(duì)話式 IDE 為代表的新型應(yīng)用,一方面顯著推高了用戶請(qǐng)求規(guī)模,另一方面大幅拉長(zhǎng)了單次推理的上下文長(zhǎng)度,兩者均呈現(xiàn)出一個(gè)數(shù)量級(jí)以上的增長(zhǎng)。在 MoE 架構(gòu)下,這種變化不僅線性放大了計(jì)算開銷,還顯著增加了跨專家的通信與調(diào)度成本,使得整體系統(tǒng)壓力接近一個(gè)數(shù)量級(jí)提升,并在規(guī)?;?wù)場(chǎng)景中進(jìn)一步被放大。

MoE 模型因其結(jié)構(gòu)上的稀疏性與專家并行特性,天然引入了頻繁且規(guī)模龐大的全局分布式數(shù)據(jù)交換。而當(dāng)前主流通信庫(kù)及解決方案(如 DeepEP)仍基于 “通信與數(shù)據(jù)布局解耦” 的傳統(tǒng)設(shè)計(jì)假設(shè),難以高效應(yīng)對(duì)實(shí)際生產(chǎn)中的跨設(shè)備、非連續(xù)、動(dòng)態(tài)重排的數(shù)據(jù)訪問模式,在高并發(fā)、長(zhǎng)上下文與大規(guī)模專家配置的場(chǎng)景下,DeepEP 性能已逐漸趨近瓶頸,直接制約了 MoE 大模型的持續(xù)落地、系統(tǒng)穩(wěn)定擴(kuò)展與經(jīng)濟(jì)性運(yùn)行。



  • 論文地址:https://www.arxiv.org/abs/2512.22036
  • 開源地址:https://github.com/infinigence/FUSCO

基于此,無(wú)問芯穹聯(lián)合清華大學(xué)、中關(guān)村學(xué)院、上海交大及南加州大學(xué),面向 MoE 模型結(jié)構(gòu)和 EP 并行策略場(chǎng)景,推出高效通信庫(kù) “FUSCO”。

這是一種全新的融合式通信優(yōu)化路徑:將通信過程與數(shù)據(jù)底層布局主動(dòng)協(xié)同,在數(shù)據(jù)搬運(yùn)的同時(shí)完成布局轉(zhuǎn)換,從而徹底消除冗余的數(shù)據(jù)重排操作。

這一設(shè)計(jì)將融合優(yōu)化的邊界從傳統(tǒng)的計(jì)算算子之間融合,拓展至通信與數(shù)據(jù)操作之間的跨層融合,揭示了大模型訓(xùn)練與推理中一個(gè)此前未被充分挖掘的優(yōu)化新空間。在此基礎(chǔ)上,F(xiàn)USCO 可自動(dòng)實(shí)現(xiàn)負(fù)載均衡與冗余通信消除,并在不同 GPU 架構(gòu)與網(wǎng)絡(luò)拓?fù)湎卤3至己玫目梢浦残?,為大?guī)模模型的端到端執(zhí)行提供了一種更具系統(tǒng)性的融合優(yōu)化路徑。

實(shí)驗(yàn)表明,相較于 NCCL 和 DeepSeek 的 DeepEP 通信庫(kù),F(xiàn)USCO 的通信性能可最高分別提升 3.84 倍和 2.01 倍。且在實(shí)際部署場(chǎng)景中,隨著并發(fā)請(qǐng)求數(shù)和文本長(zhǎng)度(例如達(dá)到 2048K tokens)的增加,其性能優(yōu)勢(shì)將進(jìn)一步擴(kuò)大。這為基于 MoE 模型的推理、訓(xùn)練的各類 Agent 場(chǎng)景提供了有力支持。

背景

MoE 專家并行架構(gòu)下的通信與數(shù)據(jù)重排瓶頸

在大規(guī)模 MoE 模型的訓(xùn)練和推理中,單個(gè) GPU 往往無(wú)法承載完整模型權(quán)重或處理全部 token。因而系統(tǒng)通常引入專家并行(Expert Parallelism),將不同專家分布在多個(gè) GPU 上,以提升計(jì)算吞吐并擴(kuò)展模型容量。盡管該策略有效提升了可擴(kuò)展性,但也引入了新的性能瓶頸:token 需要在不同專家所在的 GPU 之間進(jìn)行跨設(shè)備的數(shù)據(jù)重排與通信,形成分布式數(shù)據(jù)重排(Distributed Data Shuffling)過程,其典型執(zhí)行流程包括:

  1. 通信前的 token 重排:根據(jù) token–expert 的映射關(guān)系確定目標(biāo) GPU,并將 token 按目標(biāo) GPU 的通信布局重新排列,以滿足 All-to-All 的數(shù)據(jù)組織要求;
  2. 跨 GPU 的 All-to-All 通信:重排后的 token 通過 All-to-All 通信發(fā)送至對(duì)應(yīng)專家所在的 GPU;
  3. 通信后的 token 重排:每個(gè) GPU 根據(jù)其本地承載的專家集合,對(duì)接收到的 token 進(jìn)一步按專家進(jìn)行排列,并完成對(duì)應(yīng)專家的計(jì)算;
  4. 鏡像式的合并 (Combine) 過程:在專家計(jì)算完成后,系統(tǒng)按與上述過程相反的順序,依次執(zhí)行本地逆向重排、All-to-All 通信以及最終的 token 順序恢復(fù),以保證輸出與原始 token 順序一致。

傳統(tǒng)集合通信庫(kù)遵循 “通信與數(shù)據(jù)布局解耦” 的設(shè)計(jì)范式:通信被視為對(duì)連續(xù)數(shù)據(jù)塊的被動(dòng)搬運(yùn),而數(shù)據(jù)在模型執(zhí)行過程中所固有的布局語(yǔ)義(如視圖變換、維度重排與切片關(guān)系)通常被忽略。這一抽象雖然簡(jiǎn)化了接口,卻在大模型訓(xùn)練與推理中引入了大量隱式的中間張量重排與內(nèi)存拷貝,成為制約端到端效率的重要瓶頸。



隨著專家并行規(guī)模的擴(kuò)大,上述過程的開銷呈上升趨勢(shì)。訓(xùn)練和推理的吞吐雖然隨更多設(shè)備的參與而提升,但分布式數(shù)據(jù)重排在端到端總延遲中所占比例總體上不斷增加。

這一現(xiàn)象主要源于隨著專家分布在更多設(shè)備上,token 在設(shè)備間的傳輸量增加,同時(shí)全局同步成本也隨之上升。每個(gè) token 都必須在參與 GPU 間交換和重排,這相對(duì)于計(jì)算增加了額外的延遲。盡管專家內(nèi)部的前饋計(jì)算仍然高效,但在更高的專家并行度和更大集群規(guī)模下,分布式數(shù)據(jù)重排已成為端到端性能的重要瓶頸。

為量化這一過程的開銷,我們進(jìn)一步對(duì)一次通信前后的數(shù)據(jù)重排與通信本身進(jìn)行了細(xì)致分析。以 32 MB 數(shù)據(jù)為例,使用 PyTorch 的 index_select 算子模擬本地重排操作,并分別在機(jī)內(nèi)(NVLink)和跨機(jī)(RoCE)環(huán)境下,結(jié)合 NCCL 的 send/recv 原語(yǔ)測(cè)量通信延遲。



結(jié)果顯示,重排操作在總 shuffle 時(shí)間中的占比分別高達(dá) 68.8%(機(jī)內(nèi))和 25%(跨機(jī))。這說明 MoE 中的數(shù)據(jù)移動(dòng)瓶頸不僅來(lái)自網(wǎng)絡(luò)帶寬限制,還受限于內(nèi)存綁定的數(shù)據(jù)重排操作。并且,隨著互聯(lián)效率不斷提升,通信本身變得更快,若數(shù)據(jù)重排開銷保持不變,其在總執(zhí)行時(shí)間中的占比將更突出。

此外,傳統(tǒng)的 All-to-All 通信對(duì) token 冗余和網(wǎng)絡(luò)層次缺乏感知。在實(shí)際 MoE 工作負(fù)載中,同一 token 可能被路由到同一節(jié)點(diǎn)上不同 GPU 的多個(gè)專家,但在當(dāng)前通信實(shí)現(xiàn)中,這些重復(fù) token 會(huì)被序列化發(fā)送多次,造成帶寬浪費(fèi)和通信效率下降。現(xiàn)有優(yōu)化方案如 DeepEP 雖然引入了跨機(jī)去重,但高度依賴特定網(wǎng)絡(luò)硬件,部署范圍有限,且未消除通信前后的數(shù)據(jù)重排,在通用 MoE 場(chǎng)景中的優(yōu)化效果仍有限。

FUSCO 設(shè)計(jì)解析

如何讓大規(guī)模的分布式數(shù)據(jù)交換既高效又輕量?

FUSCO 的核心思路在于認(rèn)識(shí)到:數(shù)據(jù)重排本質(zhì)上就是一次數(shù)據(jù)布局的變換,而通信本身已經(jīng)定義了數(shù)據(jù)該如何被拆分、發(fā)送和放置。因此,與其在通信前后引入額外的布局調(diào)整,不如順著通信過程本身來(lái)完成布局變換。

基于這一觀察,我們提出了一種數(shù)據(jù)與通信協(xié)同設(shè)計(jì)的方法,在數(shù)據(jù)傳輸?shù)倪^程中同步完成布局變換,從而避免將數(shù)據(jù)通信與數(shù)據(jù)重排變換分離執(zhí)行的傳統(tǒng)做法。每個(gè)數(shù)據(jù)段(LLM 中的 token)在傳輸?shù)倪^程中即完成排列和發(fā)送,從而既減少了額外拷貝,也最大化利用了 GPU 和網(wǎng)絡(luò)帶寬。



融合重排的通信:讓數(shù)據(jù)在傳輸中一步到位完成布局變換

為實(shí)現(xiàn)數(shù)據(jù)在傳輸過程中即完成重排,FUSCO 打破了將重排視為獨(dú)立步驟的傳統(tǒng)思路,從上到下協(xié)同設(shè)計(jì)通信接口和底層算子:接口層負(fù)責(zé)精確表達(dá)數(shù)據(jù) “從哪里來(lái)、到哪里去” 的布局語(yǔ)義,而算子層則負(fù)責(zé)在一次通信執(zhí)行路徑中高效地落實(shí)這些語(yǔ)義。

通過將布局描述與通信執(zhí)行緊密綁定,FUSCO 構(gòu)建了一條從接口到算子的貫通路徑,使數(shù)據(jù)重排不再是獨(dú)立的前后處理,而是被自然地融合進(jìn)通信過程本身

(1)通信接口設(shè)計(jì)

在專家并行中,各個(gè)設(shè)備上的原始數(shù)據(jù)通常是一個(gè)大的連續(xù)張量,由多個(gè) token 組成。經(jīng)過 MoE 路由后,不同 token 可能被分配到不同的設(shè)備,而路由到同一設(shè)備的 token 往往在張量中呈離散分布,而非連續(xù)的一塊。每個(gè) token 的大小通常在 4KB 到 14KB 之間,需要發(fā)送到該設(shè)備上的不同專家。

所謂 “數(shù)據(jù)重排”,本質(zhì)上是在通信前,將這些離散 token 按目標(biāo)設(shè)備和對(duì)應(yīng)專家進(jìn)行組織,并在通信完成后將它們正確地放置到各自的目標(biāo)位置。

為了簡(jiǎn)化討論,先考慮兩個(gè)設(shè)備之間的一次單向傳輸。為精確描述這些離散數(shù)據(jù)的布局,我們將通信數(shù)據(jù)抽象為一組邏輯段。每個(gè)段對(duì)應(yīng)內(nèi)存中一小段連續(xù)數(shù)據(jù),F(xiàn)USCO 用一個(gè)稱為段描述符的數(shù)據(jù)結(jié)構(gòu)記錄其起始地址。在通信過程中,一端并不直接操作原始張量,而是根據(jù)連續(xù)的段描述符序列,從張量的對(duì)應(yīng)位置讀取或?qū)懭霐?shù)據(jù),從而實(shí)現(xiàn)對(duì)離散 token 的精確訪問和操作。

在發(fā)送端,這個(gè)描述符序列規(guī)定了通信負(fù)載如何從源張量中被逐段讀?。辉诮邮斩?,對(duì)應(yīng)的描述符序列則明確了每一段數(shù)據(jù)在目標(biāo)內(nèi)存中的落點(diǎn)。

基于上述段描述符序列的創(chuàng)新設(shè)計(jì),F(xiàn)USCO 以兩個(gè)互補(bǔ)的通語(yǔ)實(shí)現(xiàn)其通信接口:

  • gather-send:發(fā)送端依據(jù)本地的段描述符序列,按順序從多個(gè)不連續(xù)位置讀取段數(shù)據(jù)并發(fā)起發(fā)送;
  • scatter-recv:接收端依據(jù)自身的段描述符序列,將接收到的段數(shù)據(jù)直接寫入目標(biāo)布局中的對(duì)應(yīng)位置。

這兩個(gè)原語(yǔ)在語(yǔ)義上是一一對(duì)應(yīng)的:每一個(gè)邏輯段在發(fā)送端和接收端都有明確匹配的描述符,從而保證數(shù)據(jù)在端到端傳輸過程中被精確放置,無(wú)需任何額外的中間緩沖或后處理重排。

(2) 高效通信算子

盡管前面通過描述信息已經(jīng)可以精確表達(dá) “哪些 token 從哪里來(lái)、到哪里去”,但一個(gè)更現(xiàn)實(shí)的問題隨之而來(lái):在引入細(xì)粒度重排語(yǔ)義之后,通信還能否保持原有的吞吐效率?

FUSCO 的答案是:通過一套流水線化的執(zhí)行方式,將布局整理與數(shù)據(jù)傳輸緊密地綁定在一起。

在機(jī)內(nèi)通信場(chǎng)景下,發(fā)送端和接收端位于同一臺(tái)機(jī)器,F(xiàn)USCO 直接使用 GPU 到 GPU 的點(diǎn)對(duì)點(diǎn)拷貝。關(guān)鍵在于,描述信息的解析被嵌入到拷貝路徑之中:GPU 在執(zhí)行數(shù)據(jù)拷貝的同時(shí),按照描述信息從分散的位置讀取數(shù)據(jù),并直接寫入目標(biāo)布局對(duì)應(yīng)的位置。整個(gè)過程中不會(huì)引入額外的中間緩沖或額外的內(nèi)存遍歷。

跨機(jī)通信則需要經(jīng)過網(wǎng)卡,而要充分利用網(wǎng)絡(luò)帶寬,必須持續(xù)提供足夠大的發(fā)送數(shù)據(jù)。為此,F(xiàn)USCO 并不會(huì)把每個(gè)數(shù)據(jù)段單獨(dú)進(jìn)行一次發(fā)送,而是將多段數(shù)據(jù)組織成較大的發(fā)送單元,每個(gè)發(fā)送單元包含多個(gè)邏輯段。



FUSCO 跨機(jī)通信流水線執(zhí)行路徑

在此基礎(chǔ)上,F(xiàn)USCO 將跨機(jī)通信組織為一條清晰的流水線執(zhí)行路徑:GPU 作為生產(chǎn)者,按照描述信息依次收集數(shù)據(jù)、完成布局整理,并將結(jié)果寫入發(fā)送緩沖區(qū);網(wǎng)卡作為消費(fèi)者,一旦發(fā)現(xiàn)緩沖區(qū)中有就緒的數(shù)據(jù)單元,便立即發(fā)起 RDMA 傳輸。

由于單個(gè)發(fā)送單元的網(wǎng)絡(luò)傳輸時(shí)間通常長(zhǎng)于 GPU 準(zhǔn)備該單元所需的時(shí)間,GPU 側(cè)的內(nèi)存操作可以穩(wěn)定地與網(wǎng)絡(luò)傳輸重疊,使通信鏈路始終保持高利用率。

通過這種設(shè)計(jì),數(shù)據(jù)重排不再是通信前后的附加步驟,而是被直接嵌入到一次點(diǎn)對(duì)點(diǎn)通信的執(zhí)行過程中完成。在引入靈活重排能力的同時(shí),F(xiàn)USCO 依然能夠維持與高性能通信庫(kù)相當(dāng)?shù)膸捫省?/strong>

通信調(diào)度和策略:跨機(jī)優(yōu)化與負(fù)載均衡的 token 傳輸

FUSCO 的通信調(diào)度優(yōu)化圍繞兩種數(shù)據(jù)重排操作展開:gather-send 和 scatter-recv。其核心目標(biāo)是在消除重排的基礎(chǔ)上,減少跨機(jī)傳輸量并平衡各設(shè)備通信負(fù)載。

為此,系統(tǒng)會(huì)先生成一份詳細(xì)的執(zhí)行計(jì)劃,將 MoE 的 token 路由信息轉(zhuǎn)化為可直接執(zhí)行的低層指令。計(jì)劃中明確了每個(gè) token 的來(lái)源、目標(biāo) GPU 以及目標(biāo)節(jié)點(diǎn)的位置,使 gather-send 和 scatter-recv 能直接利用這些元數(shù)據(jù),無(wú)需在通信前、通信中、通信后進(jìn)行額外的數(shù)據(jù)重排操作。



FUSCO 通信調(diào)度策略

在生成執(zhí)行計(jì)劃時(shí),F(xiàn)USCO 首先考慮了跨節(jié)點(diǎn)通信的效率問題。直接將每個(gè) token 發(fā)送到目標(biāo)節(jié)點(diǎn)的所有 GPU 會(huì)導(dǎo)致重復(fù)傳輸。為解決這一問題,F(xiàn)USCO 為每個(gè)發(fā)送 GPU 在每個(gè)目標(biāo)節(jié)點(diǎn)指定一個(gè) “轉(zhuǎn)發(fā) GPU”:當(dāng)某個(gè) GPU 需要向同一節(jié)點(diǎn)的多個(gè) GPU 發(fā)送相同 token 時(shí),轉(zhuǎn)發(fā) GPU 會(huì)先接收發(fā)送端的數(shù)據(jù),然后通過節(jié)點(diǎn)內(nèi)部高速鏈路(如 NVLink)將數(shù)據(jù)分發(fā)給該節(jié)點(diǎn)的其他 GPU。這樣不僅減少了跨節(jié)點(diǎn)傳輸,也充分利用了節(jié)點(diǎn)內(nèi)的高速網(wǎng)絡(luò),讓數(shù)據(jù)流動(dòng)更順暢。

同時(shí),F(xiàn)USCO 還考慮了轉(zhuǎn)發(fā) GPU 的選擇。如果總是集中在少數(shù) GPU 上,容易形成網(wǎng)絡(luò)熱點(diǎn)。FUSCO 通過將轉(zhuǎn)發(fā) GPU 組織成通信組來(lái)解決這一問題,確保高負(fù)載 GPU 分散在不同組中,實(shí)現(xiàn)跨節(jié)點(diǎn)負(fù)載均衡。這樣每塊 GPU 都不會(huì)因數(shù)據(jù)過多而成為瓶頸,整個(gè)網(wǎng)絡(luò)的利用率也更高。

總結(jié)來(lái)看,F(xiàn)USCO 的通信調(diào)度策略主要通過三方面提升效率:

  1. 精確執(zhí)行計(jì)劃:每個(gè) token 直接到達(dá)目標(biāo) GPU 的對(duì)應(yīng)內(nèi)存位置,無(wú)需額外重排。
  2. 分層轉(zhuǎn)發(fā):跨節(jié)點(diǎn)只傳輸一份,節(jié)點(diǎn)內(nèi)快速分發(fā),減少重復(fù)傳輸。
  3. 在線負(fù)載均衡:在運(yùn)行時(shí)根據(jù)實(shí)際 MoE 路由流量動(dòng)態(tài)構(gòu)建通信組,高負(fù)載 GPU 均勻分布。

我們基于 NCCL 實(shí)現(xiàn)了 FUSCO,在保持與 NCCL 相同網(wǎng)絡(luò)兼容性的同時(shí),復(fù)用了其高效通信能力,讓 FUSCO 可以專注于算法優(yōu)化。FUSCO 為 MoE 層提供了簡(jiǎn)單直觀的 dispatch/combine 接口,可無(wú)縫接入現(xiàn)有 LLM 訓(xùn)練和推理框架。

不同于 DeepEP 僅能在特定網(wǎng)絡(luò)環(huán)境(ibgda, NVLink, RDMA)下工作,F(xiàn)USCO 能在多種網(wǎng)絡(luò)環(huán)境下高效運(yùn)行,無(wú)需針對(duì)網(wǎng)絡(luò)做額外調(diào)優(yōu)。

簡(jiǎn)而言之,F(xiàn)USCO 可以作為 MoE 框架中 AlltoAll 通信的高效解決方案,同時(shí)兼顧性能與易用性。

結(jié)果與分析

FUSCO 的性能與優(yōu)勢(shì)

通信性能:完全消除 MoE 模型通信數(shù)據(jù)重排開銷,效率 2 倍優(yōu)于 DeepEP

在應(yīng)用上,與現(xiàn)有的通信庫(kù)相比,F(xiàn)USCO 的最大特點(diǎn)在于完全消除了 MoE 模型通信中的數(shù)據(jù)重排開銷,并在此基礎(chǔ)上實(shí)現(xiàn)跨節(jié)點(diǎn) token 去重和節(jié)點(diǎn)內(nèi)高速分發(fā),從而顯著提升通信效率。系統(tǒng)適配主流 MoE 訓(xùn)練和推理框架和 GPU 架構(gòu),在各種典型的 MoE 路由流量場(chǎng)景都能夠穩(wěn)定降低延遲和提升吞吐。

在量化評(píng)測(cè)中,我們構(gòu)造了三種具有代表性的 MoE 通信流量配置進(jìn)行測(cè)試:

  • 第一種是真實(shí)推理流量,直接采用大模型推理過程中實(shí)際產(chǎn)生的 MoE 路由結(jié)果,能夠反映真實(shí)場(chǎng)景下的通信特征;
  • 第二種是單節(jié)點(diǎn)路由流量,即一個(gè) token 被路由到的 topk 個(gè) expert 都在同一節(jié)點(diǎn)上,此時(shí)跨節(jié)點(diǎn)只需要傳輸一份數(shù)據(jù),主要考察系統(tǒng)對(duì)冗余跨節(jié)點(diǎn)通信的消除能力;
  • 第三種是負(fù)載不均衡流量,不同 GPU 間通信量差異顯著,用于模擬熱點(diǎn) GPU 和通信傾斜嚴(yán)重的極端情況,重點(diǎn)評(píng)估系統(tǒng)的負(fù)載均衡能力。

這三種配置均使用 64 張 GPU 進(jìn)行性能測(cè)試,分別測(cè)試每卡文本長(zhǎng)度 4K/8K/16K/32K 的情況,總文本長(zhǎng)度最大可達(dá) 2048K。



真實(shí)通信數(shù)據(jù)重排負(fù)載下的性能對(duì)比(64 GPUs,文本長(zhǎng)度可達(dá) 32K*64,下同)



每個(gè) token 僅會(huì)被路由到一個(gè)設(shè)備上的多個(gè) expert 下的性能對(duì)比



設(shè)備之間負(fù)載不均衡情況下的性能對(duì)比

實(shí)驗(yàn)結(jié)果表明,在上述三種典型流量配置下,FUSCO 相比 NCCL 和 DeepEP 均能取得更高的通信效率。相較于 NCCL 和 DeepSeek 的 DeepEP 通信庫(kù),F(xiàn)USCO 的通信性能最高可分別提升 3.84 倍和 2.01 倍,而且文本長(zhǎng)度越長(zhǎng)加速越明顯。

無(wú)論是在真實(shí)推理環(huán)境、跨節(jié)點(diǎn)通信最小化的場(chǎng)景,還是存在嚴(yán)重負(fù)載不均衡的情況下,FUSCO 都能穩(wěn)定降低通信開銷,為 MoE 模型的訓(xùn)練與推理提供更加高效、可靠的通信支持

端到端性能:訓(xùn)練與推理效率全面提升,最高 1.39 倍優(yōu)化

在全模型訓(xùn)練和推理中,F(xiàn)USCO 同樣展現(xiàn)出明顯優(yōu)勢(shì)。我們?cè)?64 張 GPU 上對(duì) Qwen3-235B-A22B 和 DeepSeek-V3 兩種代表性 MoE 模型進(jìn)行了評(píng)測(cè),涵蓋模型單輪訓(xùn)練時(shí)間和推理首 token 響應(yīng)時(shí)間。



FUSCO 帶來(lái)的端到端訓(xùn)練與推理的性能提升

結(jié)果顯示,在訓(xùn)練任務(wù)中,F(xiàn)USCO 相較于 NCCL 性能最高提升 1.39 倍,相較于 DeepEP 性能最高提升 1.19 倍 ;在推理任務(wù)中,F(xiàn)USCO 相較于 NCCL 性能最高提升 1.25 倍,相較于 DeepEP 性能最高提升 1.16 倍。且在實(shí)際部署中,模型規(guī)模越大,性能提升越顯著。

總結(jié)

FUSCO 通過將 MoE 模型的 token 路由信息直接轉(zhuǎn)化為可執(zhí)行的 gather-send 與 scatter-recv 通信原語(yǔ)策略,徹底消除了傳統(tǒng)通信前后的數(shù)據(jù)重排開銷

在多節(jié)點(diǎn) 64 GPU 測(cè)試中,相較于 NCCL 和 DeepEP,F(xiàn)USCO 的通信性能分別提升了 3.84 倍和 2.01 倍,同時(shí)端到端性能增幅最高達(dá) 40%。

無(wú)問芯穹這一創(chuàng)新方案不僅為大規(guī)模 MoE 模型提供了可擴(kuò)展、低成本的通信支持,為大規(guī)模 MoE 模型的通信優(yōu)化提供了可驗(yàn)證的創(chuàng)新示范。更有力推動(dòng)了面向 Agent 的硬件效率潛能的釋放,加速智能體的規(guī)?;咝涞?。

相關(guān)代碼和使用示例現(xiàn)已開源,歡迎在實(shí)際項(xiàng)目中下載測(cè)試與應(yīng)用。

  • 開源地址:https://github.com/infinigence/FUSCO
  • 論文鏈接:https://www.arxiv.org/abs/2512.22036

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
有種賺錢方式叫“信息差”網(wǎng)友:一年賺到了幾輩子都花不完的錢!

有種賺錢方式叫“信息差”網(wǎng)友:一年賺到了幾輩子都花不完的錢!

夜深愛雜談
2026-01-07 21:42:47
日本鬼子說的“八嘎呀路”,翻譯成中文到底是什么意思?

日本鬼子說的“八嘎呀路”,翻譯成中文到底是什么意思?

西樓知趣雜談
2025-12-20 22:00:18
撒切爾夫人在回憶錄中坦言:當(dāng)年并不想歸還香港,考慮過發(fā)動(dòng)戰(zhàn)爭(zhēng)

撒切爾夫人在回憶錄中坦言:當(dāng)年并不想歸還香港,考慮過發(fā)動(dòng)戰(zhàn)爭(zhēng)

泠泠說史
2025-12-15 18:05:17
太棒了!蘋果推出 iPhone 換電池半價(jià)活動(dòng)

太棒了!蘋果推出 iPhone 換電池半價(jià)活動(dòng)

XCiOS俱樂部
2026-01-07 15:03:15
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
巴雷特談迪亞巴特:他蓋了我兩回,我和他說再蓋我就干他

巴雷特談迪亞巴特:他蓋了我兩回,我和他說再蓋我就干他

懂球帝
2026-01-08 17:02:14
烏克蘭摧毀俄軍第100號(hào)大型彈藥庫(kù)!距莫斯科僅三百公里

烏克蘭摧毀俄軍第100號(hào)大型彈藥庫(kù)!距莫斯科僅三百公里

項(xiàng)鵬飛
2026-01-07 18:29:33
李方同志逝世

李方同志逝世

新京報(bào)政事兒
2026-01-08 11:07:51
3-0橫掃+苦戰(zhàn)落??!勒布倫張本互克,多哈再戰(zhàn)定新王

3-0橫掃+苦戰(zhàn)落??!勒布倫張本互克,多哈再戰(zhàn)定新王

阿晞體育
2026-01-08 12:44:11
“睡遍頂流”的司曉迪身份被扒,曾就讀淄博中學(xué)!畢業(yè)照很清純!

“睡遍頂流”的司曉迪身份被扒,曾就讀淄博中學(xué)!畢業(yè)照很清純!

娛樂團(tuán)長(zhǎng)
2026-01-05 16:23:19
鄭爽近照越來(lái)越像媽媽!首曝居住環(huán)境消費(fèi)嚴(yán)重降級(jí),衣服只要200

鄭爽近照越來(lái)越像媽媽!首曝居住環(huán)境消費(fèi)嚴(yán)重降級(jí),衣服只要200

古希臘掌管月桂的神
2026-01-07 22:24:06
鄭州一業(yè)主因物業(yè)糾紛堵住小區(qū)車輛入口6次報(bào)警,民警強(qiáng)制傳喚致其受傷 法院判決:超出必要限度

鄭州一業(yè)主因物業(yè)糾紛堵住小區(qū)車輛入口6次報(bào)警,民警強(qiáng)制傳喚致其受傷 法院判決:超出必要限度

紅星新聞
2026-01-07 23:38:19
最討厭的演員排名,潘長(zhǎng)江僅第五,閆學(xué)晶第二,第一毋庸置疑

最討厭的演員排名,潘長(zhǎng)江僅第五,閆學(xué)晶第二,第一毋庸置疑

林雁飛
2026-01-04 19:29:51
小鵬今日將發(fā)布四款新車 SUV續(xù)航最高超1700公里

小鵬今日將發(fā)布四款新車 SUV續(xù)航最高超1700公里

手機(jī)中國(guó)
2026-01-08 09:26:07
紐約新市長(zhǎng)就職第一夫人全網(wǎng)熱搜,被譽(yù)為Z世代戴安娜王妃!

紐約新市長(zhǎng)就職第一夫人全網(wǎng)熱搜,被譽(yù)為Z世代戴安娜王妃!

ChicMyGeek
2026-01-07 19:10:06
醫(yī)生叮囑:家中老人一旦邁入63歲,以下這5條建議一定要牢記

醫(yī)生叮囑:家中老人一旦邁入63歲,以下這5條建議一定要牢記

健康之光
2025-12-18 09:30:34
曼聯(lián)2-2伯恩利繼續(xù)丟分!弗萊徹激活謝什科還不夠,球迷呼喚索帥

曼聯(lián)2-2伯恩利繼續(xù)丟分!弗萊徹激活謝什科還不夠,球迷呼喚索帥

羅米的曼聯(lián)博客
2026-01-08 07:48:16
美硬扣俄油輪后,不到24小時(shí),特朗普迎來(lái)噩耗,這一次沒人能幫他

美硬扣俄油輪后,不到24小時(shí),特朗普迎來(lái)噩耗,這一次沒人能幫他

云上烏托邦
2026-01-08 12:32:14
被處決毒梟要水喝,3停5口是17年前教的暗號(hào):我是臥底,有內(nèi)鬼!

被處決毒梟要水喝,3停5口是17年前教的暗號(hào):我是臥底,有內(nèi)鬼!

星宇共鳴
2025-12-29 09:56:33
斗智:烏克蘭人的“無(wú)間道”戰(zhàn)術(shù)

斗智:烏克蘭人的“無(wú)間道”戰(zhàn)術(shù)

近距離
2026-01-02 10:55:21
2026-01-08 17:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12077文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢(shì)上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來(lái)人類會(huì)花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

健康
手機(jī)
家居
公開課
軍事航空

這些新療法,讓化療不再那么痛苦

手機(jī)要聞

小米18將首發(fā)!高通驍龍8E6 Pro已在路上:雙劍齊發(fā)

家居要聞

理性主義 冷調(diào)自由居所

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普提出將美國(guó)軍費(fèi)提升至1.5萬(wàn)億美元

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版