国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek開源MoE新利器LPLB:基于線性規(guī)劃,專攻訓(xùn)練動態(tài)負(fù)載不平衡

0
分享至


剛剛DeepSeek在GitHub開源了LPLB(Linear-Programming-Based Load Balancer)。這是一個(gè)基于線性規(guī)劃的并行負(fù)載均衡器,旨在優(yōu)化MoE(混合專家)模型的專家并行工作負(fù)載分配

看起來 DeepSeek 和老黃的思路是一致的

英偉達(dá)在一個(gè)由 NVLink 連接的 1 萬張 GPU 集群里,用完全一樣的機(jī)制來給不同 kernel 分配 SM(GPU 的計(jì)算單元:Streaming Multiprocessors)。DeepSeek 做的事也一樣,只不過它把這個(gè)調(diào)度機(jī)制往上抽象了一層,做到了整個(gè) pipeline 級別

目前該項(xiàng)目處于早期研究階段,性能提升仍在評估中。

核心功能與實(shí)現(xiàn)

LPLB主要通過以下機(jī)制實(shí)現(xiàn)動態(tài)負(fù)載均衡:

動態(tài)重排序:基于工作負(fù)載統(tǒng)計(jì)信息對專家進(jìn)行動態(tài)重排序(該過程由嵌入的EPLB輔助)

副本構(gòu)建:考慮靜態(tài)拓?fù)浣Y(jié)構(gòu)構(gòu)建專家副本

最優(yōu)Token分配:針對每個(gè)批次(Batch)求解最優(yōu)Token分配方案

在技術(shù)實(shí)現(xiàn)上,其內(nèi)置的LP(線性規(guī)劃)求解器實(shí)現(xiàn)了單SM內(nèi)點(diǎn)法(Interior Point Method, IPM),并利用NVIDIA的cuSolverDx和cuBLASDx庫進(jìn)行線性代數(shù)運(yùn)算。

工作負(fù)載統(tǒng)計(jì)信息可由用戶提供,通過torch.distributed收集,或從Deep-EP緩沖區(qū)的內(nèi)部通信器獲取。

工作原理

LPLB是對EPLB(Expert Parallelism Load Balancer)的擴(kuò)展,旨在解決MoE訓(xùn)練中的動態(tài)負(fù)載不平衡問題:

EPLB:主要處理由數(shù)據(jù)分布引起的靜態(tài)不平衡(如某些專家持續(xù)過載)。

LPLB:針對訓(xùn)練過程中小批次隨機(jī)性引起的每批次波動

具體機(jī)制:

1.冗余專家:每個(gè)冗余專家鏈接到一個(gè)原始專家,在GPU之間形成邊(Edge)

2.邊容量:邊的容量定義為當(dāng)前批次分配給冗余專家的Token數(shù)量,即用于平衡的最大Token流

3.LP優(yōu)化:LPLB求解線性規(guī)劃問題,在尊重邊容量的前提下沿這些邊重新分配Token,以最小化專家并行(EP)組內(nèi)的負(fù)載不平衡。

在該過程中,待復(fù)制的專家通過EPLB選擇(僅重排序,不復(fù)制),最重的專家根據(jù)選定的LPLB拓?fù)溥M(jìn)行復(fù)制。為了減少通信開銷,實(shí)時(shí)工作負(fù)載同步利用NVLINK和NVSHMEM(需預(yù)裝DeepEP),而非torch.distributed.allreduce

支持的拓?fù)浣Y(jié)構(gòu)

LPLB支持通過修改r2o矩陣探索自定義拓?fù)?,典型拓?fù)浒ǎ?/p>

Cube:在GPU子集上復(fù)制專家,形成帶有對角邊的立方體圖。每GPU至少需要2個(gè)專家。適用于8-GPU EP子組內(nèi)的平衡,且不犧牲節(jié)點(diǎn)間通信

Hypercube:類似于Cube,但排除對角邊,需要16個(gè)GPU。適用于跨16個(gè)GPU的專家并行

Torus:在同一節(jié)點(diǎn)的鄰居GPU和鄰居節(jié)點(diǎn)的GPU上各復(fù)制一個(gè)專家,形成環(huán)面圖。每GPU至少需要2個(gè)專家。適用于全局平衡,但由于節(jié)點(diǎn)內(nèi)通信效率原因,效果可能不如Cube

局限性

成本估算:目前的規(guī)劃器僅平衡總Token數(shù)量,未考慮分組矩陣乘法時(shí)間成本的非線性,可能導(dǎo)致次優(yōu)性能

求解延遲:求解器進(jìn)行節(jié)點(diǎn)內(nèi)優(yōu)化耗時(shí)約100 μs(節(jié)點(diǎn)間更長),對于小批次任務(wù),此開銷不可忽略

極端不平衡:在全局負(fù)載極端不平衡的情況下,由于LPLB避免將多個(gè)副本分配給同一原始專家,其表現(xiàn)可能不如EPLB

安裝與使用

預(yù)備條件:

CUDA Toolkit >= 12.6.3(包含cuSolverDx依賴)。

DeepEP(可選,但強(qiáng)烈建議用于實(shí)際生產(chǎn))。

EPLB(已嵌入)

安裝命令:

                                                                    ./download-mathdx.sh
# export NVSHMEM_DIR=... # 可選
pip install --no-build-isolation .

接口示例:

                                                                    # 定義冗余專家拓?fù)?br/>r2o = torch.tensor(
[
[3, 0, 1, 2, 7, 4, 5, 6],
[6, 7, 4, 5, 0, 1, 2, 3],
]
).T.int().cuda()

planner = Planner(
r2o,
n_logical_experts + n_redundants_per_rank * ep_size,
n_logical_experts,
group=ep_group,
)

# 規(guī)劃器返回物理專家索引
redirected_indices = planner.run(indices, avail_counter, N_SMS)

項(xiàng)目地址:https://github.com/deepseek-ai/LPLB

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
才24歲!女子后悔不已,隱私部位短短一年內(nèi)長滿……醫(yī)生:早該重視了!

才24歲!女子后悔不已,隱私部位短短一年內(nèi)長滿……醫(yī)生:早該重視了!

福建衛(wèi)生報(bào)
2026-01-07 12:32:45
WTT多哈站:一場3-0!王曼昱打敗日本大藤沙月,馬琳擔(dān)任場外指導(dǎo)

WTT多哈站:一場3-0!王曼昱打敗日本大藤沙月,馬琳擔(dān)任場外指導(dǎo)

齊帥
2026-01-08 20:08:13
張水華在直播說了很多,和361°沒合作,穿是懂感恩,老公不是教練

張水華在直播說了很多,和361°沒合作,穿是懂感恩,老公不是教練

阿雹娛樂
2026-01-09 15:10:30
湖南省農(nóng)村信用社聯(lián)合社黨委副書記蔣俊文接受審查調(diào)查

湖南省農(nóng)村信用社聯(lián)合社黨委副書記蔣俊文接受審查調(diào)查

界面新聞
2026-01-08 17:03:54
特朗普 再次就騷亂事件對伊朗 發(fā)出威脅

特朗普 再次就騷亂事件對伊朗 發(fā)出威脅

每日經(jīng)濟(jì)新聞
2026-01-09 10:26:13
胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

飯小妹說歷史
2026-01-07 09:30:45
1972年,毛主席當(dāng)眾指著她鼻子罵:你男人跟別人好了,你怎么不離婚?

1972年,毛主席當(dāng)眾指著她鼻子罵:你男人跟別人好了,你怎么不離婚?

寄史言志
2026-01-07 21:08:15
商務(wù)部回應(yīng)審查Meta收購Manus

商務(wù)部回應(yīng)審查Meta收購Manus

每日經(jīng)濟(jì)新聞
2026-01-08 16:33:07
斗智:烏克蘭人的“無間道”戰(zhàn)術(shù)

斗智:烏克蘭人的“無間道”戰(zhàn)術(shù)

近距離
2026-01-02 10:55:21
曹丕"荒淫無度"在位7年就駕崩?以他的玩法,40歲實(shí)屬是高壽!

曹丕"荒淫無度"在位7年就駕崩?以他的玩法,40歲實(shí)屬是高壽!

沈言論
2026-01-07 18:55:03
國際乒聯(lián)主席坐不住了!亞洲杯樊振東沒參賽,莎莎球迷也開始觀望

國際乒聯(lián)主席坐不住了!亞洲杯樊振東沒參賽,莎莎球迷也開始觀望

查爾菲的筆記
2026-01-08 13:27:11
陳志被捕荷槍實(shí)彈遣返北京,個(gè)子矮小藍(lán)色囚衣關(guān)東城區(qū)看守所。

陳志被捕荷槍實(shí)彈遣返北京,個(gè)子矮小藍(lán)色囚衣關(guān)東城區(qū)看守所。

環(huán)球趣聞分享
2026-01-09 13:30:03
日均400萬票的生意官宣終止了!超1931億順豐大撤退?接盤俠贏了

日均400萬票的生意官宣終止了!超1931億順豐大撤退?接盤俠贏了

財(cái)經(jīng)八卦
2026-01-08 22:09:41
多晶硅期貨跌停!知情人士:多晶硅龍頭被約談確有其事

多晶硅期貨跌停!知情人士:多晶硅龍頭被約談確有其事

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-01-08 21:23:01
于存為毛澤東做飯11年,1971年毛澤東親自安排:你去給美國人做飯

于存為毛澤東做飯11年,1971年毛澤東親自安排:你去給美國人做飯

歷史龍?jiān)w
2026-01-08 15:20:03
拓媒:裁判對楊瀚森還是吹罰過嚴(yán);跟羅威組雙塔丟籃板不怪他

拓媒:裁判對楊瀚森還是吹罰過嚴(yán);跟羅威組雙塔丟籃板不怪他

懂球帝
2026-01-09 13:15:05
央視直播1月9日多哈冠軍賽, 林詩棟戰(zhàn)杜達(dá),王曼昱對帕瓦德

央視直播1月9日多哈冠軍賽, 林詩棟戰(zhàn)杜達(dá),王曼昱對帕瓦德

乒乓球球
2026-01-09 06:32:19
最年輕的Win11,被24歲的WinXP吊打了?六代系統(tǒng)同臺“對決”,Win11幾乎全線墊底……

最年輕的Win11,被24歲的WinXP吊打了?六代系統(tǒng)同臺“對決”,Win11幾乎全線墊底……

CSDN
2026-01-08 18:13:36
流浪柬埔寨20歲女子新進(jìn)展:給她打八萬過去,說回來后會好好做人

流浪柬埔寨20歲女子新進(jìn)展:給她打八萬過去,說回來后會好好做人

江山揮筆
2026-01-08 16:33:57
外交部:中方反對出于政治目的散布與中國有關(guān)的虛假信息

外交部:中方反對出于政治目的散布與中國有關(guān)的虛假信息

環(huán)球網(wǎng)資訊
2026-01-08 15:38:09
2026-01-09 15:39:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1026文章數(shù) 393關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

"老板"拉群開口就要150萬 女財(cái)務(wù)付100萬后感覺天塌了

頭條要聞

"老板"拉群開口就要150萬 女財(cái)務(wù)付100萬后感覺天塌了

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

英偉達(dá)的野心:做一套自動駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

藝術(shù)
教育
游戲
手機(jī)
軍事航空

藝術(shù)要聞

Sean Yoro:街頭藝術(shù)界的“沖浪高手”

教育要聞

一年級培優(yōu)題,填數(shù)字,很多家長都算錯(cuò)了

馬丁構(gòu)想大變樣?宮崎英高稱其或驚訝于《艾爾登法環(huán)》

手機(jī)要聞

摩根大通正式接替高盛,成為蘋果Apple Card發(fā)卡機(jī)構(gòu)

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進(jìn)入關(guān)懷版