国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦&通義萬相提出ProMoE,顯式路由引導(dǎo)打破DiT MoE scaling瓶頸

0
分享至



混合專家架構(gòu)(Mixture-of-Experts,MoE)在擴展模型容量的同時保持了計算效率,在大語言模型(LLM)的發(fā)展中發(fā)揮了巨大作用。然而,現(xiàn)有方法將 MoE 應(yīng)用于 Diffusion Transformer(DiT)時,卻發(fā)現(xiàn)收益非常有限,無法復(fù)刻 MoE 在 LLM 中的成功。

為什么同樣的架構(gòu),跨界到視覺生成領(lǐng)域就「水土不服」了?

近期,來自復(fù)旦大學(xué)、阿里通義萬相Wan Team、浙江大學(xué)和香港大學(xué)的研究團(tuán)隊指出,視覺 Token 的高度冗余性和功能異質(zhì)性阻礙了視覺 MoE 中專家的專業(yè)化(specialization)。為此,他們提出了 ProMoE,一種帶有顯式路由引導(dǎo)的兩步路由 MoE 框架。相關(guān)論文已被 ICLR2026 接收,第一作者為復(fù)旦大學(xué)博士衛(wèi)昱杰。



  • 論文標(biāo)題:Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
  • 論文地址:
  • https://arxiv.org/abs/2510.24711
  • 代碼:
  • https://github.com/ali-vilab/ProMoE

視覺 Token 與語言 Token 的差異

為了探究 MoE 在 DiT 中收益不明顯的原因,研究團(tuán)隊發(fā)現(xiàn),視覺 Token 具有兩個獨特的屬性,導(dǎo)致傳統(tǒng)的隱式路由分配策略產(chǎn)生次優(yōu)的效果:

  • 高度空間冗余性(High Spatial Redundancy):離散的文本 Token 語義高度濃縮且差異明顯,而連續(xù)的圖像 Patch(視覺 Token)在空間上高度耦合,存在大量的冗余信息,導(dǎo)致視覺 MoE 中的專家往往學(xué)到同質(zhì)化的特征。

  • 功能異質(zhì)性(Functional Heterogeneity):擴散模型普遍依賴無分類器引導(dǎo)(CFG)技術(shù)。這就導(dǎo)致輸入 Token 天然分為兩派:條件 Token 和無條件 Token。標(biāo)準(zhǔn) MoE 范式對它們一視同仁、同時分配,忽略了它們不同的功能角色。

圖 1:(a)我們從 110 個 ImageNet 類別中隨機抽取 1k 個中間層 Token,進(jìn)行 10 簇 k-means 聚類(以顏色區(qū)分)。以類別名稱 / 標(biāo)簽作為輸入時,LLM Token 形成緊湊、分離良好的簇,語義密度高,而視覺 Token 則較為分散。這種差異可以用類間距離與類內(nèi)距離的比值來量化(19.283 ? 0.748)。(b)我們對每個 MoE 層的專家權(quán)重矩陣進(jìn)行奇異值分解,并計算由其左前 k 個奇異向量張成的子空間的平均相似度來衡量專家間的多樣性。引入路由引導(dǎo)(我們的方法)可以增強專家間的多樣性。

ProMoE:兩步路由與顯式語義路由引導(dǎo)

MoE 的核心原則是專家專業(yè)化(Expert Specialization),即確保每個專家都能獲取集中且不重疊的知識。為了在視覺模型中實現(xiàn)「專家內(nèi)一致」和「專家間多樣」,ProMoE 引入了兩步路由器(Two-Step Router)和路由對比學(xué)習(xí)(Routing Contrastive Learning)。

兩步路由器

  • 第一步:條件路由(Conditional Routing)

路由器首先根據(jù) Token 的功能角色進(jìn)行硬路由分配。無條件圖像 Token(來源于 null conditioning 下的圖像 Patch)被直接分配給專門的無條件專家(Unconditional Experts)進(jìn)行處理。而條件圖像 Token 則進(jìn)入下一步,交由標(biāo)準(zhǔn)的路由專家(Routed Experts)進(jìn)行處理。這種機制實現(xiàn)了專家的功能隔離。

  • 第二步:原型路由(Prototypical Routing)

對于條件圖像 Token,ProMoE 引入了一組可學(xué)習(xí)的「原型」(Prototypes),每個原型對應(yīng)一個特定專家。原型路由在隱空間中計算 Token 與各個 Prototype 之間的余弦相似度,并選擇 identity function 作為激活函數(shù)得到路由分?jǐn)?shù),分?jǐn)?shù)較高的 Token 會被分配給對應(yīng)的專家。

顯式語義路由引導(dǎo):路由對比學(xué)習(xí)(Routing Contrastive Learning)

為了顯式增強原型路由的語義引導(dǎo),ProMoE 提出了一種無需手動標(biāo)注的路由對比損失(Routing Contrastive Loss,RCL)。在訓(xùn)練過程中,RCL 會產(chǎn)生兩種影響:

  • 拉近:將 Prototype 拉向分配給它的 Token 集合的質(zhì)心,確保同一個專家處理的 Token 是語義相似的。

  • 將 Prototype 推離其他專家處理的 Token 集合的質(zhì)心,鼓勵不同專家之間形成差異化,增強多樣性。

同時,實驗發(fā)現(xiàn) RCL 中的「推開」操作在語義層面上天然起到了負(fù)載均衡的作用,比傳統(tǒng)的負(fù)載均衡損失更加靈活且有效。



圖 2:ProMoE 架構(gòu)概覽。輸入 Token 通過條件路由被分為無條件 Token 子集和條件 Token 子集。無條件圖像 Token 由無條件專家處理。條件圖像 Token 通過基于可學(xué)習(xí)原型的原型路由進(jìn)行分配。路由對比學(xué)習(xí)顯式增強了原型路由中的語義引導(dǎo)。

算法偽代碼如下:



實驗結(jié)果

模型配置



與 Dense Model 的對比

ProMoE 在各種規(guī)模和設(shè)置下均穩(wěn)定超越了稠密模型。亮眼的是,參數(shù)量僅 1.063B 的 ProMoE-L-Flow,憑借更少的激活參數(shù),超越了計算量更大的 Dense-DiT-XL-Flow。





與 SOTA MoE Model 的對比

ProMoE 超越現(xiàn)有的視覺 MoE 方案。特別是,用 1.063B 超越了擁有 16 個專家,1.846B 的 DiffMoE。



Text-to-Image 驗證

在 GenEval bench 中,ProMoE 在所有子任務(wù)上優(yōu)于標(biāo)準(zhǔn)的 Token-Choice MoE 模型,展現(xiàn)出一定的泛化能力。



可視化結(jié)果

Class-to-image generation



Text-to-image generation



收斂性分析

訓(xùn)練曲線顯示,ProMoE 的收斂速度明顯快于稠密模型和現(xiàn)有 MoE 模型。



Scaling 實驗

ProMoE 展現(xiàn)出一定的擴展?jié)摿?。隨著模型尺寸從 Base 擴展至 XL,以及專家數(shù)量從 4 逐步增加到 16,ProMoE 的生成性能均呈現(xiàn)出穩(wěn)定的提升。



消融實驗



總結(jié)

通過分析語言和視覺 Token 之間的差異,ProMoE 提出了一種帶有顯式路由引導(dǎo)的 MoE 框架。通過巧妙設(shè)計的條件路由、原型路由以及路由對比學(xué)習(xí)機制,ProMoE 用更少的激活參數(shù)超越了 Dense Model 以及現(xiàn)有 MoE 方法。這為如何在大規(guī)模擴散模型中高效引入 MoE 架構(gòu)提供了一套可能的開源范式。

更多技術(shù)與實驗細(xì)節(jié),歡迎閱讀原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
梅婷李雪琴等出席《好好的時光》研討會,梅婷的造型特別搶眼

梅婷李雪琴等出席《好好的時光》研討會,梅婷的造型特別搶眼

小椰的奶奶
2026-03-31 20:33:37
韓國網(wǎng)友偷廣州街頭美景圖,配文:這就是首爾!瀏覽破百萬,照片中公交車尾清晰印有“廣州公交”4個字,發(fā)現(xiàn)“鬧大”后刪除博文

韓國網(wǎng)友偷廣州街頭美景圖,配文:這就是首爾!瀏覽破百萬,照片中公交車尾清晰印有“廣州公交”4個字,發(fā)現(xiàn)“鬧大”后刪除博文

大風(fēng)新聞
2026-03-29 21:59:02
想拿中國尿素救春耕?先還錢!中國鎖定俄油巨單,印度徹底出局

想拿中國尿素救春耕?先還錢!中國鎖定俄油巨單,印度徹底出局

青煙小先生
2026-03-30 11:33:34
伊朗稱襲擊阿聯(lián)酋一處美軍秘密指揮中心

伊朗稱襲擊阿聯(lián)酋一處美軍秘密指揮中心

財聯(lián)社
2026-03-31 18:32:25
世上有兩個國家,一個誰也打不過,一個誰也不敢打

世上有兩個國家,一個誰也打不過,一個誰也不敢打

近史談
2026-03-28 23:06:25
四川2市發(fā)布干部任前公示,涉正縣級領(lǐng)導(dǎo)職務(wù)

四川2市發(fā)布干部任前公示,涉正縣級領(lǐng)導(dǎo)職務(wù)

掌上金牛
2026-03-31 21:14:13
驚訝!伊朗大捷!用一場標(biāo)志性大勝,讓美軍創(chuàng)下戰(zhàn)后最大戰(zhàn)損記錄

驚訝!伊朗大捷!用一場標(biāo)志性大勝,讓美軍創(chuàng)下戰(zhàn)后最大戰(zhàn)損記錄

軍機Talk
2026-03-30 11:02:14
江西九江市自然資源局原局長虞莉清嚴(yán)重違法被取消享受的待遇

江西九江市自然資源局原局長虞莉清嚴(yán)重違法被取消享受的待遇

界面新聞
2026-03-31 21:09:36
為什么現(xiàn)在網(wǎng)上分成兩派,老醫(yī)生建議學(xué)醫(yī),而年輕醫(yī)生拼命勸退

為什么現(xiàn)在網(wǎng)上分成兩派,老醫(yī)生建議學(xué)醫(yī),而年輕醫(yī)生拼命勸退

小鎮(zhèn)做題家的轉(zhuǎn)行之路
2026-03-31 20:26:51
孕婦買200元水果被丈夫咒罵,嘴毒心狠眼神還嚇人,網(wǎng)友炸翻了

孕婦買200元水果被丈夫咒罵,嘴毒心狠眼神還嚇人,網(wǎng)友炸翻了

潮鹿逐夢
2026-03-31 12:13:45
西方集體改口!中國不再解釋,直接亮出四張硬核底牌

西方集體改口!中國不再解釋,直接亮出四張硬核底牌

Thurman在昆明
2026-03-29 19:59:52
不反華了?特朗普認(rèn)錯:之前對華加征關(guān)稅過分了,必須尊重中國

不反華了?特朗普認(rèn)錯:之前對華加征關(guān)稅過分了,必須尊重中國

老范談史
2026-03-31 21:39:42
美以伊戰(zhàn)事持續(xù)1個月后陷入泥潭:特朗普談又談不成,走又走不了

美以伊戰(zhàn)事持續(xù)1個月后陷入泥潭:特朗普談又談不成,走又走不了

南方都市報
2026-03-31 14:47:04
菲艦發(fā)現(xiàn)中方054A艦,船長竟加速“撞艦”,中方給全世界上了一課

菲艦發(fā)現(xiàn)中方054A艦,船長竟加速“撞艦”,中方給全世界上了一課

漫步獨行俠
2026-03-31 08:30:42
我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫(yī)生:恭喜

我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫(yī)生:恭喜

千秋文化
2026-03-25 21:42:08
魯山案已查清!舅媽頂替是為了養(yǎng)老金,舅舅被撤職,女子愿望落空

魯山案已查清!舅媽頂替是為了養(yǎng)老金,舅舅被撤職,女子愿望落空

潮鹿逐夢
2026-03-30 22:34:29
快訊!央視曝光:河北省女書法協(xié)會被取締、責(zé)令解散

快訊!央視曝光:河北省女書法協(xié)會被取締、責(zé)令解散

生活新鮮市
2026-03-31 17:38:57
5萬億美元!特朗普甩出天價賬單,伊朗見縫插針,沙特是兄弟國家

5萬億美元!特朗普甩出天價賬單,伊朗見縫插針,沙特是兄弟國家

趣文說娛
2026-03-31 21:55:05
3-0!上海女排擊敗江蘇,范賴克跳發(fā)建功,沃隆科娃進(jìn)攻給力

3-0!上海女排擊敗江蘇,范賴克跳發(fā)建功,沃隆科娃進(jìn)攻給力

騎馬寺的少年
2026-03-31 21:03:29
40歲菲爾普斯現(xiàn)狀曝光!退役后暴瘦到無人識,老婆長得很漂亮

40歲菲爾普斯現(xiàn)狀曝光!退役后暴瘦到無人識,老婆長得很漂亮

小徐講八卦
2026-03-23 14:19:30
2026-03-31 22:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12648文章數(shù) 142600關(guān)注度
往期回顧 全部

科技要聞

華為2025年銷售收入8809億,凈利潤680億元

頭條要聞

知情人:最鷹派的是阿聯(lián)酋 極力敦促美國發(fā)動地面進(jìn)攻

頭條要聞

知情人:最鷹派的是阿聯(lián)酋 極力敦促美國發(fā)動地面進(jìn)攻

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

《月鱗綺紀(jì)》空降 鞠婧祎卻被舉報偷稅

財經(jīng)要聞

油價暴漲 我們的生活成本會飆升多少?

汽車要聞

騰勢Z9GT到底GT在哪?

態(tài)度原創(chuàng)

時尚
數(shù)碼
健康
家居
軍事航空

春招心碎大學(xué)生,涌入約會軟件找工作

數(shù)碼要聞

英偉達(dá)發(fā)布DLSS 4.5更新 多幀生成大幅提升游戲性能

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

新婚愛巢 甜蜜情趣拉滿

軍事要聞

特朗普:即使霍爾木茲海峽仍關(guān)閉 也愿意結(jié)束戰(zhàn)爭

無障礙瀏覽 進(jìn)入關(guān)懷版