国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

普林斯頓大學(xué)團(tuán)隊(duì)如何讓AI專家模型訓(xùn)練速度翻倍

0
分享至


這篇由普林斯頓大學(xué)郭文濤、程新樂,加州大學(xué)伯克利分校米什拉、斯托伊察,以及Together AI的趙天分別在2025年12月17日發(fā)表的最新研究報(bào)告,介紹了一項(xiàng)名為SonicMoE的突破性技術(shù)。這項(xiàng)研究針對目前人工智能領(lǐng)域最重要的"專家混合模型"(Mixture of Experts,簡稱MoE)在訓(xùn)練過程中遇到的瓶頸,提出了一套完整的解決方案。有興趣深入了解的讀者可以通過論文編號arXiv:2512.14080查詢完整論文。

要理解這項(xiàng)研究的重要性,我們首先要明白什么是專家混合模型。這種模型就像一個(gè)擁有眾多專業(yè)老師的學(xué)校,每個(gè)老師只專精某一個(gè)科目,當(dāng)學(xué)生有特定問題時(shí),會(huì)被引導(dǎo)到最合適的老師那里獲得幫助。這種設(shè)計(jì)讓AI模型在不大幅增加計(jì)算成本的前提下,顯著擴(kuò)展了知識儲(chǔ)備和處理能力。

然而,隨著AI技術(shù)的發(fā)展,研究人員發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:讓每個(gè)"專家老師"更加專業(yè)化(也就是處理更細(xì)分的領(lǐng)域),以及增加專家數(shù)量同時(shí)保持激活專家數(shù)量不變(提高稀疏性),確實(shí)能讓模型表現(xiàn)得更好。這就好比把一個(gè)通用數(shù)學(xué)老師拆分成代數(shù)專家、幾何專家、微積分專家等,每個(gè)專家只負(fù)責(zé)自己最擅長的部分,學(xué)生學(xué)習(xí)效果會(huì)更好。

不過,這種做法也帶來了問題。當(dāng)專家變得越來越專業(yè)化時(shí),系統(tǒng)需要記住更多信息來協(xié)調(diào)這些專家之間的工作,這就像學(xué)校需要更大的檔案室來存放每個(gè)老師的課程資料。同時(shí),由于每個(gè)專家處理的內(nèi)容變少了,計(jì)算資源的利用效率也下降了,就好比讓一個(gè)專業(yè)的心臟外科醫(yī)生去處理簡單的感冒,既浪費(fèi)了專家的時(shí)間,也增加了系統(tǒng)的復(fù)雜性。

一、重新設(shè)計(jì)大腦的記憶系統(tǒng)

研究團(tuán)隊(duì)首先解決的是內(nèi)存占用問題。傳統(tǒng)的專家混合模型在訓(xùn)練過程中需要保存大量中間結(jié)果,這些信息在后續(xù)的學(xué)習(xí)過程中要用到。隨著專家變得更加專業(yè)化,需要保存的信息量呈直線上升,就像一個(gè)圖書館隨著藏書分類越來越細(xì),需要的目錄卡片也越來越多。

研究團(tuán)隊(duì)通過仔細(xì)分析整個(gè)計(jì)算過程,發(fā)現(xiàn)了一個(gè)巧妙的解決方案。他們重新設(shè)計(jì)了計(jì)算路徑,避免保存某些中間結(jié)果,而是在需要時(shí)重新計(jì)算。這種做法類似于一個(gè)聰明的圖書管理員,不再存儲(chǔ)所有可能用到的索引卡片,而是建立了一套高效的即時(shí)查找系統(tǒng)。

具體來說,傳統(tǒng)方法需要保存每個(gè)專家的輸出結(jié)果Y和相應(yīng)的梯度信息dY,用于后續(xù)的參數(shù)更新。SonicMoE通過數(shù)學(xué)推導(dǎo),找到了一條不需要這些信息的計(jì)算路徑。他們將路由器評分的梯度計(jì)算重新表述為dS = ?dA', A?的形式,而不是傳統(tǒng)的dS = ?dO, Y?。這種改變看似微小,實(shí)際上消除了對大量中間結(jié)果的依賴。

這種優(yōu)化的效果非常明顯。對于一個(gè)7B參數(shù)的精細(xì)化專家混合模型,SonicMoE將每層的激活內(nèi)存使用量減少了45%。更重要的是,無論專家變得多么專業(yè)化,內(nèi)存使用量都保持恒定,這為訓(xùn)練更大更復(fù)雜的模型提供了可能。

二、讓計(jì)算和數(shù)據(jù)傳輸并行進(jìn)行

第二個(gè)創(chuàng)新點(diǎn)是充分利用現(xiàn)代GPU硬件的異步處理能力。這就好比一個(gè)餐廳廚房,傳統(tǒng)做法是廚師完成一道菜的全部步驟后再開始下一道,而SonicMoE的方法是讓廚師在炒菜的同時(shí),助手已經(jīng)開始準(zhǔn)備下一道菜的食材,實(shí)現(xiàn)真正的流水線作業(yè)。

在現(xiàn)代GPU(特別是NVIDIA的Hopper和Blackwell架構(gòu))中,矩陣乘法運(yùn)算和內(nèi)存讀寫操作可以同時(shí)進(jìn)行。SonicMoE巧妙地利用了這一特性,設(shè)計(jì)了一種被稱為"乒乓調(diào)度"的機(jī)制。在這種機(jī)制下,當(dāng)一個(gè)計(jì)算單元在執(zhí)行矩陣乘法時(shí),另一個(gè)單元同時(shí)在加載下一批數(shù)據(jù),兩者交替進(jìn)行,充分利用了硬件資源。

這種設(shè)計(jì)特別適合精細(xì)化的專家混合模型,因?yàn)檫@類模型的計(jì)算強(qiáng)度相對較低,傳統(tǒng)方法往往被內(nèi)存訪問速度限制。通過重疊計(jì)算和數(shù)據(jù)傳輸,SonicMoE能夠在相同硬件上實(shí)現(xiàn)更高的整體吞吐量。

研究團(tuán)隊(duì)還在內(nèi)存管理上做了進(jìn)一步優(yōu)化。他們避免了傳統(tǒng)方法中的同步寫入操作,而是使用異步的張量內(nèi)存訪問(TMA)指令。這類似于快遞員不再等待每個(gè)包裹的簽收確認(rèn),而是將包裹放在指定位置后立即前往下一個(gè)目的地,大大提高了整體配送效率。

三、消除計(jì)算資源浪費(fèi)的智能路由

第三個(gè)重要?jiǎng)?chuàng)新是"令牌舍入路由"方法。要理解這個(gè)概念,我們需要知道GPU在處理矩陣運(yùn)算時(shí),為了效率考慮,通常將數(shù)據(jù)分成固定大小的"瓦片"進(jìn)行處理,比如每次處理128個(gè)數(shù)據(jù)點(diǎn)。但在實(shí)際應(yīng)用中,分配給某個(gè)專家的數(shù)據(jù)量可能是任意數(shù)字,比如145個(gè),這就需要補(bǔ)齊到256個(gè)才能充分利用兩個(gè)瓦片,剩余的111個(gè)位置就被浪費(fèi)了。

SonicMoE的令牌舍入方法就像一個(gè)聰明的班車調(diào)度員,會(huì)調(diào)整每趟班車的乘客數(shù)量,確保每輛車都能坐滿或接近坐滿。具體做法是,對于每個(gè)專家接收到的令牌數(shù)量,自動(dòng)調(diào)整到最接近的瓦片大小倍數(shù)。如果某個(gè)專家原本應(yīng)該處理145個(gè)令牌,系統(tǒng)會(huì)智能地決定是調(diào)整到128個(gè)(舍棄17個(gè))還是256個(gè)(增加111個(gè)),選擇偏差最小的方案。

這種方法的巧妙之處在于,它在保持原始令牌選擇邏輯基本不變的前提下,消除了GPU計(jì)算中的填充浪費(fèi)。實(shí)驗(yàn)結(jié)果顯示,在高度稀疏的專家混合模型中,這種方法能夠帶來額外16%的速度提升,而且對模型的最終性能沒有負(fù)面影響。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)驗(yàn)證了令牌舍入方法的有效性。他們訓(xùn)練了多個(gè)不同規(guī)模的模型(從5億到14億參數(shù)),測試結(jié)果表明,使用令牌舍入訓(xùn)練的模型在各種下游任務(wù)上的表現(xiàn)與傳統(tǒng)方法相當(dāng),有時(shí)甚至略好。這證明了這種優(yōu)化方法不會(huì)損害模型的學(xué)習(xí)能力。

四、全面的性能評估與驗(yàn)證

為了驗(yàn)證SonicMoE的整體效果,研究團(tuán)隊(duì)進(jìn)行了全面的性能測試。他們使用了從1.4B到120B參數(shù)的各種模型配置,在NVIDIA H100 GPU上進(jìn)行了詳細(xì)的基準(zhǔn)測試。結(jié)果顯示,SonicMoE在各種配置下都能顯著超越現(xiàn)有的最先進(jìn)方法。

在實(shí)際應(yīng)用測試中,SonicMoE在64張H100 GPU上訓(xùn)練7B專家混合模型的速度達(dá)到每天2130億令牌,這個(gè)速度相當(dāng)于使用96張H100 GPU運(yùn)行傳統(tǒng)ScatterMoE方法的每天2250億令牌。換句話說,SonicMoE用更少的硬件資源實(shí)現(xiàn)了幾乎相同的訓(xùn)練速度,硬件利用效率提升了約50%。

更令人印象深刻的是,在極端稀疏的配置下(比如DeepSeek-V3.2-Exp這樣的685B參數(shù)模型),SonicMoE是唯一能夠在單張H100 GPU上成功運(yùn)行的方法,其他基準(zhǔn)方法都因?yàn)閮?nèi)存不足或其他限制而無法工作。

研究團(tuán)隊(duì)還測試了SonicMoE在不同硬件配置下的表現(xiàn)。除了H100,他們還驗(yàn)證了在最新的Blackwell架構(gòu)GPU上的性能。SonicMoE充分利用了新硬件的特性,比如張量內(nèi)存(TMEM)和統(tǒng)一矩陣乘法累加(UMMA)指令,在新硬件上表現(xiàn)出更好的性能。

五、對業(yè)界的深遠(yuǎn)影響

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)優(yōu)化本身。隨著AI模型規(guī)模的不斷增長,訓(xùn)練效率已經(jīng)成為制約技術(shù)發(fā)展的關(guān)鍵瓶頸。SonicMoE提供的解決方案不僅能夠降低訓(xùn)練成本,還能讓研究機(jī)構(gòu)用更少的資源訓(xùn)練出更強(qiáng)大的模型。

從行業(yè)發(fā)展角度看,這種效率提升對于推動(dòng)AI技術(shù)的普及具有重要意義。降低訓(xùn)練成本意味著更多的研究團(tuán)隊(duì)和公司能夠參與到大規(guī)模AI模型的開發(fā)中,這將加速整個(gè)領(lǐng)域的創(chuàng)新步伐。同時(shí),更高效的訓(xùn)練方法也減少了能源消耗,符合當(dāng)前對環(huán)境友好技術(shù)的需求。

SonicMoE的另一個(gè)重要貢獻(xiàn)是它的開源特性。研究團(tuán)隊(duì)將所有核心組件以開放許可證發(fā)布,這意味著整個(gè)AI社區(qū)都能從這些優(yōu)化中受益。這種開放合作的精神對于推動(dòng)技術(shù)進(jìn)步至關(guān)重要,也體現(xiàn)了學(xué)術(shù)研究回饋社會(huì)的價(jià)值。

展望未來,SonicMoE的設(shè)計(jì)理念和優(yōu)化策略很可能會(huì)被廣泛采用,成為訓(xùn)練大規(guī)模專家混合模型的標(biāo)準(zhǔn)方法。研究團(tuán)隊(duì)也指出了一些未來的發(fā)展方向,包括支持更多的數(shù)值精度格式(如FP8、MXFP8)以及在分布式訓(xùn)練環(huán)境中進(jìn)一步優(yōu)化通信與計(jì)算的重疊。

說到底,這項(xiàng)研究展示了在AI快速發(fā)展的今天,系統(tǒng)優(yōu)化和算法創(chuàng)新同樣重要。SonicMoE不是通過改變模型結(jié)構(gòu)或訓(xùn)練算法來提升性能,而是通過深度理解硬件特性和精心設(shè)計(jì)計(jì)算流程,在不損失任何功能的前提下大幅提升了效率。這種"軟硬結(jié)合"的優(yōu)化思路為未來的AI系統(tǒng)設(shè)計(jì)提供了重要參考,也證明了在追求更強(qiáng)大AI能力的同時(shí),我們同樣需要關(guān)注如何更好地利用現(xiàn)有資源。

這項(xiàng)研究的成功還說明了跨領(lǐng)域合作的價(jià)值。普林斯頓大學(xué)、加州大學(xué)伯克利分校和Together AI的聯(lián)合團(tuán)隊(duì)結(jié)合了理論研究、系統(tǒng)設(shè)計(jì)和工程實(shí)現(xiàn)的專長,這種多元化的合作模式正是解決復(fù)雜技術(shù)挑戰(zhàn)所需要的。對于有志于AI研究的讀者來說,這也提示了掌握多方面技能的重要性,從算法設(shè)計(jì)到系統(tǒng)優(yōu)化,每個(gè)環(huán)節(jié)都可能成為突破的關(guān)鍵點(diǎn)。

Q&A

Q1:SonicMoE是什么?

A:SonicMoE是普林斯頓大學(xué)等機(jī)構(gòu)聯(lián)合開發(fā)的專家混合模型訓(xùn)練優(yōu)化技術(shù),主要解決精細(xì)化和稀疏化MoE模型訓(xùn)練中的內(nèi)存占用過大和計(jì)算效率低下問題,能夠?qū)⒂?xùn)練速度提升近一倍。

Q2:令牌舍入路由方法如何提升訓(xùn)練效率?

A:令牌舍入路由通過調(diào)整每個(gè)專家接收的令牌數(shù)量到GPU瓦片大小的整數(shù)倍,消除了計(jì)算中的填充浪費(fèi)。這種方法在保持模型性能不變的前提下,能夠額外提升16%的訓(xùn)練速度。

Q3:為什么專家混合模型訓(xùn)練會(huì)遇到內(nèi)存瓶頸?

A:隨著專家變得更加專業(yè)化,模型需要保存更多中間結(jié)果用于后續(xù)計(jì)算,內(nèi)存使用量呈線性增長。SonicMoE通過重新設(shè)計(jì)計(jì)算路徑,避免保存某些中間結(jié)果,將內(nèi)存使用量減少45%且保持恒定。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
穆雷21+7+6英格拉姆30+8絕平超時(shí) 掘金客場險(xiǎn)勝猛龍

穆雷21+7+6英格拉姆30+8絕平超時(shí) 掘金客場險(xiǎn)勝猛龍

北青網(wǎng)-北京青年報(bào)
2026-01-01 12:42:04
毛主席去世是因?yàn)槭裁床?有人猜測是"帕金森",專家:我不能說

毛主席去世是因?yàn)槭裁床?有人猜測是"帕金森",專家:我不能說

磊子講史
2025-12-31 16:30:23
東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

農(nóng)村情感故事
2025-04-06 20:07:35
臺(tái)灣的幫手出現(xiàn),比特朗普還囂張!臺(tái)軍喊話大陸:小心遭全球制裁

臺(tái)灣的幫手出現(xiàn),比特朗普還囂張!臺(tái)軍喊話大陸:小心遭全球制裁

博覽歷史
2025-12-31 18:45:17
有人預(yù)測:2026年,這5樣“東西”會(huì)嚴(yán)重貶值,普通人可不要碰!

有人預(yù)測:2026年,這5樣“東西”會(huì)嚴(yán)重貶值,普通人可不要碰!

蜉蝣說
2025-12-31 11:02:51
烏克蘭突遭空襲震驚白宮,特朗普現(xiàn)場怒斥:普京讓我不爽

烏克蘭突遭空襲震驚白宮,特朗普現(xiàn)場怒斥:普京讓我不爽

像風(fēng)走了八萬里不問歸期
2026-01-01 13:36:36
“吃一斤它勝過吃10只雞”,一降血脂、二降血糖、三降膽固醇

“吃一斤它勝過吃10只雞”,一降血脂、二降血糖、三降膽固醇

江江食研社
2025-12-31 14:30:05
四川黑寡婦何一:前首富丈夫坐牢,她卻擁2300億享生活

四川黑寡婦何一:前首富丈夫坐牢,她卻擁2300億享生活

二大爺觀世界
2025-12-28 23:27:38
大爆冷!字母哥轟31+15破紀(jì)錄卻遭CJ絕殺 里弗斯迷之操作坑慘雄鹿

大爆冷!字母哥轟31+15破紀(jì)錄卻遭CJ絕殺 里弗斯迷之操作坑慘雄鹿

鍋?zhàn)踊@球
2026-01-01 14:28:49
住建部已摸清國內(nèi)房子數(shù)量,過剩嚴(yán)重到什么情況?樓市或迎來變局

住建部已摸清國內(nèi)房子數(shù)量,過剩嚴(yán)重到什么情況?樓市或迎來變局

搬磚營Z
2025-12-31 14:00:37
林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,妻子、父母也有責(zé)任

林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,妻子、父母也有責(zé)任

細(xì)品名人
2025-12-31 07:34:46
萬達(dá)集團(tuán)前總裁被判刑

萬達(dá)集團(tuán)前總裁被判刑

新浪財(cái)經(jīng)
2026-01-01 11:52:31
向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
接觸的人多了,會(huì)明白:如果一個(gè)人還穿5年前的衣服,說明3個(gè)問題

接觸的人多了,會(huì)明白:如果一個(gè)人還穿5年前的衣服,說明3個(gè)問題

詩詞中國
2025-12-31 21:01:55
方圓之間 蔚為大觀(文化中國行·華夏博物之旅·傳統(tǒng)建筑)

方圓之間 蔚為大觀(文化中國行·華夏博物之旅·傳統(tǒng)建筑)

金臺(tái)資訊
2026-01-01 06:21:20
北京出招回?fù)裘绹焉В磺袇f(xié)作瞬間中斷,美方囂張三句無恥

北京出招回?fù)裘绹焉В磺袇f(xié)作瞬間中斷,美方囂張三句無恥

Ck的蜜糖
2026-01-01 15:05:31
千萬不要過度體檢?醫(yī)生再三提醒:55歲后,這5種體檢能不做就不做

千萬不要過度體檢?醫(yī)生再三提醒:55歲后,這5種體檢能不做就不做

神奇故事
2025-12-30 23:09:45
主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

主持人李靜自曝絕經(jīng)過程,很快失去性魅力,連男人也沒興趣了

阿器談史
2025-12-30 17:26:47
妹子網(wǎng)購綠植開箱,發(fā)現(xiàn)兩只偷渡小貓,商家天塌了:我的咪呢?

妹子網(wǎng)購綠植開箱,發(fā)現(xiàn)兩只偷渡小貓,商家天塌了:我的咪呢?

Magic寵物社
2025-12-16 20:10:03
李在明動(dòng)身訪華前,先給了中國一記下馬威,高市早苗卻笑不出來?

李在明動(dòng)身訪華前,先給了中國一記下馬威,高市早苗卻笑不出來?

策前論
2025-12-31 18:05:08
2026-01-01 15:48:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
896文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

2026,沖刺商業(yè)航天第一股!

頭條要聞

北京一金銀市場只剩300克以上金條 有人變現(xiàn)近9斤黃金

頭條要聞

北京一金銀市場只剩300克以上金條 有人變現(xiàn)近9斤黃金

體育要聞

楊瀚森為球迷送新年祝福:深知自身差距

娛樂要聞

跨年零點(diǎn)時(shí)刻好精彩!何炅飛奔擁抱

財(cái)經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

旅游
數(shù)碼
房產(chǎn)
教育
公開課

旅游要聞

“8+N”場文商旅活動(dòng),南京江寧區(qū)解鎖跨年文化盛宴新玩法

數(shù)碼要聞

消息稱大疆1月6日發(fā)布Power 1000 Mini戶外電源

房產(chǎn)要聞

突發(fā)!海南出臺(tái)安居房新政!

教育要聞

北京“最聰明”的高中生“全軍覆沒”?!“雞娃”的家長撐不下去了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版