国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

書生XTuner V1開源,大模型的“超級發(fā)動機”來了!

0
分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。

XTuner V1 是伴隨上海AI實驗室“通專融合”技術(shù)路線的持續(xù)演進,以及書生大模型研發(fā)實踐而成長起來的新一代訓(xùn)練引擎。相較于傳統(tǒng)的 3D 并行訓(xùn)練引擎,XTuner V1 不僅能應(yīng)對更加復(fù)雜的訓(xùn)練場景,還具備更快的訓(xùn)練速度,尤其在超大規(guī)模稀疏混合專家(MoE)模型訓(xùn)練中優(yōu)勢顯著。

除了訓(xùn)練框架,書生大模型研發(fā)中使用的 AIOps 工具 DeepTrace 與 ClusterX 也將一并開源,為大規(guī)模分布式訓(xùn)練提供全方位保障。XTuner V1已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。

模型地址

https://wisemodel.cn/codes/Intern/xtuner

01.

訓(xùn)練方案

目前開源社區(qū)主流的訓(xùn)練方案主要分為兩類:

1、DeepSpeed / PyTorch FSDP(Fully Shard Data Parallel):通信量大但使用簡單,尤其適合稠密型模型訓(xùn)練,開發(fā)者無需具備專業(yè)的 AI Infra 知識,也能開發(fā)出接近最優(yōu)性能的訓(xùn)練系統(tǒng);

2、3D 并行:通信量小但使用復(fù)雜,開發(fā)者需要具備專業(yè)的 AI Infra 知識,針對不同硬件和訓(xùn)練場景進行針對性調(diào)優(yōu),尤其適用 MoE 模型訓(xùn)練。

為了同時兼顧易用性、高性能與超大模型訓(xùn)練,XTuner V1 基于 PyTorch FSDP 進行開發(fā),并針對 FSDP 通信量大的固有缺陷,進行了系列優(yōu)化,可支持 1T 參數(shù)量級 MoE 模型訓(xùn)練,并首次在 200B 以上量級的混合專家模型上,實現(xiàn)訓(xùn)練吞吐超越傳統(tǒng)的 3D 并行訓(xùn)練方案。

針對當(dāng)前主流的 MoE 后訓(xùn)練需求,XTuner V1 不使用序列并行就能實現(xiàn) 200B 量級 MoE 模型單次 forward-backward 可處理 64k 序列長度,更適合當(dāng)下流行的強化學(xué)習(xí)訓(xùn)練場景;對專家并行依賴小,長序列訓(xùn)練時受專家不均衡影響小,200B 量級 MoE 無需專家并行,600B MoE 只需節(jié)點內(nèi)專家并行,更適合現(xiàn)代 MoE Dropless 訓(xùn)練模式;大規(guī)模長短序列混訓(xùn)場景提速 2 倍以上,數(shù)據(jù)并行負(fù)載均衡,大幅減小因需序列長度不均衡導(dǎo)致的計算空泡。

同時,為了進一步挖掘 XTuner V1 訓(xùn)練方案的上限,研究團隊與華為昇騰技術(shù)團隊在 Ascend A3 NPU 超節(jié)點上進行聯(lián)合優(yōu)化,充分利用超節(jié)點硬件特性,實現(xiàn)了更高的 MFU(Model FLOPS Utilization,模型浮點運算利用率)。在理論算力落后 NVIDIA H800 近 20% 的情況下,最終實現(xiàn)訓(xùn)練吞吐超過 H800 近 5%,MFU 反超 20% 以上,該項研究成果技術(shù)報告也將于近期發(fā)布。

02.

訓(xùn)練引擎介

多維度技術(shù)優(yōu)化,專為“超大模型”而生

XTuner V1 之所以能在超大模型訓(xùn)練中展現(xiàn)出卓越的性能,核心在于它在顯存、通信、負(fù)載等多個維度進行了系統(tǒng)性優(yōu)化。這些優(yōu)化協(xié)同作用,不僅帶來了性能的跨越式提升,還兼顧了易用性、通用性與擴展性。

顯存優(yōu)化

Pytorch FSDP 與 3D 并行最大的差異在于重計算。3D 并行時會盡可能減少重計算的占比,顯存峰值主要來自于計算圖中記錄的激活值;Pytorch FSDP 則嚴(yán)重依賴于重計算,顯存峰值主要來自于為重計算保留的激活值和模型最后計算損失函數(shù)時的計算圖。

針對計算損失函數(shù)時的計算圖,XTuner V1 參考 Liger-Kernel 中的做法,開發(fā)了一套可以支持多種訓(xùn)練場景和多種硬件的自動 Chunk Loss 機制;針對重計算保留的激活值,XTuner V1 借鑒了 MindSpeed 中的 Async Checkpointing Swap。

Async Checkpointing Swap 會在模型第 i 層前向計算開始時,將重計算需要保存的激活值從 Device 搬運到 Host,釋放對應(yīng)激活值占用的顯存;在第 m 層反向傳播時,會提前將第 m-1 層重計算需要的激活值從 Host 側(cè)搬運回 Device 側(cè),反向傳播結(jié)束時會自動釋放對應(yīng)的顯存占用。

最終,無需借助序列并行技術(shù),實現(xiàn) 200B 參數(shù)量級 MoE 模型訓(xùn)練 64K 長度序列。

通信掩蓋

FSDP 會將參數(shù)均勻地切分在每張卡上,在模型的第 i 層計算時,會提前聚合第 i+1 層的參數(shù),當(dāng)?shù)?i 層計算結(jié)束后,會將第 i 層的參數(shù)重新切分回每張卡上。這種模式極大地節(jié)省了模型參數(shù)占用的顯存,但也增大了通信量,如果每層計算的耗時小于通信耗時,就會產(chǎn)生計算空泡,導(dǎo)致算力浪費。

得益于極致的顯存優(yōu)化,XTuner V1 可以讓單次迭代的最大序列長度提升數(shù)倍,從而增加每層計算的耗時,掩蓋參數(shù)聚合的通信耗時。

針對因顯存或通信帶寬受限,無法實現(xiàn)通信掩蓋的訓(xùn)練場景,XTuner V1 通過 Intra-Node Domino-EP 來降低每一層聚合參數(shù)的通信量,同時掩蓋因引入專家并行帶來的額外通信開銷。

DP 負(fù)載均衡

大模型訓(xùn)練時,通常會將多條句子拼接至一個固定長度,計算時使用變長注意力機制。32 個 1k 長度句子拼接得到的 32k 序列,計算耗時會遠(yuǎn)小于 2 個 16k 句子拼接得到的 32k 序列,數(shù)據(jù)并行維度越大,越容易出現(xiàn)計算空泡。

由于 XTuner V1 中沒有引入 TP、PP 等并行策略,相同卡數(shù)下,數(shù)據(jù)并行的維度會遠(yuǎn)大于 3D 并行。為了緩解變長注意力帶來的計算空泡,并盡可能不影響數(shù)據(jù)的訓(xùn)練順序,會對每 n 個 step 內(nèi)的已拼接好的序列進行排序,讓每次計算時,不同 DP 的最長子序列長度是接近的。

基于昇騰超節(jié)點深度優(yōu)化,

理論算力落后情況下訓(xùn)練效率反超業(yè)界產(chǎn)品

為了進一步探究 XTuner V1 訓(xùn)練方案的上限,研究團隊與華為昇騰技術(shù)團隊在 Ascend A3 NPU 超節(jié)點上進行了深度優(yōu)化,充分利用超節(jié)點硬件特性,實現(xiàn)了更高的 MFU。在理論算力落后 NVIDIA H800 20% 的情況下,最終實現(xiàn)訓(xùn)練吞吐反超 H800 近 5%,MFU 反超 20% 以上。

昇騰超節(jié)點通過高速總線連接多顆 NPU,突破互聯(lián)瓶頸,讓超節(jié)點像一臺計算機一樣工作,更加適合 FSDP 訓(xùn)練,相較于 NVIDIA H800:

  • 更高的通信帶寬:最大可實現(xiàn) 384 顆 NPU 點到點超大帶寬互聯(lián),F(xiàn)SDP All Gather 耗時僅為 H800 的 1/4~1/3,更容易實現(xiàn)計算-通信掩蓋。

  • 計算通信解耦:通過專用硬化調(diào)度和傳輸卸載,實現(xiàn)不占用計算核的高效數(shù)據(jù)通信,F(xiàn)SDP 計算通信掩蓋時不會影響計算速度。

  • 靈衢總線:CPU 和 NPU 通過靈衢總線互聯(lián),帶寬遠(yuǎn)超 PCIe,Checkpointing Swap 的開銷更小。

除硬件固有優(yōu)勢外,昇騰還從通信、內(nèi)存、計算、框架、工具等維度對基于超節(jié)點的 MoE 訓(xùn)練進行了全方位的加持:

  • Cube 調(diào)優(yōu):對于模型中集中了大量計算任務(wù)的 GroupedMatmul 算子進行分析,發(fā)現(xiàn)內(nèi)部搬運帶寬已經(jīng)擁塞但 cube 利用率還有提升空間。針對此問題,聯(lián)合研發(fā)團隊重點優(yōu)化 GroupedMatmul 算子分塊邏輯,根據(jù)不同輸入進行動態(tài)分塊 Tiling 策略優(yōu)化搬運效率。同時,根據(jù)場景的不同細(xì)化 Cache 策略,提高 Cache 命中率從而提升性能。

  • QoS 調(diào)優(yōu):QoS(Quality of Service)即服務(wù)質(zhì)量。在有限的帶寬資源下,QoS 為各種業(yè)務(wù)分配帶寬,為業(yè)務(wù)提供端到端的服務(wù)質(zhì)量保證。大規(guī)模訓(xùn)練過程中,計算流、通信流、swap 流都會存在 HBM 帶寬訪問,并發(fā)的訪問會導(dǎo)致 HBM 帶寬擁塞,從而影響整體性能。通過適當(dāng)調(diào)低通信的 HBM 訪存優(yōu)先級,可以減少計算的搬運時間,從而優(yōu)化端到端性能。

  • 跨流內(nèi)存復(fù)用:在FSDP 計算流和通信流異步重疊的場景中,Ascend Extension for PyTorch(PTA)中默認(rèn)的跨流內(nèi)存優(yōu)化會導(dǎo)致顯存不能及時釋放,需要開啟 PTA 中進階版的跨流內(nèi)存復(fù)用機制(MULTI_STREAM_MEMORY_REUSE=2),可以顯著降低顯存峰值。

  • 集群性能工具高效診斷:借助 MindStudio 全流程工具鏈中的 msprof-analyze 性能分析工具與 MindStudio Insight 可視化工具,開發(fā)者可以充分利用其強大的數(shù)據(jù)分析與可視化能力,在分鐘級時間內(nèi)精準(zhǔn)識別 訓(xùn)練過程中的“快慢卡”現(xiàn)象根因,快速定位出性能瓶頸,顯著提升大集群調(diào)優(yōu)效率。


編輯丨趙雅鑫

----- END -----

wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài),

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普稱自己要去北京兩天,出發(fā)之前,美國有跡象會跟伊朗停戰(zhàn)?

特朗普稱自己要去北京兩天,出發(fā)之前,美國有跡象會跟伊朗停戰(zhàn)?

墜入二次元的海洋
2026-03-27 00:20:35
上海風(fēng)向悄悄轉(zhuǎn)移,多年后這片區(qū)域要高攀不起了?城市在改寫規(guī)則

上海風(fēng)向悄悄轉(zhuǎn)移,多年后這片區(qū)域要高攀不起了?城市在改寫規(guī)則

芭比衣櫥
2026-03-26 14:03:10
德轉(zhuǎn)列世預(yù)賽附加賽最貴11人:居萊爾領(lǐng)銜,意大利五人入選

德轉(zhuǎn)列世預(yù)賽附加賽最貴11人:居萊爾領(lǐng)銜,意大利五人入選

懂球帝
2026-03-26 16:09:08
我跟你說,男人最好的春藥,壓根就不是什么枸杞海參,全是扯淡。

我跟你說,男人最好的春藥,壓根就不是什么枸杞海參,全是扯淡。

不甜的李子
2026-03-20 13:00:35
日媒:日本軍官闖中國使館,犯罪路線曝光,日學(xué)者罵高市粉飾和平

日媒:日本軍官闖中國使館,犯罪路線曝光,日學(xué)者罵高市粉飾和平

大漢體育解說
2026-03-25 22:19:21
張雪峰,倒在上市前夜

張雪峰,倒在上市前夜

帥真商業(yè)
2026-03-25 11:31:43
小雨!中雨!局地大雨或暴雨+雷暴大風(fēng)冰雹!未來7天廣西有3輪降雨......

小雨!中雨!局地大雨或暴雨+雷暴大風(fēng)冰雹!未來7天廣西有3輪降雨......

廣西氣象
2026-03-26 19:34:30
紅軍最可惜的將才,18當(dāng)師長20歲升軍長21歲升軍團長,他是誰

紅軍最可惜的將才,18當(dāng)師長20歲升軍長21歲升軍團長,他是誰

新一說史
2026-03-26 13:26:04
全球同步收到消息,冕寧縣探明世界級稀土巨礦,美地質(zhì)調(diào)查局緊盯

全球同步收到消息,冕寧縣探明世界級稀土巨礦,美地質(zhì)調(diào)查局緊盯

影孖看世界
2026-03-25 22:53:40
中國最“尷尬”的5個地級市:它們根本不該在本省,應(yīng)該“改嫁”

中國最“尷尬”的5個地級市:它們根本不該在本省,應(yīng)該“改嫁”

好笑娛樂君每一天
2026-03-26 01:22:35
于東來分享胖東來運營體制:管理層每年接受一次員工無記名投票,如果票數(shù)低,直接免職

于東來分享胖東來運營體制:管理層每年接受一次員工無記名投票,如果票數(shù)低,直接免職

瀟湘晨報
2026-03-26 20:51:31
上海人為何對浙江人如此認(rèn)同

上海人為何對浙江人如此認(rèn)同

娛樂洞察點點
2026-03-24 12:25:44
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
科學(xué)家在月球背面,發(fā)現(xiàn)了2200萬億噸金屬,它們究竟從何而來?

科學(xué)家在月球背面,發(fā)現(xiàn)了2200萬億噸金屬,它們究竟從何而來?

觀察宇宙
2026-03-25 20:24:45
曼聯(lián)哭暈!500萬賤賣的青訓(xùn),竟是卡塞米羅完美替身

曼聯(lián)哭暈!500萬賤賣的青訓(xùn),竟是卡塞米羅完美替身

瀾歸序
2026-03-27 04:09:03
不能讓美只手遮天,俄羅斯通告全球:普京訪華,和中國有大事要談

不能讓美只手遮天,俄羅斯通告全球:普京訪華,和中國有大事要談

誰將笑到最后
2026-03-27 03:22:09
對伊戰(zhàn)爭申請2000億美元,美國的恥辱還將持續(xù)多久?

對伊戰(zhàn)爭申請2000億美元,美國的恥辱還將持續(xù)多久?

包明說
2026-03-26 20:03:13
美國政壇失控!共和黨集體反擊:特朗普若退出,美國將爆發(fā)內(nèi)戰(zhàn)

美國政壇失控!共和黨集體反擊:特朗普若退出,美國將爆發(fā)內(nèi)戰(zhàn)

書紀(jì)文譚
2026-03-26 00:32:34
1974年女兵王季遲請假奔喪,政委見親屬王樹聲,隱藏身份曝光

1974年女兵王季遲請假奔喪,政委見親屬王樹聲,隱藏身份曝光

磊子講史
2026-03-24 14:38:24
張雪峰猝死全過程曝光!知情人發(fā)聲,本來可以活,3次機會沒抓住

張雪峰猝死全過程曝光!知情人發(fā)聲,本來可以活,3次機會沒抓住

智慧生活筆記
2026-03-25 18:23:01
2026-03-27 04:39:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
教育
時尚
本地
旅游

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

教育要聞

2026年高考可能“扎堆報考”的五大專業(yè):就業(yè)缺口大,穩(wěn)定且高薪

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復(fù)仇了一萬遍

旅游要聞

河南開封萬歲山武俠城,游客買300元門票:給妻子拍照被保安阻攔

無障礙瀏覽 進入關(guān)懷版