国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

深度拆解沐曦MXMACA軟件棧功能,算力自主+生態(tài)兼容

0
分享至



編輯|澤南

近日,剛剛 IPO 的國產(chǎn) GPU 公司沐曦股份,完成了自上市后的首個重大技術(shù)發(fā)布。

該公司旗下的 MXMACA 軟件棧(MACA)正式發(fā)布了全新版本 3.3.0.X,沐曦發(fā)布了一份 23 頁的技術(shù)報告,機(jī)器之心圍繞該報告對 MACA 進(jìn)行解讀。



在全自主硬件體系的支撐下,沐曦已經(jīng)構(gòu)建起「全棧軟件」體系,其對于提升計算引擎的效率起到了關(guān)鍵作用。同時,新一代 MACA 宣告了沐曦軟件生態(tài)的一次重要跨越,它的核心理念,是如何讓國產(chǎn) GPU 真正「用起來」。

GPU 生態(tài)適配的「萬能接口」

MACA(MetaX Accelerated Computing Architecture)被定義為「異構(gòu)計算軟件棧核心計算平臺、引擎、運維工具和規(guī)范化操作范本」,內(nèi)置了全套自研工具鏈,涵蓋編譯器、性能分析工具、格式轉(zhuǎn)換組件等,可實現(xiàn)多語言支持、算子自動優(yōu)化與跨框架平滑適配。

它面向沐曦的曦云 C 系列、曦思 N 系列 GPU 研發(fā),其定位是連接沐曦自研 GPU 硬件與上層應(yīng)用生態(tài)的關(guān)鍵紐帶。



MACA 承擔(dān)著連接硬件算力單元與上層應(yīng)用生態(tài)的紐帶作用。據(jù)介紹,它覆蓋了 AI 芯片工作流程的底層驅(qū)動、用戶態(tài)接口、編譯器、算子適配、訓(xùn)練框架、推理框架、行業(yè)場景優(yōu)化等全鏈路能力。

在芯片行業(yè),硬件決定算力基礎(chǔ),而軟件棧則決定了算力能否被有效釋放。長期以來,國產(chǎn) GPU 落地面臨的最大挑戰(zhàn)并非純粹的性能,而是生態(tài)兼容問題 ——AI 開發(fā)者早已習(xí)慣在英偉達(dá)的 CUDA 生態(tài)中開發(fā)新技術(shù)、構(gòu)建應(yīng)用,遷移到新的硬件上意味著高昂的遷移成本。

MACA 3.3.0.X 直擊這一痛點,它是一套「生態(tài)強化版」軟件棧,聚焦場景的深度適配,涵蓋底層基礎(chǔ)能力的迭代與主流 AI 框架、大模型訓(xùn)練推理、搜索、廣告、推薦、科學(xué)計算等多維度生態(tài)適配,其核心邏輯是構(gòu)建一個「萬能接口」,讓現(xiàn)有生態(tài)能夠近乎無縫地遷移到沐曦平臺上

具體有多萬能?技術(shù)報告顯示,沐曦團(tuán)隊對 GitHub 上大量 CUDA 項目進(jìn)行了適配測試。他們篩選了 4490 個「含 CUDA 關(guān)鍵字」的活躍代碼倉庫進(jìn)行驗證,按應(yīng)用領(lǐng)域包括 AI 模型 / 應(yīng)用、高性能并行計算、氣象模擬、計算化學(xué)等場景。

測試結(jié)果顯示,4173 個項目可以直接適配運行,成功率高達(dá) 92.94%。僅有 260 個項目需要微小調(diào)整,占比不足 6%,且修改主要涉及編譯配置優(yōu)化,而非核心業(yè)務(wù)邏輯。



這意味著,幾乎任何現(xiàn)有的 CUDA 項目都可以近乎「開箱即用」地遷移到沐曦平臺上,目前在市面上,還沒有第二家能夠做到

在 MACA 的這一通適配之后,GitHub 上海量的 AI、數(shù)據(jù)處理、科學(xué)計算應(yīng)用工具,可以快速適配在國產(chǎn)異構(gòu)計算平臺上。對于開發(fā)者而言,這就意味著面對國產(chǎn) AI 硬件體系時,學(xué)習(xí)成本和遷移工作量可以大幅降低。

框架兼容

擁抱主流 AI 開發(fā)生態(tài)

除了能夠無縫遷移已有的項目工作,新版本 MACA 也強調(diào)了對于 AI 框架兼容的特性,它能夠幫助開發(fā)者構(gòu)建和探索新技術(shù)。

在 AI 開發(fā)領(lǐng)域,框架兼容能力決定了平臺的可用性。MACA 3.3.0.X 版本完成了對 PyTorch 2.8 的深度適配,覆蓋了全部 2650 個核心算子(其中 GPU 算子 2410 個)。涵蓋從基本算術(shù)運算、線性代數(shù)操作、卷積 / 池化類算子、規(guī)約操作、隨機(jī)采樣、索引與切片快速傅里葉變換(FFT)、Attention 等所有關(guān)鍵算子類別。它支持多種數(shù)據(jù)形態(tài),保障了算子能力的完整性與場景適配性。

除了 PyTorch,MACA 還兼容 TensorFlow、PaddlePaddle、JAX 等主流開源框架,以及 Megatron-LM、DeepSpeed 等大模型訓(xùn)練框架,在推理端支持 vLLM、SGLang、Transformers、KTransformer 等推理框架。

在操作系統(tǒng)方面,MACA 兼容了 Ubuntu、CentOS、RHEL、openEuler、Anolis OS 、銀河麒麟等主流 Linux 發(fā)行版。它同時完整支持混合精度訓(xùn)練、分布式訓(xùn)練、torch.compile 編譯優(yōu)化與圖模式任務(wù)下發(fā)的深度集成等關(guān)鍵特性。

簡單來說,這一兼容性列表幾乎涵蓋了當(dāng)前 AI 開發(fā)的所有主流工具鏈。技術(shù)報告中還特別強調(diào),這種適配是「無需調(diào)整工程構(gòu)建邏輯,即可實現(xiàn)現(xiàn)有模型的無縫使用」。

搭配性能分析與優(yōu)化工具鏈,MACA 配合沐曦 GPU 在核心場景上的性能可以對標(biāo)主流 GPU 水平

MACA 不僅僅是一個兼容層,而是一個完整的軟件棧。它包含了開發(fā)效率引擎層和垂直場景賦能層兩大核心部分。

在開發(fā)效率引擎層,MACA 提供了一系列高性能算子庫,如針對矩陣計算的 mcBLAS、針對深度神經(jīng)網(wǎng)絡(luò)的 mcDNN、針對注意力機(jī)制的 mcFlashAttention 等。



MACA 套件中開發(fā)效率引擎,其旨在降低異構(gòu)開發(fā)門檻。

這些工具針對沐曦 GPU 的多卡拓?fù)溥M(jìn)行了專門優(yōu)化,編譯器工具支持 MACA C/C++、Fortran 等語言,能將高級語言轉(zhuǎn)化為高效的可執(zhí)行程序。

在垂直場景賦能層,MACA 針對 AI 與科學(xué)計算兩大方向,通過針對性的優(yōu)化策略與框架適配解決需求。

其中在 AI 領(lǐng)域,MACA 的訓(xùn)練優(yōu)化兼容 PyTorch、BMTrain 等框架,通過硬件流水線并行實現(xiàn)通信與計算重疊,優(yōu)化分布式并行策略。推理優(yōu)化則適配 ONNX Runtime、vLLM、SGLang 等框架,采用 INT8 量化、KVCache 跨卡管理提升長序列處理效率。

在科學(xué)計算領(lǐng)域,MACA 通過重構(gòu) MPI、BLAS 庫提升內(nèi)存帶寬,定向移植 OpenFOAM、GROMACS 等科學(xué)計算框架,結(jié)合容器化部署方案,能夠確保算力能高效支撐流體仿真、分子動力學(xué)等垂直場景。



此外,MACA 的性能分析工具提供了系統(tǒng)級追蹤和核函數(shù)指標(biāo)采集功能,能夠幫助開發(fā)者定位計算瓶頸。全棧工具鏈的完整性,使得開發(fā)者能夠在沐曦平臺上完成從開發(fā)到部署的全流程工作。

此種能力的背后,是沐曦構(gòu)建的大模型訓(xùn)推一體化能力。

算力到生產(chǎn)力的轉(zhuǎn)化

MACA-3.3.0.X 版本為開發(fā)者們構(gòu)建起了一套全流程的一體化算力支撐底座,通過軟硬件協(xié)同、核心算子優(yōu)化以及分布式架構(gòu)的升級,旨在實現(xiàn)訓(xùn)推效能的跨越式突破。

這一底座的基礎(chǔ)是沐曦自研的 GPGPU,其高算力密度與高內(nèi)存帶寬確保了單卡能夠高效處理千億參數(shù)模型。通過自研的 MetaXLink 高速互連技術(shù),沐曦在硬件層面構(gòu)建了低時延、高帶寬的分布式通信網(wǎng)絡(luò),使得算力供給擴(kuò)展至萬卡級集群,為 AI 大模型的超大規(guī)模分布式訓(xùn)練與推理奠定了基礎(chǔ)。

在軟件層面,MACA 構(gòu)建起端到端的協(xié)同體系。其首要特點是極致的生態(tài)兼容性,除此之外,MACA 通過拓?fù)涓兄?MCCL 高性能通信庫和自研的編譯器優(yōu)化模塊,能夠智能地優(yōu)化多機(jī)多卡的數(shù)據(jù)通信策略,實現(xiàn)算子自動融合、循環(huán)展開等編譯級優(yōu)化,深度挖掘出硬件底層潛力。



MACA 套件大模型推理優(yōu)化技術(shù)。

一體化設(shè)計的重要優(yōu)勢,在于打破訓(xùn)練與推理之間的場景壁壘。MACA 支持模型訓(xùn)練后的輕量化轉(zhuǎn)換與直接部署,無需二次適配。通過統(tǒng)一的模型格式與接口規(guī)范,它實現(xiàn)了「訓(xùn)練 - 微調(diào) - 推理 - 部署」全流程鏈路貫通,大幅縮短了大模型從技術(shù)研發(fā)到業(yè)務(wù)落地的周期與成本。

在技術(shù)層面上,MACA-3.3.0.X 版本針對幾個關(guān)鍵瓶頸進(jìn)行了深度調(diào)優(yōu)。

在關(guān)鍵算子上,MACA 針對 FlashAttention 優(yōu)化,大幅減少了向 HBM 顯存的數(shù)據(jù)搬運開銷;通過對于分布式集合通信庫的優(yōu)化,MACA 將千卡集群的訓(xùn)練、推理線性度穩(wěn)定在 95% 以上,專家并行效率提升了 15%;通過異步通信機(jī)制,還有通信 - 計算重疊優(yōu)化,MACA 將數(shù)據(jù)傳輸任務(wù)與 GPU 計算任務(wù)解耦并行,縮短了端到端延遲,提升 GPU 利用率 15%-30%,解決了因等待數(shù)據(jù)通信而導(dǎo)致的芯片閑置問題。

在軟件棧上層,沐曦進(jìn)一步做了面向易用性和部署的優(yōu)化:其深度支持 PyTorch 2.0 的 torch.compile 動態(tài)圖編譯,以最大化硬件利用率;針對推理場景打造輕量化引擎,優(yōu)化批處理策略以同時降低延遲、提升吞吐;全面兼容容器化與云原生架構(gòu),支持企業(yè)級的大規(guī)模彈性部署與便捷運維。

MACA 全面兼容當(dāng)前主流的大模型生態(tài)體系,無需代碼修改即可開展訓(xùn)練、推理;針對大規(guī)模大模型訓(xùn)練場景,其工具鏈可以縮短訓(xùn)練周期,在分布式訓(xùn)練中展現(xiàn)出優(yōu)異線性度,可以長周期無故障穩(wěn)定運行;在推理時,MACA 針對主流大模型的深度優(yōu)化降低了延遲,提升了吞吐量;與此同時,MACA 還具備從小規(guī)模調(diào)試到大規(guī)模訓(xùn)推的全場景平滑擴(kuò)展能力。

實測數(shù)據(jù)表明,沐曦通過 MACA-3.3.0.X 構(gòu)建的一體化算力底座在曦云 C 系列 GPU 上的訓(xùn)推效能已經(jīng)展現(xiàn)了與國際旗艦 GPU 產(chǎn)品 A 正面競爭的實力。



DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型,在不同參數(shù)規(guī)模(如 7B、13B)及任務(wù)類型(SFT、Pretrain)下的訓(xùn)練 TGS 數(shù)據(jù),包含「旗艦 A TGS」(黃色柱)、「C550 TGS」(紫色柱)及兩者效率比值(綠色折線)。

MACA 不僅是一個技術(shù)平臺,更是沐曦「1+6+X」戰(zhàn)略的重要組成部分。在這一戰(zhàn)略中,「1」代表數(shù)字算力底座,「6」代表對于六大核心行業(yè)的賦能,包括金融、醫(yī)療健康、能源、教科研、交通和大文娛等行業(yè)的 AI 場景應(yīng)用及開源生態(tài)建設(shè),「X」代表具身智能、低空經(jīng)濟(jì)等新興行業(yè)。

技術(shù)報告詳細(xì)介紹了 MACA 對于多個垂直場景的優(yōu)化:

  • 在搜廣推場景,MACA 針對 TensorFlow/JAX 與 XLA 技術(shù)棧進(jìn)行了深度協(xié)同適配。在部分模型中,沐曦平臺的性能已達(dá)到甚至超過國際旗艦產(chǎn)品。
  • 在傳統(tǒng)小模型支持方面,MACA 提供了多模型格式兼容和底層計算優(yōu)化,覆蓋計算機(jī)視覺、自然語言處理及傳統(tǒng)機(jī)器學(xué)習(xí)等核心場景。
  • 在 AI for Science 領(lǐng)域,MACA 適配了 PaddleScience、WRF 數(shù)值模式等科學(xué)計算工具。
  • 除此以外在材料、技術(shù)科學(xué)、天氣模擬、藥物研發(fā)等領(lǐng)域,MACA 對領(lǐng)域主流 AI 框架都進(jìn)行了適配。

這種場景化優(yōu)化能力,使得沐曦 GPU 不再僅僅是提供原始的算力,而是能夠針對特定行業(yè)需求提供優(yōu)化方案,實現(xiàn)從算力到生產(chǎn)力的高效轉(zhuǎn)化。

構(gòu)建生態(tài)的長遠(yuǎn)布局

作為銜接自主 GPGPU 硬件與全棧軟件體系的核心載體,MACA 3.3.0.X 的推出不僅是產(chǎn)品版本的常規(guī)迭代,更是國產(chǎn)芯片廠商在經(jīng)歷硬件破冰后,試圖通過軟件定義算力、通過標(biāo)準(zhǔn)重塑生態(tài)的長遠(yuǎn)布局。

值得肯定的是,沐曦提供的從 AI 芯片到軟件核心平臺的能力,是全棧自研的—— 與部分廠商選擇兼容 CUDA 或基于現(xiàn)有開源 ISA 進(jìn)行微調(diào)的方式不同,沐曦選擇了最具挑戰(zhàn)但也保證了長期安全性的路線:自主指令集。MACA 軟件棧具有自己的編程模型和使用范式,但也深度兼容 CUDA 生態(tài),無需大幅修改即可適配海量 CUDA 項目。另外,沐曦的 GPU 基于全自研 GPGPU 核心 IP 及架構(gòu),原生支持全精度計算、MetaXLink 高速互連等特性。

憑借自研的體系,沐曦保證了算力體系的安全合規(guī)、性能針對性以及演進(jìn)自主權(quán)。與此同時,MACA 并沒有將全自研等同于「生態(tài)完全推倒重來」,而是通過 MACA 軟件棧構(gòu)建了高度兼容的體系。

這種策略,保證了「算力自主」的戰(zhàn)略目標(biāo)。通過一并兼容已有生態(tài)海量的算法模型、軟件資產(chǎn)與開發(fā)者技能,讓更多開發(fā)者們無需重復(fù)造輪子,就可以在自主算力的底座上跑通業(yè)務(wù)。這種「高門檻自研、低成本遷移」的模式,最大化地保證了用戶的商業(yè)效率與效益。

隨著技術(shù)的不斷進(jìn)步,沐曦正在以最低的遷移成本,將 AI 開發(fā)者引入自己的生態(tài)軌道。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
原子彈炸后百年內(nèi)寸草不生!今廣島卻住滿了人,看看專家怎么說?

原子彈炸后百年內(nèi)寸草不生!今廣島卻住滿了人,看看專家怎么說?

興趣知識
2025-12-12 19:33:40
突傳!河北主持雪莉去世!僅38歲,前一天還發(fā)自拍,好友透露死因

突傳!河北主持雪莉去世!僅38歲,前一天還發(fā)自拍,好友透露死因

千言娛樂記
2025-12-28 20:01:31
闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門夢破碎

闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門夢破碎

花哥扒娛樂
2025-12-28 19:49:42
特朗普恐怕沒料到,大批軍火還沒運抵臺島,中方一招直打美國七寸

特朗普恐怕沒料到,大批軍火還沒運抵臺島,中方一招直打美國七寸

面包夾知識
2025-12-27 00:00:32
闞清子生子風(fēng)波的后續(xù)瓜!

闞清子生子風(fēng)波的后續(xù)瓜!

八卦瘋叔
2025-12-29 10:59:58
柬埔寨的打法越來越像哈馬斯了

柬埔寨的打法越來越像哈馬斯了

歷史總在押韻
2025-12-27 12:26:25
央視怒批,國務(wù)院點名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

央視怒批,國務(wù)院點名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

大魚簡科
2025-09-02 19:34:00
拋“對等論”后24小時,鄭麗文遭遇重大失利,韓國瑜相助也沒用?

拋“對等論”后24小時,鄭麗文遭遇重大失利,韓國瑜相助也沒用?

奉壹數(shù)碼
2025-12-29 14:20:48
多地嚴(yán)查體制內(nèi)“關(guān)系崗”,為啥偏偏這時候動真格?原因太現(xiàn)實了

多地嚴(yán)查體制內(nèi)“關(guān)系崗”,為啥偏偏這時候動真格?原因太現(xiàn)實了

社會日日鮮
2025-12-29 11:01:55
微信回應(yīng)安裝包體積膨脹,辟謠不會重復(fù)存儲用戶文件

微信回應(yīng)安裝包體積膨脹,辟謠不會重復(fù)存儲用戶文件

揚子晚報
2025-12-29 12:29:08
魔術(shù)讓火箭成功避坑班切羅!史密斯已成優(yōu)質(zhì)空間四號位,上限更高

魔術(shù)讓火箭成功避坑班切羅!史密斯已成優(yōu)質(zhì)空間四號位,上限更高

金風(fēng)說
2025-12-29 13:50:11
遺憾 23歲美女朱易再次失誤+無緣米蘭冬奧會 3年前曾出戰(zhàn)北京冬奧

遺憾 23歲美女朱易再次失誤+無緣米蘭冬奧會 3年前曾出戰(zhàn)北京冬奧

風(fēng)過鄉(xiāng)
2025-12-29 08:24:49
小卡55分刷紀(jì)錄!快船更衣室狂歡曝光:哈登帶頭為他瘋狂潑水慶祝

小卡55分刷紀(jì)錄!快船更衣室狂歡曝光:哈登帶頭為他瘋狂潑水慶祝

追球者
2025-12-29 14:11:54
國民黨中央委員選舉結(jié)果出爐,朱立倫狂喜,要拿捏鄭麗文?

國民黨中央委員選舉結(jié)果出爐,朱立倫狂喜,要拿捏鄭麗文?

叮當(dāng)當(dāng)科技
2025-12-28 04:57:08
72歲腫瘤專家患癌,抗癌一年病逝,他臨終前的2個后悔,引以為戒

72歲腫瘤專家患癌,抗癌一年病逝,他臨終前的2個后悔,引以為戒

39健康網(wǎng)
2025-12-26 16:09:48
從美元到黃金:全球資產(chǎn)“安全遷徙”,A股五大黃金龍頭迎來重估

從美元到黃金:全球資產(chǎn)“安全遷徙”,A股五大黃金龍頭迎來重估

小白鴿財經(jīng)
2025-12-29 07:05:02
乒超衛(wèi)冕后,球迷偶遇王楚欽離開南京,贊揚:意氣風(fēng)發(fā)少年郎

乒超衛(wèi)冕后,球迷偶遇王楚欽離開南京,贊揚:意氣風(fēng)發(fā)少年郎

鳳幻洋
2025-12-29 14:13:38
這8種東西不能用酒精擦,一擦就壞,再也修復(fù)不回來了!

這8種東西不能用酒精擦,一擦就壞,再也修復(fù)不回來了!

裝修秀
2025-11-13 11:50:03
鐵道部長丁關(guān)根不知王震要來,跑步下樓接,王震:我來打土豪來了

鐵道部長丁關(guān)根不知王震要來,跑步下樓接,王震:我來打土豪來了

浩渺青史
2025-12-23 20:05:39
交大附中嚴(yán)正聲明!很多嘉定家長都收到了!

交大附中嚴(yán)正聲明!很多嘉定家長都收到了!

尚虹橋
2025-12-28 20:33:43
2025-12-29 15:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12014文章數(shù) 142523關(guān)注度
往期回顧 全部

科技要聞

肉搏非洲,傳音不想只當(dāng)個賣手機(jī)的

頭條要聞

外交部:美在中國實現(xiàn)完全統(tǒng)一問題上是欠了中國債的

頭條要聞

外交部:美在中國實現(xiàn)完全統(tǒng)一問題上是欠了中國債的

體育要聞

“史上最貴”的世界杯,球迷成了韭菜

娛樂要聞

譚松韻扛劇能力被質(zhì)疑 趙麗穎成女主?

財經(jīng)要聞

白銀驚魂過山車 貴金屬牛站在懸崖邊?

汽車要聞

一汽正式“入股”零跑,總金額超37億元!

態(tài)度原創(chuàng)

房產(chǎn)
游戲
教育
親子
時尚

房產(chǎn)要聞

中糧(三亞)國貿(mào)中心ITC第四期自貿(mào)港政策沙龍圓滿舉行

前《質(zhì)量效應(yīng)》團(tuán)隊新作《Exodus》章魚伙伴新截圖

教育要聞

整體思維,學(xué)生:看到就想睡覺

親子要聞

一人一籍、籍隨人走,教育部發(fā)布首個全國性學(xué)前兒童學(xué)籍管理辦法

“勃肯鞋”今年冬天爆火!這幾雙怎么搭都好看

無障礙瀏覽 進(jìn)入關(guān)懷版