国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不靠英偉達,中科院在國產(chǎn) GPU 上跑通 76B 類腦大模型

0
分享至



SpikingBrain:大模型的第二條進化鏈。

作者丨鄭佳美

編輯丨馬曉寧

過去幾年,大模型幾乎都依賴 Transformer,它支撐了 GPT、Claude、Gemini 等一眾前沿模型的進步,但也一直被詬?。阂坏┪谋咀冮L,計算量和內(nèi)存消耗就會成倍膨脹,百萬級 token 幾乎不可承受。與此同時,大模型訓(xùn)練幾乎完全依賴 NVIDIA 的 GPU 體系。從算力到軟件棧,整個行業(yè)被牢牢綁定在 CUDA 上,硬件自主化成了遲遲邁不過去的門檻。

正因為如此,業(yè)界一直在尋找“下一條路”。有人嘗試混合架構(gòu),有人研究稀疏專家,也有人試水類腦計算。但這些探索往往停留在小規(guī)模實驗,很少能真正跑到大模型層面。

直到最近,中科院團隊拋出了一篇新論文,提出了一個全新系列的類腦大模型SpikingBrain。他們通過引入spiking 神經(jīng)元、線性注意力稀疏專家機制,不僅在超長文本處理上實現(xiàn)了百倍加速,還首次在國產(chǎn) GPU 平臺 MetaX上穩(wěn)定訓(xùn)練出 76B 規(guī)模的模型。

同時,SpikingBrain的問世也證明了大模型并不是只能依賴 Transformer + NVIDIA 的組合,另一條通往未來的道路正在被打開。


論文鏈接:https://www.arxiv.org/pdf/2509.05276

01

大模型的新答案

在實驗中,研究團隊在超長上下文任務(wù)上取得了突破性成果。以SpikingBrain-7B為例,當(dāng)輸入長度達到400 萬 token時,其Time-to-First-Token(首個 token 生成延遲)比傳統(tǒng) Transformer 快了100 倍。換句話說,原本需要長時間等待的超長文本任務(wù),如今幾乎可以做到即時響應(yīng)。


由于脈沖神經(jīng)元只在必要時才會“放電”,模型在推理過程中保持了69.15% 的稀疏激活率——也就是說,大多數(shù)神經(jīng)元在大部分時間處于靜默狀態(tài),不參與計算。相比始終全量激活的 Transformer,這種機制顯著降低了算力消耗和能耗。


在訓(xùn)練規(guī)模上,研究團隊共使用1500 億 token,先后訓(xùn)練了兩個核心模型:SpikingBrain-7BSpikingBrain-76B。盡管所用數(shù)據(jù)量遠少于許多主流開源大模型,這兩款模型在多項基準(zhǔn)測試中的表現(xiàn)依然能夠接近,甚至在部分任務(wù)上追平傳統(tǒng) Transformer。



更關(guān)鍵的是,這些訓(xùn)練完全在國產(chǎn) MetaX C550 GPU 集群上完成。實驗結(jié)果顯示,7B 模型在該平臺上達到了23.4% 的 FLOPs 利用率,充分證明了它在非 NVIDIA 硬件環(huán)境下依舊能夠保持穩(wěn)定高效的運行。


02

從不可微到可擴展

為了實現(xiàn)這些結(jié)果,研究團隊在模型結(jié)構(gòu)、訓(xùn)練方法和系統(tǒng)工程三個層面都做了實驗探索。

架構(gòu)實驗中,團隊對傳統(tǒng) Transformer 做了關(guān)鍵改造。首先,他們將全連接注意力替換為 線性注意力和混合注意力,從根本上緩解了計算復(fù)雜度隨序列長度平方級增長的瓶頸。

與此同時,他們引入了spiking 神經(jīng)元,讓模型像大腦一樣“按需放電”:只有在需要時才被激活,大多數(shù)時間保持靜默。這種類腦機制帶來了天然的稀疏性,大幅降低了無效計算,是 SpikingBrain 在能效上實現(xiàn)提升的關(guān)鍵所在。


而在系統(tǒng)實驗中,最棘手的挑戰(zhàn)來自硬件環(huán)境。團隊沒有沿用 NVIDIA 的成熟體系,而是選擇在國產(chǎn)MetaX GPU集群上完成全部訓(xùn)練。

為了讓大模型在這一平臺穩(wěn)定運行,他們對底層系統(tǒng)進行了大規(guī)模優(yōu)化:重寫關(guān)鍵算子庫,改造分布式通信機制,并針對長時間訓(xùn)練中常見的內(nèi)存溢出與死鎖問題設(shè)計了專門的解決方案。

憑借這些工程改造,SpikingBrain 不僅在數(shù)百張 MetaX GPU 上成功完成了 7B 模型的穩(wěn)定訓(xùn)練,還順利擴展到 76B 參數(shù)規(guī)模,并在此基礎(chǔ)上引入 MoE 稀疏專家機制,進一步提升了模型的性能與效率。

到了訓(xùn)練實驗環(huán)節(jié),為了讓新架構(gòu)真正跑通,團隊設(shè)計了一個conversion-based pipeline,把 Transformer 成熟的訓(xùn)練經(jīng)驗遷移到 SpikingBrain。配合事件觸發(fā)的 spike 編碼,模型中的脈沖神經(jīng)元依然可以通過反向傳播學(xué)習(xí),避免了“不可微”帶來的訓(xùn)練障礙。通過這種遷移式實驗設(shè)計,他們在保證穩(wěn)定性的同時,也逐步擴展了模型規(guī)模。


03

一條被點亮的新路線

總體來看,SpikingBrain 的價值不只是跑通了一個新模型,而是用系統(tǒng)性的嘗試回應(yīng)了當(dāng)下大模型最核心的幾個痛點。它在百萬級 token 的長文本上實現(xiàn)了數(shù)量級的加速,說明類腦機制在大規(guī)模模型里并不是紙上談兵,而是能帶來真實收益的方向。

同時,它第一次在國產(chǎn) GPU 上完成了 76B 規(guī)模訓(xùn)練,讓人看到大模型不一定要綁死在 CUDA 上,硬件路線其實有多種可能。再加上稀疏激活機制顯著降低了能耗,SpikingBrain 給“大模型能否可持續(xù)”這個老問題提供了一個新答案。

當(dāng)然,SpikingBrain 暫時還不能取代 Transformer,它更像是給行業(yè)提供了一個全新的實驗樣本:證明大模型還有其他路徑可走。至于它能否在更復(fù)雜任務(wù)、更大規(guī)模下保持穩(wěn)定,以及類腦機制能否發(fā)展成成熟的工具鏈,還需要時間和進一步驗證。”

但至少現(xiàn)在,我們已經(jīng)看到,大模型的發(fā)展并不是只有一條路,新的路徑正在一點點被點亮。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
黎筍之子黎堅誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

黎筍之子黎堅誠坦言:父親選擇同中國開戰(zhàn),是其畢生最大的失策

磊子講史
2025-12-24 11:04:05
澳洲既有煤礦又有鐵礦,為啥不發(fā)展鋼鐵業(yè),而是直接出口這些礦產(chǎn)

澳洲既有煤礦又有鐵礦,為啥不發(fā)展鋼鐵業(yè),而是直接出口這些礦產(chǎn)

向航說
2025-12-24 00:20:02
山東省日照市委原常委、市政府原副市長張佃虎被開除黨籍和公職

山東省日照市委原常委、市政府原副市長張佃虎被開除黨籍和公職

極目新聞
2025-12-25 10:07:46
首批中國游客赴俄遭“天價宰殺”落地即“失聯(lián)”支付系統(tǒng)全面失靈

首批中國游客赴俄遭“天價宰殺”落地即“失聯(lián)”支付系統(tǒng)全面失靈

深度報
2025-12-23 22:47:10
演員金莎曬視頻宣布被男友孫丞瀟求婚,兩人相差19歲,于2023年9月公開戀情

演員金莎曬視頻宣布被男友孫丞瀟求婚,兩人相差19歲,于2023年9月公開戀情

臺州交通廣播
2025-12-24 22:45:46
網(wǎng)傳徐湖平別墅附近出現(xiàn)大量便衣,舉報人也被接受問詢

網(wǎng)傳徐湖平別墅附近出現(xiàn)大量便衣,舉報人也被接受問詢

映射生活的身影
2025-12-24 21:08:35
茅臺鎮(zhèn)過冬:酒價最高降6成!有酒廠暫停投產(chǎn)、免費租窖池,大家在等2027

茅臺鎮(zhèn)過冬:酒價最高降6成!有酒廠暫停投產(chǎn)、免費租窖池,大家在等2027

紅星新聞
2025-12-24 16:58:16
南博事件持續(xù)升溫!郭禮典實名舉報后接到恐嚇電話,且是連續(xù)5個

南博事件持續(xù)升溫!郭禮典實名舉報后接到恐嚇電話,且是連續(xù)5個

火山詩話
2025-12-25 06:49:52
“堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

“堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

文史微鑒
2025-12-24 23:47:43
只施壓泰國?;?,卻縱容柬方埋雷?泰防長怒批:該國中立是幌子!

只施壓泰國?;?,卻縱容柬方埋雷?泰防長怒批:該國中立是幌子!

朔方瞭望
2025-12-24 16:35:47
工信部:11月我國移動電話用戶總數(shù)減少200萬戶

工信部:11月我國移動電話用戶總數(shù)減少200萬戶

南方都市報
2025-12-24 20:05:21
搶瘋了!各地門店大排長龍,排號炒到400元一個!網(wǎng)友:怎么又火了?

搶瘋了!各地門店大排長龍,排號炒到400元一個!網(wǎng)友:怎么又火了?

觀威海
2025-12-24 10:14:23
紅軍城再次遇險,美國股神巴菲特之子加入烏軍

紅軍城再次遇險,美國股神巴菲特之子加入烏軍

史政先鋒
2025-12-24 21:03:28
南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

火山詩話
2025-12-24 14:29:42
美國要絕望!殲-20生產(chǎn)超300架已宣告停產(chǎn),理由居然是:已經(jīng)落后

美國要絕望!殲-20生產(chǎn)超300架已宣告停產(chǎn),理由居然是:已經(jīng)落后

胖福的小木屋
2025-12-24 23:49:37
迪拜品牌推出“Dabubu”盲盒,10個盲盒隱藏款有18K金鏈

迪拜品牌推出“Dabubu”盲盒,10個盲盒隱藏款有18K金鏈

半島晨報
2025-12-24 19:45:03
南博前院長徐湖平被帶走,郭禮典接受問詢

南博前院長徐湖平被帶走,郭禮典接受問詢

無忌財談
2025-12-24 18:41:51
全球最精確預(yù)言家:2026,歷史性的一年, 能說的都在這里

全球最精確預(yù)言家:2026,歷史性的一年, 能說的都在這里

神奇故事
2025-12-24 23:34:15
呂志同志逝世

呂志同志逝世

新京報政事兒
2025-12-24 22:38:13
南京博物院——徐湖平的精致和郭禮典的潦草

南京博物院——徐湖平的精致和郭禮典的潦草

北理工老羅大學(xué)文學(xué)心學(xué)
2025-12-24 19:53:53
2025-12-25 10:35:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7024文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

老板監(jiān)視員工微信只需300元

頭條要聞

路透社稱中國造出EUV光刻機 "手搓"EUV光刻機難點披露

頭條要聞

路透社稱中國造出EUV光刻機 "手搓"EUV光刻機難點披露

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

美國未來18個月不對中國芯片加額外關(guān)稅

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

親子
時尚
旅游
數(shù)碼
游戲

親子要聞

小號圣誕老人+麋鹿真的好可愛!

對不起周柯宇,是陳靖可先來的

旅游要聞

【圖集】快來看,觀山湖公園的“小精靈”

數(shù)碼要聞

AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

日本玩家Switch嚴(yán)重鼓大包仍能游玩 這還能用?

無障礙瀏覽 進入關(guān)懷版