国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Bengio團(tuán)隊找到了一種超越Transformer的硬件對齊方案

0
分享至

編輯|Panda

Transformer 已經(jīng)改變了世界,但也并非完美,依然還是有競爭者,比如線性遞歸(Linear Recurrences)或狀態(tài)空間模型(SSM)。這些新方法希望能夠在保持模型質(zhì)量的同時顯著提升計算性能和效率。

然而,現(xiàn)有的線性遞歸或狀態(tài)空間模型雖然在理論上具有線性復(fù)雜度,但在高性能 GPU 上的實際表現(xiàn)往往并不如人意,會受限于內(nèi)存帶寬和全局同步帶來的高昂通信成本。

近日,Radical Numerics 與蒙特利爾大學(xué) Yoshua Bengio 團(tuán)隊找了一個新思路,為 LLM 的效率進(jìn)化提供了一個極具啟發(fā)性的工程視角。該團(tuán)隊通過將線性遞歸重新定義為硬件對齊的矩陣運(yùn)算,提出了一套能夠相當(dāng)完美契合 GPU 內(nèi)存層級的算法框架。



  • 論文標(biāo)題:Sliding Window Recurrences for Sequence Models
  • 論文地址:https://arxiv.org/abs/2512.13921

該研究有三位共一作者:Dragos Secrieru、Garyk Brixi 和 Stefano Massaroli。他們都是 Radical Numerics 的成員,這家旨在打造科學(xué)超級智能的創(chuàng)業(yè)公司已經(jīng)取得了一些亮眼的突破性進(jìn)展,包括首批使用百萬級上下文窗口訓(xùn)練的模型以及 Evo 和 Evo 2 這兩個生成式基因組學(xué)模型。

核心挑戰(zhàn):打破線性遞歸的「內(nèi)存墻」

該團(tuán)隊首先指出,盡管并行掃描(Parallel Scan)算法在邏輯上能以 O(log n)的深度并行化處理遞歸,但它們在現(xiàn)代分級內(nèi)存硬件上表現(xiàn)得并不理想。

傳統(tǒng)的并行掃描算法,如 Kogge-Stone,具有極低的算法深度,但其數(shù)據(jù)訪問模式往往跨越全局地址空間,導(dǎo)致頻繁的全局內(nèi)存同步和洗牌操作。



在 GPU 這種具有多級緩存(寄存器、共享內(nèi)存、顯存)的架構(gòu)中,這種「扁平化」的算法策略不僅無法有效利用數(shù)據(jù)局部性,更無法發(fā)揮 Tensor Core 等專用矩陣乘法硬件的計算峰值。

這種由于數(shù)據(jù)移動而非計算本身導(dǎo)致的瓶頸,正是長文本大模型訓(xùn)練和推理中亟待解決的「內(nèi)存墻」問題。

為了從數(shù)學(xué)層面拆解這一問題,論文引入了轉(zhuǎn)移算子(Transfer Operator)的矩陣?yán)碚摗?/p>





這一分解揭示了一個關(guān)鍵點:跨塊通信的本質(zhì)是秩 - 1(Rank-one)的低秩更新。這為消除全局同步提供了理論上的切入點。

解決方案:滑動窗口循環(huán)與 B2P 算法

該論文最核心的貢獻(xiàn)是提出了滑動窗口循環(huán)(SWR),這是一種通過策略性截斷計算視界來換取極高吞吐量的原語。





為了將這一理論落地,作者開發(fā)了塊兩步(Block Two-Pass, B2P)算法及其對應(yīng)的 CUDA 內(nèi)核。



該算法將計算過程分為兩個階段:

在第一階段,每個線程束(Warp)并行處理一個大小為 16 的本地塊(與 Warp 大小對齊),利用 Tensor Core 通過 GEMM 方式完成高效的本地遞歸求解。

在第二階段,算法通過 GPU 片上的共享內(nèi)存(SMEM)或分布式共享內(nèi)存(DSMEM)在相鄰塊之間傳遞狀態(tài)載體,并進(jìn)行即時的秩-1 補(bǔ)償。

這種設(shè)計確保了輸入數(shù)據(jù)只需從顯存讀取一次,所有中間通信均發(fā)生在芯片內(nèi)部,實現(xiàn)了接近恒定的 O (1) 算法深度和極佳的硬件利用率。





Phalanx 層設(shè)計與層級架構(gòu)集成

基于 B2P 算法,作者設(shè)計了名為Phalanx的新型計算層,它可以作為滑動窗口注意力或線性遞歸層的無縫替代品。在層參數(shù)化方面,Phalanx 遵循極簡原則,通過 Sigmoid 激活函數(shù)將遞歸系數(shù) a_i 限制在 (0, 1) 的穩(wěn)定區(qū)間內(nèi),從而保證了長序列處理時的數(shù)值穩(wěn)定性。



同時,該層采用了基于頭(Head)的參數(shù)共享模式,每個頭共享一套遞歸系數(shù),這與 Tensor Core 處理 16×16 矩陣瓦片的計算模型完美契合。

Phalanx 被定位為混合架構(gòu)中的「局部專家」,專門負(fù)責(zé)高效捕獲短程令牌互動,而將長程路由任務(wù)交給全局注意力層。這種職能分工使得模型能夠在不損失精度的前提下,大幅減少跨內(nèi)存層級的數(shù)據(jù)移動。

更多細(xì)節(jié)請訪問原論文。

實驗結(jié)果:速度與質(zhì)量的雙重突破

在針對 1.3B 參數(shù)規(guī)模模型的系統(tǒng)性測試中,Phalanx 展現(xiàn)出了顯著的性能優(yōu)勢。在 FineWeb-Edu 數(shù)據(jù)集上,Phalanx+Attention 混合模型在多個維度上超越了優(yōu)化的 Transformer 和滑動窗口注意力(SWA)基準(zhǔn)。



在訓(xùn)練吞吐量方面,當(dāng)上下文長度在 4K 到 32K 之間時,Phalanx 混合模型實現(xiàn)了 10% 到 40% 的端到端提速。



在 8K 上下文的訓(xùn)練任務(wù)中,Phalanx 混合模型的訓(xùn)練速度比傳統(tǒng)的 SWA/Attention 混合架構(gòu)快 28%,甚至在短序列長度下也表現(xiàn)卓越,在 Hopper GPU 上比純注意力模型提升了 10% 的訓(xùn)練吞吐量。

在模型精度方面,實驗數(shù)據(jù)顯示 Phalanx 在匹配 Transformer++ 基準(zhǔn)性能的同時,甚至在特定比例下取得了更低的困惑度。

例如,在 1:1 的混合比下,Phalanx 達(dá)到了 10.85 的困惑度,優(yōu)于 Transformer++ 的 10.95。



此外,通過對衰減系數(shù)和門控機(jī)制的消融實驗,作者證明了其精心設(shè)計的參數(shù)化方案對于維持模型表現(xiàn)的關(guān)鍵作用。更多詳情請參閱原論文。

總結(jié)與行業(yè)意義

《Sliding Window Recurrences for Sequence Models》為下一代長文本模型架構(gòu)指明了一個方向:真正的效率并非僅僅來自算法復(fù)雜度的降低,更來自于對底層計算硬件物理特性的深刻理解與對齊。

通過將數(shù)學(xué)上的線性遞歸轉(zhuǎn)化為硬件友好的塊級矩陣運(yùn)算,Phalanx 層成功在訓(xùn)練速度與模型質(zhì)量之間找到了一個更優(yōu)的平衡點。

隨著 2025 年之后 LLM 繼續(xù)向超大規(guī)模上下文和實時具身智能演進(jìn),這種硬件感知的算子設(shè)計將成為構(gòu)建更綠色、更強(qiáng)大 AI 系統(tǒng)的核心基石。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
那對迎著槍口前進(jìn)的年輕情侶

那對迎著槍口前進(jìn)的年輕情侶

玖奌雜貨鋪
2026-01-10 19:14:44
單打四強(qiáng)出爐!國乒3人晉級,陳幸同絕殺張本美和;韓日均剩獨(dú)苗

單打四強(qiáng)出爐!國乒3人晉級,陳幸同絕殺張本美和;韓日均剩獨(dú)苗

莼侃體育
2026-01-11 05:00:21
35歲少婦出軌被騙財騙色,高顏值曝光,現(xiàn)場對話流出原配現(xiàn)場沉默

35歲少婦出軌被騙財騙色,高顏值曝光,現(xiàn)場對話流出原配現(xiàn)場沉默

老貓觀點
2026-01-06 09:00:24
電動兩輪車新國標(biāo):一場從“限速上牌”到“智慧網(wǎng)聯(lián)”的產(chǎn)業(yè)升維

電動兩輪車新國標(biāo):一場從“限速上牌”到“智慧網(wǎng)聯(lián)”的產(chǎn)業(yè)升維

鋅財經(jīng)
2026-01-08 20:15:11
馬杜羅之子:馬杜羅在美國監(jiān)獄說“我們很好,我們是斗士”

馬杜羅之子:馬杜羅在美國監(jiān)獄說“我們很好,我們是斗士”

參考消息
2026-01-11 11:02:23
兩個中國最“硬”的男人:一個給國家交稅1400億卻家破人亡,一個喝掉2噸茅臺把虧損廠干到萬億,這才是頂級狠人!

兩個中國最“硬”的男人:一個給國家交稅1400億卻家破人亡,一個喝掉2噸茅臺把虧損廠干到萬億,這才是頂級狠人!

寄史言志
2026-01-09 18:47:15
馬杜羅被綁后,加拿大總理立刻訪華,行程安排比李在明還有求生欲

馬杜羅被綁后,加拿大總理立刻訪華,行程安排比李在明還有求生欲

梁訊
2026-01-11 04:37:10
特朗普太牛了!在白宮會晤石油巨頭時舉重若輕:突然起身去欣賞“工地”

特朗普太牛了!在白宮會晤石油巨頭時舉重若輕:突然起身去欣賞“工地”

回旋鏢
2026-01-10 13:30:41
218:213!美眾議院投票出爐,特朗普松口撤軍,美國霸權(quán)或?qū)⒈桓膶?>
    </a>
        <h3>
      <a href=妙知
2026-01-10 19:59:10
霍啟剛公布個人名下財產(chǎn)!全球共有35個物業(yè),收租頗豐生活卻節(jié)儉

霍啟剛公布個人名下財產(chǎn)!全球共有35個物業(yè),收租頗豐生活卻節(jié)儉

阿纂看事
2026-01-10 22:39:19
錢再多有什么用?67歲身價千萬的李幼斌,給所有中老年人提了個醒

錢再多有什么用?67歲身價千萬的李幼斌,給所有中老年人提了個醒

夢史
2026-01-10 14:02:41
成都61歲男子將長約17cm紅薯塞入肛門,卡住無法取出,紅薯尺寸過大,最終手術(shù)取出

成都61歲男子將長約17cm紅薯塞入肛門,卡住無法取出,紅薯尺寸過大,最終手術(shù)取出

觀威海
2026-01-10 16:54:03
問題到底出在哪里?為什么那么多人不信官方說法…

問題到底出在哪里?為什么那么多人不信官方說法…

慧翔百科
2026-01-10 13:44:32
數(shù)千萬波斯人,不伺候阿塞拜疆權(quán)貴了?伊朗今夜,就是百年前清末

數(shù)千萬波斯人,不伺候阿塞拜疆權(quán)貴了?伊朗今夜,就是百年前清末

南宗歷史
2026-01-10 16:15:24
船員柬埔寨轉(zhuǎn)機(jī)后失聯(lián)超十天,與妻子通話中疑似暗示報警

船員柬埔寨轉(zhuǎn)機(jī)后失聯(lián)超十天,與妻子通話中疑似暗示報警

大象新聞
2026-01-11 10:01:13
特朗普直接念出來了,魯比奧快“碎”了…

特朗普直接念出來了,魯比奧快“碎”了…

觀察者網(wǎng)
2026-01-10 22:50:08
“豆腐2刀咋可能切成8塊?”家長質(zhì)疑題目出錯了,反被老師打臉

“豆腐2刀咋可能切成8塊?”家長質(zhì)疑題目出錯了,反被老師打臉

妍妍教育日記
2026-01-09 20:20:36
馬斯克成伊朗明星;哈梅內(nèi)伊咒罵美國

馬斯克成伊朗明星;哈梅內(nèi)伊咒罵美國

跟著老李看世界
2026-01-10 00:02:23
從扣船到炸港僅數(shù)小時,俄軍讓北約明白,手伸太長必被砍

從扣船到炸港僅數(shù)小時,俄軍讓北約明白,手伸太長必被砍

星辰夜語
2026-01-10 11:55:24
人民日報罕見“鐘才平”四連評,釋放極強(qiáng)政策信號,信息量巨大!

人民日報罕見“鐘才平”四連評,釋放極強(qiáng)政策信號,信息量巨大!

識局Insight
2026-01-10 13:23:53
2026-01-11 11:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

馬杜羅之子:馬杜羅在美監(jiān)獄說"我們很好我們是斗士"

頭條要聞

馬杜羅之子:馬杜羅在美監(jiān)獄說"我們很好我們是斗士"

體育要聞

詹皇曬照不滿打手沒哨 裁判報告最后兩分鐘無誤判

娛樂要聞

網(wǎng)友偶遇賈玲張小斐崇禮滑雪

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

藝術(shù)
本地
旅游
親子
公開課

藝術(shù)要聞

福布斯最佳CEO榜單!馬化騰第一!東哥呢?

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

旅游要聞

逛起來!上海第一波年味已就緒→

親子要聞

深度長文:原始社會嬰兒哭聲會引來大量天敵,嬰兒如何生存下看?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版