国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Transformer終結(jié)者!谷歌DeepMind全新MoR架構(gòu)問世,推理速度翻倍、內(nèi)存減半!

0
分享至


來源:新智元

【導(dǎo)讀】Transformer殺手來了?KAIST、谷歌DeepMind等機(jī)構(gòu)剛剛發(fā)布的MoR架構(gòu),推理速度翻倍、內(nèi)存減半,直接重塑了LLM的性能邊界,全面碾壓了傳統(tǒng)的Transformer。網(wǎng)友們直呼炸裂:又一個(gè)改變游戲規(guī)則的炸彈來了。

就在剛剛,KAIST、Mila和谷歌DeepMind團(tuán)隊(duì)等放出重磅炸彈——

一個(gè)名為Mixture-of-Recursions的全新LLM模型架構(gòu)。

這個(gè)嶄新的架構(gòu),被業(yè)內(nèi)認(rèn)為有潛力成為Transformer殺手!

它的推理速度提升2倍,訓(xùn)練FLOP減少,KV緩存內(nèi)存直接減半。

最終,在135M到1.7B的參數(shù)規(guī)模下,MoR直接劃出了一個(gè)新的帕累托前沿:相同的訓(xùn)練FLOPs,但困惑度更低、小樣本準(zhǔn)確率更高,并且吞吐量提升超過2倍。

全面碾壓傳統(tǒng)的Transformer!


論文鏈接:https://arxiv.org/abs/2507.10524

其實(shí),學(xué)界很早就發(fā)現(xiàn),Transformer復(fù)雜度太高,算力需求驚人。

比如最近CMU大牛、Mamba架構(gòu)作者Albert Gu就表示,Transformer模型能力的局限太大,所謂token就是胡扯。


而谷歌產(chǎn)品負(fù)責(zé)人Logan Kilpatrick公開指出了注意力機(jī)制的缺陷——不可能實(shí)現(xiàn)無限上下文,還強(qiáng)調(diào)必須要在核心架構(gòu)層進(jìn)行全面創(chuàng)新。

今天谷歌DeepMind的這項(xiàng)研究,和這些大牛的觀點(diǎn)不謀而合了。

對(duì)此,網(wǎng)友們紛紛表示實(shí)在炸裂。

有人預(yù)測,潛在空間推理可能會(huì)帶來下一個(gè)重大突破。


顯然,對(duì)于代碼、數(shù)學(xué)、邏輯這類分層分解問題的任務(wù),MoR都是一個(gè)改變游戲規(guī)則的重磅炸彈。



甚至還有人評(píng)論道:看起來像是Hinton的膠囊網(wǎng)絡(luò)重生了。


谷歌DeepMind放大招

遞歸魔法讓LLM瘦身還提速

LLM發(fā)展到如今,接下來該怎樣做?靠堆參數(shù)、加層數(shù),讓它更聰明嗎?

這項(xiàng)研究告訴我們:真正的高手,從來都不是靠堆料,而是靠設(shè)計(jì)的藝術(shù)。

這次他們做出的MoR全新架構(gòu),直譯出來是「遞歸混合體」,直接讓LLM推理速度噌噌翻倍!

所以,MoR究竟做了什么?

簡而言之,它做了以下兩點(diǎn)。

1. 不對(duì)所有token一視同仁

LLM在處理文本時(shí),會(huì)把句子拆成一個(gè)個(gè)token,不過,像「的」「是」「在」這種詞,并不需要多高深的推理,只需要一次前向傳播就夠了。而復(fù)雜的token,則需多次經(jīng)過同一層棧。

MoR的聰明之處就在于,因token而異。

MoR的秘密武器是小型路由器,會(huì)為每個(gè)token的隱藏狀態(tài)打分,僅高分token的會(huì)繼續(xù)循環(huán),其余的則提前退出。


2. 循環(huán)復(fù)用:一個(gè)模塊搞定全部

傳統(tǒng)Transformer的思路就是不斷「堆層」,堆得越高,處理能力越強(qiáng)。但這樣的代價(jià),就是內(nèi)存和算力:模型會(huì)越來越慢,越來越貴。

而MoR則反其道而行之,專門設(shè)計(jì)了共享塊,每個(gè)token最多循環(huán)4次,只要路由器說「完成」,就提前跳出循環(huán)。

總之,如果說Transformer是一個(gè)龐大的工廠流水線,那MoR就更像一支高效的特種部隊(duì)。未來的AI,恐怕不會(huì)再比拼誰更重,而是誰更會(huì)分工調(diào)度、節(jié)省力氣。

而谷歌DeepMind,已經(jīng)敏銳地把握到了這一點(diǎn),給我們演示了這一趨勢的早期范本。

真自適應(yīng)計(jì)算

只靠Scaling law,把語言模型做大,確實(shí)能讓它能力暴漲,但訓(xùn)練、部署所需的算力和成本也跟著暴漲。

現(xiàn)在常見的「瘦身」招數(shù),要么是把參數(shù)共享(省顯存),要么是按需計(jì)算(省算力)。

但目前仍缺乏一種能將兩者有機(jī)融合的架構(gòu)。

「遞歸混合」(Mixture-of-Recursions, MoR),充分發(fā)揮了遞歸Transformer的潛力(見圖1),成功融合了兩者。


圖1:遞歸混合(Mixture-of-Recursions,MoR)概覽

(左)每個(gè)遞歸步驟包含固定層堆棧和決定token是否繼續(xù)遞歸的路由器(中間灰框區(qū)域)。

(中)完整模型結(jié)構(gòu),其中共享遞歸步驟根據(jù)路由決策對(duì)每個(gè)token最多應(yīng)用次。

(右)展示token級(jí)遞歸深度的路由模式示例,顏色越深表示該token在遞歸塊中的計(jì)算越活躍。底部數(shù)字以不同顏色標(biāo)注各文本token的遞歸步數(shù):1步、2步和3步 。

在統(tǒng)一的架構(gòu)中,MoR同時(shí)實(shí)現(xiàn)了三種效率優(yōu)化:

通過共享權(quán)重壓縮參數(shù)量;通過動(dòng)態(tài)路由減少冗余計(jì)算;通過智能緩存減少內(nèi)存開銷。

遞歸混合架構(gòu)

在預(yù)訓(xùn)練和推理過程中,MoR為每個(gè)token動(dòng)態(tài)調(diào)整遞歸步驟,依賴兩大組件:

路由機(jī)制和KV緩存策略。

路由機(jī)制:專家選擇vs.token選擇

受top-k門控機(jī)制的啟發(fā),研究人員提出了專家選擇路由(Expert-choice routing)(見圖2a)。

在這種模式下,遞歸深度可看作「專家」,每輪遞歸時(shí)這些專家會(huì)挑選它們認(rèn)為最值得處理的top-k個(gè)token。


為了讓遞歸更具一致性,團(tuán)隊(duì)還引入了分層篩選機(jī)制(hierarchical filtering):只有在第r層中被選中的token,才有資格參與第r+1層的評(píng)估。

這一設(shè)計(jì)模擬了早退出機(jī)制,讓模型在訓(xùn)練初期就能自動(dòng)「篩選」出需要深度處理的token,把算力集中到最困難的token上。

與前者不同,token選擇路由(token-choice routing)(見圖2b),在一開始就決定了每個(gè)token要走多少次遞歸流程。

具體來說,根據(jù)第1層的隱藏狀態(tài),模型會(huì)計(jì)算每個(gè)專家的打分(如通過softmax或sigmoid)。

假設(shè)有個(gè)專家,每個(gè)專家對(duì)應(yīng)一次遞歸,那么模型將token分配給得分最高的專家。 token將被送入前i層遞歸,每層都按順序進(jìn)行處理。

在這種方式中,token在進(jìn)入網(wǎng)絡(luò)時(shí)就確定好遞歸深度,同時(shí)避免了每一層的重新選擇,提升了推理效率。

表2左比較了兩種方法

expert-choice路由的優(yōu)點(diǎn)在于,它可以實(shí)現(xiàn)理想的計(jì)算負(fù)載均衡。然而,它容易信息泄露。

相比之下,token-choice路由天然不會(huì)泄露信息。但這種方式負(fù)載分配不均。


表2:路由策略與鍵值緩存策略的比較。(左)兩種路由策略總結(jié):專家選擇與令牌選擇;(右)緩存策略相對(duì)于普通Transformer的相對(duì)成本效率


圖2:混合遞歸(MoR)的架構(gòu)組件。(a)專家選擇路由;(b)token自主選擇路由;(c)KV緩存策略

KV緩存策略:按遞歸層緩存vs.跨層共享

針對(duì)MoR模型,研究人員提出了兩種KV緩存策略:按遞歸層緩存和跨遞歸共享。

1.按遞歸層緩存(見圖2c上)是「選擇性緩存」:只有被路由到某一遞歸層的Token,才會(huì)在該層生成并存儲(chǔ)它的KV對(duì)。

注意力計(jì)算僅在當(dāng)前遞歸層的緩存內(nèi)進(jìn)行,這種設(shè)計(jì)有助于實(shí)現(xiàn)局部化計(jì)算,顯著提升了內(nèi)存使用效率,并減少I/O負(fù)擔(dān)。

2.跨遞歸共享(見圖2c):只在第一個(gè)遞歸層生成并緩存KV對(duì),然后在之后所有層中重復(fù)使用。這種機(jī)制下,每一層參與注意力計(jì)算的Query數(shù)量可能會(huì)減少。

也就是說,所有Token無論在后續(xù)層是否繼續(xù)參與計(jì)算,都可以完整地訪問歷史上下文,無需重新計(jì)算。

表2右對(duì)比了兩種緩存策略:

  • 按遞歸層緩存:KV內(nèi)存與I/O負(fù)擔(dān),被壓縮為原來的一半左右。

  • 跨遞歸共享:只能線性壓縮注意力計(jì)算量,而且KV的讀寫次數(shù)較高,可能會(huì)成為性能瓶頸。


表3:在等計(jì)算量與等token數(shù)條件下,MoR、遞歸Transformer、普通Transformer的比較

實(shí)驗(yàn)

研究者從零開始預(yù)訓(xùn)練模型,采用基于Llama的Transformer架構(gòu),參考了SmolLM開源模型的配置,在FineWeb-Edu的驗(yàn)證集和六個(gè)few-shot基準(zhǔn)測試集上進(jìn)行了評(píng)估。

主要結(jié)果

在相同訓(xùn)練計(jì)算預(yù)算下,MoR以更少參數(shù)優(yōu)于基線模型

在相同的訓(xùn)練預(yù)算(16.5e18 FLOPs)下,研究者將MoR模型與標(biāo)準(zhǔn)Transformer和遞歸Transformer進(jìn)行了對(duì)比。


在四種模型規(guī)模(135M、360M、730M和1.7B參數(shù))下,不同計(jì)算預(yù)算對(duì)應(yīng)的驗(yàn)證損失對(duì)如圖

如表3所示,MoR模型采用專家選擇路由和兩次遞歸(Nr=2),不僅在驗(yàn)證損失上更低,在few-shot平均準(zhǔn)確率上也優(yōu)于標(biāo)準(zhǔn)基線。

這得益于MoR更高的計(jì)算效率,使其在相同F(xiàn)LOPs預(yù)算下能處理更多的訓(xùn)練token。

在相同數(shù)據(jù)量下,MoR用更少計(jì)算量仍優(yōu)于基線模型

為了隔離架構(gòu)差異的影響,研究者在固定訓(xùn)練token數(shù)量(20B)的前提下進(jìn)行分析。

結(jié)果證實(shí),在少了25%訓(xùn)練FLOPs的情況下,MoR模型(=2)仍然實(shí)現(xiàn)了更低的驗(yàn)證損失和更高的準(zhǔn)確率,超越了標(biāo)準(zhǔn)和遞歸基線。

與標(biāo)準(zhǔn)基線相比,MoR模型的訓(xùn)練時(shí)間減少了19%,峰值內(nèi)存使用量降低了25%。

這就要?dú)w功于專門設(shè)計(jì)的分層過濾機(jī)制和按遞歸進(jìn)行的注意力機(jī)制。

此外,MoR的性能也會(huì)受路由與緩存策略的影響。

IsoFLOP分析

評(píng)估一種新模型架構(gòu)設(shè)計(jì)的核心標(biāo)準(zhǔn)之一,是其在模型規(guī)模和計(jì)算量增長時(shí),性能是否能持續(xù)提升。

因此,研究團(tuán)隊(duì)全面對(duì)比了MoR與標(biāo)準(zhǔn)Transformer(Vanilla)和遞歸Transformer。

實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)的模型規(guī)模有四種:135M、360M、730M 和1.7B 參數(shù)。

對(duì)于遞歸Transformer和MoR配置,遞歸次數(shù)統(tǒng)一設(shè)為3。

在三個(gè)不同的計(jì)算預(yù)算下,進(jìn)行預(yù)訓(xùn)練:2e18、5e18和16.5e18 FLOPs。

MoR架構(gòu):可擴(kuò)展且參數(shù)高效

如圖3所示,在所有參數(shù)規(guī)模和算預(yù)算力下,MoR始終優(yōu)于遞歸基線模型。

盡管在最小規(guī)模(135M)時(shí),MoR表現(xiàn)略遜于標(biāo)準(zhǔn)Transformer,但隨著模型規(guī)模擴(kuò)大,這一差距迅速縮小。

當(dāng)參數(shù)規(guī)模超過360M時(shí),MoR不僅能夠與標(biāo)準(zhǔn)Transformer持平,甚至在低計(jì)算量和中等計(jì)算預(yù)算下,表現(xiàn)更加優(yōu)越。

總體而言,這些結(jié)果表明,MoR具備良好可擴(kuò)展性和高參數(shù)效率,可替代舊架構(gòu)。

推理吞吐量評(píng)估

通過參數(shù)共享,MoR能利用連續(xù)深度批處理技術(shù),在推理階段顯著提升了吞吐量。

這種機(jī)制在解碼過程中,舊序列完成后立刻填入新tokens,持續(xù)保持了GPU的高利用率。

實(shí)驗(yàn)設(shè)置

在360M參數(shù)規(guī)模下,在不同遞歸深度(2、3和4)下,團(tuán)隊(duì)測試了MoR模型。

利用深度批處理,MoR顯著提升推理吞吐量

如圖4a所示,在兩種設(shè)置下,MoR變體的推理吞吐量都超過了普通Transformer。

遞歸深度越高,越多tokens會(huì)提早退出,從而減少KV緩存的使用,進(jìn)一步大幅提升了推理速度。例如,在最大批設(shè)置(=Max)下,MoR-4速度可提升2.06倍

實(shí)驗(yàn)表明,結(jié)合深度批處理機(jī)制與提前退出策略,可大幅加速M(fèi)oR模型在實(shí)際的推理速度。


消融實(shí)驗(yàn)等更多內(nèi)容和細(xì)節(jié),請(qǐng)參閱原文。

參考資料:

https://arxiv.org/abs/2507.10524

https://x.com/rohanpaul_ai/status/1945342236310561091

https://www.rohan-paul.com/p/landmark-research-from-google-deepmind

為偉大思想而生!

AI+時(shí)代,互聯(lián)網(wǎng)思想(wanging0123),

第一必讀自媒體

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
53.8%!美國勞動(dòng)者報(bào)酬占GDP比重創(chuàng)新低

53.8%!美國勞動(dòng)者報(bào)酬占GDP比重創(chuàng)新低

環(huán)球網(wǎng)資訊
2026-01-12 06:46:10
華為固態(tài)電池續(xù)航3000公里快充5分鐘全球領(lǐng)先

華為固態(tài)電池續(xù)航3000公里快充5分鐘全球領(lǐng)先

南風(fēng)不及你溫柔
2026-01-08 23:52:47
123-114!尼克斯終結(jié)開拓者5連勝,阿夫迪亞最后時(shí)刻傷退,楊瀚森未出場

123-114!尼克斯終結(jié)開拓者5連勝,阿夫迪亞最后時(shí)刻傷退,楊瀚森未出場

夢憶之淺
2026-01-12 10:17:37
不上小楊就輸,楊瀚森在連上8場后遭DNP,此前開拓者8戰(zhàn)7勝+5連勝

不上小楊就輸,楊瀚森在連上8場后遭DNP,此前開拓者8戰(zhàn)7勝+5連勝

懂球帝
2026-01-12 09:40:09
CCTV5直播,黃金時(shí)間,中國男足勝泰國=頭名出線+首次晉級(jí)八強(qiáng)

CCTV5直播,黃金時(shí)間,中國男足勝泰國=頭名出線+首次晉級(jí)八強(qiáng)

側(cè)身凌空斬
2026-01-12 00:41:25
光明正大摸魚!25歲女子在初創(chuàng)公司沒事做,老板:你無聊就看電視

光明正大摸魚!25歲女子在初創(chuàng)公司沒事做,老板:你無聊就看電視

唐小糖說情感
2026-01-10 21:27:48
盧比奧一語道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

盧比奧一語道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

老馬拉車莫少裝
2026-01-05 21:46:08
日媒沮喪發(fā)聲:張本智和爆冷出局止步四強(qiáng) 日乒選手竟無一入決賽

日媒沮喪發(fā)聲:張本智和爆冷出局止步四強(qiáng) 日乒選手竟無一入決賽

顏小白的籃球夢
2026-01-11 22:07:00
悲催!中山一成立20年工廠關(guān)停,稱產(chǎn)業(yè)持續(xù)惡劣,與員工協(xié)商補(bǔ)償

悲催!中山一成立20年工廠關(guān)停,稱產(chǎn)業(yè)持續(xù)惡劣,與員工協(xié)商補(bǔ)償

火山詩話
2026-01-12 09:41:38
“萬村”虧損退房 郁亮的功與過

“萬村”虧損退房 郁亮的功與過

好貓財(cái)經(jīng)
2026-01-12 09:06:45
兩岸喜訊!大陸沒想到,沒等正式收臺(tái),臺(tái)當(dāng)局先送來2份“大禮”

兩岸喜訊!大陸沒想到,沒等正式收臺(tái),臺(tái)當(dāng)局先送來2份“大禮”

趣生活
2026-01-10 22:29:06
5后衛(wèi)!董路:這是國足贏強(qiáng)隊(duì)的唯一方式 中國人踢不了復(fù)雜足球

5后衛(wèi)!董路:這是國足贏強(qiáng)隊(duì)的唯一方式 中國人踢不了復(fù)雜足球

風(fēng)過鄉(xiāng)
2026-01-12 08:13:35
44歲張杰近照曝光:體脂低至8%,這肌肉是認(rèn)真的嗎?

44歲張杰近照曝光:體脂低至8%,這肌肉是認(rèn)真的嗎?

健身迷
2026-01-10 09:47:21
順德魚生是淡水生魚片,不擔(dān)心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會(huì)騙人!

順德魚生是淡水生魚片,不擔(dān)心寄生蟲嗎?網(wǎng)友:大數(shù)據(jù)不會(huì)騙人!

夜深愛雜談
2025-12-23 17:35:17
“虐女戲”一姐閆學(xué)晶,為何“賣慘”翻車

“虐女戲”一姐閆學(xué)晶,為何“賣慘”翻車

凹凹滴
2026-01-11 12:00:22
為啥唐氏兒“千人一面”?好像都長得一模一樣?是什么原因引起的

為啥唐氏兒“千人一面”?好像都長得一模一樣?是什么原因引起的

向航說
2026-01-02 00:20:03
價(jià)格接近“腰斬”!大量上市,浙江老板卻發(fā)愁:賣不出去啊……過年前價(jià)格或要漲!

價(jià)格接近“腰斬”!大量上市,浙江老板卻發(fā)愁:賣不出去啊……過年前價(jià)格或要漲!

環(huán)球網(wǎng)資訊
2026-01-11 16:51:09
iPhone 17e即將發(fā)布,劉海屏徹底成為歷史

iPhone 17e即將發(fā)布,劉海屏徹底成為歷史

泡泡網(wǎng)
2026-01-12 10:52:35
日本找到降低依賴中國稀土方法,并決定在G7財(cái)長會(huì)議上分享經(jīng)驗(yàn)

日本找到降低依賴中國稀土方法,并決定在G7財(cái)長會(huì)議上分享經(jīng)驗(yàn)

止戈軍是我
2026-01-11 21:51:56
漢奸石平返回東京,還在自己的社交媒體上為自己的行程邀功!

漢奸石平返回東京,還在自己的社交媒體上為自己的行程邀功!

荊楚寰宇文樞
2026-01-11 20:49:09
2026-01-12 11:35:00
互聯(lián)網(wǎng)思想 incentive-icons
互聯(lián)網(wǎng)思想
AI時(shí)代,互聯(lián)網(wǎng)思想觀察
2381文章數(shù) 16901關(guān)注度
往期回顧 全部

科技要聞

小米二手車價(jià)大跳水:SU7半年跌5萬元

頭條要聞

日媒披露高市早苗或有大動(dòng)作 傳出兩個(gè)方案

頭條要聞

日媒披露高市早苗或有大動(dòng)作 傳出兩個(gè)方案

體育要聞

U23國足形勢:末輪不負(fù)泰國即確保晉級(jí)

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

揭秘“穩(wěn)賺不賠”的代工項(xiàng)目騙局

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

本地
旅游
時(shí)尚
親子
藝術(shù)

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

旅游要聞

河北秦皇島:暢玩冰雪

普通人就該照搬這些穿搭!衣服不用買太貴,自然耐看又舒適

親子要聞

好希望十八能陪果果度過更多的人生重要時(shí)刻

藝術(shù)要聞

畫完這組畫,他抑郁了,后來自殺了

無障礙瀏覽 進(jìn)入關(guān)懷版