国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

小米給KV Cache減負(fù)80%!MiMo團(tuán)隊(duì)推出混合稀疏注意力架構(gòu)

0
分享至

小米Mimo大模型團(tuán)隊(duì)投稿
量子位 | 公眾號(hào) QbitAI

小米MiMo大模型團(tuán)隊(duì),加入AI拜年戰(zhàn)場(chǎng)——

推出HySparse,一種面向Agent時(shí)代的混合稀疏注意力架構(gòu)

HySparse創(chuàng)新使用極少的全注意力(Full Attention)層提供“token選擇+KV Cache”,其余稀疏注意力(Sparse Attention)層直接復(fù)用這些信息,實(shí)現(xiàn)高效精準(zhǔn)的長(zhǎng)上下文建模。

在總共49層的80B-A3BMoE模型實(shí)驗(yàn)中,僅保留5層Full Attention仍能保持甚至提升模型能力,同時(shí)顯著降低KVCache存儲(chǔ)與計(jì)算開銷,實(shí)現(xiàn)效果與效率的兼顧,展示出混合稀疏注意力在超長(zhǎng)上下文建模中的巨大潛力。



HySparse的設(shè)計(jì)靈感來源于學(xué)術(shù)界已有研究工作的經(jīng)驗(yàn)和觀察之上。

一部分是顯著token在相鄰層之間相對(duì)穩(wěn)定。

已有工作如TidalDecode等,觀察到連續(xù)層的 “重要 token” 會(huì)高度重合,因此可以在某層識(shí)別重要token并在后續(xù)層復(fù)用。

HySparse將這一觀察提升用于模型結(jié)構(gòu)設(shè)計(jì)并直接訓(xùn)練。

還有部分受啟發(fā)于跨層KV Cache共享能顯著省顯存且不顯著傷性能,YOCO、Gemma3n等架構(gòu)層面工作已經(jīng)證明了跨層共享KV的可行性。

HySparse將共享直接落在“Full Attention層 → 其后Sparse Attention層” 的hybrid block內(nèi)共享上。

背景:Sparse Attention的 “兩朵烏云”

多數(shù)Sparse Attention方法都遵循同一基本范式:先選擇,再計(jì)算。

在真正計(jì)算注意力之前,先用一個(gè)“選擇器” 決定哪些重要token是值得注意的,只在這些位置上進(jìn)行注意力計(jì)算。

這一范式降低了計(jì)算量,但始終繞不開兩個(gè)根本問題。

一個(gè)問題是重要 Token 的選擇依賴代理(Proxy)

Sparse Attention的核心在于 “選哪些重要token”。

但現(xiàn)實(shí)中,這一選擇往往依賴proxy信號(hào):固定模式、啟發(fā)式規(guī)則、近似估計(jì),或額外的輕量化選擇模塊。

這些proxy本質(zhì)上都是對(duì)真實(shí)注意力分布的近似,無法保證能完全精準(zhǔn)地識(shí)別最重要的token;在長(zhǎng)上下文、持續(xù)生成的場(chǎng)景下,這種近似誤差還會(huì)不可避免地累積。

即便是可訓(xùn)練的Sparse Attention方法,往往也只是將人工設(shè)計(jì)的選擇規(guī)則替換為可學(xué)習(xí)的輕量化選擇代理模塊,通過訓(xùn)練來對(duì)齊選擇行為。

這在一定程度上緩解了選擇誤差,但同時(shí)顯著增加了訓(xùn)練復(fù)雜度,難以從根本上擺脫這一“代理瓶頸”。

第二個(gè)問題是計(jì)算量降低,但KV Cache存儲(chǔ)未減

目前,主流的動(dòng)態(tài)Sparse Attention注意力方法主要減少的是計(jì)算開銷。

這類做法不再對(duì)所有token執(zhí)行注意力計(jì)算;但為了避免在生成過程中不可逆地錯(cuò)誤丟棄KV Cache(因?yàn)閠oken的重要性會(huì)隨生成動(dòng)態(tài)變化),推理階段通常仍需保留全量KV Cache。

帶來的結(jié)果就是計(jì)算量確實(shí)下降了,但顯存與帶寬這一主要瓶頸依然存在。

HySparse:把 “選擇” 和 “緩存”交給Full Attention

HySparse做的事是把 “選擇” 和 “緩存” 這兩件對(duì)Sparse Attention來說最難的事,交給Full Attention來做

為此,HySparse采用hybrid block結(jié)構(gòu)。

每個(gè)hybrid block由1層Full Attention+N層Sparse Attention組成。

Hybrid block內(nèi)部的Sparse Attention層并不再獨(dú)立做token選擇和維護(hù)全量KV,而是直接復(fù)用前置Full Attention層產(chǎn)生的重要token索引和 KV Cache。

這背后的動(dòng)機(jī)是Full Attention在完成自身計(jì)算的同時(shí),已經(jīng)生成了KV Cache,并且計(jì)算出了最準(zhǔn)確的token重要性信息,自然可以供后續(xù)N個(gè)Sparse Attention層直接復(fù)用。



這一設(shè)計(jì)表面上非常簡(jiǎn)潔,卻巧妙地同時(shí)解決了上述 Sparse Attention 的兩大核心問題,

  • 選擇不再依賴proxy;
  • Sparse層不引入額外KV Cache開銷。

同時(shí),HySparse稀疏層不是單一路徑,稀疏層內(nèi)部也做了一次 “全局稀疏 + 局部窗口” 的混合結(jié)構(gòu)。

HySparse 的每一層 Sparse Attention 包含兩條分支:

  • 塊級(jí)稀疏注意力分支(全局):在TopK索引對(duì)應(yīng)的共享KV Cache上進(jìn)行全局Sparse Attention計(jì)算;
  • 滑動(dòng)窗口注意力分支(局部):維護(hù)一個(gè)很小的本地窗口KV Cache(默認(rèn)窗口大小為128)以保證局部建模能力。

兩分支輸出通過輕量門控(sigmoid gate)進(jìn)行融合。

直觀地看,HySparse并不是用Sparse Attention取代Full Attention ,而是將全局信息通路拆解為 “少量昂貴但可靠的全注意力”+“多次廉價(jià)而高效的全局稀疏檢索與局部建?!薄?/strong>

實(shí)驗(yàn)結(jié)果:整體更優(yōu)

為了驗(yàn)證HySparse的有效性,研究團(tuán)隊(duì)將其與兩類主流架構(gòu)進(jìn)行對(duì)比:

  • Full-Attn:所有層均為Full Attention;
  • Hybrid SWA:按比例混合Full Attention和Sliding Window Attention;
  • HySparse:采用與Hybrid SWA相同的Full Attention比例,但將滑動(dòng)窗口層升級(jí)為“全局稀疏 + 局部窗口”的Sparse Attention。

研究人員分別在7B的Dense模型和80B的MoE模型上進(jìn)行了實(shí)驗(yàn)。

結(jié)果顯示,7B模型共有36層,其中9層是Full Attention;80B MoE模型共有49層,只有5層是Full Attention,這為HySparse帶來了接近10×的KV Cache存儲(chǔ)降低。

在多項(xiàng)通用、數(shù)學(xué)、代碼和中文評(píng)測(cè)中,HySparse在7B Dense和80B MoE兩種規(guī)模均帶來穩(wěn)定提升。

特別是在80B MoE的激進(jìn)混合比例下,HySparse通過全局稀疏檢索通路有效保持長(zhǎng)距離信息訪問,維持了全局推理能力,還在部分任務(wù)上超越了全注意力基線,充分體現(xiàn)了全局稀疏通路的重要作用。



RULER長(zhǎng)文測(cè)試表明,HySparse即便將Full Attention層壓到極少,也能穩(wěn)定保持長(zhǎng)距離關(guān)鍵信息訪問,充分展現(xiàn)了其混合稀疏結(jié)構(gòu)的優(yōu)勢(shì)。



小米MiMo表示,計(jì)劃在更大規(guī)模模型上進(jìn)一步驗(yàn)證HySparse的極限和潛力,并持續(xù)探索降低Full Attention層數(shù)量的可能性,讓超長(zhǎng)上下文更高效。

arXiv鏈接:
https://arxiv.org/abs/2602.03560

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
德國(guó)總理默茨率團(tuán)訪華,完整代表團(tuán)名單公布,最新調(diào)查報(bào)告顯示:93%的在華德企仍計(jì)劃維持或擴(kuò)大合作

德國(guó)總理默茨率團(tuán)訪華,完整代表團(tuán)名單公布,最新調(diào)查報(bào)告顯示:93%的在華德企仍計(jì)劃維持或擴(kuò)大合作

大風(fēng)新聞
2026-02-26 10:25:10
巴厘島遭遇暴雨,近5米長(zhǎng)蟒蛇從居民區(qū)游過,當(dāng)?shù)厝A僑:白天晚上均在下雨,現(xiàn)在天氣稍微轉(zhuǎn)好

巴厘島遭遇暴雨,近5米長(zhǎng)蟒蛇從居民區(qū)游過,當(dāng)?shù)厝A僑:白天晚上均在下雨,現(xiàn)在天氣稍微轉(zhuǎn)好

大象新聞
2026-02-25 23:41:02
2月25日俄烏:俄羅斯指責(zé)英法向?yàn)蹀D(zhuǎn)讓重磅武器

2月25日俄烏:俄羅斯指責(zé)英法向?yàn)蹀D(zhuǎn)讓重磅武器

山河路口
2026-02-25 22:10:30
烏度卡終于用明白了!申京搭配謝潑德盤活進(jìn)攻空間,阿門下替補(bǔ)吧

烏度卡終于用明白了!申京搭配謝潑德盤活進(jìn)攻空間,阿門下替補(bǔ)吧

籃球資訊達(dá)人
2026-02-26 12:42:23
無追夢(mèng)勇士連勝掘金灰熊!勇媒炮轟他成癥結(jié) 科爾盛贊言論成笑談

無追夢(mèng)勇士連勝掘金灰熊!勇媒炮轟他成癥結(jié) 科爾盛贊言論成笑談

顏小白的籃球夢(mèng)
2026-02-26 12:31:06
一場(chǎng)5-0,讓榜首易主,前3只差3分,C羅點(diǎn)射:21場(chǎng)轟入21球

一場(chǎng)5-0,讓榜首易主,前3只差3分,C羅點(diǎn)射:21場(chǎng)轟入21球

足球狗說
2026-02-26 07:09:06
中國(guó)音樂家紐約路邊換胎被撞身亡,年僅35歲

中國(guó)音樂家紐約路邊換胎被撞身亡,年僅35歲

揚(yáng)子晚報(bào)
2026-02-26 10:51:43
克洛普出任皇馬主帥的新要求:接受曼聯(lián)為維尼修斯開出的報(bào)價(jià)?

克洛普出任皇馬主帥的新要求:接受曼聯(lián)為維尼修斯開出的報(bào)價(jià)?

夜白侃球
2026-02-25 22:38:06
突發(fā)!2026年全國(guó)第一巨額搶劫案在江蘇發(fā)生了,197萬,疑犯已捕

突發(fā)!2026年全國(guó)第一巨額搶劫案在江蘇發(fā)生了,197萬,疑犯已捕

原廣工業(yè)
2026-02-26 07:57:32
親密度總停在99%,想談個(gè)戀愛怎么就那么難?上海多名單身男子有苦難言:太丟臉了

親密度總停在99%,想談個(gè)戀愛怎么就那么難?上海多名單身男子有苦難言:太丟臉了

環(huán)球網(wǎng)資訊
2026-02-26 07:26:27
我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

我見過最傻的父母,攥著大把的存款和退休金,卻等著給子女當(dāng)遺產(chǎn)

i書與房
2026-02-25 17:22:34
痛心!廣東英德1歲走失男童在報(bào)警人家附近魚塘中被發(fā)現(xiàn),已無生命體征

痛心!廣東英德1歲走失男童在報(bào)警人家附近魚塘中被發(fā)現(xiàn),已無生命體征

封面新聞
2026-02-26 01:57:06
門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

瓜哥的動(dòng)物日記
2026-02-25 15:33:17
史上最亂倫成語(yǔ)“上蒸下報(bào)”

史上最亂倫成語(yǔ)“上蒸下報(bào)”

華人星光
2026-02-21 11:24:05
隨著皇馬3-1,多特3-4遭逆轉(zhuǎn),歐冠16強(qiáng)正式出爐:英超6隊(duì),意甲僅1隊(duì)

隨著皇馬3-1,多特3-4遭逆轉(zhuǎn),歐冠16強(qiáng)正式出爐:英超6隊(duì),意甲僅1隊(duì)

側(cè)身凌空斬
2026-02-26 06:43:04
遭多國(guó)退貨,演習(xí)不敵殲10C,實(shí)戰(zhàn)被擊落,中國(guó)的蘇35還有啥用?

遭多國(guó)退貨,演習(xí)不敵殲10C,實(shí)戰(zhàn)被擊落,中國(guó)的蘇35還有啥用?

書紀(jì)文譚
2026-02-25 20:51:08
澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

第7情感
2026-02-23 20:45:16
大范圍雨雪來襲!江蘇2月末氣溫先升再降

大范圍雨雪來襲!江蘇2月末氣溫先升再降

現(xiàn)代快報(bào)
2026-02-26 00:09:04
震驚!網(wǎng)傳河南一老人93歲去世,此前自殺3次,起因不想住女兒家

震驚!網(wǎng)傳河南一老人93歲去世,此前自殺3次,起因不想住女兒家

火山詩(shī)話
2026-02-25 17:10:36
三星Galaxy S26系列新品發(fā)布會(huì)一文匯總,首發(fā)硬件防窺屏

三星Galaxy S26系列新品發(fā)布會(huì)一文匯總,首發(fā)硬件防窺屏

IT之家
2026-02-26 04:01:01
2026-02-26 12:59:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12204文章數(shù) 176394關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

特朗普自詡開啟美國(guó)"黃金時(shí)代" 遭美媒集體"打臉"

頭條要聞

特朗普自詡開啟美國(guó)"黃金時(shí)代" 遭美媒集體"打臉"

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

短劇市場(chǎng)風(fēng)云突變!有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態(tài)度原創(chuàng)

旅游
本地
時(shí)尚
手機(jī)
軍事航空

旅游要聞

一整年都有新驚喜!上海迪士尼十周年慶典即將啟幕,三大娛樂演出煥新升級(jí)

本地新聞

津南好·四時(shí)總相宜

倫敦時(shí)裝周|2026秋冬流行趨勢(shì)早知道

手機(jī)要聞

三星Galaxy S26 Ultra手機(jī)支持2400萬像素直出

軍事要聞

美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

無障礙瀏覽 進(jìn)入關(guān)懷版