国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型又出新架構(gòu),面壁這次把Transformer上下文能力拉滿了

0
分享至

我有點好奇一個問題,

讓現(xiàn)階段一個百萬上下文的大模型讀一本百萬字的小說,需要推理嗎?

可能大部分時候不需要,它需要的只是記住,記住第一章的主角在最后一章說了什么。

現(xiàn)在傳統(tǒng)的Transformer架構(gòu)只有一種處理方式,全靠硬算。它像一個過于認(rèn)真的前排學(xué)霸,為了記住最后一章的內(nèi)容,把前面九十九萬字的內(nèi)容跟每一個新生成的字都做一次對比計算。


這樣會占大量的顯存,計算量也會平方級增長。

這一周新的大模型也是不停刷新,MiniMax M2.5,GLM5,Gemini 3.1 Pro Preview,DeepSeek新版本(疑似V4),我都希望他們可以接入我的OpenClaw里面,做一個長對話長記憶的模型。

昨天,面壁還發(fā)了一篇新論文,提出了一個叫SALA(Sparse Attention-Linear Attention)的混合注意力架構(gòu)。它給出了一個新觀點,

該快的地方就得快,該準(zhǔn)的地方必須準(zhǔn)。


https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

在他們的SALA架構(gòu)里,

一部分模塊專門負(fù)責(zé)快,

另一部分模塊專門負(fù)責(zé)準(zhǔn)。

結(jié)果就是,基于SALA架構(gòu)的模型,在端側(cè)顯卡上,第一次把百萬的長文本推理,穩(wěn)穩(wěn)跑通了。


我們來看一個具體的例子,

模型在處理百萬字小說時,內(nèi)部發(fā)生了什么。

每生成一個新詞,模型都要把它和前面所有詞語的鍵值對,也就是KV Cache,全部計算一遍。計算復(fù)雜度是隨著文本長度平方級增長的,

同時,這個KV Cache會像滾雪球一樣,迅速吃掉你所有的顯存。把上下文從一萬字拉到一百萬字,計算量不是漲一百倍,是飆升一萬倍。

這就是為什么傳統(tǒng)架構(gòu)在長上下文任務(wù)面前,會同時撞上計算墻和顯存墻。


這幾十萬字的上下文,大部分可能只是背景描述,真正關(guān)鍵的信息也許就那么幾句。

但模型為了找到這幾句關(guān)鍵信息,付出的代價是把所有內(nèi)容都用最高精度過了一遍。

來看看SALA的幾個關(guān)鍵的設(shè)計,

首先是兩種模塊的分工。

線性注意力,我們這里可以理解為負(fù)責(zé)準(zhǔn)的模塊,面壁選用的是Lightning Attention,挑出那些最關(guān)鍵的局部信息進(jìn)行精細(xì)計算。稀疏注意力,則是負(fù)責(zé)快的模塊,面壁選用的是InfLLM v2,會高效計算所有信息。

SALA就是把這兩者結(jié)合了起來。整個模型里,75%的層是負(fù)責(zé)準(zhǔn)的線性注意力,剩下的25%,是負(fù)責(zé)快的稀疏注意力。這個比例經(jīng)過大量實驗找出的效率與精度之間的平衡點。


在不使用任何額外技術(shù)(如YaRN)的前提下,MiniCPM-SALA 可以將上下文長度拓展至2048K。

怎么保證它們能好好合作,不是互相干擾呢?

SALA用了一個叫HyPE的混合位置編碼策略。在線性層,它保留了RoPE,保證短文本能力不受影響。在稀疏層,它去掉了位置編碼,避免了信息在長距離傳遞時的衰減問題。

模型在檢索幾萬甚至幾十萬token之前的內(nèi)容時,依然能保持高精度。


最后是模型怎么來的。

這里有一個核心問題,要訓(xùn)練一個全新的混合架構(gòu)模型,成本超級高。

面壁沒有從零開始,反而是提出了一個叫HALO的訓(xùn)練范式。簡單來說,就是拿一個已經(jīng)訓(xùn)練好的全注意力模型,比如MiniCPM-4.0,通過架構(gòu)轉(zhuǎn)換,把它的一部分層變成線性注意力,另一部分變成稀疏注意力,然后進(jìn)行持續(xù)訓(xùn)練。


這種方式,就像是給一輛性能不錯的汽車做改裝升級,而不是重新設(shè)計一輛新車。它繼承了原模型已經(jīng)學(xué)到的所有知識和能力,只是讓它學(xué)會了用一種更高效的方式去工作。相比從頭訓(xùn)練,這個方法的成本直接降低了大約75%。

這個訓(xùn)練過程也很有講究,分為架構(gòu)轉(zhuǎn)換,穩(wěn)定訓(xùn)練,短衰減,長衰減和微調(diào)五個階段。特別是在長衰減階段,模型逐步把上下文長度從4K擴展到520K,讓模型充分學(xué)習(xí)兩種注意力機制協(xié)同。

我們來看效果數(shù)據(jù)。

這次面壁并沒有用一堆榜單來證明自己,是出了真實場景下的性能數(shù)據(jù),對比的是同等規(guī)模的全注意力模型Qwen3-8B,我挑幾個關(guān)鍵數(shù)據(jù),

在推理速度上,當(dāng)上下文長度達(dá)到256K時,MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

這個提升完全來自架構(gòu)本身的優(yōu)勢。


在顯存占用上,在RTX 5090這樣的消費級顯卡上,Qwen3-8B在上下文長度達(dá)到128K時,就會因為顯存不足而崩潰。而MiniCPM-SALA可以穩(wěn)穩(wěn)地跑到1M,也就是一百萬token的長度。


但我是個挑剔的人,

用了會丟信息的注意力,模型是不是沒腦子了?

這也是這篇工作最有價值的部分。實驗數(shù)據(jù)顯示,MiniCPM-SALA在數(shù)學(xué),代碼,知識問答這些常規(guī)能力上,和同規(guī)模的全注意力模型基本持平,沒有出現(xiàn)明顯的性能折損。


傳統(tǒng)的全注意力模型,在處理長文本時,它的注意力容量被大量消耗在維持局部依賴上,比如識別一個多詞組成的人名。而SALA架構(gòu),把這些任務(wù)交給了更高效的模塊,從而釋放了稀疏注意力層的容量,讓它們可以更專注于建立全局的,跨越超長距離的上下文聯(lián)系。

為了推動這個架構(gòu)落地,面壁聯(lián)合了SGLang和NVIDIA,發(fā)起了一個稀疏算子加速大獎賽SOAR。


SALA雖然在架構(gòu)上做好了,

但底層的計算算子,相比已經(jīng)被優(yōu)化到極致的FlashAttention,還有很大提升空間。

這個比賽就是邀請全球的開發(fā)者,一起來把SALA這臺新引擎的性能,壓榨到極限。

平時測評模型測多了,

都是Coding,Coding,Coding,

我很高興看到還不斷能有新的架構(gòu),

新的算法出現(xiàn),

就算是DeepSeek這一年,

更新模型的同時也沒停過公開自己的算法,

面壁過去這一年也是不停發(fā)端側(cè)模型的工作,

我覺得就這速度都不需要五年十年,

可能過個兩三年,

在小天才手表上也能跑個大大大模型。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉(zhuǎn)發(fā)|評論

如果想要第一時間收到推送,不妨給我個星標(biāo)

如果你有更有趣的玩法,歡迎在評論區(qū)和我聊聊

更多的內(nèi)容正在不斷填坑中……


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
華潤置地轉(zhuǎn)讓華潤萬象城

華潤置地轉(zhuǎn)讓華潤萬象城

地產(chǎn)微資訊
2026-04-20 17:44:48
罕見!7.7級地震把半個日本都震醒了,日網(wǎng)民:快請發(fā)達(dá)中國救我

罕見!7.7級地震把半個日本都震醒了,日網(wǎng)民:快請發(fā)達(dá)中國救我

社會日日鮮
2026-04-21 05:24:33
年僅48歲!中科院才女博導(dǎo)海外離世遺體從埃及運回,結(jié)局太心酸

年僅48歲!中科院才女博導(dǎo)海外離世遺體從埃及運回,結(jié)局太心酸

哄動一時啊
2026-04-20 22:11:49
姆巴佩宣布“加盟”東鵬補水啦,擔(dān)任品牌代言人

姆巴佩宣布“加盟”東鵬補水啦,擔(dān)任品牌代言人

懂球帝
2026-04-20 17:11:05
我國科學(xué)家發(fā)現(xiàn)人有兩個“斷崖式衰老”節(jié)點,分別是50歲和63歲

我國科學(xué)家發(fā)現(xiàn)人有兩個“斷崖式衰老”節(jié)點,分別是50歲和63歲

科普大世界
2026-04-20 10:15:11
馬筱梅當(dāng)著幾十萬人的面質(zhì)問網(wǎng)友,張?zhí)m看這三句話不知道作何感想

馬筱梅當(dāng)著幾十萬人的面質(zhì)問網(wǎng)友,張?zhí)m看這三句話不知道作何感想

放開他讓wo來
2026-04-21 00:40:05
你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

夜深愛雜談
2026-04-09 19:39:13
四野資深旅長,得知授少校軍銜,苦笑道:太丟臉了,請允許我轉(zhuǎn)業(yè)

四野資深旅長,得知授少校軍銜,苦笑道:太丟臉了,請允許我轉(zhuǎn)業(yè)

歷史的煙火
2026-03-21 01:12:32
男人想長壽,離不開這兩個愛好,全和女人有關(guān)

男人想長壽,離不開這兩個愛好,全和女人有關(guān)

周哥一影視
2026-04-20 18:16:26
老婆和她閨蜜為了不讓我看美女短視頻居然使出這招!大家看看我該如何應(yīng)對?

老婆和她閨蜜為了不讓我看美女短視頻居然使出這招!大家看看我該如何應(yīng)對?

經(jīng)典段子
2026-04-20 22:32:43
曾坐擁百億身家!昔日男裝巨頭CEO陷債務(wù)泥潭,遭強行減持!80年代畢業(yè)于深大

曾坐擁百億身家!昔日男裝巨頭CEO陷債務(wù)泥潭,遭強行減持!80年代畢業(yè)于深大

南方都市報
2026-04-20 20:21:37
北京樓市:瘋了

北京樓市:瘋了

墜入二次元的海洋
2026-04-20 18:04:47
亞洲身價之王!烏茲別克斯坦后衛(wèi)在曼城閃耀,完封阿森納鋒線

亞洲身價之王!烏茲別克斯坦后衛(wèi)在曼城閃耀,完封阿森納鋒線

星耀國際足壇
2026-04-20 23:51:03
CBA最新排名!廣東鎖定第五,北京鎖定四強,寧波首次打入季后賽

CBA最新排名!廣東鎖定第五,北京鎖定四強,寧波首次打入季后賽

呀古銅
2026-04-21 00:12:10
男星查理·辛嗜性成癮,曾一天與五人發(fā)生關(guān)系,連男人他也不放過

男星查理·辛嗜性成癮,曾一天與五人發(fā)生關(guān)系,連男人他也不放過

七阿姨愛八卦
2026-04-12 17:14:49
折戟伊朗,戰(zhàn)爭機器失靈,屬于美國的時代即將終結(jié)

折戟伊朗,戰(zhàn)爭機器失靈,屬于美國的時代即將終結(jié)

兵國大事
2026-04-21 00:40:03
新華時評·首季經(jīng)濟觀察|新職業(yè)拓展就業(yè)市場新空間

新華時評·首季經(jīng)濟觀察|新職業(yè)拓展就業(yè)市場新空間

新華社
2026-04-20 17:42:02
中方全面斷供引發(fā)國際關(guān)注,岸田文雄復(fù)出多國代表訪日

中方全面斷供引發(fā)國際關(guān)注,岸田文雄復(fù)出多國代表訪日

寂寞染指悲傷
2026-04-20 22:20:07
女騎手兩年暴漲35%,女司機猛增75%,中年女人為何搶著跑車?

女騎手兩年暴漲35%,女司機猛增75%,中年女人為何搶著跑車?

老特有話說
2026-04-17 17:19:57
遼寧警方通報:楊某軍為首的犯罪組織,以民間借貸為幌子,實施詐騙勒索等,已抓獲楊某軍(綽號“大軍”)、周某羽(綽號“柏羽”)等成員

遼寧警方通報:楊某軍為首的犯罪組織,以民間借貸為幌子,實施詐騙勒索等,已抓獲楊某軍(綽號“大軍”)、周某羽(綽號“柏羽”)等成員

揚子晚報
2026-04-19 17:33:19
2026-04-21 06:15:00
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬人通過Al提高生產(chǎn)力
250文章數(shù) 126關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

房產(chǎn)
教育
藝術(shù)
數(shù)碼
游戲

房產(chǎn)要聞

大規(guī)模商改住!海口西海岸,這波項目要贏麻了!

教育要聞

“真大方,還拍給外人看”,女兒蹭枕頭,家長放網(wǎng)上,網(wǎng)友卻毛了

藝術(shù)要聞

春天最適合小住三五天的地方

數(shù)碼要聞

REDMI 顯示器 G Pro 27U 2026輕體驗:電競利器 桌面上的“小鋼炮”

大司馬回歸兩個月,某音人氣穩(wěn)居頂流行列,道出風(fēng)光背后心酸現(xiàn)狀

無障礙瀏覽 進(jìn)入關(guān)懷版