国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

9B端側(cè)開(kāi)源模型跑通百萬(wàn)上下文,面壁全新稀疏-線性混合注意力

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

最強(qiáng)的大模型,已經(jīng)把scaling卷到了一個(gè)新維度:百萬(wàn)級(jí)上下文

幾天前,Claude Opus 4.6發(fā)布,讓人第一次真切感受到了百萬(wàn)上下文的涌現(xiàn)能力——

單次吃進(jìn)50萬(wàn)字中文內(nèi)容、實(shí)現(xiàn)跨文檔法律分析、多輪Agent規(guī)劃……

此情此景,用戶火速用腳投票,華爾街更是直接給出K線回應(yīng)。



而這股scaling的風(fēng),也很快吹到了端側(cè)。

剛剛,面壁智能帶著首次大規(guī)模訓(xùn)練的稀疏與線性混合注意力模型,小年交卷——

這套新注意力架構(gòu),不僅解決了傳統(tǒng)Transformer的計(jì)算冗余,還第一次在性能無(wú)損的前提下,讓9B端側(cè)模型能夠在5090顯卡上處理百萬(wàn)長(zhǎng)文本

與此同時(shí),基于SALA注意力架構(gòu)的模型MiniCPM-SALA也將一并開(kāi)源。

除此之外,面壁還以O(shè)penBMB社區(qū)名義,聯(lián)合SGLang與NVIDIA發(fā)起2026稀疏算子加速大獎(jiǎng)賽(SOAR),將這套scaling能力直接交到開(kāi)發(fā)者手中,推動(dòng)端側(cè)Agent部署的性能突破。

Linear-Sparse混合注意力架構(gòu)

太長(zhǎng)不看,咱直接說(shuō)重點(diǎn)——

面壁這次全新的線性與稀疏注意力混合架構(gòu)SALA(Sparse Attention-Linear Attention,SALA),究竟是怎么個(gè)混合法呢?

簡(jiǎn)單來(lái)說(shuō),這套架構(gòu)將75%線性注意力(Lightning Attention)25%稀疏注意力(InfLLM v2)結(jié)合,并通過(guò)混合位置編碼HyPE(Hybrid Position Encoding)實(shí)現(xiàn)兩者的高效協(xié)同與超強(qiáng)的長(zhǎng)度外推。



線性注意力模塊,Linear-Sparse選用Lightning Attention作為核心算子,負(fù)責(zé)快速、穩(wěn)定地建模長(zhǎng)文本的全局信息



Lightning Attention的計(jì)算方式與傳統(tǒng)全注意力接近,方便現(xiàn)有全注意力模型直接遷移到混合架構(gòu),無(wú)需從零開(kāi)始預(yù)訓(xùn)練。

同時(shí),借助QK-normalization輸出門(mén)控機(jī)制,使線性層在百萬(wàn)級(jí)上下文訓(xùn)練下保持?jǐn)?shù)值穩(wěn)定,避免梯度爆炸或下溢。

稀疏注意力模塊,Linear-Sparse采用InfLLMv2來(lái)精準(zhǔn)捕捉長(zhǎng)序列中的關(guān)鍵局部信息



InfLLM v2可按需選擇關(guān)鍵KV,讓每個(gè)Query只計(jì)算必要部分,從而大幅提高長(zhǎng)文本處理效率。

值得一提的是,InfLLM v2還能在長(zhǎng)文本中自動(dòng)啟用稀疏模式,在標(biāo)準(zhǔn)長(zhǎng)度下回退為稠密計(jì)算,實(shí)現(xiàn)長(zhǎng)短文本的無(wú)縫切換。

最后,混合位置編碼HyPE(Hybrid Position Encoding)的引入,則保證了線性和稀疏兩種注意力機(jī)制的充分協(xié)同。

一方面,線性層保留RoPE以維持與原全注意力模型在參數(shù)分布和特征空間上的一致性,保證中短文本性能穩(wěn)健。

另一方面,稀疏層采用NoPE(無(wú)位置編碼),讓KV-Cache與位置信息解耦,規(guī)避長(zhǎng)距離衰減問(wèn)題,使模型在百萬(wàn)長(zhǎng)度上下文中仍能高效檢索極遠(yuǎn)信息。

訓(xùn)練上,MiniCPM-SALA采用Transformer-to-Hybrid低成本構(gòu)建方法(HALO)



具體而言,模型通過(guò)HALO方法將75%的全注意力層轉(zhuǎn)換為線性注意力層,整個(gè)過(guò)程包括參數(shù)轉(zhuǎn)換、隱狀態(tài)對(duì)齊、層選擇以及知識(shí)蒸餾四個(gè)步驟。

最終,這套Linear-Sparse設(shè)計(jì)讓MiniCPM-SALA在端側(cè)處理超長(zhǎng)文本時(shí),不僅顯存占用極低、計(jì)算高效,而且語(yǔ)義精度依然保持領(lǐng)先水平。

為什么百萬(wàn)上下文,必須是“混合注意力”?

要回答這個(gè)問(wèn)題,得先回到傳統(tǒng)的Full Attention



在經(jīng)典Transformer里,每生成一個(gè)新token,都要和之前所有token做兩兩計(jì)算,其計(jì)算復(fù)雜度是典型的O(N2)。

這意味著,把上下文從1萬(wàn)拉到100萬(wàn),計(jì)算量不是漲100倍,而是直接飆升1萬(wàn)倍。與此同時(shí),為了讓模型“記住”所有歷史信息,還得把KV對(duì)全攢在顯存里。

隨著上下文長(zhǎng)度增加,KV Cache迅速膨脹,很快就會(huì)爆顯存。

由此可見(jiàn),想解決長(zhǎng)上下文問(wèn)題,注意力機(jī)制是核心瓶頸

過(guò)去幾年,業(yè)界圍繞這一瓶頸探索了多條路線,本質(zhì)上都是在精度、效率與可部署性之間尋找平衡點(diǎn)

第一類(lèi)是線性注意力,通常為線性和全注意力結(jié)合的混合設(shè)計(jì)。

它用記憶狀態(tài)替代傳統(tǒng)兩兩打分,能將計(jì)算復(fù)雜度從O(N2)降到O(N)。

優(yōu)點(diǎn)是可以吃下百萬(wàn)級(jí)上下文,但底層采用有損壓縮,序列越長(zhǎng),早期信息越容易被稀釋?zhuān)瑢?dǎo)致上下文遺忘和模型能力下降。

第二類(lèi)是原生稀疏注意力

只計(jì)算關(guān)鍵位置,精度接近全注意力,但為了支持長(zhǎng)程歷史回顧,仍需全量保存KV Cache,導(dǎo)致端側(cè)部署成本高。

第三類(lèi)是放棄顯式注意力的狀態(tài)空間模型,如Mamba。

這類(lèi)方法推理效率高、幾乎不需要KV Cache,但在精確指令遵循和長(zhǎng)距離精確檢索上,仍不夠穩(wěn)定。

綜上,我們不難看出注意力機(jī)制改動(dòng)是長(zhǎng)上下文scaling的主戰(zhàn)場(chǎng)

但真正能同時(shí)兼顧百萬(wàn)級(jí)上下文能力、推理效率和端側(cè)可落地性的方案,仍然稀缺。

這也是為什么面壁提出Linear-Sparse混合注意力架構(gòu)的出發(fā)點(diǎn)。

用線性機(jī)制承擔(dān)大規(guī)模上下文的承載,用稀疏機(jī)制補(bǔ)足關(guān)鍵位置的精確建模能力。

在這一架構(gòu)下,模型不再需要對(duì)所有token做完整的兩兩計(jì)算,也不必?zé)o條件保存全量KV Cache。

新的混合注意力架構(gòu)可以在顯著降低推理開(kāi)銷(xiāo)和顯存占用的同時(shí),避免純線性注意力在長(zhǎng)程信息召回上的精度損失,以及稀疏注意力在端側(cè)設(shè)備要求上的局限。

基于這一設(shè)計(jì),面壁還開(kāi)源了MiniCPM-SALA,用來(lái)驗(yàn)證該架構(gòu)在真實(shí)長(zhǎng)上下文場(chǎng)景下的潛力。

在效果層面,得益于顯著更低的顯存占用和更高的推理效率,MiniCPM-SALA首次在5090這樣的消費(fèi)級(jí)顯卡上,將1M上下文完整跑通,為長(zhǎng)上下文從云端走向端側(cè)提供了一條現(xiàn)實(shí)可行的路徑。

與此同時(shí),在不依賴投機(jī)推理等額外加速算法的前提下,相比同尺寸開(kāi)源模型,MiniCPM-SALA在256K序列上實(shí)現(xiàn)了2倍以上的速度提升。

當(dāng)序列長(zhǎng)度進(jìn)一步提升至512K甚至1M時(shí),部分同尺寸模型已經(jīng)遭遇顯存瓶頸,而MiniCPM-SALA依然能夠穩(wěn)定運(yùn)行。

(詳細(xì)測(cè)評(píng)結(jié)果可參考MiniCPM-SALA的GitHub或Hugging Face README)

從這些結(jié)果來(lái)看,未來(lái)的大模型,并不一定需要Full Attention才能具備完整能力。

當(dāng)上下文成為第一性資源時(shí),像Linear-Sparse混合注意力這樣的新型注意力設(shè)計(jì),正在成為影響模型能否真正落地的重要變量。

2026稀疏算子加速大獎(jiǎng)賽

如果說(shuō)MiniCPM-SALA讓Linear-Sparse混合架構(gòu)的能力有了實(shí)證,那么今年的SOAR(稀疏算子加速大獎(jiǎng)賽)就是讓這套技術(shù)“落地跑起來(lái)”的舞臺(tái)。

這場(chǎng)比賽由面壁智能、OpenBMB聯(lián)合SGLang社區(qū)和NVIDIA共同發(fā)起。

旨在通過(guò)全球極客的深度協(xié)作,共同探索MiniCPM-SALA這一全球首創(chuàng)“稀疏+線性”混合架構(gòu)模型在1M長(zhǎng)文本推理上的性能極限。

具體來(lái)說(shuō),大賽聚焦于稀疏算子融合與編譯優(yōu)化等底層技術(shù)挑戰(zhàn),嘗試在消費(fèi)級(jí)GPU上實(shí)現(xiàn)百萬(wàn)Token推理且KV Cache<6GB的極致效率。

比賽時(shí)間從2月11日持續(xù)到5月29日,設(shè)有總獎(jiǎng)池超過(guò)70萬(wàn)人民幣的獎(jiǎng)勵(lì)。

參賽者不僅能測(cè)試混合架構(gòu)在真實(shí)硬件上的極限,還能探索端側(cè)高效長(zhǎng)文本處理的新方法。

比賽鏈接:https://soar.openbmb.cn/



面壁為什么執(zhí)著于用SALA重構(gòu)長(zhǎng)上下文?

這并不是為了“卷長(zhǎng)上下文指標(biāo)”。

面壁的一大目標(biāo)是從Densing Law(密度法則)的第一性原理出發(fā),將通用能力強(qiáng)的模型落到智能終端如手機(jī)、汽車(chē)、機(jī)器人等上,而SALA架構(gòu)的創(chuàng)新是通往羅馬的關(guān)鍵:

正是基于對(duì)注意力機(jī)制的創(chuàng)新,MiniCPM-SALA模型才能足夠高效、顯存占用足夠低,面壁才能首次在5090這樣的消費(fèi)級(jí)GPU 上,把一兆級(jí)長(zhǎng)文本端側(cè)推理真正跑通。

這一步一旦成立,長(zhǎng)上下文就不再只是云端模型的特權(quán),而成為端側(cè)智能可以依賴的基礎(chǔ)能力。

如果把面壁今年的動(dòng)作放在一起看,其實(shí)不難理解其在端側(cè)智能上的整體思路:

從模型底層直通端側(cè)生態(tài),核心就是上下文

無(wú)論是模型架構(gòu)的迭代,還是長(zhǎng)文本的競(jìng)技,本質(zhì)上都是一次針對(duì)端側(cè)落地的“兩步走”戰(zhàn)略。

而這,并非偶然。

放眼整個(gè)行業(yè),Agent的核心瓶頸已從單純的參數(shù)量轉(zhuǎn)向上下文能力——

從模型層的Claude Opus 4.6,到應(yīng)用層的Claude Cowork、Clawdbot(現(xiàn)OpenClaw),再到評(píng)估層的CL-Bench,行業(yè)共識(shí)已經(jīng)非常明確:

能否一次吸收、理解并持續(xù)利用大量上下文,是決定Agent可用性的關(guān)鍵。

與此同時(shí),基于注意力機(jī)制優(yōu)化上下文處理,也已成為學(xué)界到產(chǎn)業(yè)公認(rèn)的主戰(zhàn)場(chǎng)。

去年NeurIPS 2025最佳論文給到門(mén)控注意力;產(chǎn)業(yè)側(cè),Kimi的KDA、DeepSeek的NSA、MiniMax的Lightning相繼推出新方案——

幾乎所有核心玩家,都在attention這條線上持續(xù)加碼。

因?yàn)檫@不是一個(gè)“工程調(diào)優(yōu)”問(wèn)題,而是架構(gòu)級(jí)問(wèn)題。

只有真正具備AGI野心和技術(shù)縱深的公司,才有能力從底層架構(gòu)一路改到上層算法。

也只有真正想把模型能力推到邊界的團(tuán)隊(duì),才有魄力去挑戰(zhàn)已經(jīng)被奉為主流、但顯然仍有優(yōu)化空間的Transformer傳統(tǒng)范式。

而面壁選擇這條路,更是因?yàn)槠渑c端側(cè)部署的目標(biāo)高度契合:

首先,端側(cè)Agent要處理的包括通訊錄、位置信息、聊天記錄。

出于隱私保護(hù),這些數(shù)據(jù)無(wú)法走向云端。只有讓模型本身具備超長(zhǎng)上下文能力,個(gè)人助理才能在本地真正“懂你”。

其次,通用榜單已進(jìn)入紅海,端側(cè)開(kāi)發(fā)者關(guān)心的問(wèn)題也已從特定的benchmark,轉(zhuǎn)向真實(shí)世界環(huán)境的上下文應(yīng)用。

這正如DeepSeek研究員茍志斌所言:

  • 預(yù)訓(xùn)練能scaling,RL也能scaling,上下文也能scaling,模型仍在繼續(xù)scaling。



換句話說(shuō),參數(shù)規(guī)模已經(jīng)不再是唯一指標(biāo),真正的競(jìng)爭(zhēng)力在于模型/Agent在復(fù)雜上下文中持續(xù)推理和行動(dòng)的能力,這將直接決定模型從demo走向倉(cāng)庫(kù)級(jí)代碼助手、行業(yè)知識(shí)庫(kù)Agent。

最后也是最本質(zhì)的,不解決長(zhǎng)文本推理部署成本,端側(cè)智能也就無(wú)法真正落地。

所以面壁不只做模型,更在做生態(tài):從開(kāi)源MiniCPM-SALA,到舉辦端側(cè)長(zhǎng)文本比賽降低部署成本,再到深耕開(kāi)發(fā)者社區(qū),面壁正在拼出一條劍指“百萬(wàn)上下文時(shí)代個(gè)人智能體”的主線。

比賽鏈接:

https://soar.openbmb.cn/

技術(shù)報(bào)告:

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM SALA.pdf

Github:

https://github.com/openbmb/minicpm

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-SALA

ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA剩余賽程難度出爐!火箭17湖人15勇士12 馬刺沖擊第一再獲利好

NBA剩余賽程難度出爐!火箭17湖人15勇士12 馬刺沖擊第一再獲利好

鍋?zhàn)踊@球
2026-02-26 21:17:28
宋元決戰(zhàn)中發(fā)生的未解之謎!正史不敢記錄,民間千年來(lái)卻爭(zhēng)論不休

宋元決戰(zhàn)中發(fā)生的未解之謎!正史不敢記錄,民間千年來(lái)卻爭(zhēng)論不休

西蜀煙霞客
2025-02-15 19:00:20
中國(guó)男籃vs日本首發(fā):趙睿、胡金秋、朱俊龍、賀希寧、王浩然

中國(guó)男籃vs日本首發(fā):趙睿、胡金秋、朱俊龍、賀希寧、王浩然

懂球帝
2026-02-26 18:03:50
夸美國(guó)空氣香甜的楊舒平,已被美驅(qū)逐出境,如今回國(guó)下場(chǎng)怎么樣了

夸美國(guó)空氣香甜的楊舒平,已被美驅(qū)逐出境,如今回國(guó)下場(chǎng)怎么樣了

談史論天地
2026-02-07 13:20:03
重慶馬拉松一跑友在賽道上倒地離世,離全馬終點(diǎn)不到200米,他在圈內(nèi)被稱(chēng)為大神,一周前剛在廈門(mén)“破三”

重慶馬拉松一跑友在賽道上倒地離世,離全馬終點(diǎn)不到200米,他在圈內(nèi)被稱(chēng)為大神,一周前剛在廈門(mén)“破三”

極目新聞
2026-01-20 15:52:23
痛心!江西跑友劉濤去世,僅51歲,生前堅(jiān)持晨跑,是3家公司老板

痛心!江西跑友劉濤去世,僅51歲,生前堅(jiān)持晨跑,是3家公司老板

離離言幾許
2026-02-25 10:43:45
雪上加霜!再跌近3%

雪上加霜!再跌近3%

中國(guó)基金報(bào)
2026-02-26 19:51:00
季候:一種關(guān)于過(guò)渡的身體語(yǔ)法

季候:一種關(guān)于過(guò)渡的身體語(yǔ)法

疾跑的小蝸牛
2026-02-26 22:11:12
機(jī)場(chǎng)安檢時(shí),筆記本電腦為啥要單獨(dú)拿出來(lái)掃描?不是多此一舉嗎?

機(jī)場(chǎng)安檢時(shí),筆記本電腦為啥要單獨(dú)拿出來(lái)掃描?不是多此一舉嗎?

向航說(shuō)
2026-02-23 00:50:03
云南虎跳峽一游客落水失聯(lián)!此前8歲男童在此墜崖遇難

云南虎跳峽一游客落水失聯(lián)!此前8歲男童在此墜崖遇難

環(huán)球網(wǎng)資訊
2026-02-26 14:11:09
日本排放核水后,奇怪的事發(fā)生了:剛開(kāi)始各國(guó)對(duì)海鮮避之不及

日本排放核水后,奇怪的事發(fā)生了:剛開(kāi)始各國(guó)對(duì)海鮮避之不及

百態(tài)人間
2026-02-26 15:21:28
癌癥的“源頭”或已發(fā)現(xiàn)?咸菜沒(méi)上榜,第1名大家或天天都在吃?

癌癥的“源頭”或已發(fā)現(xiàn)?咸菜沒(méi)上榜,第1名大家或天天都在吃?

健康科普365
2026-02-25 15:46:38
鬧大了!上海00后美女騎手被顧客勸誘200元陪他1次,警方立馬行動(dòng)

鬧大了!上海00后美女騎手被顧客勸誘200元陪他1次,警方立馬行動(dòng)

火山詩(shī)話
2026-02-26 14:09:03
東風(fēng)導(dǎo)彈總工深陷“美人+苦肉”連環(huán)計(jì),國(guó)家機(jī)密險(xiǎn)被一鍋端!

東風(fēng)導(dǎo)彈總工深陷“美人+苦肉”連環(huán)計(jì),國(guó)家機(jī)密險(xiǎn)被一鍋端!

干史人
2026-02-24 09:48:19
寶馬X5傳承版官圖發(fā)布!售價(jià)68900歐元

寶馬X5傳承版官圖發(fā)布!售價(jià)68900歐元

汽車(chē)網(wǎng)評(píng)
2026-02-26 21:00:13
女生會(huì)考驗(yàn)?zāi)愕恼\(chéng)意嗎?

女生會(huì)考驗(yàn)?zāi)愕恼\(chéng)意嗎?

賴煥慶
2026-02-24 13:58:44
雷軍回應(yīng)新一代SU7赤霞紅配色:一臺(tái)值得期待的Dream Car

雷軍回應(yīng)新一代SU7赤霞紅配色:一臺(tái)值得期待的Dream Car

PChome電腦之家
2026-02-24 10:29:31
10月大男嬰全身被扎針孔后就醫(yī)?各方急尋;昆明市衛(wèi)健委:警方已介入;墨江縣多部門(mén)核查

10月大男嬰全身被扎針孔后就醫(yī)?各方急尋;昆明市衛(wèi)健委:警方已介入;墨江縣多部門(mén)核查

大風(fēng)新聞
2026-01-20 20:33:04
惡魔醫(yī)生王福建退休在家被抓!判刑后還狡辯沒(méi)做錯(cuò),兒子也不清白

惡魔醫(yī)生王福建退休在家被抓!判刑后還狡辯沒(méi)做錯(cuò),兒子也不清白

社會(huì)日日鮮
2026-02-06 05:59:39
白銀、油價(jià)直線跳水,白銀期貨一度跌5%,伊美第三輪談判暫停

白銀、油價(jià)直線跳水,白銀期貨一度跌5%,伊美第三輪談判暫停

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-02-26 22:08:38
2026-02-27 00:55:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12205文章數(shù) 176395關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

蔚來(lái)銷(xiāo)售接電話辱罵客戶不料被錄音 客戶公開(kāi)聊天截圖

頭條要聞

蔚來(lái)銷(xiāo)售接電話辱罵客戶不料被錄音 客戶公開(kāi)聊天截圖

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

向華強(qiáng)公開(kāi)表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

中國(guó)AI調(diào)用量超美國(guó) 4款大模型霸榜前5

汽車(chē)要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

時(shí)尚
教育
手機(jī)
健康
房產(chǎn)

今年春天最美搭配:西裝+半裙,怎么穿都好看!

教育要聞

學(xué)習(xí)的真正對(duì)手,是精力分配失衡

手機(jī)要聞

太好用!蘋(píng)果悄悄上線網(wǎng)絡(luò)測(cè)速工具,比第三方還準(zhǔn),你用上了嗎?

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

房產(chǎn)要聞

2.2萬(wàn)/m2起!三亞主城性價(jià)比標(biāo)桿 海墾·桃花源實(shí)景現(xiàn)房春節(jié)被瘋搶

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版