網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

9B端側(cè)開(kāi)源模型跑通百萬(wàn)上下文，面壁全新稀疏-線性混合注意力

2026-02-11 21:08:47　來(lái)源: 量子位

寧夏舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

最強(qiáng)的大模型，已經(jīng)把scaling卷到了一個(gè)新維度：百萬(wàn)級(jí)上下文

幾天前，Claude Opus 4.6發(fā)布，讓人第一次真切感受到了百萬(wàn)上下文的涌現(xiàn)能力——

單次吃進(jìn)50萬(wàn)字中文內(nèi)容、實(shí)現(xiàn)跨文檔法律分析、多輪Agent規(guī)劃……

此情此景，用戶火速用腳投票，華爾街更是直接給出K線回應(yīng)。

而這股scaling的風(fēng)，也很快吹到了端側(cè)。

剛剛，面壁智能帶著首次大規(guī)模訓(xùn)練的稀疏與線性混合注意力模型，小年交卷——

這套新注意力架構(gòu)，不僅解決了傳統(tǒng)Transformer的計(jì)算冗余，還第一次在性能無(wú)損的前提下，讓9B端側(cè)模型能夠在5090顯卡上處理百萬(wàn)長(zhǎng)文本

與此同時(shí)，基于SALA注意力架構(gòu)的模型MiniCPM-SALA也將一并開(kāi)源。

除此之外，面壁還以O(shè)penBMB社區(qū)名義，聯(lián)合SGLang與NVIDIA發(fā)起2026稀疏算子加速大獎(jiǎng)賽（SOAR），將這套scaling能力直接交到開(kāi)發(fā)者手中，推動(dòng)端側(cè)Agent部署的性能突破。

Linear-Sparse混合注意力架構(gòu)

太長(zhǎng)不看，咱直接說(shuō)重點(diǎn)——

面壁這次全新的線性與稀疏注意力混合架構(gòu)SALA（Sparse Attention-Linear Attention，SALA），究竟是怎么個(gè)混合法呢？

簡(jiǎn)單來(lái)說(shuō)，這套架構(gòu)將75%線性注意力（Lightning Attention）25%稀疏注意力（InfLLM v2）結(jié)合，并通過(guò)混合位置編碼HyPE（Hybrid Position Encoding）實(shí)現(xiàn)兩者的高效協(xié)同與超強(qiáng)的長(zhǎng)度外推。

線性注意力模塊，Linear-Sparse選用Lightning Attention作為核心算子，負(fù)責(zé)快速、穩(wěn)定地建模長(zhǎng)文本的全局信息

Lightning Attention的計(jì)算方式與傳統(tǒng)全注意力接近，方便現(xiàn)有全注意力模型直接遷移到混合架構(gòu)，無(wú)需從零開(kāi)始預(yù)訓(xùn)練。

同時(shí)，借助QK-normalization輸出門(mén)控機(jī)制，使線性層在百萬(wàn)級(jí)上下文訓(xùn)練下保持?jǐn)?shù)值穩(wěn)定，避免梯度爆炸或下溢。

稀疏注意力模塊，Linear-Sparse采用InfLLMv2來(lái)精準(zhǔn)捕捉長(zhǎng)序列中的關(guān)鍵局部信息

InfLLM v2可按需選擇關(guān)鍵KV，讓每個(gè)Query只計(jì)算必要部分，從而大幅提高長(zhǎng)文本處理效率。

值得一提的是，InfLLM v2還能在長(zhǎng)文本中自動(dòng)啟用稀疏模式，在標(biāo)準(zhǔn)長(zhǎng)度下回退為稠密計(jì)算，實(shí)現(xiàn)長(zhǎng)短文本的無(wú)縫切換。

最后，混合位置編碼HyPE（Hybrid Position Encoding)的引入，則保證了線性和稀疏兩種注意力機(jī)制的充分協(xié)同。

一方面，線性層保留RoPE以維持與原全注意力模型在參數(shù)分布和特征空間上的一致性，保證中短文本性能穩(wěn)健。

另一方面，稀疏層采用NoPE（無(wú)位置編碼），讓KV-Cache與位置信息解耦，規(guī)避長(zhǎng)距離衰減問(wèn)題，使模型在百萬(wàn)長(zhǎng)度上下文中仍能高效檢索極遠(yuǎn)信息。

訓(xùn)練上，MiniCPM-SALA采用Transformer-to-Hybrid低成本構(gòu)建方法（HALO）

具體而言，模型通過(guò)HALO方法將75%的全注意力層轉(zhuǎn)換為線性注意力層，整個(gè)過(guò)程包括參數(shù)轉(zhuǎn)換、隱狀態(tài)對(duì)齊、層選擇以及知識(shí)蒸餾四個(gè)步驟。

最終，這套Linear-Sparse設(shè)計(jì)讓MiniCPM-SALA在端側(cè)處理超長(zhǎng)文本時(shí)，不僅顯存占用極低、計(jì)算高效，而且語(yǔ)義精度依然保持領(lǐng)先水平。

為什么百萬(wàn)上下文，必須是“混合注意力”？

要回答這個(gè)問(wèn)題，得先回到傳統(tǒng)的Full Attention

在經(jīng)典Transformer里，每生成一個(gè)新token，都要和之前所有token做兩兩計(jì)算，其計(jì)算復(fù)雜度是典型的O(N2)。

這意味著，把上下文從1萬(wàn)拉到100萬(wàn)，計(jì)算量不是漲100倍，而是直接飆升1萬(wàn)倍。與此同時(shí)，為了讓模型“記住”所有歷史信息，還得把KV對(duì)全攢在顯存里。

隨著上下文長(zhǎng)度增加，KV Cache迅速膨脹，很快就會(huì)爆顯存。

由此可見(jiàn)，想解決長(zhǎng)上下文問(wèn)題，注意力機(jī)制是核心瓶頸

過(guò)去幾年，業(yè)界圍繞這一瓶頸探索了多條路線，本質(zhì)上都是在精度、效率與可部署性之間尋找平衡點(diǎn)

第一類(lèi)是線性注意力，通常為線性和全注意力結(jié)合的混合設(shè)計(jì)。

它用記憶狀態(tài)替代傳統(tǒng)兩兩打分，能將計(jì)算復(fù)雜度從O(N2)降到O(N)。

優(yōu)點(diǎn)是可以吃下百萬(wàn)級(jí)上下文，但底層采用有損壓縮，序列越長(zhǎng)，早期信息越容易被稀釋?zhuān)瑢?dǎo)致上下文遺忘和模型能力下降。

第二類(lèi)是原生稀疏注意力

只計(jì)算關(guān)鍵位置，精度接近全注意力，但為了支持長(zhǎng)程歷史回顧，仍需全量保存KV Cache，導(dǎo)致端側(cè)部署成本高。

第三類(lèi)是放棄顯式注意力的狀態(tài)空間模型，如Mamba。

這類(lèi)方法推理效率高、幾乎不需要KV Cache，但在精確指令遵循和長(zhǎng)距離精確檢索上，仍不夠穩(wěn)定。

綜上，我們不難看出注意力機(jī)制改動(dòng)是長(zhǎng)上下文scaling的主戰(zhàn)場(chǎng)

但真正能同時(shí)兼顧百萬(wàn)級(jí)上下文能力、推理效率和端側(cè)可落地性的方案，仍然稀缺。

這也是為什么面壁提出Linear-Sparse混合注意力架構(gòu)的出發(fā)點(diǎn)。

用線性機(jī)制承擔(dān)大規(guī)模上下文的承載，用稀疏機(jī)制補(bǔ)足關(guān)鍵位置的精確建模能力。

在這一架構(gòu)下，模型不再需要對(duì)所有token做完整的兩兩計(jì)算，也不必?zé)o條件保存全量KV Cache。

新的混合注意力架構(gòu)可以在顯著降低推理開(kāi)銷(xiāo)和顯存占用的同時(shí)，避免純線性注意力在長(zhǎng)程信息召回上的精度損失，以及稀疏注意力在端側(cè)設(shè)備要求上的局限。

基于這一設(shè)計(jì)，面壁還開(kāi)源了MiniCPM-SALA，用來(lái)驗(yàn)證該架構(gòu)在真實(shí)長(zhǎng)上下文場(chǎng)景下的潛力。

在效果層面，得益于顯著更低的顯存占用和更高的推理效率，MiniCPM-SALA首次在5090這樣的消費(fèi)級(jí)顯卡上，將1M上下文完整跑通，為長(zhǎng)上下文從云端走向端側(cè)提供了一條現(xiàn)實(shí)可行的路徑。

與此同時(shí)，在不依賴投機(jī)推理等額外加速算法的前提下，相比同尺寸開(kāi)源模型，MiniCPM-SALA在256K序列上實(shí)現(xiàn)了2倍以上的速度提升。

當(dāng)序列長(zhǎng)度進(jìn)一步提升至512K甚至1M時(shí)，部分同尺寸模型已經(jīng)遭遇顯存瓶頸，而MiniCPM-SALA依然能夠穩(wěn)定運(yùn)行。

（詳細(xì)測(cè)評(píng)結(jié)果可參考MiniCPM-SALA的GitHub或Hugging Face README）

從這些結(jié)果來(lái)看，未來(lái)的大模型，并不一定需要Full Attention才能具備完整能力。

當(dāng)上下文成為第一性資源時(shí)，像Linear-Sparse混合注意力這樣的新型注意力設(shè)計(jì)，正在成為影響模型能否真正落地的重要變量。

2026稀疏算子加速大獎(jiǎng)賽

如果說(shuō)MiniCPM-SALA讓Linear-Sparse混合架構(gòu)的能力有了實(shí)證，那么今年的SOAR（稀疏算子加速大獎(jiǎng)賽）就是讓這套技術(shù)“落地跑起來(lái)”的舞臺(tái)。

這場(chǎng)比賽由面壁智能、OpenBMB聯(lián)合SGLang社區(qū)和NVIDIA共同發(fā)起。

旨在通過(guò)全球極客的深度協(xié)作，共同探索MiniCPM-SALA這一全球首創(chuàng)“稀疏+線性”混合架構(gòu)模型在1M長(zhǎng)文本推理上的性能極限。

具體來(lái)說(shuō)，大賽聚焦于稀疏算子融合與編譯優(yōu)化等底層技術(shù)挑戰(zhàn)，嘗試在消費(fèi)級(jí)GPU上實(shí)現(xiàn)百萬(wàn)Token推理且KV Cache<6GB的極致效率。

比賽時(shí)間從2月11日持續(xù)到5月29日，設(shè)有總獎(jiǎng)池超過(guò)70萬(wàn)人民幣的獎(jiǎng)勵(lì)。

參賽者不僅能測(cè)試混合架構(gòu)在真實(shí)硬件上的極限，還能探索端側(cè)高效長(zhǎng)文本處理的新方法。

比賽鏈接：https://soar.openbmb.cn/

面壁為什么執(zhí)著于用SALA重構(gòu)長(zhǎng)上下文？

這并不是為了“卷長(zhǎng)上下文指標(biāo)”。

面壁的一大目標(biāo)是從Densing Law（密度法則）的第一性原理出發(fā)，將通用能力強(qiáng)的模型落到智能終端如手機(jī)、汽車(chē)、機(jī)器人等上，而SALA架構(gòu)的創(chuàng)新是通往羅馬的關(guān)鍵：

正是基于對(duì)注意力機(jī)制的創(chuàng)新，MiniCPM-SALA模型才能足夠高效、顯存占用足夠低，面壁才能首次在5090這樣的消費(fèi)級(jí)GPU 上，把一兆級(jí)長(zhǎng)文本端側(cè)推理真正跑通。

這一步一旦成立，長(zhǎng)上下文就不再只是云端模型的特權(quán)，而成為端側(cè)智能可以依賴的基礎(chǔ)能力。

如果把面壁今年的動(dòng)作放在一起看，其實(shí)不難理解其在端側(cè)智能上的整體思路：

從模型底層直通端側(cè)生態(tài)，核心就是上下文

無(wú)論是模型架構(gòu)的迭代，還是長(zhǎng)文本的競(jìng)技，本質(zhì)上都是一次針對(duì)端側(cè)落地的“兩步走”戰(zhàn)略。

而這，并非偶然。

放眼整個(gè)行業(yè)，Agent的核心瓶頸已從單純的參數(shù)量轉(zhuǎn)向上下文能力——

從模型層的Claude Opus 4.6，到應(yīng)用層的Claude Cowork、Clawdbot（現(xiàn)OpenClaw），再到評(píng)估層的CL-Bench，行業(yè)共識(shí)已經(jīng)非常明確：

能否一次吸收、理解并持續(xù)利用大量上下文，是決定Agent可用性的關(guān)鍵。

與此同時(shí)，基于注意力機(jī)制優(yōu)化上下文處理，也已成為學(xué)界到產(chǎn)業(yè)公認(rèn)的主戰(zhàn)場(chǎng)。

去年NeurIPS 2025最佳論文給到門(mén)控注意力；產(chǎn)業(yè)側(cè)，Kimi的KDA、DeepSeek的NSA、MiniMax的Lightning相繼推出新方案——

幾乎所有核心玩家，都在attention這條線上持續(xù)加碼。

因?yàn)檫@不是一個(gè)“工程調(diào)優(yōu)”問(wèn)題，而是架構(gòu)級(jí)問(wèn)題。

只有真正具備AGI野心和技術(shù)縱深的公司，才有能力從底層架構(gòu)一路改到上層算法。

也只有真正想把模型能力推到邊界的團(tuán)隊(duì)，才有魄力去挑戰(zhàn)已經(jīng)被奉為主流、但顯然仍有優(yōu)化空間的Transformer傳統(tǒng)范式。

而面壁選擇這條路，更是因?yàn)槠渑c端側(cè)部署的目標(biāo)高度契合：

首先，端側(cè)Agent要處理的包括通訊錄、位置信息、聊天記錄。

出于隱私保護(hù)，這些數(shù)據(jù)無(wú)法走向云端。只有讓模型本身具備超長(zhǎng)上下文能力，個(gè)人助理才能在本地真正“懂你”。

其次，通用榜單已進(jìn)入紅海，端側(cè)開(kāi)發(fā)者關(guān)心的問(wèn)題也已從特定的benchmark，轉(zhuǎn)向真實(shí)世界環(huán)境的上下文應(yīng)用。

這正如DeepSeek研究員茍志斌所言：

預(yù)訓(xùn)練能scaling，RL也能scaling，上下文也能scaling，模型仍在繼續(xù)scaling。

換句話說(shuō)，參數(shù)規(guī)模已經(jīng)不再是唯一指標(biāo)，真正的競(jìng)爭(zhēng)力在于模型/Agent在復(fù)雜上下文中持續(xù)推理和行動(dòng)的能力，這將直接決定模型從demo走向倉(cāng)庫(kù)級(jí)代碼助手、行業(yè)知識(shí)庫(kù)Agent。

最后也是最本質(zhì)的，不解決長(zhǎng)文本推理部署成本，端側(cè)智能也就無(wú)法真正落地。

所以面壁不只做模型，更在做生態(tài)：從開(kāi)源MiniCPM-SALA，到舉辦端側(cè)長(zhǎng)文本比賽降低部署成本，再到深耕開(kāi)發(fā)者社區(qū)，面壁正在拼出一條劍指“百萬(wàn)上下文時(shí)代個(gè)人智能體”的主線。

比賽鏈接:

https://soar.openbmb.cn/

技術(shù)報(bào)告:

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM SALA.pdf

Github:

https://github.com/openbmb/minicpm

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-SALA

ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.