創(chuàng)新Transformer！面壁基于稀疏-線性混合架構(gòu)SALA訓(xùn)練9B模型，端側(cè)跑通百萬上下文

2026-02-12 04:41:05　來源: AI科技評論

廣東舉報

分享至

9B模型實現(xiàn)端側(cè)百萬上下文推理，比同尺寸模型速度最高提升 3.5 倍。

眾所周知，Transformer 及其核心的全注意力機制（Full Attention）雖長期占據(jù)大模型架構(gòu)的核心地位，但平方級計算復(fù)雜度、高額顯存占用的瓶頸，早已成為實現(xiàn)超長上下文處理與模型規(guī)?；瘧?yīng)用的 “攔路虎”。敢于挑戰(zhàn)這一固有權(quán)威，需要的不僅是實現(xiàn) AGI 長遠目標(biāo)勇于創(chuàng)新的魄力，更需要有獨到的技術(shù)視野以及突破技術(shù)壁壘的硬實力。從 DeepSeek 的稀疏注意力（DSA）、MiniMax 的線性注意力、到月之暗面的線性注意力（KDA），大家紛紛投入注意力架構(gòu)的革新競技場。

今天，面壁智能也在這場變革中邁出了關(guān)鍵一步：正式發(fā)布行業(yè)首個大規(guī)模訓(xùn)練的稀疏-線性注意力混合架構(gòu) SALA（Sparse Attention-Linear Attention，簡稱SALA），以及基于該架構(gòu)的文本模型 MiniCPM-SALA，以追求更長文本處理能力與極致的推理性價比。MiniCPM-SALA 不僅在多項長文本理解與生成評測中優(yōu)勢明顯，且在知識問答、數(shù)學(xué)推理、代碼生成等核心能力維度上，保持了與同規(guī)模全注意力模型相當(dāng)?shù)淖吭剿剑瑢崿F(xiàn)了“長短兼?zhèn)洹钡木C合性能表現(xiàn)，以及極致推理性價比。

▍MiniCPM-SALA 亮點一覽

? 架構(gòu)革新：“稀疏-線性”注意力混合架構(gòu)，在顯著降低推理開銷與顯存占用的同時，克服了純線性架構(gòu)在長程信息召回上的精度瓶頸，效率性能兼顧。

? 卓越性能：采用HyPE（混合位置編碼）來有效協(xié)調(diào)短上下文和長上下文的性能。在保持通用能力（如知識、數(shù)學(xué)和編碼）與其他8B全注意力模型相當(dāng)?shù)耐瑫r，MiniCPM-SALA 在多個長上下文基準(zhǔn)測試中表現(xiàn)出明顯優(yōu)勢。

? 高效推理：不使用投機采樣等加速算法，在云端推理芯片上，當(dāng)序列長度為256K詞元時推理速度高達 Qwen3-8B 的 3.5 倍，并支持在云端芯片和消費級端側(cè) GPU 上進行高達一百萬詞元上下文長度的推理。

▍相關(guān)鏈接

GitHub 鏈接：

https://github.com/openbmb/minicpm

HuggingFace 鏈接：

https://huggingface.co/openbmb/MiniCPM-SALA

Model Scope 鏈接：

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

GitCode鏈接：

https://ai.gitcode.com/OpenBMB/MiniCPM-SALA

MiniCPM-SALA 技術(shù)報告：

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

為何混合架構(gòu)是更優(yōu)解

傳統(tǒng) Transformer 模型在處理長文本時，其核心的全注意力機制會導(dǎo)致計算量隨文本長度呈平方級增長，同時生成過程中需要緩存的鍵值對也會占用大量顯存。現(xiàn)有的解決方案主要分為線性注意力與稀疏注意力兩大流派，但純線性注意力存在精度損失的短板，純稀疏注意力又有著存儲瓶頸的限制。

MiniCPM-SALA 首創(chuàng)稀疏-線性混合注意力架構(gòu)，巧妙地解決了這一核心矛盾。模型中 75% 的層采用線性注意力（Lightning Attention），負(fù)責(zé)信息的高效全局流轉(zhuǎn)。其余 25% 的層采用稀疏注意力（InfLLM-v2），專注于精準(zhǔn)捕捉局部關(guān)鍵信息，黃金配比實現(xiàn)計算效率與語義精度的平衡。

MiniCPM-SALA 模型架構(gòu)

相關(guān)研究論文現(xiàn)已公開：

? 稀疏-線性混合注意力：

https://arxiv.org/pdf/2601.22156

? InfLLM v2：

https://arxiv.org/pdf/2509.24663

不止于「長」，更在于「強」

MiniCPM-SALA 具備優(yōu)異的長度泛化能力。在不使用任何額外技術(shù)（如YaRN）的前提下，MiniCPM-SALA 可以將上下文長度拓展至2048K。

在云端推理芯片上評估從 64K 到 1024K 詞元的不同序列長度下的效率，MiniCPM-SALA 在所有測試配置中均表現(xiàn)出顯著的效率優(yōu)勢，在非量化設(shè)置下始終保持更低的延遲。在 256K 序列長度下，MiniCPM-SALA 相比 Qwen3-8B 實現(xiàn)了約 3.5 倍的加速。

在更長序列（512K 及 1M 長文本）上，同尺寸開源模型已經(jīng)遭遇顯存爆炸的情況下，MiniCPM-SALA 依舊能夠穩(wěn)定推理，讓 MiniCPM-SALA 在汽車、手機、具身機器人等更多端側(cè)領(lǐng)域應(yīng)用成為可能。

此外，在模型僅有 9B 參數(shù)的前提下，MiniCPM-SALA 在知識問答、數(shù)學(xué)推理、代碼生成等核心能力維度上保持了與同規(guī)模全注意力模型相當(dāng)?shù)淖吭剿?，實現(xiàn)了“長短兼?zhèn)洹钡木C合性能表現(xiàn)。

邀你挑戰(zhàn)推理極限

為進一步探索 SALA 混合注意力架構(gòu)在實際部署中的性能極限，OpenBMB聯(lián)合 SGLang 、 NVIDIA 、面壁智能共同發(fā)起 2026 稀疏算子加速大獎賽（SOAR）。大賽聚焦于稀疏化算子融合與編譯優(yōu)化等底層硬核課題，挑戰(zhàn)在消費級 GPU 上實現(xiàn)百萬級詞元推理與 KV Cache 的極致效率，協(xié)同攻克長文本處理的性能最優(yōu)解。誠邀全球技術(shù)極客基于 SGLang 推理框架與 NVIDIA 硬件特性展開極限攻關(guān)，打破硬件物理瓶頸，共同定義下一代高效推理的性能新基線。

比賽官網(wǎng):https://soar.openbmb.cn/

技術(shù)報告

01 引言 (Introduction)

隨著大模型能力日益強大，其應(yīng)用場景正經(jīng)歷著深刻的范式轉(zhuǎn)變，從簡單的問答發(fā)展到愈發(fā)復(fù)雜的任務(wù)。在這些高級應(yīng)用場景中，模型不能再局限于處理碎片化信息。相反，模型必須具備處理超長上下文的能力，例如一次性閱讀整本技術(shù)手冊、分析跨越數(shù)萬行代碼的依賴關(guān)系，或在多日的人機協(xié)作中維持連貫的任務(wù)狀態(tài)和記憶。在這種背景下，百萬級詞元的處理將會成為前沿大模型的關(guān)鍵能力。然而，作為當(dāng)前主流大模型基礎(chǔ)的Transformer架構(gòu)在處理超長序列時面臨著嚴(yán)重的計算瓶頸。這一瓶頸主要體現(xiàn)在兩個維度：

? 計算復(fù)雜度的“計算墻”（Compute Bottleneck）：在標(biāo)準(zhǔn)注意力機制中，計算復(fù)雜度隨序列長度 N 呈二次方增長。當(dāng)上下文擴展到百萬詞元時，預(yù)填充（Pre-filling）階段的巨大開銷會導(dǎo)致首個詞元生成時間（TTFT）急劇增加；

? KV-Cache 的“顯存墻”（Memory Bottleneck）：在自回歸生成過程中，模型必須存儲所有歷史詞元的 Key 和 Value 狀態(tài)以避免重復(fù)計算。對于典型的 8B 參數(shù)模型，即使利用分組查詢注意力（GQA），百萬級詞元所需的 KV-Cache 也可能達到數(shù)十甚至上百 GB。

為了解決上述挑戰(zhàn)，現(xiàn)有的解決方案存在兩種主要范式：稀疏注意力（Sparse Attention）和線性注意力（Linear Attention）。這兩種方法各具獨特的優(yōu)勢和固有的局限性。稀疏注意力方法試圖通過僅計算注意力矩陣中最顯著的部分（例如通過滑動窗口或全局錨點）來打破計算墻。然而，這些方法具有“稀疏計算，稠密存儲”的特點。雖然局部計算減少了即時處理開銷，但模型仍需保留完整的 KV-Cache 以支持上下文信息的檢索。線性注意力利用循環(huán)計算成功地將計算復(fù)雜度降低到 O(N) 。然而，這種極致的效率從根本上是通過對上下文信息的有損壓縮實現(xiàn)的，容易導(dǎo)致性能受損。

MiniCPM-SALA 采用了一種稀疏與線性注意力的混合架構(gòu)，專為實現(xiàn)高效的超長序列建模而設(shè)計。該架構(gòu)結(jié)合了 InfLLM-V2 的高保真局部建模能力與 Lightning Attention 的全局計算效率。通過這種集成方法，模型顯著降低了推理開銷和內(nèi)存消耗，同時解決了純線性架構(gòu)在長距離信息處理中典型的精度瓶頸。

主要貢獻如下：

? 創(chuàng)新架構(gòu)設(shè)計：提出了一種稀疏-線性混合注意力機制 SALA，將 25% 的 InfLLM-V2 和 75% 的 Lightning Attention 相結(jié)合，可在性能與效率之間取得良好的平衡。通過利用稀疏注意力對局部細(xì)節(jié)的細(xì)粒度關(guān)注，以及線性注意力在長上下文時 O(N) 的計算效率，該架構(gòu)在序列長度增加時仍能保持較高的性能。

? 高效訓(xùn)練范式：MiniCPM-SALA 證明了 Transformer 到混合架構(gòu)的轉(zhuǎn)換范式是構(gòu)建混合模型的高效策略。這種方法通過對預(yù)訓(xùn)練權(quán)重進行架構(gòu)轉(zhuǎn)換，規(guī)避了冷啟動訓(xùn)練的低效性，總訓(xùn)練量僅是從頭開始訓(xùn)練同水平模型的 25%。

? 強大的綜合性能：采用 HyPE（混合位置編碼）來有效協(xié)調(diào)短上下文和長上下文的性能。在保持通用能力（如知識、數(shù)學(xué)和編碼）與 Qwen3-8B 等現(xiàn)代全注意力模型相當(dāng)?shù)耐瑫r，MiniCPM-SALA 在多個長上下文基準(zhǔn)測試中表現(xiàn)出明顯優(yōu)勢。

? 優(yōu)越的推理效率：MiniCPM-SALA 在長上下文場景中展示了顯著的資源和速度優(yōu)勢。在 NVIDIA A6000D GPU 上，當(dāng)序列長度為 256K 詞元時，MiniCPM-SALA 的推理速度高達Qwen3-8B 的 3.5 倍。此外，MiniCPM-SALA 支持在 NVIDIA A6000D 和 5090 GPU 上進行高達 1 百萬詞元上下文長度的推理，而 Qwen3-8B 在此長度下會面臨顯存不足（OOM）的問題。這些結(jié)果展示了 MiniCPM-SALA 在端側(cè)長文本應(yīng)用中的強大潛力。

02模型架構(gòu)

（1）總體架構(gòu)設(shè)計

MiniCPM-SALA 建立在交替式混合注意力架構(gòu)之上。如圖1所示，有別于傳統(tǒng) Transformer 采用同構(gòu)全注意力層堆疊的模式，該架構(gòu)通過層級異構(gòu)設(shè)計打破了單一機制在百萬級長序列建模中的性能瓶頸。模型采用了 25% 的稀疏注意力與 75% 的線性注意力進行混合配比。為了顯著降低算力開銷，MiniCPM-SALA 利用 HALO 算法將預(yù)訓(xùn)練的全注意力 Transformer 轉(zhuǎn)換為混合架構(gòu)模型進行持續(xù)訓(xùn)練，而非從頭構(gòu)建。

Figure1：MiniCPM-SALA 模型架構(gòu)

（2）稀疏注意力模塊

MiniCPM-SALA 采用了 InfLLM-V2 作為 25% 稀疏注意力模塊。InfLLM-V2 是一種可切換的稀疏注意力框架，其核心特點在于通過精細(xì)的塊選擇機制，讓每個 Query 僅處理一小部分關(guān)鍵的 Key 和 Value，從而大幅提升長文本處理效率。得益于 InfLLM-V2 可切換的特性，我們在模型的長文本訓(xùn)練過程中打開稀疏模式，而在標(biāo)準(zhǔn)長度的訓(xùn)練中（例如 4096 詞元）關(guān)閉稀疏模式。我們在小規(guī)模實驗上驗證輸出門控機制對于提升模型的通用能力有幫助，因此我們也對稀疏注意力層加入了輸出門控機制。

（3）線性注意力模塊

在線性注意力組件選擇上，盡管當(dāng)前涌現(xiàn)出 RWKV-7、GDN 和 KDA 等多種先進的線性 Token Mixing 模塊，但由于 Lightning Attention 在計算范式上與全注意力機制更為接近，能夠與 HALO 轉(zhuǎn)換算法實現(xiàn)更優(yōu)的適配度，因此我們最終選定其作為線性層的核心算子。同時，我們使用了與 HypeNet 相同的架構(gòu)細(xì)節(jié)，包括 QK-normalization、GQA-to-MHA transformation 和輸出門控機制，這些設(shè)置可以有效提升模型訓(xùn)練的穩(wěn)定性，并且可以取得更好的模型性能。

（4）混合位置編碼

我們沿用了 HypeNet 提出的 HyPE (Hybrid Position Encoding）策略。該策略針對混合架構(gòu)中不同注意力機制的特性進行了差異化設(shè)計：在線性注意力層，我們保留了 RoPE (Rotary Positional Embedding)，旨在最大程度保持與轉(zhuǎn)換前全注意力模型在參數(shù)分布與特征空間上的一致性，從而降低轉(zhuǎn)換帶來的性能損失。

而在稀疏注意力層，我們則采用了 NoPE (No Position Encoding）策略。這一設(shè)計的核心優(yōu)勢在于，稀疏層的歷史 KV-Cache 不再耦合任何位置信息。這有效規(guī)避了 RoPE 在處理超長序列時固有的長距離衰減問題，使得模型在檢索極遠距離的歷史信息時，不再受制于位置編碼帶來的數(shù)值抑制，從而顯著增強了模型的長距離召回能力。

03模型訓(xùn)練

模型整體訓(xùn)練過程如下表所示：

? 架構(gòu)轉(zhuǎn)換 (HALO)：這一階段旨在將 Transformer 模型從全注意力轉(zhuǎn)換為混合架構(gòu)。此階段主要沿用了 HALO 轉(zhuǎn)換方法。具體地，MiniCPM-SALA 的訓(xùn)練配置在兩個方面不同于標(biāo)準(zhǔn)的 HALO 方法。首先，關(guān)于層選擇，MiniCPM-SALA 保留第一層和最后一層不進行轉(zhuǎn)換，以提高訓(xùn)練過程的穩(wěn)定性。對于其余層，使用 HALO 的層選擇算法來確定哪些層被保留為全注意力層。這些保留的全注意力層隨后在后續(xù)階段被訓(xùn)練為稀疏注意力。與標(biāo)準(zhǔn) HALO 的第二個區(qū)別是，我們不執(zhí)行 HALO 流程中的最終微調(diào)步驟。取而代之的是，我們進行更廣泛的持續(xù)預(yù)訓(xùn)練和后訓(xùn)練，如后續(xù)步驟所述。此階段的訓(xùn)練過程非常高效，僅使用了 1.3B 詞元，序列長度為 512 詞元。此外，在此階段僅轉(zhuǎn)換后的線性注意力層是可訓(xùn)練的，所有其他參數(shù)保持凍結(jié)。

? 持續(xù) Stable 訓(xùn)練：利用上一階段結(jié)束的模型作為本階段訓(xùn)練的起點，在 MiniCPM-4.0 的預(yù)訓(xùn)練數(shù)據(jù)集上進行進一步訓(xùn)練。此階段的主要目標(biāo)是促進轉(zhuǎn)換后的線性注意力層與模型的其他組件（包括全注意力層、FFN 層和嵌入層）更好地適配。此過程的序列長度設(shè)置為 4K 詞元，總訓(xùn)練量為 314.6B 詞元。由于序列長度仍然相對較短，為了保持計算效率，在此階段關(guān)閉了稀疏注意力層。本階段學(xué)習(xí)率設(shè)置為 7.5e-3。

? Short-Decay 訓(xùn)練：第三階段的學(xué)習(xí)率從 7.5e-3 以指數(shù)衰減的形式降低至 3.75e-4。此過程使用 4K 詞元的序列長度，共訓(xùn)練 1T 詞元，也是 MiniCPM-SALA 整個開發(fā)流程中訓(xùn)練量最大的環(huán)節(jié)。在數(shù)據(jù)方面，在 MiniCPM-4.0 Decay 訓(xùn)練數(shù)據(jù)的基礎(chǔ)上，顯著增加了 L2 高質(zhì)量篩選數(shù)據(jù)的權(quán)重（數(shù)據(jù)分級標(biāo)準(zhǔn)參考 Data Science and Technology Towards AGI Part I: Tiered Data Management），并引入了大量的 PDF 語料庫和 L3 合成數(shù)據(jù)。這種方法旨在通過高信息密度的數(shù)據(jù)組合來增強通用能力和邏輯推理能力，從而實現(xiàn)對海量知識的高效壓縮和內(nèi)化。

? Long-Decay 訓(xùn)練：本階段將上下文窗口從 4K 逐步擴展到 32K、160K，最后擴展到 520K 詞元，每個階段分別使用 102.2B、 62.9B 和 50.6B 詞元的數(shù)據(jù)量。學(xué)習(xí)率在 32K 時從 3e-4 衰減至 2e-4，然后在 160K 時衰減至 1e-4，最后在 520K 時衰減至 3.75e-5。在此階段，我們對長上下文數(shù)據(jù)的比例進行上采樣，以使模型更好地與長序列分布對齊。鑒于稀疏注意力在較長序列中計算優(yōu)勢較為明顯，我們在此階段啟用稀疏注意力機制并保持全參數(shù)訓(xùn)練，從而允許模型有效地學(xué)習(xí)稀疏注意力和線性注意力之間的協(xié)同作用。

? SFT：此階段的 SFT 語料庫由高質(zhì)量的推理密集型數(shù)據(jù)組成，包括代碼、數(shù)學(xué)、知識、函數(shù)調(diào)用和一般對話。這種選擇旨在充分激發(fā)復(fù)雜邏輯下的推理和任務(wù)執(zhí)行能力。此外，我們專門合成了長上下文數(shù)據(jù)，以提高信息檢索和跨文檔理解的能力。在 SFT 階段，我們依次在 64K 和 140K 的上下文長度下進行訓(xùn)練，分別使用了 204.5B 和 213.3B 詞元的數(shù)據(jù)量。稀疏注意力在整個過程中保持啟用狀態(tài)。

04 模型能力測試

短榜能力測試：

長榜能力測試：

超長序列能力測試：

上述結(jié)果表明，MiniCPM-SALA 在不損害短榜能力的前提下，有效提升了長文本能力。MiniCPM-SALA 還有一個顯著的亮點是，具備優(yōu)異的長度泛化能力。在不使用任何額外技術(shù)（如YaRN）的前提下，MiniCPM-SALA 可以有效外推至 2048K長度。

05 計算效率測試

我們評估了 MiniCPM-SALA 和 Qwen3-8B 在不同硬件和序列長度下的推理速度。我們不僅在云端推理芯片（如 NVIDIA A6000D）上進行了實驗，還在消費級端側(cè) GPU（如 NVIDIA 5090）上進行了測試。對于每種序列長度，我們測量了首字延遲（Time To First Token, TTFT）和端到端延遲。前者作為預(yù)填充速度的指標(biāo)，而后者反映了預(yù)填充和解碼階段的綜合性能。為了使評估與實際部署場景保持一致，我們評估了非量化模型以及經(jīng) GPTQ INT4 量化壓縮后的模型的推理延遲。

圖 2 展示了在 NVIDIA A6000D GPU（96GB 顯存）上 Qwen3-8B 與 MiniCPM-SALA 推理延遲的全面對比。我們評估了從 64K 到 1024K 詞元的不同序列長度下的效率。如圖所示，MiniCPM-SALA 在所有測試配置中均表現(xiàn)出顯著的效率優(yōu)勢。在非量化設(shè)置下，MiniCPM-SALA 始終保持更低的延遲。值得注意的是，在 256K 序列長度下，MiniCPM-SALA 將 TTFT 從 180.8 秒（Qwen3）降低至僅 51.6 秒，實現(xiàn)了約 3.5 倍的加速。

結(jié)果也顯示了 MiniCPM-SALA 在顯存利用率方面的優(yōu)勢。當(dāng) Qwen3-8B 在 512K 和 1024K 序列長度下遭遇顯存溢出（OOM）時，MiniCPM-SALA 成功處理了這些超長上下文。

圖 3 展示了 MiniCPM-SALA 在顯存有限的硬件上的優(yōu)勢。在 RTX 5090（32GB 顯存）上，基線模型 Qwen3-8B 比在 A6000D 上明顯更早觸及“內(nèi)存墻”，在非量化設(shè)置下僅 128K 詞元、量化設(shè)置下 256K 詞元時即觸發(fā) OOM 錯誤。相比之下，MiniCPM-SALA 成功擴展至 1024K詞元的上下文長度且未出現(xiàn)顯存溢出的問題。這表明 MiniCPM-SALA 使得在消費級端側(cè) GPU 上處理 1 百萬詞元成為可能。

06 結(jié)論

整體而言，我們通過融合稀疏注意力與線性注意力，構(gòu)建了一種面向長上下文高效建模的混合架構(gòu)，從而在模型能力與長上下文處理效率之間實現(xiàn)了出色的平衡。在過去一段時間里，稀疏注意力與線性注意力的相關(guān)研究已分別展現(xiàn)出解決大模型長上下文問題的顯著潛力；而在2026年，稀疏?線性混合架構(gòu)無疑將成為該領(lǐng)域最具實效的技術(shù)方向之一。

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.