網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

面壁智能SALA架構，正在拆掉Transformer的那堵墻

2026-02-13 15:33:07　來源: AI異類

北京舉報

分享至

這兩年，大模型圈子里真正卡住行業(yè)的點，已經從參數(shù)規(guī)模，轉向了推理效率。

模型越做越大，算力和顯存的壓力就越像一堵墻，橫在落地面前。

尤其當應用從簡單對話進入長文檔理解、代碼倉級分析、長周期智能體任務之后，傳統(tǒng)架構的瓶頸，越來越暴露了出來。

很多團隊都在優(yōu)化訓練技巧、壓縮權重、做蒸餾，卻很少有人直接動底層注意力結構，因為那意味著要重新審視整個Transformer范式。

面壁智能，這次公開的 Linear-Sparse 混合注意力架構 SALA 和對應模型 MiniCPM-SALA，在核心結構層的技術路線上，給了不一樣的答案。

新模型能力提升現(xiàn)在不新鮮了，但如果是一次架構路線層面的重新定調呢？

馬上過年了，比起很多公司紅包的熱鬧和營銷的手段，我覺得，面壁智能這樣扎扎實實的技術推進，更值得被看見。

01. 長上下文需求爆發(fā)，正在倒逼注意力機制進化

大模型最早的商業(yè)場景集中在問答、寫作、摘要，這類任務上下文長度通常在幾千到幾萬 token 區(qū)間，傳統(tǒng)全注意力機制還能承受。

隨著應用形態(tài)變化，模型開始承擔代碼倉分析、合同審查、科研資料歸納、長鏈路 agent 任務規(guī)劃等工作……

輸入規(guī)模直接跳到幾十萬甚至百萬 token 級別，這類需求在企業(yè)端和端側同時增長。

企業(yè)側希望模型一次性讀取整個知識庫或代碼庫并保持一致理解，端側設備則存儲著大量用戶私有數(shù)據(jù)。

比如說，聊天記錄、歷史行為、位置軌跡，這些信息只有本地處理才符合隱私要求，所以端側長上下文能力逐漸變成剛需指標。

傳統(tǒng) Transformer 的問題在這種場景下會被無限放大。

全注意力機制計算復雜度，隨序列長度平方增長，序列翻十倍，算力需求接近百倍級上升，同時 KV Cache 也同步膨脹。

推理階段顯存占用持續(xù)上漲，哪怕模型參數(shù)規(guī)模不變，只要上下文變長就會直接炸顯存，這就是很多工程團隊口中的 KV Cache 困局。

放之前，這幾個困局，就像一個「不可能三角」。

行業(yè)已經嘗試過多條路徑解決這個問題，例如線性注意力、狀態(tài)空間模型、稀疏注意力結構，各自都在某些維度表現(xiàn)出色，卻始終存在明顯短板。

線性注意力與 SSM 類方法將復雜度壓到線性級別，速度和資源消耗表現(xiàn)很理想，不過這種結構需要把歷史信息壓縮進固定容量狀態(tài)中，序列越長，早期信息權重就越低，在復雜推理或長鏈條邏輯場景中容易出現(xiàn)記憶衰減現(xiàn)象。

稀疏注意力走的是另一條路線。

通過只計算關鍵位置注意力來降低算力需求，推理速度提升明顯，不過歷史 KV 必須完整保存，否則無法回溯長距離依賴。

這導致顯存仍隨序列線性增長，存儲壓力沒有根本解決。

行業(yè)一直在尋找一種結構，既保留線性結構的效率，又具備稀疏結構的精準感知能力。

MiniCPM-SALA采用的Transformer-to-Hybrid低成本構建方法（HALO）

02. SALA的混合注意力架構

SALA 的核心設計思路很直接，將兩類注意力優(yōu)勢拼接進同一架構體系，讓不同模塊負責不同任務。

整體結構中大約 75% 使用 Lightning Attention 線性模塊，負責局部關鍵語義捕捉；

剩余 25% 使用 InfLLM v2 稀疏注意力模塊，負責全局信息建模。

這種比例經過多輪實驗調優(yōu)后確定，目標是找到效率與精度之間的穩(wěn)定平衡點。

線性部分保證推理復雜度穩(wěn)定增長，稀疏部分負責高價值信息精細建模，兩者共同構成完整上下文理解路徑。

這種設計真正解決的問題在于長序列任務的結構性矛盾。

純線性模型在序列極長時容易丟失細節(jié)，純稀疏模型在序列增長時顯存壓力持續(xù)擴大，SALA 把計算密度和信息密度拆分處理，讓計算資源集中在重要區(qū)域，同時保證全局狀態(tài)可追蹤。

換句話說，模型在處理百萬 token 輸入時不會同時對所有 token 做同等強度計算，而是自動分配算力權重，這使得資源利用效率明顯提高。

另一個關鍵創(chuàng)新來自訓練方法 HALO。

傳統(tǒng)混合架構如果從零訓練，成本會高得驚人，因為新結構需要重新學習全部語言知識與推理能力。

HALO 的策略是在已有全注意力模型基礎上進行結構轉換，再進行持續(xù)訓練，這種方式繼承原模型能力，同時讓新架構逐漸適應新的注意力模式。

工程層面看，這種路線可以把算力投入降低到可接受范圍，使混合注意力模型具備規(guī)模化訓練可行性，對整個行業(yè)具有現(xiàn)實參考價值。

如果把當前主流架構放在同一坐標系中觀察，可以看到一條明顯演化路徑：

全注意力模型提供穩(wěn)定智能水平，線性模型提供極致效率，稀疏模型提供長序列能力，SALA 則嘗試把三條路線合并成統(tǒng)一解。

像 Kimi KDA、DeepSeek NSA、InfLLM v2 都在不同方向推進長上下文能力，SALA 的出現(xiàn)讓行業(yè)第一次看到統(tǒng)一結構實現(xiàn)多優(yōu)勢疊加的可能性。

相關論文參考：

稀疏-線性混合注意力：https://arxiv.org/pdf/2601.22156
InfLLM v2：https://arxiv.org/pdf/2509.24663

03. MiniCPM-SALA 實測表現(xiàn)，驗證架構可行性

任何架構創(chuàng)新最終都要回到模型表現(xiàn)。

MiniCPM-SALA 作為首個基于該結構完成大規(guī)模訓練的文本模型，在多個維度給出了比較清晰的數(shù)據(jù)結果。

模型參數(shù)規(guī)模為 9B，體量處于輕量級區(qū)間，卻能夠支持百萬 token 上下文推理。

關鍵在于 KV Cache 控制在 6GB 以下，這意味著普通消費級 GPU 也能完成推理任務。對于開發(fā)者來說，這直接降低部署門檻，使長上下文模型從數(shù)據(jù)中心專屬能力進入個人硬件可運行階段。

在長文本評測中，該模型展現(xiàn)出穩(wěn)定優(yōu)勢，尤其在跨章節(jié)信息整合、長鏈推理、代碼結構理解等任務中表現(xiàn)突出。

更值得關注的是，它在知識問答、數(shù)學推理、代碼生成等常規(guī)能力測試中仍保持與同規(guī)模全注意力模型相近水平，沒有出現(xiàn)性能折損現(xiàn)象，這說明混合結構并沒有犧牲通用智能能力。

模型同時引入 HyPE 混合位置編碼機制，使短文本和長文本處理能力保持一致，不會出現(xiàn)短輸入性能下降的問題。

推理速度方面的數(shù)據(jù)，對工程落地很有價值。

在云端推理芯片測試中，當上下文長度達到 256K token 時，MiniCPM-SALA 推理速度達到同規(guī)模全注意力模型約 3.5 倍，而且測試沒有使用投機采樣或額外加速技巧，結果完全來自架構本身。

對于企業(yè)部署來說，這類性能提升意味著成本直接下降，因為單位時間可處理請求數(shù)明顯增加。

端側的表現(xiàn)，同樣不錯。

當前很多模型在 8B 規(guī)模下運行 256K 上下文就會觸及顯存極限，而 MiniCPM-SALA 在消費級 GPU 上完成百萬上下文推理，這為手機、車載系統(tǒng)、機器人等終端設備運行通用模型打開空間。

端側模型一旦具備長上下文能力，個人助理類產品就能持續(xù)讀取用戶歷史數(shù)據(jù)并維持長期記憶，體驗會發(fā)生質變，這也是行業(yè)普遍認為下一階段智能終端競爭的關鍵指標。

04. 架構路線之爭，正在成為大模型競爭核心變量

大模型行業(yè)早期競爭集中在參數(shù)規(guī)模和訓練數(shù)據(jù)量，隨后轉向推理成本和部署效率，現(xiàn)在焦點逐漸落在底層結構設計上。

誰能在架構層找到更優(yōu)解，誰就能在同等算力條件下跑出更高性能。

SALA 的出現(xiàn)，也讓我看到一種新的可能性：未來模型競爭不只看誰的模型更大，還要看誰的結構更合理。

我在想，這種變化對行業(yè)格局，也許會產生多米諾骨牌一樣的連鎖反應。

有硬件適配邏輯的改變：

當模型顯存需求下降，部署環(huán)境選擇范圍會擴大，GPU 不再是唯一選擇，邊緣計算設備也能承擔更多任務。

進一步，也會帶來應用生態(tài)會被重新洗牌：

長上下文能力成熟后，大量原本依賴數(shù)據(jù)庫或檢索系統(tǒng)的應用可能直接由模型完成，因為模型可以一次讀取全部資料并生成結果。

以及說，訓練策略會發(fā)生變化，HALO 這類遷移訓練方法降低新架構實驗成本，使更多團隊具備嘗試底層創(chuàng)新的能力。

從技術趨勢觀察，注意力機制很可能進入混合化階段。

單一路線難以同時滿足效率、精度、可擴展性三項指標，多結構協(xié)同會成為主流設計方向。

未來模型可能根據(jù)任務動態(tài)切換注意力模式，復雜推理使用高精度模塊，大規(guī)模掃描使用高效率模塊，這類自適應結構將成為研究重點。

最后有個好消息：看到面壁、OpenBMB、SGLang 與 NVIDIA，聯(lián)合發(fā)起了一個比賽。

比賽名字就叫《SOAR 2026 稀疏算子加速大獎賽》，已經正式開放報名了。

賽事圍繞混合注意力架構推理性能優(yōu)化展開，重點方向包括算子融合、編譯優(yōu)化與硬件協(xié)同調度，目標是在消費級 GPU 上進一步壓縮資源占用并提升百萬 token 推理速度。

而且還是面向全球開發(fā)者開放，官網(wǎng)報名入口：

https://soar.openbmb.cn/

對于關注推理效率、系統(tǒng)優(yōu)化和模型架構的工程團隊來說，這是一次直接參與下一代推理基線定義過程的機會。

特別懸賞獎的獎金，甚至高達28萬！

感興趣的朋友，真的可以試一試～

參考閱讀：

GitHub 鏈接：

https://github.com/openbmb/minicpm

HuggingFace 鏈接：

https://huggingface.co/openbmb/MiniCPM-SALA

Model Scope 鏈接：

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

GitCode 鏈接：

https://ai.gitcode.com/OpenBMB/MiniCPM-SALA

MiniCPM-SALA 技術報告：

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

網(wǎng)易云音樂，卡在算法和活人之間

鈦媒體APP 2026-02-24 15:56:08
77 跟貼 77
有了GEO還有必要做SEO嗎？

鈦媒體APP 2025-10-29 17:49:07
0 跟貼 0

快速躥紅的Hermes Agent，會成為下一個OpenClaw嗎？

鈦媒體APP 2026-04-09 15:54:53
1 跟貼 1

生成式推理再排序，可能會是LLM4RecSys的新突破口嗎？

機器之心Pro 2026-04-08 11:52:53
0 跟貼 0
輕量高效，即插即用：Video-RAG為長視頻理解帶來新范式

機器之心Pro 2025-10-20 18:23:17
0 跟貼 0

長發(fā)男生展示自己造型的多樣性，這就是建模的重要性嗎

重慶焦點 2026-04-08 18:16:38
0 跟貼 0

Meta億元天團首個大模型交卷！耗時九個月，一雪Llama前恥

量子位 2026-04-09 09:48:05
8 跟貼 8
清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

機器之心Pro 2025-11-13 14:56:23
1 跟貼 1

霍爾木茲海峽已再次關閉

央視新聞客戶端 2026-04-09 05:32:07
33090 跟貼 33090
CVPR 2026｜1分鐘單圖變4D視頻！AI看圖直接腦補物理規(guī)律

機器之心Pro 2026-04-08 12:04:29
0 跟貼 0
姑娘大街上直播跳舞，硬件條件太差了，想復制阿梓的路不可能

矜寡愛時尚 2026-04-06 09:17:05
0 跟貼 0
30B參數(shù)超越GPT-5！REDSearcher讓深度搜索Agent做到低成本可擴展

機器之心Pro 2026-03-09 13:28:51
0 跟貼 0
唯快不破，Anthropic幾天搞定智能體生產

鈦媒體APP 2026-04-09 18:13:31
0 跟貼 0
黎巴嫩宣布全國哀悼

南方都市報 2026-04-09 09:24:03
23727 跟貼 23727
開發(fā)時間從數(shù)月縮短到幾天，Anthropic開始批發(fā)智能體了

智東西 2026-04-09 15:54:18
1 跟貼 1
一汽大眾 ID.AURA 序列首款車型 T6 官宣，定位中型純電 SUV

DoNews 2026-04-09 06:22:08
2 跟貼 2
城市更新顛覆購房邏輯，財富縮水風險

紀超講樓市 2026-04-08 06:16:42
0 跟貼 0
大模型公司面壁智能完成數(shù)億元融資投后估值邁入獨角獸門檻

財聯(lián)社 2026-04-09 10:08:10
0 跟貼 0
星巴克中國“易主”，“新東家”亮相：將開更多新店！星巴克全球CFO：中國將繼續(xù)是我們全球業(yè)務中非常重要的一部分

每日經濟新聞 2026-04-09 14:19:51
6864 跟貼 6864
林俊旸點贊，干翻字節(jié)Seedance 2.0的“歡樂馬”模型，阿里造？

智東西 2026-04-09 23:55:18
0 跟貼 0
組裝川崎忍者模型套件

制造科技 2026-04-09 19:07:20
0 跟貼 0
連續(xù)執(zhí)政16年 62歲的歐洲"強人"歐爾班面臨最艱難一役

上觀新聞 2026-04-09 20:40:40
327 跟貼 327
微軟把發(fā)售日藏進數(shù)學公式，玩家解了3小時才看懂

字節(jié)漫游指南 2026-04-09 16:28:56
0 跟貼 0
高手之間的對決，差距往往藏在細節(jié)，關鍵竟差在了硬件上

菠菜不算愛 2026-04-08 14:22:49
1 跟貼 1
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2610 跟貼 2610
賣餅30年，杭州菜市場55歲“蛋餅姐”突然爆火！網(wǎng)友：賈樟柯一輩子都想拍出的鏡頭

環(huán)球網(wǎng)資訊 2026-04-09 17:53:15
1932 跟貼 1932
18.99萬起，捷途旅行者PLUS雙車開啟預售

電動邦 2026-04-09 22:59:27
0 跟貼 0
古老星系的發(fā)現(xiàn)，讓科學家重新思考大爆炸模型

六六冷知識 2026-04-09 10:11:58
1 跟貼 1
廣州外賣騎手年均薪酬15萬主播20萬

南方都市報 2026-04-09 07:07:13
682 跟貼 682
禁止電動三、四輪車在市區(qū)通行！河南一地發(fā)布通告

大象新聞 2026-04-09 19:05:02
95 跟貼 95
蔚來ES9開啟預售，BaaS方案42萬起

電動邦 2026-04-09 23:16:18
2 跟貼 2
谷歌創(chuàng)始人布林：當年發(fā)完Transformer論文，我們太不當回事了

機器之心Pro 2025-12-15 10:18:00
0 跟貼 0
孫儷回應新劇《危險關系》收視率不好：有心理準備，作為演員希望能不斷挑戰(zhàn)不同的角色人生

極目新聞 2026-04-09 15:02:19
264 跟貼 264
違規(guī)購買使用劣質螺栓，承載能力大降

南方都市報 2026-04-09 07:07:14
343 跟貼 343
不堆參數(shù)只做實用！Q6L e-tron 太適合家用了

阿貴看車V 2026-04-08 16:10:08
4 跟貼 4
月薪2萬的工程師，Anthropic說6毛錢就能替代

碳基打工人 2026-04-09 17:55:32
0 跟貼 0
吉利銀河M7全球預售開啟三大技術尖點重塑主流電混SUV價值新坐標

龍車 2026-04-09 23:02:34
0 跟貼 0
讓機器人學會手往哪兒伸、怎么操作，東大團隊給了新解法

機器之心Pro 2026-04-09 12:14:48
0 跟貼 0
16歲四肢癱瘓少女誤買2000多元鄧紫棋演唱會門票，平臺不予退票，父親急哭：女兒根本無法去看，這些錢是全家一個月的生活費

大風新聞 2026-04-09 17:07:15
69 跟貼 69
“你那個2米26的同學來了”，姚明參加上海交大130周年校慶，校方定制了專屬加大版椅子

極目新聞 2026-04-09 13:59:47
128 跟貼 128

51集諜戰(zhàn)大劇來襲，連續(xù)4天全國第一，這部諜戰(zhàn)作品值得一看

AI異類

從硅谷到中關村，AI信息與測評

148文章數(shù) 6關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

手機

旅游

房產

游戲

手機 / 數(shù)碼

房產 / 家居

面壁智能SALA架構，正在拆掉Transformer的那堵墻

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了？

以色列總理：同意與黎巴嫩直接談判

以色列總理：同意與黎巴嫩直接談判

8萬人面前心臟驟停 現(xiàn)在他還站在球場上

金莎官宣結婚 與老公孫丞瀟相差18歲

停火又懸了，最糟糕的情況要來了？

文飛掌舵，給神行者帶來了什么？

態(tài)度原創(chuàng)

五個月的寶寶必須學溫伯格的宇宙學才不哭

榮耀600系列再次曝光：AI兩億主攝+AI按鍵，電池超大！

溫州園博會來了！下高鐵10分鐘入園，100天免費逛

利潤暴跌44%！那個春節(jié)被罵慘了的海峽股份 正在經歷什么？

Xbox手柄重大失誤！微軟補償方案出爐堪稱豪華

面壁智能SALA架構，正在拆掉Transformer的那堵墻

Meta凌晨首發(fā)閉源大模型扎克伯格又行了？

8萬人面前心臟驟停現(xiàn)在他還站在球場上

金莎官宣結婚與老公孫丞瀟相差18歲

停火又懸了，最糟糕的情況要來了？

文飛掌舵，給神行者帶來了什么？

榮耀600系列再次曝光：AI兩億主攝+AI按鍵，電池超大！

溫州園博會來了！下高鐵10分鐘入園，100天免費逛

利潤暴跌44%！那個春節(jié)被罵慘了的海峽股份正在經歷什么？

Xbox手柄重大失誤！微軟補償方案出爐堪稱豪華