網易首頁 > 網易號 > 正文申請入駐

深度｜Kimi Linear顛覆注意力架構：1M長文本解碼提速6.3倍，顯存占用驟減75%

2025-10-31 12:35:02　來源: ZFinance

北京舉報

分享至

在過去兩年，大語言模型的極限，已經不再是參數(shù)量的堆疊，而是推理速度與算力效率的極限。所有模型都在變聰明，但也都變得“太重”——尤其是在長上下文和強化學習場景下，標準的 Softmax 全注意力機制讓模型一次推理就要吃掉海量顯存和時間。

Moonshot 的團隊在這篇論文中，提出了一個讓人眼前一亮的架構：Kimi Linear。它的目標很直接——在不犧牲性能的前提下，讓注意力計算變成“線性”的。

結果是：在公平訓練下，Kimi Linear 不僅在 MMLU、RULER 等主流基準上超過了傳統(tǒng)全注意力模型，還實現(xiàn)了長達 6 倍的解碼加速。

為什么所有人都卡在“注意力”的墻上

Transformer 誕生以來，AI 的爆發(fā)式增長正是靠這堵墻撐起來的：它讓模型能“全局看見”，能把一句話、一段代碼、甚至整本書的上下文串聯(lián)成連續(xù)的理解。但問題也在這里——它太貴、太慢、太重。

所謂“全注意力”，就是每個 token 都要和其他所有 token 計算相似度。數(shù)學上這意味著 O(n^2)的復雜度：上下文長度翻十倍，算力需求翻一百倍。模型越聰明，推理成本越像雪球一樣滾大。短短幾千字的對話還好，一旦拉長到幾十萬、上百萬字節(jié)，顯卡的顯存就像泄洪的水庫，怎么加都不夠。

更棘手的是記憶開銷。每次生成新 token，模型都要把之前所有的 key 和 value 緩存在顯存里——這就是所謂的 KV cache。它像一列不斷加長的火車，拉得越遠越吃力。到最后，你的顯卡不是在計算，而是在搬數(shù)據(jù)。于是長上下文、長軌跡、強化學習這些更高層的任務，幾乎都被這堵墻擋住了。

理論上工程手段能挪動一點空間，比如 FlashAttention、張量并行、KV 量化，但這些都是“摳常數(shù)”的優(yōu)化。你再怎么摳，也改變不了平方級復雜度的宿命。這就像在高速公路上修更平的柏油，但車流量已經多到要換立交橋——結構不變，問題不會根本解決。

于是人們把希望寄托在線性注意力（Linear Attention）上。它把復雜度從平方降到線性，用更像 RNN 的記憶方式去近似全注意力。但新的問題又出現(xiàn)了：線性注意力“便宜是便宜”，可記憶力不行。它壓縮信息太狠，短序列還能用，長序列就開始遺忘。尤其是語言、代碼、數(shù)學推理這些任務里，模型要能精準地回憶上下文，而線性結構往往記不住關鍵點。

更微妙的一點是位置編碼的錯配。全注意力里，RoPE（旋轉位置編碼）早已成了標準配置，它幫模型理解“前后順序”?？梢坏└挠镁€性結構，RoPE 的作用就不再穩(wěn)定。很多混合模型出現(xiàn)“短期靈敏、長期失真”的問題——短文表現(xiàn)很好，一旦拉長，上下文就斷了。

Kimi 的論文指出了另一個關鍵事實：當 AI 模型進入“長軌跡推理時代”，這些結構性缺陷會被成倍放大。大模型不再只是在寫句子、翻譯，而是在做推理、規(guī)劃、甚至多步決策（RL、Agent 場景）。模型的思考路徑被無限拉長，每一步都要記住之前所有動作的狀態(tài)。這時，全注意力的平方爆炸、KV 緩存的線性堆積、位置機制的錯配、以及線性注意力表達力的不足，全都交織成一堵墻。

你可以理解為：AI 正在試圖跨越一個“時空瓶頸”。模型既想看得遠、記得久，又要算得快、用得?。坏谂f結構下，這四個目標是互相拉扯的。工程手段治標不治本，只有重新發(fā)明結構，才能同時滿足“長”“快”“穩(wěn)”“省”。

這正是 Kimi Linear 誕生的背景。它不是簡單把注意力改成線性，而是重新分工：誰來負責記憶，誰來負責全局，誰來負責位置感知。它用細粒度門控替代粗放遺忘，用高效 DPLR 結構壓縮算子，用 3:1 的混合布局維持全局一致性。結果是在不丟質量的前提下，推理速度提升六倍，KV 占用減掉四分之三。

Kimi Delta Attention：一次“記憶革命”

Kimi Linear 的核心模塊叫Kimi Delta Attention（KDA）。

它的靈感來自 Gated DeltaNet，但在此基礎上引入了一個關鍵變化：把原本粗粒度的“遺忘門”（forget gate）改成了逐通道可學習的細粒度門控（channel-wise gating）。

以往模型的記憶衰減是“一刀切”的，而 KDA 能讓不同維度的信息以不同速度“遺忘”或“保留”。結果是，模型能在有限狀態(tài)下實現(xiàn)更精準的上下文控制——既不會遺忘關鍵信息，也能更快舍棄無關噪聲。

更重要的是，KDA 在底層數(shù)學上采用了一種高效的Diagonal-Plus-Low-Rank（DPLR）近似結構，但進行了硬件優(yōu)化：它移除了冗余矩陣乘法與分塊運算，使內核效率比傳統(tǒng) DPLR 提升近一倍。

在算子層面，這意味著：Kimi Linear 的核心 attention kernel，能在相同硬件上跑出約 2× 的速度。

混合架構：3:1 的黃金比例

Kimi Linear 不是完全拋棄全注意力，而是采用了混合式結構（Hybrid Architecture）。論文中的設計是一個經驗黃金比：每 3 層 KDA 線性注意力，就插入 1 層全注意力層。

輕量的線性注意力層（Kimi Delta Attention，簡稱 KDA），它速度快、占顯存少，但全局理解力有限；

傳統(tǒng)的全注意力層（Multi-Head Latent Attention，簡稱 MLA），它能建立全局依賴、維持語義一致性，卻在長序列時耗費巨大。

它背后不是簡單的層數(shù)搭配，而是一種對“效率”與“理解力”的系統(tǒng)性權衡。Moonshot 團隊花了大量時間在這里做實驗，結果發(fā)現(xiàn)——只有在這個比例下，AI 才能既快又穩(wěn)、既記得住又理解得準。

過去很多研究者嘗試過“混合”這兩種層，結果要么太省導致模型變“短視”，要么太重又回到了原點。Kimi 團隊的做法是：在三層 KDA 后面插入一層全注意力層，形成固定的 3:1 周期。換句話說，每四層中，有三層是“高效工作層”，一層是“全局校準層”。

為什么要這么配比？論文在消融實驗中測了多個比例：1:1、3:1、7:1、純全注意力（0:1），最終發(fā)現(xiàn)：

7:1 雖然省了算力，但模型的“記憶力”明顯下滑。訓練時損失下降還不錯，但驗證集性能劣化嚴重，說明模型學到的模式泛化不了。

1:1 雖然穩(wěn)定，但速度損失太大。解碼時延、顯存占用都幾乎等于傳統(tǒng) Transformer，沒解決效率問題。

純全注意力（0:1）更不用說，性能和速度都掉隊。

唯獨 3:1 形成了一個“甜點區(qū)”：它的訓練損失低、驗證集表現(xiàn)穩(wěn)、推理速度提升最明顯。在論文的數(shù)據(jù)里，這個比例讓模型在 1M 上下文長度下達到6× 的解碼加速，同時將KV cache 占用削減 75%。

更關鍵的是，性能指標上，它還超過了全注意力模型——也就是說，這不再是“效率換精度”，而是真正的“雙贏”。

從工程角度講，這個比例還有另一個隱藏好處：系統(tǒng)更容易被優(yōu)化。

很多混合架構因為線性層和全注意力層混雜在同一層內部（intra-layer hybrid），導致計算路徑復雜，無法很好地分布式并行。Kimi 采用的是inter-layer hybrid——層與層之間分工明確，三層 KDA 用統(tǒng)一算子，一層 MLA 獨立執(zhí)行，全模型在流水線上運行更順暢。

這讓它能直接兼容現(xiàn)有的推理框架，比如 vLLM，不需要修改緩存機制或調度接口。

同時，Kimi 團隊還發(fā)現(xiàn)，3:1 結構與另一項創(chuàng)新——NoPE（無位置編碼）——配合得尤其好。

過去全注意力層用 RoPE（旋轉位置編碼）來維持位置感，但在混合架構中，這種強相對位置信號容易“過度主導”，導致短文本表現(xiàn)好、長文本失真。

而在 3:1 的節(jié)奏里，KDA 自身帶有輕量的記憶衰減和位置信號，全注意力層反而可以去掉 RoPE，使用更輕的 NoPE，讓模型的位置偏置在層間自然分布——短程靠線性層感知，長程靠全局層校正。這種分布式的“位置信息調度”，讓 Kimi Linear 在超長上下文任務（如 RULER、RepoQA）中展現(xiàn)了強勁的外推能力。

所以，當論文說這是“黃金比例”，并不是指某個巧合的數(shù)字，而是一個深度融合性能、速度、穩(wěn)定性和工程可落地性的系統(tǒng)平衡點。
它讓 Kimi Linear 同時具備三種優(yōu)勢：

線性層的高吞吐與低顯存，解決效率問題；
全注意力層的全局對齊與穩(wěn)健理解，保證語義質量；
統(tǒng)一節(jié)奏與模塊化設計，降低工程復雜度、增強擴展性。

性能對比：首次全面超越 Full Attention

在 1.4 萬億 token 的等規(guī)模訓練中，Kimi Linear 與傳統(tǒng)全注意力 MLA（Multi-Head Latent Attention）進行了正面對比。結果如下：

也就是說：Kimi Linear 是第一個在公平條件下全面超過 Full Attention 的線性架構。

Kimi Linear 最令人驚嘆的地方，是它的解碼速度。在 1M token 的上下文下，傳統(tǒng)全注意力模型的每個輸出 token 要花11.48 毫秒，而 Kimi Linear 只需1.84 毫秒。

這不僅是一個“快六倍”的優(yōu)化，更意味著復雜度從O(n2)降到了接近O(n)的增長律。

在超長推理任務中，比如 Agent 規(guī)劃、鏈式思維、多回合對話、代碼生成等場景，吞吐量的提升幾乎是線性的。更重要的是，這種提速不是“犧牲質量”換來的，而是結構上自然帶來的收益。

行業(yè)意義：結構效率成為新戰(zhàn)場

從更高的視角看，這篇論文的重要性，不僅在于一次算法提速，而是注意力結構設計的范式轉向。

過去 5 年，AI 模型的性能主要依賴算力疊加——堆參數(shù)、擴算力。而 Kimi Linear 的出現(xiàn)，意味著“結構效率”開始重新被定義。

Moonshot 的團隊讓我們看到：算力的邊際收益在遞減，結構的邊際收益正在回歸。

參考文獻：

[1] https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層，

致力于為年輕人提供高質量的科技和財經內容。

稿件經采用可獲邀進入Z Finance內部社群，優(yōu)秀者將成為簽約作者，00后更有機會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實習生

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.