国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

深度|Kimi Linear顛覆注意力架構:1M長文本解碼提速6.3倍,顯存占用驟減75%

0
分享至


在過去兩年,大語言模型的極限,已經不再是參數(shù)量的堆疊,而是推理速度與算力效率的極限。所有模型都在變聰明,但也都變得“太重”——尤其是在長上下文和強化學習場景下,標準的 Softmax 全注意力機制讓模型一次推理就要吃掉海量顯存和時間。

Moonshot 的團隊在這篇論文中,提出了一個讓人眼前一亮的架構:Kimi Linear。它的目標很直接——在不犧牲性能的前提下,讓注意力計算變成“線性”的。

結果是:在公平訓練下,Kimi Linear 不僅在 MMLU、RULER 等主流基準上超過了傳統(tǒng)全注意力模型,還實現(xiàn)了長達 6 倍的解碼加速。

為什么所有人都卡在“注意力”的墻上

Transformer 誕生以來,AI 的爆發(fā)式增長正是靠這堵墻撐起來的:它讓模型能“全局看見”,能把一句話、一段代碼、甚至整本書的上下文串聯(lián)成連續(xù)的理解。但問題也在這里——它太貴、太慢、太重。

所謂“全注意力”,就是每個 token 都要和其他所有 token 計算相似度。數(shù)學上這意味著 O(n^2)的復雜度:上下文長度翻十倍,算力需求翻一百倍。模型越聰明,推理成本越像雪球一樣滾大。短短幾千字的對話還好,一旦拉長到幾十萬、上百萬字節(jié),顯卡的顯存就像泄洪的水庫,怎么加都不夠。

更棘手的是記憶開銷。每次生成新 token,模型都要把之前所有的 key 和 value 緩存在顯存里——這就是所謂的 KV cache。它像一列不斷加長的火車,拉得越遠越吃力。到最后,你的顯卡不是在計算,而是在搬數(shù)據(jù)。于是長上下文、長軌跡、強化學習這些更高層的任務,幾乎都被這堵墻擋住了。

理論上工程手段能挪動一點空間,比如 FlashAttention、張量并行、KV 量化,但這些都是“摳常數(shù)”的優(yōu)化。你再怎么摳,也改變不了平方級復雜度的宿命。這就像在高速公路上修更平的柏油,但車流量已經多到要換立交橋——結構不變,問題不會根本解決。

于是人們把希望寄托在線性注意力(Linear Attention)上。它把復雜度從平方降到線性,用更像 RNN 的記憶方式去近似全注意力。但新的問題又出現(xiàn)了:線性注意力“便宜是便宜”,可記憶力不行。它壓縮信息太狠,短序列還能用,長序列就開始遺忘。尤其是語言、代碼、數(shù)學推理這些任務里,模型要能精準地回憶上下文,而線性結構往往記不住關鍵點。

更微妙的一點是位置編碼的錯配。全注意力里,RoPE(旋轉位置編碼)早已成了標準配置,它幫模型理解“前后順序”??梢坏└挠镁€性結構,RoPE 的作用就不再穩(wěn)定。很多混合模型出現(xiàn)“短期靈敏、長期失真”的問題——短文表現(xiàn)很好,一旦拉長,上下文就斷了。

Kimi 的論文指出了另一個關鍵事實:當 AI 模型進入“長軌跡推理時代”,這些結構性缺陷會被成倍放大。大模型不再只是在寫句子、翻譯,而是在做推理、規(guī)劃、甚至多步決策(RL、Agent 場景)。模型的思考路徑被無限拉長,每一步都要記住之前所有動作的狀態(tài)。這時,全注意力的平方爆炸、KV 緩存的線性堆積、位置機制的錯配、以及線性注意力表達力的不足,全都交織成一堵墻。

你可以理解為:AI 正在試圖跨越一個“時空瓶頸”。模型既想看得遠、記得久,又要算得快、用得?。坏谂f結構下,這四個目標是互相拉扯的。工程手段治標不治本,只有重新發(fā)明結構,才能同時滿足“長”“快”“穩(wěn)”“省”。

這正是 Kimi Linear 誕生的背景。它不是簡單把注意力改成線性,而是重新分工:誰來負責記憶,誰來負責全局,誰來負責位置感知。它用細粒度門控替代粗放遺忘,用高效 DPLR 結構壓縮算子,用 3:1 的混合布局維持全局一致性。結果是在不丟質量的前提下,推理速度提升六倍,KV 占用減掉四分之三。

Kimi Delta Attention:一次“記憶革命”

Kimi Linear 的核心模塊叫Kimi Delta Attention(KDA)。


它的靈感來自 Gated DeltaNet,但在此基礎上引入了一個關鍵變化:把原本粗粒度的“遺忘門”(forget gate)改成了逐通道可學習的細粒度門控(channel-wise gating)。

以往模型的記憶衰減是“一刀切”的,而 KDA 能讓不同維度的信息以不同速度“遺忘”或“保留”。結果是,模型能在有限狀態(tài)下實現(xiàn)更精準的上下文控制——既不會遺忘關鍵信息,也能更快舍棄無關噪聲。

更重要的是,KDA 在底層數(shù)學上采用了一種高效的Diagonal-Plus-Low-Rank(DPLR)近似結構,但進行了硬件優(yōu)化:它移除了冗余矩陣乘法與分塊運算,使內核效率比傳統(tǒng) DPLR 提升近一倍。

在算子層面,這意味著:Kimi Linear 的核心 attention kernel,能在相同硬件上跑出約 2× 的速度。

混合架構:3:1 的黃金比例

Kimi Linear 不是完全拋棄全注意力,而是采用了混合式結構(Hybrid Architecture)。論文中的設計是一個經驗黃金比:每 3 層 KDA 線性注意力,就插入 1 層全注意力層。

  • 輕量的線性注意力層(Kimi Delta Attention,簡稱 KDA),它速度快、占顯存少,但全局理解力有限;

  • 傳統(tǒng)的全注意力層(Multi-Head Latent Attention,簡稱 MLA),它能建立全局依賴、維持語義一致性,卻在長序列時耗費巨大。

它背后不是簡單的層數(shù)搭配,而是一種對“效率”與“理解力”的系統(tǒng)性權衡。Moonshot 團隊花了大量時間在這里做實驗,結果發(fā)現(xiàn)——只有在這個比例下,AI 才能既快又穩(wěn)、既記得住又理解得準

過去很多研究者嘗試過“混合”這兩種層,結果要么太省導致模型變“短視”,要么太重又回到了原點。Kimi 團隊的做法是:在三層 KDA 后面插入一層全注意力層,形成固定的 3:1 周期。換句話說,每四層中,有三層是“高效工作層”,一層是“全局校準層”。

為什么要這么配比?論文在消融實驗中測了多個比例:1:1、3:1、7:1、純全注意力(0:1),最終發(fā)現(xiàn):

  • 7:1 雖然省了算力,但模型的“記憶力”明顯下滑。訓練時損失下降還不錯,但驗證集性能劣化嚴重,說明模型學到的模式泛化不了。

  • 1:1 雖然穩(wěn)定,但速度損失太大。解碼時延、顯存占用都幾乎等于傳統(tǒng) Transformer,沒解決效率問題。

  • 純全注意力(0:1)更不用說,性能和速度都掉隊。

唯獨 3:1 形成了一個“甜點區(qū)”:它的訓練損失低、驗證集表現(xiàn)穩(wěn)、推理速度提升最明顯。在論文的數(shù)據(jù)里,這個比例讓模型在 1M 上下文長度下達到6× 的解碼加速,同時將KV cache 占用削減 75%。

更關鍵的是,性能指標上,它還超過了全注意力模型——也就是說,這不再是“效率換精度”,而是真正的“雙贏”。

從工程角度講,這個比例還有另一個隱藏好處:系統(tǒng)更容易被優(yōu)化。

很多混合架構因為線性層和全注意力層混雜在同一層內部(intra-layer hybrid),導致計算路徑復雜,無法很好地分布式并行。Kimi 采用的是inter-layer hybrid——層與層之間分工明確,三層 KDA 用統(tǒng)一算子,一層 MLA 獨立執(zhí)行,全模型在流水線上運行更順暢。

這讓它能直接兼容現(xiàn)有的推理框架,比如 vLLM,不需要修改緩存機制或調度接口。

同時,Kimi 團隊還發(fā)現(xiàn),3:1 結構與另一項創(chuàng)新——NoPE(無位置編碼)——配合得尤其好。

過去全注意力層用 RoPE(旋轉位置編碼)來維持位置感,但在混合架構中,這種強相對位置信號容易“過度主導”,導致短文本表現(xiàn)好、長文本失真。

而在 3:1 的節(jié)奏里,KDA 自身帶有輕量的記憶衰減和位置信號,全注意力層反而可以去掉 RoPE,使用更輕的 NoPE,讓模型的位置偏置在層間自然分布——短程靠線性層感知,長程靠全局層校正。這種分布式的“位置信息調度”,讓 Kimi Linear 在超長上下文任務(如 RULER、RepoQA)中展現(xiàn)了強勁的外推能力。

所以,當論文說這是“黃金比例”,并不是指某個巧合的數(shù)字,而是一個深度融合性能、速度、穩(wěn)定性和工程可落地性的系統(tǒng)平衡點。
它讓 Kimi Linear 同時具備三種優(yōu)勢:

  • 線性層的高吞吐與低顯存,解決效率問題;

  • 全注意力層的全局對齊與穩(wěn)健理解,保證語義質量;

  • 統(tǒng)一節(jié)奏與模塊化設計,降低工程復雜度、增強擴展性。

性能對比:首次全面超越 Full Attention

在 1.4 萬億 token 的等規(guī)模訓練中,Kimi Linear 與傳統(tǒng)全注意力 MLA(Multi-Head Latent Attention)進行了正面對比。結果如下:


也就是說:Kimi Linear 是第一個在公平條件下全面超過 Full Attention 的線性架構。

Kimi Linear 最令人驚嘆的地方,是它的解碼速度。在 1M token 的上下文下,傳統(tǒng)全注意力模型的每個輸出 token 要花11.48 毫秒,而 Kimi Linear 只需1.84 毫秒。

這不僅是一個“快六倍”的優(yōu)化,更意味著復雜度從O(n2)降到了接近O(n)的增長律。

在超長推理任務中,比如 Agent 規(guī)劃、鏈式思維、多回合對話、代碼生成等場景,吞吐量的提升幾乎是線性的。更重要的是,這種提速不是“犧牲質量”換來的,而是結構上自然帶來的收益。


行業(yè)意義:結構效率成為新戰(zhàn)場

從更高的視角看,這篇論文的重要性,不僅在于一次算法提速,而是注意力結構設計的范式轉向。

過去 5 年,AI 模型的性能主要依賴算力疊加——堆參數(shù)、擴算力。而 Kimi Linear 的出現(xiàn),意味著“結構效率”開始重新被定義。

Moonshot 的團隊讓我們看到:算力的邊際收益在遞減,結構的邊際收益正在回歸。


參考文獻:

[1] https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層,

致力于為年輕人提供高質量的科技和財經內容。

稿件經采用可獲邀進入Z Finance內部社群,優(yōu)秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實習生

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
第83波打擊!特朗普擔心的事發(fā)生,中俄在北京對表,雙方直奔主題

第83波打擊!特朗普擔心的事發(fā)生,中俄在北京對表,雙方直奔主題

知法而形
2026-03-28 11:31:16
釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

尋墨閣
2026-03-25 11:39:10
某航司波音787副駕駛QQ被卸,涉事航司被扒

某航司波音787副駕駛QQ被卸,涉事航司被扒

溫柔看世界
2026-03-27 12:04:10
國足踢喀麥隆首發(fā)預測!劉殿座和蒯紀聞踢主力,李揚將有望挑大梁

國足踢喀麥隆首發(fā)預測!劉殿座和蒯紀聞踢主力,李揚將有望挑大梁

張麗說足球
2026-03-28 10:40:06
李鑫養(yǎng)家豪宅亮相,三層別墅裝潢奢華,養(yǎng)家哥哥曬弟媳侄子正面照

李鑫養(yǎng)家豪宅亮相,三層別墅裝潢奢華,養(yǎng)家哥哥曬弟媳侄子正面照

花小貓的美食日常
2026-03-28 07:58:40
張雪峰離世后,老對手杜子建含淚解釋:節(jié)目上的對抗是為了收視率

張雪峰離世后,老對手杜子建含淚解釋:節(jié)目上的對抗是為了收視率

云景侃記
2026-03-26 15:13:16
前女籃主帥鄭薇帶隊復出!首秀輸球爆大冷門,首發(fā)國手6中1僅3分

前女籃主帥鄭薇帶隊復出!首秀輸球爆大冷門,首發(fā)國手6中1僅3分

老吳說體育
2026-03-28 00:44:28
豪門悲喜夜:英格蘭1-1,荷蘭2-1,德國4-3,西班牙3-0

豪門悲喜夜:英格蘭1-1,荷蘭2-1,德國4-3,西班牙3-0

側身凌空斬
2026-03-28 05:58:26
中國的“性蕭條”時代,正式到來了

中國的“性蕭條”時代,正式到來了

律法刑道
2025-12-15 08:28:58
新華社消息|伊朗決定促進人道主義貨船安全通行霍爾木茲海峽

新華社消息|伊朗決定促進人道主義貨船安全通行霍爾木茲海峽

新華社
2026-03-28 10:47:01
傾向加入美以行動?海灣多國聯(lián)合聲明譴責伊朗,沙特、阿聯(lián)酋已有所動作

傾向加入美以行動?海灣多國聯(lián)合聲明譴責伊朗,沙特、阿聯(lián)酋已有所動作

澎湃新聞
2026-03-27 14:26:27
南寧的悖論:完美的宜居城市,為何成不了旅游爆點?

南寧的悖論:完美的宜居城市,為何成不了旅游爆點?

茶狐看世界本尊
2026-03-27 19:20:03
寧波為什么沒有成為熱門旅游地?網友:寧波最好的就是三步一廁所

寧波為什么沒有成為熱門旅游地?網友:寧波最好的就是三步一廁所

君笙的拂兮
2026-03-27 12:25:59
美貌這種資源,正在經歷史無前例的通貨膨脹。

美貌這種資源,正在經歷史無前例的通貨膨脹。

流蘇晚晴
2026-03-19 18:17:59
暴跌95%,裁員5萬人,全球第二大車企爆大雷

暴跌95%,裁員5萬人,全球第二大車企爆大雷

番外行
2026-03-28 12:42:46
CCTV16直播U23中朝大戰(zhàn)!安東尼奧爭冠,期待毛偉杰+依木蘭張英凱

CCTV16直播U23中朝大戰(zhàn)!安東尼奧爭冠,期待毛偉杰+依木蘭張英凱

刀鋒體育
2026-03-28 11:53:06
破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

川渝視覺
2026-03-23 19:26:44
閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數(shù)字

閨蜜大婚我隨了5000,她回禮雨傘,看見傘柄刻著地址和6個數(shù)字

磊子講史
2026-01-23 16:54:49
中央電視臺對張雪峰的評價

中央電視臺對張雪峰的評價

冷桂零落
2026-03-26 07:01:16
沙特實戰(zhàn)封神!中國“天盾”21發(fā)全中,15億美制系統(tǒng)竟慘遭反殺

沙特實戰(zhàn)封神!中國“天盾”21發(fā)全中,15億美制系統(tǒng)竟慘遭反殺

素衣讀史
2026-03-25 21:26:46
2026-03-28 13:47:00
ZFinance
ZFinance
Z世代的一站式AI、科技和財經資訊
155文章數(shù) 13關注度
往期回顧 全部

科技要聞

遭中國學界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

牛彈琴:伊朗狠角色強硬嘲諷美國 卻被美移出獵殺名單

頭條要聞

牛彈琴:伊朗狠角色強硬嘲諷美國 卻被美移出獵殺名單

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

王一博改名上熱搜!個人時代正式開啟!

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

健康
游戲
家居
教育
房產

干細胞抗衰4大誤區(qū),90%的人都中招

《DNF卡贊》發(fā)售一周年!創(chuàng)意總監(jiān)致謝:故事遠未結束

家居要聞

曲線華爾茲 現(xiàn)代簡約

教育要聞

步入高中應該如何學習英語,單詞和語法哪個比重大,刷題有用嗎?

房產要聞

6.8萬方!天河員村再征地,金融城西區(qū)開發(fā)全面提速

無障礙瀏覽 進入關懷版