將注意力旋轉(zhuǎn) 90 度！今天，Kimi 的「注意力殘差」火了

2026-03-16 18:35:00　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜冷貓

自從 2015 年 ResNet 誕生以來，這種「將輸入直接加到輸出上」的簡單邏輯，統(tǒng)治了幾乎所有神經(jīng)網(wǎng)絡(luò)架構(gòu)。

但就在剛剛，沿用了十年的殘差機(jī)制「升級」了。隨橙想呢，替代方法竟然是「注意力機(jī)制」

就連 OpenAI 「推理模型之父」，主導(dǎo)了 o1/o3 系列、Codex 編程模型及 GPT-4 的 STEM 能力開發(fā)的 Jerry Tworek 都深受這一論文啟發(fā)，認(rèn)為應(yīng)當(dāng)重新思考之前的一切，「深度學(xué)習(xí) 2.0」的時(shí)代即將到來

這篇顛覆傳統(tǒng)殘差連接機(jī)制的工作來自Kimi 團(tuán)隊(duì)，發(fā)布了一項(xiàng)重磅技術(shù)報(bào)告：Attention Residuals ，該方法旨在通過對前序?qū)舆M(jìn)行學(xué)習(xí)到的、依賴輸入的注意力機(jī)制，來取代標(biāo)準(zhǔn)的深度遞歸。

論文標(biāo)題：Attention Residuals
論文鏈接：https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
項(xiàng)目鏈接：https://github.com/MoonshotAI/Attention-Residuals

時(shí)間與深度的對偶

要理解Attention Residuals 是在做什么，我們得先看傳統(tǒng)的殘差連接 y = x + f (x) 出了什么問題。

在大模型向更深、更強(qiáng)演進(jìn)的過程中，這種殘差的加法機(jī)制帶來了兩個(gè)副作用：

1.信息稀釋：殘差連接采用固定單位權(quán)重的均勻聚合，導(dǎo)致淺層特征在向深層傳遞時(shí)，其相對貢獻(xiàn)度隨深度線性衰減。這種「信息稀釋」現(xiàn)象限制了深層網(wǎng)絡(luò)對底層原始表示的直接利用能力。隨著層數(shù)增加，第一層的信息傳到第一百層時(shí)，已經(jīng)被后面九十九層的信息層層沖淡。

2.隱藏狀態(tài)爆炸：為了在不斷累加的殘差流中維持信號強(qiáng)度，深層模塊往往需要輸出模長更大的激活值。這種隱狀態(tài)的無序擴(kuò)張不僅破壞了數(shù)值穩(wěn)定性，還導(dǎo)致梯度分布不均，增加了超大規(guī)模模型訓(xùn)練收斂的難度，直接導(dǎo)致了訓(xùn)練的不穩(wěn)定性。

本文的天才之處在于，發(fā)現(xiàn)模型的「深度」其實(shí)就是另一種形式的「時(shí)間」

論文作者之一的 Yulun Du 老師道出了該論文的核心思想：將注意力旋轉(zhuǎn) 90°

Attention Residuals (AttnRes)由此誕生：為每一層配備了一個(gè)「智能篩選器」。每一層都會發(fā)出一個(gè) Query，去之前的所有層里尋找最相關(guān)的特征，并按需分配權(quán)重進(jìn)行聚合。

注意力殘差

理論重構(gòu)：完整的注意力殘差

傳統(tǒng)的殘差連接（ResNet）本質(zhì)上是深度遞歸：它像 RNN 一樣，把過去所有層的信息死板地「壓縮」進(jìn)一個(gè)求和狀態(tài)中。

核心創(chuàng)新：既然 Transformer 用注意力機(jī)制取代了 RNN，解決了長序列的遺忘問題；那么 AttnRes 就在深度上取代了殘差累加。
數(shù)學(xué)實(shí)現(xiàn)：每一層不再是簡單地加上前一層，而是發(fā)出一個(gè)可學(xué)習(xí)的 Query，去和之前所有層產(chǎn)生的 Key 做匹配。
Softmax 權(quán)重：通過 Softmax 歸一化，模型可以「挑選」出對自己最有用的某幾層。比如第 50 層可以直接提取第 2 層的特征，權(quán)重占比可以高達(dá) 0.8，而不用擔(dān)心被中間的 48 層稀釋。

工程落地：Block AttnRes 的分塊策略

效率奇跡：實(shí)驗(yàn)發(fā)現(xiàn)，即便模型有上百層，只要?jiǎng)澐殖?N≈8 個(gè)塊，就能獲得絕大部分性能增益。
復(fù)雜度驟降：內(nèi)存開銷從隨層數(shù) L 增長，降到了隨塊數(shù)增長。這意味著你可以用極小的代價(jià)（推理延遲增加 < 2%），獲得一個(gè) 「更聰明」的深層網(wǎng)絡(luò)。

圖 1：Attention Residuals 概覽：(a) 標(biāo)準(zhǔn)殘差（Standard Residuals）：采用均勻加法累加的傳統(tǒng)殘差連接方式。(b) 全量注意力殘差（Full AttnRes）：每一層都通過學(xué)習(xí)到的注意力權(quán)重，有選擇地聚合之前所有層的輸出。(c) 塊注意力殘差（Block AttnRes）：將各層劃分為若干個(gè)「塊」，將內(nèi)存開銷從 O (Ld) 降低至 O (Nd)。

戰(zhàn)果：1.25 倍的「計(jì)算杠桿」

根據(jù)論文信息，實(shí)驗(yàn)架構(gòu)與 Kimi Linear 完全一致，這是一種遵循 Moonlight / DeepSeek-V3 設(shè)計(jì)的混合專家模型（MoE）Transformer。唯一的修改是在殘差連接中加入了 AttnRes；模型深度、隱藏維度、專家路由和 MLP 結(jié)構(gòu)等其他組件均保持不變。

研究團(tuán)隊(duì)測試了五種模型規(guī)模，并為每種規(guī)模訓(xùn)練了三個(gè)變體：PreNorm 基準(zhǔn)模型、全量 AttnRes 以及約 8 個(gè)塊的 Block AttnRes。

下圖展示了擬合后的規(guī)模化曲線。

三個(gè)變體的斜率相似，但 AttnRes 在整個(gè)計(jì)算范圍內(nèi)一致實(shí)現(xiàn)了更低的損耗（Loss）?；跀M合曲線，在 5.6 PFLOP/s-days 的計(jì)算量下，Block AttnRes 的損耗為 1.692，而基準(zhǔn)模型為 1.714，這相當(dāng)于1.25 倍的計(jì)算優(yōu)勢（Compute Advantage）。隨著模型規(guī)模增大，F(xiàn)ull 與 Block 變體之間的差距在縮小。

研究團(tuán)隊(duì)的最大模型基于 Kimi Linear 48B 配置：27 個(gè) Transformer 塊（共 54 層），在 256 個(gè)路由專家中激活 8 個(gè)，外加 1 個(gè)共享專家，總參數(shù) 48B，激活參數(shù) 3B。該模型采用 Block AttnRes，每塊 6 層，共產(chǎn)生 9 個(gè)塊外加 1 個(gè) Token 嵌入，形成 10 個(gè)深度方向的來源。

上圖展示了模型在 1T token 訓(xùn)練過程中的動(dòng)態(tài)變化：

驗(yàn)證損耗： AttnRes 在整個(gè)訓(xùn)練過程中始終保持較低的驗(yàn)證損耗，尤其在衰減（Decay）階段差距進(jìn)一步拉大。
輸出量級：基準(zhǔn)模型遭受PreNorm 稀釋問題：隨著隱狀態(tài)量級隨深度單調(diào)增長，深層網(wǎng)絡(luò)被迫從固定縮放的歸一化輸入中學(xué)習(xí)越來越大的輸出，以維持影響力。而 Block AttnRes 將這種增長限制在每個(gè)塊內(nèi)，通過塊邊界的選擇性聚合重置了累加過程，呈現(xiàn)出有界的周期性模式。
梯度量級：在所有殘差權(quán)重固定為 1 的基準(zhǔn)模型中，梯度流在深度上的分布極不均勻，導(dǎo)致早期層梯度過大。Block AttnRes 的可學(xué)習(xí) Softmax 權(quán)重引入了來源之間的競爭，從而實(shí)現(xiàn)了顯著更均勻的梯度分布

下游性能表現(xiàn)：如上表所示，Block AttnRes 在所有評測任務(wù)中均達(dá)到或超過了基準(zhǔn)模型。

提升顯著的任務(wù)：在多步推理任務(wù)中提升尤為突出，如GPQA-Diamond (+7.5)Minerva Math (+3.6)以及代碼生成HumanEval (+3.1)
知識類任務(wù)MMLU (+1.1)TriviaQA (+1.9)也展現(xiàn)了穩(wěn)健的提升。

數(shù)據(jù)給出了最有力的證明：

計(jì)算效率：達(dá)到同樣的性能，AttnRes 相比傳統(tǒng)殘差節(jié)省了約20% 的計(jì)算量（1.25x 優(yōu)勢）。
邏輯推理：在數(shù)學(xué)、代碼等硬核任務(wù)上提升顯著。例如，在極難的 GPQA-Diamond 測試中，性能提升了7.5 分
穩(wěn)定性：成功抑制了隱藏狀態(tài)的數(shù)值爆炸，讓深層網(wǎng)絡(luò)依然能保持「冷靜」和「高效」。

總結(jié)：Rethink & Imagine

用更高維的視角看基礎(chǔ)架構(gòu)的研究，時(shí)間和空間都是相通的。

這篇論文「將注意力旋轉(zhuǎn) 90°」的思想，似乎帶給 Karpathy 一些啟示和思考。

ResNet 的殘差流是信息在不同空間深度上的傳遞。SGD （隨機(jī)梯度下降）的權(quán)重流是信息在不同時(shí)間維度上的傳遞。

研究團(tuán)隊(duì)覺得 ResNet 的加法太樸素了，所以提議用 Attention 來篩選過去每一層的輸出。既然 SGD 也是 ResNet，「Attention is All You Need」，那我們?yōu)槭裁床荒茉趦?yōu)化器里也加上 Attention？

架構(gòu)的生命力，往往來自于對慣性的反思。

當(dāng)我們回過頭去審視那些基礎(chǔ)架構(gòu)，或許就能在過去的故紙堆中，發(fā)現(xiàn)更多通往未來的巧妙結(jié)合。

更多信息，請參閱原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.