国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

將注意力旋轉(zhuǎn) 90 度!今天,Kimi 的「注意力殘差」火了

0
分享至



編輯|冷貓

自從 2015 年 ResNet 誕生以來,這種「將輸入直接加到輸出上」的簡單邏輯,統(tǒng)治了幾乎所有神經(jīng)網(wǎng)絡(luò)架構(gòu)。

但就在剛剛,沿用了十年的殘差機(jī)制「升級」了。隨橙想呢,替代方法竟然是「注意力機(jī)制」



就連 OpenAI 「推理模型之父」,主導(dǎo)了 o1/o3 系列、Codex 編程模型及 GPT-4 的 STEM 能力開發(fā)的 Jerry Tworek 都深受這一論文啟發(fā),認(rèn)為應(yīng)當(dāng)重新思考之前的一切,「深度學(xué)習(xí) 2.0」的時(shí)代即將到來



這篇顛覆傳統(tǒng)殘差連接機(jī)制的工作來自Kimi 團(tuán)隊(duì),發(fā)布了一項(xiàng)重磅技術(shù)報(bào)告:Attention Residuals ,該方法旨在通過對前序?qū)舆M(jìn)行學(xué)習(xí)到的、依賴輸入的注意力機(jī)制,來取代標(biāo)準(zhǔn)的深度遞歸。



  • 論文標(biāo)題:Attention Residuals
  • 論文鏈接:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
  • 項(xiàng)目鏈接:https://github.com/MoonshotAI/Attention-Residuals

時(shí)間與深度的對偶

要理解Attention Residuals 是在做什么,我們得先看傳統(tǒng)的殘差連接 y = x + f (x) 出了什么問題。

在大模型向更深、更強(qiáng)演進(jìn)的過程中,這種殘差的加法機(jī)制帶來了兩個(gè)副作用:

1.信息稀釋: 殘差連接采用固定單位權(quán)重的均勻聚合,導(dǎo)致淺層特征在向深層傳遞時(shí),其相對貢獻(xiàn)度隨深度線性衰減。這種「信息稀釋」現(xiàn)象限制了深層網(wǎng)絡(luò)對底層原始表示的直接利用能力。隨著層數(shù)增加,第一層的信息傳到第一百層時(shí),已經(jīng)被后面九十九層的信息層層沖淡。

2.隱藏狀態(tài)爆炸:為了在不斷累加的殘差流中維持信號強(qiáng)度,深層模塊往往需要輸出模長更大的激活值。這種隱狀態(tài)的無序擴(kuò)張不僅破壞了數(shù)值穩(wěn)定性,還導(dǎo)致梯度分布不均,增加了超大規(guī)模模型訓(xùn)練收斂的難度,直接導(dǎo)致了訓(xùn)練的不穩(wěn)定性。

本文的天才之處在于,發(fā)現(xiàn)模型的「深度」其實(shí)就是另一種形式的「時(shí)間」



論文作者之一的 Yulun Du 老師道出了該論文的核心思想:將注意力旋轉(zhuǎn) 90°

Attention Residuals (AttnRes)由此誕生:為每一層配備了一個(gè)「智能篩選器」。每一層都會發(fā)出一個(gè) Query,去之前的所有層里尋找最相關(guān)的特征,并按需分配權(quán)重進(jìn)行聚合。



注意力殘差

理論重構(gòu):完整的注意力殘差

傳統(tǒng)的殘差連接(ResNet)本質(zhì)上是深度遞歸:它像 RNN 一樣,把過去所有層的信息死板地 「壓縮」進(jìn)一個(gè)求和狀態(tài)中。



  • 核心創(chuàng)新: 既然 Transformer 用注意力機(jī)制取代了 RNN,解決了長序列的遺忘問題;那么 AttnRes 就在深度上取代了殘差累加。
  • 數(shù)學(xué)實(shí)現(xiàn): 每一層不再是簡單地加上前一層,而是發(fā)出一個(gè)可學(xué)習(xí)的 Query,去和之前所有層產(chǎn)生的 Key 做匹配。
  • Softmax 權(quán)重: 通過 Softmax 歸一化,模型可以 「挑選」 出對自己最有用的某幾層。比如第 50 層可以直接提取第 2 層的特征,權(quán)重占比可以高達(dá) 0.8,而不用擔(dān)心被中間的 48 層稀釋。

工程落地:Block AttnRes 的分塊策略



  • 效率奇跡: 實(shí)驗(yàn)發(fā)現(xiàn),即便模型有上百層,只要?jiǎng)澐殖?N≈8 個(gè)塊,就能獲得絕大部分性能增益。
  • 復(fù)雜度驟降: 內(nèi)存開銷從隨層數(shù) L 增長,降到了隨塊數(shù)增長。這意味著你可以用極小的代價(jià)(推理延遲增加 < 2%),獲得一個(gè) 「更聰明」 的深層網(wǎng)絡(luò)。



圖 1:Attention Residuals 概覽:(a) 標(biāo)準(zhǔn)殘差(Standard Residuals): 采用均勻加法累加的傳統(tǒng)殘差連接方式。(b) 全量注意力殘差(Full AttnRes): 每一層都通過學(xué)習(xí)到的注意力權(quán)重,有選擇地聚合之前所有層的輸出。(c) 塊注意力殘差(Block AttnRes): 將各層劃分為若干個(gè)「塊」,將內(nèi)存開銷從 O (Ld) 降低至 O (Nd)。

戰(zhàn)果:1.25 倍的「計(jì)算杠桿」

根據(jù)論文信息,實(shí)驗(yàn)架構(gòu)與 Kimi Linear 完全一致,這是一種遵循 Moonlight / DeepSeek-V3 設(shè)計(jì)的混合專家模型(MoE)Transformer。唯一的修改是在殘差連接中加入了 AttnRes;模型深度、隱藏維度、專家路由和 MLP 結(jié)構(gòu)等其他組件均保持不變。

研究團(tuán)隊(duì)測試了五種模型規(guī)模,并為每種規(guī)模訓(xùn)練了三個(gè)變體:PreNorm 基準(zhǔn)模型、全量 AttnRes 以及約 8 個(gè)塊的 Block AttnRes。



下圖展示了擬合后的規(guī)模化曲線。



三個(gè)變體的斜率相似,但 AttnRes 在整個(gè)計(jì)算范圍內(nèi)一致實(shí)現(xiàn)了更低的損耗(Loss)?;跀M合曲線,在 5.6 PFLOP/s-days 的計(jì)算量下,Block AttnRes 的損耗為 1.692,而基準(zhǔn)模型為 1.714,這相當(dāng)于1.25 倍的計(jì)算優(yōu)勢(Compute Advantage)。隨著模型規(guī)模增大,F(xiàn)ull 與 Block 變體之間的差距在縮小。

研究團(tuán)隊(duì)的最大模型基于 Kimi Linear 48B 配置:27 個(gè) Transformer 塊(共 54 層),在 256 個(gè)路由專家中激活 8 個(gè),外加 1 個(gè)共享專家,總參數(shù) 48B,激活參數(shù) 3B。該模型采用 Block AttnRes,每塊 6 層,共產(chǎn)生 9 個(gè)塊外加 1 個(gè) Token 嵌入,形成 10 個(gè)深度方向的來源。



上圖展示了模型在 1T token 訓(xùn)練過程中的動(dòng)態(tài)變化:

  • 驗(yàn)證損耗: AttnRes 在整個(gè)訓(xùn)練過程中始終保持較低的驗(yàn)證損耗,尤其在衰減(Decay)階段差距進(jìn)一步拉大。
  • 輸出量級: 基準(zhǔn)模型遭受PreNorm 稀釋問題:隨著隱狀態(tài)量級隨深度單調(diào)增長,深層網(wǎng)絡(luò)被迫從固定縮放的歸一化輸入中學(xué)習(xí)越來越大的輸出,以維持影響力。而 Block AttnRes 將這種增長限制在每個(gè)塊內(nèi),通過塊邊界的選擇性聚合重置了累加過程,呈現(xiàn)出有界的周期性模式。
  • 梯度量級: 在所有殘差權(quán)重固定為 1 的基準(zhǔn)模型中,梯度流在深度上的分布極不均勻,導(dǎo)致早期層梯度過大。Block AttnRes 的可學(xué)習(xí) Softmax 權(quán)重引入了來源之間的競爭,從而實(shí)現(xiàn)了顯著更均勻的梯度分布



下游性能表現(xiàn): 如上表所示,Block AttnRes 在所有評測任務(wù)中均達(dá)到或超過了基準(zhǔn)模型。

  • 提升顯著的任務(wù): 在多步推理任務(wù)中提升尤為突出,如GPQA-Diamond (+7.5)Minerva Math (+3.6)以及代碼生成HumanEval (+3.1)
  • 知識類任務(wù)MMLU (+1.1)TriviaQA (+1.9)也展現(xiàn)了穩(wěn)健的提升。

數(shù)據(jù)給出了最有力的證明:

  • 計(jì)算效率: 達(dá)到同樣的性能,AttnRes 相比傳統(tǒng)殘差節(jié)省了約20% 的計(jì)算量(1.25x 優(yōu)勢)。
  • 邏輯推理: 在數(shù)學(xué)、代碼等硬核任務(wù)上提升顯著。例如,在極難的 GPQA-Diamond 測試中,性能提升了7.5 分
  • 穩(wěn)定性: 成功抑制了隱藏狀態(tài)的數(shù)值爆炸,讓深層網(wǎng)絡(luò)依然能保持「冷靜」和「高效」。

總結(jié):Rethink & Imagine

用更高維的視角看基礎(chǔ)架構(gòu)的研究,時(shí)間和空間都是相通的。

這篇論文「將注意力旋轉(zhuǎn) 90°」的思想,似乎帶給 Karpathy 一些啟示和思考。



ResNet 的殘差流是信息在不同空間深度上的傳遞。SGD (隨機(jī)梯度下降)的權(quán)重流是信息在不同時(shí)間維度上的傳遞。

研究團(tuán)隊(duì)覺得 ResNet 的加法太樸素了,所以提議用 Attention 來篩選過去每一層的輸出。 既然 SGD 也是 ResNet,「Attention is All You Need」,那我們?yōu)槭裁床荒茉趦?yōu)化器里也加上 Attention?

架構(gòu)的生命力,往往來自于對慣性的反思。

當(dāng)我們回過頭去審視那些基礎(chǔ)架構(gòu),或許就能在過去的故紙堆中,發(fā)現(xiàn)更多通往未來的巧妙結(jié)合。

更多信息,請參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
G聯(lián)賽:楊瀚森18+7+4下半場6中6 末節(jié)連秀暴扣率混音險(xiǎn)勝馬刺

G聯(lián)賽:楊瀚森18+7+4下半場6中6 末節(jié)連秀暴扣率混音險(xiǎn)勝馬刺

醉臥浮生
2026-03-28 10:18:22
美媒評中國演員謝苗新片《火遮眼》“或成動(dòng)作影史經(jīng)典”,該片5月29日北美上映,李連杰說很期待,聽說“超級?!?>
    </a>
        <h3>
      <a href=極目新聞
2026-03-26 20:16:01
明著擺爛?步行者0.1秒落后1分獲2罰,赫夫兩罰不中送走比賽

明著擺爛?步行者0.1秒落后1分獲2罰,赫夫兩罰不中送走比賽

懂球帝
2026-03-28 09:59:07
2-3爆大冷!樊振東獨(dú)得2分,連轟兩場3-0,賽后一個(gè)舉動(dòng)太暖心了

2-3爆大冷!樊振東獨(dú)得2分,連轟兩場3-0,賽后一個(gè)舉動(dòng)太暖心了

體育就你秀
2026-03-28 09:10:19
“我們被逼切斷對華貿(mào)易,壓力山大”

“我們被逼切斷對華貿(mào)易,壓力山大”

觀察者網(wǎng)
2026-03-28 10:30:05
吉格斯:坎通納干啥弗格森都不罵他;曼聯(lián)有些教練團(tuán)隊(duì)爛透了

吉格斯:坎通納干啥弗格森都不罵他;曼聯(lián)有些教練團(tuán)隊(duì)爛透了

懂球帝
2026-03-28 05:45:32
大馬?。哼@是我們踢得最差的比賽之一;這是一記及時(shí)的警鐘

大馬?。哼@是我們踢得最差的比賽之一;這是一記及時(shí)的警鐘

懂球帝
2026-03-28 11:03:16
張雪峰追悼會細(xì)節(jié)披露:母親傷心過度無法參加,妻子和女兒現(xiàn)身

張雪峰追悼會細(xì)節(jié)披露:母親傷心過度無法參加,妻子和女兒現(xiàn)身

博士觀察
2026-03-28 13:52:37
坐實(shí)了!南京,最成功的省會,沒有之一

坐實(shí)了!南京,最成功的省會,沒有之一

城市財(cái)經(jīng)
2026-03-28 11:48:40
東契奇談技犯:對手沖我大喊三次我話都沒說,結(jié)果判我動(dòng)作夸張

東契奇談技犯:對手沖我大喊三次我話都沒說,結(jié)果判我動(dòng)作夸張

懂球帝
2026-03-28 13:47:18
唏噓!深圳昔日老牌酒樓閉店!總部連續(xù)兩年虧損,網(wǎng)友:曾經(jīng)多輝煌

唏噓!深圳昔日老牌酒樓閉店!總部連續(xù)兩年虧損,網(wǎng)友:曾經(jīng)多輝煌

南方都市報(bào)
2026-03-27 14:43:06
101枚導(dǎo)彈砸向美國航母,伊朗打出了開戰(zhàn)以來最強(qiáng)勢的一拳

101枚導(dǎo)彈砸向美國航母,伊朗打出了開戰(zhàn)以來最強(qiáng)勢的一拳

樂享人生風(fēng)雨
2026-03-27 10:07:40
吳京參加電影《鏢人》線下活動(dòng)時(shí),被網(wǎng)友拍到面部按壓后出現(xiàn)“小坑”,本人回應(yīng):含水量高了些,身體還不錯(cuò)

吳京參加電影《鏢人》線下活動(dòng)時(shí),被網(wǎng)友拍到面部按壓后出現(xiàn)“小坑”,本人回應(yīng):含水量高了些,身體還不錯(cuò)

瀟湘晨報(bào)
2026-03-27 17:13:10
楊瀚森18+7+4,末節(jié)獨(dú)得12分!率隊(duì)106-101獲勝,加盟NBA真漲球了

楊瀚森18+7+4,末節(jié)獨(dú)得12分!率隊(duì)106-101獲勝,加盟NBA真漲球了

球場沒跑道
2026-03-28 10:20:12
人類史上最高級零元購,榨干印度200年,留下45萬億天價(jià)賬單

人類史上最高級零元購,榨干印度200年,留下45萬億天價(jià)賬單

掠影后有感
2026-03-26 10:39:36
壽命與大便次數(shù)有關(guān)?研究發(fā)現(xiàn):壽命長的人,每天排便在這個(gè)次數(shù)

壽命與大便次數(shù)有關(guān)?研究發(fā)現(xiàn):壽命長的人,每天排便在這個(gè)次數(shù)

DrX說
2025-10-24 14:15:19
歐爾班:中國簡直不可戰(zhàn)勝

歐爾班:中國簡直不可戰(zhàn)勝

觀察者網(wǎng)
2026-03-27 21:59:51
姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

章眽八卦
2026-03-28 12:22:40
美國警告賴清德當(dāng)局:大陸決定動(dòng)手那一刻,“臺獨(dú)”只剩一個(gè)結(jié)局

美國警告賴清德當(dāng)局:大陸決定動(dòng)手那一刻,“臺獨(dú)”只剩一個(gè)結(jié)局

小祁談歷史
2026-03-28 09:54:23
3天3戰(zhàn)全勝!布朗尼僅4分鐘明顯不悅 雷迪克解釋緣由湖蜜一言力挺

3天3戰(zhàn)全勝!布朗尼僅4分鐘明顯不悅 雷迪克解釋緣由湖蜜一言力挺

顏小白的籃球夢
2026-03-28 13:47:39
2026-03-28 14:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142596關(guān)注度
往期回顧 全部

科技要聞

遭中國學(xué)界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

牛彈琴:伊朗狠角色強(qiáng)硬嘲諷美國 卻被美移出獵殺名單

頭條要聞

牛彈琴:伊朗狠角色強(qiáng)硬嘲諷美國 卻被美移出獵殺名單

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂要聞

王一博改名上熱搜!個(gè)人時(shí)代正式開啟!

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

時(shí)尚
健康
旅游
房產(chǎn)
公開課

龍蝦來了,厭蠢癥炸了

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

云南鶴慶:“雪”落枝頭 流蘇花開

房產(chǎn)要聞

6.8萬方!天河員村再征地,金融城西區(qū)開發(fā)全面提速

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版