国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

深度|馬斯克點(diǎn)贊、Karpathy銳評、推理之父驚呼,Kimi 新架構(gòu)直接炸出半個硅谷AI 圈

0
分享至


圖片來源:AI生成

很少有一篇純底層的技術(shù)報告,能在發(fā)布瞬間直接“炸出”硅谷半個 AI 圈。

昨晚,Kimi 團(tuán)隊發(fā)布了重磅技術(shù)報告《Attention Residuals》。這項(xiàng)研究試圖用一種動態(tài)的、依賴輸入的注意力機(jī)制,徹底取代大模型中沿用了十年的標(biāo)準(zhǔn)殘差遞歸。

簡單來說,它讓模型不再只是機(jī)械地堆疊層數(shù),而是學(xué)會了在深度維度上進(jìn)行“內(nèi)容感知”的選擇。這一大膽的挑戰(zhàn)讓一眾硅谷頂流大佬紛紛開啟點(diǎn)贊模式。

OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 這么評價:“看來我們還沒把‘Attention is All You Need’這句話按字面意思理解透?!?/p>


一向不會輕易對具體技術(shù)論文做這種公開表態(tài)的馬斯克,也在評論區(qū)留下一句:“Impressive work from Kimi.”


甚至有AI從業(yè)者公開評價,上一次中國實(shí)驗(yàn)室發(fā)布這樣的成果,是DeepSeek讓英偉達(dá)一天蒸發(fā)6000億美金。


論文鏈接:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

這項(xiàng)研究集結(jié)了月之暗面數(shù)十名研究員的智慧。對項(xiàng)目貢獻(xiàn)最突出的三位研究員分別是陳光宇、Yu Zhang(Kimi-Linear 一作)以及 Jianlin Su。

更有意思的是,論文的一作陳光宇是一名年僅 18 歲、加入團(tuán)隊僅 5 個月的準(zhǔn)高三學(xué)生。


深度的陷阱

在深度學(xué)習(xí)的世界里,殘差連接自 2015 年誕生以來,一直被視為神經(jīng)網(wǎng)絡(luò)邁向深層的默認(rèn)配置。它像一條梯度高速公路,讓梯度能夠繞過復(fù)雜的變換直接傳導(dǎo),從而解決了深層網(wǎng)絡(luò)難以訓(xùn)練的難題 。

但在大語言模型步入數(shù)百層的今天,這種被奉為圭臬的標(biāo)準(zhǔn)結(jié)構(gòu)正悄然陷入一種“深度的陷阱” 。

目前的殘差結(jié)構(gòu)本質(zhì)上是固定權(quán)重的線性累加,這意味著每一層輸出都以完全相同的分量強(qiáng)行擠進(jìn)主干路徑 。這種“一視同仁”的堆疊方式,缺乏一種靈活的選擇機(jī)制。它無法根據(jù)當(dāng)前的輸入內(nèi)容決定哪些層的信息更關(guān)鍵,就像在讀一本厚書時每一頁的權(quán)重都完全一樣,讀到最后你可能已經(jīng)忘了開頭最重要的伏筆 。

Kimi 團(tuán)隊指出,這種信息流動的僵化不僅限制了模型的有效深度,還導(dǎo)致了一個嚴(yán)重的問題:信息稀釋 。

在現(xiàn)代 LLM 普遍采用的 PreNorm 范式下,殘差連接導(dǎo)致隱藏狀態(tài)的范數(shù)會隨著深度呈線性增長 。想象一下,當(dāng)你把上百層網(wǎng)絡(luò)的輸出簡單地疊加在一起,主干路徑會變得越來越“臃腫”,每一層對最終結(jié)果的影響力被逐層攤薄 。早期層辛苦提取的基礎(chǔ)特征被掩沒在后續(xù)層的海量輸出中,甚至導(dǎo)致深度增加后的收益遞減 。

這種不受控的增長還強(qiáng)迫深層網(wǎng)絡(luò)必須學(xué)習(xí)產(chǎn)生越來越大的輸出,才能在已經(jīng)巨大的殘差流中獲得一點(diǎn)點(diǎn)“發(fā)言權(quán)”,這不僅增加了訓(xùn)練的不穩(wěn)定性,也造成了參數(shù)的極大浪費(fèi) 。實(shí)證研究發(fā)現(xiàn),在這種結(jié)構(gòu)下,模型中相當(dāng)比例的層甚至可以被直接修剪掉而不影響性能,這說明目前的殘差機(jī)制并沒有讓每一層都發(fā)揮出應(yīng)有的潛力 。


圖 b 中,藍(lán)色曲線代表的基準(zhǔn)模型顯示,隨著 Transformer 塊索引的增加,輸出范數(shù)幾乎呈現(xiàn)指數(shù)級的飛躍增長 。這意味著越往后的層,由于之前的累加量已經(jīng)巨大,為了能夠產(chǎn)生影響,它被迫輸出極其巨大的數(shù)值 。 圖 c 揭示了固定權(quán)重累加帶來的另一個弊端 - 梯度分布極度不均 。在基準(zhǔn)模型中,梯度主要集中在最開始的幾層,深層的梯度非常微弱且分布不穩(wěn) 。這種失衡意味著靠近輸入的層在被過度訓(xùn)練,而深層則在“劃水” 。

由于殘差連接將所有先前的層信息壓縮進(jìn)一個單一的狀態(tài),模型無法實(shí)現(xiàn)對早期信息的選擇性檢索 。這種不可逆的信息流失,使得模型在處理需要長程依賴或多步推理的復(fù)雜任務(wù)時,往往力不從心 。

Kimi 團(tuán)隊的這一洞察,不僅是對現(xiàn)狀的批判,更是為后續(xù) AttnRes 的登場鋪平了道路。我們需要的不是更厚的堆疊,而是更聰明的選擇 。

AttnRes 的降維打擊

為了打破這種僵局,Kimi 團(tuán)隊提出了 Attention Residuals(簡稱 AttnRes)。

這場變革的靈感源于序列建模與網(wǎng)絡(luò)深度之間的形式對偶性。既然 Transformer 能夠通過注意力機(jī)制取代循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在序列維度上的僵化遞歸,那么在深度維度上,我們也理應(yīng)可以用注意力來取代固定的殘差累加。

AttnRes 的核心邏輯在于將每一層原本被動的線性接收轉(zhuǎn)變?yōu)橹鲃拥膬?nèi)容感知檢索,通過將深度軸轉(zhuǎn)化為一個可供檢索的特征空間,讓模型能夠像查閱字典一樣,根據(jù)當(dāng)前的輸入內(nèi)容精確調(diào)取之前的關(guān)鍵表征 。


在具體實(shí)現(xiàn)上,Kimi 團(tuán)隊引入了一個極其輕量的“導(dǎo)航大腦”——層專屬偽查詢向量 。每一層不再是盲目接收前序總和,而是帶著這個學(xué)習(xí)到的向量去掃描之前所有層的輸出 。通過計算相似度,模型會生成一套 Softmax 注意力權(quán)重 。為了防止某些幅度異常的層主導(dǎo)整個注意力分布,架構(gòu)中還加入了 RMSNorm 歸一化 。

為了將概念推向工業(yè)級應(yīng)用,團(tuán)隊研發(fā)了分塊注意力殘差(Block AttnRes) 。全量注意力雖好,但其平方級的開銷在大規(guī)模訓(xùn)練中極其昂貴 。通過將數(shù)百層網(wǎng)絡(luò)劃分為若干個塊,模型在塊內(nèi)維持低成本的基礎(chǔ)累加,僅在塊間進(jìn)行精細(xì)的注意力聚合 。這一改進(jìn)直接將顯存復(fù)雜度降至塊數(shù)量級別 。實(shí)測發(fā)現(xiàn),僅需約 8 個塊就能找回全量版絕大部分的性能增益,實(shí)現(xiàn)了性能與效率的完美平衡 。

在工程落地層面,這套架構(gòu)配合了精妙的兩階段計算策略 。由于查詢向量是層特定的且獨(dú)立于實(shí)時輸入,模型可以在進(jìn)入每個塊時,批量計算出該塊內(nèi)所有層對歷史塊的關(guān)注權(quán)重 。這種設(shè)計將零散的讀取整合為高效的批處理,極大地攤薄了內(nèi)存訪問成本 。最終,這種從底層互聯(lián)方式上的徹底重構(gòu),讓端到端的推理延遲開銷控制在2% 以內(nèi),幾乎做到了“性能暴增,成本微增” 。


圖中的 block_attn_res 函數(shù)展示了如何利用一個學(xué)習(xí)到的權(quán)重矩陣并行地處理歷史表征,而 forward 部分則展示了模型如何維護(hù)一個“塊歷史記錄”,在保證邏輯嚴(yán)密的同時,將顯存占用維持在極低水平 。
Kimi 的實(shí)戰(zhàn)成果

任何理論的優(yōu)雅最終都要在算力的火海中接受毒打。Kimi 團(tuán)隊在包含 480 億參數(shù)(30 億激活參數(shù))的 Kimi Linear 架構(gòu)上,利用 1.4 萬億 Token 的實(shí)測結(jié)果證明,AttnRes 絕非實(shí)驗(yàn)室里的花拳繡腿 。

最令技術(shù)圈振奮的是它對Scaling Law的重塑 。實(shí)驗(yàn)數(shù)據(jù)顯示,在同等損失水平下,AttnRes 展示出了極高的“算力杠桿”:它僅需基準(zhǔn)模型約 80% 的算力即可達(dá)到同樣的效果 ,意味著它自帶 1.25 倍的算力優(yōu)勢。這一提升在不同的模型規(guī)模下均保持一致,打破了傳統(tǒng)架構(gòu)在極深尺度下的效率天花板 。


這種“深度進(jìn)化”最終轉(zhuǎn)化為了一份驚艷的下游任務(wù)成績單。在衡量知識深度的GPQA-Diamond任務(wù)上,新架構(gòu)直接拉升了7.5 分;而在數(shù)學(xué)競賽級的Minerva Math和代碼生成的HumanEval任務(wù)中,也分別實(shí)現(xiàn)了3.6 分3.1 分的顯著飛躍。即便是通用理解領(lǐng)域的 MMLU (+1.1) 或中文能力測試 C-Eval (+2.9),也展現(xiàn)出全面打平或超越基準(zhǔn)模型的統(tǒng)治力 。


除了分?jǐn)?shù),AttnRes 還從底層治愈了模型的“健康”問題 。它通過限制每一層的輸出幅度增長,并讓梯度分布更加均勻,確保了從第一層到最后一層都在同步進(jìn)化,而不是在深度的稀釋中“劃水” 。


深色的對角線代表模型依然尊重層級的局部流動,而散落在背景中的亮點(diǎn),則證明模型學(xué)會了跨越數(shù)十層去“翻閱”之前的知識 。特別是第一層嵌入信息在后續(xù)每一層中都有留存,證明了 AttnRes 能夠讓最初的靈感穿透重重阻礙,直達(dá)決策層 。
深度學(xué)習(xí) 2.0 的序幕

AttnRes 的出現(xiàn),或許標(biāo)志著大模型架構(gòu)演進(jìn)正在經(jīng)歷一次“回溯式”的爆發(fā)。隨著計算硬件對內(nèi)存帶寬瓶頸的進(jìn)一步突破,這種深度維度的“全量檢索”將徹底重構(gòu)我們對 Scaling Law 的傳統(tǒng)認(rèn)知。

自 2015 年 ResNet 問世以來,殘差連接就被當(dāng)作神經(jīng)網(wǎng)絡(luò)的“默認(rèn)配置”,整整十年幾乎無人質(zhì)疑。而 Kimi 團(tuán)隊卻選擇回到地基,去撬動那個十年未變的底層范式。

這是一個明確的行業(yè)信號:大模型的架構(gòu)競爭已經(jīng)從表層的模塊優(yōu)化,正式深入到了最底層的“毛細(xì)血管”。這種底層范式的松動,其意義遠(yuǎn)比單純的跑分提升更為深遠(yuǎn)。

正如前 OpenAI 核心研究員、被譽(yù)為“推理模型之父”的 Jerry Tworek 在看到這項(xiàng)研究后所給出的評價:“一切都需要被重新思考,深度學(xué)習(xí) 2.0 要來了。

當(dāng)殘差連接不再是死板的加法,大模型的靈魂才真正從深度的束縛中解脫出來。在這場通往 AGI 的長跑中,單純地堆疊規(guī)模已成過去式,如何更聰明地“調(diào)度深度”,或許才是決定誰能率先觸達(dá)終點(diǎn)的勝負(fù)手。

加入ZF討論群,請先添加小助手微信

我們相信認(rèn)知能夠跨越階層,

致力于為年輕人提供高質(zhì)量的科技和財經(jīng)內(nèi)容。

稿件經(jīng)采用可獲邀進(jìn)入Z Finance內(nèi)部社群,優(yōu)秀者將成為簽約作者,00后更有機(jī)會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實(shí)習(xí)生

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你信不信未來王鈺棟都要替補(bǔ)!U19苗潤東魏祥鑫楊銘銳個頂個強(qiáng)

你信不信未來王鈺棟都要替補(bǔ)!U19苗潤東魏祥鑫楊銘銳個頂個強(qiáng)

安海客
2026-03-28 17:29:09
彩票銷量“斷崖式”下跌,2元中500萬夢,為何如今沒人愿意信了?

彩票銷量“斷崖式”下跌,2元中500萬夢,為何如今沒人愿意信了?

復(fù)轉(zhuǎn)這些年
2026-03-28 11:52:28
瑞舒伐他汀天天吃,這五個問題一定要知道!

瑞舒伐他汀天天吃,這五個問題一定要知道!

藥師方健
2026-03-26 22:18:10
繪說現(xiàn)代化丨“開局”看河南 萬象“皆”中

繪說現(xiàn)代化丨“開局”看河南 萬象“皆”中

人民資訊
2026-03-28 08:36:26
1937年地主王學(xué)文救下女紅軍還收留了她的孩子,徹底改變?nèi)齻€家庭

1937年地主王學(xué)文救下女紅軍還收留了她的孩子,徹底改變?nèi)齻€家庭

磊子講史
2026-01-14 16:09:59
校長拒拆鳥巢:不迎合的溫柔是孩子最動人的成人禮 |新京報快評

校長拒拆鳥巢:不迎合的溫柔是孩子最動人的成人禮 |新京報快評

新京報
2026-03-27 16:16:34
里勒35+5三分北控大勝寧波 廖三寧10+6+10杰克遜27分

里勒35+5三分北控大勝寧波 廖三寧10+6+10杰克遜27分

醉臥浮生
2026-03-28 21:49:03
連戰(zhàn)方面出手后,失去馬英九信任的金溥聰徹底急了,邱毅一語道破

連戰(zhàn)方面出手后,失去馬英九信任的金溥聰徹底急了,邱毅一語道破

愛看劇的阿峰
2026-03-28 16:54:01
美國高爾夫球星“老虎”伍茲因酒駕發(fā)生翻車事故被捕

美國高爾夫球星“老虎”伍茲因酒駕發(fā)生翻車事故被捕

新京報
2026-03-28 09:44:58
杭州一女子“斷碳水”2個月暴瘦30斤,每天只吃少量蔬菜和雞胸肉,出現(xiàn)頭暈心慌,確診糖尿病前期

杭州一女子“斷碳水”2個月暴瘦30斤,每天只吃少量蔬菜和雞胸肉,出現(xiàn)頭暈心慌,確診糖尿病前期

大象新聞
2026-03-28 19:45:02
4萬股東突發(fā)踩雷,這家公司白天大漲,晚上股票被實(shí)施st風(fēng)險警示

4萬股東突發(fā)踩雷,這家公司白天大漲,晚上股票被實(shí)施st風(fēng)險警示

有范又有料
2026-03-28 10:13:07
想拿中國尿素救春耕?先把欠中企的百億欠款還了,否則一粒不售

想拿中國尿素救春耕?先把欠中企的百億欠款還了,否則一粒不售

鐵錘妹妹是只貓
2026-03-27 20:09:11
尼科-帕斯:非常開心收獲國家隊首球,這一刻我已經(jīng)盼了很久

尼科-帕斯:非常開心收獲國家隊首球,這一刻我已經(jīng)盼了很久

懂球帝
2026-03-28 12:40:11
巴拿馬玩砸!賠款156億不足,滯華巴船暴漲,船東紛紛倒戈

巴拿馬玩砸!賠款156億不足,滯華巴船暴漲,船東紛紛倒戈

就像當(dāng)初啊
2026-03-27 19:30:20
從年賺358億到巨虧234億,美團(tuán)的外賣江湖地位保住了嗎?

從年賺358億到巨虧234億,美團(tuán)的外賣江湖地位保住了嗎?

時代周報
2026-03-27 21:40:32
中方未收道歉,日本自衛(wèi)官被轉(zhuǎn)移,沉默24小時后,小泉進(jìn)次郎發(fā)文

中方未收道歉,日本自衛(wèi)官被轉(zhuǎn)移,沉默24小時后,小泉進(jìn)次郎發(fā)文

說歷史的老牢
2026-03-26 18:53:45
現(xiàn)貨黃金漲超3%

現(xiàn)貨黃金漲超3%

證券時報
2026-03-28 01:19:04
聯(lián)大投票結(jié)果出爐,伊朗與122國獲壓倒性勝利,英法德日紛紛棄權(quán)

聯(lián)大投票結(jié)果出爐,伊朗與122國獲壓倒性勝利,英法德日紛紛棄權(quán)

牛鍋巴小釩
2026-03-28 22:23:55
劉昊然郭麒麟商K風(fēng)波升級!被質(zhì)疑參加拖鞋場,畫面細(xì)節(jié)對上了

劉昊然郭麒麟商K風(fēng)波升級!被質(zhì)疑參加拖鞋場,畫面細(xì)節(jié)對上了

萌神木木
2026-03-28 15:34:37
出其不意的伊朗:多層次非對稱下的正面博弈

出其不意的伊朗:多層次非對稱下的正面博弈

紅星新聞
2026-03-28 11:24:13
2026-03-29 00:00:49
ZFinance
ZFinance
Z世代的一站式AI、科技和財經(jīng)資訊
155文章數(shù) 13關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運(yùn)動員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

數(shù)碼
旅游
游戲
公開課
軍事航空

數(shù)碼要聞

好用的男士剃須刀哪個牌子好?綜合表現(xiàn)出眾的十大剃須刀排名甄選

旅游要聞

泰安市岱岳區(qū)萬畝古梨園梨花盛開

《死亡擱淺2》Steam銷量超42萬 中國玩家占一半

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地?fù)p失最新披露

無障礙瀏覽 進(jìn)入關(guān)懷版