国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

楊植麟帶隊發(fā)論文,Kimi下一代模型架構(gòu)曝光,推理之父驚呼:深度學(xué)習(xí)2.0要來了!

0
分享至


智東西
作者|陳駿達
編輯|云鵬

“一切都需要被重新思考,深度學(xué)習(xí)2.0時代即將來臨。”在讀完下方這篇來自月之暗面的最新論文后,前OpenAI大牛、“推理模型之父”Jerry Tworek發(fā)出感嘆。


智東西3月16日報道,今天,月之暗面發(fā)布論文,提前預(yù)覽了下一代模型的關(guān)鍵模塊——注意力殘差(Attention Residuals,簡稱AttnRes)。論文的核心亮點在于對大模型中最基礎(chǔ)、但長期被忽視的結(jié)構(gòu)——殘差連接(Residual Connection)進行了重新設(shè)計。

在傳統(tǒng)Transformer架構(gòu)中,每一層都會將前一層的輸出與當(dāng)前層的計算結(jié)果直接相加,這種“等權(quán)累加”的方式雖然穩(wěn)定了深度網(wǎng)絡(luò)訓(xùn)練,但隨著模型層數(shù)不斷增加,所有歷史層的表示被簡單疊加,容易導(dǎo)致信息被逐漸稀釋,深層網(wǎng)絡(luò)的表達能力受到限制。

AttnRes用注意力機制替代固定的殘差相加方式,讓每一層能夠從所有歷史層表示中動態(tài)選擇最有用的信息。每一層相當(dāng)于一個查詢(Query),在之前層的表示中進行檢索并分配權(quán)重,使模型能更靈活地利用不同層級的特征。

在實現(xiàn)層面,論文還提出了塊級注意力殘差(Block AttnRes)來解決大模型訓(xùn)練時的計算和通信開銷問題。

實驗中,月之暗面將AttnRes集成到Kimi Linear架構(gòu)(總參數(shù)量48B/激活參數(shù)量3B)中,在1.4T token上進行預(yù)訓(xùn)練。AttnRes緩解了預(yù)歸一化的稀釋問題,產(chǎn)生更均勻的跨深度輸出幅度和梯度分布,從而緩解深層模型訓(xùn)練中的不穩(wěn)定問題。

在相同計算預(yù)算下,引入AttnRes的模型在多個基準(zhǔn)測試中均取得穩(wěn)定提升,尤其是在數(shù)學(xué)推理、科學(xué)問答以及代碼生成等需要復(fù)雜推理能力的任務(wù)上。

此外,Block AttnRes的驗證損失為1.692,而基線為1.714,相當(dāng)于約1.25倍的計算效率優(yōu)勢。


這篇論文在大模型圈引發(fā)廣泛討論,月之暗面官方在X平臺發(fā)布的帖子閱讀量已逼近60萬次。除了Jerry Tworek之外,OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy也評論道:“隨機梯度下降(常用的優(yōu)化算法之一)也是一種ResNet,殘差流就是權(quán)重……看來我們還沒把‘Attention is All You Need’ 這句話完全按字面意思理解透。


月之暗面的數(shù)十名研究員參與了這項研究,對項目貢獻最大的三位研究員包括Guangyu Chen、Yu Zhang(Kimi-Linear一作)、Jialin Su。月之暗面的三位聯(lián)合創(chuàng)始人楊植麟、吳育昕、周昕宇帶領(lǐng)團隊完成了這項研究。


一、標(biāo)準(zhǔn)殘差連接,面臨“等權(quán)累加”之困

由知名華人AI學(xué)者何愷明等人提出的標(biāo)準(zhǔn)殘差連接,最早在ResNet中系統(tǒng)化提出,并迅速成為現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)的核心結(jié)構(gòu)之一。

隨著深度學(xué)習(xí)的發(fā)展,這一設(shè)計不僅在計算機視覺中取得巨大成功,也逐漸成為大型語言模型和各類Transformer系統(tǒng)中的基礎(chǔ)構(gòu)建模塊。

其核心思想非常直觀:讓網(wǎng)絡(luò)學(xué)習(xí)“殘差”(即輸入與輸出之間的差值),而不是直接擬合完整映射。標(biāo)準(zhǔn)殘差連接中,每一層的輸入等于所有之前層輸出的累積和。殘差連接實際上是一種跨深度的信息聚合機制,所有層的貢獻權(quán)重都是1,也就是均勻加權(quán)。

在現(xiàn)代大模型中,殘差結(jié)構(gòu)通常還會與PreNorm(預(yù)歸一化)結(jié)合使用。具體做法是在每個子層計算之前先進行層歸一化,然后再進入注意力或前饋網(wǎng)絡(luò)模塊,最后再通過殘差連接將輸出加回原始表示。

這種結(jié)構(gòu)在Transformer模型中被廣泛采用,因為它能夠進一步改善訓(xùn)練穩(wěn)定性,使梯度在深層網(wǎng)絡(luò)中更容易傳播,并避免訓(xùn)練后期出現(xiàn)數(shù)值不穩(wěn)定的問題。

標(biāo)準(zhǔn)殘差連接之所以能獲得廣泛采用,在于其解決了深層網(wǎng)絡(luò)訓(xùn)練困難的問題,允許梯度繞過復(fù)雜變換,緩解了梯度消失的問題。同時,殘差使每層對表示的修改是漸進的,不會破壞已有表示。模型訓(xùn)練更穩(wěn)定、更容易優(yōu)化。

然而,這一方式也存在一些局限性。標(biāo)準(zhǔn)殘差連接中所有層的權(quán)重一致,但現(xiàn)實情況是不同層信息的重要性不同。理想情況下應(yīng)該采用可學(xué)習(xí)的權(quán)重。

此外,學(xué)習(xí)時,每層網(wǎng)絡(luò)只能看到壓縮后的狀態(tài),導(dǎo)致許多早期信息被混合壓縮,無法單獨訪問某一層輸出,導(dǎo)致信息不可逆的丟失。同時,后期層在模型的貢獻中變大,早期層被逐漸淹沒。

模型剪枝(prune)等方式對模型性能影響不大,這一現(xiàn)象也從側(cè)面證明,當(dāng)前廣泛采用的殘差結(jié)構(gòu),使很多層貢獻很小。

正是在這樣的背景下,月之暗面的研究團隊提出了一種新的思路:用習(xí)得的softmax注意力機制來替代固定的殘差累積,也就是AttnRes。

二、用注意力替代固定權(quán)重,讓每一層學(xué)會“檢索”歷史

在AttnRes中,每一層在計算時不再僅僅依賴上一層的輸出,而是可以對之前多個層的表示進行一次注意力檢索。模型通過學(xué)習(xí)得到的一組權(quán)重,對不同層的輸出進行加權(quán)組合,從而生成當(dāng)前層的輸入表示。

由于這些權(quán)重通過softmax歸一化,它們能夠反映不同層在當(dāng)前上下文中的相對重要性,使信息聚合過程更加靈活和自適應(yīng)。

這種機制帶來的一個直接好處是,模型能夠更有效地利用早期層的信息。由于每一層都可以直接訪問歷史層的表示,早期信息不再被完全壓縮到單一狀態(tài)中,而是可以在需要時被重新調(diào)用。

這種“跨層檢索”的能力,使得深層網(wǎng)絡(luò)在信息利用上更加接近于Transformer在時間維度上的注意力機制。

對于每個token,完整AttnRes需要O(L2d)的算術(shù)運算和O(Ld)的內(nèi)存來存儲層輸出。由于深度遠(yuǎn)小于序列長度,算術(shù)成本適中。

當(dāng)然,如果讓每一層都對所有歷史層進行注意力計算,也就是使用全注意力殘差,計算成本會迅速增加。為了解決這一問題,研究團隊進一步提出了Block AttnRes(塊注意力殘差)的結(jié)構(gòu)設(shè)計。

該方法將網(wǎng)絡(luò)層劃分為若干塊,每個塊內(nèi)部保持常規(guī)計算方式,而跨塊之間則使用壓縮后的表示進行注意力交互。

通過這種方式,模型在保持靈活信息檢索能力的同時,也能有效控制計算復(fù)雜度,使這一機制在大規(guī)模模型中仍然具有可行性。


▲從左到右:傳統(tǒng)殘差、全注意力殘差、塊注意力殘差

三、基礎(chǔ)設(shè)施協(xié)同優(yōu)化,計算效率達1.25倍

不過,Block AttnRes也給基礎(chǔ)設(shè)施帶來新的挑戰(zhàn)。

在訓(xùn)練階段,Block AttnRes帶來更多的流水線并行中通信開銷。標(biāo)準(zhǔn)殘差結(jié)構(gòu)在流水線階段之間只需傳輸固定大小的隱藏狀態(tài),而Block AttnRes需要在每個階段訪問此前所有塊的表征。

如果采用樸素實現(xiàn),就必須在階段轉(zhuǎn)換時重復(fù)傳輸完整的歷史塊表示,通信量會隨著塊數(shù)量累積呈平方增長。為了解決這一問題,月之暗面引入跨階段緩存(cross-stage cache)機制,大幅減少冗余通信。

同時,每個塊只需在虛擬階段中存儲一次,結(jié)合激活檢查點機制后,每層激活內(nèi)存占用與標(biāo)準(zhǔn)Transformer基本一致,因此整體訓(xùn)練的額外開銷很小,在實際系統(tǒng)中端到端訓(xùn)練時間增加不到4%。

在推理階段,Block AttnRes的主要挑戰(zhàn)來自跨層塊表征的重復(fù)訪問和長上下文緩存帶來的內(nèi)存壓力。為此他們采用了兩階段計算策略,首先在階段一中對緩存的塊表征執(zhí)行一次批量查詢,為同一塊內(nèi)的所有層同時計算塊間注意力,從而將原本每層都需要訪問歷史塊的操作合并為一次矩陣計算,顯著降低內(nèi)存讀取次數(shù)。

隨后在階段二中按順序計算塊內(nèi)各層的注意力,并通過在線softmax將結(jié)果與階段一的輸出合并,這一階段可以與周圍算子進行內(nèi)核融合,從而進一步減少I/O開銷。

此外,為緩解長上下文預(yù)填充時塊表征緩存過大的問題,系統(tǒng)將這些表征沿序列維度在張量并行設(shè)備之間進行分片,使每個設(shè)備只存儲部分序列。通過兩階段計算和序列分片的結(jié)合,BlockAttnRes在推理時僅帶來不到2%的延遲開銷,同時顯著降低了長上下文場景下的顯存需求。

在實驗方面,研究團隊將這一結(jié)構(gòu)集成到Kimi Linear架構(gòu)中進行驗證。

實驗表明,在相同參數(shù)規(guī)模下,引入Block AttnRes后,模型在多個基準(zhǔn)測試中都取得了性能提升。其中提升最多的是多步推理基準(zhǔn)測試GPQA-Diamond,采用AttnRes的模型得分提升幅度超過了20%。


與此同時,該方法還表現(xiàn)出良好的計算效率,Block AttnRes在損失函數(shù)上與使用1.25倍計算量訓(xùn)練的基線模型相當(dāng)。

結(jié)語:將注意力引入“網(wǎng)絡(luò)深度維度”,有望成為下一代模型關(guān)鍵架構(gòu)

通過將注意力機制引入深度維度,Attention Residuals為深層網(wǎng)絡(luò)提供了一種更加靈活的信息聚合方式,使模型能夠動態(tài)選擇歷史表示,而不是被動接受均勻累積的結(jié)果。這一思路有望進一步提升深層模型的信息利用效率。

從架構(gòu)演進的角度來看,這項工作也提出了一個值得關(guān)注的思路:在過去,注意力機制主要用于解決序列維度上的信息交互問題,而AttnRes則將注意力引入到了“網(wǎng)絡(luò)深度維度”,讓模型能夠在不同層之間建立更加靈活的信息通路,可能為下一代大模型架構(gòu)演進提供新的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
曝張雪峰已經(jīng)二婚,11歲女兒繼承遺產(chǎn)變復(fù)雜,處境令人心疼!

曝張雪峰已經(jīng)二婚,11歲女兒繼承遺產(chǎn)變復(fù)雜,處境令人心疼!

古希臘掌管松餅的神
2026-03-24 23:29:16
張雪峰去世細(xì)節(jié)披露:在公司跑步后突發(fā)不適緊急送醫(yī)!警惕猝死前身體3個信號

張雪峰去世細(xì)節(jié)披露:在公司跑步后突發(fā)不適緊急送醫(yī)!警惕猝死前身體3個信號

上觀新聞
2026-03-25 10:26:15
詹姆斯愿降薪2000萬!為留里夫斯+爭冠布局41歲老詹主動讓出頂薪

詹姆斯愿降薪2000萬!為留里夫斯+爭冠布局41歲老詹主動讓出頂薪

阿晞體育
2026-03-25 13:01:56
拒絕沙特1.5億鎊報價,40萬鎊周薪,續(xù)約薩拉赫讓利物浦損失慘重

拒絕沙特1.5億鎊報價,40萬鎊周薪,續(xù)約薩拉赫讓利物浦損失慘重

夏侯看英超
2026-03-25 03:45:07
鄭裕彤家族危機爆發(fā),或賣祖業(yè)自救,為何沒有香港豪門出手相助?

鄭裕彤家族危機爆發(fā),或賣祖業(yè)自救,為何沒有香港豪門出手相助?

林小明商業(yè)評說
2026-03-25 14:18:52
電動車逆行被撞身亡,家屬索賠120萬,法院判司機擔(dān)責(zé)40%引熱議!

電動車逆行被撞身亡,家屬索賠120萬,法院判司機擔(dān)責(zé)40%引熱議!

漁夫說事
2026-03-25 16:35:06
扒開張雪峰的家底才明白:他最厲害的不是報志愿,而是選對妻子

扒開張雪峰的家底才明白:他最厲害的不是報志愿,而是選對妻子

風(fēng)起見你
2026-03-25 10:40:24
俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

項鵬飛
2026-03-24 20:28:43
網(wǎng)友吐槽:國產(chǎn)手機銷量暴跌,都在罵蘋果,沒想到蘋果依然堅挺!

網(wǎng)友吐槽:國產(chǎn)手機銷量暴跌,都在罵蘋果,沒想到蘋果依然堅挺!

眼光很亮
2026-03-23 16:29:14
315晚會后,不出意外的話,這7樣?xùn)|西再“無人問津”,白給也不要

315晚會后,不出意外的話,這7樣?xùn)|西再“無人問津”,白給也不要

海豚女王
2026-03-25 04:16:54
斥資418億!廣州新機場開工建設(shè),佛山人沸騰!

斥資418億!廣州新機場開工建設(shè),佛山人沸騰!

GA環(huán)球建筑
2026-03-25 22:08:17
沈萬三臨終告誡:尋財無需高深本領(lǐng),牢記這三句話,輕松富甲一方

沈萬三臨終告誡:尋財無需高深本領(lǐng),牢記這三句話,輕松富甲一方

千秋文化
2026-02-10 21:02:09
喪心病狂!河南14歲少年被虐死案:死時穿紙尿褲,胃里空無一物

喪心病狂!河南14歲少年被虐死案:死時穿紙尿褲,胃里空無一物

春日在捕月
2026-03-25 01:00:23
太陰間?海底撈相框設(shè)計被吐槽:“好像享福去了”

太陰間?海底撈相框設(shè)計被吐槽:“好像享福去了”

品牌新
2026-03-25 15:21:52
《鏢人》再破紀(jì)錄,打敗《飛馳人生3》,登頂中國冠軍

《鏢人》再破紀(jì)錄,打敗《飛馳人生3》,登頂中國冠軍

影視高原說
2026-03-24 19:32:39
新版人民幣已正式落地,紙幣將被取代?蘇州試點6年揭示了答案

新版人民幣已正式落地,紙幣將被取代?蘇州試點6年揭示了答案

花寒弦絮
2026-03-25 05:20:04
泡泡瑪特閃崩,市值蒸發(fā)600億!發(fā)生了什么?

泡泡瑪特閃崩,市值蒸發(fā)600億!發(fā)生了什么?

說財貓
2026-03-25 16:45:41
以色列打不動了想?;?,伊朗說不:47年的賬,今天得算清

以色列打不動了想?;?,伊朗說不:47年的賬,今天得算清

現(xiàn)代小青青慕慕
2026-03-25 16:53:15
白宮向全世界公布了高市的丑態(tài)百出,日本網(wǎng)民炸了:國恥!丟臉

白宮向全世界公布了高市的丑態(tài)百出,日本網(wǎng)民炸了:國恥!丟臉

梁蜱愛玩車
2026-03-24 20:20:22
特朗普稱美國已將伊朗徹底從地圖上抹去,伊朗總統(tǒng)回應(yīng);內(nèi)塔尼亞胡:以色列和美國為世界而戰(zhàn),希望其他國家也加入進來

特朗普稱美國已將伊朗徹底從地圖上抹去,伊朗總統(tǒng)回應(yīng);內(nèi)塔尼亞胡:以色列和美國為世界而戰(zhàn),希望其他國家也加入進來

每日經(jīng)濟新聞
2026-03-23 08:19:10
2026-03-26 00:48:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11433文章數(shù) 117015關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

頭條要聞

伊朗放話愿意與"主和派"萬斯談 特朗普表態(tài)

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

家居
教育
時尚
手機
本地

家居要聞

輕奢堇天府 小資情調(diào)

教育要聞

寒門的缺點是自負(fù),優(yōu)點是敢拼

女人過了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

手機要聞

Bigme大我HiBreak Plus彩墨屏手寫手機亮相,預(yù)售價1699元

本地新聞

來永泰同安 赴一場春天的約會

無障礙瀏覽 進入關(guān)懷版