国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華聯(lián)手千問重塑歸一化范式,讓 Transformer 回歸「深度」學習

0
分享至



在十九世紀的暹羅王國曾誕生過這樣一對連體兄弟:他們分別擁有完整的四肢和獨立的大腦,但他們六十余年的人生被腰部相連著的一段不到十厘米的組織帶永遠綁定在了一起。他們的連體曾帶來無盡的束縛,直到他們離開暹羅,走上馬戲團的舞臺。十年間,兩兄弟以近乎合二為一的默契巡演歐美,獲得巨大成功。

此后,人們曾用他們的故鄉(xiāng)之名,將這種連體現(xiàn)象稱作 Siamese Twins(暹羅雙胞胎)。后來,這一命名跨越了生物學的邊界。1993 年,Yann LeCun 將其引入神經(jīng)網(wǎng)絡(luò),創(chuàng)造了共享權(quán)重的 Siamese Network(孿生網(wǎng)絡(luò)),用于衡量輸入的相似性。

時光流轉(zhuǎn),在二十一世紀的今天,人工智能領(lǐng)域也有一對 “雙胞胎”——Pre-Norm(前置歸一化)和 Post-Norm(后置歸一化)。他們?yōu)榻鉀Q大模型訓練穩(wěn)定性而生,迅速成為 Transformer 架構(gòu)中用于穩(wěn)定信號流的關(guān)鍵范式。

然而,歸一化帶來的訓練穩(wěn)定性并非沒有代價,兩種歸一化范式之間似乎面臨著難以調(diào)和的權(quán)衡取舍。

盡管近年來 Pre-Norm 被 GPT-3、LLaMA、DeepSeek、Qwen 等知名開源基座所采用,但多項研究共同指向了一個嚴峻事實:Pre-Norm 架構(gòu)存在嚴重的 “深度失效” 問題 —— 大量深層參數(shù)雖在參與計算,卻無法拓展模型的表征能力,致使模型的 “有效深度” 嚴重受限。

與之相對的,盡管從表征能力角度 Post-Norm 擁有更高潛力,但其訓練不穩(wěn)定性在現(xiàn)代 Transformer 的預訓練范式下是毀滅性的。于是,Pre-Norm 與 Post-Norm 這一對為解決同一難題而誕生的雙胞胎,在各自追求 “穩(wěn)定” 與 “深度” 的道路上分道揚鑣。

難道穩(wěn)定與深度,注定是一場無法調(diào)和的零和博弈嗎?

近日,清華大學黃高 Leap Lab 團隊聯(lián)合千問 C 端團隊給出了一份全新的答案 —— SiameseNorm。



  • 論文標題:SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm
  • 論文鏈接:https://arxiv.org/abs/2602.08064

這一創(chuàng)新的孿生雙流架構(gòu),巧妙地解耦了優(yōu)化動力學:它并未在 Pre-Norm 與 Post-Norm 之間做二選一的取舍,而是構(gòu)建了兩條參數(shù)共享的平行通路。

在這一架構(gòu)下,一條流通過 Pre-Norm 機制保證訓練的穩(wěn)定性,另一條流則利用 Post-Norm 特性極大地釋放模型的表征潛力。這種設(shè)計讓每個殘差塊都能接收到來自兩種范式的組合梯度,在幾乎不增加計算開銷的前提下,實現(xiàn)了高學習率下的穩(wěn)定訓練。這一精巧的雙流協(xié)作,恰如默契的暹羅雙胞胎,將兩種范式的對立轉(zhuǎn)化為深度融合的協(xié)同優(yōu)勢。



可以看到,SiameseNorm 可以被看做 Pre-Norm 和 Post-Norm 的耦合


1. 困境:單主干架構(gòu)的先天缺陷與范式對立

前置還是后置?這仿佛是 Transformer 世界的 “魚與熊掌”。研究者不得不在 “訓練穩(wěn)定但可能平庸” 的 Pre-Norm 與 “潛力巨大卻難以駕馭” 的 Post-Norm 之間做出艱難抉擇。更令人困擾的是,任何試圖在單主干(Single-Stream)架構(gòu) —— 即在共享同一條信息主干線的經(jīng)典設(shè)計中調(diào)和二者的努力,都遭遇了數(shù)學上的根本性障礙。

痛點 1:Pre-Norm 的 “稀釋” 與 Post-Norm 的 “畸變”

Transformer 的設(shè)計核心在于殘差連接。然而,現(xiàn)有的兩種主流范式都存在致命的結(jié)構(gòu)性缺陷:

  • Pre-Norm (稀釋問題):為了保證梯度暢通,Pre-Norm 保留了一條干凈的恒等路徑(Identity Path)。但這導致主干流的信號幅度隨深度巨幅增長 。到了深層,層歸一化(LN)后的輸入相對于巨大的主干流來說微乎其微,導致深層網(wǎng)絡(luò)的貢獻被 “稀釋”,模型實際上退化成了 “淺層” 網(wǎng)絡(luò)。最直觀的實驗證據(jù)來自于層剪枝(Layer Pruning)實驗:將 Pre-Norm 模型 30% 的層直接移除,在零微調(diào)的情況下,其評估指標竟幾乎沒有損失。



  • Post-Norm (畸變問題):Post-Norm 強制在殘差相加后進行歸一化,保證了表示的效率,理論上限更高。但這也意味著它在每一步都在強行 “壓縮” 信號,導致梯度的傳導被破壞,容易引發(fā)梯度消失或爆炸。

痛點 2:兩大范式的不可兼容性

目前的混合方案(Hybrid)試圖在兩者間尋找平衡,但論文深刻地揭示了,這兩種結(jié)構(gòu)在單主干設(shè)計中本質(zhì)上是互斥的:

  • 梯度的 “無損傳輸” vs. 信號的 “尺度束縛”: Pre-Norm 的穩(wěn)定性依賴于保留嚴格的恒等路徑(Identity Path),這意味著必須允許信號幅度在主干中自然增長,以確保梯度能夠無損傳播。相反,Post-Norm 的高效性依賴于嚴格規(guī)范(Regulation),即在主干中通過歸一化限制信號幅度,以維持特征的表達效率 。
  • 單主干的理論極限:論文指出,在共享同一條主干路徑的前提下,在數(shù)學上不可能同時做到兩件事:既保留一條完全干凈、不受阻礙的梯度通道(Pre-Norm 的要求),又同時對主干信號強制施加嚴格的幅度約束(Post-Norm 的要求)。

因此,任何試圖在單主干結(jié)構(gòu)內(nèi)強行融合兩者的嘗試(如交替使用或混合歸一化),最終都只能是一種 “妥協(xié)”:它們不僅無法兼得二者之長,反而繼承了 Post-Norm 的不穩(wěn)定性,導致在高學習率下訓練崩潰。要打破這個僵局,必須從結(jié)構(gòu)上進行徹底的解耦(Decoupling)。

2. 破局:SiameseNorm 的雙流解耦之道



兩條流擁有相同的輸入,而通過不同的 LayerNorm 位置,兩條流隨后分化。

SiameseNorm 的核心洞察在于:我們無法在單一信號流中同時滿足 “梯度傳導” 和 “表示規(guī)范” 這兩個互斥的需求。

因此,SiameseNorm 引入了 “孿生雙流”(Siamese)機制 :

1. Pre-Norm 流(Y 流):負責 “穩(wěn)”。它保留未歸一化的狀態(tài),確保擁有一條干凈的梯度高速公路。

2. Post-Norm 流(X 流):負責 “強”。它時刻保持歸一化,確保特征表示不會發(fā)生坍塌或發(fā)散。

從圖中也可以看出,把下一半遮住,它退化成 post-norm;把上一半遮住,它退化成 pre-norm。而在訓練過程中,LayerNorm 的可學習權(quán)重可以調(diào)整兩條流的大小關(guān)系。通過將支流上的 LayerNorm 調(diào)整為 0,可以退化成現(xiàn)有的 Pre-Norm、Post-Norm、Mix-LN 范式。

這一架構(gòu)的核心在于高效的 “參數(shù)共享” 機制:雙流路徑并非獨立存在,而是共享殘差塊(Attention/MLP)的權(quán)重。這意味著 SiameseNorm 幾乎沒有帶來參數(shù)量與計算的增長。 為降低這種耦合結(jié)構(gòu)的訓練難度,架構(gòu)中進一步引入了 Normalized Input(歸一化輸入) 與 Depth-wise Scaling(深度縮放),有效解決了參數(shù)共享的雙流架構(gòu)帶來的優(yōu)化對齊挑戰(zhàn)。

3. 硬核實測:拯救 Post-Norm,數(shù)學任務(wù)暴漲 40%

在 1.3B 參數(shù)模型、100B/350B tokens、總計算成本超過 50,000 A100 GPU 小時的預訓練實驗中,SiameseNorm 展現(xiàn)了驚人的統(tǒng)治力:

直面公平對比的挑戰(zhàn):研究者首先在不同的學習率下對比了現(xiàn)有各種 Pre-Norm 和 Post-Norm/HybridNorm 變體的表現(xiàn),發(fā)現(xiàn)兩類范式的最優(yōu)學習率存在顯著差異,這揭示了一個長期被忽視的問題:超參(尤其學習率)的選擇足以改變架構(gòu)對比的結(jié)論。

換言之,過往許多研究因未能適配 Pre-Norm 的最優(yōu)配置,實際上人為地壓低了基線的性能天花板,從而制造了 “性能顯著提升” 的假象。因此,一個公平的比較應該對不同方法分別做超參搜索,而這在大模型預訓練中成本極高。在本篇論文中,研究者直接沿用了主流 Pre-Norm 的訓練超參。這一策略旨在證明,SiameseNorm 無需依賴特定的參數(shù)微調(diào),即可展現(xiàn)出超越基線的魯棒性與性能。

無懼高學習率:實驗表明,當學習率激進地提升至2e-3時,傳統(tǒng)的 Post-Norm 及 HybridNorm 架構(gòu)均出現(xiàn)了不可逆的訓練發(fā)散(Divergence)。相比之下,SiameseNorm 展現(xiàn)了卓越的優(yōu)化穩(wěn)定性,不僅成功收斂,其訓練 Loss 更是顯著優(yōu)于 Pre-Norm 基線,實現(xiàn)了高達 0.41 的 PPL 收益。

進一步的消融實驗揭示了其內(nèi)在的協(xié)同增益機制:在同等實驗設(shè)置下,通過 Siamese 拓撲將 “易發(fā)散” 的 HybridNorm 流與 “基線級” 的 Pre-Norm 流(PPL 10.84)進行無任何輔助機制的直接耦合,模型取得了 10.68 的更優(yōu) PPL。這一結(jié)果有力地證明,Siamese 設(shè)計并非簡單的堆砌,而是成功實現(xiàn)了兩大范式的互補,從而突破了單一范式的性能天花板 。

通用基準的全面提升與推理能力的質(zhì)變:SiameseNorm 不僅在通用語言理解任務(wù)上確立了領(lǐng)先地位,更在邏輯推理中實現(xiàn)了突破。在 HellaSwag、OpenBookQA、PIQA 等涵蓋常識與知識問答的廣泛基準測試中,該模型均取得了最佳成績 。

尤為引人注目的是,在最依賴模型有效深度的算術(shù)任務(wù)(Arithmetic)上,Pre-Norm 的準確率僅為 28.1%,而 SiameseNorm 躍升至 39.6%,相對提升高達 40.9%。這一結(jié)果有力地證明,雙流架構(gòu)在保持通用能力全面領(lǐng)先的同時,成功喚醒了 Transformer 深層網(wǎng)絡(luò)的潛能,顯著修復了模型的鏈式推理能力。



實驗結(jié)果一覽,* 表示訓練 loss 出現(xiàn)顯著尖峰

4. 機制探究:各流的貢獻分析

研究人員首先通過提取兩條流中 LayerNorm 的可學習縮放參數(shù),計算了它們對模塊輸入的相對貢獻比例。實驗結(jié)果顯示,在絕大多數(shù)殘差塊中,兩條流均保持了顯著的權(quán)重占比。這表明網(wǎng)絡(luò)并未出現(xiàn)單側(cè)退化現(xiàn)象,而是有效地利用了來自兩端的隱藏表征進行聯(lián)合特征提取。



通過 Logit Lens 技術(shù)分析,研究人員發(fā)現(xiàn)了一個有趣的現(xiàn)象:在 SiameseNorm 的最終輸出中,Post-Norm 流(X 流)占據(jù)了主導地位,其對最終預測的貢獻度顯著高于 Pre-Norm 流。

上述現(xiàn)象支持了一種直觀的解釋:Pre-Norm 流主要充當了 “訓練腳手架” 的角色,負責在訓練初期保障穩(wěn)定性;而一旦模型步入正軌,具有更強特征表達能力的 Post-Norm 流的潛力便被釋放出來,在形成最終決策時發(fā)揮主導作用。

結(jié)語

長期以來,為了 “跑得通”,我們不得不接受 Pre-Norm 對有效深度的犧牲;而 Post-Norm 雖然更具表達潛力,卻又常因不穩(wěn)定而難以進入大規(guī)模預訓練的主流配置。

SiameseNorm 給出了一個優(yōu)雅的答案:不再做選擇題。它以近乎不增加成本的方式,把 Pre-Norm 的優(yōu)化魯棒性與 Post-Norm 的表征潛力統(tǒng)一在同一個框架內(nèi)。對于追求更高學習率、更深網(wǎng)絡(luò)、更強推理能力的大模型研發(fā)者而言,SiameseNorm 指明了一條清晰的路徑:讓 Transformer 走出 “淺層困境”,回歸原始意義上的 “深度學習”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
13分完勝!騎士季后賽開門紅:全場狂歡慶祝,哈登首秀22+10

13分完勝!騎士季后賽開門紅:全場狂歡慶祝,哈登首秀22+10

體壇小李
2026-04-19 04:40:58
不想訪華了?特朗普召回美駐華大使,貝森特揚言:中國“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特揚言:中國“不可靠”

米師傅安裝
2026-04-19 00:24:40
國內(nèi)“退休收入十級表”出爐,6級以上生活沒壓力,你達到了嗎?

國內(nèi)“退休收入十級表”出爐,6級以上生活沒壓力,你達到了嗎?

大果小果媽媽
2026-04-18 22:36:28
3-0碾壓衛(wèi)冕冠軍泰州隊,徐州隊迎蘇超開門紅,苗潤東無敵雙響炮

3-0碾壓衛(wèi)冕冠軍泰州隊,徐州隊迎蘇超開門紅,苗潤東無敵雙響炮

側(cè)身凌空斬
2026-04-18 21:41:47
長得確實太美,從護士轉(zhuǎn)行為演員,出道第一部劇就演了女主

長得確實太美,從護士轉(zhuǎn)行為演員,出道第一部劇就演了女主

草莓解說體育
2026-04-18 09:23:44
4月18日俄烏最新:盧卡申科的小九九

4月18日俄烏最新:盧卡申科的小九九

西樓飲月
2026-04-18 17:25:20
4.8萬紫檀珠直播被砍暈!彈幕比妖怪還犀利?遲重瑞憋不住了

4.8萬紫檀珠直播被砍暈!彈幕比妖怪還犀利?遲重瑞憋不住了

鑒史錄
2026-04-18 17:55:00
王嘉爾在多倫多開演唱會,發(fā)現(xiàn)觀眾席揮舞中國國旗,立即伸手接過跑回舞臺高舉,全場歡呼沸騰

王嘉爾在多倫多開演唱會,發(fā)現(xiàn)觀眾席揮舞中國國旗,立即伸手接過跑回舞臺高舉,全場歡呼沸騰

觀威海
2026-04-16 10:20:05
阿斯:皇馬去年12月就想換掉阿隆索,如今認為白白浪費一個月

阿斯:皇馬去年12月就想換掉阿隆索,如今認為白白浪費一個月

懂球帝
2026-04-19 04:48:55
笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

另子維愛讀史
2026-04-17 17:36:52
破防了!一37歲女子相親遇國企月薪5500男生,稱不接受貧窮的生活

破防了!一37歲女子相親遇國企月薪5500男生,稱不接受貧窮的生活

火山詩話
2026-04-16 07:52:49
特朗普:美伊正在對話,“伊朗又想封鎖海峽,但無法要挾我們,今天結(jié)束前會有消息”

特朗普:美伊正在對話,“伊朗又想封鎖海峽,但無法要挾我們,今天結(jié)束前會有消息”

澎湃新聞
2026-04-19 01:00:04
3-2擊敗武里南聯(lián),阿聯(lián)酋球隊創(chuàng)隊史紀錄,首次晉級亞冠精英賽4強

3-2擊敗武里南聯(lián),阿聯(lián)酋球隊創(chuàng)隊史紀錄,首次晉級亞冠精英賽4強

側(cè)身凌空斬
2026-04-19 03:00:54
許家印昔日辦公室內(nèi)景曝光,房間一個接著一個很奢華,像迷宮一樣

許家印昔日辦公室內(nèi)景曝光,房間一個接著一個很奢華,像迷宮一樣

娛樂團長
2026-04-16 20:26:02
馬云預言又應驗!若無意外,2026年起,中國房地產(chǎn)或迎來3大轉(zhuǎn)變

馬云預言又應驗!若無意外,2026年起,中國房地產(chǎn)或迎來3大轉(zhuǎn)變

專業(yè)聊房君
2026-04-18 16:53:46
深夜猝死的人增多!醫(yī)生反復強調(diào):吃完晚飯后,盡量少做這4件事

深夜猝死的人增多!醫(yī)生反復強調(diào):吃完晚飯后,盡量少做這4件事

岐黃傳人孫大夫
2026-04-18 11:45:03
一條煙、一瓶酒,2026年5月起,連茶葉盒都得過紀檢這道關(guān)

一條煙、一瓶酒,2026年5月起,連茶葉盒都得過紀檢這道關(guān)

周哥一影視
2026-04-17 19:29:59
康凱:把“張飛”演成傻子,無戲可拍11年,如今現(xiàn)狀令人唏噓

康凱:把“張飛”演成傻子,無戲可拍11年,如今現(xiàn)狀令人唏噓

流云隨風去遠方
2026-04-18 15:35:50
超長降雨,一口氣下5天!4月首波強冷空氣南下確定:還有沙塵暴

超長降雨,一口氣下5天!4月首波強冷空氣南下確定:還有沙塵暴

風云圈天氣
2026-04-19 00:53:31
曝王思聰近況:暴瘦脫相 禿頂脫發(fā),拒付200萬后,黃一鳴頻繁發(fā)聲

曝王思聰近況:暴瘦脫相 禿頂脫發(fā),拒付200萬后,黃一鳴頻繁發(fā)聲

東方不敗然多多
2026-04-18 15:31:29
2026-04-19 05:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12792文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

家居
教育
親子
游戲
公開課

家居要聞

法式線條 時光靜淌

教育要聞

“抱歉,我們只看第一學歷”,985碩士面試被拒,考研還有必要嗎

親子要聞

退燒藥怎么用?90%家長都搞錯了

讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版