網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

【梁文鋒署名】DeepSeek新論文：所有人都覺得沒必要改的東西，他們改了

2026-01-01 18:17:24　來源: AI進(jìn)化論花生

北京舉報

分享至

2025年的最后一天，DeepSeek又發(fā)論文了。

過去一年，很多人都在問同一個問題：DeepSeek為什么能用更少的錢，做出更強(qiáng)的模型？

答案當(dāng)然不止一個。但這篇論文透露了其中一個思路：去優(yōu)化那些所有人都覺得"已經(jīng)是最優(yōu)解"的東西。

這次他們動的是殘差連接——一個深度學(xué)習(xí)領(lǐng)域用了十年、幾乎沒人質(zhì)疑過的基礎(chǔ)設(shè)計。

論文名字有點(diǎn)硬核：mHC（Manifold-Constrained Hyper-Connections），翻譯過來就是"流形約束的超連接"。但核心思想其實(shí)不復(fù)雜，今天試著用人話講清楚。

先說背景：殘差連接統(tǒng)治了深度學(xué)習(xí)十年

經(jīng)常訓(xùn)練大模型的朋友，一定聽過"殘差連接"（Residual Connection）這個詞。

2015年，何愷明團(tuán)隊(duì)提出ResNet，核心創(chuàng)新就是這個殘差連接。簡單說就是：每一層的輸出 = 這一層學(xué)到的東西 + 上一層的輸入。

用公式表示：

x_{l+1} = x_l + F(x_l)

這個設(shè)計看起來簡單，但解決了一個大問題：網(wǎng)絡(luò)太深就訓(xùn)不動。

為什么？因?yàn)樘荻认?。信號在幾十上百層網(wǎng)絡(luò)里傳遞，越傳越弱，最后弱到模型根本學(xué)不到東西。

殘差連接的妙處在于：它給信號開了一條"快車道"。不管中間那些層學(xué)到了什么，原始信號都能直接傳到后面。這就是所謂的恒等映射（Identity Mapping）——淺層的信息可以原封不動地傳到深層。

從2015年到現(xiàn)在，不管是GPT、LLaMA還是Gemini，幾乎所有大模型都在用這個設(shè)計。十年了，沒人動過它。

DeepSeek的第一次嘗試：Hyper-Connections

2024年9月，DeepSeek發(fā)了一篇論文，提出了Hyper-Connections（HC），第一次對殘差連接動刀。

核心思想是：既然殘差連接的權(quán)重是固定的（1:1），為什么不讓模型自己學(xué)習(xí)最優(yōu)的連接方式？

HC做了兩件事：

把殘差流從1條擴(kuò)展到n條（通常n=4）
引入可學(xué)習(xí)的連接矩陣，讓模型自己決定怎么混合這些信號

效果確實(shí)好。論文數(shù)據(jù)顯示：

訓(xùn)練收斂速度提升1.8倍
ARC-Challenge任務(wù)提升6個百分點(diǎn)

這個提升挺猛的。但HC有一個致命缺陷——訓(xùn)練不穩(wěn)定。

HC的問題：信號放大了3000倍

這是論文里最直觀的一張圖。

看左邊那條藍(lán)線（HC），在第12000步左右，損失突然飆升。這對大規(guī)模訓(xùn)練來說是致命的——你可能已經(jīng)燒了幾百萬的算力，結(jié)果模型突然崩了。

為什么會這樣？

論文里有詳細(xì)分析。核心原因是：HC破壞了恒等映射的特性。

還記得殘差連接的公式嗎？x_{l+1} = x_l + F(x_l)。這里的x_l是"1倍"傳遞到下一層的。但HC引入了可學(xué)習(xí)的權(quán)重矩陣H，信號傳遞變成了：

x_{l+1} = H * x_l + ...

問題來了：H是可學(xué)習(xí)的，沒有任何約束。

當(dāng)網(wǎng)絡(luò)有60層時，信號要經(jīng)過60個H矩陣的連乘。如果每個H的"放大倍數(shù)"稍微大于1，連乘60次會發(fā)生什么？

指數(shù)爆炸。

論文測量了這個"放大倍數(shù)"（Amax Gain Magnitude）。理想情況下應(yīng)該是1（信號不放大也不縮?。?。但HC在27B模型上的實(shí)測結(jié)果是——

峰值達(dá)到3000。

信號被放大了3000倍，梯度也被放大了3000倍。難怪訓(xùn)練會崩。

mHC的解法：雙隨機(jī)矩陣

現(xiàn)在問題清楚了：H矩陣太"自由"了，沒有約束，所以會亂來。

那怎么約束它？

最簡單的方法是讓H = I（單位矩陣），這樣就退化回原始的殘差連接了。但這樣就失去了HC的性能優(yōu)勢。

DeepSeek的解法很優(yōu)雅：把H約束在"雙隨機(jī)矩陣"上。

什么是雙隨機(jī)矩陣？簡單說就是滿足兩個條件的矩陣：

所有元素都 ≥ 0
每行之和 = 1，每列之和 = 1

舉個例子，這是一個2×2的雙隨機(jī)矩陣：

[0.3, 0.7]
[0.7, 0.3]

每行加起來是1，每列加起來也是1。

為什么這個約束有效？

因?yàn)殡p隨機(jī)矩陣做的事情本質(zhì)上是"加權(quán)平均"。

當(dāng)你用雙隨機(jī)矩陣乘以一個向量時，結(jié)果向量的每個元素都是輸入向量的凸組合（加權(quán)平均）。加權(quán)平均有一個天然的性質(zhì)：結(jié)果不會超出輸入的范圍。

這就從數(shù)學(xué)上保證了信號不會爆炸。

更妙的是，雙隨機(jī)矩陣還有一個"封閉性"：兩個雙隨機(jī)矩陣相乘，結(jié)果還是雙隨機(jī)矩陣。

這意味著不管網(wǎng)絡(luò)有多深，60層、100層、1000層，信號經(jīng)過多少個H矩陣的連乘，結(jié)果仍然是一個雙隨機(jī)矩陣，仍然滿足"不會爆炸"的性質(zhì)。

論文用了一個算法叫Sinkhorn-Knopp來做這個投影。具體細(xì)節(jié)不展開了，核心就是迭代地調(diào)整矩陣的行和列，讓它們都?xì)w一化到和為1。

效果：穩(wěn)定性提升三個數(shù)量級

mHC的效果怎么樣？

先看穩(wěn)定性。同樣是27B模型，同樣的訓(xùn)練配置：

指標(biāo)

mHC

Amax Gain峰值

3000

1.6

從3000降到1.6，降低了三個數(shù)量級。說實(shí)話，看到這個數(shù)字的時候我愣了一下——這個改進(jìn)幅度有點(diǎn)離譜。

訓(xùn)練曲線也變得平滑了，再也沒有那個可怕的"損失飆升"。

再看性能。mHC不僅比原始的殘差連接強(qiáng)，甚至比不穩(wěn)定的HC還要強(qiáng)：

Benchmark

Baseline

mHC

BBH

43.8

48.9

51.0

DROP

47.0

51.6

53.9

GSM8K

46.7

53.2

53.8

MMLU

59.0

63.0

63.4

mHC在大多數(shù)任務(wù)上都比HC更好，特別是推理任務(wù)（BBH +2.1%，DROP +2.3%）。

穩(wěn)定性提升了，性能也提升了。那代價呢？

只增加了6.7%的訓(xùn)練時間。

這個數(shù)字挺關(guān)鍵的。HC雖然不增加FLOPs（浮點(diǎn)運(yùn)算量），但因?yàn)閿U(kuò)展了殘差流寬度，內(nèi)存訪問成本大幅增加。DeepSeek在論文里花了大量篇幅講基礎(chǔ)設(shè)施優(yōu)化——內(nèi)核融合、選擇性重計算、通信重疊——才把開銷控制在這個水平。

為什么這個方法優(yōu)雅？

讀完這篇論文，我覺得mHC的設(shè)計挺漂亮的，主要體現(xiàn)在三個地方：

1. 問題定義精準(zhǔn)

很多研究會籠統(tǒng)地說"訓(xùn)練不穩(wěn)定"，但DeepSeek精確地定位到了問題根源：恒等映射特性的喪失導(dǎo)致信號在多層傳播時爆炸。有了這個精準(zhǔn)定義，解決方案才能有的放矢。

2. 解決方案有數(shù)學(xué)保證

雙隨機(jī)矩陣不是拍腦袋想出來的，而是有嚴(yán)格的數(shù)學(xué)性質(zhì)支撐：

譜范數(shù) ≤ 1（不會放大信號）
組合封閉性（多層仍然穩(wěn)定）
Birkhoff多面體的幾何解釋（是所有置換矩陣的凸組合）

這種有數(shù)學(xué)保證的方法，比"試了一百種trick發(fā)現(xiàn)這個work"要可靠得多。

3. 工程和理論并重

很多論文只講理論創(chuàng)新，對工程實(shí)現(xiàn)一筆帶過。但DeepSeek的論文花了相當(dāng)篇幅講基礎(chǔ)設(shè)施優(yōu)化：怎么融合內(nèi)核、怎么減少內(nèi)存占用、怎么和DualPipe調(diào)度配合。這才是能真正落地的研究。

往大了說：DeepSeek在找什么？

回到開頭的問題：DeepSeek為什么能用更少的錢做出更強(qiáng)的模型？

這篇論文給出了一個側(cè)面的答案：他們在找那些"所有人都覺得已經(jīng)是最優(yōu)解"的東西，然后證明它不是。

過去十年，大模型的架構(gòu)創(chuàng)新主要集中在"微觀設(shè)計"——Attention怎么改、FFN怎么改、位置編碼怎么改。但殘差連接？從2015年到現(xiàn)在，幾乎原封不動。大家默認(rèn)它沒什么可優(yōu)化的了。

mHC證明了這個假設(shè)是錯的。

更重要的是，這種優(yōu)化的特點(diǎn)是：不增加計算量，只改變信息流動的方式。同樣的FLOPs，更好的效果。

這可能就是DeepSeek的技術(shù)哲學(xué)之一：不是比誰燒的錢多，而是比誰能在同樣的資源下榨取更多性能。

當(dāng)然，mHC還解決了一個實(shí)際問題：讓HC能穩(wěn)定訓(xùn)練。HC本身是個好方法，但因?yàn)椴环€(wěn)定沒法用。mHC修復(fù)了這個缺陷，讓這條架構(gòu)創(chuàng)新的路能走下去。

論文最后一句話說得挺直接的：

"我們希望mHC能重新激發(fā)社區(qū)對宏觀架構(gòu)設(shè)計的興趣。"

翻譯一下：過去大家都在卷Attention、卷FFN、卷MoE?，F(xiàn)在DeepSeek說，層與層之間怎么連接，這塊也有金礦。

最后

這篇論文給我最大的啟發(fā)是：當(dāng)你發(fā)現(xiàn)一個方法有效但不穩(wěn)定時，不要放棄，而是去找約束條件。

雙隨機(jī)矩陣就是這樣一個約束——它保留了HC的表達(dá)能力（可學(xué)習(xí)的連接權(quán)重），同時通過數(shù)學(xué)性質(zhì)保證了穩(wěn)定性（加權(quán)平均不會爆炸）。在自由和約束之間找平衡，這個思路可能在很多領(lǐng)域都適用。

回到開頭的問題：DeepSeek為什么能做到別人做不到的事？

這篇論文給出的答案是：去質(zhì)疑那些"所有人都覺得沒必要改"的東西。殘差連接用了十年，不代表它是最優(yōu)解。

2025年最后一天發(fā)這篇論文，DeepSeek給2026年開了個好頭。

參考資料：

mHC論文：https://arxiv.org/abs/2512.24880
Hyper-Connections論文：https://arxiv.org/abs/2409.19606
DeepSeek-V3技術(shù)報告：https://arxiv.org/abs/2412.19437

@Deepseek 用我奶奶也能懂的方式，用100字解釋下這篇論文。

奶奶，你想啊，AI訓(xùn)練就像帶熊孩子。以前的規(guī)矩是：拉著手走，一步都不許亂動。安全，但孩子啥也學(xué)不會。后來有人說：放開讓他跑吧。結(jié)果跑著跑著就跑丟了。 DeepSeek的辦法：讓孩子自己跑，但只能在圍欄里跑。怎么跑都行，反正跑不出去。給自由畫個圈，這就是mHC。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.