網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

前有DeepSeek，后有Kimi！馬斯克狂贊的中國雙子星，炸穿大模型10年地基

2026-03-28 00:09:37　來源: 大數(shù)據(jù)文摘

北京舉報

分享至

大數(shù)據(jù)文摘受權轉(zhuǎn)載自夕小瑤科技說

黃仁勛召開了英偉達 GTC 大會。

我在看直播的時候注意到一個關鍵細節(jié)——楊植麟是這次大會上唯一受邀演講的中國大模型公司創(chuàng)始人。

在演講中他罕見地直接表達：很多普遍使用的技術標準，正成為大模型 Scaling 的瓶頸。并且連著表達了三次“we scale and open-sourced”。

“我們規(guī)?；炞C了，并且開源了”。

后面跟著三個關鍵詞——MuonClip、Kimi Linear、Attention Residuals。

這三樣東西剛好覆蓋了深度學習訓練最底層的三個基礎結(jié)構(gòu)——優(yōu)化器、注意力機制、殘差連接。

Kimi 三個全動了，而且規(guī)模化驗證后開源。

它們解決的問題各不相同，但是姿態(tài)是一樣的，都是對用了將近十年沒人動的基礎組件動刀。這第三項，正是兩天前 Karpathy 和馬斯克在 X 上點贊的那篇論文。

Karpathy 言外之意在說：attention 如果真的 is all you need，為什么不在深度這個維度上也用？Kimi 這篇論文干的正是這件事。

馬斯克也給 Kimi 的工作點了贊。

非常巧的是，去年的最后幾天，DeepSeek 也在 mHC（Manifold-Constrained Hyper-Connections）的論文里，對「殘差連接」動了刀。

要理解這件事為什么這么重要，可能還得先理解殘差連接是啥，解決了啥。

殘差連接用了 10 年，問題在哪？

讓我們回到 2015 年。

2015 年，深度神經(jīng)網(wǎng)絡有個致命的毛病：越深越爛。

理論上層數(shù)越多，模型表達能力越強；但實際上，訓練信號（梯度）從輸出層往回傳的時候，每經(jīng)過一層就會衰減一點，等傳到前面的層，信號已經(jīng)弱到接近于零，模型已經(jīng)接變笨了。原因很簡單，太深了，學不動了。這就是「梯度消失」。

而 ResNet 就解決了這個大麻煩，它的做法很巧妙，既然每一層傳遞的時候都會“忘記”一些東西，導致最后直接什么都沒有，那我就強制要求每一層在往后傳遞的時候，除了要傳遞該層的變換，還要保留原始輸入。它的公式很簡單：

第 l 層的輸出，等于上一層的輸出，加上本層的變換結(jié)果。

這個設計最重要的意義，是保住了一條 identity path。

用大白話說，就是給信息留了一條“原樣直通”的通道，后面的變換怎么折騰都行，但至少有一部分輸入不會被改寫，能直接往后傳。

這是 ResNet 的天才之處，也是 Transformer 能一路堆到今天這個深度的地基。

但地基里，埋著一個隱患。

Transformer 用的是「PreNorm」，也就是先把輸入做歸一化，再過注意力或 FFN，最后加殘差。

這個設計配合殘差連接，相當于強制要求在信息傳遞時?！霸募薄Ｃ恳粚佣计降鹊乩^承所有歷史層的輸出，沒有誰更重要。

把殘差連接的遞歸展開，會得到一個直觀的視角：

發(fā)現(xiàn)問題了嗎？

每一層的貢獻權重都是 1。無論第 3 層提取的是什么特征，無論第 97 層處理的是什么輸入，它們對最終狀態(tài)的貢獻量，完全相同。

PreNorm 把輸入先做標準化，意味著所有層的輸出都被拉到同一尺度；殘差連接又強制等權累加。結(jié)果就是，深層的語義個性被稀釋了。

隨著網(wǎng)絡加深，這個累加的總量越來越大——數(shù)學上，它大致按層數(shù) L 線性增長。越往后的層，你新產(chǎn)生的輸出，在這團不斷累積的歷史信息里，占比越來越小。越深的層，越難留下痕跡。要想保持影響力，它只能輸出更大幅度的更新。

論文把這個現(xiàn)象叫「PreNorm dilution」——PreNorm 導致的信息稀釋。

就像一本永不刪改的會議記錄本，每次開會，新的紀要都往后疊，舊的內(nèi)容一字不刪，誰都保留?？瓷先ズ芊€(wěn)，很安全，很尊重歷史?？蓵h一旦開多了，問題就來了：后來的發(fā)言者想留下真正有效的意見，就得喊得越來越響。不是因為前面的人更有道理，只是因為紙已經(jīng)太厚了。

這就是為什么殘差連接的問題，不在于它無效，而在于它太死板。它保住了信息，卻把所有信息一視同仁地保住了。它給了網(wǎng)絡一條歷史通道，卻沒給網(wǎng)絡“該從歷史里拿什么”的能力。

這個問題存在了 10 年。沒人動，不是因為沒人知道，而是因為它夠用了，簡單、穩(wěn)定、零額外成本。

另一個原因是過去十年大家主要在改的是別的地方。

注意力、激活函數(shù)、歸一化、MoE 路由、多模態(tài)融合，這些都被反復翻新；唯獨層與層之間的信息流動方式，長期被當成基礎設施默認不動。

論文的 related work 里，Highway、Hyper-Connections、mHC、DDL 這些路線都被系統(tǒng)梳理了一遍?？蛇@些方法大多還停留在“如何修補這條加法路徑”的層面：調(diào)一調(diào)比例，開幾條并行流，或者想辦法讓狀態(tài)別壓得那么狠。

真正幾乎沒人認真追問的是：既然橫向的時間序列上用 Attention 能獲得更智能的全局理解，為什么縱向的深度維度就不行呢？

這正是 Attention Residuals 的出發(fā)點。

論文給了一個很妙的類比。像 RNN 這樣的序列模型，本質(zhì)上也是把過去的信息不斷壓進一個滾動狀態(tài)里，沿時間一步一步往后傳。后來 Transformer 用 attention 改了這件事：每個位置不必再死守一個壓縮后的總狀態(tài)，而是可以直接看所有歷史位置，動態(tài)決定該看誰、看多少。

作者說，深度維度其實也有同樣的問題。標準殘差連接讓每一層只接住一個已經(jīng)被混好的總狀態(tài)，跟當年的序列遞歸有一種很強的形式對偶。既然序列這邊已經(jīng)從 RNN 走到了 attention，深度這邊為什么不行？

于是，Attention Residuals 做的事情就清楚了：它把標準殘差里那個固定為 1 的權重，換成了一個可學習、而且依賴輸入的 attention 權重。

每一層用一個可學習的查詢向量 w_l，去和所有歷史層的輸出做匹配，經(jīng) softmax 歸一化后得到權重，再加權求和：

每層只額外引入一個 d 維的可學習向量，參數(shù)量極少。同樣是第 50 層，面對不同輸入，它聚合歷史信息的方式可以完全不同。

左邊是過去 10 年我們最熟悉的標準殘差：所有層輸出一路等權相加。
中間是理論上最完整的 Full AttnRes：每一層都可以回看并選擇所有歷史層。
右邊則是能落地實現(xiàn)方式 Block AttnRes：把層分塊，在保住大部分效果的同時，把系統(tǒng)開銷壓下來。

再講講 DeepSeek 前段時間也發(fā)布了一個對殘差連接動刀的工作，叫做「mHC（Manifold-Constrained Hyper-Connections）」。它延續(xù)的是 Hyper-Connections 這條路線：把原本單條的 residual stream 擴展成多條并行流，讓層與層之間的信息交換不再只走一條固定通道。

mHC 把殘差流從單條擴展成多條（n 流），用可學習的矩陣來調(diào)節(jié)層間的信息流，再用數(shù)學約束（雙隨機矩陣）來保持穩(wěn)定。本質(zhì)上，這是對 residual stream 的橫向擴展。重點是先把路拓寬，讓信息有多條并行路徑可以走。

Kimi 這次走的是另一條路，在原有這條深度通路上，重寫了信息聚合的規(guī)則。

過去，前面各層的輸出是固定等權地一路相加；現(xiàn)在，它用 depth-wise softmax attention 來做跨層選擇，讓每一層都能動態(tài)決定該從哪些早期表示里多取一點、少取一點。這樣一來，重要信息會被突出，次要信息會被壓低，早期層里那些原本容易在層層累加中被沖淡的語義，也更有機會被后續(xù)層重新調(diào)出來。

其實這兩條路并不互相否定，論文里甚至直接說了，AttnRes 和 mHC 在某種意義上是正交的?？蓮臄⑹律峡?，這兩家公司幾乎同時，從不同角度，對一個用了 11 年的基礎結(jié)構(gòu)提出了質(zhì)疑。這說明，層與層之間的信息流動方式，正在重新成為大模型研究里的關鍵問題。

Kimi 這篇論文更進一步的地方在于，在于它把 Attention 從序列維度，進一步推進到了深度維度。

這也是為什么 Karpathy 會對它產(chǎn)生興趣。一個清晰的信號是：Attention 這套機制，也許還能提供更多的智能潛力

再補一個更進階的信息。

Full Attention Residuals 雖然概念最干凈，工程上卻不能不算賬。因為它意味著每一層都要訪問所有歷史層的輸出，理論復雜度會到 O(L^2d)。

在普通訓練設定下，F(xiàn)ull AttnRes 幾乎不額外占內(nèi)存，因為反向傳播本來就要保留這些層輸出；可一旦上到大規(guī)模訓練，尤其是 activation recomputation 和 pipeline parallelism 普遍存在的時候，問題就來了。這些激活需要被顯式?；?，還要跨 stage 通信，成本會迅速抬頭。

所以能工程落地的是Block AttnRes。

它的思路也很 Kimi：四兩撥千斤，換個結(jié)構(gòu)讓它可用。論文把很多層切成 N 個 block。

塊內(nèi)仍然用傳統(tǒng) residual 先累加，塊與塊之間再做 attention。這樣一來，需要保留和通信的對象，就從“每一層的輸出”變成“每個 block 的摘要表示”。論文給出的結(jié)果是，memory（內(nèi)存開銷）和 communication （跨設備通信開銷）都可以降到 O(Nd)。而且實驗里大約 8 個 block，就已經(jīng)能吃到 Full AttnRes 的大部分收益。

它不是只在紙面上成立，論文專門補了兩套工程優(yōu)化：

cross-stage caching：減少 pipeline 并行時的重復通信
two-phase computation：把塊間 attention 先并行算掉，再和塊內(nèi)順序計算合并

最終結(jié)果是：推理延遲額外開銷不到 2%，可以直接替換現(xiàn)有模型的標準殘差。

Scaling law 的結(jié)果是：Block AttnRes 達到的 loss，大致相當于基線模型多花 1.25 倍算力才能追上。

三條曲線里，Baseline 始終在上面，F(xiàn)ull AttnRes 和 Block AttnRes 整體更低。Block 版本幾乎貼著 Full 走，說明它在更低系統(tǒng)成本下，追回了大部分收益。

這個提升不只停留在預訓練 loss 上。

在作者最終的同配方預訓練對比里，AttnRes 幾乎在所有 benchmark 上都追平或超過 baseline。

如果非要比較 DeepSeek 的 mHC 方案和 Block AttnRes，Block AttnRes 的內(nèi)存訪問開銷只有 mHC 的約六分之一，是更好的理論框架，更低的系統(tǒng)成本。

就在 GTC 演講的同時，Kimi 正以 180 億美元的估值，進行新一輪 10 億美元融資。

三個月前，這個數(shù)字還是 43 億。

近三個月，Kimi 完成了三輪融資，估值從 43 億美元漲到 180 億美元，翻了四倍，成為中國歷史上從成立到估值破百億美元最快的公司。拼多多當年用了三年多，字節(jié)跳動用了四年多，Kimi 只用了兩年多。

這個速度本身就已經(jīng)說明了一件事：最敏感的錢，已經(jīng)先下注了。

第一層原因，是商業(yè)化已經(jīng)被快速驗證。

K2.5 發(fā)布后的 20 天內(nèi)，Kimi 的收入就超過了 2025 年全年總和。根據(jù)全球支付平臺 Stripe 的數(shù)據(jù)，Kimi 的付費訂單數(shù)在 1 月環(huán)比激增 8280%，2 月再漲 123.8%，全球排名也從此前從未進入前 100，一路沖到第 9 位，前面已經(jīng)是 Grok、Cursor 這樣的名字。

但如果只是增長快，還不足以支撐 180 億美元的想象力。

更深一層，資本押注的，是 Kimi 身上那股很少見的技術心氣。

最近這幾個月，Kimi 連續(xù)開源的幾項工作，砍的幾乎都是深度學習最底層的基礎設施。

這件事的分量，其實比一篇論文本身大得多。

因為市場真正買單的，不只是你能不能做出增長，而是你有沒有能力去改寫那些別人默認不能動的東西。

更重要的是，你改完之后，還能不能把這種能力變成真實增長。

所以，楊植麟在 GTC 連說三個“we scale and open-sourced”，不全是客套，我想了下，還有姿態(tài)。

“we”意味著一種邀請——不用別人定義的規(guī)則做競賽，我們在改規(guī)則本身。然后開源公開邀請所有人一起往前走。

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節(jié)省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.