国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

前有DeepSeek,后有Kimi!馬斯克狂贊的中國雙子星,炸穿大模型10年地基

0
分享至


大數(shù)據(jù)文摘受權轉(zhuǎn)載自夕小瑤科技說

黃仁勛召開了英偉達 GTC 大會。

我在看直播的時候注意到一個關鍵細節(jié)——楊植麟是這次大會上唯一受邀演講的中國大模型公司創(chuàng)始人。

在演講中他罕見地直接表達:很多普遍使用的技術標準,正成為大模型 Scaling 的瓶頸。并且連著表達了三次“we scale and open-sourced”。

“我們規(guī)?;炞C了,并且開源了”。

后面跟著三個關鍵詞——MuonClip、Kimi Linear、Attention Residuals。


這三樣東西剛好覆蓋了深度學習訓練最底層的三個基礎結(jié)構(gòu)——優(yōu)化器、注意力機制、殘差連接。

Kimi 三個全動了,而且規(guī)模化驗證后開源。

它們解決的問題各不相同,但是姿態(tài)是一樣的,都是對用了將近十年沒人動的基礎組件動刀。這第三項,正是兩天前 Karpathy 和馬斯克在 X 上點贊的那篇論文。


Karpathy 言外之意在說:attention 如果真的 is all you need,為什么不在深度這個維度上也用?Kimi 這篇論文干的正是這件事。

馬斯克也給 Kimi 的工作點了贊。


非常巧的是,去年的最后幾天,DeepSeek 也在 mHC(Manifold-Constrained Hyper-Connections)的論文里,對「殘差連接」動了刀。

要理解這件事為什么這么重要,可能還得先理解殘差連接是啥,解決了啥。

殘差連接用了 10 年,問題在哪?

讓我們回到 2015 年。

2015 年,深度神經(jīng)網(wǎng)絡有個致命的毛病:越深越爛。

理論上層數(shù)越多,模型表達能力越強;但實際上,訓練信號(梯度)從輸出層往回傳的時候,每經(jīng)過一層就會衰減一點,等傳到前面的層,信號已經(jīng)弱到接近于零,模型已經(jīng)接變笨了。原因很簡單,太深了,學不動了。這就是「梯度消失」。

而 ResNet 就解決了這個大麻煩,它的做法很巧妙,既然每一層傳遞的時候都會“忘記”一些東西,導致最后直接什么都沒有,那我就強制要求每一層在往后傳遞的時候,除了要傳遞該層的變換,還要保留原始輸入。它的公式很簡單:


第 l 層的輸出,等于上一層的輸出,加上本層的變換結(jié)果。

這個設計最重要的意義,是保住了一條 identity path。

用大白話說,就是給信息留了一條“原樣直通”的通道,后面的變換怎么折騰都行,但至少有一部分輸入不會被改寫,能直接往后傳。

這是 ResNet 的天才之處,也是 Transformer 能一路堆到今天這個深度的地基。

但地基里,埋著一個隱患。

Transformer 用的是「PreNorm」,也就是先把輸入做歸一化,再過注意力或 FFN,最后加殘差。

這個設計配合殘差連接,相當于強制要求在信息傳遞時?!霸募薄C恳粚佣计降鹊乩^承所有歷史層的輸出,沒有誰更重要。

把殘差連接的遞歸展開,會得到一個直觀的視角:


發(fā)現(xiàn)問題了嗎?

每一層的貢獻權重都是 1。無論第 3 層提取的是什么特征,無論第 97 層處理的是什么輸入,它們對最終狀態(tài)的貢獻量,完全相同。

PreNorm 把輸入先做標準化,意味著所有層的輸出都被拉到同一尺度;殘差連接又強制等權累加。結(jié)果就是,深層的語義個性被稀釋了。

隨著網(wǎng)絡加深,這個累加的總量越來越大——數(shù)學上,它大致按層數(shù) L 線性增長。越往后的層,你新產(chǎn)生的輸出,在這團不斷累積的歷史信息里,占比越來越小。越深的層,越難留下痕跡。要想保持影響力,它只能輸出更大幅度的更新。

論文把這個現(xiàn)象叫「PreNorm dilution」——PreNorm 導致的信息稀釋。

就像一本永不刪改的會議記錄本,每次開會,新的紀要都往后疊,舊的內(nèi)容一字不刪,誰都保留??瓷先ズ芊€(wěn),很安全,很尊重歷史??蓵h一旦開多了,問題就來了:后來的發(fā)言者想留下真正有效的意見,就得喊得越來越響。不是因為前面的人更有道理,只是因為紙已經(jīng)太厚了。

這就是為什么殘差連接的問題,不在于它無效,而在于它太死板。它保住了信息,卻把所有信息一視同仁地保住了。它給了網(wǎng)絡一條歷史通道,卻沒給網(wǎng)絡“該從歷史里拿什么”的能力。

這個問題存在了 10 年。沒人動,不是因為沒人知道,而是因為它夠用了,簡單、穩(wěn)定、零額外成本。

另一個原因是過去十年大家主要在改的是別的地方。

注意力、激活函數(shù)、歸一化、MoE 路由、多模態(tài)融合,這些都被反復翻新;唯獨層與層之間的信息流動方式,長期被當成基礎設施默認不動。

論文的 related work 里,Highway、Hyper-Connections、mHC、DDL 這些路線都被系統(tǒng)梳理了一遍??蛇@些方法大多還停留在“如何修補這條加法路徑”的層面:調(diào)一調(diào)比例,開幾條并行流,或者想辦法讓狀態(tài)別壓得那么狠。

真正幾乎沒人認真追問的是:既然橫向的時間序列上用 Attention 能獲得更智能的全局理解,為什么縱向的深度維度就不行呢?

這正是 Attention Residuals 的出發(fā)點。

論文給了一個很妙的類比。像 RNN 這樣的序列模型,本質(zhì)上也是把過去的信息不斷壓進一個滾動狀態(tài)里,沿時間一步一步往后傳。后來 Transformer 用 attention 改了這件事:每個位置不必再死守一個壓縮后的總狀態(tài),而是可以直接看所有歷史位置,動態(tài)決定該看誰、看多少。

作者說,深度維度其實也有同樣的問題。標準殘差連接讓每一層只接住一個已經(jīng)被混好的總狀態(tài),跟當年的序列遞歸有一種很強的形式對偶。既然序列這邊已經(jīng)從 RNN 走到了 attention,深度這邊為什么不行?

于是,Attention Residuals 做的事情就清楚了:它把標準殘差里那個固定為 1 的權重,換成了一個可學習、而且依賴輸入的 attention 權重。

每一層用一個可學習的查詢向量 w_l,去和所有歷史層的輸出做匹配,經(jīng) softmax 歸一化后得到權重,再加權求和:


每層只額外引入一個 d 維的可學習向量,參數(shù)量極少。同樣是第 50 層,面對不同輸入,它聚合歷史信息的方式可以完全不同。



  • 左邊是過去 10 年我們最熟悉的標準殘差:所有層輸出一路等權相加。

  • 中間是理論上最完整的 Full AttnRes:每一層都可以回看并選擇所有歷史層。

  • 右邊則是能落地實現(xiàn)方式 Block AttnRes:把層分塊,在保住大部分效果的同時,把系統(tǒng)開銷壓下來。

再講講 DeepSeek 前段時間也發(fā)布了一個對殘差連接動刀的工作,叫做「mHC(Manifold-Constrained Hyper-Connections) 」。它延續(xù)的是 Hyper-Connections 這條路線:把原本單條的 residual stream 擴展成多條并行流,讓層與層之間的信息交換不再只走一條固定通道。

mHC 把殘差流從單條擴展成多條(n 流),用可學習的矩陣來調(diào)節(jié)層間的信息流,再用數(shù)學約束(雙隨機矩陣)來保持穩(wěn)定。本質(zhì)上,這是對 residual stream 的橫向擴展。重點是先把路拓寬,讓信息有多條并行路徑可以走。

Kimi 這次走的是另一條路,在原有這條深度通路上,重寫了信息聚合的規(guī)則。

過去,前面各層的輸出是固定等權地一路相加;現(xiàn)在,它用 depth-wise softmax attention 來做跨層選擇,讓每一層都能動態(tài)決定該從哪些早期表示里多取一點、少取一點。這樣一來,重要信息會被突出,次要信息會被壓低,早期層里那些原本容易在層層累加中被沖淡的語義,也更有機會被后續(xù)層重新調(diào)出來。

其實這兩條路并不互相否定,論文里甚至直接說了,AttnRes 和 mHC 在某種意義上是正交的??蓮臄⑹律峡?,這兩家公司幾乎同時,從不同角度,對一個用了 11 年的基礎結(jié)構(gòu)提出了質(zhì)疑。這說明,層與層之間的信息流動方式,正在重新成為大模型研究里的關鍵問題。

Kimi 這篇論文更進一步的地方在于,在于它把 Attention 從序列維度,進一步推進到了深度維度。

這也是為什么 Karpathy 會對它產(chǎn)生興趣。一個清晰的信號是:Attention 這套機制,也許還能提供更多的智能潛力

再補一個更進階的信息。

Full Attention Residuals 雖然概念最干凈,工程上卻不能不算賬。因為它意味著每一層都要訪問所有歷史層的輸出,理論復雜度會到 O(L^2d)。

在普通訓練設定下,F(xiàn)ull AttnRes 幾乎不額外占內(nèi)存,因為反向傳播本來就要保留這些層輸出;可一旦上到大規(guī)模訓練,尤其是 activation recomputation 和 pipeline parallelism 普遍存在的時候,問題就來了。這些激活需要被顯式?;?,還要跨 stage 通信,成本會迅速抬頭。

所以能工程落地的是Block AttnRes。

它的思路也很 Kimi:四兩撥千斤,換個結(jié)構(gòu)讓它可用。論文把很多層切成 N 個 block。

塊內(nèi)仍然用傳統(tǒng) residual 先累加,塊與塊之間再做 attention。這樣一來,需要保留和通信的對象,就從“每一層的輸出”變成“每個 block 的摘要表示”。論文給出的結(jié)果是,memory(內(nèi)存開銷)和 communication (跨設備通信開銷)都可以降到 O(Nd)。而且實驗里大約 8 個 block,就已經(jīng)能吃到 Full AttnRes 的大部分收益。


它不是只在紙面上成立,論文專門補了兩套工程優(yōu)化:

  • cross-stage caching:減少 pipeline 并行時的重復通信

  • two-phase computation:把塊間 attention 先并行算掉,再和塊內(nèi)順序計算合并

最終結(jié)果是:推理延遲額外開銷不到 2%,可以直接替換現(xiàn)有模型的標準殘差。

Scaling law 的結(jié)果是:Block AttnRes 達到的 loss,大致相當于基線模型多花 1.25 倍算力才能追上。


三條曲線里,Baseline 始終在上面,F(xiàn)ull AttnRes 和 Block AttnRes 整體更低。Block 版本幾乎貼著 Full 走,說明它在更低系統(tǒng)成本下,追回了大部分收益。

這個提升不只停留在預訓練 loss 上。

在作者最終的同配方預訓練對比里,AttnRes 幾乎在所有 benchmark 上都追平或超過 baseline。


如果非要比較 DeepSeek 的 mHC 方案和 Block AttnRes,Block AttnRes 的內(nèi)存訪問開銷只有 mHC 的約六分之一,是更好的理論框架,更低的系統(tǒng)成本。

就在 GTC 演講的同時,Kimi 正以 180 億美元的估值,進行新一輪 10 億美元融資。

三個月前,這個數(shù)字還是 43 億。

近三個月,Kimi 完成了三輪融資,估值從 43 億美元漲到 180 億美元,翻了四倍,成為中國歷史上從成立到估值破百億美元最快的公司。拼多多當年用了三年多,字節(jié)跳動用了四年多,Kimi 只用了兩年多。

這個速度本身就已經(jīng)說明了一件事:最敏感的錢,已經(jīng)先下注了。

第一層原因,是商業(yè)化已經(jīng)被快速驗證。

K2.5 發(fā)布后的 20 天內(nèi),Kimi 的收入就超過了 2025 年全年總和。根據(jù)全球支付平臺 Stripe 的數(shù)據(jù),Kimi 的付費訂單數(shù)在 1 月環(huán)比激增 8280%,2 月再漲 123.8%,全球排名也從此前從未進入前 100,一路沖到第 9 位,前面已經(jīng)是 Grok、Cursor 這樣的名字。

但如果只是增長快,還不足以支撐 180 億美元的想象力。

更深一層,資本押注的,是 Kimi 身上那股很少見的技術心氣。

最近這幾個月,Kimi 連續(xù)開源的幾項工作,砍的幾乎都是深度學習最底層的基礎設施。

這件事的分量,其實比一篇論文本身大得多。

因為市場真正買單的,不只是你能不能做出增長,而是你有沒有能力去改寫那些別人默認不能動的東西。

更重要的是,你改完之后,還能不能把這種能力變成真實增長。

所以,楊植麟在 GTC 連說三個“we scale and open-sourced”,不全是客套,我想了下,還有姿態(tài)。

“we”意味著一種邀請——不用別人定義的規(guī)則做競賽,我們在改規(guī)則本身。然后開源公開邀請所有人一起往前走。

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本專家表示:如果中日戰(zhàn)真的發(fā)生了,日本老百姓根本不需要害怕

日本專家表示:如果中日戰(zhàn)真的發(fā)生了,日本老百姓根本不需要害怕

安安說
2026-04-23 11:40:47
保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個好故事
2026-03-11 17:26:56
斯諾克世錦賽16強對陣!丁俊暉戰(zhàn)趙心童時間曝光,吳宜澤PK塞爾比

斯諾克世錦賽16強對陣!丁俊暉戰(zhàn)趙心童時間曝光,吳宜澤PK塞爾比

曹說體育
2026-04-23 11:39:25
已確認系淫穢物品!家長趕緊自查

已確認系淫穢物品!家長趕緊自查

深圳晚報
2026-04-22 22:45:45
5月1日執(zhí)行!酒駕處罰全面升級,再敢喝酒開車,代價太大了

5月1日執(zhí)行!酒駕處罰全面升級,再敢喝酒開車,代價太大了

大魚簡科
2026-04-23 14:35:54
上海地鐵站內(nèi),這個“高素質(zhì)”習慣爆發(fā)沖突!上海已叫停多年!很多人改不過來……

上海地鐵站內(nèi),這個“高素質(zhì)”習慣爆發(fā)沖突!上海已叫停多年!很多人改不過來……

環(huán)球網(wǎng)資訊
2026-04-23 11:11:44
C羅心中最強球員出爐:梅西是競爭對手,最強球員里沒有他

C羅心中最強球員出爐:梅西是競爭對手,最強球員里沒有他

體育閑話說
2026-04-23 20:50:09
多虧伊朗沒去巴基斯坦,德黑蘭已經(jīng)識破了美國的把戲?

多虧伊朗沒去巴基斯坦,德黑蘭已經(jīng)識破了美國的把戲?

車窗起霧q
2026-04-23 22:00:40
世錦賽戰(zhàn)報:3-10!中國已有6人出局,種子名將連輸9局爆冷一輪游

世錦賽戰(zhàn)報:3-10!中國已有6人出局,種子名將連輸9局爆冷一輪游

小火箭愛體育
2026-04-23 21:37:48
《新聞聯(lián)播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

《新聞聯(lián)播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

青梅侃史啊
2026-04-23 14:38:29
廣西:堅決摒棄“領導不批示不動、事情不鬧大不動、媒體不曝光不動”等不良現(xiàn)象

廣西:堅決摒棄“領導不批示不動、事情不鬧大不動、媒體不曝光不動”等不良現(xiàn)象

起喜電影
2026-04-24 00:02:35
寺廟整治風暴來襲 43家違規(guī)場所被關停

寺廟整治風暴來襲 43家違規(guī)場所被關停

阿萊美食匯
2026-04-24 00:03:25
中紀委2026嚴查新方向,這6類崗位首當其沖

中紀委2026嚴查新方向,這6類崗位首當其沖

細說職場
2026-04-23 09:15:43
阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

懂球帝
2026-04-23 08:32:10
剛剛,全線跳水!美軍,動手了!

剛剛,全線跳水!美軍,動手了!

中國基金報
2026-04-23 14:34:47
龍卷風撕掉屋頂后,Rivian R2還是下線了

龍卷風撕掉屋頂后,Rivian R2還是下線了

碳基打工人
2026-04-22 23:50:24
一韓國籍男子在靖國神社抗議被日本警方逮捕

一韓國籍男子在靖國神社抗議被日本警方逮捕

澎湃新聞
2026-04-23 00:43:09
AI竟能生成《金瓶梅》"3A大作"!尺度很大細節(jié)夸張

AI竟能生成《金瓶梅》"3A大作"!尺度很大細節(jié)夸張

游民星空
2026-04-22 11:55:38
1比4逆轉(zhuǎn)后特魯姆普放話:趙心童不是最大威脅,50倍丁俊暉才是

1比4逆轉(zhuǎn)后特魯姆普放話:趙心童不是最大威脅,50倍丁俊暉才是

生活新鮮市
2026-04-23 18:37:10
伊朗政權變天了!

伊朗政權變天了!

阿振觀點
2026-04-24 00:20:51
2026-04-24 02:32:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態(tài)度原創(chuàng)

時尚
教育
房產(chǎn)
家居
親子

李昀銳:林深見木

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

房產(chǎn)要聞

三亞安居房,突然官宣!

家居要聞

浪漫協(xié)奏 法式風格

親子要聞

新華讀報|打乒乓球有助提高兒童注意力

無障礙瀏覽 進入關懷版