国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒的新論文,要革何愷明們的命?

0
分享至



出品|搜狐科技

作者|常博碩

編輯| 楊 錦

果然,只要一到假期,DeepSeek就會更新點(diǎn)什么。

這個(gè)元旦,DeepSeek發(fā)表了一篇新論文《mHC: Manifold-Constrained Hyper-Connections》提出了一種新的架構(gòu)——流形約束超連接,以解決傳統(tǒng)架構(gòu)在大模型訓(xùn)練中的不穩(wěn)定問題。

更值得關(guān)注的是,論文作者最后一位赫然寫著梁文鋒的大名。


在此之前,梁文鋒幾乎很少在技術(shù)論文中署名,最多是掛個(gè)通訊作者。這次直接參與論文撰寫,足以可見DeepSeek對這篇論文的重視程度。

而細(xì)讀之后才發(fā)現(xiàn),這篇論文可以稱得上是一場革命性的創(chuàng)新,革的正是何愷明們建立的深度學(xué)習(xí)基石ResNet的命。

作為計(jì)算機(jī)視覺領(lǐng)域的頂尖科學(xué)家,何愷明畢業(yè)于清華大學(xué)物理系,現(xiàn)任麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)系副教授(終身教職)。其最著名的成就,就是提出了ResNet架構(gòu),解決了深度神經(jīng)網(wǎng)絡(luò)中“越深越難訓(xùn)練”的根本性問題,ResNet也被稱為現(xiàn)代深度學(xué)習(xí)發(fā)展史上的一座里程碑。


十年未變的“底層共識”被改變

要理解DeepSeek這篇論文分量,我們得回到十年前。如果把那時(shí)的神經(jīng)網(wǎng)絡(luò)比喻成一座高塔,在當(dāng)時(shí),隨著塔的層數(shù)堆疊過多,地基傳來的信號往往在半路就消失殆盡,很容易導(dǎo)致塔身崩塌。

直到何愷明等人提出了劃時(shí)代的ResNet(殘差網(wǎng)絡(luò)),這個(gè)問題才被解決。

在 ResNet之前,深度神經(jīng)網(wǎng)絡(luò)有一個(gè)致命問題,那就是網(wǎng)絡(luò)一深,反而學(xué)不會了。原因很簡單,梯度會在層層傳遞中消失或爆炸,前面的信息傳不到后面。

于是當(dāng)時(shí)還在微軟亞洲研究院的何愷明等人就發(fā)表了一篇名為《Deep Residual Learning for Image Recognition》的論文,這篇論文也是AI歷史上引用率最高的殿堂級論文之一。

可以這樣理解,原本信息過神經(jīng)網(wǎng)絡(luò)層時(shí)會被攔截處理,可以理解為一條高速公路中有很多收費(fèi)站,導(dǎo)致信號像公路上的車流一樣不停被收費(fèi)站攔截,運(yùn)行不暢。

而ResNet相當(dāng)于在旁邊修了一條直通的“快速通道”,哪怕收費(fèi)站處理得不好,信息也可以通過快速通道原封不動(dòng)地傳到下一站,這也被稱為恒等映射(Identity Mapping)。

于是,自2016 年何愷明提出ResNet開始,殘差連接迅速成為深度神經(jīng)網(wǎng)絡(luò)的默認(rèn)配置。它解決了深層網(wǎng)絡(luò)難以訓(xùn)練的問題,使得模型深度可以從幾十層擴(kuò)展到上百層,甚至更深。

后來出現(xiàn)的 Transformer,看似是一種全新的架構(gòu),但LayerNorm + Residual的基本形式,本質(zhì)也是繼承了ResNet的思想。ResNet也成為了后來幾乎所有大模型的基石。

然而,隨著模型參數(shù)邁向萬億級別,研究者開始覺得單車道的信息吞吐量太小了,它限制了模型思考的廣度。既然單車道不夠用,為什么不把它拓寬成八車道、十六車道?

一種新的架構(gòu)HC也就應(yīng)運(yùn)而生。這種被稱為“超連接”(Hyper-Connections,簡稱HC)的新架構(gòu)由字節(jié)Seed團(tuán)隊(duì)在論文《Hyper-Connections》中提出。


它試圖打破傳統(tǒng)的束縛,將原本單一的殘差流拓寬數(shù)倍,并允許信息在不同的通道間自由穿插、混合。也就是說,原本的高速路加快車單行道直接變成了一個(gè)巨大的、沒有紅綠燈的多層立交橋。

在 HC 架構(gòu)中,模型維護(hù)多條并行的殘差流,每一層輸出都是這些殘差流的線性組合。這也就意味著,信息不必被壓縮進(jìn)單一通道,結(jié)果就是網(wǎng)絡(luò)的表示能力顯著增強(qiáng)。

在中小規(guī)模實(shí)驗(yàn)中,HC的表現(xiàn)確實(shí)亮眼,在相同參數(shù)量和計(jì)算量下,HC模型往往能取得更低的 loss,或者在下游任務(wù)上表現(xiàn)更優(yōu)。

但問題,很快就暴露出來。HC 在大規(guī)模模型訓(xùn)練中,存在系統(tǒng)性的不穩(wěn)定問題。

這種不穩(wěn)定并不是偶然的訓(xùn)練失敗,而是隨著層數(shù)和訓(xùn)練步數(shù)增加,幾乎必然發(fā)生的結(jié)構(gòu)性風(fēng)險(xiǎn)。



mHC掀起架構(gòu)革命

當(dāng)模型規(guī)模放大,HC就開始“失控”了。在DeepSeek的新論文里認(rèn)為,從數(shù)學(xué)角度看,這種失控的問題出在殘差的恒等映射被破壞了。

在 ResNet 中,殘差連接的核心價(jià)值不在于加法本身,而在于不論網(wǎng)絡(luò)其他部分如何變化,都至少存在一條不被放大的信息通路。

但在 HC 中,每一層的殘差更新,本質(zhì)上是一個(gè)可學(xué)習(xí)矩陣對多條殘差流的線性變換。當(dāng)這種矩陣在層與層之間不斷相乘時(shí),就有可能導(dǎo)致梯度在反向傳播中迅速失控,訓(xùn)練在某個(gè)時(shí)間點(diǎn)突然崩掉。

論文給出的實(shí)驗(yàn)非常直觀,在 27B 參數(shù)規(guī)模的模型中,HC 架構(gòu)在訓(xùn)練早期看似正常,但在約一萬多步后,出現(xiàn)了突發(fā)的損失激增,梯度范數(shù)也表現(xiàn)出劇烈波動(dòng)。


研究團(tuán)隊(duì)計(jì)算了復(fù)合映射對信號的放大倍數(shù),在HC架構(gòu)中,這個(gè)值的峰值達(dá)到了3000,意味著信號在層間傳播時(shí)可能被放大數(shù)千倍,也可能直接衰減至幾乎消失。


換句話說,HC 的問題并不是效果不好,而是它缺乏一個(gè)像ResNet那樣的安全底座。

DeepSeek論文的核心思路是將殘差映射矩陣約束到一個(gè)特定的流形上,一個(gè)由雙隨機(jī)矩陣構(gòu)成的Birkhoff多面體。

他們認(rèn)為HC的“多車道”思路是對的,但不能讓車亂跑。于是他們在 HC 的基礎(chǔ)上,加了一套嚴(yán)格的數(shù)學(xué)約束也就是雙隨機(jī)矩陣。

DeepSeek的工作,可以看作是給這個(gè)多車道高速路裝上了智能紅綠燈和導(dǎo)流線,規(guī)則是你可以變道,但必須保證出來的總車流量等于進(jìn)去的總車流量。

這樣既享受了HC帶來的高吞吐量和性能提升,又像ResNet一樣極其穩(wěn)定,恢復(fù)了恒等映射。

具體來看,在mHC中所有用于混合多條殘差流的矩陣,都必須滿足三個(gè)條件:每一行元素之和等于1;每一列元素之和等于1;所有元素非負(fù)。

這類矩陣被稱為雙隨機(jī)矩陣。

乍一看,這是一個(gè)非常強(qiáng)的約束,但正是這一約束,帶來了mHC的核心優(yōu)勢。從穩(wěn)定性角度看雙隨機(jī)矩陣的譜半徑被嚴(yán)格限制在1以內(nèi),這意味著它不會放大信號,多層相乘后,依然保持有界,梯度既不會爆炸,也不會消失。

同時(shí),雙隨機(jī)矩陣等價(jià)于對多條殘差流做加權(quán)平均,在本質(zhì)上仍然保留了ResNet的內(nèi)核,信息可以自由混合,但不會被無限放大。

mHC架構(gòu)其實(shí)并非紙上談兵,DeepSeek團(tuán)隊(duì)論文之所以有諸多好評,很大程度上也源于他們在工程可行性上的能力。


算力壓榨到極致

在原始HC設(shè)計(jì)中,多殘差流意味著更高的內(nèi)存占用和訪問成本,顯存帶寬是現(xiàn)代AI芯片最昂貴的資源,如此高昂的成本在大模型時(shí)代是很難讓人接受的。

DeepSeek團(tuán)隊(duì)展現(xiàn)了他們作為頂級AI實(shí)驗(yàn)室的工程素養(yǎng),他們沒有停留在算法層面,而是深入到了底層的算子優(yōu)化。

團(tuán)隊(duì)為此開發(fā)了一系列基礎(chǔ)設(shè)施優(yōu)化,他們使用TileLang框架實(shí)現(xiàn)了多個(gè)融合內(nèi)核,將原本分散的操作合并執(zhí)行以減少內(nèi)存訪問次數(shù)。

針對Sinkhorn-Knopp算法,他們設(shè)計(jì)了專門的前向和反向內(nèi)核,在芯片上重新計(jì)算中間結(jié)果以避免存儲開銷。

同時(shí),他們還提出了DualPipe并行策略。在大模型訓(xùn)練中,計(jì)算和通信往往是串行的,也就導(dǎo)致了GPU在等待數(shù)據(jù)傳輸時(shí)經(jīng)常處于閑置狀態(tài)。

DualPipe巧妙地構(gòu)建了一個(gè)雙向流水線,利用前向傳播和反向傳播在時(shí)間上的錯(cuò)位,讓計(jì)算任務(wù)和通信任務(wù)實(shí)現(xiàn)了完美重疊。

在算力、數(shù)據(jù)和參數(shù)規(guī)模不斷膨脹的今天,模型性能的提升越來越像一場刷榜游戲。在這樣的背景下,像mHC 這樣直指底層結(jié)構(gòu)的工作,就顯得尤為重要。

對于用戶來說,mHC或許不如一個(gè)新的模型、新的智能體對生活的改變大,但至少讓人們看到了一群死磕AI底層架構(gòu)的工程師們的執(zhí)著,這群修補(bǔ)地基的人,或許才是AI時(shí)代最稀缺的人才。



運(yùn)營編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
超喬丹!詹姆斯半場神跡創(chuàng)歷史最老 湖人生涯1000三分隊(duì)史第二

超喬丹!詹姆斯半場神跡創(chuàng)歷史最老 湖人生涯1000三分隊(duì)史第二

醉臥浮生
2026-03-01 11:00:41
國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

南權(quán)先生
2026-02-12 15:38:28
“兩岸統(tǒng)一”突破點(diǎn)可能在賴清德,不在馬英九,不在國民黨

“兩岸統(tǒng)一”突破點(diǎn)可能在賴清德,不在馬英九,不在國民黨

小莜讀史
2026-02-28 22:37:03
為什么交通部約談高德?業(yè)務(wù)全踩紅線,五天被約談三次

為什么交通部約談高德?業(yè)務(wù)全踩紅線,五天被約談三次

小蜜情感說
2026-02-27 06:43:29
小米事故炸翻37萬車主,雷軍左右為難!

小米事故炸翻37萬車主,雷軍左右為難!

鳴金網(wǎng)
2026-02-28 10:45:03
中國不當(dāng)冤大頭了!中科院停付國際期刊發(fā)表費(fèi),老外專家也急了

中國不當(dāng)冤大頭了!中科院停付國際期刊發(fā)表費(fèi),老外專家也急了

青青子衿
2026-02-27 20:32:03
伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話

伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話

齊魯壹點(diǎn)
2026-02-28 23:51:35
領(lǐng)克關(guān)掉的大燈,照亮了新能源車圈的吐槽大會

領(lǐng)克關(guān)掉的大燈,照亮了新能源車圈的吐槽大會

鈦媒體APP
2026-02-28 09:12:54
伊媒:哈梅內(nèi)伊不在德黑蘭,已被轉(zhuǎn)移至安全地點(diǎn)

伊媒:哈梅內(nèi)伊不在德黑蘭,已被轉(zhuǎn)移至安全地點(diǎn)

澎湃新聞
2026-02-28 15:38:17
巴拿馬行動(dòng)后,李嘉誠72小時(shí)狂拋1100億,西方成強(qiáng)盜窩

巴拿馬行動(dòng)后,李嘉誠72小時(shí)狂拋1100億,西方成強(qiáng)盜窩

誰將笑到最后
2026-02-28 23:34:03
比光纖還猛!MLCC進(jìn)入全面漲價(jià)  十大產(chǎn)業(yè)龍頭坐享業(yè)績與股價(jià)齊升

比光纖還猛!MLCC進(jìn)入全面漲價(jià) 十大產(chǎn)業(yè)龍頭坐享業(yè)績與股價(jià)齊升

元芳說投資
2026-03-01 06:00:08
淚目!21歲少年的最后成全:停藥救母,把遺憾藏進(jìn)未赴的海邊之約

淚目!21歲少年的最后成全:停藥救母,把遺憾藏進(jìn)未赴的海邊之約

行者聊官
2026-02-28 16:06:40
中華人民共和國正式向全世界宣告兩件大事:

中華人民共和國正式向全世界宣告兩件大事:

百態(tài)人間
2026-02-28 15:25:01
內(nèi)塔尼亞胡:諸多跡象顯示哈梅內(nèi)伊已“不在人世”

內(nèi)塔尼亞胡:諸多跡象顯示哈梅內(nèi)伊已“不在人世”

財(cái)聯(lián)社
2026-03-01 03:39:04
中東誰也打不過的以色列,在東亞算什么水平?韓國:誰也打不過

中東誰也打不過的以色列,在東亞算什么水平?韓國:誰也打不過

比利
2025-11-29 18:49:51
伊朗吃肉的時(shí)候,對中國防得嚴(yán)嚴(yán)實(shí)實(shí),生怕中國占一點(diǎn)便宜

伊朗吃肉的時(shí)候,對中國防得嚴(yán)嚴(yán)實(shí)實(shí),生怕中國占一點(diǎn)便宜

百態(tài)人間
2026-02-24 15:37:37
阿曼外交大臣:美伊談判就濃縮鈾“零庫存”達(dá)成一致

阿曼外交大臣:美伊談判就濃縮鈾“零庫存”達(dá)成一致

參考消息
2026-02-28 11:09:36
伊朗宗教政權(quán)的重要支柱——伊斯蘭革命衛(wèi)隊(duì)

伊朗宗教政權(quán)的重要支柱——伊斯蘭革命衛(wèi)隊(duì)

老頭和你隨便聊聊
2026-01-15 08:01:47
第94分鐘絕殺!西蒙尼狂歡,1億巨星立大功:終結(jié)14輪進(jìn)球荒

第94分鐘絕殺!西蒙尼狂歡,1億巨星立大功:終結(jié)14輪進(jìn)球荒

足球狗說
2026-03-01 05:58:12
要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

桂系007
2025-11-05 23:52:21
2026-03-01 12:31:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4702文章數(shù) 9180關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊(duì)總司令身亡

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊(duì)總司令身亡

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺 雷軍:為新SU7量產(chǎn)作準(zhǔn)備

態(tài)度原創(chuàng)

時(shí)尚
健康
數(shù)碼
本地
軍事航空

普通人穿衣不需要太復(fù)雜!顏色恰當(dāng)、搭配和諧,高級又耐看

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

DDR4價(jià)格已連續(xù)11個(gè)月上漲

本地新聞

津南好·四時(shí)總相宜

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實(shí)時(shí)戰(zhàn)況

無障礙瀏覽 進(jìn)入關(guān)懷版