国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek后又一神作!清華校友出手,終結(jié)ResNet十年統(tǒng)治?

0
分享至


新智元報道

編輯:桃子 好困

【新智元導(dǎo)讀】2026年架構(gòu)革命的槍聲已經(jīng)打響!ResNet用十年證明了「加法捷徑」能救訓(xùn)練,但也暴露了「只加不減」的天花板。DeepSeek新年王炸之后,普林斯頓和UCLA新作DDL讓網(wǎng)絡(luò)學(xué)會忘記、重寫和反轉(zhuǎn)。

新年第一天,DeepSeek祭出大殺器——mHC,對「殘差連接」做出了重大改進,引爆全網(wǎng)。

緊接著,另一篇重磅研究誕生了!

斯坦福著名教授Christopher Manning讀完后直言,「2026年,將成為改進殘差連接之年」。

拓展閱讀:剛剛,DeepSeek扔出大殺器,梁文鋒署名!暴力優(yōu)化AI架構(gòu)



這篇來自普林斯頓和UCLA新研究,提出了一個全新架構(gòu):Deep Delta Learning(DDL)。

它不再把「捷徑」(shortcut)當(dāng)作固定的恒等映射,而讓它本身也能學(xué)習(xí)并隨數(shù)據(jù)變化。


論文地址:https://github.com/yifanzhang-pro/deep-delta-learning/blob/master/Deep_Delta_Learning.pdf

一個是mHC流形約束超連接,一個是DDL深度增量學(xué)習(xí),幾乎在同一時間,傳遞出一個強烈的信號:

殘差連接,正在進入一個必須被重新設(shè)計的時代。



那么,這篇論文主要解決了什么問題?

ResNet用了十年「加法」

終于被改寫了

2015年,ResNet(殘差網(wǎng)絡(luò))橫空出世后,「加法捷徑(shortcut)」幾乎成為了深度網(wǎng)絡(luò)的默認配置。

它解決了梯度消失的難題,撐起了現(xiàn)代深度學(xué)習(xí)的高樓。


ResNet通過殘差學(xué)習(xí),解決了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的核心難題——層數(shù)加深,AI性能不升反降。

ResNet為什么能訓(xùn)得這么深?

因為它只做了一件極其「保守」的事,當(dāng)深度網(wǎng)絡(luò)什么都學(xué)不會的時候,至少別把輸入弄壞。

如今,無論是CNN、ViT,還是各種混合架構(gòu),那條「直接把輸入加回去」的殘差連接,成為了標(biāo)配。

這套架構(gòu)設(shè)計穩(wěn)定的同時,也帶來了一個后果——

神經(jīng)網(wǎng)絡(luò)幾乎只會累加信息,卻很難修改狀態(tài)。

經(jīng)典ResNet核心更新公式非常簡單:


從動力系統(tǒng)角度看,它等價于對微分方程做一步前向歐拉離散。

這意味著,對應(yīng)的線性算子所有特征方向的特征值都是+1,網(wǎng)絡(luò)只能「平移」?fàn)顟B(tài),而不能反轉(zhuǎn)、選擇性遺忘。

換句話說,舊特征很難被徹底清除,中間表示幾乎不會被「反轉(zhuǎn)」,深度網(wǎng)絡(luò)在表達復(fù)雜動態(tài)時,顯得有些笨重。

如果「捷徑」永遠只是恒等映射,深度神經(jīng)網(wǎng)絡(luò)不夠靈活,本質(zhì)上只能「加法疊加」。

來自普林斯頓和UCLA的最新論文,第一次系統(tǒng)性提出——

這條「捷徑」,其實限制了深度神經(jīng)網(wǎng)絡(luò)的想象力。

此外,近期一些研究還指出,缺乏負特征值,是深度網(wǎng)絡(luò)建模能力的隱形天花板。

讓深度網(wǎng)絡(luò)學(xué)會「忘記」

如果允許「捷徑」本身可以被學(xué)習(xí),可以選擇性遺忘,甚至可以反轉(zhuǎn)某些特征,會發(fā)生什么?

DDL給出的答案是:用一個rank-1的線性算子,替代固定的identity shortcut。

簡單來說,DDL把ResNet的「固定加法捷徑」,升級成了一個可控的狀態(tài)更新機制。

其核心變化只有一個——

每一層不再只是加新東西,而會先決定:要不要保留舊狀態(tài)。


在這個全新架構(gòu)中,引入了一個非常關(guān)鍵的標(biāo)量β,這個數(shù)值決定了當(dāng)前層如何對待已有特征。

增量殘差塊

DDL不再把隱藏狀態(tài),看成一個向量,而是一個矩陣


這個設(shè)計,讓網(wǎng)絡(luò)狀態(tài)具備了「記憶矩陣」的含義,也為后續(xù)的Delta Rule的對齊埋下了伏筆。

其核心更新公式如下所示:


而DDL真正的關(guān)鍵所在,是Delta Operator,讓「捷徑」不再是I,而是


這是一個rank-1 的對稱線性算子,其譜結(jié)構(gòu)異常簡單。即d?1個特征值恒為1,只有一個特征值是1?β。

換句話說,一個標(biāo)量β,就能精確控制某個特征方向的命運。

DDL將三種幾何行為,統(tǒng)一在一個模塊中,以下當(dāng)β ∈ [0, 2]時,不同情況——

  • 當(dāng)β接近0時,DDL什么都不做

這一層幾乎被跳過,DDL的行為和ResNet完全一致,非常適合深層網(wǎng)絡(luò)的穩(wěn)定訓(xùn)練。

  • 當(dāng)β接近1時,DDL會先忘掉,再寫入

這時,網(wǎng)絡(luò)會主動「清空」某個特征方向,再寫入新的內(nèi)容,類似一次精準的狀態(tài)重置。

這也恰恰是,傳統(tǒng)ResNet很難做到的事。

  • 當(dāng)β接近2時,DDL就會實現(xiàn)特征反轉(zhuǎn)

某些特征會被直接「翻轉(zhuǎn)符號」,深度網(wǎng)絡(luò)第一次具備了「反向表達」的能力,這對建模振蕩、對立關(guān)系非常關(guān)鍵。

值得注意的是,它還出現(xiàn)了負特征值,這是普通殘差網(wǎng)絡(luò)幾乎不可能產(chǎn)生的行為。

目前,論文主要提出了DDL核心方法,作者透露實驗部分即將更新。


殘差網(wǎng)絡(luò),2.0時代

為什么這一方法的提出,非常重要?

過去十年,傳統(tǒng)殘差網(wǎng)絡(luò)的一個隱患是:信息只加不減,噪聲會一路累積。

DDL明確引入了忘記、重寫、反轉(zhuǎn),讓網(wǎng)絡(luò)可以主動清理無用特征,重構(gòu)中間表示,讓建模成為非單調(diào)動態(tài)過程。

神經(jīng)網(wǎng)絡(luò)可以自己決定,如何處理輸入的信息。

DDL不會推翻ResNet,當(dāng)門控(gate)關(guān)閉時,它就是普通殘差網(wǎng)絡(luò),當(dāng)它完全打開時,便進入了全新的表達空間。


ResNet讓深度學(xué)習(xí)進入了「可規(guī)?;瘯r代」,而DDL提出的是下一步——

讓深度神經(jīng)網(wǎng)絡(luò)不僅穩(wěn)定,而且具備真正的狀態(tài)操控能力。

也許多年后回頭看,殘差網(wǎng)絡(luò)真正的進化,不僅僅是更深,還會改自己。

最后的最后,我們讓ChatGPT分別總結(jié)下DDL和mHC的核心貢獻:


一位網(wǎng)友對這兩種革命性架構(gòu)的亮點總結(jié):


這一切,只說明了一件事:殘差連接,真正被當(dāng)成「可設(shè)計對象」來認真對待。

這就像是一個「時代切換」的信號,過去模型變強=更大+更深+更多參數(shù),現(xiàn)在「模型變強=更合理的結(jié)構(gòu)約束」。

作者介紹

Yifan Zhang

Yifan Zhang是普林斯頓大學(xué)的博士生,也是普林斯頓AI實驗室的Fellow,師從Mengdi Wang教授、姚期智教授和Quanquan Gu教授。

此前,他獲得了清華大學(xué)交叉信息研究院計算機科學(xué)碩士學(xué)位并成為博士候選人;本科畢業(yè)于北京大學(xué)元培學(xué)院,獲數(shù)學(xué)與計算機科學(xué)理學(xué)學(xué)士學(xué)位。

個人研究重點是:構(gòu)建兼具高擴展性和高性能的LLM及多模態(tài)基礎(chǔ)模型。

Yifeng Liu


Yifeng Liu是加州大學(xué)洛杉磯分校的計算機博士,本科畢業(yè)于清華信息科學(xué)與技術(shù)學(xué)院,姚班出身。

Mengdi Wang


Mengdi Wang是普林斯頓大學(xué)電氣與計算機工程系以及統(tǒng)計與機器學(xué)習(xí)中心的副教授。

她曾獲得了MIT電氣工程與計算機科學(xué)博士學(xué)位,在此之前,她獲得了清華大學(xué)自動化系學(xué)士學(xué)位。

個人研究方向包括機器學(xué)習(xí)、強化學(xué)習(xí)、生成式AI、AI for science以及智能系統(tǒng)應(yīng)用。

Quanquan Gu


Quanquan Gu是UCLA計算機科學(xué)系的副教授,同時領(lǐng)導(dǎo)UCLA通用人工智能實驗室。

他曾獲得伊利諾伊大學(xué)厄巴納-香檳分校計算機科學(xué)博士學(xué)位,分別于2007年和2010年獲得了清華大學(xué)學(xué)士和碩士學(xué)位。

個人研究方向是人工智能與機器學(xué)習(xí),重點包括非凸優(yōu)化、深度學(xué)習(xí)、強化學(xué)習(xí)、LLM以及深度生成模型。

參考資料:

https://x.com/chrmanning/status/2006786935059263906

https://x.com/yifan_zhang_/status/2006674032549310782?s=20

https://github.com/yifanzhang-pro/deep-delta-learning/blob/master/Deep_Delta_Learning.pdf

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
原來大佬寫的推薦信都這么短啊 ??!網(wǎng)友:有用不在于字多

原來大佬寫的推薦信都這么短啊 ??!網(wǎng)友:有用不在于字多

夜深愛雜談
2026-01-10 22:24:02
江蘇35歲男子被騙到柬埔寨!妻子接到遺言電話,不止詐騙這么簡單

江蘇35歲男子被騙到柬埔寨!妻子接到遺言電話,不止詐騙這么簡單

李健政觀察
2026-01-10 14:45:38
中國為何幾乎不拍“元朝歷史劇”?不是不想拍,而是確實不能拍

中國為何幾乎不拍“元朝歷史劇”?不是不想拍,而是確實不能拍

老踝是個手藝人
2026-01-07 09:24:27
原來,重復(fù)到極致就是天賦! 重復(fù)熟練,熟能生巧

原來,重復(fù)到極致就是天賦! 重復(fù)熟練,熟能生巧

夜深愛雜談
2026-01-06 21:05:20
原本都是丹麥海外領(lǐng)地,為何格陵蘭島沒有獨立,冰島實現(xiàn)了獨立?

原本都是丹麥海外領(lǐng)地,為何格陵蘭島沒有獨立,冰島實現(xiàn)了獨立?

世界縱橫說
2026-01-10 12:52:14
足總杯火爆1幕!葡國腳廢人式飛鏟引2次沖突,熱刺維拉數(shù)十人干架

足總杯火爆1幕!葡國腳廢人式飛鏟引2次沖突,熱刺維拉數(shù)十人干架

我愛英超
2026-01-11 06:45:04
德黑蘭抗議局勢失控 拉蘇爾清真寺遭縱火受損

德黑蘭抗議局勢失控 拉蘇爾清真寺遭縱火受損

老馬拉車莫少裝
2026-01-10 20:04:57
“性蕭條”才是這個時代真正的危機

“性蕭條”才是這個時代真正的危機

深藍夜讀
2025-09-24 16:00:09
曝濃眉交易已無法完成!獨行俠或因禍得福:效仿雷霆馬刺崛起之路

曝濃眉交易已無法完成!獨行俠或因禍得福:效仿雷霆馬刺崛起之路

羅說NBA
2026-01-10 22:31:22
離譜?切爾西新帥剛上任就放話:他是世界最佳,球迷直接吵炸

離譜?切爾西新帥剛上任就放話:他是世界最佳,球迷直接吵炸

瀾歸序
2026-01-11 06:40:43
你錯過了哪些異性對你的暗示?網(wǎng)友:果然單身都是有理由的!

你錯過了哪些異性對你的暗示?網(wǎng)友:果然單身都是有理由的!

解讀熱點事件
2025-11-08 17:33:23
伊朗安全部隊放下武器加入抗議,哈梅內(nèi)伊倒計時開始

伊朗安全部隊放下武器加入抗議,哈梅內(nèi)伊倒計時開始

移光幻影
2026-01-07 15:18:07
中國有源相控陣雷達真實水平:并非世界第一,和美差距有多大

中國有源相控陣雷達真實水平:并非世界第一,和美差距有多大

黑翼天使
2026-01-10 03:28:16
牛逼!14分21板4助3蓋帽,正負值+25,遼迷: 去年就應(yīng)該簽下他!

牛逼!14分21板4助3蓋帽,正負值+25,遼迷: 去年就應(yīng)該簽下他!

金山話體育
2026-01-10 09:24:10
裁判受傷,NBA資深裁判比爾·肯尼迪比賽后腿筋受傷,無限期休戰(zhàn)

裁判受傷,NBA資深裁判比爾·肯尼迪比賽后腿筋受傷,無限期休戰(zhàn)

好火子
2026-01-11 07:18:40
善惡終有報!離婚半年婆婆“落網(wǎng)”,孫怡給董子健好好上了一課

善惡終有報!離婚半年婆婆“落網(wǎng)”,孫怡給董子健好好上了一課

史鹷的生活科普
2026-01-09 22:59:53
醫(yī)學(xué)的盡頭真是玄學(xué)嗎?網(wǎng)友:國家不讓你迷信,沒說讓你不信

醫(yī)學(xué)的盡頭真是玄學(xué)嗎?網(wǎng)友:國家不讓你迷信,沒說讓你不信

帶你感受人間冷暖
2025-12-31 00:20:05
麥當(dāng)勞漢堡尺寸小得像馬卡龍?網(wǎng)友吐槽“一邊縮水一邊漲價”

麥當(dāng)勞漢堡尺寸小得像馬卡龍?網(wǎng)友吐槽“一邊縮水一邊漲價”

中國能源網(wǎng)
2026-01-10 22:46:13
炸裂!成都大爺將紅薯塞入肛門,做開腹手術(shù)取出!醫(yī)生:有需求正常

炸裂!成都大爺將紅薯塞入肛門,做開腹手術(shù)取出!醫(yī)生:有需求正常

鋭娛之樂
2026-01-10 21:46:16
周末大利空炸場!8家公司年報爆虧,最高虧380億,8起股東清倉式減持

周末大利空炸場!8家公司年報爆虧,最高虧380億,8起股東清倉式減持

股市皆大事
2026-01-10 20:43:32
2026-01-11 07:56:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14304文章數(shù) 66452關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開年最頂格的AI對話

頭條要聞

宜家確定關(guān)閉全國7家商場清倉 大批上海人涌入"撿漏"

頭條要聞

宜家確定關(guān)閉全國7家商場清倉 大批上海人涌入"撿漏"

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

手機
教育
藝術(shù)
公開課
軍事航空

手機要聞

曝三星Galaxy S26系列3月開售,更多細節(jié)曝光

教育要聞

填志愿怕代碼查錯?三步精準查詢避免失誤!

藝術(shù)要聞

這位和尚寫梅花,疏疏幾點,勁峭孤逸

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

??沼⑿鄹呦枋攀?曾駕駛殲-6打爆美軍機

無障礙瀏覽 進入關(guān)懷版