国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek 元旦扔出王炸!CEO 梁文鋒親自署名,要動 AI 用了 10 年的“承重墻”?

0
分享至

  今天是元旦,DeepSeek 又扔了個王炸。

  本來準(zhǔn)備躺平過節(jié)(嗯,是真的躺著了),結(jié)果睜眼發(fā)現(xiàn)一篇新論文 mHC(流形約束超連接)突然刷屏。

  我看了一眼作者列表,直接“垂死病中驚坐起”——最后一位赫然寫著:Wenfeng Liang(梁文鋒)。

  

  圖:DeepSeek CEO 梁文峰署名

  熟悉 DeepSeek 的都知道,這位 CEO 極少在技術(shù)論文上親自署名。

  老板親自掛帥,還選在新年第一天發(fā),說明這事兒絕對不簡單。

  讀完我才發(fā)現(xiàn),他們這次竟然要革深度學(xué)習(xí)祖師爺 ResNet 的命。

  聽起來很狂?但我研究了一下原理,發(fā)現(xiàn)這幫人是真有東西。

  01|從何愷明的“神來之筆”說起

  要看懂 DeepSeek 的操作,我們得先回看一眼歷史。

  2016年,大神何愷明(Kaiming He) 團(tuán)隊提出了 ResNet,徹底解決了深層網(wǎng)絡(luò)訓(xùn)練不動的難題。

  其中的核心設(shè)計叫“恒等映射”。

  

  圖:何愷明,深度殘差網(wǎng)絡(luò)(ResNet)的主要發(fā)明者

  打個比方,這就像在迷宮里修了一條“直通車道”。信號可以無腦地從這一層傳到下一層,不被中間商賺差價。

  正是因為有了這條路,今天的 ChatGPT、DeepSeek 這些幾百層的龐然大物才跑得起來。

  但問題是,對于現(xiàn)在胃口越來越大的模型來說,這一條“單車道”漸漸不夠用了。

  于是,學(xué)術(shù)界搞出了一個叫 HC(Hyper-Connections,超連接) 的東西。

  HC 的想法很美好:既然單車道不夠,那我就擴(kuò)建成多車道唄!

  它把殘差流變寬(n倍),讓信息在不同車道間亂竄、混合,以此來提升模型的能力。

  

  圖:三代架構(gòu)進(jìn)化史:(a) 是經(jīng)典的“單車道” ResNet; (b) 是路修寬了但沒紅綠燈的 HC(容易撞車); (c) 是 DeepSeek 加了“交通管制”的 mHC。

  但問題來了,這一擴(kuò)建,出事了。

  原來的 ResNet 是“直通車”,很穩(wěn)?,F(xiàn)在的 HC 變成了“無紅綠燈的超級路口”。

  論文里的數(shù)據(jù)特別嚇人:在 HC 的架構(gòu)下,信號在網(wǎng)絡(luò)里傳著傳著,就會因為缺乏管束而瘋狂膨脹。

  看原論文里的數(shù)據(jù),HC 的信號增益幅度峰值直接干到了 3000?。ㄏ聢D右側(cè))

  

  圖:HC 的信號增益幅度峰值直接干到了 3000

  這意味著啥?意味著信號被放大了 3000 倍。

  這就像早高峰的十字路口沒有紅綠燈,車全撞在一塊了,這就是典型的“信號爆炸”。

  結(jié)果就是:模型訓(xùn)練極其不穩(wěn)定,錯誤率(Loss) 說炸就炸,根本沒法在大規(guī)模模型上用。

  02|DeepSeek 的解法:數(shù)學(xué)暴力美學(xué)

  面對這種“車禍現(xiàn)場”,一般人的思路可能是:“那我就少修兩條路吧。”

  但 DeepSeek 的思路是:路我要修,但我要請一個懂?dāng)?shù)學(xué)的交警。

  這就是 mHC(流形約束超連接)的核心邏輯。

  他們發(fā)現(xiàn),只要把那些負(fù)責(zé)指揮交通的矩陣,強(qiáng)行按在一個叫“雙隨機(jī)矩陣”的數(shù)學(xué)規(guī)則里,問題就解決了。

  別被這個數(shù)學(xué)名詞嚇跑,它的原理其實也挺簡單,就像“能量守恒定律”:

  不管你在路口怎么變道、怎么混合,進(jìn)來的流量總和,必須嚴(yán)格等于出去的流量總和。

  既不允許車子憑空消失(信號衰減),也不允許憑空變出車來(信號爆炸)。

  為了做到這一點,DeepSeek 用了一個叫 Sinkhorn-Knopp 的算法,像是給矩陣戴上了“緊箍咒”。

  不管這矩陣原來長啥樣,經(jīng)過這個算法一處理,它就必須變得老老實實,行和列的加和都得等于1。

  這就很漂亮了。

  它保留了多車道互聯(lián)帶來的信息豐富度(性能提升),又把信號嚴(yán)格限制在了一個安全的范圍內(nèi)(穩(wěn)定性),完美致敬了何愷明當(dāng)年追求的“恒等映射”精神。

  03. 效果怎么樣?直接看療效

  理論吹得再好,還得看實驗。

  還記得剛才說 HC 的信號增益飆到了 3000 嗎?

  用了 mHC 之后,這個數(shù)字被死死按在了 1.6 左右。

  

  從 3000 到 1.6,這是直接降低了三個數(shù)量級!

  這也直接體現(xiàn)在了訓(xùn)練曲線上:

  穩(wěn)如老狗: mHC 的訓(xùn)練 Loss 曲線(藍(lán)線)極其平滑,跟基線模型幾乎一樣穩(wěn)。

  

  圖:mHC 的訓(xùn)練 Loss 曲線極其平滑

  性能更強(qiáng): 在 27B 參數(shù)的模型上,mHC 不僅穩(wěn),效果還比標(biāo)準(zhǔn)版更好。特別是在比較難的 BBH(邏輯推理)和 DROP 任務(wù)上,提升非常明顯。

  

  圖:在 27B 參數(shù)的模型上,mHC 不僅穩(wěn),效果還比標(biāo)準(zhǔn)版更好。

  04. 不止是數(shù)學(xué),更是工程上的“摳門”

  讀 DeepSeek 的論文,你永遠(yuǎn)能感覺到他們那種“把算力榨干到最后一滴”的執(zhí)著。

  因為把路修寬,本來是一件非常費顯存、費時間的事。

  如果不做優(yōu)化,內(nèi)存訪問成本(I/O)會增加好幾倍,這誰受得了?

  所以 mHC 不僅僅是一個數(shù)學(xué)創(chuàng)新,還是一套工程優(yōu)化方案。

  算子融合(Kernel Fusion): 他們手寫了底層的 Kernel,把好幾步計算合并成一步,減少 GPU 讀寫內(nèi)存的次數(shù)。

  重計算(Recomputing): 為了省顯存,他們選擇在反向傳播時重新計算中間結(jié)果,而不是一直存著。

  通信重疊: 利用 DualPipe 策略,把額外的通信時間“藏”在計算時間里。

  結(jié)果就是:在擴(kuò)展率為 4 的情況下,mHC 帶來的額外訓(xùn)練時間開銷,僅僅只有 6.7%。

  用極小的代價,換來了模型性能和穩(wěn)定性的雙重提升。

  這種“又好又省”的風(fēng)格,確實很 DeepSeek。

  說實話,每次讀 DeepSeek 的論文都讓人挺佩服的,不是那些牛逼的技術(shù),而是他們“死磕底層”的態(tài)度。

  特別是在現(xiàn)在,大家都忙著卷應(yīng)用、卷 Agents 的時候,他們愿意回過頭去修補(bǔ) AI 的“地基”。

  ResNet 已經(jīng)統(tǒng)治了深度學(xué)習(xí)這么多年,大家都覺得它是完美的。

  但 mHC 告訴我們:只要你不迷信權(quán)威,哪怕是地基,也有重修的可能。

  mHC 這種架構(gòu),或許不會馬上改變你的生活,但它可能會讓下一代的 DeepSeek、GPT 跑得更穩(wěn)、更快。

  對于 DeepSeek 這種“硬核”的數(shù)學(xué)暴力美學(xué),你怎么看?歡迎在評論區(qū)聊聊。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
北美觀察丨“我知道是誰,但不能說”:哈梅內(nèi)伊之后,特朗普心中的伊朗接班人

北美觀察丨“我知道是誰,但不能說”:哈梅內(nèi)伊之后,特朗普心中的伊朗接班人

極目新聞
2026-03-01 17:37:18
從統(tǒng)一掛牌到印章啟用,省市縣消防救援局走上歷史舞臺

從統(tǒng)一掛牌到印章啟用,省市縣消防救援局走上歷史舞臺

靠山屯閑話
2026-03-01 19:17:11
人到中年才明白:如果女人對一個男人越來越好,越來越熱情、包容

人到中年才明白:如果女人對一個男人越來越好,越來越熱情、包容

木言觀
2026-03-01 21:20:23
好奇怪!伊朗對科威特、卡塔爾、阿聯(lián)酋等國空襲,但沒人出來指責(zé)

好奇怪!伊朗對科威特、卡塔爾、阿聯(lián)酋等國空襲,但沒人出來指責(zé)

我心縱橫天地間
2026-03-01 14:15:40
知名好萊塢演員在自家谷倉內(nèi)身亡:汽車搭電時突然自燃,曾獲5屆拳擊冠軍

知名好萊塢演員在自家谷倉內(nèi)身亡:汽車搭電時突然自燃,曾獲5屆拳擊冠軍

紅星新聞
2026-02-27 17:33:09
哈梅內(nèi)伊事后,伊朗以及革命衛(wèi)隊何去何從?

哈梅內(nèi)伊事后,伊朗以及革命衛(wèi)隊何去何從?

勝研集
2026-03-01 10:39:42
中國004核航母因技術(shù)落后等多重因素或暫緩發(fā)展

中國004核航母因技術(shù)落后等多重因素或暫緩發(fā)展

斜煙風(fēng)起雨未
2026-03-01 14:18:50
斯諾克最新積分排名!希金斯升至第9,肖國棟跌出前12,趙心童第2

斯諾克最新積分排名!希金斯升至第9,肖國棟跌出前12,趙心童第2

越嶺尋蹤
2026-03-01 08:41:27
定了!湖北將新建一座超級武商MALL

定了!湖北將新建一座超級武商MALL

越喬
2026-03-01 22:42:08
一旦爆發(fā)世界大戰(zhàn),誰敢直接攻擊美國本土,美上將:只有一個國家

一旦爆發(fā)世界大戰(zhàn),誰敢直接攻擊美國本土,美上將:只有一個國家

風(fēng)流女漢
2026-02-09 23:23:10
洛克希德·馬丁的生產(chǎn)線突然停了,中國凍結(jié)了他們在華的全部資產(chǎn)

洛克希德·馬丁的生產(chǎn)線突然停了,中國凍結(jié)了他們在華的全部資產(chǎn)

百態(tài)人間
2026-02-25 15:33:21
李悠悠寫真曝光,多重身份演繹影視傳奇

李悠悠寫真曝光,多重身份演繹影視傳奇

橙星文娛
2026-03-01 14:34:18
中東,最新!伊朗襲擊美軍“林肯”號航母!伊朗前總統(tǒng)內(nèi)賈德遇襲身亡!以軍稱絕不允許伊朗恢復(fù)軍事能力

中東,最新!伊朗襲擊美軍“林肯”號航母!伊朗前總統(tǒng)內(nèi)賈德遇襲身亡!以軍稱絕不允許伊朗恢復(fù)軍事能力

證券時報e公司
2026-03-01 22:56:05
謝賢前女友CoCo賬號被封禁

謝賢前女友CoCo賬號被封禁

娛小余
2026-03-01 20:27:30
陳麗君新增開庭公告

陳麗君新增開庭公告

雷達(dá)財經(jīng)
2026-02-28 14:51:38
伊朗使用集束彈藥轟炸特拉維夫!以色列淡水廠被炸!美國被惹怒了

伊朗使用集束彈藥轟炸特拉維夫!以色列淡水廠被炸!美國被惹怒了

妙知
2026-03-01 15:23:50
伊朗打擊美國中東軍事基地,美第五艦隊服務(wù)中心遭導(dǎo)彈襲擊,科威特、阿聯(lián)酋、卡塔爾等多國發(fā)生爆炸,胡塞武裝導(dǎo)彈射向以色列……

伊朗打擊美國中東軍事基地,美第五艦隊服務(wù)中心遭導(dǎo)彈襲擊,科威特、阿聯(lián)酋、卡塔爾等多國發(fā)生爆炸,胡塞武裝導(dǎo)彈射向以色列……

每日經(jīng)濟(jì)新聞
2026-02-28 18:02:13
劉強(qiáng)東砸50億,在廣東造游艇!這門新生意,還沒開張就先賺了3億

劉強(qiáng)東砸50億,在廣東造游艇!這門新生意,還沒開張就先賺了3億

財經(jīng)保探長
2026-03-01 18:12:05
沒想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

沒想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

另子維愛讀史
2025-12-08 20:58:22
月薪五千的朝鮮姑娘,和她們回不去的中國夢

月薪五千的朝鮮姑娘,和她們回不去的中國夢

百姓聞世界
2026-02-17 07:29:21
2026-03-02 07:03:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺,提供最新的人工智能資訊
670文章數(shù) 474關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

伊朗多位軍事指揮官確認(rèn)死亡 名單公布

頭條要聞

伊朗多位軍事指揮官確認(rèn)死亡 名單公布

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

教育
數(shù)碼
時尚
藝術(shù)
手機(jī)

教育要聞

寧夏大學(xué)外國語學(xué)院揭秘!96.2%高落實率

數(shù)碼要聞

曝蘋果WWDC 26將推Core AI框架取代Core ML并公布多項AI功能

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

藝術(shù)要聞

清代豪門過年儀式感

手機(jī)要聞

全球首款機(jī)器人手機(jī)!榮耀Robot Phone亮相MWC:今年就量產(chǎn)發(fā)布

無障礙瀏覽 進(jìn)入關(guān)懷版