国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek 元旦扔出王炸!CEO 梁文鋒親自署名,要?jiǎng)?AI 用了 10 年的“承重墻”?

0
分享至

  今天是元旦,DeepSeek 又扔了個(gè)王炸。

  本來(lái)準(zhǔn)備躺平過(guò)節(jié)(嗯,是真的躺著了),結(jié)果睜眼發(fā)現(xiàn)一篇新論文 mHC(流形約束超連接)突然刷屏。

  我看了一眼作者列表,直接“垂死病中驚坐起”——最后一位赫然寫(xiě)著:Wenfeng Liang(梁文鋒)。

  

  圖:DeepSeek CEO 梁文峰署名

  熟悉 DeepSeek 的都知道,這位 CEO 極少在技術(shù)論文上親自署名。

  老板親自掛帥,還選在新年第一天發(fā),說(shuō)明這事兒絕對(duì)不簡(jiǎn)單。

  讀完我才發(fā)現(xiàn),他們這次竟然要革深度學(xué)習(xí)祖師爺 ResNet 的命。

  聽(tīng)起來(lái)很狂?但我研究了一下原理,發(fā)現(xiàn)這幫人是真有東西。

  01|從何愷明的“神來(lái)之筆”說(shuō)起

  要看懂 DeepSeek 的操作,我們得先回看一眼歷史。

  2016年,大神何愷明(Kaiming He) 團(tuán)隊(duì)提出了 ResNet,徹底解決了深層網(wǎng)絡(luò)訓(xùn)練不動(dòng)的難題。

  其中的核心設(shè)計(jì)叫“恒等映射”。

  

  圖:何愷明,深度殘差網(wǎng)絡(luò)(ResNet)的主要發(fā)明者

  打個(gè)比方,這就像在迷宮里修了一條“直通車(chē)道”。信號(hào)可以無(wú)腦地從這一層傳到下一層,不被中間商賺差價(jià)。

  正是因?yàn)橛辛诉@條路,今天的 ChatGPT、DeepSeek 這些幾百層的龐然大物才跑得起來(lái)。

  但問(wèn)題是,對(duì)于現(xiàn)在胃口越來(lái)越大的模型來(lái)說(shuō),這一條“單車(chē)道”漸漸不夠用了。

  于是,學(xué)術(shù)界搞出了一個(gè)叫 HC(Hyper-Connections,超連接) 的東西。

  HC 的想法很美好:既然單車(chē)道不夠,那我就擴(kuò)建成多車(chē)道唄!

  它把殘差流變寬(n倍),讓信息在不同車(chē)道間亂竄、混合,以此來(lái)提升模型的能力。

  

  圖:三代架構(gòu)進(jìn)化史:(a) 是經(jīng)典的“單車(chē)道” ResNet; (b) 是路修寬了但沒(méi)紅綠燈的 HC(容易撞車(chē)); (c) 是 DeepSeek 加了“交通管制”的 mHC。

  但問(wèn)題來(lái)了,這一擴(kuò)建,出事了。

  原來(lái)的 ResNet 是“直通車(chē)”,很穩(wěn)。現(xiàn)在的 HC 變成了“無(wú)紅綠燈的超級(jí)路口”。

  論文里的數(shù)據(jù)特別嚇人:在 HC 的架構(gòu)下,信號(hào)在網(wǎng)絡(luò)里傳著傳著,就會(huì)因?yàn)槿狈苁偪衽蛎洝?/p>

  看原論文里的數(shù)據(jù),HC 的信號(hào)增益幅度峰值直接干到了 3000!(下圖右側(cè))

  

  圖:HC 的信號(hào)增益幅度峰值直接干到了 3000

  這意味著啥?意味著信號(hào)被放大了 3000 倍。

  這就像早高峰的十字路口沒(méi)有紅綠燈,車(chē)全撞在一塊了,這就是典型的“信號(hào)爆炸”。

  結(jié)果就是:模型訓(xùn)練極其不穩(wěn)定,錯(cuò)誤率(Loss) 說(shuō)炸就炸,根本沒(méi)法在大規(guī)模模型上用。

  02|DeepSeek 的解法:數(shù)學(xué)暴力美學(xué)

  面對(duì)這種“車(chē)禍現(xiàn)場(chǎng)”,一般人的思路可能是:“那我就少修兩條路吧?!?/p>

  但 DeepSeek 的思路是:路我要修,但我要請(qǐng)一個(gè)懂?dāng)?shù)學(xué)的交警。

  這就是 mHC(流形約束超連接)的核心邏輯。

  他們發(fā)現(xiàn),只要把那些負(fù)責(zé)指揮交通的矩陣,強(qiáng)行按在一個(gè)叫“雙隨機(jī)矩陣”的數(shù)學(xué)規(guī)則里,問(wèn)題就解決了。

  別被這個(gè)數(shù)學(xué)名詞嚇跑,它的原理其實(shí)也挺簡(jiǎn)單,就像“能量守恒定律”:

  不管你在路口怎么變道、怎么混合,進(jìn)來(lái)的流量總和,必須嚴(yán)格等于出去的流量總和。

  既不允許車(chē)子憑空消失(信號(hào)衰減),也不允許憑空變出車(chē)來(lái)(信號(hào)爆炸)。

  為了做到這一點(diǎn),DeepSeek 用了一個(gè)叫 Sinkhorn-Knopp 的算法,像是給矩陣戴上了“緊箍咒”。

  不管這矩陣原來(lái)長(zhǎng)啥樣,經(jīng)過(guò)這個(gè)算法一處理,它就必須變得老老實(shí)實(shí),行和列的加和都得等于1。

  這就很漂亮了。

  它保留了多車(chē)道互聯(lián)帶來(lái)的信息豐富度(性能提升),又把信號(hào)嚴(yán)格限制在了一個(gè)安全的范圍內(nèi)(穩(wěn)定性),完美致敬了何愷明當(dāng)年追求的“恒等映射”精神。

  03. 效果怎么樣?直接看療效

  理論吹得再好,還得看實(shí)驗(yàn)。

  還記得剛才說(shuō) HC 的信號(hào)增益飆到了 3000 嗎?

  用了 mHC 之后,這個(gè)數(shù)字被死死按在了 1.6 左右。

  

  從 3000 到 1.6,這是直接降低了三個(gè)數(shù)量級(jí)!

  這也直接體現(xiàn)在了訓(xùn)練曲線上:

  穩(wěn)如老狗: mHC 的訓(xùn)練 Loss 曲線(藍(lán)線)極其平滑,跟基線模型幾乎一樣穩(wěn)。

  

  圖:mHC 的訓(xùn)練 Loss 曲線極其平滑

  性能更強(qiáng): 在 27B 參數(shù)的模型上,mHC 不僅穩(wěn),效果還比標(biāo)準(zhǔn)版更好。特別是在比較難的 BBH(邏輯推理)和 DROP 任務(wù)上,提升非常明顯。

  

  圖:在 27B 參數(shù)的模型上,mHC 不僅穩(wěn),效果還比標(biāo)準(zhǔn)版更好。

  04. 不止是數(shù)學(xué),更是工程上的“摳門(mén)”

  讀 DeepSeek 的論文,你永遠(yuǎn)能感覺(jué)到他們那種“把算力榨干到最后一滴”的執(zhí)著。

  因?yàn)榘崖沸迣?,本?lái)是一件非常費(fèi)顯存、費(fèi)時(shí)間的事。

  如果不做優(yōu)化,內(nèi)存訪問(wèn)成本(I/O)會(huì)增加好幾倍,這誰(shuí)受得了?

  所以 mHC 不僅僅是一個(gè)數(shù)學(xué)創(chuàng)新,還是一套工程優(yōu)化方案。

  算子融合(Kernel Fusion): 他們手寫(xiě)了底層的 Kernel,把好幾步計(jì)算合并成一步,減少 GPU 讀寫(xiě)內(nèi)存的次數(shù)。

  重計(jì)算(Recomputing): 為了省顯存,他們選擇在反向傳播時(shí)重新計(jì)算中間結(jié)果,而不是一直存著。

  通信重疊: 利用 DualPipe 策略,把額外的通信時(shí)間“藏”在計(jì)算時(shí)間里。

  結(jié)果就是:在擴(kuò)展率為 4 的情況下,mHC 帶來(lái)的額外訓(xùn)練時(shí)間開(kāi)銷(xiāo),僅僅只有 6.7%。

  用極小的代價(jià),換來(lái)了模型性能和穩(wěn)定性的雙重提升。

  這種“又好又省”的風(fēng)格,確實(shí)很 DeepSeek。

  說(shuō)實(shí)話,每次讀 DeepSeek 的論文都讓人挺佩服的,不是那些牛逼的技術(shù),而是他們“死磕底層”的態(tài)度。

  特別是在現(xiàn)在,大家都忙著卷應(yīng)用、卷 Agents 的時(shí)候,他們?cè)敢饣剡^(guò)頭去修補(bǔ) AI 的“地基”。

  ResNet 已經(jīng)統(tǒng)治了深度學(xué)習(xí)這么多年,大家都覺(jué)得它是完美的。

  但 mHC 告訴我們:只要你不迷信權(quán)威,哪怕是地基,也有重修的可能。

  mHC 這種架構(gòu),或許不會(huì)馬上改變你的生活,但它可能會(huì)讓下一代的 DeepSeek、GPT 跑得更穩(wěn)、更快。

  對(duì)于 DeepSeek 這種“硬核”的數(shù)學(xué)暴力美學(xué),你怎么看?歡迎在評(píng)論區(qū)聊聊。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
模擬器是上個(gè)世紀(jì)最偉大的產(chǎn)物,如今卻成為奸商割韭菜的工具

模擬器是上個(gè)世紀(jì)最偉大的產(chǎn)物,如今卻成為奸商割韭菜的工具

街機(jī)時(shí)代
2026-01-06 18:00:03
老用戶成“冤大頭”?新號(hào)29元100G 老號(hào)89元不夠用 3招破局不換號(hào)

老用戶成“冤大頭”?新號(hào)29元100G 老號(hào)89元不夠用 3招破局不換號(hào)

Thurman在昆明
2026-01-03 15:59:21
俄對(duì)委內(nèi)瑞拉局勢(shì)反應(yīng)冷淡,印證魯比奧預(yù)判

俄對(duì)委內(nèi)瑞拉局勢(shì)反應(yīng)冷淡,印證魯比奧預(yù)判

老馬拉車(chē)莫少裝
2026-01-04 23:34:24
釘在恥辱柱上!國(guó)家文物局出手,這三個(gè)跳梁小丑,徹底涼涼

釘在恥辱柱上!國(guó)家文物局出手,這三個(gè)跳梁小丑,徹底涼涼

八斗小先生
2025-12-24 09:37:51
1月6日 | 特朗普對(duì)印最后通牒:再買(mǎi)俄油就加500%關(guān)稅

1月6日 | 特朗普對(duì)印最后通牒:再買(mǎi)俄油就加500%關(guān)稅

南亞研究通訊
2026-01-07 23:15:13
光刻機(jī)之后,中國(guó)就剩最后一個(gè)工業(yè)明珠了,高精度數(shù)控機(jī)床

光刻機(jī)之后,中國(guó)就剩最后一個(gè)工業(yè)明珠了,高精度數(shù)控機(jī)床

三石記
2026-01-05 16:28:52
鄭州一業(yè)主因物業(yè)糾紛堵住小區(qū)車(chē)輛入口6次報(bào)警,民警強(qiáng)制傳喚致其受傷 法院判決:超出必要限度

鄭州一業(yè)主因物業(yè)糾紛堵住小區(qū)車(chē)輛入口6次報(bào)警,民警強(qiáng)制傳喚致其受傷 法院判決:超出必要限度

紅星新聞
2026-01-07 23:38:19
布倫森26+7尼克斯擊沉快船結(jié)束4連敗,唐斯20+11+7小卡25分

布倫森26+7尼克斯擊沉快船結(jié)束4連敗,唐斯20+11+7小卡25分

湖人崛起
2026-01-08 10:53:40
港獨(dú)組織頭目鄭松泰:曾在北大讀博士,文弱書(shū)生緣何變成兇惡暴徒

港獨(dú)組織頭目鄭松泰:曾在北大讀博士,文弱書(shū)生緣何變成兇惡暴徒

樂(lè)天閑聊
2025-12-27 10:10:19
醫(yī)生從瀕死患者動(dòng)脈掏血栓如同掏碎肉,因?yàn)閲?yán)重的肺動(dòng)脈栓塞,導(dǎo)致血氧極低無(wú)法自主呼吸

醫(yī)生從瀕死患者動(dòng)脈掏血栓如同掏碎肉,因?yàn)閲?yán)重的肺動(dòng)脈栓塞,導(dǎo)致血氧極低無(wú)法自主呼吸

觀威海
2026-01-06 10:46:23
張家界“愛(ài)國(guó)賊事件”:傻X式愛(ài)國(guó),是個(gè)巨大禍害

張家界“愛(ài)國(guó)賊事件”:傻X式愛(ài)國(guó),是個(gè)巨大禍害

麥大人
2025-10-13 15:29:56
四川一男子被3槍打死,100輛豪車(chē)為其送葬,沿途拋撒人民幣

四川一男子被3槍打死,100輛豪車(chē)為其送葬,沿途拋撒人民幣

紀(jì)實(shí)錄
2024-01-26 21:17:15
不是馬琳!不是王皓!王勵(lì)勤背后大招曝光,奧運(yùn)冠軍或殺回戰(zhàn)場(chǎng)!

不是馬琳!不是王皓!王勵(lì)勤背后大招曝光,奧運(yùn)冠軍或殺回戰(zhàn)場(chǎng)!

籃球看比賽
2026-01-08 11:38:31
過(guò)去30年的委內(nèi)瑞拉:從西半球第三富裕國(guó)家到通貨膨脹率3000%

過(guò)去30年的委內(nèi)瑞拉:從西半球第三富裕國(guó)家到通貨膨脹率3000%

知識(shí)圈
2026-01-06 19:30:03
老婆敗光20億真相大白10個(gè)月,張學(xué)友近況引人擔(dān)憂,王晶真沒(méi)說(shuō)錯(cuò)

老婆敗光20億真相大白10個(gè)月,張學(xué)友近況引人擔(dān)憂,王晶真沒(méi)說(shuō)錯(cuò)

攬星河的筆記
2025-12-29 17:05:48
新年第一瓜,老王的小嬌妻留不住了!

新年第一瓜,老王的小嬌妻留不住了!

仕道
2026-01-07 10:29:10
四川90后小伙日進(jìn)百萬(wàn)被舉報(bào),調(diào)查遇阻:收入不匹配不能說(shuō)犯罪

四川90后小伙日進(jìn)百萬(wàn)被舉報(bào),調(diào)查遇阻:收入不匹配不能說(shuō)犯罪

千百度籃球視角
2026-01-08 10:44:23
王石的墜落:政法委的乘龍快婿,到“獨(dú)立女性”田樸珺的賬本

王石的墜落:政法委的乘龍快婿,到“獨(dú)立女性”田樸珺的賬本

紅色少女主播
2026-01-07 16:42:25
事實(shí)證明,62歲在日本養(yǎng)老的丁克族梁朝偉,早已走上了另一條大道

事實(shí)證明,62歲在日本養(yǎng)老的丁克族梁朝偉,早已走上了另一條大道

小熊侃史
2025-12-28 11:10:09
大魚(yú)來(lái)了!CBA外援市場(chǎng)僅剩的“內(nèi)線大殺器”,廣東隊(duì)有望截胡?

大魚(yú)來(lái)了!CBA外援市場(chǎng)僅剩的“內(nèi)線大殺器”,廣東隊(duì)有望截胡?

緋雨兒
2026-01-08 13:13:25
2026-01-09 00:52:49
AI范兒 incentive-icons
AI范兒
AI范兒是一個(gè)專(zhuān)注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺(tái),提供最新的人工智能資訊
637文章數(shù) 393關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

19歲小伙在柬疑被16萬(wàn)轉(zhuǎn)賣(mài) 與母親視頻時(shí)按"酒窩"求救

頭條要聞

19歲小伙在柬疑被16萬(wàn)轉(zhuǎn)賣(mài) 與母親視頻時(shí)按"酒窩"求救

體育要聞

世乒賽銀牌得主,說(shuō)自己夢(mèng)里都是孫穎莎

娛樂(lè)要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評(píng)

財(cái)經(jīng)要聞

微軟CTO韋青:未來(lái)人類(lèi)會(huì)花錢(qián)"戒手機(jī)"

汽車(chē)要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

時(shí)尚
本地
教育
親子
數(shù)碼

珍珠專(zhuān)場(chǎng)|| 無(wú)論18歲還是80歲,總是會(huì)為它再一次心動(dòng)

本地新聞

1986-2026,一通電話的時(shí)空旅程

教育要聞

高二不救,基本原地告別高考

親子要聞

家長(zhǎng)注意了!這7件事別再孩子面前做!

數(shù)碼要聞

CES 2026 | TCL實(shí)業(yè)攜全球首創(chuàng)SQD-Mini LED顯示技術(shù)亮相

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版