国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

詳細解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。

0
分享至

2026年新年第一天,DeepSeek又開卷了。

發(fā)了他們新年的第一篇論文。

《 mHC: Manifold-Constrained Hyper-Connections 》


感覺是DeepSeek-V4的鋪墊,當然一些小道消息,不保真,我也不懂,我只是拍腦袋預測一下,有問題別找我。

就是V4,大概在1月中下旬或者1月底,然后呢,有多模態(tài)輸入,沒有多模態(tài)輸出。

就醬,回到論文。

這篇論文我是說實話,有點過于硬核了。

但同時,傳遞出來的信息量和對AI界的改變,又是巨大的。

在給自己放了一天假,然后啃了一天以后(這玩意比我想象的難啃多了。。。)我還是想,用最通俗易懂最有意思的方式,來跟你聊聊,這篇論文的有趣之處,以及,是如何對現(xiàn)在的生態(tài)進行一些新的輸入的。

當然也給我自己疊個甲,我不是算法出身,我只是讀完以后覺得很棒想分享給大家看,我對這篇論文的理解和亂七八糟的各種名詞解釋,都是我自己民科瞎JB自學的,部分措辭也有為了能讓大家更好理解而做的部分簡化,如果有我理解的錯誤或者事實性錯誤的地方,歡迎大佬們在評論區(qū)指正討論,感謝。

話不多說,我們,正是開始。

在最開始之前,我想先問大家一個問題,就是大家認為,一個要處理圖片、聲音、文字這么多亂七八糟信息的新模型,它最需要的是什么?

是一塊更強的GPU嗎?是一個更大的內(nèi)存嗎?

而DeepSeek這篇文章,給出的答案,其實,是一個極其穩(wěn)定、高效的、模型內(nèi)部的信息流轉(zhuǎn)系統(tǒng)。

要理解這個玩意,我們先得穿越回去,穿越回2015年,也就是十年前,從一個男人和一個偉大的想法說起。

這個故事,要從盤古開天,啊不,要從何愷明蓋樓開始聊。

對,何愷明蓋樓。

我們都知道,大模型是神經(jīng)網(wǎng)絡(luò)對吧,現(xiàn)在,你可以把一個神經(jīng)網(wǎng)絡(luò),當成一家開在101大廈里的超級公司。

數(shù)據(jù),就像一份客戶需求,從一樓的前臺進去,然后呢,先交給銷售部分析,在傳給二樓的市場部包裝一些,接著送到三樓的產(chǎn)品部進行需求評審。。。

客戶的需求,也就是數(shù)據(jù),就這樣坐著樓梯,一層一層往上爬,每一層都對這份信息做一點點加工和提煉。

最后,這份被層層解讀過的報告,會送到頂樓的CEO辦公室,由CEO拍板,給出最終決策,比如“沒問題咱就這么干!”。

理論上,公司的樓層越多,部門分工越細,那這家公司專業(yè)度就越高,也越牛逼,處理復雜問題的能力就越強,對吧。

但在2015年,全世界的AI大佬們,都碰到了一個鬼故事,就是,這棟樓,它特娘的蓋不高啊。

最多蓋到二三十層,就到頭了。

再往上蓋,整個公司就直接罷工了。

因為信息在傳遞過程中會失真。

不知道你們有沒有玩過類似于王牌對王牌里面那種傳聲筒游戲。


就是第一個人接到信息以后,在有限時間內(nèi),往后傳,最后一個人復述出來,看看還能復述多少字。

這個游戲巨搞笑,因為最后一個人說出來的跟第一個人往往風牛馬不相及。

在這個101大廈的公司里,也是一樣的。

就比如一樓銷售部明明說的是“老板想喝咖啡”,傳到十樓就變成了“老板喜歡吃咖啡壺”,傳到二十樓成了“老板去中國有嘻哈上唱了首咖啡壺我的Baby”,等傳到三十樓CEO耳朵里,可能已經(jīng)變成了“老板覺得自己是只屌炸天的咖啡壺”。

這就完蛋了。

CEO根據(jù)這個離譜的信息做出的決策,肯定是災難性的。

在AI里,這個現(xiàn)象有個高大上的名字,叫梯度消失。

說人話就是,信號在深層網(wǎng)絡(luò)里傳來傳去,衰減得一干二凈,腦子直接短路了,這破活干不了一點了。

然后呢,就在整個AI界都對著這現(xiàn)象一籌莫展的時候,當時還在微軟的何愷明,就站了出來。


他做了一個看似簡單,卻直接改變世界的決定。

他在大樓里,修了一部VIP直達電梯。

這部電梯,從一樓前臺,可以直達任何一個樓層,包括頂樓的CEO辦公室。

于是,流程變成了這樣。

客戶需求文件進來后,依然需要一層一層地坐樓梯往上爬,接受各個部門的加工,但與此同時,前臺會把這份文件的原件復印件,放進這部VIP電梯,直接嗖地一下,送到CEO的辦公桌上。

這樣一來,CEO在看下面部門交上來的那份可能已經(jīng)被傳得面目全非的報告時,他可以隨時拿起旁邊那份原件復印件來對比一下。

“哦,底下人說老板是咖啡壺,但原件說的是老板想喝咖啡,那肯定是底下人傳話傳錯了”。

信息,就這樣被保真了。

這部天才的電梯,就是殘差連接(Residual Connection)。


它像一根定海神針,貫穿了整棟大樓,讓最原始的信息可以在不同樓層間無損穿梭,時刻校準著整個公司的前進方向。

可雖然這部電梯很偉大,但它也有一個致命的毛病。

就是,它太TM窄了,它是一部只能容納一個人的小電梯,一次只能送一份文件。

時間快進到今天,AI公司已經(jīng)不是當年那個只處理文字需求的小作坊了。

它成了一個要處理圖片、視頻、音頻、代碼的超級巨無霸。

CEO每天要處理的信息,從一份文件,變成了一卡車的資料。

只靠一部小小的VIP電梯來回送復印件,運力嚴重不足。

這條曾經(jīng)的VIP電梯,現(xiàn)在成了全公司最堵的羊腸小道。

咋辦呢。

于是,一群更激進更年輕的大佬,一拍桌子說,靠,一部電梯不夠,咱們把整面墻都砸了,修一個電梯井吧,把一條單行道,直接拓寬成雙向八車道,讓信息流淌起來不就完了?

這個狂野的想法,就是超連接(Hyper-Connections)。

來自2024年字節(jié)Seed發(fā)的一篇論文。


以前,信息是一條單線流動的信息流。

現(xiàn)在,他們把這條信息流,強行擴容成了四條、八條并行的信息流VIP電梯。這就好比以前公司里只有一個信使,現(xiàn)在搞了一個8人信使送貨團,8個人一起拎著大包小包一起送信。

這下牛逼壞了,信息通量瞬間指數(shù)級暴增,模型的性能也確實立竿見影,蹭蹭往上漲。

你看,電梯多了,聰明的智商又占領(lǐng)高地了,對吧。

但是,但是又來了。

就像所有恐怖故事的開頭一樣,好景不長。

這條寬闊的八車道VIP電梯,很快就開始鬧鬼了。

你想啊,這個8兄弟,他們是人,不是機器。

他們在路上會互相聊天,會交流情報,人多嘴雜,就導致他們不再是單純地傳遞信息,這幾個人,開始在信息流里自由發(fā)揮了。

于是,各種詭異的事情發(fā)生了。

就比如說,一樓前臺收到消息說市場部小王今天可能要請假。

信使A聽了,覺得這事兒挺重要,告訴了信使B。

信使B覺得可能這個詞不確定,就跟信使C說市場部小王今天要請假。

信使C一琢磨,覺得得強調(diào)一下嚴重性,就跟信使D說市場部整個組今天都要罷工。

最后傳到CEO耳朵里,就變成了:

市場部全體員工已經(jīng)卷款跑路了!??!

CEO:????????

一個無關(guān)緊要的小信息,在多條信道里被反復共振、放大,最后釀成了一場災難。

這就是,信號爆炸。

再比如,一份十萬火急的服務(wù)器著火了的文件,被分成了八份,交給八個信使,讓每個信使都去送信。

但是呢,每個信使都覺得,這么重要的事,其他七個人肯定會送到的,我不如出去掙個外快先去送個外賣。

結(jié)果,誰都沒送。公司直接燒成了灰。

這就是信號消失。

整個公司的信息系統(tǒng),陷入了一片混亂。

這就導致,模型訓練到12000步的時候,突然性能就斷崖式下跌,跟跳樓似的,比心電圖還心電圖。


這模型就算廢了,直接訓崩了。

這就是HC技術(shù)最大的命門。

它為了追求信息通量,犧牲了信息的保真度和穩(wěn)定性。

好了,鋪墊了這么久,DeepSeek的mHC終于要登場了。


對,我們今天的主角,是mHC。

只不過為了讓大家理解,mHC到底為了解決什么問題,所以,花了這么大的篇幅,給大家講了背景故事。

mHC,全稱Manifold-Constrained Hyper-Connections,流形約束超連接。

注意這個詞,約束。

DeepSeek他們干了個啥事呢,他們沒有開掉那幾個信使,也沒有砸掉電梯說勞資要用火箭送用個鬼的電梯。

他們只是給這個8人送信小隊,制定了一套極其嚴格、甚至有點變態(tài)的信息傳遞紀律。

這套紀律的核心,在論文里叫雙重隨機矩陣約束。

咱們還是說人話,舉例子。

你可以理解為,他們設(shè)立了一個叫做內(nèi)部審計部,由一個究極不近人情的德國老太太領(lǐng)導,權(quán)力大到嚇人。

這個審計部咧,給每個信使都發(fā)了一本小冊子,上面印著兩條鐵律。

第一條鐵律,我們稱為信息能量守恒定律: 作為一個信使,你從上一站收到的所有信息,其信息能量總和為100%。那么在你把信息傳遞給下一站的隊友時,你傳遞出去的所有信息的信息能量總和,也必須不多不少,正好是100%。

回到上面信息爆炸那個案例。就比如說,信使A收到了小王請假這個信息,我們假設(shè)它的信息能量是10個單位。

這時候,信使A想添油加醋告訴信使B一個更夸張的版本。

但審計部的系統(tǒng)會立刻報警,因為信使A私自加信息了,導致他的輸出能量(比如20個單位)大于了他的輸入能量(10個單位)。

他這是在無中生有暗度陳倉順手牽羊,嚴重違反了信息能量守恒定律,結(jié)果就會是,信使A當場被開除。

在這套鐵律下,信使們依然可以交流,但任何放大和夸張的行為,都會在數(shù)學上被立刻識別并禁止。

謠言的傳播鏈,從根上就被斬斷了,信號爆炸的問題,就此解決。

第二條鐵律,我們稱為團隊責任綁定定律:對于任何一個需要被送達的信息,比如服務(wù)器著火這份文件,最終抵達目的地的信息能量總和,必須不多不少,正好等于它出發(fā)時的信息能量總和。

就比如還是剛剛的那個服務(wù)器著火的事。

信使A想:“這么多人呢,我不送也沒事吧?” 于是他選擇了摸魚,他貢獻的信息能量是0。

信使B也想:“總有傻子會送的?!?他的貢獻也是0。。。

如果八個人都這么想,那么最終抵達CEO辦公室的,關(guān)于服務(wù)器著火的信息能量總和就是0。

審計部的系統(tǒng)立刻就會拉響最高級別的警報,因為它發(fā)現(xiàn)出發(fā)時明明是100單位的能量,抵達時卻變成了0。根據(jù)團隊責任綁定定律,整個信使團隊都將面臨重罰。

為了避免這種情況,信使們就必須互相補位。如果A不干,B、C、D……就必須分攤他的工作,因為最終的那個總和是死命令,必須湊夠。

責任擴散的可能性,在數(shù)學上就被杜絕了。

信息,必須被送達。

信號消失的問題,也就此解決。


這兩條鐵律合在一起,就是所謂的雙重隨機矩陣約束。

它沒有禁止信使們交流,八車道高速公路依然車水馬龍,信息依然可以在其間自由組合。

但所有的自由,都被約束在了一個能量守恒的流形之內(nèi)。

這就是mHC的精髓。

在這約束之下,給你自由。

那最后的終極問題來了,這玩意,解決了HC的不穩(wěn)定問題之后,到底有什么用?

我先說兩個數(shù)字。

第一個,就是這套所謂的審計系統(tǒng),會帶來大概6.7%的額外訓練開銷。

第二個,就是在能力上,確實有部分提升,相對HC額外多出約2個點。


看著是不是好像有點投入產(chǎn)出不成正比?這生意聽起來,好像有點虧啊。

但是,別被表面騙了。

在模型訓練里,還有一個很核心的詞,叫穩(wěn)定性。

比如之前HC架構(gòu)的那個公司,會有各種信息爆炸的問題,如果我原來的信息能量初始值是1,在信息傳遞過程中,最高的時候,信息能量到CEO辦公室的時候,能干到3000。

你就能想象到,有多失真。

這個恐怖的失真,有時候就直接變成了摧毀模型訓練的一場風暴。

而DeepSeek的mHC。

在鐵律之下,幾乎全部做到了100%保真,最高也不過才1.6。


3000:1.6。

直接降低了3個數(shù)量級,對,不是3倍,是3個,數(shù)量級。

這就是mHC,最牛逼的地方,太尼瑪嚇人了。

而這個穩(wěn)定性,帶來的好處,顯而易見。

它用額外6.7%的開銷成本,讓你模型訓練瞬間崩盤的3000倍的系統(tǒng)性風險,直接摁死到了可以忽略不計的1.6倍。

要知道,模型訓練,太貴了,對于一家AI公司來說,訓模型每一秒燒掉的錢都是觸目驚心的。

任何一次過程中訓練的崩盤,那損失的,就不只是6.7%的額外開銷了,那是100%的建造成本,所有的一切,全特么重頭再來。

有可能就是數(shù)千萬的成本,還有好幾周的時間。

這就是HC系統(tǒng)那個心電圖背后,極高的、不可預測的、災難性的失敗風險。

他確實提高了模型的效率,但是這個不穩(wěn)定性,幾乎很難接受。

現(xiàn)在,我們再回來看mHC那6.7%的額外開銷。

你現(xiàn)在還覺得它貴嗎?

你把他當一份保險看,你就覺得,一丁點也不貴了。

僅僅6.7%的額外開銷,就能為一項千萬美元級別的投資提供近乎百分之百的安全保障,這在任何一個金融模型里,都是一筆劃算到笑出聲的買賣。

而且,性能還是更強的,這買賣,好到離譜好吧。

穩(wěn)定、高效、還更強。

這三者通常是一個不可能三角,你只能取其二。

而mHC,用一個精巧的數(shù)學設(shè)計和極致的工程優(yōu)化,把這三者全占了。

這就是為什么我說,這篇論文雖然低調(diào),但意義重大。

DeepSeek。

真的就是我們這個AI時代的真神。

每一篇論文,都能給行業(yè),一些小小的震撼。

贊美真神。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
哈梅內(nèi)伊妻子因傷勢過重去世!拉里賈尼:伊朗已為一場長期戰(zhàn)爭做好了準備,要讓敵人為其錯判而后悔

哈梅內(nèi)伊妻子因傷勢過重去世!拉里賈尼:伊朗已為一場長期戰(zhàn)爭做好了準備,要讓敵人為其錯判而后悔

每日經(jīng)濟新聞
2026-03-03 00:32:04
1.76億獨生子女,迎來一個壞消息,以后可能真的沒親戚了

1.76億獨生子女,迎來一個壞消息,以后可能真的沒親戚了

老特有話說
2026-03-01 21:57:03
伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

伊朗革命衛(wèi)隊宣布大規(guī)模軍事行動

界面新聞
2026-02-28 18:18:55
一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
照顧癱瘓兒3年多!MIRROR重傷舞者爸爸病倒 悲嘆「撐不住了」

照顧癱瘓兒3年多!MIRROR重傷舞者爸爸病倒 悲嘆「撐不住了」

ETtoday星光云
2026-03-02 15:10:14
整容成癮、拋妻娶粉?“消失”的宋小寶,終究為曾經(jīng)的荒唐買了單

整容成癮、拋妻娶粉?“消失”的宋小寶,終究為曾經(jīng)的荒唐買了單

啟迪你的思維
2026-02-02 20:56:29
一個美國人在網(wǎng)上發(fā)帖:為什么中國人覺得美國才是他們的家呢

一個美國人在網(wǎng)上發(fā)帖:為什么中國人覺得美國才是他們的家呢

賤議你讀史
2026-02-23 00:35:40
以為只是小毛病,一查竟是晚期!做完所有治療,他還是永遠離開了

以為只是小毛病,一查竟是晚期!做完所有治療,他還是永遠離開了

新時代的兩性情感
2026-02-18 08:36:45
幾塊錢的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

幾塊錢的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

橘子約定
2026-02-27 09:33:19
媒體人:不了解楊瀚森場下訓練情況,但英語進步速度讓人憂慮

媒體人:不了解楊瀚森場下訓練情況,但英語進步速度讓人憂慮

懂球帝
2026-03-02 13:29:16
牡丹花下死!這次曝光新戀情的黃曉明,沒給楊穎、葉柯留一絲體面

牡丹花下死!這次曝光新戀情的黃曉明,沒給楊穎、葉柯留一絲體面

情感大頭說說
2026-03-01 06:40:17
剛剛,華為鴻蒙6新版本突然大更新,真的猛啊

剛剛,華為鴻蒙6新版本突然大更新,真的猛啊

科技堡壘
2026-03-02 12:04:14
去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降……

去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降……

都市快報橙柿互動
2026-03-02 00:56:20
3月1日起充電電費要變了!跑滴滴、網(wǎng)約車的師傅注意啦

3月1日起充電電費要變了!跑滴滴、網(wǎng)約車的師傅注意啦

我不叫阿哏
2026-03-01 11:47:48
26年堅定持有的十只黑馬股,預定翻倍增長?。ňx)

26年堅定持有的十只黑馬股,預定翻倍增長?。ňx)

漲多寶
2026-03-02 14:45:51
聊天記錄曝光!李雨桐實名舉報薛之謙重婚罪!喊話3天內(nèi)公開道歉

聊天記錄曝光!李雨桐實名舉報薛之謙重婚罪!喊話3天內(nèi)公開道歉

空樽對月花獨瘦
2026-03-02 23:07:50
炸鍋了!汪小菲親口承認:玥兒被“強制”轉(zhuǎn)學兩年半!他差點氣暈

炸鍋了!汪小菲親口承認:玥兒被“強制”轉(zhuǎn)學兩年半!他差點氣暈

樂悠悠娛樂
2026-03-02 12:02:49
張云鵬尋親25年終團圓,爸爸送羽絨服下跪謝子,媽媽缺席引人心疼

張云鵬尋親25年終團圓,爸爸送羽絨服下跪謝子,媽媽缺席引人心疼

閱微札記
2026-03-02 19:31:55
“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

地理三體說
2026-01-29 21:40:34
79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

小熊侃史
2025-12-20 10:56:45
2026-03-03 01:15:00
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

游戲
家居
教育
時尚
旅游

《寶可夢》新作M站90分!近年最新鮮的寶可夢體驗

家居要聞

萬物互聯(lián) 享科技福祉

教育要聞

特別猛,但在留學生心中存在感很低的英國大學!

今年春天一定要擁有的4件衣服,太好看了!

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

無障礙瀏覽 進入關(guān)懷版