国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek再次放大招,用MHC改變技術(shù)規(guī)則

0
分享至

過去半年以來,大家都在等DeepSeek再次放大招,但是似乎并沒有讓人特別驚艷的進(jìn)展,再次橫空出世。

等2026年的新年剛翻頁,DeepSeek 并沒有像外界期待的那樣發(fā)布新模型、刷榜單、秀參數(shù),而是做了一件更加踢館炸街的大事,在 arXiv上發(fā)表了一篇最重磅的論文。


這一點非常關(guān)鍵。因為arXiv 從來就不是給市場看的地方,它是全球科研共同體默認(rèn)的“原始技術(shù)水源”。

能選擇在這里發(fā)聲,說明這一次DeepSeek 想討論的,不是大模型的應(yīng)用效果了,而是以前的規(guī)則本身,能不能繼續(xù)成立,還能不能繼續(xù)創(chuàng)新的問題

論文的名字叫《mHC:引入流形約束的超連接結(jié)構(gòu)》。如果你只是停留在標(biāo)題層面,大概率會覺得這又是一篇典型的模型結(jié)構(gòu)改進(jìn)論文,專業(yè)、抽象。而且離現(xiàn)實很遠(yuǎn)。

但如果你順著論文真正想解決的問題往下拆,你會發(fā)現(xiàn),這一次DeepSeek 實際上是在正面回答一個,過去兩年幾乎所有大模型公司都在刻意回避的問題:

大模型,還能不能繼續(xù)穩(wěn)定地變大?

注意,這里不是“還能不能繼續(xù)變強(qiáng)”,而是“還能不能穩(wěn)定”的變大的問題。這是兩個完全不同的命題。

過去十年,整個深度學(xué)習(xí)體系有一個幾乎沒人再質(zhì)疑的默認(rèn)前提:只要模型足夠深、足夠?qū),只要算力和?shù)據(jù)能跟上,訓(xùn)練的效果就一定能出來。參數(shù)規(guī)模,等于能力上限。這個邏輯,支撐了從ResNet 到 Transformer,再到今天所有大模型的擴(kuò)張路徑。

但這個邏輯并不是天然成立的,它背后依賴的,其實是一項極其關(guān)鍵、卻早已被視為“空氣”的基礎(chǔ)設(shè)施——殘差連接。

如果沒有殘差連接,今天你看到的所有GPT、Claude、Gemini、LLaMA,根本不可能存在。

關(guān)于殘差連接,我們得把這個來龍去脈和底層邏輯說清楚。

在殘差連接出現(xiàn)之前,神經(jīng)網(wǎng)絡(luò)一旦加深之后,訓(xùn)練就會迅速失控。不是算力不夠,而是梯度在層層傳遞中不斷衰減、扭曲,信息根本傳不到該去的地方。這一點工程上表現(xiàn)得非常直觀:loss 不收斂、效果倒退、調(diào)參調(diào)到崩潰。

參差連接的偉大之處,在于它做了一件極其簡單、卻極其反直覺的事:
它不要求每一層都必須“學(xué)到東西”,而是允許它什么都不學(xué)。

輸出不再是f(x),而是x + f(x)。
那條“+ x”,就是一條信息的保命通道。

只要這條通道在,哪怕這一層的參數(shù)全錯,信息至少還能原樣往下走。也正是因為這一點,網(wǎng)絡(luò)才第一次具備了“無限加深”的工程可能性。

換句話來說,殘差連接的作用,不是為了提高上限,而是為了防止系統(tǒng)出現(xiàn)崩潰


但是,問題也恰恰出在這里。

殘差連接就像一條單向的高速公路。當(dāng)模型規(guī)模越來越大、任務(wù)越來越復(fù)雜,人們開始逐漸意識到:這種單一、線性的殘差信息通道,雖然穩(wěn),但可能已經(jīng)不夠用了。

現(xiàn)實世界的信息處理,從來不是一條直線。復(fù)雜認(rèn)知一定是多層信息、多路徑并行、交叉作用的結(jié)果。而傳統(tǒng)殘差連接,本質(zhì)上是一條極其干凈、極其保守的高速路,它可以保證不出事故,但是同時也限制了交通運(yùn)行的復(fù)雜度。

這正是Hyper-Connections(HC)出現(xiàn)的背景。

HC 的出發(fā)點,是非常清晰:既然信息不該只在相鄰層之間流動,那為什么不讓多層之間直接建立連接?讓不同深度的特征充分混合,理論上模型的表達(dá)能力會大幅提升。

從研究的動機(jī)上看,這條路設(shè)是完全正確的選擇。從實驗的直覺上看,它也確實有效。但HC 真正的問題,不在于“連得多”,而在于它動了殘差連接的底座。

為了實現(xiàn)多層混合,HC 把原本的恒等映射 x → x,變成了 x → W·x。也就是說。那條原本不參與學(xué)習(xí)、不容易出錯的信息高速路,被強(qiáng)行加上了一個可學(xué)習(xí)的變換矩陣。

聽起來只是多了一步線性映射,但是這一步,在工程層面,帶來的變化是巨大的。

因為一旦W 學(xué)錯了,那么信息就不再是“至少能通過”,而是必然被扭曲。原來殘差連接提供的是“兜底信息機(jī)制”,現(xiàn)在這個兜底的機(jī)制被拆掉了。

于是你會看到一個非常典型的現(xiàn)象:HC 在小模型、小規(guī)模實驗中表現(xiàn)十分亮眼;但是模型一放大、層數(shù)一加深,訓(xùn)練立刻開始變得不穩(wěn)定了。算力越多、參數(shù)越大,問題反而暴露得越快。

這其實暴露了一個更深層的問題:大模型表達(dá)能力的提升,正在侵蝕系統(tǒng)原有的穩(wěn)定性。

于是,這一次,針對這個問題,DeepSeek 做了一件非常值得玩味,也非!坝埠恕钡氖。

它沒有否定HC,也沒有退回傳統(tǒng)殘差連接的安全區(qū),而是直接選擇了一個從數(shù)學(xué)層面重新立規(guī)矩的路徑。它這次給出的答案,核心思路只有一句話:HC,你可以連得更加復(fù)雜,但你不能破壞信息守恒。

于是,DeepSeek 的mHC 出現(xiàn)了。

DeepSeek 把殘差路徑中的映射矩陣,強(qiáng)行約束到了一個特定的數(shù)學(xué)空間里——Birkhoff 多面體。這個空間里所有矩陣,都滿足一個極其重要的性質(zhì):它們是雙隨機(jī)矩陣。

雙隨機(jī)矩陣如果不用數(shù)學(xué)語言解釋,這到底意味著什么?意味著信息不會被放大,也不會被壓縮,只會在不同通道之間重新分配。意味著信息的“總量”,是被鎖死了。

實現(xiàn)這一步的工程意義,可以說非常直接而重大,因為無論你怎么設(shè)計復(fù)雜的信息連接,殘差信息都不會被破壞;也就意味著無論模型變得多大,梯度都不會因為殘差路徑而失控。

所以,mHC 的本質(zhì),不是讓模型變得更“聰明”,而是讓模型在復(fù)雜化之后,系統(tǒng)依然可控

具體的實驗結(jié)果,也非常耐人尋味:模型規(guī)模越大,mHC 相對于傳統(tǒng) HC 的優(yōu)勢越明顯。那么不得不承認(rèn),這是一個極其關(guān)鍵的信號,因為它說明,mHC的解決方案,這不是一個小技巧,而是一種隨規(guī)模放大的結(jié)構(gòu)優(yōu)勢。

到這里,如果我們只站在技術(shù)視角來理解的話,這已經(jīng)是一篇很扎實的論文了。但如果我們再次切換到資本市場的視角,你會發(fā)現(xiàn),這件事的意義要大得多。

過去兩年,大模型競爭在資本層面的邏輯其實非常單一:誰能拿到更多錢,誰能買到更多卡,誰就有更大的勝率。

這是一種極端依賴資本投入的競爭模式,它的隱含前提是:算力投入的邊際效率始終成立。只要你愿意燒錢,就一定能換來能力。

而mHC 這類工作的真正沖擊在于:它開始動搖這個前提。因為訓(xùn)練不穩(wěn)定,本身就是最大的隱性成本。一次失敗的大規(guī)模訓(xùn)練,消耗的不只是算力,還有時間、團(tuán)隊節(jié)奏、資本耐心,以及市場的窗口期。

大模型具備更穩(wěn)定的結(jié)構(gòu),到底意味著什么?意味著花同樣的錢,可以換來的是更確定的結(jié)果;意味著擴(kuò)張不是資本的博弈,而是工程化的決策和手段;意味著大模型的規(guī)模優(yōu)勢,開始從資源壟斷,算力優(yōu)勢,轉(zhuǎn)向“結(jié)構(gòu)設(shè)計”能力了。

這種情況會直接改變?nèi)。第一,算力的絕對優(yōu)勢,會被結(jié)構(gòu)效率部分對沖。第二,工程能力,會重新成為大模型公司的核心壁壘。第三,大模型競爭的重心,會從“誰更有錢有卡”,慢慢轉(zhuǎn)向“誰更不容易崩”。

從這個角度看,DeepSeek 這篇論文,真正的價值不在于 mHC 本身,而在于它所代表的技術(shù)方向選擇。

它沒有在參數(shù)規(guī)模上,去硬剛美國,也沒有在應(yīng)用層面追熱點,而是提前一步,把注意力放在了一個更長期,也更底層的問題上:當(dāng)模型繼續(xù)變大的確定性開始下降,新的系統(tǒng)的確定性,到底從哪里來?

DeepSeek借助mHC,給出的答案,是結(jié)構(gòu)的約束,是工程的理性,是在復(fù)雜系統(tǒng)里主動引入“安全邊界”。

這件事,對DeepSeek 自身的戰(zhàn)略價值也非常清晰。更穩(wěn)定的訓(xùn)練意味著更低的邊際成本、更高的成功率、更強(qiáng)的開源社區(qū)吸引力。同時也意味著在下一輪模型繼續(xù)放大之前,DeepSeek已經(jīng)提前卡住了一塊關(guān)鍵的技術(shù)高地。

更重要的是,它釋放了一個非常明確的信號:中國的AI 團(tuán)隊,已經(jīng)開始在“規(guī)則層”參與博弈了。

不是繼續(xù)跟隨,不是看淡優(yōu)化,而是嘗試定義,嘗試改變規(guī)則,改變底層邏輯。

所以,如果你把這篇論文放回資本市場的語境里,它討論的從來不只是殘差連接,而是一個更宏觀的問題:當(dāng)大模型的擴(kuò)張不再只是算力問題,誰有能力讓系統(tǒng)在更大規(guī)模下依然不崩?這才是下一階段真正決定產(chǎn)業(yè)格局和技術(shù)能力的核心變量。

新的一年剛剛開始,DeepSeek 又一次選擇了不走尋常路。而真正值得關(guān)注的,也從來不是這一篇論文本身,而是它背后所指向的那條創(chuàng)新路線。

如果說過去的競爭,是“誰能把模型做得更大”,那接下來的競爭,很可能會變成一句話:今后誰能把模型,安全地做大。目前來看,能夠很快掌握這一必殺秘訣的,就是DeepSeek團(tuán)隊了,就是中國的AI工程師了。

因此mHC的提出,其實釋放了一個很清晰的信號:中國的AI研發(fā)團(tuán)隊,再次跑到了世界前列,因為他們已經(jīng)開始在“基礎(chǔ)架構(gòu)層”開始做原創(chuàng)了。

所以,在新的一年剛剛開始之際,DeepSeek 又來踢館,又來炸街了,是不是很快,又會掀起全球的DeepSeek時刻了?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
相親遇到奇葩是啥體驗?網(wǎng)友:看完渾身不舒服,你能給我賠點錢嗎

相親遇到奇葩是啥體驗?網(wǎng)友:看完渾身不舒服,你能給我賠點錢嗎

帶你感受人間冷暖
2026-03-07 02:04:39
迪拜“地獄”監(jiān)獄:一間牢房20人,強(qiáng)奸是家常便飯,隨時會被電擊

迪拜“地獄”監(jiān)獄:一間牢房20人,強(qiáng)奸是家常便飯,隨時會被電擊

哄動一時啊
2026-03-09 19:26:44
欠中國的錢,委內(nèi)瑞拉不還了?美財長:中國已無法繼續(xù)獲得委石油

欠中國的錢,委內(nèi)瑞拉不還了?美財長:中國已無法繼續(xù)獲得委石油

萌城少年強(qiáng)
2026-01-22 12:47:40
這些“不吉祥花”,養(yǎng)在家里“花旺人不旺”,別再把它們當(dāng)作寶了

這些“不吉祥花”,養(yǎng)在家里“花旺人不旺”,別再把它們當(dāng)作寶了

三農(nóng)老歷
2026-02-22 19:23:10
陳魯豫:56歲的單身啟示錄——兩段婚姻、半生掙扎與一場自我救贖

陳魯豫:56歲的單身啟示錄——兩段婚姻、半生掙扎與一場自我救贖

ENEN娛樂地圖
2026-02-16 18:17:59
IT通信業(yè)祖師爺?shù)?種創(chuàng)造性思維:遇到難題先砍掉90%細(xì)枝末節(jié),從答案往回推往往更容易

IT通信業(yè)祖師爺?shù)?種創(chuàng)造性思維:遇到難題先砍掉90%細(xì)枝末節(jié),從答案往回推往往更容易

知識圈
2026-03-09 07:59:54
西安事變死了多少人?難怪蔣介石關(guān)押張學(xué)良一輩子

西安事變死了多少人?難怪蔣介石關(guān)押張學(xué)良一輩子

瑩瑩的歷史說
2026-03-08 11:19:32
石油直線跳水,可能釋放石油儲備高達(dá)4億桶

石油直線跳水,可能釋放石油儲備高達(dá)4億桶

中國能源網(wǎng)
2026-03-09 18:18:05
速報!日本正式通過入管法修正案,永住手續(xù)費從1萬漲到30萬

速報!日本正式通過入管法修正案,永住手續(xù)費從1萬漲到30萬

東京在線
2026-03-10 10:53:40
伊朗拉爾地下導(dǎo)彈基地被精準(zhǔn)搗毀,500米山體掩體成廢土

伊朗拉爾地下導(dǎo)彈基地被精準(zhǔn)搗毀,500米山體掩體成廢土

老馬拉車莫少裝
2026-03-07 08:24:42
3.10六百萬操作|抄底半導(dǎo)體算力上漲!大龍今天繼續(xù)干!

3.10六百萬操作|抄底半導(dǎo)體算力上漲!大龍今天繼續(xù)干!

龍行天下虎
2026-03-10 13:47:41
“我是中國人!”德國猶太裔百億富翁,帶全部身家加入中國國籍

“我是中國人!”德國猶太裔百億富翁,帶全部身家加入中國國籍

瑩瑩的歷史說
2026-03-06 21:27:21
為氣老公說孩子像男閨蜜,他真去做了親子鑒定,我成了全家罪人

為氣老公說孩子像男閨蜜,他真去做了親子鑒定,我成了全家罪人

曉艾故事匯
2026-03-02 08:07:14
吳夢潔領(lǐng)銜!袁心玥在列,朱婷無緣,中國女排23人集訓(xùn)名單預(yù)測

吳夢潔領(lǐng)銜!袁心玥在列,朱婷無緣,中國女排23人集訓(xùn)名單預(yù)測

跑者排球視角
2026-03-10 07:11:16
美國高級將領(lǐng)警告:中國正以難以置信的速度,成為美國的最大威脅

美國高級將領(lǐng)警告:中國正以難以置信的速度,成為美國的最大威脅

聚焦科技與創(chuàng)新
2026-02-11 21:48:50
趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

趴在中國仁愛礁9000多天的菲律賓軍艦,如今已經(jīng)再也拖不走了

小小科普員
2025-11-21 20:23:24
笑死!果然中國人最會的就是取外號,網(wǎng)友:一開口老師就怒了

笑死!果然中國人最會的就是取外號,網(wǎng)友:一開口老師就怒了

夜深愛雜談
2026-02-15 21:00:32
1978年譚震林受粟裕之托,去徐州紀(jì)念淮海戰(zhàn)役,結(jié)果氣得渾身發(fā)抖

1978年譚震林受粟裕之托,去徐州紀(jì)念淮海戰(zhàn)役,結(jié)果氣得渾身發(fā)抖

微野談寫作
2026-03-03 07:30:06
豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

蜉蝣說
2026-02-23 21:23:05
因非特異性呼吸衰竭,女博導(dǎo)李新影在埃及去世,年僅48歲,學(xué)生:每次見面她都是笑盈盈的,過年還互發(fā)了拜年祝福

因非特異性呼吸衰竭,女博導(dǎo)李新影在埃及去世,年僅48歲,學(xué)生:每次見面她都是笑盈盈的,過年還互發(fā)了拜年祝福

極目新聞
2026-03-09 12:40:07
2026-03-10 15:04:49
何毅商業(yè)財經(jīng) incentive-icons
何毅商業(yè)財經(jīng)
分享商業(yè)知識,共享財經(jīng)信息
524文章數(shù) 928關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”狂歡 賣“飼料”先掙錢了?

頭條要聞

牛彈琴:特朗普放風(fēng)要停戰(zhàn) 伊朗稱正為美國準(zhǔn)備"驚喜"

頭條要聞

牛彈琴:特朗普放風(fēng)要停戰(zhàn) 伊朗稱正為美國準(zhǔn)備"驚喜"

體育要聞

韓國女足羨慕的奢侈品,為何選擇中國女足

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財經(jīng)要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

汽車要聞

蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

游戲
健康
親子
藝術(shù)
公開課

《精靈皮可》被多位插畫家質(zhì)疑抄襲 致敬寶可夢帕魯

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

孩子過敏不過敏,這7個預(yù)警信號家長要記牢

藝術(shù)要聞

30000畝杏花開了,新疆的春天這么美!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版