国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒署名,DeepSeek 論文引爆 AI 圈:mHC 架構(gòu)橫空出世!網(wǎng)友:這工程難度是地獄級

0
分享至


作者 | 冬梅

2026 年開年第一天,DeepSeek 又“整活兒了”!

DeepSeek發(fā)布了一篇重要學術論文,提出了一種名為mHC(Manifold-Constrained Hyper-Connections,流形約束超連接)的新型網(wǎng)絡架構(gòu)。該研究旨在解決現(xiàn)有超連接(HC)架構(gòu)在大規(guī)模模型訓練中存在的數(shù)值不穩(wěn)定和信號爆炸等瓶頸,同時保留其性能提升優(yōu)勢,成為新一代基礎模型設計的潛在方向。

論文題為 “mHC: Manifold-Constrained Hyper-Connections”,已于 2025 年底發(fā)布在 arXiv、Huggingface 平臺,并迅速引起業(yè)界關注。論文由 Zhenda Xie、Yixuan Wei 和 Huanqi Cao 等人擔任第一作者,DeepSeek 創(chuàng)始人兼 CEO梁文鋒也列于作者名單中。


論文地址:https://arxiv.org/pdf/2512.24880

架構(gòu)創(chuàng)新解決了什么問題

這篇論文中提到,傳統(tǒng) Transformer 網(wǎng)絡中的殘差連接結(jié)構(gòu)(即 x + F(x))因能維持恒等映射而保證信號穩(wěn)定傳遞,是深度學習模型得以順利訓練的核心機制之一。然而,近年來提出的Hyper-Connections(超連接)雖然拓寬了殘差流通道并增強了表達能力,但其無約束的連接矩陣破壞了恒等映射特性,在大規(guī)模訓練中經(jīng)常導致信號爆炸或梯度異常,影響訓練穩(wěn)定性和可擴展性。

DeepSeek 提出的mHC通過引入一種幾何約束的思路,將傳統(tǒng) HC 的殘差映射空間投影到特定的流形上,將連接矩陣限制在雙隨機矩陣(Birkhoff 多胞形)流形內(nèi)。這一投影不僅恢復了恒等映射性質(zhì),還在數(shù)學上保證了信號范數(shù)的穩(wěn)定性,有效避免了信號放大和梯度爆炸等數(shù)值問題。

核心技術實現(xiàn)上,研究團隊采用了Sinkhorn-Knopp 算法進行投影約束,并結(jié)合內(nèi)核融合、重計算和通信重疊等基礎設施層面的優(yōu)化手段,控制系統(tǒng)開銷,從工程角度確保訓練效率不會顯著下降。

這款新架構(gòu)“解決了什么問題”?在弄清楚這件事之前,首先是要搞清楚問題從哪里來:為什么傳統(tǒng) Hyper-Connections 會失控?

傳統(tǒng) Transformer 殘差連接之所以能夠支撐極深網(wǎng)絡,其關鍵并不只是“有殘差”,而在于殘差結(jié)構(gòu)中天然存在一個權重為 1 的恒等映射通路,這使得無論子模塊在訓練早期表現(xiàn)如何,主信號都可以穩(wěn)定向前傳播,信號范數(shù)不會隨著層數(shù)增加而系統(tǒng)性放大或衰減。

超連接(Hyper-Connections)在此基礎上進一步放寬結(jié)構(gòu)假設,將單一殘差流擴展為多條并行殘差流,并通過一個可學習的連接矩陣在不同流之間進行線性組合,從表達能力角度看更具潛力,但問題也正是出在這里:當連接矩陣完全自由學習時,它不再保證包含恒等映射成分,其譜性質(zhì)也無法受到約束,在大規(guī)模訓練中極易導致信號放大、梯度爆炸或數(shù)值不穩(wěn)定,這也是超連接在小模型中有效、但在十億甚至百億參數(shù)規(guī)模上頻繁失效的根本原因。

mHC 的核心思路并不是否定多流殘差,而是通過引入幾何約束,重新為這種復雜連接結(jié)構(gòu)建立穩(wěn)定性邊界。DeepSeek 將跨流連接矩陣的可行空間限制在雙隨機矩陣所構(gòu)成的流形上,即要求矩陣的每一行和每一列元素之和都為 1,且所有元素非負。


這一約束對應于數(shù)學上的 Birkhoff 多胞形,其關鍵性質(zhì)在于:單位矩陣本身就是雙隨機矩陣,因此傳統(tǒng)殘差結(jié)構(gòu)仍然是該空間中的一個特例;同時,雙隨機矩陣的最大特征值為 1,意味著其不會系統(tǒng)性放大信號范數(shù),本質(zhì)上只能在不同殘差流之間重新分配權重,而不能憑空放大或削弱整體能量。通過這種方式,多流超連接在保留表達靈活性的同時,重新獲得了與經(jīng)典殘差連接相近的穩(wěn)定性基礎。

在實現(xiàn)層面,mHC 并未直接在受約束空間內(nèi)進行復雜優(yōu)化,而是采用了工程上成熟且可微的 Sinkhorn-Knopp 算法,對無約束的連接矩陣進行投影。

訓練過程中,模型首先學習一個普通實值矩陣,然后在每次前向傳播前,通過有限步 Sinkhorn 歸一化,將其投影為近似雙隨機矩陣,從而保證連接始終位于安全的流形之內(nèi)。由于 Sinkhorn-Knopp 算法本身計算結(jié)構(gòu)簡單、數(shù)值穩(wěn)定,并且可以與主干計算進行融合和重疊,其引入的額外開銷在整體訓練中是可控的。

論文披露的實驗結(jié)果顯示,在 3B、9B 乃至 27B 參數(shù)規(guī)模下,mHC 不僅避免了傳統(tǒng)超連接中常見的訓練不收斂問題,還在多個任務上維持甚至提升了性能表現(xiàn),表明這種“硬約束式”的幾何投影在大模型場景中具有現(xiàn)實可行性。

從更宏觀的角度看,mHC 的意義并不在于提出一種立刻取代 Transformer 的新范式,而在于為復雜殘差拓撲的進一步探索提供了一種可擴展的理論與工程框架。

它表明,在大規(guī)模模型訓練中,單純依賴正則項或經(jīng)驗性初始化往往不足以抵御數(shù)值不穩(wěn)定,而將模型結(jié)構(gòu)顯式限制在具備良好譜性質(zhì)的幾何空間內(nèi),反而能夠系統(tǒng)性地解決穩(wěn)定性問題。這一思路為未來更復雜的多流、多路徑網(wǎng)絡設計打開了空間,也為如何在“更強表達能力”與“可控可訓性”之間取得平衡,提供了一種具有啟發(fā)意義的解法。

網(wǎng)友怎么看?

論文發(fā)布后,在人工智能研究者與產(chǎn)業(yè)從業(yè)者中引發(fā)了廣泛討論。

多位業(yè)內(nèi)人士在社交平臺和技術社區(qū)中對 DeepSeek 提出的 mHC 架構(gòu)進行了分析與解讀,討論重點集中在其對傳統(tǒng) Transformer 殘差連接方式的改動,以及該方法在大模型擴展性和訓練成本控制方面的潛在意義。也有觀點指出,DeepSeek 近年來持續(xù)通過公開論文釋放技術信號,其研究方向往往與后續(xù)模型迭代節(jié)奏密切相關。

在領英平臺,有用戶認為,這件事說明了一個趨勢,中國 AI 公司之間越來越愿意把研究成果公開出來,這反映出中國人工智能公司之間日益開放、協(xié)作的文化。他感慨道:

中國人工智能初創(chuàng)公司 DeepSeek 在創(chuàng)始人梁文鋒參與撰寫的一份新論文中迎來了 2026 年。這篇論文建議重新思考用于訓練基礎人工智能模型的基本架構(gòu)。這種名為 mHC 的方法,是這家杭州公司推動其模型更具成本效益的部分努力。DeepSeek 試圖以此跟上資金更充裕、算力獲取途徑更深的其他競爭對手的步伐。

這也反映出中國人工智能公司之間日益開放、協(xié)作的文化,這些公司公開發(fā)表的研究成果所占比例越來越高。對于行業(yè)觀察人士來說,DeepSeek 的論文往往為其下一個重要模型發(fā)布所采用的工程選擇,提供了重要的早期信號。

在 2026 年 1 月 1 日(周四)發(fā)布的一篇論文中,DeepSeek 的 19 名研究人員組成的團隊表示,他們在擁有 30 億、90 億和 270 億參數(shù)的模型上測試了“流形約束超連接”方法,發(fā)現(xiàn)其擴展性良好,且沒有增加顯著的計算負擔。


在 Reddit 平臺,新年第一天就看到這類研究成果發(fā)布,令人印象深刻。


Reddit 用戶名為 SlowFail2433 的用戶是一位長期從事深度學習研究的評論者,他指出,在深層神經(jīng)網(wǎng)絡中,如果缺乏恒等殘差連接,梯度往往會出現(xiàn)不穩(wěn)定甚至“崩潰”的問題,這一現(xiàn)象不僅存在于大語言模型中,在卷積神經(jīng)網(wǎng)絡,尤其是 ResNet 架構(gòu)中同樣普遍。因此,如果 DeepSeek 提出的“流形約束超連接”方法能夠在保持穩(wěn)定性的同時實現(xiàn)良好擴展,其意義不容小覷。

不過他也強調(diào),該論文在數(shù)學推導和底層實現(xiàn)上都具有較高復雜度。他表示:

為了保證效率,研究團隊在 CUDA 內(nèi)核層面進行了算子融合,并對訓練流水線進行了專門優(yōu)化,這類工作對工程能力提出了較高要求。有評論者直言,僅完全理解論文內(nèi)容就可能需要數(shù)周時間,不過在進一步研讀后發(fā)現(xiàn),其核心主要圍繞投影矩陣與流形約束展開,并非不可實現(xiàn)。


聲明:本文為 AI前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

技術人的年度儀式感! 年度盤點與趨勢洞察 啟動!

《2025 年度盤點與趨勢洞察》由 InfoQ 技術編輯組策劃。覆蓋大模型、Agent、具身智能、AI Native 開發(fā)范式、AI 工具鏈與開發(fā)、AI+ 傳統(tǒng)行業(yè)等方向,通過長期跟蹤、與業(yè)內(nèi)專家深度訪談等方式,對重點領域進行關鍵技術進展、核心事件和產(chǎn)業(yè)趨勢的洞察盤點。

力求以體系化視角幫助讀者理解年度技術演化的底層邏輯、創(chuàng)新方向與落地價值,并為新一年決策提供參考。內(nèi)容將在 InfoQ 媒體矩陣陸續(xù)放出,歡迎大家持續(xù)關注。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
剛剛,俄羅斯下的雪,震驚了全世界!

剛剛,俄羅斯下的雪,震驚了全世界!

喀秋莎大世界
2026-01-19 21:53:19
車企懵圈!沒了補貼“救濟糧”,1月份新能源車銷量狂跌了67%!

車企懵圈!沒了補貼“救濟糧”,1月份新能源車銷量狂跌了67%!

言車有徐
2026-01-19 19:20:28
最大“騙局”是山姆超市,靠一張 260 元的會員卡一年狂攬 660 億

最大“騙局”是山姆超市,靠一張 260 元的會員卡一年狂攬 660 億

南權先生
2026-01-19 15:38:30
里子面子都沒了!鄒市明“悲慘”現(xiàn)狀,是多少中年男人的真實寫照

里子面子都沒了!鄒市明“悲慘”現(xiàn)狀,是多少中年男人的真實寫照

東方不敗然多多
2026-01-19 15:01:51
0-3!1-1!瘋狂一夜,拉齊奧崩盤,布萊頓絕平,塞維利亞讓二追二

0-3!1-1!瘋狂一夜,拉齊奧崩盤,布萊頓絕平,塞維利亞讓二追二

足球狗說
2026-01-20 06:39:19
男子坐了28年牢,出獄后到派出所重新辦證,所長看到他竟哭了出來

男子坐了28年牢,出獄后到派出所重新辦證,所長看到他竟哭了出來

紅豆講堂
2025-05-08 09:35:37
俄國客商賒購800臺挖掘機,全廠高管反對,廠長力排眾議出貨

俄國客商賒購800臺挖掘機,全廠高管反對,廠長力排眾議出貨

白云故事
2026-01-06 04:30:03
繼紐約時報之后,泰晤士報也開始吹哨外星人了

繼紐約時報之后,泰晤士報也開始吹哨外星人了

碼頭青年
2026-01-19 14:33:35
新人笑舊人哭!曼城官宣格伊加盟 大英將星10年藍月生涯即將終結(jié)

新人笑舊人哭!曼城官宣格伊加盟 大英將星10年藍月生涯即將終結(jié)

雪狼侃體育
2026-01-20 10:57:21
2025年出生人口僅792萬比預計最低方案都還要低,10年出生人口減少1000萬

2025年出生人口僅792萬比預計最低方案都還要低,10年出生人口減少1000萬

小星球探索
2026-01-19 12:04:51
趙少康舉行新書發(fā)表會,藍綠白大咖齊聚,鄭麗文與其互動熱絡

趙少康舉行新書發(fā)表會,藍綠白大咖齊聚,鄭麗文與其互動熱絡

海峽導報社
2026-01-20 12:04:03
局勢惡化,百架F-35集結(jié)琉球,美軍要搞突襲?上千艘中國船已列陣

局勢惡化,百架F-35集結(jié)琉球,美軍要搞突襲?上千艘中國船已列陣

影孖看世界
2026-01-19 16:33:36
詹姆斯你太狠了,創(chuàng)造79年NBA獨一無二紀錄,太難超越了

詹姆斯你太狠了,創(chuàng)造79年NBA獨一無二紀錄,太難超越了

大西體育
2026-01-19 18:23:07
牢A講述美國華裔之:活著的“清朝人”,一個顛覆認知的逆天群體

牢A講述美國華裔之:活著的“清朝人”,一個顛覆認知的逆天群體

元爸體育
2026-01-19 01:28:27
烏克蘭圍殲戰(zhàn):庫皮揚斯克成俄軍第47坦克師絕境。

烏克蘭圍殲戰(zhàn):庫皮揚斯克成俄軍第47坦克師絕境。

世界探索者探索
2026-01-17 23:08:05
尊界回應S800起火事件!

尊界回應S800起火事件!

電動知家
2026-01-19 18:31:21
6.4萬的特斯拉FSD將成為歷史!

6.4萬的特斯拉FSD將成為歷史!

新車評網(wǎng)
2026-01-19 12:02:07
川普為何一定拿下格陵蘭?攻防體系、夾擊加拿大、稀土能源

川普為何一定拿下格陵蘭?攻防體系、夾擊加拿大、稀土能源

邵旭峰域
2026-01-19 16:41:55
季克良:工作50年喝掉2噸茅臺,退休7年被返聘,今87歲身體硬朗

季克良:工作50年喝掉2噸茅臺,退休7年被返聘,今87歲身體硬朗

白面書誏
2026-01-20 00:58:18
一家中國KTV的黑科技、零售與全球野心

一家中國KTV的黑科技、零售與全球野心

36氪
2026-01-19 21:59:15
2026-01-20 12:36:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領域技術資訊。
1257文章數(shù) 109關注度
往期回顧 全部

科技要聞

去年預虧60億后再投百億 兩大車企緊抱華為

頭條要聞

貝克漢姆長子發(fā)長文公開指責父母:試圖破壞我的婚姻

頭條要聞

貝克漢姆長子發(fā)長文公開指責父母:試圖破壞我的婚姻

體育要聞

新的時代!東契奇生涯首奪全明星票王 此前10年詹姆斯7次奪魁

娛樂要聞

貝克漢姆長子發(fā)文決裂:全家都在演戲

財經(jīng)要聞

2026年,7個趨勢正在爆發(fā)

汽車要聞

奇瑞張貴兵:墨甲不做秀技術的企業(yè) 只做痛點終結(jié)者

態(tài)度原創(chuàng)

手機
藝術
旅游
教育
時尚

手機要聞

消息稱iPhone Air 2因機身厚度限制,可能保留“藥丸屏”或改用側(cè)邊指紋

藝術要聞

書法圈人士秒認墻上14字,普通人能懂嗎?

旅游要聞

江蘇5地暫停水上旅游風景區(qū)運營,9座船閘禁入長江

教育要聞

揭曉!華中科技大學2025屆畢業(yè)生,都去哪兒了?

碼住抄作業(yè)!春節(jié)見人不翻車就靠這8樣!

無障礙瀏覽 進入關懷版