国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒署名,DeepSeek元旦新論文要開啟架構(gòu)新篇章

0
分享至



機(jī)器之心編輯部

新年第一天,DeepSeek 發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。

該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題,同時(shí)保持其顯著的性能增益 。

簡單來說,DeepSeek 提出的 mHC 通過將傳統(tǒng) Transformer 的單一殘差流擴(kuò)展為多流并行架構(gòu),并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機(jī)矩陣流形上,成功解決了超連接(HC)在大規(guī)模訓(xùn)練中因破壞恒等映射屬性而導(dǎo)致的數(shù)值不穩(wěn)定和信號爆炸問題。



  • 論文標(biāo)題:mHC: Manifold-Constrained Hyper-Connections
  • 論文地址:https://arxiv.org/pdf/2512.24880

這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek 創(chuàng)始人 & CEO 梁文鋒也在作者名單中。

傳統(tǒng)的殘差連接(即 Transformer 中的 x + F (x) 結(jié)構(gòu))憑借「恒等映射」保證了信號無損傳輸和訓(xùn)練穩(wěn)定性。但它的瓶頸在于信息通道的寬度受限于隱藏層維度 C。

近期,以字節(jié)跳動(dòng)Seed團(tuán)隊(duì)提出的 Hyper-Connections (HC) 為代表的研究,通過擴(kuò)展殘差流寬度和多樣化連接模式,拓展了過去十年中廣泛應(yīng)用的殘差連接范式。

雖然這些方法帶來了顯著的性能提升,但但也帶來了兩個(gè)嚴(yán)重問題:

  • 數(shù)值不穩(wěn)定性: 原始的 HC 中,連接矩陣是自由學(xué)習(xí)的,沒有約束。這導(dǎo)致信號在經(jīng)過多層傳播后,數(shù)值會(huì)「爆炸」或「消失」,破壞了恒等映射的特性,模型越深越難訓(xùn)練。
  • 系統(tǒng)開銷大: 通道變寬意味著顯存讀寫 (I/O) 和通信成本成倍增加,也就是所謂的「顯存墻」問題。

從根本上破壞了殘差連接固有的恒等映射屬性,導(dǎo)致了嚴(yán)重的訓(xùn)練不穩(wěn)定性和受限的可擴(kuò)展性,并額外增加了顯著的內(nèi)存訪問開銷。

為了解決這些挑戰(zhàn),DeepSeek 的研究團(tuán)隊(duì)提出了Manifold-Constrained Hyper-Connections (mHC,流形約束超連接)。

這是一個(gè)通用框架,它將 HC 的殘差連接空間投影到一個(gè)特定的流形上,以恢復(fù)恒等映射屬性,同時(shí)結(jié)合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保效率。

它的核心目的是:在保留「加寬殘差流」帶來的性能提升的同時(shí),解決其導(dǎo)致的訓(xùn)練不穩(wěn)定和顯存消耗過大的問題。

團(tuán)隊(duì)利用Sinkhorn-Knopp 算法將殘差連接矩陣投影到 Birkhoff 多胞形(雙隨機(jī)矩陣)上。這使得信號傳播變?yōu)樘卣鞯摹竿菇M合」,從數(shù)學(xué)上嚴(yán)格保證了信號范數(shù)的穩(wěn)定性(能量守恒)。為了抵消加寬通道帶來的開銷,團(tuán)隊(duì)實(shí)施了內(nèi)核融合、選擇性重計(jì)算以及擴(kuò)展的 DualPipe 通信計(jì)算重疊策略。

實(shí)證表明,mHC 不僅解決了穩(wěn)定性問題,且在大規(guī)模訓(xùn)練中(如 27B 模型)表現(xiàn)出卓越的可擴(kuò)展性。在 n=4 的擴(kuò)展倍率下,僅增加了 6.7% 的訓(xùn)練時(shí)間開銷,卻換來了顯著的性能提升。mHC 為基礎(chǔ)模型的拓?fù)浼軜?gòu)演進(jìn)指明了方向。



圖 1:殘差連接范式示意圖。 本圖對比了以下三種結(jié)構(gòu)設(shè)計(jì): (a) 標(biāo)準(zhǔn)殘差連接(Residual Connection); (b) Hyper-Connections (HC); (c) 我們提出的 Manifold-Constrained Hyper-Connections (mHC)。與無約束的 HC 不同,mHC 專注于優(yōu)化殘差連接空間,通過將矩陣投影到受約束的流形上,以確保穩(wěn)定性。

具體方法介紹

流形約束超連接 (mHC)

借鑒恒等映射(Identity Mapping)原則,mHC 的核心前提是將殘差映射

雖然原始的恒等映射是通過強(qiáng)制執(zhí)行



因此,該 DeepSeek 團(tuán)隊(duì)提出將殘差映射投影到一個(gè)流形上,既能保持跨層信號傳播的穩(wěn)定性,又能促進(jìn)殘差流之間的相互作用,以保持模型的表達(dá)能力(expressivity)。

為此,他們的做法是將

形式上,令







其中 1_n 表示全 1 的 n 維向量。

為什么選擇雙擬隨機(jī)性?因?yàn)槠渚哂卸囗?xiàng)有利于大規(guī)模訓(xùn)練的理論屬性:

  • ),這意味著學(xué)習(xí)到的映射是非擴(kuò)張的,可有效緩解梯度爆炸問題。
  • 范數(shù)保持:其譜范數(shù)有界且不超過 1(即



  • 復(fù)合封閉性:雙擬隨機(jī)矩陣集對矩陣乘法具有封閉性,確保了跨多層的復(fù)合殘差映射仍保持雙擬隨機(jī),從而可在整個(gè)模型深度上維持穩(wěn)定性。
  • 幾何解釋:該集合構(gòu)成了 Birkhoff 多胞形,是排列矩陣集的凸包。這意味著殘差映射充當(dāng)了排列的凸組合,其重復(fù)應(yīng)用會(huì)單調(diào)地增加跨流的信息混合,起到魯棒的特征融合作用。

此外,該團(tuán)隊(duì)還對輸入映射



參數(shù)化與流形投影

本節(jié)將詳述 mHC 中各映射的計(jì)算過程。

給定第 l 層的輸入隱藏矩陣 x_l,先將其展平為向量





最終的約束映射通過以下方式獲得:



其中



DeepSeek 在實(shí)驗(yàn)中采用 t_max=20 次迭代。

高效基礎(chǔ)設(shè)施設(shè)計(jì)

DeepSeek 還為 mHC 量身定制了基礎(chǔ)設(shè)施設(shè)計(jì),使其在 n=4 時(shí)在大模型中的訓(xùn)練開銷僅增加 6.7%:

算子融合 (Kernel Fusion):

重新調(diào)整 RMSNorm 的順序以提高效率,并采用混合精度策略。

開發(fā)了統(tǒng)一的算子,將多次掃描和矩陣乘法融合,減少內(nèi)存帶寬瓶頸和算子啟動(dòng)開銷。

在單個(gè)算子中實(shí)現(xiàn) Sinkhorn-Knopp 迭代及其自定義反向傳播。



重計(jì)算 (Recomputing):

為了減輕 n 流設(shè)計(jì)帶來的內(nèi)存壓力,DeepSeek 在前向傳播后丟棄 mHC 算子的中間激活,并在反向傳播時(shí)即時(shí)重新計(jì)算。

通過推導(dǎo)得出最優(yōu)重計(jì)算塊大小 L_r^*,以最小化總內(nèi)存占用。

DualPipe 中的通信重疊:

擴(kuò)展了 DualPipe 調(diào)度算法,以改善流水線并行階段邊界處的通信與計(jì)算重疊在專用高優(yōu)先級計(jì)算流上執(zhí)行 MLP 層的內(nèi)核,并避免在注意力層使用持久算子,以防止阻塞通信流并提高設(shè)備利用率。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

研究團(tuán)隊(duì)通過語言模型預(yù)訓(xùn)練來驗(yàn)證所提方法的有效性,并對基線模型、超連接(HC)以及提出的流形約束超連接(mHC)進(jìn)行了對比分析。

他們采用了受 DeepSeek-V3 啟發(fā)的 MoE 架構(gòu),訓(xùn)練了四種不同的模型變體,以覆蓋不同的評估體系。

具體而言,HC 和 mHC 的擴(kuò)展率 n 均設(shè)置為 4,主要關(guān)注點(diǎn)是一個(gè) 27B 參數(shù)規(guī)模的模型。其訓(xùn)練數(shù)據(jù)集的大小與其參數(shù)量成正比,該模型用于展示系統(tǒng)層面的主要結(jié)果。在此基礎(chǔ)上,他們通過引入使用成比例數(shù)據(jù)訓(xùn)練的較小的 3B 和 9B 模型來分析計(jì)算擴(kuò)展性,從而觀察不同計(jì)算規(guī)模下的性能趨勢。此外,為了專門研究 Token 規(guī)模的影響,他們另外訓(xùn)練了一個(gè)獨(dú)立的 3B 模型,該模型在一個(gè)固定的 1T Token 的語料庫上進(jìn)行訓(xùn)練。



主要結(jié)果



圖 5:流形約束超連接 (mHC) 的訓(xùn)練穩(wěn)定性。 該圖展示了:(a) mHC 和 HC 相對于基線模型的訓(xùn)練損失絕對差值;(b) 三種方法在訓(xùn)練過程中的梯度范數(shù)。所有實(shí)驗(yàn)均基于 27B 參數(shù)規(guī)模的模型。實(shí)驗(yàn)結(jié)果表明,mHC 在損失函數(shù)和梯度范數(shù)兩方面均表現(xiàn)出更優(yōu)的穩(wěn)定性。

研究團(tuán)隊(duì)首先考察 27B 模型的訓(xùn)練穩(wěn)定性和收斂性。如圖 5 (a) 所示,mHC 有效緩解了在 HC 中觀察到的訓(xùn)練不穩(wěn)定問題,與基線模型相比,最終損失降低了 0.021。圖 5 (b) 中的梯度范數(shù)分析進(jìn)一步證實(shí)了這種穩(wěn)定性的提升:mHC 表現(xiàn)出明顯優(yōu)于 HC 的行為,保持了與基線模型相當(dāng)?shù)姆€(wěn)定輪廓。



表 4:27B 模型在系統(tǒng)級基準(zhǔn)測試上的結(jié)果。 本表對比了基線模型、HC 以及 mHC 在 8 個(gè)不同的下游基準(zhǔn)測試中的零樣本和少樣本性能表現(xiàn)。結(jié)果顯示,mHC 始終優(yōu)于基線模型,并在大多數(shù)基準(zhǔn)測試中超越了 HC,證明了其在大規(guī)模預(yù)訓(xùn)練中的有效性。

表 4 展示了在多種下游基準(zhǔn)測試中的性能表現(xiàn)。mHC 帶來了全面的提升,一致性地優(yōu)于基線模型,并在大多數(shù)任務(wù)上超過了 HC。值得注意的是,與 HC 相比,mHC 進(jìn)一步增強(qiáng)了模型的推理能力,在 BBH 和 DROP 任務(wù)上分別實(shí)現(xiàn)了 2.1% 和 2.3% 的性能增益。

規(guī)模擴(kuò)展實(shí)驗(yàn)



圖 6:mHC 與基線模型的擴(kuò)展特性對比。 (a) 計(jì)算擴(kuò)展曲線:實(shí)線描繪了在不同計(jì)算預(yù)算下的性能差距。每個(gè)點(diǎn)代表模型大小與數(shù)據(jù)集大小的最優(yōu)計(jì)算配置,涵蓋了從 3B、9B 到 27B 參數(shù)規(guī)模的規(guī)模擴(kuò)展過程。 (b) Token 擴(kuò)展曲線:展示了 3B 模型在訓(xùn)練過程中的軌跡。每個(gè)點(diǎn)代表模型在不同訓(xùn)練 Token 數(shù)量下的性能表現(xiàn)。

為了評估該方法的擴(kuò)展性,研究者報(bào)告了在不同規(guī)模下 mHC 相對于基線模型的損失改善情況。在圖 6 (a) 中,他們繪制了涵蓋 3B、9B 和 27B 參數(shù)規(guī)模的計(jì)算規(guī)模擴(kuò)展曲線。其軌跡表明,即使在更高的計(jì)算預(yù)算下,性能優(yōu)勢依然穩(wěn)健地得以保持,僅表現(xiàn)出輕微的衰減。

此外,他們在圖 6 (b) 中考察了訓(xùn)練過程中的動(dòng)態(tài)變化,展示了 3B 模型的 Token 擴(kuò)展曲線。總的來看,這些發(fā)現(xiàn)驗(yàn)證了 mHC 在大規(guī)模場景下的有效性。這一結(jié)論在他們內(nèi)部的大規(guī)模訓(xùn)練實(shí)驗(yàn)中得到了進(jìn)一步的證實(shí)。

更多詳情請參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中美軍事實(shí)力有多大差距?張召忠:我可以負(fù)責(zé)任地講,別再被誤導(dǎo)

中美軍事實(shí)力有多大差距?張召忠:我可以負(fù)責(zé)任地講,別再被誤導(dǎo)

混沌錄
2025-05-12 18:38:14
楊丞琳近況曝光!現(xiàn)身南昌,衣品卻被吐槽一言難盡,頭發(fā)又少又油

楊丞琳近況曝光!現(xiàn)身南昌,衣品卻被吐槽一言難盡,頭發(fā)又少又油

劉鑫染
2026-01-06 21:26:57
河南大爺拍“素顏巴黎”爆火:別裝了,出國游真不比國內(nèi)游高級!

河南大爺拍“素顏巴黎”爆火:別裝了,出國游真不比國內(nèi)游高級!

卷史
2026-01-08 13:02:15
英媒:當(dāng)初德日不該逼迫中國自研機(jī)床技術(shù),如今他們壟斷全球市場

英媒:當(dāng)初德日不該逼迫中國自研機(jī)床技術(shù),如今他們壟斷全球市場

科普100克克
2026-01-02 17:00:09
反轉(zhuǎn)!特朗普宣布:普京住所附近有事,但與烏克蘭無人機(jī)無關(guān)

反轉(zhuǎn)!特朗普宣布:普京住所附近有事,但與烏克蘭無人機(jī)無關(guān)

嫹筆牂牂
2026-01-08 12:36:02
全紅嬋退役?懸念揭曉,廣東體育局官宣,名單公布,誰注意她舉動(dòng)

全紅嬋退役?懸念揭曉,廣東體育局官宣,名單公布,誰注意她舉動(dòng)

樂聊球
2026-01-07 13:44:54
王毅外長發(fā)出統(tǒng)一最強(qiáng)音,向全世界通報(bào)兩件事,中國再也不避諱了

王毅外長發(fā)出統(tǒng)一最強(qiáng)音,向全世界通報(bào)兩件事,中國再也不避諱了

議紀(jì)史
2026-01-07 12:20:03
男雙險(xiǎn)些全員一輪游,石宇奇晉級8強(qiáng),依舊耐沖王!

男雙險(xiǎn)些全員一輪游,石宇奇晉級8強(qiáng),依舊耐沖王!

楊晨大神
2026-01-08 12:21:38
一邊握手韓國,一邊揮手揍日本,中國種下新亞洲格局的種子

一邊握手韓國,一邊揮手揍日本,中國種下新亞洲格局的種子

觀察者網(wǎng)
2026-01-08 09:30:17
美軍如何進(jìn)行電子壓制,讓委內(nèi)瑞拉部署的中俄防空系統(tǒng)失效?

美軍如何進(jìn)行電子壓制,讓委內(nèi)瑞拉部署的中俄防空系統(tǒng)失效?

兵國大事
2026-01-05 18:02:20
最新!河南一家公立醫(yī)院被注銷

最新!河南一家公立醫(yī)院被注銷

醫(yī)脈圈
2026-01-07 20:55:56
1980年,王光美拿過追悼會(huì)名單,狠狠劃掉幾人,卻添上個(gè)正在挨整的將軍:他對咱家有恩

1980年,王光美拿過追悼會(huì)名單,狠狠劃掉幾人,卻添上個(gè)正在挨整的將軍:他對咱家有恩

源溯歷史
2026-01-07 19:28:08
100倍增長空間!全球首款可量產(chǎn)固態(tài)電池問世,產(chǎn)業(yè)鏈全面解讀!

100倍增長空間!全球首款可量產(chǎn)固態(tài)電池問世,產(chǎn)業(yè)鏈全面解讀!

公司與產(chǎn)業(yè)
2026-01-06 19:07:21
香港下雪?網(wǎng)傳歐洲模型料“超級寒潮”月中襲港,最低跌至1°C,香港天文臺(tái)回應(yīng)

香港下雪?網(wǎng)傳歐洲模型料“超級寒潮”月中襲港,最低跌至1°C,香港天文臺(tái)回應(yīng)

星島記事
2026-01-07 22:16:11
調(diào)整!1月8日央視直播WTT冠軍賽有變,王曼昱首秀,向鵬大戰(zhàn)張本

調(diào)整!1月8日央視直播WTT冠軍賽有變,王曼昱首秀,向鵬大戰(zhàn)張本

皮皮觀天下
2026-01-08 05:39:19
我月薪12萬,公公要給小兒子10萬,不給就離婚,我一句話讓全家愣住

我月薪12萬,公公要給小兒子10萬,不給就離婚,我一句話讓全家愣住

磊子講史
2025-06-16 15:54:17
48歲的我,已拉黑父母3年,不是不孝,而是他們要的孝順我給不起

48歲的我,已拉黑父母3年,不是不孝,而是他們要的孝順我給不起

人間百態(tài)大全
2026-01-08 06:50:02
頂級車模王琳 身高182cm 身材擁有黃金比例 散發(fā)迷人魅力

頂級車模王琳 身高182cm 身材擁有黃金比例 散發(fā)迷人魅力

陳意小可愛
2026-01-08 13:14:12
青島不敵上海,聽聽各界媒體專家怎么說,賽后劉維偉點(diǎn)評一針見血

青島不敵上海,聽聽各界媒體專家怎么說,賽后劉維偉點(diǎn)評一針見血

曾蠃愛旅行
2026-01-08 12:16:49
狂賣10億,登時(shí)代周刊,前大疆工程師,靠一把無弦吉他封神

狂賣10億,登時(shí)代周刊,前大疆工程師,靠一把無弦吉他封神

財(cái)叔
2026-01-02 21:20:52
2026-01-08 14:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12077文章數(shù) 142531關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽到營銷這兩個(gè)字都有點(diǎn)惡心

頭條要聞

委內(nèi)瑞拉外長:感謝中方支持

頭條要聞

委內(nèi)瑞拉外長:感謝中方支持

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

汽車要聞

不談?lì)嵏才c奇跡,智駕企業(yè)還能聊點(diǎn)什么?

態(tài)度原創(chuàng)

旅游
親子
藝術(shù)
本地
公開課

旅游要聞

報(bào)告:預(yù)計(jì)2025-2026冬季,我國冰雪旅游休閑收入有望達(dá)到4500億元

親子要聞

“她真丟了就好了!”寶媽稱厭惡10歲女兒,引眾多網(wǎng)友共鳴!

藝術(shù)要聞

頤和園金光穿洞

本地新聞

“閩東利劍·惠民安商”高效執(zhí)行專項(xiàng)行動(dòng)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版