国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

梁文鋒署名,DeepSeek元旦新論文要開啟架構新篇章

0
分享至



機器之心編輯部

新年第一天,DeepSeek 發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構。

該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓練中的不穩(wěn)定性問題,同時保持其顯著的性能增益 。

簡單來說,DeepSeek 提出的 mHC 通過將傳統(tǒng) Transformer 的單一殘差流擴展為多流并行架構,并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接(HC)在大規(guī)模訓練中因破壞恒等映射屬性而導致的數值不穩(wěn)定和信號爆炸問題。



  • 論文標題:mHC: Manifold-Constrained Hyper-Connections
  • 論文地址:https://arxiv.org/pdf/2512.24880

這篇論文的第一作者有三位:Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek 創(chuàng)始人 & CEO 梁文鋒也在作者名單中。

傳統(tǒng)的殘差連接(即 Transformer 中的 x + F (x) 結構)憑借「恒等映射」保證了信號無損傳輸和訓練穩(wěn)定性。但它的瓶頸在于信息通道的寬度受限于隱藏層維度 C。

近期,以字節(jié)跳動Seed團隊提出的 Hyper-Connections (HC) 為代表的研究,通過擴展殘差流寬度和多樣化連接模式,拓展了過去十年中廣泛應用的殘差連接范式。

雖然這些方法帶來了顯著的性能提升,但但也帶來了兩個嚴重問題:

  • 數值不穩(wěn)定性: 原始的 HC 中,連接矩陣是自由學習的,沒有約束。這導致信號在經過多層傳播后,數值會「爆炸」或「消失」,破壞了恒等映射的特性,模型越深越難訓練。
  • 系統(tǒng)開銷大: 通道變寬意味著顯存讀寫 (I/O) 和通信成本成倍增加,也就是所謂的「顯存墻」問題。

從根本上破壞了殘差連接固有的恒等映射屬性,導致了嚴重的訓練不穩(wěn)定性和受限的可擴展性,并額外增加了顯著的內存訪問開銷。

為了解決這些挑戰(zhàn),DeepSeek 的研究團隊提出了Manifold-Constrained Hyper-Connections (mHC,流形約束超連接)。

這是一個通用框架,它將 HC 的殘差連接空間投影到一個特定的流形上,以恢復恒等映射屬性,同時結合嚴格的基礎設施優(yōu)化以確保效率。

它的核心目的是:在保留「加寬殘差流」帶來的性能提升的同時,解決其導致的訓練不穩(wěn)定和顯存消耗過大的問題。

團隊利用Sinkhorn-Knopp 算法將殘差連接矩陣投影到 Birkhoff 多胞形(雙隨機矩陣)上。這使得信號傳播變?yōu)樘卣鞯摹竿菇M合」,從數學上嚴格保證了信號范數的穩(wěn)定性(能量守恒)。為了抵消加寬通道帶來的開銷,團隊實施了內核融合、選擇性重計算以及擴展的 DualPipe 通信計算重疊策略。

實證表明,mHC 不僅解決了穩(wěn)定性問題,且在大規(guī)模訓練中(如 27B 模型)表現(xiàn)出卓越的可擴展性。在 n=4 的擴展倍率下,僅增加了 6.7% 的訓練時間開銷,卻換來了顯著的性能提升。mHC 為基礎模型的拓撲架構演進指明了方向。



圖 1:殘差連接范式示意圖。 本圖對比了以下三種結構設計: (a) 標準殘差連接(Residual Connection); (b) Hyper-Connections (HC); (c) 我們提出的 Manifold-Constrained Hyper-Connections (mHC)。與無約束的 HC 不同,mHC 專注于優(yōu)化殘差連接空間,通過將矩陣投影到受約束的流形上,以確保穩(wěn)定性。

具體方法介紹

流形約束超連接 (mHC)

借鑒恒等映射(Identity Mapping)原則,mHC 的核心前提是將殘差映射

雖然原始的恒等映射是通過強制執(zhí)行



因此,該 DeepSeek 團隊提出將殘差映射投影到一個流形上,既能保持跨層信號傳播的穩(wěn)定性,又能促進殘差流之間的相互作用,以保持模型的表達能力(expressivity)。

為此,他們的做法是將

形式上,令







其中 1_n 表示全 1 的 n 維向量。

為什么選擇雙擬隨機性?因為其具有多項有利于大規(guī)模訓練的理論屬性:

  • ),這意味著學習到的映射是非擴張的,可有效緩解梯度爆炸問題。
  • 范數保持:其譜范數有界且不超過 1(即



  • 復合封閉性:雙擬隨機矩陣集對矩陣乘法具有封閉性,確保了跨多層的復合殘差映射仍保持雙擬隨機,從而可在整個模型深度上維持穩(wěn)定性。
  • 幾何解釋:該集合構成了 Birkhoff 多胞形,是排列矩陣集的凸包。這意味著殘差映射充當了排列的凸組合,其重復應用會單調地增加跨流的信息混合,起到魯棒的特征融合作用。

此外,該團隊還對輸入映射



參數化與流形投影

本節(jié)將詳述 mHC 中各映射的計算過程。

給定第 l 層的輸入隱藏矩陣 x_l,先將其展平為向量





最終的約束映射通過以下方式獲得:



其中



DeepSeek 在實驗中采用 t_max=20 次迭代。

高效基礎設施設計

DeepSeek 還為 mHC 量身定制了基礎設施設計,使其在 n=4 時在大模型中的訓練開銷僅增加 6.7%:

算子融合 (Kernel Fusion):

重新調整 RMSNorm 的順序以提高效率,并采用混合精度策略。

開發(fā)了統(tǒng)一的算子,將多次掃描和矩陣乘法融合,減少內存帶寬瓶頸和算子啟動開銷。

在單個算子中實現(xiàn) Sinkhorn-Knopp 迭代及其自定義反向傳播。



重計算 (Recomputing):

為了減輕 n 流設計帶來的內存壓力,DeepSeek 在前向傳播后丟棄 mHC 算子的中間激活,并在反向傳播時即時重新計算。

通過推導得出最優(yōu)重計算塊大小 L_r^*,以最小化總內存占用。

DualPipe 中的通信重疊:

擴展了 DualPipe 調度算法,以改善流水線并行階段邊界處的通信與計算重疊在專用高優(yōu)先級計算流上執(zhí)行 MLP 層的內核,并避免在注意力層使用持久算子,以防止阻塞通信流并提高設備利用率。

實驗

實驗設置

研究團隊通過語言模型預訓練來驗證所提方法的有效性,并對基線模型、超連接(HC)以及提出的流形約束超連接(mHC)進行了對比分析。

他們采用了受 DeepSeek-V3 啟發(fā)的 MoE 架構,訓練了四種不同的模型變體,以覆蓋不同的評估體系。

具體而言,HC 和 mHC 的擴展率 n 均設置為 4,主要關注點是一個 27B 參數規(guī)模的模型。其訓練數據集的大小與其參數量成正比,該模型用于展示系統(tǒng)層面的主要結果。在此基礎上,他們通過引入使用成比例數據訓練的較小的 3B 和 9B 模型來分析計算擴展性,從而觀察不同計算規(guī)模下的性能趨勢。此外,為了專門研究 Token 規(guī)模的影響,他們另外訓練了一個獨立的 3B 模型,該模型在一個固定的 1T Token 的語料庫上進行訓練。



主要結果



圖 5:流形約束超連接 (mHC) 的訓練穩(wěn)定性。 該圖展示了:(a) mHC 和 HC 相對于基線模型的訓練損失絕對差值;(b) 三種方法在訓練過程中的梯度范數。所有實驗均基于 27B 參數規(guī)模的模型。實驗結果表明,mHC 在損失函數和梯度范數兩方面均表現(xiàn)出更優(yōu)的穩(wěn)定性。

研究團隊首先考察 27B 模型的訓練穩(wěn)定性和收斂性。如圖 5 (a) 所示,mHC 有效緩解了在 HC 中觀察到的訓練不穩(wěn)定問題,與基線模型相比,最終損失降低了 0.021。圖 5 (b) 中的梯度范數分析進一步證實了這種穩(wěn)定性的提升:mHC 表現(xiàn)出明顯優(yōu)于 HC 的行為,保持了與基線模型相當的穩(wěn)定輪廓。



表 4:27B 模型在系統(tǒng)級基準測試上的結果。 本表對比了基線模型、HC 以及 mHC 在 8 個不同的下游基準測試中的零樣本和少樣本性能表現(xiàn)。結果顯示,mHC 始終優(yōu)于基線模型,并在大多數基準測試中超越了 HC,證明了其在大規(guī)模預訓練中的有效性。

表 4 展示了在多種下游基準測試中的性能表現(xiàn)。mHC 帶來了全面的提升,一致性地優(yōu)于基線模型,并在大多數任務上超過了 HC。值得注意的是,與 HC 相比,mHC 進一步增強了模型的推理能力,在 BBH 和 DROP 任務上分別實現(xiàn)了 2.1% 和 2.3% 的性能增益。

規(guī)模擴展實驗



圖 6:mHC 與基線模型的擴展特性對比。 (a) 計算擴展曲線:實線描繪了在不同計算預算下的性能差距。每個點代表模型大小與數據集大小的最優(yōu)計算配置,涵蓋了從 3B、9B 到 27B 參數規(guī)模的規(guī)模擴展過程。 (b) Token 擴展曲線:展示了 3B 模型在訓練過程中的軌跡。每個點代表模型在不同訓練 Token 數量下的性能表現(xiàn)。

為了評估該方法的擴展性,研究者報告了在不同規(guī)模下 mHC 相對于基線模型的損失改善情況。在圖 6 (a) 中,他們繪制了涵蓋 3B、9B 和 27B 參數規(guī)模的計算規(guī)模擴展曲線。其軌跡表明,即使在更高的計算預算下,性能優(yōu)勢依然穩(wěn)健地得以保持,僅表現(xiàn)出輕微的衰減。

此外,他們在圖 6 (b) 中考察了訓練過程中的動態(tài)變化,展示了 3B 模型的 Token 擴展曲線??偟膩砜?,這些發(fā)現(xiàn)驗證了 mHC 在大規(guī)模場景下的有效性。這一結論在他們內部的大規(guī)模訓練實驗中得到了進一步的證實。

更多詳情請參閱原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
若中美開戰(zhàn),美摧毀北斗衛(wèi)星,中國將如何應對?4大殺手锏已就位

若中美開戰(zhàn),美摧毀北斗衛(wèi)星,中國將如何應對?4大殺手锏已就位

春風秋雨
2025-10-29 19:55:04
華為Mate80突然官降:1月7日,驚喜大反轉

華為Mate80突然官降:1月7日,驚喜大反轉

科技堡壘
2026-01-07 12:46:59
瓦良格號曾讓中國為之震撼的程度有多深?當時在場的專家給出評價:蘇聯(lián)采用的鋼材品質極佳

瓦良格號曾讓中國為之震撼的程度有多深?當時在場的專家給出評價:蘇聯(lián)采用的鋼材品質極佳

老杉說歷史
2025-12-31 20:55:11
2006年在貴州的一處洞穴里,人們發(fā)現(xiàn)了兩臺美國制造的發(fā)電機,它們連續(xù)發(fā)電 80年,時至今日依舊運轉如常

2006年在貴州的一處洞穴里,人們發(fā)現(xiàn)了兩臺美國制造的發(fā)電機,它們連續(xù)發(fā)電 80年,時至今日依舊運轉如常

老杉說歷史
2025-12-24 18:36:10
女生穿短裙該如何搭配才能更吸睛?

女生穿短裙該如何搭配才能更吸睛?

型走衣櫥
2025-12-31 07:46:15
2026年央視春晚彩排曝光后,評論區(qū)炸鍋,趙本山的擔心恐要成真了

2026年央視春晚彩排曝光后,評論區(qū)炸鍋,趙本山的擔心恐要成真了

小小李娛
2026-01-07 17:41:55
因長得太漂亮,7次拒絕導演要求遭打壓,如今43歲才等到掌聲

因長得太漂亮,7次拒絕導演要求遭打壓,如今43歲才等到掌聲

黎兜兜
2025-12-25 21:57:32
女網紅現(xiàn)身柬埔寨斷腿流浪街頭, 被男友騙去賣掉黃賭毒, 慘!

女網紅現(xiàn)身柬埔寨斷腿流浪街頭, 被男友騙去賣掉黃賭毒, 慘!

扮貓騎老虎
2026-01-05 18:34:01
2025年俄軍取得哪些進展?多個重鎮(zhèn)被拿下,烏軍反攻能量耗盡

2025年俄軍取得哪些進展?多個重鎮(zhèn)被拿下,烏軍反攻能量耗盡

石宏主編
2026-01-05 14:32:41
犧牲貝林厄姆,邊緣化羅德里戈,只為成全姆巴佩?皇馬錯了!

犧牲貝林厄姆,邊緣化羅德里戈,只為成全姆巴佩?皇馬錯了!

籃球看比賽
2026-01-08 12:23:35
斯諾克賽程:決出D組頭名,中國或連續(xù)2組奪冠,147先生打醬油?

斯諾克賽程:決出D組頭名,中國或連續(xù)2組奪冠,147先生打醬油?

劉姚堯的文字城堡
2026-01-09 07:13:33
解放前的成都原來還有這么雄偉壯觀的城墻,那時候通惠門還在!

解放前的成都原來還有這么雄偉壯觀的城墻,那時候通惠門還在!

史之銘
2026-01-08 07:47:12
52歲復出屠榜?這位阿姨才是真正的業(yè)界鋼鐵俠!

52歲復出屠榜?這位阿姨才是真正的業(yè)界鋼鐵俠!

素然追光
2026-01-06 05:50:03
新加坡反了!越南也反了!中日關系緊張的時候,一個公然站隊日本

新加坡反了!越南也反了!中日關系緊張的時候,一個公然站隊日本

南權先生
2025-12-23 16:56:51
苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

科普100克克
2025-12-07 18:20:34
鄭欽文宣布:退出2026年澳網 經評估未達到100%戰(zhàn)斗狀態(tài)

鄭欽文宣布:退出2026年澳網 經評估未達到100%戰(zhàn)斗狀態(tài)

醉臥浮生
2026-01-08 15:56:12
特朗普稱2027年美軍事預算應是1.5萬億美元

特朗普稱2027年美軍事預算應是1.5萬億美元

新京報
2026-01-08 07:24:04
鄭州一業(yè)主因物業(yè)糾紛堵住小區(qū)車輛入口6次報警,民警強制傳喚致其受傷 法院判決:超出必要限度

鄭州一業(yè)主因物業(yè)糾紛堵住小區(qū)車輛入口6次報警,民警強制傳喚致其受傷 法院判決:超出必要限度

紅星新聞
2026-01-07 23:38:19
張學良到了晚年才吐露心聲:我這輩子從來不信迷信,然而在老虎廳除掉楊宇霆之后,我卻不得不改變想法

張學良到了晚年才吐露心聲:我這輩子從來不信迷信,然而在老虎廳除掉楊宇霆之后,我卻不得不改變想法

清風鑒史
2025-12-26 17:05:13
小沈陽也帶不動了!女兒沈佳潤口碑反轉再反轉,這次觀眾不忍了

小沈陽也帶不動了!女兒沈佳潤口碑反轉再反轉,這次觀眾不忍了

瓜汁橘長Dr
2026-01-04 16:33:29
2026-01-09 09:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12080文章數 142532關注度
往期回顧 全部

科技要聞

內存一天一個價,華強北老板們卻高興不起來

頭條要聞

男子與女友吵架飆車泄憤撞死1家3口 當時討論鸚鵡學舌

頭條要聞

男子與女友吵架飆車泄憤撞死1家3口 當時討論鸚鵡學舌

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

教育
健康
房產
游戲
軍事航空

教育要聞

校長的“五勢”智慧

這些新療法,讓化療不再那么痛苦

房產要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

《2077》開發(fā)人員認為第一幕長度正好 不宜再延長

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進入關懷版