国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek 要發(fā)大招了,梁文鋒署名新論文!暴力優(yōu)化AI架構(gòu)

0
分享至

  

  新智元報道

  編輯:編輯部

  【新智元導(dǎo)讀】2026新年第一天,DeepSeek發(fā)表了梁文鋒署名的重磅新論文,提出了一種名為「mHC(流形約束超連接)」的新架構(gòu),在27B參數(shù)模型上,僅增加約6.7%的訓(xùn)練時間開銷,即可實現(xiàn)顯著性能提升。

  剛剛,DeepSeek送上2026年新年第一個王炸。

  這次的創(chuàng)新是,mHC(流形約束超連接)新架構(gòu)。

  

  標題:mHC:Manifold-Constrained Hyper-Connections

  鏈接:https://arxiv.org/abs/2512.24880

  在這篇論文中,DeepSeek提出了流形約束超連接(mHC),將矩陣投影到約束流形上優(yōu)化殘差連接空間,從而確保穩(wěn)定性,徹底顛覆了傳統(tǒng)AI架構(gòu)認知——

  可以擴大殘差流通道寬度(residual stream width),而在算力和內(nèi)存上的代價卻微乎其微。

  

  圖1: 殘差連接范式示意圖

  繼Hyper-Connections(HC)開辟「殘差連接寬度可擴展」路線之后,mHC直接把這一思路推上實用化的快車道。

  DeepSeek這次直擊AI痛點,給同行上了一課!

  值得一提的是,這次梁文鋒署名,但解振達、韋毅軒、Huanqi Cao為核心貢獻者,解振達為通訊作者。

  DeepSeek,或敲響ResNet喪鐘

  這簡直是為「模型優(yōu)化玩家」量身打造的王牌秘方。

  過去,超連接(hyper-connections)更多只是學(xué)術(shù)圈的小眾嘗試。

  而現(xiàn)在,DeepSeek直接把它升級為基礎(chǔ)架構(gòu)的核心設(shè)計要素。

  這也正是擁躉一直以來對DeepSeek的期待:數(shù)學(xué)上的洞察力+硬件層面的極致優(yōu)化。

  頂級大語言模型(LLM)中,ResNet結(jié)構(gòu)或許即將被淘汰。

  

  畢竟,殘差流通道寬度一直是擴展模型的「煩人瓶頸」。

  這波操作,也再次展現(xiàn)了DeepSeek典型的風(fēng)格:對同行的溫和降維打擊——

  你們兩年時間都在打磨微結(jié)構(gòu),調(diào)整DS-MoE?挺可愛哈。

  來看看我們怎么玩:把一個理論上看起來還不夠成熟的高級原語,直接做實,順手解鎖游戲下一關(guān)。

  他們在論文中寫道:「我們的內(nèi)部大規(guī)模訓(xùn)練實驗進一步驗證了mHC在大規(guī)模應(yīng)用中的有效性?!?/p>

  

  這句話在DeepSeek的原生稀疏注意力(Natively trainable Sparse Attention,NAS)那篇論文里可沒有。

  在27B模型的系統(tǒng)級基準測試結(jié)果中,新架構(gòu)mHC在絕大多數(shù)基準測試中持續(xù)超越基線模型并優(yōu)于HC,這證明其在大規(guī)模預(yù)訓(xùn)練中的有效性。

  

  換句話說,DeepSeek信心十足,不怕同行知道自己的「殺招」。

  這給了DeepSeek的鐵粉Teortaxes很大信心,他有九成把握:mHC會進入DeepSeek V4。

  

  核心方法

  Manifold-Constrained Hyper-Connections (mHC)

  這個方法的關(guān)鍵目標,就是在Hyper-Connections的拓撲設(shè)計下恢復(fù)身份映射屬性。這樣,就可以在大規(guī)模訓(xùn)練與現(xiàn)實基礎(chǔ)模型任務(wù)中體現(xiàn)實際價值。

  mHC與傳統(tǒng)殘差連接和HC的根本差異在于:傳統(tǒng)殘差連接只保留簡單的輸入 + 輸出形式(穩(wěn)定但表達受限);Hyper-Connections (HC)強化連接能力,但犧牲了穩(wěn)定性與效率。

  而mHC的思路是:將Hyper-Connections的參數(shù)空間約束到特定的流形(manifold)上,以恢復(fù)身份映射結(jié)構(gòu)。

  技術(shù)細節(jié)

  受恒等映射原則的啟發(fā),mHC的核心思想是在一個特定流形上對殘差映

  進行約束。盡管原始的恒等映射通過強制來保證訓(xùn)練穩(wěn)定性,但這種做法從根本上阻斷了殘差流內(nèi)部的信息交互,而這種交互對于充分發(fā)揮多流(multi-stream)架構(gòu)的潛力至關(guān)重要。

  因此,作者提出將殘差映射投影到一個既能維持跨層信號傳播穩(wěn)定性、又能促進殘差流之間相互作用的流形上,從而在保證穩(wěn)定性的同時保留模型的表達能力。

  為此,他們將約束為雙隨機矩陣,即矩陣元素非負,且每一行與每一列的元素之和均為1。

  形式化地,記為雙隨機矩陣所構(gòu)成的流形(亦稱Birkhoff多面體),將約束在其投影上,其定義為:

  

  需要注意的是,當(dāng)n=1時,雙隨機條件會退化為標量1,從而恢復(fù)為原始的恒等映射。選擇雙隨機性能夠帶來若干對大規(guī)模模型訓(xùn)練具有重要意義的嚴格理論性質(zhì):

  1.范性:雙隨機矩陣的譜范數(shù)有上界1,即。

  這意味著該可學(xué)習(xí)映射是非擴張的,從而能夠有效緩解梯度爆炸問題。

  2.組合閉包性

  雙隨機矩陣集合在矩陣乘法下是封閉的。這保證了跨越多層的復(fù)合殘差映射
仍然是雙隨機的,從而在整個模型深度范圍內(nèi)保持穩(wěn)定性。

  3.通過Birkhoff多面體的幾何解釋

  集合構(gòu)成Birkhoff多面體,即置換矩陣集合的凸包。

  這提供了清晰的幾何直觀:殘差映射可以被看作是若干置換的凸組合。

  從數(shù)學(xué)上看,此類矩陣的反復(fù)作用會單調(diào)地增強不同信息流之間的混合程度,從而有效地充當(dāng)一種魯棒的特征融合機制。

  參數(shù)化與流形投影

  在本節(jié)中,作者詳細介紹了mHC中
、以及的計算過程。

  給定第l層的輸入隱藏矩陣,首先將其展平成向量,以保留完整的上下文信息。隨后,遵循原始HC的建模方式,得到動態(tài)映射和靜態(tài)映射,具體如下:

  

  隨后,通過如下方式得到最終滿足約束的映射:

  

  其中,表示Sigmoid函數(shù)。

  Sinkhorn–Knopp(?) 算子首先通過指數(shù)運算保證所有元素為正,然后執(zhí)行交替的迭代歸一化過程,使矩陣的行和列分別歸一到1。

  具體而言,以正矩陣作為初始值,歸一化迭代過程為:

  

  隨著迭代次數(shù)增加,當(dāng)時,該過程收斂到一個雙隨機矩陣。

  在實驗中,取作為一個實用的近似值。

  高效的基礎(chǔ)設(shè)施設(shè)計

  通過一系列嚴格的工程優(yōu)化,作者成功將mHC(取n=4)部署到大規(guī)模模型中,訓(xùn)練開銷僅增加約6.7%。

  內(nèi)核融合

  作者觀察到,在mHC中,當(dāng)對高維隱藏狀態(tài)進行操作時,RMSNorm會帶來顯著的延遲。

  為此,他們將「除以范數(shù)」的操作重新排序,使其發(fā)生在矩陣乘法之后。該優(yōu)化在數(shù)學(xué)上是等價的,但在工程實現(xiàn)上顯著提升了效率。

  此外,我們采用混合精度策略,在不犧牲計算速度的前提下最大化數(shù)值精度,并將多個具有共享內(nèi)存訪問模式的算子融合為統(tǒng)一的計算內(nèi)核,以降低內(nèi)存帶寬瓶頸。

  基于公式(10)至(13)中給出的輸入與參數(shù)設(shè)置,作者實現(xiàn)了三個專用的 mHC計算內(nèi)核。

  

  利用上述內(nèi)核計算得到的系數(shù),他們又引入了兩個額外的計算內(nèi)核來應(yīng)用這些映射。

  該框架能夠簡化復(fù)雜計算流程內(nèi)核的實現(xiàn),并在較小工程代價下充分發(fā)揮內(nèi)存帶寬的潛力。

  重計算

  n路殘差結(jié)構(gòu)在訓(xùn)練過程中會引入顯著的內(nèi)存開銷。

  為緩解這一問題,作者在前向傳播結(jié)束后丟棄mHC內(nèi)核產(chǎn)生的中間激活,并在反向傳播階段通過重新執(zhí)行mHC內(nèi)核(不包含計算量較大的層函數(shù)F)來即時重計算這些激活。

  因此,對于連續(xù)的L_r個層組成的一個模塊,只需存儲第一層的輸入。

  在忽略輕量級系數(shù)、同時考慮到F中的pre-norm開銷后,表3總結(jié)了在反向傳播中需要保留的中間激活以及在L_r個連續(xù)層中被重計算的瞬時激活。

  

  隨后,他們通過最小化與L_r對應(yīng)的總內(nèi)存占用來確定最優(yōu)的塊大小。

  

  DualPipe中的通信重疊

  在大規(guī)模訓(xùn)練中,流水線并行(pipeline parallelism)是緩解參數(shù)與梯度內(nèi)存占用的標準實踐。

  具體而言,他們采用了DualPipe調(diào)度策略,該策略能夠有效地重疊跨節(jié)點(scale-out)的互連通信流量,例如專家并行與流水線并行中的通信開銷。

  然而,與單流(single-stream)設(shè)計相比,mHC中提出的n-流殘差結(jié)構(gòu)會在流水線階段之間引入顯著的通信延遲。

  此外,在階段邊界處,對所有Lr層重新計算mHC內(nèi)核也會帶來不可忽略的計算開銷。為了解決這些瓶頸,作者對DualPipe調(diào)度進行了擴展(見下圖),以在流水線階段邊界實現(xiàn)更高效的通信與計算重疊

  

  原文圖4:mHC的通信–計算重疊機制。

  具體而言,為避免阻塞通信流,他們MLP(即FFN)層的內(nèi)核放置在一個獨立的高優(yōu)先級計算流上執(zhí)行。

  同時,在注意力層中,他們刻意避免使用長時間運行的持久化內(nèi)核(persistent kernels),以防止產(chǎn)生長時間的停頓。

  該設(shè)計允許對已重疊的注意力計算進行搶占,從而在保持計算設(shè)備處理單元高利用率的同時,實現(xiàn)更加靈活的調(diào)度。

  此外,重計算過程被與流水線通信依賴解耦,這是因為每個階段的初始激活x0l已經(jīng)被緩存在本地。

  實驗結(jié)果

  DeepSeek團隊首先檢驗了27B模型的訓(xùn)練穩(wěn)定性和收斂性。

  如下圖(a)所示,mHC有效緩解了在HC中觀察到的訓(xùn)練不穩(wěn)定性,相比基線最終降低了0.021的損失。

  下圖(b)中的梯度范數(shù)分析,進一步證實了這種改善的穩(wěn)定性,表明mHC展現(xiàn)出顯著優(yōu)于HC的,穩(wěn)定性與基線相當(dāng)。

  

  原文圖5: 流形約束超連接(mHC)的訓(xùn)練穩(wěn)定性,展示了 (a) mHC與HC相對于基線的絕對訓(xùn)練損失差距,以及 (b) 三種方法的梯度范數(shù)。所有實驗均采用27B模型。

  在多樣化基準測試集上,mHC全面提升了下游性能,在所有任務(wù)上持續(xù)超越基線,并在大多數(shù)任務(wù)上優(yōu)于HC。

  值得注意的是,與HC相比,mHC進一步增強了模型的推理能力,在BBH上實現(xiàn)了2.1%的性能提升,在DROP上實現(xiàn)了2.3%的提升。

  這證明其在大規(guī)模預(yù)訓(xùn)練中的有效性。

  

  原文表4:27B模型的系統(tǒng)級基準測試結(jié)果。 本表比較了基線、HC和mHC在8個不同下游基準測試中的零樣本和少樣本性能。

  為了評估方法的擴展性,DeepSeek報告了mHC在不同規(guī)模下相比基線的相對損失改進。

  結(jié)果表明,即使在更高的計算預(yù)算下,mHC依然穩(wěn)健保持性能優(yōu)勢,僅輕微衰減。

  此外,研究團隊考察了訓(xùn)練過程中的動態(tài)變化,展示了3B模型的token擴展曲線。

  綜合來看,這些發(fā)現(xiàn)驗證了mHC在大規(guī)模場景下的有效性。這一結(jié)論得到了我們內(nèi)部大規(guī)模訓(xùn)練實驗的進一步證實。

  

  原文圖6:mHC相比基線的擴展特性。 (a) 計算擴展曲線:實線展示了不同計算預(yù)算下的性能差距。每個點代表模型大小和數(shù)據(jù)集大小的特定計算最優(yōu)配置,從3B和9B擴展到27B參數(shù)。(b) Token擴展曲線:3B模型在訓(xùn)練期間的軌跡。每個點代表模型在不同訓(xùn)練token數(shù)下的性能。

  理想情況下,單層映射應(yīng)滿足雙隨機約束,即前向信號增益與后向梯度增益均等于1。

  然而,為提升計算效率,實際實現(xiàn)中使用的Sinkhorn-Knopp算法必須限制迭代次數(shù),這次實驗中為20次。

  因此,如下圖(a)所示,后向梯度增益會略微偏離1。在下圖(b)所示的復(fù)合映射情況下,偏離有所增加但仍保持有界,最大值約為1.6。

  

  原文圖7:流形約束超連接(mHC)的傳播穩(wěn)定性。 本圖展示了27B模型中 (a) 單層映射與 (b) 復(fù)合映射 的傳播動態(tài)

  值得注意的是,與HC中近3000的最大增益幅度相比,mHC將其降低了三個數(shù)量級。

  這些結(jié)果表明,mHC相比HC顯著增強了傳播穩(wěn)定性,確保了前向信號與后向梯度的穩(wěn)定流動。

  此外,團隊觀察到,對于HC,當(dāng)最大增益較大時,其他值也往往顯著,這表明所有傳播路徑普遍存在不穩(wěn)定性。相比之下,mHC始終產(chǎn)生穩(wěn)定的結(jié)果。

  

  原文圖8:可學(xué)習(xí)映射的可視化,展示了HC(第一行)與mHC(第二行)的代表性單層及復(fù)合映射。每個矩陣通過對選定序列內(nèi)所有token取平均計算得出。y軸和x軸上的標簽分別表示前向信號增益(行和)與后向梯度增益(列和)。

  參考資料:

  https://arxiv.org/abs/2512.24880

  https://x.com/teortaxesTex/status/2006628917428334631

  

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
北京漢庭注銷,華住正在完成一場全國性的“瘦身”

北京漢庭注銷,華住正在完成一場全國性的“瘦身”

商業(yè)不許冷
2026-01-11 22:04:07
03年湖南一女教師莫名離世,6次尸檢后得出結(jié)論:特殊性方式導(dǎo)致

03年湖南一女教師莫名離世,6次尸檢后得出結(jié)論:特殊性方式導(dǎo)致

歷來都很現(xiàn)實
2024-11-23 16:03:32
按照黨中央部署要求,山東省委常委會召開2025年度民主生活會暨巡視整改專題民主生活會

按照黨中央部署要求,山東省委常委會召開2025年度民主生活會暨巡視整改專題民主生活會

新京報政事兒
2026-01-11 18:22:03
馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

小熊侃史
2025-12-25 11:27:42
2026年央視春晚彩排曝光后,評論區(qū)炸鍋,趙本山的擔(dān)心恐要成真了

2026年央視春晚彩排曝光后,評論區(qū)炸鍋,趙本山的擔(dān)心恐要成真了

小小李娛
2026-01-07 17:41:55
特朗普回應(yīng)是否抓捕普京:沒必要,與普京一直保持著良好關(guān)系

特朗普回應(yīng)是否抓捕普京:沒必要,與普京一直保持著良好關(guān)系

比利
2026-01-12 00:05:16
這是我見過身材最完美,氣質(zhì)最好的一個女明星,旁邊是撒

這是我見過身材最完美,氣質(zhì)最好的一個女明星,旁邊是撒

鄉(xiāng)野小珥
2026-01-12 00:31:01
亞朵大戰(zhàn)全季,傳統(tǒng)五星級酒店輸麻了

亞朵大戰(zhàn)全季,傳統(tǒng)五星級酒店輸麻了

IC實驗室
2025-11-13 15:50:52
黃金白銀大幅波動,華爾街投行:預(yù)測白銀會繼續(xù)走高

黃金白銀大幅波動,華爾街投行:預(yù)測白銀會繼續(xù)走高

21世紀經(jīng)濟報道
2026-01-11 22:56:04
極目政情丨農(nóng)業(yè)農(nóng)村部原部長唐仁健受賄細節(jié)曝光:行賄人主要來自于他的日常吃喝玩樂圈,唐仁健懺悔:真不要僥幸,現(xiàn)在悔之晚矣!

極目政情丨農(nóng)業(yè)農(nóng)村部原部長唐仁健受賄細節(jié)曝光:行賄人主要來自于他的日常吃喝玩樂圈,唐仁健懺悔:真不要僥幸,現(xiàn)在悔之晚矣!

極目新聞
2026-01-11 11:02:21
俄駐委大使披露馬杜羅被美控制詳情:“美軍沒打算讓任何人活下來”

俄駐委大使披露馬杜羅被美控制詳情:“美軍沒打算讓任何人活下來”

參考消息
2026-01-11 13:35:31
5-13、1-0,國青亞洲杯首勝,球迷:又到打平就出線的世界難題!

5-13、1-0,國青亞洲杯首勝,球迷:又到打平就出線的世界難題!

我就是一個說球的
2026-01-11 22:11:07
日本稀土合同暫停,高市早苗尋求解決方案

日本稀土合同暫停,高市早苗尋求解決方案

風(fēng)信子的花
2026-01-11 21:18:21
燒光2億、欠薪關(guān)店!網(wǎng)紅書店鼻祖涼透,只靠顏值的生意長不了

燒光2億、欠薪關(guān)店!網(wǎng)紅書店鼻祖涼透,只靠顏值的生意長不了

青眼財經(jīng)
2026-01-10 22:11:42
給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

與車同樂
2025-12-04 10:05:02
關(guān)押監(jiān)獄里的馬杜羅  面對徹夜不熄的燈光照射與販毒集團死亡威脅

關(guān)押監(jiān)獄里的馬杜羅 面對徹夜不熄的燈光照射與販毒集團死亡威脅

黃勝友
2026-01-09 11:03:09
閆學(xué)晶賬號被封!兒子入學(xué)黑料被扒,官媒介入,趙家班多人受牽連

閆學(xué)晶賬號被封!兒子入學(xué)黑料被扒,官媒介入,趙家班多人受牽連

好賢觀史記
2026-01-10 16:23:03
馬斯克又發(fā)力,現(xiàn)在全網(wǎng)都是比基尼美女!

馬斯克又發(fā)力,現(xiàn)在全網(wǎng)都是比基尼美女!

游戲動力ATK
2026-01-11 22:33:13
演員李幼斌稱,90多歲的父母全在養(yǎng)老院,每次去看都特別痛苦

演員李幼斌稱,90多歲的父母全在養(yǎng)老院,每次去看都特別痛苦

紅星新聞
2026-01-09 10:44:13
紀實:湖南漂亮18歲女大學(xué)生和父親西藏自駕游,回來后母親崩潰了

紀實:湖南漂亮18歲女大學(xué)生和父親西藏自駕游,回來后母親崩潰了

紅豆講堂
2024-10-09 11:15:47
2026-01-12 01:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14313文章數(shù) 66452關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

體育要聞

U23國足形勢:末輪不負泰國即確保晉級

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

數(shù)碼
教育
家居
公開課
軍事航空

數(shù)碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

教育要聞

ai時代下貝校家長在用ai輔導(dǎo)孩子

家居要聞

木色留白 演繹現(xiàn)代自由

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使:馬杜羅夫婦被控制時身邊沒人

無障礙瀏覽 進入關(guān)懷版