国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek連發(fā)兩篇論文背后,原來藏著一場學術接力

0
分享至



編輯|張倩、陳陳

2026 年 1 月過半,我們依然沒有等來 DeepSeek V4,但它的模樣已經(jīng)愈發(fā)清晰。

最近,DeepSeek 連發(fā)了兩篇論文,一篇解決信息如何穩(wěn)定流動,另一篇聚焦知識如何高效檢索。

第一篇論文(mHC)出來的時候,打開論文的人都表示很懵,直呼看不懂,讓 AI 助手用各種方式講給自己聽。我們也翻了翻網(wǎng)友的討論,發(fā)現(xiàn)理解起來比較透徹的辦法其實還是要回到研究脈絡,看看這些年研究者們是怎么接力的。要理解第二篇論文(Conditional Memory)也是如此。

于是,我們就去翻各路研究者的分析。這個時候,我們發(fā)現(xiàn)了一個有意思的現(xiàn)象:DeepSeek 和字節(jié) Seed 團隊的很多工作其實是存在「接力」的 ——mHC 在字節(jié) Seed 團隊 HC(Hyper-Connections)的基礎上進行了重大改進;Conditional Memory 則引用了字節(jié) Seed 的 OverEncoding、UltraMem 等多項工作。

如果把這些工作之間的關系搞清楚,相信我們不僅可以加深對 DeepSeek 論文的理解,還能看清大模型架構創(chuàng)新正在往哪些方向突破。

在這篇文章中,我們結合自己的觀察和學界專家的點評,嘗試為大家梳理了一下。

殘差連接的十年接力

要理解 mHC,得先回到 2015 年。

那一年,AI 大牛何愷明等人提出了 ResNet,用殘差連接解決了深度神經(jīng)網(wǎng)絡訓練中的老大難問題:網(wǎng)絡層數(shù)一多,信息從前往后傳遞時會逐漸失真,到最后幾層幾乎學不到東西。殘差連接的思路很簡單,每一層不光接收上一層處理過的結果,還同時保留一份原始輸入,兩者加在一起再往下傳。

這個設計堪稱深度學習的基石,十年來幾乎所有主流深度網(wǎng)絡架構都以殘差連接為默認配置。從視覺領域的各類 CNN,到自然語言處理領域的 Transformer,再到如今的大語言模型,無一例外。

期間,研究者們大多在注意力機制、歸一化方法、激活函數(shù)等方面做了大量改進,但殘差連接的基本形式幾乎沒有根本性變化。

直到 2024 年 9 月,字節(jié) Seed 提出了 HC,論文后來被 ICLR 2025 接收。

HC 的核心創(chuàng)新在于顯著提升了網(wǎng)絡的拓撲復雜度,同時不改變單個計算單元的 FLOPs 開銷。這意味著在相同的計算預算下,模型可以探索更豐富的特征組合方式。

中國人民大學長聘副教授、博士生導師劉勇認為:HC 打破了由 ResNet 統(tǒng)治的恒等映射殘差連接傳統(tǒng),提出了多路并發(fā)連接的新范式。它通過引入寬度動態(tài)性和跨層特征聚合,證明了通過增加殘差路徑的特征維(Expansion)和引入可學習的 Dynamic Hyper Connections 可以有效緩解 Representation Collapse 的問題并提升大語言模型的預訓練效率,提供了一個超越傳統(tǒng)殘差網(wǎng)絡的全新架構底座,即不再局限于單路徑的特征疊加,而是通過超連接構建一個更高維、更靈活的特征流動空間。

DeepSeek 在 mHC 論文中表示:近年來,以 Hyper-Connections(HC)(Zhu et al., 2024) 為代表的研究,為殘差連接引入了一個新的維度,并在實驗上驗證了其顯著的性能潛力。HC 的單層結構如圖 1 (b) 所示。通過擴展殘差流的寬度并提升連接結構的復雜性,HC 在不改變單個計算單元 FLOPs 開銷的前提下,顯著提升了網(wǎng)絡的拓撲復雜度。



可以看出:字節(jié) Seed 提出的「擴展殘差流寬度 + 可學習連接矩陣」這一新的架構范式,構成了其后續(xù)方法設計的重要基礎,相關工作正是在這一范式框架內進一步展開的。

但 HC 在走向大規(guī)模訓練的過程中遇到了瓶頸,導致訓練不穩(wěn)定和受限的可擴展性。盡管如此,但其為后續(xù)研究指明了方向。劉勇認為,HC 論文為 mHC 研究提供了三個核心思路:

  • 首先是寬度擴展(Stream Expansion),即通過將殘差流維度擴大(如擴大至 4 倍或更多),能夠顯著增強模型的容量和學習能力;
  • 其次是多尺度連接的權重化,通過引入可學習矩陣來分配不同層級特征的貢獻,啟示了連接權重管理(mHC 中的 Sinkhorn-Knopp 算法)的重要性;
  • 最后是動態(tài)拓撲的潛力,論文展示了模型可以根據(jù)深度動態(tài)調整特征流向,這種軟拓撲結構為解決深層網(wǎng)絡訓練難點提供了新視角。這些探索讓 mHC 意識到,雖然拓撲結構的復雜化能帶來增益,但也必須解決隨之而來的訓練穩(wěn)定性與工程效率問題。

正是基于這些探索,DeepSeek 團隊得以明確 mHC 的研究方向:在繼承 HC 架構優(yōu)勢的同時,針對性地解決其規(guī);款i。

劉勇指出:mHC 針對 HC 在大規(guī)模部署時暴露的穩(wěn)定性風險和內存訪問開銷進行了針對性改進。在研究思路上,mHC 延續(xù)了 HC 的寬度擴展與多路徑聚合,并進一步通過 Sinkhorn-Knopp 等技術手段,施加流形約束,將 HC 的廣義空間投影回特定流形,從而在保留 HC 性能優(yōu)勢的同時,重新找回了殘差網(wǎng)絡至關重要的恒等映射特性,解決了 HC 在超大規(guī)模訓練時的不穩(wěn)定性。在工程層面,mHC 中提出了更高效的內核優(yōu)化(Infrastructure Optimization),使該范式從理論實驗走向了萬億級參數(shù)規(guī)模的工業(yè)級應用。

基于這些改進,mHC 不僅解決了穩(wěn)定性問題,且在大規(guī)模訓練中(如 27B 模型)表現(xiàn)出卓越的可擴展性。

我們不難發(fā)現(xiàn),mHC 解決了 HC 在大規(guī)模訓練中的工程瓶頸。通過引入流形約束,mHC 在保留 HC 架構優(yōu)勢的同時恢復了訓練穩(wěn)定性,使得這一新范式真正具備了在主流大模型訓練中應用的條件。

有網(wǎng)友認為:DeepSeek 提出的 mHC 是對字節(jié) Seed HC 訓練架構技巧的一次頗具說服力的推進。



從 2015 年殘差連接問世,到 2024 年字節(jié) Seed 提出 HC,再到 2026 年 DeepSeek 提出 mHC,我們清楚地看到殘差連接在算法上的演進,是不同機構、研究者持續(xù)接力和優(yōu)化的結果。

而在 DeepSeek 發(fā)布的另一篇論文中,我們看到了幾乎相同的模式再次上演。

都用 N-gram,字節(jié) Seed、DeepSeek 接連導出新結論

和 mHC 論文的「抽象」感不同,「Conditional Memory」論文解決的問題比較好理解:大模型被問到的很多問題是可以直接查表解決的,比如「法國的首都是哪里」,但由于標準 Transformer 缺乏原生的知識查找原語,即使這樣簡單的問題,模型也得去計算,就像你上了考場還要自己推導公式,這無疑是一種浪費。

對此,「Conditional Memory」論文提出的解決方案是給模型裝一個「小抄本」(Engram),常見的詞組直接查表,省下來的算力用來做更復雜的推理。

具體來說,Engram 的做法是:給模型配一個巨大的「詞組詞典」,當模型讀到某個詞(比如「Great」時,就把它前面幾個詞拼成 N-gram(比如「the Great」或「Alexander the Great」),然后用哈希函數(shù)把這個 N-gram 變成一個數(shù)字,直接去詞典里查對應的向量。

這個「N-gram 哈希查表」的做法,字節(jié) Seed 之前也用過。在提出OverEncoding 方法的論文(題為「Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling」)中,他們發(fā)現(xiàn):給模型配一個巨大的 N-gram 詞典,幾乎是「白撿」的性能提升。為什么說白撿?劉勇分析說,因為這些海量的嵌入?yún)?shù)是稀疏激活的,每次推理只查其中極少數(shù),所以既不怎么吃顯存,也不怎么費算力。更重要的是,論文發(fā)現(xiàn)詞典越大、性能越好,而且提升幅度是可預測的。



論文地址:https://arxiv.org/pdf/2501.16975

如果說字節(jié) Seed 論文用實驗告訴我們「把輸入詞表加大就能漲分」,DeepSeek 論文則另開一條賽道:把 N-gram 做成外掛存儲 Engram,與 MoE 分工,正式提出「條件存儲」這條新軸線,并告訴我們該怎么分參數(shù)才最劃算。

還是回到考場的比喻:字節(jié) Seed 發(fā)現(xiàn)給學生發(fā)公式手冊成績會提高,于是得出結論 ——「大詞表是更好的輸入表示」。DeepSeek 則進一步追問:這種做法還能以什么方式提高成績?他們通過 LogitLens 等工具進行機制分析,發(fā)現(xiàn)這種 lookup 機制能將模型從繁重的局部靜態(tài)模式重建中解放出來,使早期層直接獲得高階語義,從而增加了模型的有效推理深度。

基于這個洞察,DeepSeek 不再僅僅將 N-gram 視為簡單的詞表擴展,而是將這一實驗性結論升華為「條件存儲」(Conditional Memory),這是一條與條件計算(MoE)并列的 scaling law 新軸線。在此基礎上,他們提出了「稀疏分配」(Sparsity Allocation)問題:在固定參數(shù)預算下,如何在 MoE 專家與靜態(tài)存儲模塊之間分配參數(shù)?實驗揭示了一條 U 型縮放規(guī)律 —— 全押 MoE 并非最優(yōu)解,將約 20%-25% 的參數(shù)分配給 Engram 反而效果更好。

劉勇表示,在工程實現(xiàn)上,DeepSeek 也進行了系統(tǒng)性的技術改良。架構層面,它改進了前作僅在輸入層(Layer 0)注入信息的局限,將 Engram 模塊注入到模型的中間層,使存儲訪問與深度計算實現(xiàn)并行與融合。交互機制上,它放棄了簡單的嵌入加和,引入了「上下文感知門控」,利用隱狀態(tài)動態(tài)調節(jié)檢索結果。系統(tǒng)優(yōu)化上,它通過分詞器壓縮提高存儲效率,并利用硬件層面的預取技術(Prefetching)解決海量參數(shù)導致的延遲問題,使該技術真正具備了大規(guī)模工業(yè)落地的能力。

在論文的 3.2 章節(jié),我們發(fā)現(xiàn),DeepSeek 把自己的 Engram 與字節(jié) Seed 的 OverEncoding 方法進行了對比,指出雖然兩者都能從更大的嵌入表中獲益,但在相同的參數(shù)預算下,Engram 的縮放效率明顯更高。



一起上分、互相啟發(fā)

研究發(fā)表的意義具象化了

每次 DeepSeek 一發(fā)論文,推特上都能引發(fā)不小的轟動,有位博主甚至提到他搭乘的飛機上有 30% 的人都在看 DeepSeek 剛發(fā)的論文。



歸根結底,這反映出一個問題 —— 目前還愿意公開自己研究成果、帶著大家一起「上分」的頭部大模型廠商已經(jīng)越來越少了。DeepSeek 和字節(jié) Seed 在研究上的接力讓我們看到了公開研究成果的價值。

同時,DeepSeek 對于社區(qū)內優(yōu)秀成果的挖掘也給了我們一些啟發(fā),類似字節(jié) Seed 這樣的國內頭部大模型團隊其實有很多想法值得繼續(xù)探索。

比如,在架構層面,除了前面提到的 OverEncoding,DeepSeek 論文中還提到了幾篇字節(jié) Seed 的相關研究,包括稀疏模型架構 UltraMem 和它的新版本 Ultramemv2。這個全新的模型架構通過分布式多層級聯(lián)內存結構、Tucker 分解檢索與隱式參數(shù)擴展優(yōu)化,有效解決了傳統(tǒng) MoE 架構在推理階段的高額訪存問題,同時驗證了其優(yōu)于傳統(tǒng)架構的 Scaling Law 擴展特性。



此外,字節(jié) Seed 在基礎研究上還發(fā)表過很多大膽探索全新范式的嘗試,比如Seed Diffusion Preview,系統(tǒng)性地驗證離散擴散技術路線作為下一代語言模型基礎框架的可行性;SuperClass,首次舍棄了文本編碼器,直接用原始文本的分詞作為多分類標簽,在視覺任務上效果優(yōu)于傳統(tǒng)的 CLIP 方法;甚至提出了新型神經(jīng)網(wǎng)絡架構FAN,通過引入傅里葉原理思想,彌補了 Transformer 等主流模型在周期性建模方面的缺陷。

這些底層技術的研究,雖然在短期內無法用于商業(yè)模型的訓練,但是科技行業(yè)的進步,正是在無數(shù)研究者對未知領域的探索中發(fā)生的。

畢竟,真正推動技術進步的,從來不是單一的突破,而是持續(xù)的積累與相互啟發(fā)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
僅僅5年,從“二流保安團”到“陸戰(zhàn)之王”,美國人至今沒想通輸在哪

僅僅5年,從“二流保安團”到“陸戰(zhàn)之王”,美國人至今沒想通輸在哪

歷史回憶室
2026-01-16 13:06:07
1971年美國記者斯諾患癌,尼克松拒絕他回國,毛主席回應:“中國歡迎你”

1971年美國記者斯諾患癌,尼克松拒絕他回國,毛主席回應:“中國歡迎你”

老杉說歷史
2026-01-12 21:57:13
伊朗外長致信聯(lián)合國秘書長 譴責美方煽動和威脅性言論

伊朗外長致信聯(lián)合國秘書長 譴責美方煽動和威脅性言論

新京報
2026-01-16 07:48:02
特朗普宣布進入國家緊急狀態(tài)!委代總統(tǒng):誓要解救馬杜羅夫婦!美國: 在委美公民盡快撤離

特朗普宣布進入國家緊急狀態(tài)!委代總統(tǒng):誓要解救馬杜羅夫婦!美國: 在委美公民盡快撤離

每日經(jīng)濟新聞
2026-01-11 07:49:05
湖南姑娘復制重慶合川模式失。壕牟邉澋臍⒇i宴,成了殺豬盤

湖南姑娘復制重慶合川模式失。壕牟邉澋臍⒇i宴,成了殺豬盤

南方健哥
2026-01-15 03:09:12
徐帆回應離婚5個月,馮小剛近況曝光,內心早已看透一切

徐帆回應離婚5個月,馮小剛近況曝光,內心早已看透一切

來科點譜
2026-01-14 08:57:48
攜程吸血有多猛?全國酒店加起來都沒它賺得多

攜程吸血有多猛?全國酒店加起來都沒它賺得多

上峰視點
2026-01-15 11:28:05
自閉癥孩子免密下單290個鍋貼,家長:部分自食,其余分享給同學

自閉癥孩子免密下單290個鍋貼,家長:部分自食,其余分享給同學

觀威海
2026-01-16 10:30:07
老師問:什么水燒不開?班里學霸都懵了,唯有5歲小女孩給出答案

老師問:什么水燒不開?班里學霸都懵了,唯有5歲小女孩給出答案

蘭姐說故事
2026-01-15 05:20:03
老公失業(yè),我辭退月薪8000的保姆,物業(yè)找上門:誰給我們做飯

老公失業(yè),我辭退月薪8000的保姆,物業(yè)找上門:誰給我們做飯

船長與船1
2026-01-16 12:00:28
首例5胞胎長大了,父親已勞累去世,母親直言:如能重來一個也不要

首例5胞胎長大了,父親已勞累去世,母親直言:如能重來一個也不要

柳絮憶史
2025-07-22 07:15:03
中國游客赴俄遭“天價宰殺”落地即“失聯(lián)” 免簽紅利下旅行困局

中國游客赴俄遭“天價宰殺”落地即“失聯(lián)” 免簽紅利下旅行困局

律法刑道
2025-12-24 13:18:59
恭喜阿隆索!10億豪門對他心動,練手標王愛徒,對決瓜帥打臉皇馬

恭喜阿隆索!10億豪門對他心動,練手標王愛徒,對決瓜帥打臉皇馬

阿泰希特
2026-01-16 09:12:40
開國上將許世友之孫:中國首位火箭軍女博士,長相俊美,為人低調

開國上將許世友之孫:中國首位火箭軍女博士,長相俊美,為人低調

文史達觀
2026-01-15 14:50:48
中俄投了棄權票

中俄投了棄權票

第一財經(jīng)資訊
2026-01-15 09:20:18
唐嫣離婚真相曝光兩月,沉默給娛樂圈上課

唐嫣離婚真相曝光兩月,沉默給娛樂圈上課

花漾夜雨飄雪
2026-01-16 12:24:16
伊朗軍隊司令:伊朗作戰(zhàn)能力較以伊沖突前明顯增強

伊朗軍隊司令:伊朗作戰(zhàn)能力較以伊沖突前明顯增強

財聯(lián)社
2026-01-13 22:38:42
NBA戰(zhàn)報:楊瀚森坐冷板凳,開拓者不敵老鷹,夏普18分

NBA戰(zhàn)報:楊瀚森坐冷板凳,開拓者不敵老鷹,夏普18分

老汆古裝影視解說
2026-01-16 12:33:11
基恩:埃文斯憑什么能來曼聯(lián)做助理教練,他做過什么?

基恩:埃文斯憑什么能來曼聯(lián)做助理教練,他做過什么?

懂球帝
2026-01-16 11:36:15
特朗普打破幻想后,賴清德請求兩岸對話,國臺辦開出一個前提條件

特朗普打破幻想后,賴清德請求兩岸對話,國臺辦開出一個前提條件

南宮一二
2026-01-16 12:23:39
2026-01-16 13:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12128文章數(shù) 142541關注度
往期回顧 全部

科技要聞

被網(wǎng)友"催"著走,小米緊急"抄"了特斯拉

頭條要聞

特朗普終于拿到諾獎 馬查多或為換取委內瑞拉總統(tǒng)寶座

頭條要聞

特朗普終于拿到諾獎 馬查多或為換取委內瑞拉總統(tǒng)寶座

體育要聞

聶衛(wèi)平:黑白棋盤上的凡人棋圣

娛樂要聞

黃慧頤手撕保劍鋒 曾黎意外卷入風波

財經(jīng)要聞

深圳有白銀商家爆雷 維權群超350人

汽車要聞

從 "商務" 變 "潮酷" 全新一汽奧迪A6L首秀亮相

態(tài)度原創(chuàng)

家居
旅游
健康
教育
公開課

家居要聞

歲月柔情 現(xiàn)代品質輕奢

旅游要聞

藏不住了,大理市郊的這條鄉(xiāng)村線路提前分享,都怪那個“藍月湖”

血常規(guī)3項異常,是身體警報!

教育要聞

師范生,正在集體失業(yè)?這個視頻,建議報志愿前看三遍!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版