国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek最新論文:直指Transformer要害,讓AI學(xué)會(huì)翻“字典”了

0
分享至

今日凌晨,DeepSeek 在 GitHub 上發(fā)布了一項(xiàng)代號(hào)為“Engram”的最新研究成果,并同步上傳了題為Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models(基于可擴(kuò)展查找的條件記憶:大語(yǔ)言模型稀疏性的新維度)的學(xué)術(shù)論文。


(來(lái)源:GitHub)

這篇由梁文鋒、DeepSeek 研究團(tuán)隊(duì)與北京大學(xué)聯(lián)合署名的論文,一經(jīng)發(fā)表就引發(fā)了廣泛討論。

此次研究帶來(lái)了一項(xiàng)突破:在業(yè)界廣泛采用的“混合專(zhuān)家模型”(MoE)之外,DeepSeek 開(kāi)辟了第二條提升模型效率的路徑——“條件記憶”(Conditional Memory)。如果說(shuō) MoE 解決了“如何高效計(jì)算”的問(wèn)題,那么新提出的 Engram 架構(gòu)則試圖解決“如何高效存儲(chǔ)與提取知識(shí)”的難題。

在此前的 DeepSeek-V2 和 V3 取得巨大成功后,基于 Transformer 的 MoE 架構(gòu)已成為最具代表性、應(yīng)用最廣泛的稀疏化方案之一。MoE 通過(guò)“條件計(jì)算”(Conditional Computation)機(jī)制,即在處理每個(gè)詞元(Token)時(shí)僅激活模型參數(shù)的一小部分,成功打破了模型規(guī)模與推理成本之間的線(xiàn)性約束。

然而,DeepSeek 研究團(tuán)隊(duì)指出,盡管 MoE 極大地優(yōu)化了計(jì)算效率,在當(dāng)前以注意力與前饋網(wǎng)絡(luò)為核心的 Transformer 范式下,模型并不具備顯式、可尋址的知識(shí)查找機(jī)制。

在現(xiàn)有的架構(gòu)中,模型記憶知識(shí)的方式是隱式的。當(dāng)模型需要回答“法國(guó)的首都是哪里”時(shí),它無(wú)法像人類(lèi)查閱字典那樣直接檢索出“巴黎”這個(gè)詞,而是需要通過(guò)多層注意力機(jī)制(Attention)和前饋神經(jīng)網(wǎng)絡(luò)(FFN)進(jìn)行復(fù)雜的矩陣運(yùn)算,實(shí)際上是在通過(guò)計(jì)算來(lái)模擬檢索過(guò)程。

這種機(jī)制造成了巨大的資源浪費(fèi):模型不得不動(dòng)用寶貴的推理算力去“死記硬背”大量固定的事實(shí)性知識(shí)(如人名、地名、固定搭配等),這不僅效率低下,還擠占了模型處理復(fù)雜邏輯推理的“腦容量”。


(來(lái)源:Nano Banana Pro)

針對(duì)這一點(diǎn),DeepSeek 提出了“條件記憶”的概念,并設(shè)計(jì)了實(shí)體模塊 Engram 來(lái)加以實(shí)現(xiàn)。Engram 的設(shè)計(jì)靈感源自自然語(yǔ)言處理(NLP)領(lǐng)域經(jīng)典的 N-gram(N 元語(yǔ)法)模型,但在深度學(xué)習(xí)語(yǔ)境下進(jìn)行了現(xiàn)代化改造。傳統(tǒng)的 N-gram 依靠統(tǒng)計(jì)詞匯共現(xiàn)頻率來(lái)預(yù)測(cè)下一個(gè)詞,而 Engram 則將其轉(zhuǎn)化為一種可學(xué)習(xí)的、基于哈希(Hash)的向量檢索系統(tǒng)。


圖 | Engram 模塊的整體架構(gòu)示意(來(lái)源:論文)

具體而言,Engram 模塊被嵌入到 Transformer 的主干網(wǎng)絡(luò)中,與 MoE 層并行或交替工作。當(dāng)模型處理輸入文本時(shí),Engram 不依賴(lài)深層神經(jīng)網(wǎng)絡(luò)計(jì)算,而是通過(guò)兩步輕量化的檢索與融合操作完成信息注入:

首先是“檢索”,它將當(dāng)前的局部上下文(例如最近出現(xiàn)的幾個(gè)詞)進(jìn)行壓縮并通過(guò)多頭哈希映射,在算法層面實(shí)現(xiàn)近似 O(1) 的常數(shù)時(shí)間查表,并通過(guò)預(yù)取機(jī)制在系統(tǒng)層面將實(shí)際延遲控制在極低水平;其次是“融合”,通過(guò)一個(gè)上下文感知的門(mén)控機(jī)制(Gating Mechanism),將檢索到的靜態(tài)記憶向量與模型計(jì)算出的動(dòng)態(tài)隱藏狀態(tài)進(jìn)行加權(quán)融合。

我們可以將傳統(tǒng)的 Transformer 模型想象一個(gè)不僅需要理解題意,還需要現(xiàn)場(chǎng)推導(dǎo)所有數(shù)學(xué)公式和歷史數(shù)據(jù)的考生;而搭載了 Engram 的模型,則相當(dāng)于被允許帶入考場(chǎng)一本百科全書(shū)。遇到固定的知識(shí)點(diǎn),Engram 直接查表獲得答案,而將寶貴的“大腦”算力集中用于處理從未見(jiàn)過(guò)的復(fù)雜邏輯題。這種“計(jì)算”與“記憶”的解耦,正是 DeepSeek 新架構(gòu)的核心邏輯。

這項(xiàng)研究并不僅停留在理論層面,DeepSeek 在論文中披露了名為“稀疏性分配”(Sparsity Allocation)的關(guān)鍵發(fā)現(xiàn),揭示了模型性能背后的數(shù)學(xué)規(guī)律。研究人員在嚴(yán)格控制總參數(shù)量和計(jì)算量(FLOPs)不變的前提下,系統(tǒng)性地調(diào)整了分配給 MoE 專(zhuān)家與 Engram 記憶表的參數(shù)比例。

實(shí)驗(yàn)結(jié)果呈現(xiàn)出一條清晰的“U 型曲線(xiàn)”:最佳的模型性能既不出現(xiàn)在純粹的 MoE 架構(gòu)中,也不出現(xiàn)在過(guò)度依賴(lài)記憶的架構(gòu)中,而是當(dāng)大約 20% 至 25% 的稀疏參數(shù)預(yù)算分配給 Engram,而剩余部分留給 MoE 時(shí)(即ρ≈75% -80% 時(shí)),模型性能達(dá)到最佳。


圖 | 稀疏性分配與記憶痕跡擴(kuò)展 (來(lái)源:論文)

基于這一發(fā)現(xiàn),DeepSeek 訓(xùn)練了一個(gè)擁有 270 億參數(shù)的 Engram-27B 模型,并在同等參數(shù)規(guī)模和計(jì)算消耗下,與標(biāo)準(zhǔn)的 MoE-27B 模型進(jìn)行了全方位的對(duì)比測(cè)試。結(jié)果顯示,引入條件記憶機(jī)制后,模型在多個(gè)關(guān)鍵維度上實(shí)現(xiàn)了性能的顯著躍升。

在知識(shí)密集型任務(wù)中,Engram 的優(yōu)勢(shì)符合預(yù)期。例如在衡量綜合知識(shí)水平的 MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)基準(zhǔn)測(cè)試中,Engram-27B 的得分比基準(zhǔn)模型高出 3.4 分;在中文綜合基準(zhǔn) CMMLU 上,提升幅度更是達(dá)到了 4.0 分。這直接證明了外掛式的高效記憶模塊能顯著擴(kuò)充模型的知識(shí)庫(kù)。

不過(guò),更令人意外的是 Engram 在通用推理能力上的表現(xiàn)。在衡量復(fù)雜推理能力的 BBH(Big-Bench Hard)基準(zhǔn)上,Engram 模型取得了 5.0 分的巨大提升;在 ARC-Challenge 科學(xué)推理任務(wù)中提升了 3.7 分。甚至在傳統(tǒng)認(rèn)為高度依賴(lài)邏輯推演的代碼生成(HumanEval +3.0)和數(shù)學(xué)解題(MATH +2.4)任務(wù)中,Engram 同樣表現(xiàn)出了顯著優(yōu)勢(shì)。


(來(lái)源:論文)

為何一個(gè)看似負(fù)責(zé)“死記硬背”的記憶模塊,能提升模型的邏輯推理能力?DeepSeek 團(tuán)隊(duì)利用 LogitLens 和 CKA(中心核對(duì)齊)等可解釋性工具進(jìn)行了深入的機(jī)理分析,得出了一個(gè)極具洞察力的結(jié)論:Engram 有效增加了模型的“有效深度”(Effective Depth)。

分析顯示,在沒(méi)有 Engram 的傳統(tǒng)模型中,底層的許多神經(jīng)網(wǎng)絡(luò)層實(shí)際上在忙于構(gòu)建基礎(chǔ)的詞法組合和短語(yǔ)模式,這是一種低級(jí)的“特征重構(gòu)”工作。而在引入 Engram 后,這些局部的、固定的語(yǔ)言模式(如“紐約”后緊接“時(shí)代廣場(chǎng)”,“人工智能”是一個(gè)專(zhuān)有名詞),這些都直接通過(guò)查表解決。

這使得模型的主干網(wǎng)絡(luò)從繁瑣的淺層任務(wù)中解脫出來(lái),能夠?qū)⒏嗟膶訑?shù)和注意力資源投入到更高層級(jí)的語(yǔ)義理解和邏輯推演中。換言之,Engram 通過(guò)承擔(dān)記憶職能,在不增加層數(shù)的前提下,提高了模型用于復(fù)雜推理的“有效深度”。


(來(lái)源:論文)

此外,Engram 架構(gòu)還在長(zhǎng)文本處理(Long Context)領(lǐng)域展現(xiàn)出了意想不到的結(jié)構(gòu)性?xún)?yōu)勢(shì)。在處理長(zhǎng)篇文檔時(shí),注意力機(jī)制往往面臨巨大的計(jì)算壓力。DeepSeek 的研究表明,文本中大量的依賴(lài)關(guān)系其實(shí)是局部的(Local),可以通過(guò) N-gram 查找來(lái)解決。Engram 負(fù)責(zé)處理這些局部依賴(lài),從而釋放了 Transformer 全局注意力機(jī)制的容量,使其能更專(zhuān)注于捕捉跨度極大的長(zhǎng)程關(guān)聯(lián)。

在極具挑戰(zhàn)性的“大海撈針”(Needle In A Haystack)測(cè)試中,Engram-27B 在該測(cè)試中的表現(xiàn)顯著優(yōu)于基準(zhǔn)模型。。在多查詢(xún)(Multi-Query)設(shè)置下,其準(zhǔn)確率從基準(zhǔn) MoE 模型的 84.2% 飆升至 97.0%;在變量跟蹤(Variable Tracking)任務(wù)中,準(zhǔn)確率從 77.0% 提升至 89.0%。這意味著,搭載 Engram 的模型在處理法律合同分析、長(zhǎng)篇小說(shuō)理解或大型代碼庫(kù)維護(hù)等需要極高精度的長(zhǎng)文本任務(wù)時(shí),將具備更強(qiáng)的魯棒性。


(來(lái)源:論文)

除了模型性能層面的突破,DeepSeek 延續(xù)了其一貫的“高效基礎(chǔ)設(shè)施”理念,在 Engram 的工程實(shí)現(xiàn)上做到了極致。在當(dāng)前的硬件環(huán)境下,顯存(HBM)往往是制約大模型規(guī)模的瓶頸。然而,Engram 展現(xiàn)出了基礎(chǔ)設(shè)施感知(Infrastructure-aware)的特性。

與 MoE 依賴(lài)運(yùn)行時(shí)動(dòng)態(tài)路由不同,Engram 的檢索是基于輸入文本的確定性哈希。這意味著,系統(tǒng)在正式計(jì)算某一層之前,就已經(jīng)確切知道需要用到哪些記憶向量。這種確定性使得“預(yù)取”(Prefetching)策略成為可能。

DeepSeek 在實(shí)驗(yàn)中成功演示了將一個(gè)高達(dá) 1,000 億參數(shù)的 Engram 嵌入表完全存儲(chǔ)在廉價(jià)的主機(jī)內(nèi)存(CPU DRAM)中,而非昂貴的 GPU 顯存里。在模型計(jì)算前序?qū)蛹?jí)時(shí),系統(tǒng)通過(guò) PCIe 通道異步地將所需的記憶數(shù)據(jù)搬運(yùn)至 GPU。

實(shí)驗(yàn)數(shù)據(jù)顯示,即使在 1,000 億參數(shù)的超大規(guī)模下,這種跨硬件的存儲(chǔ)與計(jì)算解耦方案帶來(lái)的額外推理延遲也不到 3%。這一工程結(jié)果表明,在特定的系統(tǒng)設(shè)計(jì)與實(shí)驗(yàn)條件下,模型參數(shù)規(guī)模不再?lài)?yán)格受限于 GPU 顯存容量。理論上,這一設(shè)計(jì)為未來(lái) DeepSeek 掛載 TB 級(jí)別的超大規(guī)模記憶庫(kù)提供了可行路徑,而無(wú)需成倍增加昂貴的算力集群成本。

綜合此次發(fā)布的 Engram 論文,以及今年元旦期間 DeepSeek 發(fā)布的關(guān)于“流形約束超連接”(Manifold-Constrained Hyper-Connections, mHC)的研究,DeepSeek-V4 的架構(gòu)開(kāi)始逐漸具象化。

如果說(shuō) MoE 架構(gòu)(條件計(jì)算)是 DeepSeek-V2/V3 的基石,那么 V4 有望在架構(gòu)層面呈現(xiàn)出更高程度的整合性:它將融合 mHC 以?xún)?yōu)化專(zhuān)家間的通信效率,同時(shí)引入 Engram 作為獨(dú)立的“海馬體”模塊。這種架構(gòu)不再是簡(jiǎn)單的參數(shù)堆疊,而是向著人類(lèi)大腦“計(jì)算與記憶分離、協(xié)同工作”的生物學(xué)原理邁進(jìn)。MoE 負(fù)責(zé)動(dòng)態(tài)的邏輯處理,Engram 負(fù)責(zé)靜態(tài)的知識(shí)檢索,兩者互為補(bǔ)充,共同構(gòu)成了一個(gè)更高效、更博學(xué)且更擅長(zhǎng)推理的智能系統(tǒng)。



Github 論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日本可以死心了!李在明剛到就劃紅線(xiàn):中日矛盾不是韓方能介入的

日本可以死心了!李在明剛到就劃紅線(xiàn):中日矛盾不是韓方能介入的

科普100克克
2026-01-13 18:09:17
2026中國(guó)已進(jìn)入財(cái)富6.0時(shí)代,很多人思維還停在1.0階段!

2026中國(guó)已進(jìn)入財(cái)富6.0時(shí)代,很多人思維還停在1.0階段!

水木然
2026-01-12 23:48:12
這下子,特朗普算是明白,為什么前任都不敢動(dòng)委內(nèi)瑞拉了

這下子,特朗普算是明白,為什么前任都不敢動(dòng)委內(nèi)瑞拉了

壹知眠羊
2026-01-12 14:25:31
深圳老太摔倒喊不訛人,司機(jī)送醫(yī)墊付費(fèi)用后,老太:都是你害的!

深圳老太摔倒喊不訛人,司機(jī)送醫(yī)墊付費(fèi)用后,老太:都是你害的!

有書(shū)
2026-01-12 21:10:22
文旅部門(mén)回應(yīng)“貴州省博老館29件套文物丟失或被盜”:有備案可查,正梳理將通報(bào)

文旅部門(mén)回應(yīng)“貴州省博老館29件套文物丟失或被盜”:有備案可查,正梳理將通報(bào)

紅星新聞
2026-01-13 12:18:08
新華社消息|古巴國(guó)家主席:古美關(guān)系要取得進(jìn)展不能建立在威脅和經(jīng)濟(jì)脅迫上

新華社消息|古巴國(guó)家主席:古美關(guān)系要取得進(jìn)展不能建立在威脅和經(jīng)濟(jì)脅迫上

新華社
2026-01-13 10:11:43
特朗普緊急發(fā)文炸全網(wǎng):美國(guó)要 “完蛋”?中國(guó)竟成他唯一救星!

特朗普緊急發(fā)文炸全網(wǎng):美國(guó)要 “完蛋”?中國(guó)竟成他唯一救星!

觸摸史跡
2026-01-13 17:41:12
3生肖1月中旬起鴻運(yùn)當(dāng)頭,苦盡甘來(lái)發(fā)橫財(cái),翻身成土豪

3生肖1月中旬起鴻運(yùn)當(dāng)頭,苦盡甘來(lái)發(fā)橫財(cái),翻身成土豪

人閒情事
2026-01-13 17:19:57
應(yīng)對(duì)AI算力浪潮,SK海力士擴(kuò)建HBM封裝產(chǎn)能

應(yīng)對(duì)AI算力浪潮,SK海力士擴(kuò)建HBM封裝產(chǎn)能

鞭牛士
2026-01-13 13:55:06
中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

等風(fēng)來(lái)育兒聯(lián)盟
2025-08-01 12:21:35
呆呆與榜一伙夫哥見(jiàn)面,聊天中得知,呆呆沒(méi)火前,靠自己蓋房買(mǎi)車(chē)

呆呆與榜一伙夫哥見(jiàn)面,聊天中得知,呆呆沒(méi)火前,靠自己蓋房買(mǎi)車(chē)

有范又有料
2026-01-13 13:37:45
國(guó)乒全新教練組薪資曝光,馬琳總收入突破千萬(wàn),莎頭主管教練推測(cè)

國(guó)乒全新教練組薪資曝光,馬琳總收入突破千萬(wàn),莎頭主管教練推測(cè)

體壇白話(huà)
2026-01-13 11:09:18
很多人都患過(guò)“帶狀皰疹”,卻不知它和“老年癡呆”有關(guān)!了解下

很多人都患過(guò)“帶狀皰疹”,卻不知它和“老年癡呆”有關(guān)!了解下

岐黃傳人孫大夫
2026-01-12 13:00:07
錢(qián)再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

錢(qián)再多有什么用,64歲郎平如今的現(xiàn)狀,給所有運(yùn)動(dòng)員們提了個(gè)醒

削桐作琴
2025-12-10 16:53:18
浮出水面!頂級(jí)名帥有望“空降”皇馬!老弗爺或送1.7億見(jiàn)面禮

浮出水面!頂級(jí)名帥有望“空降”皇馬!老弗爺或送1.7億見(jiàn)面禮

頭狼追球
2026-01-13 11:09:48
一位老人感嘆:人沒(méi)必要活得太長(zhǎng)壽。60歲走,太年輕;70歲走,有點(diǎn)早;80歲去世,剛好合適。

一位老人感嘆:人沒(méi)必要活得太長(zhǎng)壽。60歲走,太年輕;70歲走,有點(diǎn)早;80歲去世,剛好合適。

二胡的歲月如歌
2026-01-12 18:27:06
美論壇:沒(méi)有經(jīng)過(guò)韓國(guó)的允許,中國(guó)怎么敢擅自發(fā)射那么多衛(wèi)星?

美論壇:沒(méi)有經(jīng)過(guò)韓國(guó)的允許,中國(guó)怎么敢擅自發(fā)射那么多衛(wèi)星?

近史談
2026-01-13 18:02:33
電池巨頭再暴大雷!

電池巨頭再暴大雷!

電動(dòng)知家
2026-01-12 10:25:26
明搶5000萬(wàn)桶石油后,特朗普轉(zhuǎn)頭才發(fā)現(xiàn):中國(guó)連一桶都不肯買(mǎi)了

明搶5000萬(wàn)桶石油后,特朗普轉(zhuǎn)頭才發(fā)現(xiàn):中國(guó)連一桶都不肯買(mǎi)了

現(xiàn)代小青青慕慕
2026-01-12 18:03:57
灰熊醞釀大動(dòng)作!送走莫蘭特后或繼續(xù)交易小杰克遜 建隊(duì)重心轉(zhuǎn)變

灰熊醞釀大動(dòng)作!送走莫蘭特后或繼續(xù)交易小杰克遜 建隊(duì)重心轉(zhuǎn)變

羅說(shuō)NBA
2026-01-13 08:19:50
2026-01-13 18:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16118文章數(shù) 514482關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

距中國(guó)加強(qiáng)管制不到一周 日本派船盯上6000米深海稀土

頭條要聞

距中國(guó)加強(qiáng)管制不到一周 日本派船盯上6000米深海稀土

體育要聞

他帶出國(guó)乒世界冠軍,退休后為愛(ài)徒返場(chǎng)

娛樂(lè)要聞

周杰倫以球員身份參加澳網(wǎng),C位海報(bào)公開(kāi)

財(cái)經(jīng)要聞

"天量存款"將到期 資金會(huì)否搬入股市?

汽車(chē)要聞

限時(shí)9.99萬(wàn)元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

游戲
親子
時(shí)尚
藝術(shù)
公開(kāi)課

任天堂社長(zhǎng)稱(chēng)正密切關(guān)注內(nèi)存漲價(jià)影響

親子要聞

復(fù)旦兒科醫(yī)聯(lián)體體重管理聯(lián)盟來(lái)了!將重點(diǎn)加強(qiáng)兒童超重肥胖危險(xiǎn)因素的監(jiān)測(cè)與評(píng)估

走過(guò)那個(gè)夏天,甜茶終于站上金球獎(jiǎng)之巔

藝術(shù)要聞

書(shū)法爭(zhēng)議再起:拙與妍孰優(yōu)孰劣引發(fā)熱議

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版