国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek 凌晨開源 :給 Transformer 加個「查字典」的能力

0
分享至

對于問題「北京是中國的首都」,需要推理嗎?
應該是不需要,地球人都知道

但現在,Transformer 只有一種處理方式:全靠算

DeepSeek 大半夜的,發(fā)布了一篇新論文
Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models


https://github.com/deepseek-ai/Engram

這篇論文中,做了一個新方法 Engram,并給到觀點:
該查表的查表,該算的算,兩件事分開處理

對此,他們 Engram 的模塊,專門負責「查」,和負責「算」的 MoE 配合使用

結果就是,Engram-27B 在等參數、等算力條件下,全面超越純 MoE baseline

代碼已開源:
https://github.com/deepseek-ai/Engram


一個具體的例子

論文里有個很直觀的案例

模型處理「Diana, Princess of Wales」這個實體時,內部發(fā)生了什么:

層數

模型此時「認為」這是什么

第 1-2 層

Wales,一個國家

第 3 層

Wales,歐洲的一個國家

第 4 層

Princess of Wales,一個頭銜

第 5 層

Princess of Wales,威爾士親王的妻子

第 6 層

Diana, Princess of Wales,戴安娜王妃

六層網絡,才把這個實體識別出來

但「戴安娜王妃」這個知識是固定的,不會因為上下文變化而變化。模型花六層來「算」出這個結果,本質上是在用計算重建一個靜態(tài)的查找表

這六層深度,本可以用來處理更復雜的推理任務

Engram 怎么做

技術方案不復雜:用連續(xù)幾個 token(N-gram)作為「查詢詞」,從一個大表里查出對應的向量,融合到模型的中間狀態(tài)里

幾個關鍵設計:

詞表壓縮

標準分詞器會給「Apple」和「apple」分配不同的 ID,但它們語義上是同一個東西。Engram 先做一層歸并,把這類 token 映射到同一個規(guī)范化 ID

實測 128k 詞表壓縮了 23%

多頭哈希

不可能真的存下所有 N-gram 組合,那是天文數字。用哈希函數把 N-gram 映射到有限大小的表里,犧牲一點精度換存儲空間

上下文門控

查出來的向量是「靜態(tài)先驗」,可能和當前上下文不匹配。比如「蘋果」在討論水果時和討論手機時含義不同

解決方案:用當前位置的隱藏狀態(tài)(已經通過 Attention 聚合了上下文信息)作為「裁判」,給查出來的向量打分。語義不匹配時,把這個向量的權重壓低

放在哪一層

Engram 不是每層都加。放太淺,隱藏狀態(tài)還沒積累足夠上下文,「裁判」不準;放太深,錯過了分擔早期層負擔的時機

實驗發(fā)現:放在第 2 層效果最好。如果要放兩個,第 2 層和第 15 層的組合最優(yōu)

參數怎么分配

這里有個核心問題:給定固定的參數預算,多少給 MoE,多少給 Engram?

論文定義了一個分配比例 ρ

  • ? ρ = 100%:全給 MoE,沒有 Engram

  • ? ρ = 0%:全給 Engram,沒有 MoE 的路由專家

實驗掃了一遍,結果是 U 型曲線:


這兩個極端,都不好

全給 MoE(ρ = 100%):沒有專門的記憶模塊,模型被迫用計算來重建靜態(tài)知識

全給 Engram(ρ → 0%):失去了動態(tài)計算能力,復雜推理做不了

最優(yōu)點在 75%-80%

也就是說,把 20-25% 的稀疏參數從 MoE 轉給 Engram,效果最好

這個比例在不同的計算預算下都穩(wěn)定,有一定的普適性

效果數據

四個模型對比:

  • ? Dense-4B:稠密模型,基線

  • ? MoE-27B:純 MoE 架構

  • ? Engram-27B:把 MoE-27B 的 72 個路由專家減到 55 個,省出的參數給 5.7B 的 Engram

  • ? Engram-40B:進一步擴大 Engram 到 18.5B

全部訓練 262B tokens,激活參數都是 3.8B(等算力)


挑幾個關鍵數據:

任務類型

具體任務

MoE-27B

Engram-27B

提升

知識

MMLU

57.4

60.4

+3.0

知識

CMMLU(中文)

57.9

61.9

+4.0

推理

BBH

50.9

55.9

+5.0

推理

ARC-Challenge

70.1

73.8

+3.7

代碼

HumanEval

37.8

40.8

+3.0

數學

MATH

28.3

30.7

+2.4

知識類任務提升在預期內,畢竟加了個「記憶」模塊

但推理類任務提升更大,這就有意思了

一個「記憶」模塊,怎么讓「推理」能力變強?

為什么推理也變強了

這是論文最有價值的部分

他們用了兩個分析工具

LogitLens:看每一層輸出的預測置信度

結果:Engram 模型在早期層就達到了高置信度,預測收斂速度明顯更快

CKA:看不同層之間的表示相似度

結果:Engram 模型第 5 層的表示,和 MoE 模型第 12 層的表示最相似

這說明什么?

Engram 等效于增加了網絡的有效深度

邏輯是這樣的:有了 Engram 分擔靜態(tài)知識的檢索,早期層不用再花深度做這件事。省出來的深度,可以用于更復雜的推理

Attention 的容量也被釋放了。本來要處理局部依賴(比如識別「張仲景」是一個人名)的注意力頭,現在可以專注于全局上下文

長上下文任務上這個效果更明顯:



任務

MoE-27B

Engram-27B

Multi-Query NIAH

84.2

97.0

Variable Tracking

77.0

89.0


Engram 到底存了什么

做了個消融實驗:把 Engram 的輸出完全屏蔽,看各類任務的性能保留多少

  • ? 事實問答(TriviaQA):只剩 29%

  • ? 閱讀理解(C3):保留 93%

  • ? 推理任務:居中

結論很清晰:

事實知識主要存在 Engram 里,屏蔽后崩得厲害

閱讀理解依賴上下文,答案就在文章里,Engram 幫不上忙

推理任務的提升是間接的,來自 Engram 釋放的網絡深度,而不是 Engram 直接提供推理能力

門控可視化

紅色表示門控激活(采納了查表結果),顏色越深激活越強

規(guī)律很明顯:

  • ? 多 token 實體觸發(fā)高激活:「Alexander the Great」「Milky Way」「Princess of Wales」

  • ? 固定搭配觸發(fā)高激活:「By the way」

  • ? 中文也能識別:「四大發(fā)明」「張仲景」「醫(yī)圣」「傷寒雜病論」

需要結合上下文理解的 token,門控會壓低

工程:offload 效率

這部分對開發(fā)者有參考價值

Engram 的查表索引是確定的。知道輸入是什么 token,就知道要查哪些行,不依賴中間計算結果

MoE 不一樣,路由決策要等隱藏狀態(tài)算出來才能做

這個區(qū)別讓 Engram 可以做預?。耗P驮谟嬎闱皫讓拥臅r候,同時從主機內存異步加載 Engram 需要的數據,兩邊并行

實測結果:

配置

吞吐量

Dense-4B

9,031 tok/s

Dense-4B + 100B

Engram(CPU offload)

8,858 tok/s

Dense-8B

6,315 tok/s

Dense-8B + 100B

Engram(CPU offload)

6,140 tok/s

100B 參數的 Engram 表完全放主機內存,吞吐量下降不到 3%

N-gram 的訪問還符合 Zipf 分布,少數高頻模式占了絕大多數訪問量??梢宰龆嗉壘彺妫簾衢T的放 GPU 顯存,長尾的放主機內存甚至 SSD

組件消融

哪些設計貢獻最大:

  • ? 多分支集成:重要

  • ? 上下文門控:重要

  • ? Tokenizer 壓縮:重要

  • ? 輕量卷積:影響不大

  • ? 4-gram:在當前參數預算下不如 2-gram + 3-gram 組合

Engram 放在第 2 層效果最好,越往深層放效果越差

跑起來

                                                           pip install torch numpy transformers sympy
python engram_demo_v1.py

GitHub 上的 demo 是演示版,mock 了 Attention/MoE 等標準組件,用于展示 Engram 的數據流

總結一下:
MoE 管算,Engram 管查,兩種機制處理兩類任務

代碼:
https://github.com/deepseek-ai/Engram

論文:
https://raw.githubusercontent.com/deepseek-ai/Engram/refs/heads/main/Engram_paper.pdf

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海重點規(guī)劃落地!五年后這些區(qū)域徹底逆襲

上海重點規(guī)劃落地!五年后這些區(qū)域徹底逆襲

瓜哥的動物日記
2026-03-03 04:11:15
親戚欠我28萬10年未還我不催,他兒子考公務員政審時,我打去電話

親戚欠我28萬10年未還我不催,他兒子考公務員政審時,我打去電話

蘭姐說故事
2025-10-02 05:15:03
中東再添一把大火!中國勸不住,巴阿徹底撕破臉開戰(zhàn)!

中東再添一把大火!中國勸不住,巴阿徹底撕破臉開戰(zhàn)!

夢想的現實
2026-03-03 01:12:17
一家四口爬山妻子失聯后墜亡,警方已排除他殺可能,其屬于高空墜亡

一家四口爬山妻子失聯后墜亡,警方已排除他殺可能,其屬于高空墜亡

極目新聞
2026-03-02 14:09:54
小曲線和光頭想來內娛撈錢,已有資本愿意接手

小曲線和光頭想來內娛撈錢,已有資本愿意接手

錢小刀娛樂
2026-03-02 13:32:32
人可以狠心到什么程度?看網友講述,發(fā)現我真做不到這般絕

人可以狠心到什么程度?看網友講述,發(fā)現我真做不到這般絕

侃神評故事
2026-02-27 07:40:03
為什么科學家說:如果宇宙中只有人類,比找到外星人更可怕?

為什么科學家說:如果宇宙中只有人類,比找到外星人更可怕?

觀察宇宙
2026-03-01 20:46:19
冰火兩重天!孫穎莎4-2奪冠,與頒獎嘉賓熱聊,王曼昱神情落寞

冰火兩重天!孫穎莎4-2奪冠,與頒獎嘉賓熱聊,王曼昱神情落寞

TVB的四小花
2026-03-02 12:39:30
西方媒體譏笑:全球90%激光雷達來自中國,結果中國每年虧上億元

西方媒體譏笑:全球90%激光雷達來自中國,結果中國每年虧上億元

歷史求知所
2025-12-05 12:35:10
是個忠厚人 黑客公開攻破D加密工具源代碼以證安全

是個忠厚人 黑客公開攻破D加密工具源代碼以證安全

3DM游戲
2026-03-02 17:54:23
特朗普高興太早!哈梅遺言警告中國不許三事發(fā)生

特朗普高興太早!哈梅遺言警告中國不許三事發(fā)生

衣服固元膏
2026-03-02 20:30:22
如果毛主席沒有寫出《沁園春·雪》,他還可以靠哪首詞名揚天下?

如果毛主席沒有寫出《沁園春·雪》,他還可以靠哪首詞名揚天下?

優(yōu)趣紀史記
2026-03-02 19:04:55
伊朗機票暴漲10倍一票難求,382萬天價機票回上海,各種亂象開始

伊朗機票暴漲10倍一票難求,382萬天價機票回上海,各種亂象開始

眼光很亮
2026-03-02 08:00:22
追著頭哥殺?德媒:阿斯頓馬丁或在墨爾本大獎賽跑幾圈就退場

追著頭哥殺?德媒:阿斯頓馬丁或在墨爾本大獎賽跑幾圈就退場

懂球帝
2026-03-02 23:22:51
徐帆回應離婚5個月,馮小剛近況曝光,他的“小心思”再藏不住了

徐帆回應離婚5個月,馮小剛近況曝光,他的“小心思”再藏不住了

觀察鑒娛
2026-01-13 10:07:17
鞍鋼集團賈文軍被查

鞍鋼集團賈文軍被查

新浪財經
2026-03-02 19:53:43
男子超市用2歐元硬幣結賬,收銀員一看報警:560歐元全是假幣

男子超市用2歐元硬幣結賬,收銀員一看報警:560歐元全是假幣

意大利華人網0039
2026-03-03 04:38:28
哈梅內伊之死和伊朗性史

哈梅內伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
美伊沖突最極端的結果要來了…

美伊沖突最極端的結果要來了…

風風順
2026-03-02 08:11:44
正在熱播的3部爛劇,沒有最爛只有更爛,一部沒看算你慧眼識珠!

正在熱播的3部爛劇,沒有最爛只有更爛,一部沒看算你慧眼識珠!

小兔子的快樂
2026-03-02 14:23:37
2026-03-03 05:24:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數 45關注度
往期回顧 全部

科技要聞

蘋果中國官網上線iPhone 17e,4499元起

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經要聞

油價飆升 美伊沖突將如何攪動全球經濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

手機
健康
時尚
家居
軍事航空

手機要聞

iPhone 17e外觀與前代幾乎一致 舊款iPhone 16e保護殼可繼續(xù)用

轉頭就暈的耳石癥,能開車上班嗎?

今年春天一定要擁有的4件衣服,太好看了!

家居要聞

萬物互聯 享科技福祉

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版