国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICLR 2026|早于DeepSeek Engram,STEM已重構(gòu)Transformer記憶

0
分享至



近年來,隨著大語言模型規(guī)模與知識(shí)密度不斷提升,研究者開始重新思考一個(gè)更本質(zhì)的問題:模型中的參數(shù)應(yīng)如何被組織,才能更高效地充當(dāng)「記憶」。

在標(biāo)準(zhǔn) Transformer 的 FFN 中,知識(shí)主要隱式存儲(chǔ)在 up-projection 等密集矩陣?yán)?,并通過輸入相關(guān)的矩陣乘法被動(dòng)態(tài)激活,這種方式在表達(dá)力上有效,但在參數(shù)可尋址性、可編輯性與系統(tǒng)效率上存在天然限制。

圍繞這一問題,學(xué)術(shù)界與工業(yè)界逐漸將目光投向更離散、更結(jié)構(gòu)化的參數(shù)組織方式。以 DeepSeek 提出的 engram 為代表,近期多項(xiàng)工作重新喚起了對(duì)「查表式記憶(lookup-based memory)」的關(guān)注。而有意思的是,在 engram 發(fā)布之前約三個(gè)月,這篇 ICLR paper 也在這一方向進(jìn)行系統(tǒng)探索 。



  • 論文鏈接:https://arxiv.org/pdf/2601.10639
  • 項(xiàng)目主頁:https://infini-ai-lab.github.io/STEM/

與 MoE 相關(guān)工作不同,STEM 并非在現(xiàn)有稀疏路由框架上做局部改進(jìn),而是直接從 FFN 結(jié)構(gòu)入手,將 up-projection 替換為按 token 索引的層級(jí) embedding 表,以一種靜態(tài)、無運(yùn)行時(shí)路由的方式重構(gòu) Transformer 中「記憶」的訪問路徑。

從「算地址」到「查地址」:STEM 的核心直覺

如果從 key-value memory view 來看標(biāo)準(zhǔn) Transformer,SwiGLU 等 FFN 結(jié)構(gòu)通常通過一次 up-projection,將輸入表示映射到高維空間,生成可被 gate 調(diào)制的「地址向量」。

這一過程本質(zhì)上是輸入相關(guān)的密集矩陣乘法,既昂貴,又在參數(shù)層面高度耦合。

STEM 的關(guān)鍵洞察在于:如果 FFN 的作用更接近于「按 token 訪問記憶」,那么這些地址向量是否真的需要由輸入動(dòng)態(tài)生成?

基于這一問題,STEM 選擇了一條極為直接的路徑:不再通過 up-projection 計(jì)算地址向量,而是為每一層維護(hù)一個(gè)按 token 索引的 embedding 表,在前向傳播時(shí)直接根據(jù) token id 查表獲取對(duì)應(yīng)向量。





gate 與 down-projection 則被完整保留,用于對(duì)查表得到的向量進(jìn)行上下文調(diào)制與壓縮。

這一替換,使 FFN 的結(jié)構(gòu)發(fā)生了一個(gè)本質(zhì)變化:「記憶容量」第一次與「每 token 計(jì)算量」被明確解耦。

結(jié)構(gòu)變化雖小,卻帶來一系列連鎖效應(yīng)

盡管 STEM 只替換了 FFN 中的一個(gè)子模塊,但實(shí)驗(yàn)結(jié)果表明,這一設(shè)計(jì)在多個(gè)維度上產(chǎn)生了顯著影響。

1. 可編輯性:直接修改「知識(shí)向量」

STEM 的一個(gè)尤為引人注目的特性,是其顯式的 token–參數(shù)對(duì)應(yīng)關(guān)系。



由于每一層的 embedding 都直接與 token id 綁定,研究者可以在不進(jìn)行再訓(xùn)練的情況下,直接替換某個(gè) token 的 STEM 向量,從而改變模型在相關(guān)事實(shí)上的輸出行為。比如圖中例子展示僅通過替換「Spain」與「Germany」的向量,就可以使模型對(duì)首都問題的回答發(fā)生對(duì)應(yīng)變化。

這一能力為模型的知識(shí)編輯、和對(duì)模型的理解提供了一種新思路。

2. 訓(xùn)練穩(wěn)定性:靜態(tài)稀疏優(yōu)于動(dòng)態(tài)路由

與 MoE 等依賴運(yùn)行時(shí)路由的方案不同,STEM 屬于一種靜態(tài)稀疏結(jié)構(gòu):每個(gè) token 在每一層所訪問的 embedding 是確定的,不涉及負(fù)載均衡或 all-to-all 通信。這種設(shè)計(jì)避免了 MoE 中常見的 load skew 與 loss spike 問題。



3. 更高效的「記憶空間」:embedding 幾何結(jié)構(gòu)的改變

從表示空間的角度看,用 token-indexed embedding 替代 up-projection,會(huì)顯著改變 FFN 輸入向量的幾何分布。STEM 中的 embedding 表呈現(xiàn)出更大的角度散布(large angular spread),不同 token 的向量更加接近正交,從而有效減少了參數(shù)之間的相互干擾(cross-talk)。

這一性質(zhì)意味著,在相同甚至更低的計(jì)算成本下,模型能夠維持更多「可尋址的記憶槽位」,對(duì)知識(shí)存儲(chǔ)和檢索尤為有利。

4. 計(jì)算與系統(tǒng)效率:FLOPs 與 IO 的雙重下降

從計(jì)算復(fù)雜度上看,移除 up-projection 后,每一層可節(jié)省約 d?d_ff 級(jí)別的矩陣乘法開銷。更重要的是,大規(guī)模的 embedding 表可以被離載到 CPU,并通過異步 prefetch 與緩存策略進(jìn)行訪問。

實(shí)驗(yàn)結(jié)果:規(guī)模、任務(wù)與長(zhǎng)上下文的系統(tǒng)驗(yàn)證

在 350M 與 1B 兩個(gè)模型規(guī)模上,STEM 被系統(tǒng)性地與 dense baseline 進(jìn)行對(duì)比。

結(jié)果顯示:

  • 整體平均性能提升約3–4%,部分知識(shí)類任務(wù)提升幅度可達(dá)9–10%;
  • 在 Needle-in-a-Haystack 與 LongBench 等長(zhǎng)上下文評(píng)測(cè)中,STEM 的優(yōu)勢(shì)還會(huì)隨著上下文長(zhǎng)度的增加而擴(kuò)大。

工程視角:如何真正落地

論文也對(duì) STEM 的系統(tǒng)實(shí)現(xiàn)給出了較為完整的討論:

  • 替換位置:僅替換 up-projection 是關(guān)鍵,盲目替換 gate-projection 會(huì)破壞上下文調(diào)制能力;
  • 存儲(chǔ)策略:embedding 表可 CPU 離載,訓(xùn)練時(shí)需要將梯度回寫到對(duì)應(yīng)的 optimizer state;
  • 折衷方案:在參數(shù)占比與顯存壓力之間,可采用部分層替換或混合變體進(jìn)行平衡。

結(jié)語

STEM 展示了一種值得關(guān)注的趨勢(shì):通過改變參數(shù)的「組織方式」,而非一味增加規(guī)?;蛴?jì)算,模型同樣可以獲得顯著能力提升。

在當(dāng)前大模型架構(gòu)逐漸走向復(fù)雜化的背景下,這種簡(jiǎn)潔、穩(wěn)定且工程友好的設(shè)計(jì)思路,或許正是下一階段基座模型演進(jìn)中不可忽視的一條路徑。

作者介紹

本文第一作者 Ranajoy Sadhukhan 為卡內(nèi)基梅隆大學(xué)(CMU)InfiniAI Lab 博士生,師從陳貝迪教授。該工作完成于其在 Meta AI 實(shí)習(xí)期間,實(shí)習(xí)導(dǎo)師包括劉澤春、曹晟(Rick Cao)與田淵棟等研究人員。

InfiniAI Lab 由陳貝迪教授創(chuàng)立,致力于模型、系統(tǒng)與硬件協(xié)同設(shè)計(jì),研究高效且可擴(kuò)展的 AI 算法與系統(tǒng),重點(diǎn)方向包括長(zhǎng)上下文多模態(tài)建模、突破傳統(tǒng) scaling laws 的新一代模型架構(gòu),以及基礎(chǔ)模型的理解與推理能力增強(qiáng),同時(shí)推動(dòng)算法與系統(tǒng)層面的效率優(yōu)化,以促進(jìn) AI 技術(shù)的普及化。

劉澤春為 Meta AI 研究科學(xué)家,研究方向涵蓋基座模型訓(xùn)練,大模型壓縮、稀疏化與端側(cè)部署優(yōu)化,專注于模型高效推理與系統(tǒng)協(xié)同設(shè)計(jì)。

曹晟(Rick Cao)為 Meta AI 研究員,主要研究大模型系統(tǒng)優(yōu)化與高效推理架構(gòu)設(shè)計(jì),關(guān)注大規(guī)模模型在真實(shí)系統(tǒng)環(huán)境中的部署與加速問題。

田淵棟為 Meta AI 資深研究科學(xué)家,長(zhǎng)期從事強(qiáng)化學(xué)習(xí)與大模型研究,曾參與 AlphaZero 等強(qiáng)化學(xué)習(xí)系統(tǒng)研發(fā),并關(guān)注基礎(chǔ)模型的推理與決策能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
二百多名軍官被槍斃、撤職、處分,長(zhǎng)津湖戰(zhàn)役中失職的志愿軍88師

二百多名軍官被槍斃、撤職、處分,長(zhǎng)津湖戰(zhàn)役中失職的志愿軍88師

丞丞故事匯
2025-12-28 00:13:54
給哥嫂孩子發(fā)15年紅包,每人2000,今年我娃剛出生 大嫂就提議互免

給哥嫂孩子發(fā)15年紅包,每人2000,今年我娃剛出生 大嫂就提議互免

游戲收藏指南
2026-02-28 19:30:05
最新調(diào)整!中國女籃12人名單出爐,2人歸隊(duì)、1人落選,李夢(mèng)沒戲

最新調(diào)整!中國女籃12人名單出爐,2人歸隊(duì)、1人落選,李夢(mèng)沒戲

兵哥籃球故事
2026-03-09 14:52:15
前軍統(tǒng)特務(wù)谷正文的晚年自述:在臺(tái)灣落網(wǎng)的諸多中共地下黨員里,僅有張志忠算得上真男人

前軍統(tǒng)特務(wù)谷正文的晚年自述:在臺(tái)灣落網(wǎng)的諸多中共地下黨員里,僅有張志忠算得上真男人

起飛做故事
2026-03-07 19:46:12
本賽季最佳一陣,這5位超級(jí)核心基本鎖定席位!文班板上釘釘

本賽季最佳一陣,這5位超級(jí)核心基本鎖定席位!文班板上釘釘

老郎體育匯
2026-03-09 11:15:57
魯迅家是如何衰敗的?魯迅肯定不會(huì)告訴你,因?yàn)閷?shí)在“太丟人”

魯迅家是如何衰敗的?魯迅肯定不會(huì)告訴你,因?yàn)閷?shí)在“太丟人”

顧史
2026-03-02 10:46:01
國際油價(jià)暴漲 特朗普:這是“小小的代價(jià)”

國際油價(jià)暴漲 特朗普:這是“小小的代價(jià)”

新華社
2026-03-09 11:35:15
航母逃跑,傷亡人員不敢報(bào),轉(zhuǎn)身美國就對(duì)中國潑臟水!鍋甩的太六

航母逃跑,傷亡人員不敢報(bào),轉(zhuǎn)身美國就對(duì)中國潑臟水!鍋甩的太六

古事尋蹤記
2026-03-07 07:08:47
澳洲“提臀神褲”賣出數(shù)百萬件,卻因設(shè)計(jì)太火辣遭萬人抵制

澳洲“提臀神褲”賣出數(shù)百萬件,卻因設(shè)計(jì)太火辣遭萬人抵制

澳洲紅領(lǐng)巾
2026-03-09 12:42:49
國足希望!18歲新星中超首秀踢滿全場(chǎng):3次搶斷全場(chǎng)最高

國足希望!18歲新星中超首秀踢滿全場(chǎng):3次搶斷全場(chǎng)最高

邱澤云
2026-03-08 21:55:13
3月9日人民幣對(duì)美元中間價(jià)調(diào)貶133個(gè)基點(diǎn)

3月9日人民幣對(duì)美元中間價(jià)調(diào)貶133個(gè)基點(diǎn)

證券時(shí)報(bào)
2026-03-09 09:32:27
太平軍打下武昌后,為何不全師北伐,滅了大清,而要東下南京。

太平軍打下武昌后,為何不全師北伐,滅了大清,而要東下南京。

掠影后有感
2026-03-09 09:52:53
臺(tái)灣即將有望統(tǒng)一!五大信號(hào)正在釋放:武力統(tǒng)一或?qū)⑦M(jìn)入倒計(jì)時(shí)?

臺(tái)灣即將有望統(tǒng)一!五大信號(hào)正在釋放:武力統(tǒng)一或?qū)⑦M(jìn)入倒計(jì)時(shí)?

南宗歷史
2026-03-08 22:36:31
華為發(fā)布896線激光雷達(dá):我拆解供應(yīng)鏈,這3家隱形冠軍才是真受益

華為發(fā)布896線激光雷達(dá):我拆解供應(yīng)鏈,這3家隱形冠軍才是真受益

小白鴿財(cái)經(jīng)
2026-03-08 20:30:03
同樣是研發(fā)核武,為啥朝鮮能手握核按鈕,伊朗卻不行,朝鮮太聰明

同樣是研發(fā)核武,為啥朝鮮能手握核按鈕,伊朗卻不行,朝鮮太聰明

小小科普員
2026-03-06 17:13:52
生姜立大功?美國研究發(fā)現(xiàn):生姜可在48小時(shí)內(nèi)清除50%老化細(xì)胞?

生姜立大功?美國研究發(fā)現(xiàn):生姜可在48小時(shí)內(nèi)清除50%老化細(xì)胞?

39健康網(wǎng)
2026-02-11 09:11:33
890億美元,600架飛機(jī),特朗普訪華之前,中國要送美國一份大禮?

890億美元,600架飛機(jī),特朗普訪華之前,中國要送美國一份大禮?

近史博覽
2026-03-09 15:48:53
比亞迪閃充:二十年突圍終成,破解中國能源安全命門

比亞迪閃充:二十年突圍終成,破解中國能源安全命門

電科技網(wǎng)
2026-03-09 07:20:09
水滸中,絕不可交的3個(gè)小人,現(xiàn)實(shí)中就有,遇見了最好敬而遠(yuǎn)之

水滸中,絕不可交的3個(gè)小人,現(xiàn)實(shí)中就有,遇見了最好敬而遠(yuǎn)之

銘記歷史呀
2026-03-09 14:20:57
美專家突然發(fā)現(xiàn),中國早就準(zhǔn)備好,一旦沖突,先廢掉美軍最強(qiáng)戰(zhàn)力

美專家突然發(fā)現(xiàn),中國早就準(zhǔn)備好,一旦沖突,先廢掉美軍最強(qiáng)戰(zhàn)力

墨印齋
2026-03-09 11:30:27
2026-03-09 19:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12451文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

OpenClaw更新,"養(yǎng)蝦"再也不會(huì)犯健忘癥了

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認(rèn)!與26歲新歡共度良宵

財(cái)經(jīng)要聞

油價(jià)破100美元年內(nèi)漲80% 全球市場(chǎng)劇震

汽車要聞

對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

家居
親子
藝術(shù)
公開課
軍事航空

家居要聞

獨(dú)棟獨(dú)院 精致親子墅

親子要聞

萌娃竟讓老爸多喝點(diǎn)咖啡,得知原因的老爸哭笑不得

藝術(shù)要聞

吳冠中畫長(zhǎng)江,氣勢(shì)磅礴

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒發(fā)布小學(xué)被炸瞬間 戰(zhàn)斧導(dǎo)彈從天而降

無障礙瀏覽 進(jìn)入關(guān)懷版