国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不用額外緩存!英偉達開源記憶壓縮方案,128K上下文提速2.7倍

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

提高大模型記憶這塊兒,美國大模型開源王者——英偉達也出招了。

聯(lián)合Astera研究所、斯坦福大學、UC伯克利、加州大學圣地亞哥分校等機構(gòu)推出了TTT-E2E方法。

在128K超長文本上處理速度比全注意力模型快2.7倍,處理2M上下文時提速達35倍,性能還不打折。



這項技術(shù)與前幾天大火的DeepSeek條件記憶模塊有所不同。

DeepSeek的Engram模塊依賴的是“按需查表”的靜態(tài)學習路徑,而英偉達走的是動態(tài)學習的路子,關(guān)鍵在于上下文壓縮

通過實時學習將關(guān)鍵內(nèi)容壓縮到自身權(quán)重中,讓模型在測試階段依然保持學習狀態(tài)。

這樣既避免了額外緩存的負擔,又能精準捕捉長文本中的核心邏輯。

給模型裝上記憶壓縮包



TTT-E2E并沒有依賴復(fù)雜特殊架構(gòu),反而是基于帶滑動窗口注意力的標準Transformer,容易部署。

這個方法的核心思路是將長文本建模從架構(gòu)設(shè)計問題轉(zhuǎn)化為「持續(xù)學習」任務(wù)

在測試階段,模型會基于當前讀取的上下文進行下一個詞預(yù)測。

每讀取一段文本,就通過梯度下降更新自身參數(shù),通過這種方式持續(xù)訓練自身,把讀到的文本信息動態(tài)壓縮到權(quán)重中,這樣就不用額外存儲冗余數(shù)據(jù)。

在訓練階段,團隊通過元學習為模型做初始化準備,讓模型天生適應(yīng)「測試時學習」的模式。

把每個訓練序列都模擬成測試序列,先在內(nèi)循環(huán)中對其進行測試時訓練,再在外循環(huán)中優(yōu)化模型的初始參數(shù),確保初始狀態(tài)就能快速適配測試時的學習需求,實現(xiàn)了訓練與測試的端到端對齊優(yōu)化。



為了平衡效率與穩(wěn)定性,TTT-E2E還設(shè)計了三項關(guān)鍵優(yōu)化。

一是采用「迷你批處理+滑動窗口」的組合策略。將測試時的訓練數(shù)據(jù)分成多個迷你批,配合8K大小的滑動窗口注意力,既解決了單token梯度更新易爆炸的問題,又保證模型能記住批內(nèi)上下文,提升計算并行度;

二是精準更新策略。只更新模型的MLP層(凍結(jié)嵌入層、歸一化層和注意力層),并且只更新最后1/4的網(wǎng)絡(luò)塊,在減少計算成本的同時避免參數(shù)更新混亂;

三是雙MLP設(shè)計。在需更新的網(wǎng)絡(luò)塊中加入一個靜態(tài)MLP層,專門存儲預(yù)訓練知識,另一個動態(tài)MLP層負責吸收新上下文,來防止模型學新忘舊。



從實驗數(shù)據(jù)來看,TTT-E2E的表現(xiàn)很亮眼。

在3B參數(shù)模型的測試中,TTT-E2E在128K上下文長度下的測試損失與全注意力Transformer持平甚至更優(yōu),而Mamba 2、Gated DeltaNet等同類模型在長文本場景下性能均出現(xiàn)明顯下滑;

在延遲上,它的推理延遲不隨上下文長度增加而變化,與RNN類似,在H100顯卡上處理128K文本時,速度比全注意力模型快2.7倍。



在解碼長序列任務(wù)中,經(jīng)Qwen-8B模型評估,TTT-E2E生成的文本質(zhì)量穩(wěn)定,損失值持續(xù)低于傳統(tǒng)模型。



通過實驗結(jié)果也可以看出,該方法的推理延遲與上下文長度無關(guān),始終保持恒定,這也意味著無論處理8K還是128K文本,用戶都能獲得一致的快速響應(yīng)體驗。

不過,TTT-E2E也存在一些小局限。

在大海撈針這類需要精準回憶細節(jié)的任務(wù)中,它的表現(xiàn)遠不如全注意力模型。

這是因為它的核心是壓縮記憶,會過濾掉看似無關(guān)的細節(jié),而全注意力模型能近乎無損地召回所有信息。

另一方面,訓練階段的元學習需要計算梯度的梯度,目前實現(xiàn)比標準預(yù)訓練要慢。

目前,TTT-E2E的代碼和相關(guān)論文已完全開源。

這項研究的項目總負責人是斯坦福的博士后研究員Yu Sun,他同時是該研究的核心貢獻者。



他研究的總體目標是讓人工智能系統(tǒng)能夠像人類一樣持續(xù)學習。自2019年以來,他就在開發(fā)“測試時訓練”的概念框架,TTT-E2E項目的早期構(gòu)想就是他提出的。

論文地址:https://arxiv.org/abs/2512.23675
代碼地址:https://github.com/test-time-training/e2e
參考鏈接:https://x.com/karansdalal/status/2010774529120092481

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
收評:保證金上調(diào)引爆4萬億跳水!明天 A股怎么走,我做了大膽預(yù)測!

收評:保證金上調(diào)引爆4萬億跳水!明天 A股怎么走,我做了大膽預(yù)測!

股市皆大事
2026-01-14 17:12:14
觸目驚心——伊朗抗議者遇難者增至2萬人,1.8萬人被捕

觸目驚心——伊朗抗議者遇難者增至2萬人,1.8萬人被捕

史政先鋒
2026-01-14 16:36:18
“網(wǎng)紅縣長”賀嬌龍的“生死”反轉(zhuǎn):一次代價沉重的媒體搶跑

“網(wǎng)紅縣長”賀嬌龍的“生死”反轉(zhuǎn):一次代價沉重的媒體搶跑

記者柯南
2026-01-14 12:34:14
法國將在格陵蘭島開設(shè)領(lǐng)事館,法外長:法國希望“從各個層面強化自身存在”

法國將在格陵蘭島開設(shè)領(lǐng)事館,法外長:法國希望“從各個層面強化自身存在”

魯中晨報
2026-01-14 18:23:02
震驚!一滬漂網(wǎng)友公布2025全年稅后收入超420000,稱進入精英階層

震驚!一滬漂網(wǎng)友公布2025全年稅后收入超420000,稱進入精英階層

火山詩話
2026-01-14 15:01:46
美國組織發(fā)布Labubu工廠調(diào)查報告:工人每月只休1天,還雇有未成年人

美國組織發(fā)布Labubu工廠調(diào)查報告:工人每月只休1天,還雇有未成年人

小蘿卜絲
2026-01-14 13:58:23
A股:散戶聽我一句勸,證監(jiān)會突襲將杠桿,明天將出現(xiàn)核彈級別行情?

A股:散戶聽我一句勸,證監(jiān)會突襲將杠桿,明天將出現(xiàn)核彈級別行情?

股市皆大事
2026-01-14 18:16:11
外媒爆料:美國駐卡塔爾烏代德空軍基地部分人員被建議周三晚前離開

外媒爆料:美國駐卡塔爾烏代德空軍基地部分人員被建議周三晚前離開

環(huán)球網(wǎng)資訊
2026-01-14 18:41:16
相識超30年,馬云前助理陳偉去世,馬云夫婦送花圈挽聯(lián):活得灑脫,愛得真誠;享有趣的靈魂,獲一世的情誼

相識超30年,馬云前助理陳偉去世,馬云夫婦送花圈挽聯(lián):活得灑脫,愛得真誠;享有趣的靈魂,獲一世的情誼

都市快報橙柿互動
2026-01-14 15:57:21
外交部:對泰國事故造成人員傷亡表示慰問

外交部:對泰國事故造成人員傷亡表示慰問

界面新聞
2026-01-14 15:29:41
成龍女兒吳卓林結(jié)婚現(xiàn)場曝光,緊握愛人的手,洋溢著甜蜜笑容!

成龍女兒吳卓林結(jié)婚現(xiàn)場曝光,緊握愛人的手,洋溢著甜蜜笑容!

娛樂團長
2026-01-13 15:39:28
阿維塔電車失控在市區(qū)道路時速超100km/h連撞15車,肇事司機稱系駕駛輔助系統(tǒng)失控,阿維塔否定車輛問題,認定為人工駕駛,責任認定引爭議

阿維塔電車失控在市區(qū)道路時速超100km/h連撞15車,肇事司機稱系駕駛輔助系統(tǒng)失控,阿維塔否定車輛問題,認定為人工駕駛,責任認定引爭議

極目新聞
2026-01-14 12:08:00
伊朗加緊處決抗議者;特朗普同意軍事行動。

伊朗加緊處決抗議者;特朗普同意軍事行動。

跟著老李看世界
2026-01-14 00:04:53
80多家央企負責人薪酬公開

80多家央企負責人薪酬公開

界面新聞
2026-01-14 19:41:25
結(jié)婚人數(shù)突然大幅反彈!釋放出的信號,遠比數(shù)字本身更值得玩味

結(jié)婚人數(shù)突然大幅反彈!釋放出的信號,遠比數(shù)字本身更值得玩味

識局Insight
2026-01-14 12:59:32
出差前,我在妻子睡衣上撒了熒光粉,回來打開紫光燈妻子臉色慘白

出差前,我在妻子睡衣上撒了熒光粉,回來打開紫光燈妻子臉色慘白

清茶淺談
2026-01-13 21:21:11
一輪游!周杰倫澳網(wǎng)一球制勝遭約維奇ACE淘汰 無緣戰(zhàn)前世界第一

一輪游!周杰倫澳網(wǎng)一球制勝遭約維奇ACE淘汰 無緣戰(zhàn)前世界第一

醉臥浮生
2026-01-14 17:16:25
賴清德欲推兩岸兩會重啟對話,大陸不拒絕,要求遵守一個政治條件

賴清德欲推兩岸兩會重啟對話,大陸不拒絕,要求遵守一個政治條件

軍機Talk
2026-01-14 14:26:27
同意加裝電梯但一直沒有出資,一戶人家被全樓“孤立”!積怨太深,賣房時尷尬了

同意加裝電梯但一直沒有出資,一戶人家被全樓“孤立”!積怨太深,賣房時尷尬了

揚子晚報
2026-01-14 11:27:18
美國總統(tǒng)特使尋求赴俄見普京

美國總統(tǒng)特使尋求赴俄見普京

新華社
2026-01-14 17:28:06
2026-01-14 20:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12014文章數(shù) 176359關(guān)注度
往期回顧 全部

科技要聞

攜程因涉嫌壟斷被市場監(jiān)管總局調(diào)查

頭條要聞

男子駕車撞死一家三口獲死緩 被害人家屬遞交抗訴申請

頭條要聞

男子駕車撞死一家三口獲死緩 被害人家屬遞交抗訴申請

體育要聞

你是個好球員,我們就拿你交易吧

娛樂要聞

何晴去世30天,許亞軍終于發(fā)聲

財經(jīng)要聞

涉嫌壟斷!市場監(jiān)管總局對攜程立案調(diào)查

汽車要聞

曝Model Y或降到20萬以內(nèi)!

態(tài)度原創(chuàng)

藝術(shù)
教育
健康
時尚
公開課

藝術(shù)要聞

八大山人『山水花鳥冊』

教育要聞

牛津放榜!北京斬獲20枚offer!多所黑馬校殺出

血常規(guī)3項異常,是身體警報!

比變老更可怕的是不會穿!中年女人掌握4個技巧,優(yōu)雅不費力

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版