国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別KV Cache枷鎖,將長上下文壓入權(quán)重,持續(xù)學習大模型有希望了?

0
分享至



編輯|Panda

人類已經(jīng)走上了創(chuàng)造 AGI(通用人工智能)的道路,而其中一個關(guān)鍵方面是持續(xù)學習,即 AI 能通過與環(huán)境互動而不斷學習新的知識和能力。

為此,研究社區(qū)已經(jīng)在探索多種不同的道路,比如開發(fā)能夠?qū)崟r更新狀態(tài)的循環(huán)神經(jīng)網(wǎng)絡(RNN),或者試圖通過極大的緩存空間來容納海量歷史。然而,真正的 AGI 或許不應僅僅被動地「存儲」信息,而應像人類一樣在閱讀中「進化」。

想象一下你生命中的第一次機器學習講座:你或許記不清教授開口說的第一個單詞,但那場講座留給你的直覺和邏輯,此刻正潛移默化地幫助你理解這篇復雜的論文。這種能力的本質(zhì)在于壓縮

近日,Astera 研究所、英偉達、斯坦福大學、加州大學伯克利分校、加州大學圣地亞哥分校的一個聯(lián)合團隊提出的TTT-E2E(端到端測試時訓練)沿著這條 AGI 的必經(jīng)之路邁出了重要一步。它徹底打破了傳統(tǒng)模型在推理時靜態(tài)不變的局限,讓長上下文建模從一種「架構(gòu)設計」進化為一種「學習問題」。



該方法可以在測試階段通過給定上下文的下一個 token 預測持續(xù)學習,將讀取的上下文信息壓縮至權(quán)重參數(shù)中



  • 論文標題:End-to-End Test-Time Training for Long Context
  • 論文地址:https://arxiv.org/abs/2512.23675
  • 代碼地址:https://github.com/test-time-training/e2e

困難是什么?召回與效率的永恒博弈

論文開篇明確了當前長上下文建模的兩難境地。

Transformer 的全注意力機制雖然在長文本上表現(xiàn)優(yōu)異,但其推理成本隨長度線性增長,這在處理 128K 甚至更長的上下文時會產(chǎn)生巨大的延遲壓力。為了解決效率問題,業(yè)界曾轉(zhuǎn)向循環(huán)神經(jīng)網(wǎng)絡(RNN)或狀態(tài)空間模型(SSM,如 Mamba)。這些模型雖然擁有恒定的每 token 計算成本,但在處理超長文本時,性能往往會大幅下降,無法像 Transformer 那樣有效利用遠距離的信息。

這種性能下降的根源在于「壓縮率」的固定

傳統(tǒng)的 RNN 將無限的序列壓縮進固定大小的狀態(tài)向量中,這不可避免地會導致信息丟失。

于是,該團隊思考:是否能找到一種方案,既能像 RNN 一樣擁有恒定的推理延遲,又能像 Transformer 一樣通過增加「存儲空間」來維持長距離性能?

端到端的測試時訓練(TTT-E2E)

TTT-E2E的核心思想是將模型在測試階段(推理階段)的行為定義為一個在線優(yōu)化過程。

具體而言,當模型讀取長上下文時,它不僅僅是在做前向傳播,還在同步進行梯度下降。

這種方法基于這樣一個邏輯:如果我們將上下文看作一份學習資料,那么模型在預測下一個 token 之前,可以先在已經(jīng)讀過的 token 上進行自監(jiān)督學習。

通過這種方式,上下文中的信息就被編碼進了模型的權(quán)重 W 中,而不是存儲在外部的 KV Cache 里。這就像是在閱讀一本書時,你不斷根據(jù)新讀到的內(nèi)容修正自己的認知模型。





為了使這一構(gòu)想在工程上可行且高效,團隊引入了兩大核心技術(shù)支撐。

首先是元學習(Meta-Learning)。傳統(tǒng)的模型在預訓練時并未考慮測試時的更新邏輯,這會導致訓練與測試的脫節(jié)。TTT-E2E 通過外層循環(huán)(Outer Loop)優(yōu)化模型的初始化參數(shù),使得模型「學會如何學習」,即經(jīng)過少量測試時梯度更新后,能達到最優(yōu)的預測效果。

其次是架構(gòu)的微調(diào)與滑動窗口的結(jié)合。該團隊意識到,如果完全摒棄注意力機制,模型會喪失局部精確記憶能力。因此,TTT-E2E 采用了一種混合架構(gòu):使用一個固定大?。ㄈ?8K)的滑動窗口注意力(SWA)來處理短期記憶,確保局部邏輯的嚴密;而對于超出窗口的長期記憶,則交給 TTT 更新后的 MLP 層來承擔。這種設計模仿了生物記憶系統(tǒng)的層級結(jié)構(gòu):滑動窗口如同瞬時感官記憶,而動態(tài)更新的權(quán)重則如同長期經(jīng)驗。

為了平衡計算開銷,團隊在實現(xiàn)細節(jié)上也極具匠心。他們并非更新模型的所有層,而是僅針對最后四分之一的 Transformer 塊進行 TTT

同時,他們?yōu)檫@些塊設計了雙 MLP 結(jié)構(gòu),一個保持靜態(tài)以鎖定預訓練知識,另一個則作為「快速權(quán)重」在測試時動態(tài)更新,從而解決了知識遺忘的問題。

詳細的數(shù)學描述請參閱原論文。

實驗結(jié)果:性能與速度的雙重飛躍

實驗數(shù)據(jù)證明了 TTT-E2E 的強大潛力。研究團隊在 3B 參數(shù)規(guī)模的模型上進行了系統(tǒng)性擴展實驗。



在性能擴展性方面,TTT-E2E 展現(xiàn)出了與全注意力 Transformer 幾乎一致的性能曲線。

隨著上下文長度從 8K 擴展到 128K,其他 RNN 基準模型(如 Mamba 和 Gated DeltaNet)的測試損失在達到 32K 之后開始顯著回升,這意味著它們無法處理更長的序列。而 TTT-E2E 的損失函數(shù)則持續(xù)下降,始終保持著對 Transformer 的追趕態(tài)勢,甚至在某些指標上更優(yōu)。

在推理效率方面,TTT-E2E 展現(xiàn)了壓倒性優(yōu)勢。

由于它不需要存儲海量的 KV Cache,其推理延遲不隨上下文長度增加而改變。在 128K 上下文的測試中,TTT-E2E 的處理速度比全注意力 Transformer 快了 2.7 倍。

這意味著開發(fā)者可以在不犧牲模型表現(xiàn)的前提下,極大地降低長文本應用的響應時間。

然而,研究也坦誠地指出了天下沒有免費的午餐。盡管推理極快,但 TTT-E2E 的訓練成本目前仍然較高。由于訓練時需要計算「梯度的梯度」(二階導數(shù)),其在短上下文下的訓練速度比傳統(tǒng)模型慢得多。

不過,該團隊提出,可以通過從預訓練好的 Transformer 節(jié)點開始微調(diào),或者開發(fā)專門的 CUDA 內(nèi)核來彌補這一短板。

此外,在大海撈針(NIAH)這類極端依賴精確召回的任務中,全注意力模型依然是無可爭議的霸主。這進一步印證了作者的觀點:TTT 的本質(zhì)是壓縮和理解,而非逐字的暴力存儲。



通往無限長度的未來

TTT-E2E 的意義遠不止于一個更快的算法。它標志著大模型正在從靜態(tài)模型轉(zhuǎn)變?yōu)閯討B(tài)個體。在這一框架下,模型處理長文檔的過程,本質(zhì)上是一次微型的自我進化。



這種「以計算換存儲」的思路,為我們描繪了一個充滿想象力的未來:或許有一天,我們可以讓模型在閱讀一萬本書的過程中不斷調(diào)整自身,最終將人類的整個文明史濃縮進那跳動的參數(shù)矩陣之中,而無需擔心硬件緩存的枯竭。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
有種賺錢方式叫“信息差”網(wǎng)友:一年賺到了幾輩子都花不完的錢!

有種賺錢方式叫“信息差”網(wǎng)友:一年賺到了幾輩子都花不完的錢!

夜深愛雜談
2026-01-07 21:42:47
日本鬼子說的“八嘎呀路”,翻譯成中文到底是什么意思?

日本鬼子說的“八嘎呀路”,翻譯成中文到底是什么意思?

西樓知趣雜談
2025-12-20 22:00:18
撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

泠泠說史
2025-12-15 18:05:17
太棒了!蘋果推出 iPhone 換電池半價活動

太棒了!蘋果推出 iPhone 換電池半價活動

XCiOS俱樂部
2026-01-07 15:03:15
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
巴雷特談迪亞巴特:他蓋了我兩回,我和他說再蓋我就干他

巴雷特談迪亞巴特:他蓋了我兩回,我和他說再蓋我就干他

懂球帝
2026-01-08 17:02:14
烏克蘭摧毀俄軍第100號大型彈藥庫!距莫斯科僅三百公里

烏克蘭摧毀俄軍第100號大型彈藥庫!距莫斯科僅三百公里

項鵬飛
2026-01-07 18:29:33
李方同志逝世

李方同志逝世

新京報政事兒
2026-01-08 11:07:51
3-0橫掃+苦戰(zhàn)落?。±詹紓悘埍净タ?,多哈再戰(zhàn)定新王

3-0橫掃+苦戰(zhàn)落?。±詹紓悘埍净タ?,多哈再戰(zhàn)定新王

阿晞體育
2026-01-08 12:44:11
“睡遍頂流”的司曉迪身份被扒,曾就讀淄博中學!畢業(yè)照很清純!

“睡遍頂流”的司曉迪身份被扒,曾就讀淄博中學!畢業(yè)照很清純!

娛樂團長
2026-01-05 16:23:19
鄭爽近照越來越像媽媽!首曝居住環(huán)境消費嚴重降級,衣服只要200

鄭爽近照越來越像媽媽!首曝居住環(huán)境消費嚴重降級,衣服只要200

古希臘掌管月桂的神
2026-01-07 22:24:06
鄭州一業(yè)主因物業(yè)糾紛堵住小區(qū)車輛入口6次報警,民警強制傳喚致其受傷 法院判決:超出必要限度

鄭州一業(yè)主因物業(yè)糾紛堵住小區(qū)車輛入口6次報警,民警強制傳喚致其受傷 法院判決:超出必要限度

紅星新聞
2026-01-07 23:38:19
最討厭的演員排名,潘長江僅第五,閆學晶第二,第一毋庸置疑

最討厭的演員排名,潘長江僅第五,閆學晶第二,第一毋庸置疑

林雁飛
2026-01-04 19:29:51
小鵬今日將發(fā)布四款新車 SUV續(xù)航最高超1700公里

小鵬今日將發(fā)布四款新車 SUV續(xù)航最高超1700公里

手機中國
2026-01-08 09:26:07
紐約新市長就職第一夫人全網(wǎng)熱搜,被譽為Z世代戴安娜王妃!

紐約新市長就職第一夫人全網(wǎng)熱搜,被譽為Z世代戴安娜王妃!

ChicMyGeek
2026-01-07 19:10:06
醫(yī)生叮囑:家中老人一旦邁入63歲,以下這5條建議一定要牢記

醫(yī)生叮囑:家中老人一旦邁入63歲,以下這5條建議一定要牢記

健康之光
2025-12-18 09:30:34
曼聯(lián)2-2伯恩利繼續(xù)丟分!弗萊徹激活謝什科還不夠,球迷呼喚索帥

曼聯(lián)2-2伯恩利繼續(xù)丟分!弗萊徹激活謝什科還不夠,球迷呼喚索帥

羅米的曼聯(lián)博客
2026-01-08 07:48:16
美硬扣俄油輪后,不到24小時,特朗普迎來噩耗,這一次沒人能幫他

美硬扣俄油輪后,不到24小時,特朗普迎來噩耗,這一次沒人能幫他

云上烏托邦
2026-01-08 12:32:14
被處決毒梟要水喝,3停5口是17年前教的暗號:我是臥底,有內(nèi)鬼!

被處決毒梟要水喝,3停5口是17年前教的暗號:我是臥底,有內(nèi)鬼!

星宇共鳴
2025-12-29 09:56:33
斗智:烏克蘭人的“無間道”戰(zhàn)術(shù)

斗智:烏克蘭人的“無間道”戰(zhàn)術(shù)

近距離
2026-01-02 10:55:21
2026-01-08 17:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12077文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強勢上映

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

教育
藝術(shù)
時尚
親子
健康

教育要聞

中考數(shù)學,求陰影面積?

藝術(shù)要聞

頤和園金光穿洞

藍色+灰色、紅色+棕色,這4組配色怎么搭都好看!

親子要聞

深圳一老師在幼兒園內(nèi)辦婚禮,全園孩子都來迎親吃席,

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進入關(guān)懷版