ICLR 2026 | LightMem：把大模型「長期記憶」的成本打下來

2026-02-26 14:47:50　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

大模型已經(jīng)很強(qiáng)，但一旦進(jìn)入 “長對話、跨多輪、多任務(wù)” 的真實(shí)智能體交互場景，模型很快就會遇到兩類老問題：

一是上下文窗口有限，越聊越長時(shí)不可避免地 “塞不下”；二是經(jīng)典的 lost in the middle，即使塞得下也未必用得好。

于是，給大模型配 “外部記憶系統(tǒng)” 尤為重要：把對話寫進(jìn)長期記憶、需要時(shí)再檢索出來。但現(xiàn)實(shí)很快給出了代價(jià) —— 記憶系統(tǒng)往往非常貴：頻繁調(diào)用大模型做總結(jié) / 抽取、實(shí)時(shí)做沖突消解與更新、長鏈路的維護(hù)開銷，最終讓 “有記憶的智能體” 在工程上難以承受。

這篇工作提出 LightMem：一個(gè)在 “效果” 和 “效率” 之間更平衡的記憶系統(tǒng)。核心目標(biāo)很直接：

在不犧牲準(zhǔn)確率的前提下，把 token、API 調(diào)用次數(shù)和運(yùn)行時(shí)延降下來。

論文標(biāo)題：LightMem: Lightweight and Efficient Memory-Augmented Generation
論文鏈接：https://arxiv.org/abs/2510.18866
代碼鏈接：https://github.com/zjunlp/LightMem

為什么現(xiàn)有記憶系統(tǒng) “能用但太貴”？

從主流范式來看，LLM 記憶系統(tǒng)大多是這樣工作的：把原始對話按 turn/session 切分；每一段都讓 LLM 做總結(jié) / 抽取，寫入向量庫 / 知識圖譜；新信息到來時(shí)，再讓 LLM 在線做更新 (add/delete/merge/ignore)；推理時(shí)檢索相關(guān)記憶拼到 prompt 里回答。

問題在于，不管是 user 側(cè)還是 assistant 側(cè)，真實(shí)對話場景中含有非常多的冗余信息：寒暄、重復(fù)確認(rèn)、冗余解釋等等。現(xiàn)有系統(tǒng)往往照單全收，導(dǎo)致：

1) 冗余信息直接進(jìn)入管線：token 消耗飆升，而且可能反而干擾 in-context learning；

2) 切分粒度僵硬：按 turn 太細(xì)會導(dǎo)致總結(jié)調(diào)用爆炸，按 session 太粗又容易主題混雜，最后總結(jié)不準(zhǔn)；

3) 在線更新太重：更新與遺忘在 test time 強(qiáng)綁定，長任務(wù)延遲高，而且 LLM 還可能在更新時(shí) “誤刪” 信息。

LightMem 的出發(fā)點(diǎn)是：人類記憶并不是 “所有信息都進(jìn)長期記憶”，而是有一套高效的分層機(jī)制：

感官記憶先過濾 → 短時(shí)記憶組織整合 → 長時(shí)記憶在睡眠時(shí)離線鞏固。

LightMem 的核心思路：三段式 “類人記憶” 管線

LightMem 把記憶系統(tǒng)拆成三個(gè)輕量模塊 (對應(yīng)如下的 Light1/Light2/Light3)：

Light1：感官記憶 (Sensory Memory)

目標(biāo)：快速過濾無用信息、把輸入壓縮到 “值得記” 的部分，并進(jìn)行主題切分。

Light2：短時(shí)記憶 (Short-Term Memory, STM)

目標(biāo)：按主題把對話組織成結(jié)構(gòu)化單元，降低總結(jié)調(diào)用次數(shù)，同時(shí)減少主題混雜。

Light3：長時(shí)記憶 (Long-Term Memory, LTM)+ 睡眠更新 (Sleep-time Update)

目標(biāo)：把昂貴的記憶更新從在線推理中 “拿出來”，在離線并行地做去重、合并、修復(fù)與鞏固。

Light1：感官記憶 —— 先壓縮，再切主題

輕量壓縮：把冗余 token 在系統(tǒng)輸入端過濾掉

LightMem 使用一個(gè)輕量壓縮模型 (論文默認(rèn)采用 LLMLingua-2) 對原始輸入做預(yù)壓縮：

保留信息量更高、語義更關(guān)鍵的 token，把大量冗余 token 提前過濾掉并擋在 pipeline 之外。

論文實(shí)驗(yàn)也驗(yàn)證：在合理壓縮率下 (50% 到 80%)，LLM 依然能理解壓縮后的上下文，準(zhǔn)確率基本不受影響。

混合主題切分：避免 “按窗口切” 的粗暴做法

僅靠固定窗口 (turn/session) 很難適配開放對話。LightMem 做了一個(gè)混合切分策略：

用注意力信號找到候選 topic 邊界 (局部峰值)；
再用相鄰片段的語義相似度做二次確認(rèn)；
取二者交集作為最終切分點(diǎn)，降低 attention sink、注意力稀釋等噪聲影響。

Light2：主題感知 STM—— 用 “內(nèi)容邊界” 替代 “窗口邊界”

在拿到 topic segments 后，LightMem 把它們以 {topic, turns} 的結(jié)構(gòu)送入 STM buffer。

當(dāng) buffer 達(dá)到 token 閾值時(shí)，才觸發(fā)一次 LLM 總結(jié)，對每個(gè) topic 生成更結(jié)構(gòu)化的 summary，并寫入 LTM。

相比 “每一輪都總結(jié)一次”，這種做法直接帶來兩點(diǎn)收益：

調(diào)用次數(shù)降低：總結(jié)不再是 N 次，而是按 buffer 觸發(fā)的更少次數(shù)；
總結(jié)更準(zhǔn)確：輸入被 topic 約束，不容易 “把 A 主題的細(xì)節(jié)總結(jié)進(jìn) B 主題里”。

論文的消融實(shí)驗(yàn)也顯示：去掉 topic segmentation 會帶來明顯準(zhǔn)確率下降 (GPT/Qwen 都一致)。

Light3：睡眠更新 —— 把開銷最高的部分從在線推理中剝離

記憶系統(tǒng)最貴、也最容易出錯(cuò)的一步，往往是 “更新 / 遺忘”。

現(xiàn)有系統(tǒng)經(jīng)常在 test time 做 hard update：合并、刪改、沖突消解都在線執(zhí)行，延遲高且風(fēng)險(xiǎn)大。

LightMem 的策略是 “兩段式更新”：

在線只做 Soft Update：先寫入，不糾結(jié)

測試時(shí)新記憶條目到來，LightMem 直接插入 LTM (帶時(shí)間戳)，不做復(fù)雜更新。

這極大降低了在線延遲，并避免 LLM 在實(shí)時(shí)更新中誤判沖突導(dǎo)致信息丟失。

離線做 Parallel Update：每條記憶維護(hù) “可更新隊(duì)列”

離線階段 (sleep time) 觸發(fā)更新：

對每個(gè)條目構(gòu)建一個(gè) update queue (只允許 “新的更新舊的”，即時(shí)間戳約束 tj ≥ ti)，然后把這些更新操作并行執(zhí)行。

并行化的關(guān)鍵好處是：

傳統(tǒng)在線更新存在順序依賴 (讀寫約束) 導(dǎo)致串行累計(jì)延遲；而 LightMem 把更新拆成多個(gè)獨(dú)立隊(duì)列，可以離線并行，整體更快。

結(jié)果：不僅更準(zhǔn)，而且便宜很多

論文在兩個(gè)長記憶基準(zhǔn)上驗(yàn)證了 LightMem 的效果與效率：

LongMemEval (LongMemEval-S)
LoCoMo

并在不同 backbone 上測試：GPT-4o-mini 、 Qwen3-30B-A3B、GLM4.6。

整體結(jié)論非常清晰：LightMem 在準(zhǔn)確率上超過基線，同時(shí)把成本打下來。

論文報(bào)告的代表性結(jié)果包括：

在 LongMemEval 上，LightMem 相比強(qiáng)基線準(zhǔn)確率最高提升約 7.7% / 29.3% (不同設(shè)置與 backbone)；
總 token 消耗降低最高可達(dá) 38× / 20.9×，API 調(diào)用次數(shù)降低最高可達(dá) 30× / 55.5×；
如果只看在線 test-time 成本，節(jié)省幅度更夸張：token 最高 106× / 117×，API 調(diào)用最高 159× / 310×。

LightMem 是一套面向真實(shí)長交互場景的 “輕量記憶系統(tǒng)” 答案：

它不追求讓記憶機(jī)制越來越復(fù)雜，而是用更接近人類記憶分工的方式，把冗余擋在入口，把維護(hù)放到離線，把代價(jià)控制在可部署的范圍內(nèi)。

如果你正在做長對話助手、長期在線 agent、或者任何需要 “記憶但又怕貴” 的系統(tǒng)，這篇工作值得細(xì)讀。

我們將 LightMem 的方法論與工程經(jīng)驗(yàn)沉淀到 OpenMem 社區(qū) ，推動記憶機(jī)制的開放共建與演進(jìn)。

OpenMem 旨在共建一個(gè) AI 記憶科學(xué)探索與產(chǎn)業(yè)實(shí)踐的全球協(xié)作社區(qū)，讓記憶成為 AI 的新 computer layer，促進(jìn) Memory Engineering 開源開放，成為 “記憶研究者的家” 與 “記憶技術(shù)的標(biāo)準(zhǔn)化基地”，支撐企業(yè)級學(xué)術(shù)級開發(fā)者級的記憶應(yīng)用生態(tài)。

作者簡介

方繼展，浙江大學(xué)人工智能碩士在讀，師從張寧豫副教授。研究方向?yàn)?Continual Learning、LLM/Agent Memory 與大模型知識編輯，聚焦記憶系統(tǒng)、自進(jìn)化 Agent 與模型可控更新。以第一/共一作者身份在 ICLR、ACL、ACM MM等國際頂級會議發(fā)表/接收多篇論文。提出并開源面向 Agent 的輕量化長期記憶框架 LightMem，獲得較高社區(qū)關(guān)注（GitHub 600+ Star），受到MIT technology review邀請專訪，并收到國內(nèi)多家投資機(jī)構(gòu)/大模型廠商的創(chuàng)業(yè)交流邀請。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.