国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

你的「龍蝦」真記得你嗎?劍橋發(fā)布長期個性化記憶基準ATM-Bench

0
分享至



ATM-Bench 將「個人 AI 助手是否真的記得你」這件事,變成了一個研究的測試基準。結(jié)果并不樂觀:專用記憶智能體系統(tǒng)普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能體普遍表現(xiàn)不佳,最高準確率不到 40%。

想象一個場景:媽媽問我:「你上次去日本旅行幫我買的相機,現(xiàn)在還在保修期內(nèi)嗎?」

對人類來說,這不算難。就算一時記不起來,也可以翻翻收據(jù)、照片,或者查一下當時的郵件。大腦會將線索串起來,逐漸定位或是搜索到相關(guān)記憶。但對今天的 AI 來說,這類問題遠沒有看上去那么簡單。

最近,來自劍橋大學的團隊開源了面向 AI 個人助理的長期記憶基準測試 ATM-Bench。他們評測一個直接的問題:當 AI 真正面對一個人多年真實生活數(shù)據(jù)時,它到底能不能「記住你」?

實驗結(jié)果并不樂觀。在該 ATM-Bench-Hard 基準上,當前非常熱門的開源智能體「小龍蝦」OpenClaw 僅達到 25.4% 的準確率;而被許多人視為編程智能體標桿、搭載 Claude Opus 4.6 的 Claude Code 也只有 33.8%。至于多數(shù)開源專用記憶系統(tǒng),準確率甚至低于 20%。



  • 論文地址: https://arxiv.org/abs/2603.01990
  • 項目主頁: https://atmbench.github.io



視頻鏈接:https://mp.weixin.qq.com/s/__7ldldfZfyXsNVGHq6AnQ?click_id=136

ATM-Bench:系統(tǒng)評估 AI 長期個性化記憶能力的基準

過去已經(jīng)有不少工作在評估 AI 的「記憶能力」,例如 LoCoMo、LongMemEval 等,它們大多聚焦于對話歷史,但真實世界中的個人記憶,遠不止聊天記錄。一個人的生活記憶通常分散在:

  • 照片:旅行、聚會、用餐、日常片段
  • 視頻:重要時刻、活動過程、環(huán)境變化
  • 郵件:機票、酒店、餐廳預(yù)訂、票據(jù)、確認函

而且這些記憶往往橫跨幾年,互相之間并不對其。為此,ATM-Bench 提出了首個面向長期、多模態(tài)、多來源、個性化指代記憶問答的基準。它的幾個關(guān)鍵特征是:

  • 時間跨度約 4 年;
  • 覆蓋圖像、視頻、郵件三類模態(tài),超一萬條記憶數(shù)據(jù);
  • 記憶數(shù)據(jù)來自真實個人生活,而非合成對話;
  • 圖像、視頻數(shù)據(jù)包含地點、時間等元數(shù)據(jù),地點包含 4 大洲;
  • 包含 1000 + 條完全人工標注的問題、答案與證據(jù)。

ATM-Bench 考驗了智能體能不能像一個真正的個人助理那樣,找到隱藏在記憶庫深處的正確記憶,并給出可靠答案。

挑戰(zhàn) AI 的記憶盲區(qū)

ATM-Bench 的核心難點包含:

  • 個性化指代:我的寵物貓「Grace」「我們上次那趟葡萄牙旅行」;
  • 多來源拼接:照片時間戳要和郵件確認函對齊;
  • 記憶沖突:預(yù)訂金額和最終發(fā)票金額不一致;
  • 元數(shù)據(jù)噪音:GPS 由于定位準確度本身就可能出錯。

這里展示了三種難題的案例。

個性化引用解析 ——Grace 到底是誰?

示例:「我想剪一個視頻發(fā)小紅書,幫我把 Grace 偷偷摸摸的照片視頻找出來?!?/p>

  • 判斷 Grace 是朋友、家人,還是寵物;
  • 在圖片或視頻里識別這個對象;
  • 再理解「偷偷摸摸」這種帶主觀色彩的描述。



證據(jù)沖突怎么選?

示例:「我最近去葡萄牙旅行住酒店花了多少錢?」

這類問題常常對應(yīng)多份證據(jù):過時的預(yù)訂確認郵件,最終結(jié)算發(fā)票等。

AI 需要理解不同來源之間可能存在沖突,也需要判斷哪條信息更新得更晚、可信度更高。即使是 GPT-5.2 或者是 Opus-4.6,也拿著過時的預(yù)訂郵件而不是最終的發(fā)票當作答案。



看不見的線索,才最考驗 AI 的長期記憶

示例:「我在 Fancett 餐廳點了什么?」

陷阱在于:「Fancett」這個名字只出現(xiàn)在郵件確認單里,而照片本身并沒有 GPS 標簽。

要回答這個問題,AI 必須先:

  1. 從郵件中找到與 Fancett 相關(guān)的預(yù)訂信息;
  2. 提取對應(yīng)時間并鎖定時間窗口;
  3. 再跨模態(tài)到相冊中找到同一時段的照片;
  4. 最后從視覺內(nèi)容中判斷點了什么菜。

這類問題僅靠單一模態(tài)無法解決,需在郵件中挖掘文本線索,將時間范圍縮小,找到照片并回答問題。少了任何一環(huán),問題都無法被正確回答。



實驗結(jié)果

團隊在 ATM-Bench-Hard 上測試了多種專用記憶系統(tǒng),包括 A-Mem、HippoRAG2、mem0、MemoryOS。

結(jié)果并不理想:最好的系統(tǒng)準確率不到 20%。這些系統(tǒng)本來就是為記憶而設(shè)計的,但當任務(wù)超過了僅僅是對話歷史,記憶變得真實、長期、個性化、跨模態(tài)的生活場景時,它們依然顯得力不從心。

除開源專用記憶系統(tǒng)之外,團隊還測試了當前最強的通用智能體系統(tǒng)。這類智能體具備完整的代碼執(zhí)行能力、文件系統(tǒng)訪問權(quán)限和工具調(diào)用能力,具有比專用記憶系統(tǒng)擁有更強的工程能力與搜索能力。



核心發(fā)現(xiàn):

  1. 表現(xiàn)最好的 Codex 也只有 39.7% 的準確率,連及格線都夠不著;
  2. Claude Code + Opus 4.6 作為編程智能體的標桿,也只有 33.8%,盡管明顯優(yōu)于多數(shù)專用記憶系統(tǒng),但仍難以勝任真實長期記憶 QA;
  3. OpenCode(Kimi K2.5)達到 30.3%,而 OpenClaw(Kimi K2.5)為 25.4%;
  4. Token 開銷非常高:Codex 消耗了 15.46M tokens,OpenClaw 也達到 9.63M,即便投入大量工具調(diào)用與上下文預(yù)算,效果仍然有限。

這說明,即便給 AI 配齊代碼執(zhí)行、文件搜索、索引構(gòu)建等整套工具鏈,長期個性化記憶問答仍然是一個根本性難題。

ATM-Bench 的實驗結(jié)果雖然「慘淡」,但作者團隊相信這為未來的長期記憶機制與個性化 AI 助手的研究開辟了新的方向。

OpenClaw、Codex、Claude Code 的集體表現(xiàn)不佳告訴我們:工具鏈再完善、模型再強大,也彌補不了記憶架構(gòu)上的根本缺陷。

當 AI 真正能夠像人類一樣,在數(shù)年的記憶長河中準確檢索、關(guān)聯(lián)、推理,我們離真正的「個性化 AI」才會更近一步。

在那之前,也許我們不該對智能體的記憶能力期待太高,畢竟,它們連「去年給媽媽買的相機」都記不住,OpenClaw、Codex、Claude Code 都不行。

數(shù)據(jù)集已開源

ATM-Bench 數(shù)據(jù)集現(xiàn)已在 HuggingFace 上線:

  • https://huggingface.co/datasets/Jingbiao/ATM-Bench

包含:

  • 完全人工標注的 1069 個 QA 對
  • 多模態(tài)證據(jù)標注
  • NIAH 大海撈針評估支持
  • 開箱即用的基準測試代碼

作者介紹

梅敬標,劍橋大學機器智能實驗室博士四年級在讀,師從 Bill Byrne 教授,獲劍橋信托基金獎學金資助。本科及碩士均畢業(yè)于劍橋大學工程系,主修信息與計算機工程與電子工程。

其主要研究方向為多模態(tài)大語言模型的應(yīng)用,涵蓋多模態(tài)檢索、模型安全、強化學習及智能體系統(tǒng)等領(lǐng)域。相關(guān)成果已發(fā)表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等國際頂級會議,累計發(fā)表論文十余篇。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美高層曾提議:中國可以用1萬多億美債,從美國手中"贖回"臺灣

美高層曾提議:中國可以用1萬多億美債,從美國手中"贖回"臺灣

別讓往昔的悲傷和對未來的恐懼
2026-04-09 00:05:19
就在今天,7國同步派兵,3面圍堵打壓中國,名單公開都不是善茬

就在今天,7國同步派兵,3面圍堵打壓中國,名單公開都不是善茬

福建睿平
2026-04-21 11:46:28
“你女兒比松子還可悲”,女孩吃三文魚表情走紅,讓評論區(qū)吵翻了

“你女兒比松子還可悲”,女孩吃三文魚表情走紅,讓評論區(qū)吵翻了

妍妍教育日記
2026-04-15 11:40:07
日本7.7 級強震后,高市得罪 4 鄰國,誰還愿救日本核電站?

日本7.7 級強震后,高市得罪 4 鄰國,誰還愿救日本核電站?

眼界看視野
2026-04-21 09:49:11
羽毛球女神淪為“生育工具”!韓景楓官宣二胎,距離1胎僅隔5個月

羽毛球女神淪為“生育工具”!韓景楓官宣二胎,距離1胎僅隔5個月

翰飛觀事
2026-04-20 19:43:28
安妮·海瑟薇花3年造一張流行專輯:好萊塢明星跨界音樂的"笨辦法"

安妮·海瑟薇花3年造一張流行專輯:好萊塢明星跨界音樂的"笨辦法"

熱搜摘要官
2026-04-21 00:37:40
長電科技:2025年先進封裝營收創(chuàng)歷史新高

長電科技:2025年先進封裝營收創(chuàng)歷史新高

證券時報
2026-04-21 20:44:04
19歲斯嘉麗為戲當眾扯掉胸罩,導演急喊:快穿上!

19歲斯嘉麗為戲當眾扯掉胸罩,導演急喊:快穿上!

TVB的四小花
2026-04-21 21:03:23
白玩《三國志》三十年,這才是得高分的終極秘訣,曹操也能取首級

白玩《三國志》三十年,這才是得高分的終極秘訣,曹操也能取首級

街機時代
2026-04-18 18:00:03
未公開的1972年尼克松訪華全套高清照

未公開的1972年尼克松訪華全套高清照

深度知局
2026-04-15 00:16:09
東莞兩鎮(zhèn)迎來新任黨委書記

東莞兩鎮(zhèn)迎來新任黨委書記

東莞好生活
2026-04-21 22:52:49
歷史老師跌入“無人區(qū)”:某高中20人教研組,近一半無學生可教

歷史老師跌入“無人區(qū)”:某高中20人教研組,近一半無學生可教

聽心堂
2026-03-31 15:52:04
世界5大禁片,全看完的人,心理素質(zhì)堪比特種兵

世界5大禁片,全看完的人,心理素質(zhì)堪比特種兵

i書與房
2026-01-26 15:07:05
一切跡象都證明:伊朗在談判過程中被特朗普當猴耍了?

一切跡象都證明:伊朗在談判過程中被特朗普當猴耍了?

矚望云霄
2026-04-21 21:00:03
老同學沒跟我商量,擅自答應(yīng)3桌他朋友來我家吃飯,我將冰箱清空

老同學沒跟我商量,擅自答應(yīng)3桌他朋友來我家吃飯,我將冰箱清空

小秋情感說
2026-03-27 09:42:20
交警提醒:車上未裝這個物件罰200元?嚴查開始,車主們了解清楚

交警提醒:車上未裝這個物件罰200元?嚴查開始,車主們了解清楚

復(fù)轉(zhuǎn)這些年
2026-04-20 19:16:40
吞下“沉默”字樣的拼多多員工:一個隱喻

吞下“沉默”字樣的拼多多員工:一個隱喻

關(guān)爾東
2026-04-21 22:44:47
日本慌了,韓國急了,如今的中國烏魯木齊,先進制造悄然成勢

日本慌了,韓國急了,如今的中國烏魯木齊,先進制造悄然成勢

老范談史
2026-01-31 20:44:15
李建成手握太子之位,背后有四大家族撐腰,卻競爭不過李世民?

李建成手握太子之位,背后有四大家族撐腰,卻競爭不過李世民?

文史道
2026-03-08 14:00:55
瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

錢小刀娛樂
2026-04-14 10:39:13
2026-04-22 02:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12822文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經(jīng)要聞

現(xiàn)實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態(tài)度原創(chuàng)

時尚
本地
數(shù)碼
健康
軍事航空

頂流復(fù)工,已判若兩人

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

數(shù)碼要聞

大疆發(fā)布Osmo Mobile 8P:售899元 分體式遙控器設(shè)計

干細胞抗衰4大誤區(qū),90%的人都中招

軍事要聞

特朗普公開對伊開戰(zhàn)真正原因

無障礙瀏覽 進入關(guān)懷版