国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

新一代框架MIA:讓智能體告別「失憶式工作」,在持續(xù)進(jìn)化中變強(qiáng)

0
分享至



本文共同一作是上海創(chuàng)智學(xué)院博士生喬靜陽、孟煒程,通訊作者是華東師范大學(xué)張志忠副教授,項目主導(dǎo)人是國家優(yōu)青謝源教授。

Never memorize something that you can look up.
  • — Albert Einstein

如今的大多數(shù)智能體,仍然活在一種「失憶式工作」模式中:每一次檢索都是從零開始,每一條推理路徑都無法沉淀,每一次失敗也不會轉(zhuǎn)化為經(jīng)驗。它們雖能多輪交互,但很難在深度研究中持續(xù)變強(qiáng)。

為了解決這個問題,已有工作嘗試基于歷史方案生成執(zhí)行規(guī)劃,但受限于預(yù)訓(xùn)練范式,許多智能體仍陷入新的困境:一個不擅長規(guī)劃的「決策器」,從臃腫的記憶中檢索出零散片段,再去驅(qū)動一個缺乏規(guī)劃執(zhí)行能力的「執(zhí)行器」。結(jié)果是:記憶在增長,智能卻沒有。

于是,浮現(xiàn)出一個關(guān)鍵問題:是否存在將經(jīng)驗轉(zhuǎn)化為能力的智能體記憶機(jī)制?

上海創(chuàng)智學(xué)院和華東師范大學(xué)聯(lián)合團(tuán)隊最近提出的 Memory Intelligence Agent (MIA),一個面向深度研究場景的新一代記憶智能體框架,給這一問題帶來了新的答案。



  • 論文地址:https://arxiv.org/abs/2604.04503
  • 代碼倉庫:https://github.com/ECNU-SII/MIA
  • 龍蝦技能:
  • 純凈版:https://clawhub.ai/jingyangqiao/mia
  • 可信版:https://clawhub.ai/sii-yucheng2002/mia-trust

(高效版和可訓(xùn)練版即將發(fā)布)

為了解決這一問題,MIA 構(gòu)建了一套基于「Planner–Executor–Manager」架構(gòu)的記憶系統(tǒng)。其中,Planner 是戰(zhàn)術(shù)大腦,不僅能夠針對當(dāng)前問題制定研究計劃,還能通過測試時的持續(xù)學(xué)習(xí)實時調(diào)整其策略。Executor 是經(jīng)過訓(xùn)練的執(zhí)行專家,能夠毫無阻礙地解讀并遵循復(fù)雜的研究藍(lán)圖。Manager 是終極管理員,優(yōu)化記憶存儲以消除冗余。

與現(xiàn)有方法相比,MIA 的核心亮點在于:

  1. 構(gòu)建雙記憶機(jī)制,非參數(shù)記憶負(fù)責(zé)沉淀經(jīng)驗,參數(shù)記憶負(fù)責(zé)吸收能力,二者相互轉(zhuǎn)化,形成持續(xù)進(jìn)化的閉環(huán);
  2. 提出 Manager–Planner–Executor 多智能體結(jié)構(gòu),將記憶管理、策略規(guī)劃與任務(wù)執(zhí)行解耦,并通過交替強(qiáng)化學(xué)習(xí)驅(qū)動 Planner 與 Executor 的協(xié)同進(jìn)化,將「會規(guī)劃」和「會執(zhí)行」對齊;
  3. 引入面向開放世界的自進(jìn)化機(jī)制,結(jié)合反思與無監(jiān)督學(xué)習(xí),讓智能體在開放世界的推理過程中持續(xù)修正策略、動態(tài)更新記憶,實現(xiàn)邊做邊學(xué)的在線進(jìn)化。

在 X 平臺上,該論文已被 DAIR.AI 的創(chuàng)始人,擁有 30 萬粉絲的 AI 論文分享博主 Elvis Saravia 所轉(zhuǎn)發(fā),并收獲了高度評價與大量關(guān)注。與此同時,該論文也入選了 Hugging Face Daily Papers 榜單。





從「逐次推理」到「可積累的研究閉環(huán)」



作為一個持續(xù)運行的 Planning–Execution–Memory 閉環(huán)系統(tǒng),MIA 在每一次研究任務(wù)中,都會經(jīng)歷:經(jīng)驗調(diào)用 → 協(xié)同推理 → 經(jīng)驗沉淀,并不斷反哺后續(xù)決策。

在經(jīng)驗調(diào)用中,MIA 通過三維檢索機(jī)制調(diào)用歷史經(jīng)驗,分別是保證相關(guān)性的語義相似度,高質(zhì)量經(jīng)驗偏好的價值獎勵和激活長尾知識的頻率獎勵。

此外,作者還引入失敗軌跡作為約束,使記憶既能提供參考,又能避免重復(fù)錯誤。在協(xié)同推理中,MIA 將推理解耦為兩個智能體的協(xié)作過程,Planner 負(fù)責(zé)拆解任務(wù)、生成步驟,而 Executor 負(fù)責(zé)按照步驟執(zhí)行。二者通過 Reflect–Replan 形成反饋閉環(huán),當(dāng)執(zhí)行受阻時自動重規(guī)劃,讓智能體具備持續(xù)試錯與調(diào)整能力。

在經(jīng)驗沉淀中,MIA 將對兩種記憶同時更新。首先對軌跡進(jìn)行壓縮與提取,形成結(jié)構(gòu)化非參數(shù)記憶。其次在線更新 Planner 參數(shù),將經(jīng)驗轉(zhuǎn)化為參數(shù)記憶。最后實現(xiàn)從經(jīng)驗存儲到能力內(nèi)化的躍遷。



讓「會規(guī)劃」和「會執(zhí)行」學(xué)會配合

在傳統(tǒng)記憶系統(tǒng)中,Planner 和 Executor 往往只是拼在一起,并沒有真正學(xué)會協(xié)作。為此,MIA 提出了一套兩階段交替強(qiáng)化學(xué)習(xí)和測試時持續(xù)學(xué)習(xí)的進(jìn)化機(jī)制,讓兩個模塊逐步對齊,并在真實任務(wù)中不斷變強(qiáng)。首先在兩階段交替強(qiáng)化學(xué)習(xí)中,MIA 將訓(xùn)練過程拆分為:

  • 階段一:固定 Planner,讓 Executor 學(xué)會理解并嚴(yán)格執(zhí)行規(guī)劃;
  • 階段二:固定 Executor,讓 Planner 學(xué)習(xí)如何利用記憶生成更優(yōu)計劃與計劃執(zhí)行失敗時的反思與重規(guī)劃能力。

這種「先對齊執(zhí)行,再優(yōu)化決策」的方式,解決了「規(guī)劃很好,但執(zhí)行跟不上」的問題。

其次不同于傳統(tǒng)方法「訓(xùn)練完即凍結(jié)」,MIA 在推理階段引入測試時學(xué)習(xí),賦能智能體持續(xù)進(jìn)化。其過程包括:執(zhí)行推理任務(wù)同時生成多條候選路徑。從成功與失敗路徑中提取非參數(shù)化記憶,基于成功路徑在線更新參數(shù)化記憶。推理與訓(xùn)練幾乎同步完成,形成真正的在線學(xué)習(xí)閉環(huán)。



讓智能體在開放世界中穩(wěn)定進(jìn)化

為了將 MIA 能夠真正用在開放環(huán)境的深度研究中,作者提出了一套無監(jiān)督的自進(jìn)化評估機(jī)制,讓智能體在沒有外部反饋的條件下,也能持續(xù)優(yōu)化自身能力。

其核心思路是:用「過程質(zhì)量」替代「結(jié)果標(biāo)簽」,只要推理嚴(yán)謹(jǐn)、證據(jù)可靠、結(jié)論合理,即使沒有標(biāo)準(zhǔn)答案,也可以作為有效學(xué)習(xí)信號。

因此,受學(xué)術(shù)評審的啟發(fā),作者將對結(jié)果的判斷拆成多個「專家視角」,包括:

  • 邏輯評審員:檢查推理鏈條是否自洽
  • 事實評審員:驗證信息來源以及是否存在幻覺
  • 結(jié)果評審員:評估任務(wù)是否真正完成

最終由一個「領(lǐng)域主席」進(jìn)行綜合決策并給出整體判斷,為 MIA 提供穩(wěn)定的優(yōu)化信號,進(jìn)而助力實時進(jìn)化。

實驗結(jié)論

在多項文本與多模態(tài)深度研究任務(wù)中,MIA 顯著提升了智能體的穩(wěn)定性與效率:





  • SOTA 性能再突破 (a & b):在 LiveVQA (多模態(tài)在線搜索) 與 HotpotQA (純文本沙盒搜索) 的對比實驗中,MIA 顯著提升了現(xiàn)有最先進(jìn) LLMs(GPT-5.4, Gemini-3-Flash, claude-sonnet-4.6)在調(diào)用搜索工具下的表現(xiàn);
  • 實現(xiàn)小尺寸模型的跨級超越 (c):基于 Qwen-2.5-VL-7B 執(zhí)行器的 MIA 模型在 7 個核心數(shù)據(jù)集上表現(xiàn)卓越,超越了在不調(diào)用工具下的 GPT-5.4,GPT-4o 和 Gemini-2.5-Pro,逼近了 Gemini-3-Flash;
  • 記憶方法的新標(biāo)桿 (d):在與當(dāng)前先進(jìn)智能體記憶方法的橫向評測中,MIA 在 7 個數(shù)據(jù)集上均取得最佳性能表現(xiàn)。

總結(jié)

智能體記憶不應(yīng)該只是讓智能體記住了「結(jié)果是什么」,而是應(yīng)該讓它學(xué)會「該怎么做」。MIA 的出現(xiàn),傳遞了一個清晰的信號:決定一個智能體上限的,不再僅僅是它接入了多少外部工具,而是它能否在每一次與世界的交互中,將繁雜的「過程信息」壓縮為精煉的「執(zhí)行本能」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《生化9》大尺度mod!牛奶比基尼內(nèi)含大雷比頭還大

《生化9》大尺度mod!牛奶比基尼內(nèi)含大雷比頭還大

游民星空
2026-04-22 16:09:39
調(diào)查丨光伏跨界者困境樣本:泉為科技兩大生產(chǎn)基地幾近停擺,部分設(shè)備被拉走,“95后”董事長被立案

調(diào)查丨光伏跨界者困境樣本:泉為科技兩大生產(chǎn)基地幾近停擺,部分設(shè)備被拉走,“95后”董事長被立案

每日經(jīng)濟(jì)新聞
2026-04-22 22:04:11
廣東美女泰國消失最新!被囚禁13天,細(xì)節(jié)曝光,難怪20萬也救不出

廣東美女泰國消失最新!被囚禁13天,細(xì)節(jié)曝光,難怪20萬也救不出

閱微札記
2026-04-23 11:35:46
交銀國際信托黨委書記、董事長張文被查

交銀國際信托黨委書記、董事長張文被查

新京報
2026-04-23 10:20:16
狄龍30+6登全美熱搜!美媒調(diào)侃他超厭惡SGA 被贊如超巨該獲尊重

狄龍30+6登全美熱搜!美媒調(diào)侃他超厭惡SGA 被贊如超巨該獲尊重

顏小白的籃球夢
2026-04-23 12:44:32
外媒:韓飛行員開戰(zhàn)機(jī)空中拍照致撞機(jī)

外媒:韓飛行員開戰(zhàn)機(jī)空中拍照致撞機(jī)

參考消息
2026-04-23 13:10:21
痛心!湖北一派出所所長因公犧牲,年僅45歲

痛心!湖北一派出所所長因公犧牲,年僅45歲

極目新聞
2026-04-23 13:43:56
用了16年的學(xué)位證校方稱從未授予,當(dāng)事人自我舉報求證真?zhèn)?炒作還是確有其事?

用了16年的學(xué)位證校方稱從未授予,當(dāng)事人自我舉報求證真?zhèn)?炒作還是確有其事?

紅星新聞
2026-04-22 19:10:31
中國互聯(lián)網(wǎng)巨頭,利潤集體下滑?

中國互聯(lián)網(wǎng)巨頭,利潤集體下滑?

智谷趨勢
2026-04-22 11:04:33
余承東一晚連發(fā)6款車!問界車皇沖上66.98萬,首款MPV開始預(yù)售

余承東一晚連發(fā)6款車!問界車皇沖上66.98萬,首款MPV開始預(yù)售

車東西
2026-04-22 23:13:19
布克:我生涯從沒點名噴過裁判,但今晚的裁判會把NBA變成WWE

布克:我生涯從沒點名噴過裁判,但今晚的裁判會把NBA變成WWE

懂球帝
2026-04-23 13:41:07
上海地鐵站內(nèi),這個“高素質(zhì)”習(xí)慣爆發(fā)沖突!上海已叫停多年!很多人改不過來……

上海地鐵站內(nèi),這個“高素質(zhì)”習(xí)慣爆發(fā)沖突!上海已叫停多年!很多人改不過來……

環(huán)球網(wǎng)資訊
2026-04-23 11:11:44
反轉(zhuǎn)!21歲小伙養(yǎng)6弟妹被官方打假,家里有兩套房還賣高價豬肉

反轉(zhuǎn)!21歲小伙養(yǎng)6弟妹被官方打假,家里有兩套房還賣高價豬肉

冷紫葉
2026-04-22 20:11:04
再次拿到倒數(shù)第一,這個北方大省決心“翻身”

再次拿到倒數(shù)第一,這個北方大省決心“翻身”

每日經(jīng)濟(jì)新聞
2026-04-22 23:48:09
日韓股市均創(chuàng)新高 日經(jīng)225指數(shù)首次突破6萬點大關(guān)

日韓股市均創(chuàng)新高 日經(jīng)225指數(shù)首次突破6萬點大關(guān)

財聯(lián)社
2026-04-23 08:14:21
教育部新規(guī)落地!9月上學(xué)全變了,家長趁早看

教育部新規(guī)落地!9月上學(xué)全變了,家長趁早看

笑熬漿糊111
2026-04-23 00:05:18
爆料瘋傳!中南醫(yī)院院長落馬,“王護(hù)士長”被扒,各種獎拿到手軟

爆料瘋傳!中南醫(yī)院院長落馬,“王護(hù)士長”被扒,各種獎拿到手軟

許三歲
2026-04-23 11:43:44
美女大學(xué)生被騙泰國賣園區(qū)被質(zhì)疑!網(wǎng)友:要過5個關(guān)口,配合才行

美女大學(xué)生被騙泰國賣園區(qū)被質(zhì)疑!網(wǎng)友:要過5個關(guān)口,配合才行

火山詩話
2026-04-23 09:28:14
谷雨后,不建議買5種蔬菜,口感不好,還沒營養(yǎng),菜販自己都不吃

谷雨后,不建議買5種蔬菜,口感不好,還沒營養(yǎng),菜販自己都不吃

阿龍美食記
2026-04-22 18:39:10
「龍蝦」不只活在屏幕里!訊飛把智能體進(jìn)化方向講明白了

「龍蝦」不只活在屏幕里!訊飛把智能體進(jìn)化方向講明白了

雷科技
2026-04-15 21:43:25
2026-04-23 14:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12832文章數(shù) 142634關(guān)注度
往期回顧 全部

科技要聞

車沒賣爆,利潤卻大漲,特斯拉發(fā)布財報

頭條要聞

媒體:美國海軍已至極限 特朗普對伊朗罕見放軟身段

頭條要聞

媒體:美國海軍已至極限 特朗普對伊朗罕見放軟身段

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

長安"1445"戰(zhàn)略:一張走向"世界長安"的行軍地圖

態(tài)度原創(chuàng)

教育
游戲
親子
本地
公開課

教育要聞

重磅發(fā)布|這個“法定”閱讀周,送你一份C計劃思辨閱讀分級書單(2026版)

經(jīng)典網(wǎng)游IP手游化,為何成了端游玩家的噩夢?

親子要聞

負(fù)債 800 萬的幼兒園,上午剛收完學(xué)費,晚上就關(guān)門跑路

本地新聞

SAGA GIRLS 2026女團(tuán)選秀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版