国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上交大54頁綜述講透Agent認知外部化的演進之路

0
分享至



換了最新的基座模型,Agent 的表現(xiàn)卻沒有質(zhì)的飛躍;反過來,給同一個模型加上持久化記憶、可復用的技能文檔和標準化的工具接口,效果立竿見影——做過 Agent 工程的人,對這種「模型之外的東西比模型本身更重要」的體感多半不會陌生。但這個現(xiàn)象背后有沒有一個統(tǒng)一的解釋框架?上海交大團隊的一篇 54 頁綜述給出了回答:外部化(Externalization)

近日,上海交通大學聯(lián)合中山大學、上海創(chuàng)智學院、卡內(nèi)基梅隆大學及 OPPO 等機構(gòu),于 2026 年 4 月 9 日在 arXiv 提交綜述論文,首次以「外部化」為統(tǒng)一視角,系統(tǒng)梳理了 LLM Agent 的記憶、技能、協(xié)議與 Harness 工程四大支柱。核心觀點:Agent 的實際進展,越來越取決于模型之外的外部認知基礎(chǔ)設(shè)施,而非模型本身的能力提升。



  • 論文標題:Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
  • 作者單位:上海交通大學、中山大學、上海創(chuàng)智學院、卡內(nèi)基梅隆大學、OPPO
  • 論文鏈接:https://arxiv.org/abs/2604.08224(2026 年 4 月 9 日提交)
  • 本文第一作者為上海交通大學博士生周宸宇。通訊作者包括 OPPO 研究院王俊博士,以及上海交通大學劉衛(wèi)文、林江浩、張偉楠教授。



圖 1:外部化作為 LLM Agent 設(shè)計的組織原則。上方:人類認知外部化歷史弧線;中間:LLM Agent 外部化弧線——記憶、技能、協(xié)議到 Harness;下方:文獻全景圖

模型已經(jīng)很強,但 Agent 還是不夠可靠

矛盾出在哪?

過去兩年,大模型的參數(shù)規(guī)模和推理能力持續(xù)攀升。但熟悉 Agent 落地的工程師都有一個共同體驗:換更強的基座模型,往往不如改進外部基礎(chǔ)設(shè)施帶來的提升顯著。持久化記憶、可復用技能、標準化工具接口、沙箱約束、執(zhí)行日志……這些「不屬于模型」的東西,越來越?jīng)Q定著 Agent 能不能真正好用。

論文把這個現(xiàn)象歸結(jié)為三個結(jié)構(gòu)性錯配:

  • 連續(xù)性錯配:上下文窗口有限且短暫,模型無法跨會話穩(wěn)定保持狀態(tài)。每次會話都是全新開始,之前積累的上下文需要從頭重建。
  • 一致性錯配:復雜的多步驟流程往往被重新推導,而不是被穩(wěn)定執(zhí)行。同樣的任務(wù),不同時機調(diào)用,執(zhí)行路徑和質(zhì)量難以保證一致。
  • 協(xié)調(diào)性錯配:與工具、服務(wù)和其他 Agent 的交互依賴臨時約定,脆弱且不可移植。接口一旦變動,整條調(diào)用鏈路可能同步失效。

論文借鑒認知科學家 Don Norman 的「認知工件(Cognitive Artifacts)」理論來解釋這一現(xiàn)象。例如,購物清單不是擴展了人的記憶容量,而是把「回憶」問題變成了「識別」問題;地圖不是讓人導航變強,而是把空間關(guān)系從隱性變成可見。外部工件的力量,在于表征變換(Representational Transformation)——它重新組織了問題的形式,讓主體用現(xiàn)有能力更可靠地解決它。

同樣的邏輯正在 LLM Agent 上發(fā)生。論文的核心主張是:外部化才是理解近年 Agent 架構(gòu)演進的統(tǒng)一邏輯,而不只是各種工程技巧的堆砌。

從 Weights 到 Harness:

能力載體的三次外移



圖 2:社區(qū)主題在三個能力層上的演化(2022–2026)。關(guān)注重心從參數(shù)知識和提示工程,逐步外移到 Harness 層級的基礎(chǔ)設(shè)施。

權(quán)重層(2022–2023):能力幾乎等同于模型參數(shù),擴展定律主導敘事。奠定了基礎(chǔ),但知識難以選擇性更新,行為難以審計,個性化幾乎無從實現(xiàn)。

上下文層(2023–2024):Prompt 工程、CoT、RAG 興起,模型保持凍結(jié),提示模板快速迭代。困難的「回憶」問題被部分轉(zhuǎn)化為「識別」問題,但狀態(tài)短暫,跨步驟協(xié)調(diào)始終脆弱。

Harness 層(2024 至今):可靠性依賴外部記憶、工具注冊、協(xié)議、沙箱與編排。「Agent 工程越來越體現(xiàn)為 Harness 工程」——OpenHands、SWE-agent、Deep Research 等皆遵循這一模式。

殊途同歸:

記憶、技能、協(xié)議、Harness都是外部化

回顧近年 Agent 領(lǐng)域的技術(shù)進展,記憶系統(tǒng)、技能系統(tǒng)、協(xié)議標準化,乃至 Harness 工程本身,看似四條獨立的研究路線,各自解決不同的問題。但論文指出,它們本質(zhì)上做的是同一件事——將特定層面的認知負擔從模型內(nèi)部遷移到外部結(jié)構(gòu)中。這不是巧合,而是 Agent 走向可靠部署的必然收斂。四條路線的交匯點,正是外部化。

記憶外部化狀態(tài),將「回憶」轉(zhuǎn)化為「檢索」,解決連續(xù)性錯配;技能外部化專業(yè)知識,將「即興生成」轉(zhuǎn)化為「組合復用」,解決一致性錯配;協(xié)議外部化交互結(jié)構(gòu),將「臨時約定」轉(zhuǎn)化為「結(jié)構(gòu)化契約」,解決協(xié)調(diào)性錯配。而 Harness 外部化的是更根本的東西——Agent 的認知環(huán)境本身:原本隱含在每次模型調(diào)用過程里的執(zhí)行流、沙箱、觀測、權(quán)限,都被顯式地抽出來,成為可檢視、可配置、可治理的基礎(chǔ)設(shè)施。

記憶:外部化的狀態(tài)



圖 3:記憶作為外部化狀態(tài)的全流程——從原始上下文到四層記憶內(nèi)容,經(jīng)由記憶系統(tǒng)架構(gòu)(單體式→分層編排→自適應(yīng)),最終與 Harness 集成。

論文將 Agent 記憶組織為四個層次:工作上下文(當前任務(wù)狀態(tài)、打開的文件、部分完成的計劃)、情景經(jīng)驗(過去的運行記錄和失敗軌跡)、語義知識(領(lǐng)域事實、用戶偏好、通用啟發(fā))和個性化記憶(特定用戶的習慣與約束)。

記憶架構(gòu)隨需求而演進:從將全部歷史塞入提示的單體式,到主動狀態(tài)加外部存儲的檢索式,再到按語義或時序分層編排的分層架構(gòu),最終走向基于反饋動態(tài)調(diào)整檢索策略的自適應(yīng)記憶系統(tǒng)。核心效果始終是同一個:模型不再需要從權(quán)重中「回憶」,而是從持久化存儲中「檢索」。

技能:外部化的專業(yè)知識



圖 4:技能作為外部化專業(yè)知識的全流程——從獲取(人工編寫、蒸餾、發(fā)現(xiàn)、組合)到技能工件,經(jīng)由激活管線(注冊、漸進披露、組合),最終綁定到運行時。

技能系統(tǒng)將可復用的程序性專業(yè)知識打包為顯式工件。一個完整的技能包含三個組成部分:操作程序(任務(wù)骨架和分解步驟)、決策啟發(fā)(分支決策的局部策略)、規(guī)范約束(合規(guī)、安全和操作邊界)。

技能有四條生成路徑:人工編寫(專家手工編寫 SKILL.md 等指令文件)、軌跡蒸餾(從歷史運行記錄中提取可復用程序)、自主發(fā)現(xiàn)(Agent 在環(huán)境中探索并歸納,如 Voyager)、組合構(gòu)建(由已有低層技能組裝高階能力)。技能從「發(fā)現(xiàn)」到「執(zhí)行」經(jīng)過注冊、漸進式披露(按需從摘要擴展到完整細節(jié))、組合等階段,最終在運行時綁定到具體工具、API 和協(xié)議。

核心效果:模型不再需要每次從零「即興生成」工作流,而是從預驗證的組件中「組合」。

協(xié)議:外部化的交互結(jié)構(gòu)



圖 5:協(xié)議在 Harness 工程中的演進——從孤立模型調(diào)用到標準化協(xié)議再到去中心化 Agentic Web。Harness 通過協(xié)議管理三類交互:與工具交互、感知環(huán)境、與 Agent 和人類協(xié)作。

協(xié)議將交互結(jié)構(gòu)固定為機器可讀的契約,外部化了四類負擔:調(diào)用語法(參數(shù)格式與類型)、生命周期語義(狀態(tài)轉(zhuǎn)換與完成條件)、權(quán)限與信任邊界(授權(quán)規(guī)則)、以及發(fā)現(xiàn)元數(shù)據(jù)(可用能力的聲明)。

論文梳理了三類主要協(xié)議族:

  • Agent-Tool 協(xié)議(如 MCP):通過 JSON-RPC 標準化工具發(fā)現(xiàn)與調(diào)用,使工具可以動態(tài)注冊、模塊化擴展。
  • Agent-Agent 協(xié)議(如 A2A):定義任務(wù)委托、進度交換和能力發(fā)現(xiàn)的結(jié)構(gòu)化語義,支持開放 Agent 生態(tài)的互操作。
  • Agent-User 協(xié)議(如 AG-UI):以類型化執(zhí)行事件和狀態(tài)流的形式使運行時可觀測、可移植,讓用戶界面能夠?qū)崟r跟蹤 Agent 行為。

核心效果:臨時約定變?yōu)榻Y(jié)構(gòu)化契約,跨系統(tǒng)協(xié)調(diào)從脆弱變得可治理。

Harness:統(tǒng)一的認知環(huán)境



圖 6:外部化 Agent 的整體架構(gòu)。Harness 居于中心,Memory、Skills、Protocols 三大外部化維度環(huán)繞其外,沙箱、可觀測性、壓縮、評估、審批回路等操作元素在中間層協(xié)調(diào)運作。

Harness 外部化的是前三者賴以運行的認知環(huán)境本身。原本隱含在每次模型調(diào)用過程里的執(zhí)行流、沙箱、觀測、權(quán)限,被顯式地抽出來,成為可檢視、可配置、可治理的基礎(chǔ)設(shè)施——這既是容納記憶、技能、協(xié)議的運行時,也是讓整套系統(tǒng)從「黑箱」變成「白箱」的關(guān)鍵。論文從六個設(shè)計維度分析其構(gòu)成:

  1. Agent 循環(huán)與控制流— 感知-檢索-規(guī)劃-執(zhí)行-觀察的完整周期,管控終止條件、遞歸邊界和資源消耗
  2. 沙箱與執(zhí)行隔離— 文件系統(tǒng)隔離、網(wǎng)絡(luò)限制、云端沙箱,既是安全邊界,也是認知邊界
  3. 人類監(jiān)督與審批門控— 執(zhí)行前審批、執(zhí)行后審查和升級觸發(fā),自主性作為可配置參數(shù)
  4. 可觀測性與結(jié)構(gòu)化反饋— 工具調(diào)用的結(jié)構(gòu)化日志、連接動作與前因的執(zhí)行溯源,支持調(diào)試、審計和內(nèi)部反饋回路
  5. 配置、權(quán)限與策略編碼— 用戶、項目、組織三級分層約束,以聲明式規(guī)則在運行時強制執(zhí)行
  6. 上下文預算管理— 歷史摘要、優(yōu)先級驅(qū)動的內(nèi)容淘汰、技能分階加載,平衡三大維度對窗口的競爭

三大維度在 Harness 內(nèi)部形成自我強化的循環(huán):記憶經(jīng)驗蒸餾為技能,技能執(zhí)行軌跡沉淀回記憶;協(xié)議規(guī)范了技能的調(diào)用方式,也將結(jié)構(gòu)化結(jié)果寫入持久狀態(tài);更豐富的記憶帶來更好的技能,更好的技能產(chǎn)生更豐富的執(zhí)行軌跡,依次循環(huán)。

一個場景:不換模型,只改「外部環(huán)境」

讓一個軟件工程 Agent 在大型代碼倉庫里實現(xiàn)新功能、運行測試、提交 PR——論文用這個例子直接說明了外部化的意義。

  • 沒有外部化時。模型需要把倉庫結(jié)構(gòu)、項目約定、工作流狀態(tài)和工具交互全部塞進一個脆弱的提示窗口。任何一處出錯,整個流程需要重來。隨著任務(wù)復雜度增加,提示模板的管理成本以超線性速度上升。
  • 有了外部化之后。持久化的項目記憶提供跨會話上下文;可復用的技能文檔編碼項目約定和工作流;協(xié)議化的工具接口確保調(diào)用格式始終正確;Harness 負責步驟排序、輸出驗證和失敗恢復。

基座模型可以完全不變,改變的是它所面對任務(wù)的表示方式。這也是整篇論文的核心論點:Agent 可靠性的提升,越來越不來自更強的推理器,而來自被更好地組織起來的認知系統(tǒng)。衡量一個 Agent 系統(tǒng)的問題,也從「模型有多強?」變成了「哪些負擔已經(jīng)被外部化,讓模型不再需要每次從頭解決?」

未來方向

論文最后指出了六個前沿方向:

  • 外部化邊界的擴展— 規(guī)劃目標、驗證邏輯、編排策略本身都在成為 Harness 對象,而非只是被 Harness 執(zhí)行的內(nèi)容
  • 從數(shù)字到具身— 具身 Agent 正在經(jīng)歷相同的外部化模式。高層規(guī)劃器與低延遲執(zhí)行模塊的分離,正是外部化邏輯在物理系統(tǒng)中的映射
  • 自演化 Harness— 通過強化學習、程序合成或模仿學習讓基礎(chǔ)設(shè)施自動更新,前景廣闊,但治理風險同步放大
  • 安全與治理— 記憶投毒、惡意技能注入、協(xié)議欺騙等新型攻擊面值得專門關(guān)注,強制審查門控與來源溯源是成熟系統(tǒng)的必要保障
  • 共享基設(shè)與多智能體生態(tài)— 當記憶、技能、協(xié)議可以跨 Agent 共享,集體學習和勞動分工成為可能,同時帶來基礎(chǔ)設(shè)施漂移等治理難題
  • 外部化的評估— 現(xiàn)有 Benchmark 對基礎(chǔ)設(shè)施貢獻的度量嚴重不足,可遷移性、可維護性、上下文效率等新維度有待建立

從記憶到技能到協(xié)議再到 Harness,這篇綜述的價值不在于羅列技術(shù)細節(jié),而在于提供了一個系統(tǒng)級的解釋框架。一句話概括:更好的 Agent 不只是更好的推理器,而是被更好地組織起來的認知系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
毛主席唯一一個活下來的兒子毛岸青,晚年的時候享受的什么待遇?

毛主席唯一一個活下來的兒子毛岸青,晚年的時候享受的什么待遇?

一家說
2026-04-21 18:50:06
人一生得癌概率有多高?醫(yī)生:頭發(fā)早白的人,癌癥風險或更低?

人一生得癌概率有多高?醫(yī)生:頭發(fā)早白的人,癌癥風險或更低?

健康之光
2026-04-07 11:02:14
78歲王剛:頭發(fā)染黑也顯老態(tài),他不敢老,背負人生兩大重任

78歲王剛:頭發(fā)染黑也顯老態(tài),他不敢老,背負人生兩大重任

細品名人
2026-04-21 07:31:12
中國女排首張集訓大合照有貓膩,三老歸隊訓練,一人已不在現(xiàn)場

中國女排首張集訓大合照有貓膩,三老歸隊訓練,一人已不在現(xiàn)場

體育快遞小哥哥
2026-04-21 15:34:21
華子30+10無緣今日最佳!約基奇24+15+8落選,只因哈登狂刷里程碑

華子30+10無緣今日最佳!約基奇24+15+8落選,只因哈登狂刷里程碑

你的籃球頻道
2026-04-21 13:34:39
哈登離開快船才懂:他不是沒實力,只是之前選錯了隊友

哈登離開快船才懂:他不是沒實力,只是之前選錯了隊友

林子說事
2026-04-21 17:35:41
西部首爆冷:掘金失算,湖人119-114躺贏

西部首爆冷:掘金失算,湖人119-114躺贏

劉笤說體壇
2026-04-21 14:27:52
留給印度的時間不多,莫迪警告:再不放行化肥,14億人飯碗不保

留給印度的時間不多,莫迪警告:再不放行化肥,14億人飯碗不保

王新喜
2026-04-04 18:02:01
蒂亞戈選巴薩最佳隊友:不是梅西

蒂亞戈選巴薩最佳隊友:不是梅西

賽場名場面
2026-04-20 18:57:19
“小人物”黃澄澄:科班出身,10年沒戲拍,今41歲搭檔趙麗穎火了

“小人物”黃澄澄:科班出身,10年沒戲拍,今41歲搭檔趙麗穎火了

洲洲影視娛評
2026-04-10 16:32:33
澎湃回聲|臨沂回應(yīng)“一法院干警配偶剛成立公司拍得銀行六千萬債權(quán)”:組成聯(lián)合調(diào)查組

澎湃回聲|臨沂回應(yīng)“一法院干警配偶剛成立公司拍得銀行六千萬債權(quán)”:組成聯(lián)合調(diào)查組

澎湃新聞
2026-04-21 16:52:26
終極較量!對日反擊戰(zhàn),全面打響了!

終極較量!對日反擊戰(zhàn),全面打響了!

大嘴說天下
2026-04-20 22:40:03
別再傻等了!繼承父母房產(chǎn)拖著不過戶,3年和20年結(jié)局天差地別

別再傻等了!繼承父母房產(chǎn)拖著不過戶,3年和20年結(jié)局天差地別

復轉(zhuǎn)這些年
2026-03-22 17:27:58
北青:亞足聯(lián)認定馬寧亞冠精英聯(lián)賽1/4決賽執(zhí)法無錯漏判

北青:亞足聯(lián)認定馬寧亞冠精英聯(lián)賽1/4決賽執(zhí)法無錯漏判

懂球帝
2026-04-21 20:08:02
李亞鵬:我那“抽煙喝酒打麻將”的前妻王菲,竟是世上最好的媽媽

李亞鵬:我那“抽煙喝酒打麻將”的前妻王菲,竟是世上最好的媽媽

舊事別提
2026-04-21 12:05:27
機車重要,車手更重要!53號車手助張雪機車贏比賽,64號卻在摔車

機車重要,車手更重要!53號車手助張雪機車贏比賽,64號卻在摔車

觀察鑒娛
2026-04-21 10:18:33
76項研究證明:6種堅果降血脂大比拼,第一名居然是它!每天吃10顆,降脂、補纖維、抗炎

76項研究證明:6種堅果降血脂大比拼,第一名居然是它!每天吃10顆,降脂、補纖維、抗炎

掌上腎醫(yī)
2026-04-19 16:19:00
膽固醇大戶被揪出!是肥肉的20倍!醫(yī)生提醒:能不吃就不吃

膽固醇大戶被揪出!是肥肉的20倍!醫(yī)生提醒:能不吃就不吃

墜入二次元的海洋
2026-04-21 17:56:22
東風 - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災(zāi)

東風 - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災(zāi)

干史人
2026-04-18 13:44:12
太兇殘!蘇州頂豪,突然賣瘋了!

太兇殘!蘇州頂豪,突然賣瘋了!

居者
2026-04-21 11:44:24
2026-04-21 20:40:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12820文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

六層樓高大樹"偷"走家里光線 女子起訴隔壁小區(qū)業(yè)委會

頭條要聞

六層樓高大樹"偷"走家里光線 女子起訴隔壁小區(qū)業(yè)委會

體育要聞

62歲,成為中國足壇最火的人

娛樂要聞

周潤發(fā)時隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財經(jīng)要聞

現(xiàn)實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態(tài)度原創(chuàng)

教育
藝術(shù)
時尚
本地
軍事航空

教育要聞

央視發(fā)布:春招企業(yè)需求排名TOP5專業(yè)

藝術(shù)要聞

任伯年寫竹,真帶勁

時尚啟蒙必看片單,終于更新了

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

軍事要聞

特朗普公開對伊開戰(zhàn)真正原因

無障礙瀏覽 進入關(guān)懷版