IBM：通用智能體標(biāo)準(zhǔn)

2026-03-02 18:50:19　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

我們一直期待 AI 不只是“工具鏈的執(zhí)行者”，而是真正能在陌生環(huán)境里自主理解、規(guī)劃、行動的“主體”。

但越是接近這個(gè)愿景，越能感受到現(xiàn)實(shí)的落差——尤其當(dāng)我們認(rèn)真問一句，這些號稱“通用”的 Agent，真的能在沒有任何任務(wù)特化工程的情況下完成任務(wù)嗎？

2 月 27 日，IBM Research 發(fā)布最新研究成果《General Agent Evaluation》，它提出統(tǒng)一協(xié)議、零特化原則、跨環(huán)境評測框架，并系統(tǒng)性地測試了五個(gè)主流 Agent 系統(tǒng)，揭示了一個(gè)殘酷但真實(shí)的事實(shí)，在沒有任務(wù)特化工程的情況下，所有系統(tǒng)的表現(xiàn)都顯著下降。

IBM Research 成立于 1945 年，是全球最早的科技研究院之一。它的定位從來不是“做產(chǎn)品”，而是“做未來”。幾十年來，它在計(jì)算機(jī)科學(xué)史上留下了大量里程碑式成果，從磁盤存儲、關(guān)系數(shù)據(jù)庫、量子計(jì)算，到深藍(lán)、沃森，再到今天的企業(yè)級 AI、可信 AI、自動化系統(tǒng)與智能體研究。

01通用智能體的承諾與現(xiàn)實(shí)落差

通用 Agent不依賴任務(wù)特化 API，不依賴提示工程，不依賴環(huán)境包裝器，面對陌生任務(wù)也能自主理解、規(guī)劃、執(zhí)行。OpenAI SDK Agent、Claude Code 等系統(tǒng)讓人看到了一些苗頭，但當(dāng)我們真正把它們放到“無特化環(huán)境”里時(shí)，結(jié)果往往變得不那么好看。

評測，反而成了通用 Agent 的最大瓶頸。不是因?yàn)樵u測難，而是因?yàn)楝F(xiàn)有評測體系根本無法回答“通用性”這個(gè)問題。絕大多數(shù) Agent 基準(zhǔn)都隱含著大量任務(wù)集成假設(shè)，任務(wù) API 已經(jīng)準(zhǔn)備好、環(huán)境已經(jīng)結(jié)構(gòu)化、輸入已經(jīng)清洗、工具已經(jīng)綁定。這些條件讓 Agent看起來很強(qiáng)，但也讓它們完全無法在真實(shí)世界的“未知環(huán)境”中站穩(wěn)腳跟。

如果要理解這項(xiàng)研究的意義，必須先看清當(dāng)前 Agent 研究的三大誤區(qū)。

第一個(gè)誤區(qū)是把“任務(wù)特化 Agent”當(dāng)成“通用 Agent”。許多系統(tǒng)在特定任務(wù)上表現(xiàn)驚艷，但那是因?yàn)樗鼈儽簧疃燃蛇M(jìn)了任務(wù)環(huán)境：API已經(jīng)綁定、工具已經(jīng)封裝、提示已經(jīng)優(yōu)化。它們的強(qiáng)，是工程強(qiáng)，而不是智能強(qiáng)。

第二個(gè)誤區(qū)，是基準(zhǔn)測試隱含大量“任務(wù)集成假設(shè)”。當(dāng)前主流 Agent 基準(zhǔn)往往假設(shè)任務(wù)結(jié)構(gòu)化、環(huán)境穩(wěn)定、接口清晰，這讓評測結(jié)果看起來很漂亮，卻完全無法反映真實(shí)世界的復(fù)雜性。研究團(tuán)隊(duì)明確指出，現(xiàn)有基準(zhǔn)“編碼了任務(wù)信息”，從根本上排除了對通用Agent 的公平評估。

第三個(gè)誤區(qū)，是缺乏跨環(huán)境、跨任務(wù)的統(tǒng)一評測協(xié)議。每個(gè)基準(zhǔn)都有自己的接口、格式、工具鏈，導(dǎo)致 Agent 無法在不同環(huán)境間遷移，也無法被系統(tǒng)性比較。

在這樣的背景下，研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵問題：

“如果不給 Agent 做任何任務(wù)特化，它還能完成任務(wù)嗎？”

這個(gè)問題看似簡單，卻直擊通用 Agent 的本質(zhì)。真正的通用性，不是模型參數(shù)的大小，也不是工具數(shù)量的多少，而是Agent 是否能在陌生環(huán)境中自主理解任務(wù)、規(guī)劃行動、調(diào)用工具、處理錯(cuò)誤、完成目標(biāo)。

而這恰恰是當(dāng)前 Agent 的最大短板。

通用 Agent 的真正挑戰(zhàn)，不在于語言模型本身，而在于四個(gè)系統(tǒng)性能力：環(huán)境理解、工具泛化、長期規(guī)劃、錯(cuò)誤恢復(fù)。模型可以很強(qiáng)，但如果無法理解環(huán)境狀態(tài)、無法在未知工具中遷移策略、無法在失敗后重新規(guī)劃，那它就無法成為真正的“通用智能體”。

02構(gòu)建通用智能體評估的基礎(chǔ)設(shè)施

通用智能體的討論已經(jīng)持續(xù)多年，但真正意義上的“通用性”始終缺乏一個(gè)可以落地、可復(fù)現(xiàn)、跨環(huán)境的評測體系。這項(xiàng)研究最重要的貢獻(xiàn)，就是把這件事從“概念”變成“基礎(chǔ)設(shè)施”。研究團(tuán)隊(duì)不是在展示一個(gè)更強(qiáng)的 Agent，而是在搭建一個(gè)讓所有 Agent 都必須面對的“現(xiàn)實(shí)考場”。這套體系的出現(xiàn)，意味著通用 Agent 的研究終于有了共同語言和統(tǒng)一標(biāo)準(zhǔn)。

圖1：跨代理模型配置的性價(jià)比權(quán)衡。帕累托邊界（紅色虛線）顯示了最佳的權(quán)衡：GPT 5.2配置提供了最佳的成本效益，而Claude Opus 4.5在3-33×成本更高。

研究的第一個(gè)貢獻(xiàn)，是正式提出“General Agent Evaluation”作為一個(gè)獨(dú)立研究方向。過去的Agent 評測往往被塞進(jìn)某個(gè)任務(wù)基準(zhǔn)里，或者依附在某個(gè)系統(tǒng)的展示中，缺乏系統(tǒng)性、方法論和理論框架。IBM Research 這次把它從任務(wù)中抽離出來，定義為一個(gè)獨(dú)立的科學(xué)問題，如何評估一個(gè)不依賴任務(wù)特化工程的智能體？這一步的意義類似于當(dāng)年 ImageNet 之于視覺、GLUE 之于語言，它為未來十年的 Agent 研究奠定了方向。

第二個(gè)貢獻(xiàn)，是構(gòu)建了跨六類環(huán)境的統(tǒng)一評測框架。研究沒有選擇單一任務(wù)或單一環(huán)境，而是覆蓋了 Web、文件系統(tǒng)、API 工具、代碼執(zhí)行、游戲/模擬、結(jié)構(gòu)化任務(wù)六大類環(huán)境。這些環(huán)境共同構(gòu)成了現(xiàn)實(shí)世界中 Agent 可能面對的主要任務(wù)類型。更重要的是，它們都遵循同一套協(xié)議，讓 Agent 不再依賴環(huán)境特化的接口，而必須在自然語言描述下自主行動。

第三是提出“零特化（Zero Integration）”評測原則。這個(gè)原則非常關(guān)鍵，它要求評測過程中不允許任何任務(wù)特化提示、API、包裝器或結(jié)構(gòu)化輸入。換句話說，Agent 必須像真實(shí)世界那樣面對“未知環(huán)境”，不能依賴工程師提前鋪好的路。這是對通用性最直接、最嚴(yán)格的檢驗(yàn)，也讓許多看似強(qiáng)大的Agent 暴露出真實(shí)能力邊界。

第四個(gè)貢獻(xiàn)，是對五個(gè)主流 Agent 系統(tǒng)進(jìn)行系統(tǒng)性評測，揭示了它們在無特化條件下的通用性缺陷。研究沒有點(diǎn)名批評，但結(jié)果非常清晰：所有系統(tǒng)在陌生環(huán)境中的表現(xiàn)都遠(yuǎn)低于它們在任務(wù)特化基準(zhǔn)中的成績。規(guī)劃混亂、工具調(diào)用失敗、環(huán)境理解不足、錯(cuò)誤恢復(fù)能力薄弱，這些問題在跨環(huán)境評測中被放大得淋漓盡致。

圖2:代理評估的演變。（A）單獨(dú)基準(zhǔn)的集合，每個(gè)基準(zhǔn)都需要一個(gè)自定義代理或一個(gè)具有特定適應(yīng)能力的代理（HAL）（B）通過單一協(xié)議（如CLI或Web）整合的多個(gè)基準(zhǔn)（C）通過可適應(yīng)任何代理協(xié)議的通用協(xié)議（Exgentic）整合的多重基準(zhǔn)。

第五是提出可擴(kuò)展的評測協(xié)議，為未來 Agent 標(biāo)準(zhǔn)化奠基。研究的框架不是一次性實(shí)驗(yàn)，而是一套可擴(kuò)展、可復(fù)現(xiàn)、可跨系統(tǒng)遷移的評測基礎(chǔ)設(shè)施。它可以不斷加入新環(huán)境、新任務(wù)、新工具，成為未來通用 Agent 研究的“公共底座”。

03評測框架設(shè)計(jì)：如何評估“真正的通用Agent”

IBM Research 的設(shè)計(jì)思路非常明確，讓 Agent 在盡可能接近真實(shí)世界的條件下行動，而不是在工程師為它準(zhǔn)備好的“溫室”里完成任務(wù)。

統(tǒng)一協(xié)議（Unified Protocol）

研究的核心是一個(gè)統(tǒng)一的交互協(xié)議。所有任務(wù)都以自然語言描述，不提供結(jié)構(gòu)化輸入、不提供任務(wù)模板、不提供 API 文檔。Agent 必須自己理解任務(wù)、規(guī)劃步驟、選擇工具、執(zhí)行操作、處理錯(cuò)誤。它不能依賴任何任務(wù)特化提示，也不能依賴環(huán)境包裝器。這個(gè)協(xié)議讓所有 Agent 都站在同一起跑線上，也讓評測結(jié)果更能反映真實(shí)能力。

圖3：Open General Agent Leaderboard是第一個(gè)在不同環(huán)境中跨關(guān)鍵技能一致測試General Agent架構(gòu)的基準(zhǔn)。

六大環(huán)境類型

研究團(tuán)隊(duì)選擇的六類環(huán)境，幾乎覆蓋了現(xiàn)實(shí)世界中 Agent 可能遇到的主要任務(wù)類型。

Web 環(huán)境是最貼近真實(shí)世界的場景，涉及動態(tài)頁面、DOM 結(jié)構(gòu)、交互邏輯等復(fù)雜因素。難點(diǎn)在于環(huán)境高度非結(jié)構(gòu)化，Agent 必須具備強(qiáng)大的感知與規(guī)劃能力。

文件系統(tǒng)環(huán)境更偏向傳統(tǒng)操作系統(tǒng)任務(wù)，考驗(yàn) Agent 的指令理解、路徑推理和狀態(tài)管理能力。相對可控，但仍需要多步驟規(guī)劃。

API 工具環(huán)境模擬現(xiàn)實(shí)中的工具調(diào)用場景，難點(diǎn)在于 Agent 必須理解工具功能、參數(shù)格式，并在缺乏明確文檔的情況下正確調(diào)用。

代碼執(zhí)行環(huán)境考驗(yàn) Agent 的編程能力、調(diào)試能力和邏輯推理能力。錯(cuò)誤恢復(fù)在這里尤為關(guān)鍵。

游戲/模擬環(huán)境提供了動態(tài)狀態(tài)、規(guī)則系統(tǒng)和策略空間，是測試長期規(guī)劃和環(huán)境建模能力的理想場景。

結(jié)構(gòu)化任務(wù)環(huán)境則用于評估 Agent 在半結(jié)構(gòu)化信息中的推理能力，介于自然語言與程序化任務(wù)之間。

這些環(huán)境共同構(gòu)成了一個(gè)跨維度、跨任務(wù)、跨交互模式的評測體系，讓 Agent 的通用性在多角度、多層次上被檢驗(yàn)。

任務(wù)設(shè)計(jì)原則

研究的任務(wù)設(shè)計(jì)遵循四個(gè)嚴(yán)格原則。

無結(jié)構(gòu)化輸入，意味著任務(wù)不會被預(yù)處理成模型最擅長的格式，Agent 必須自己理解自然語言。

無任務(wù)特化工具，意味著 Agent 不能依賴為某個(gè)任務(wù)定制的工具鏈。

無預(yù)設(shè) API，意味著 Agent 必須自己探索工具功能，而不是依賴工程師提前寫好的接口。

無提示工程，意味著 Agent 不能依賴“魔法提示”來完成任務(wù)。

這些原則共同指向一個(gè)目標(biāo)，強(qiáng)調(diào)“陌生環(huán)境中的泛化能力”。真正的通用Agent，不是靠工程堆出來的，而是靠能力本身支撐的。

04實(shí)驗(yàn)設(shè)置：5個(gè)Agent × 6類環(huán)境

通用智能體的評測，只有在“把所有系統(tǒng)放到同一片陌生土地上”時(shí)才真正有意義。IBM Research的實(shí)驗(yàn)設(shè)計(jì)正是基于這種理念，不給任何系統(tǒng)鋪路，不給任何任務(wù)特化接口，讓所有 Agent 在同樣的自然語言任務(wù)描述下，進(jìn)入六類完全不同的環(huán)境，看看它們到底能走多遠(yuǎn)。

圖4：Exgentic定義了代理和基準(zhǔn)之間的統(tǒng)一協(xié)議。Exgentic Orchestrator連接代理和基準(zhǔn)，首先傳遞任務(wù)定義，然后協(xié)調(diào)基準(zhǔn)和代理之間傳遞的觀察和操作。Exgentic提供適配器，將統(tǒng)一協(xié)議轉(zhuǎn)換為代理和基準(zhǔn)測試所需的特定協(xié)議。最后，基準(zhǔn)提供質(zhì)量結(jié)果指標(biāo)，而代理提供代理運(yùn)行時(shí)成本。

被評測的五類主流 Agent 系統(tǒng)

研究團(tuán)隊(duì)沒有把注意力放在“誰更強(qiáng)”上，而是刻意選擇了五種代表性系統(tǒng)，覆蓋當(dāng)前 Agent 生態(tài)的主要技術(shù)路線。

工業(yè)級 Agent 是最受關(guān)注的一類，包括 OpenAI SDK Agent、Claude Code 等具備強(qiáng)大工具調(diào)用能力的系統(tǒng)。它們通常在任務(wù)特化環(huán)境中表現(xiàn)亮眼，但在零特化條件下能否保持穩(wěn)定，是本次評測的關(guān)鍵看點(diǎn)。

開源 Agent 框架代表了社區(qū)生態(tài)的另一條路線，強(qiáng)調(diào)可擴(kuò)展性、可組合性和靈活性。它們的優(yōu)勢在于工程透明，但在陌生環(huán)境中往往缺乏穩(wěn)健性。

工具增強(qiáng)型 LLM Agent 則依賴豐富的工具集，通過調(diào)用外部 API、插件或函數(shù)來完成任務(wù)。它們的挑戰(zhàn)在于如何在沒有預(yù)設(shè) API 文檔的情況下理解工具功能。

代碼執(zhí)行型 Agent 是近年來的熱門方向，依靠編寫和執(zhí)行代碼來解決復(fù)雜任務(wù)。它們在結(jié)構(gòu)化任務(wù)中表現(xiàn)強(qiáng)勢，但在動態(tài)環(huán)境中容易迷失。

Web 操作型 Agent 則專注于瀏覽器環(huán)境，能夠解析 DOM、點(diǎn)擊按鈕、填寫表單，但面對動態(tài)網(wǎng)頁和不確定結(jié)構(gòu)時(shí)常常出現(xiàn)策略崩潰。

這五類系統(tǒng)共同構(gòu)成了當(dāng)前 Agent 技術(shù)版圖的縮影，也讓評測結(jié)果更具行業(yè)代表性。

評測指標(biāo)

為了全面刻畫 Agent 的真實(shí)能力，研究從六個(gè)維度進(jìn)行評估。

成功率是最直觀的指標(biāo)，衡量 Agent 是否最終完成任務(wù)。

規(guī)劃質(zhì)量反映了 Agent 的任務(wù)分解能力，是否能把自然語言目標(biāo)拆解成合理步驟。

工具使用策略考察 Agent 是否能正確選擇工具、理解參數(shù)、處理調(diào)用失敗。

環(huán)境探索能力決定了 Agent 在未知環(huán)境中能否主動嘗試、收集信息、調(diào)整策略。

錯(cuò)誤恢復(fù)能力是通用 Agent 的生命線，失敗后能否重新規(guī)劃，而不是陷入循環(huán)或直接放棄。

任務(wù)泛化能力則是最核心的指標(biāo)，衡量 Agent 是否能在完全陌生的任務(wù)和環(huán)境中保持穩(wěn)定表現(xiàn)。

這些指標(biāo)共同構(gòu)成了一個(gè)多維度的能力畫像，讓“通用性”不再是模糊概念，而是可量化、可比較的能力結(jié)構(gòu)。

05實(shí)驗(yàn)結(jié)果：通用Agent的真實(shí)能力遠(yuǎn)低于預(yù)期

當(dāng)五類系統(tǒng)被放入六類陌生環(huán)境，所有任務(wù)只通過自然語言描述，沒有任何任務(wù)特化工程時(shí)，結(jié)果呈現(xiàn)出一種令人意外卻又合理的趨勢，通用 Agent 的真實(shí)能力，比我們想象的要弱得多。

總體表現(xiàn)：所有系統(tǒng)在“無特化”條件下顯著下降

成功率普遍偏低，這是最直接的信號。許多系統(tǒng)在任務(wù)特化基準(zhǔn)中能達(dá)到 70%–90% 的成功率，但在零特化環(huán)境中往往跌到個(gè)位數(shù)或十幾的水平。

工具調(diào)用混亂是另一個(gè)普遍現(xiàn)象。Agent 經(jīng)常誤用工具、傳錯(cuò)參數(shù)、重復(fù)調(diào)用失敗的函數(shù)，甚至在沒有理解工具功能的情況下盲目嘗試。

規(guī)劃錯(cuò)誤頻繁出現(xiàn)，尤其是在多步驟任務(wù)中。Agent 往往無法保持任務(wù)上下文，導(dǎo)致步驟順序混亂、遺漏關(guān)鍵操作或重復(fù)執(zhí)行無意義動作。

環(huán)境理解不足則貫穿所有環(huán)境類型。無論是網(wǎng)頁結(jié)構(gòu)、文件系統(tǒng)狀態(tài)還是 API 返回值，Agent 都難以形成穩(wěn)定的環(huán)境模型，導(dǎo)致行動策略缺乏連貫性。

這些問題共同揭示了一個(gè)事實(shí)：當(dāng)前 Agent 的“智能”更多來自工程鋪路，而不是自主能力。

各環(huán)境表現(xiàn)差異

盡管整體表現(xiàn)不佳，但不同環(huán)境之間仍呈現(xiàn)出明顯差異。

文件系統(tǒng)任務(wù)相對較好，因?yàn)榄h(huán)境結(jié)構(gòu)穩(wěn)定、反饋明確、操作可控。Agent 在這里更容易形成有效策略。

Web 操作與 API 調(diào)用任務(wù)的失敗率極高。動態(tài)網(wǎng)頁、復(fù)雜 DOM、缺乏結(jié)構(gòu)化 API 文檔，讓 Agent 很難理解環(huán)境狀態(tài)，導(dǎo)致大量無效操作。

多步驟推理任務(wù)表現(xiàn)不穩(wěn)定。Agent 往往能完成前幾步，但在任務(wù)中段或末段出現(xiàn)邏輯斷裂，暴露出長期規(guī)劃能力的不足。

這些差異說明，Agent 的能力高度依賴環(huán)境結(jié)構(gòu)化程度，而非真正的通用性。

表：失敗的運(yùn)行比成功的運(yùn)行長多少，以交互次數(shù)的百分比差異來衡量。

正值意味著失敗需要更多的交互；負(fù)值意味著它們?nèi)〉母佟?/p>

Agent的系統(tǒng)性弱點(diǎn)

研究的實(shí)驗(yàn)結(jié)果揭示了四個(gè)貫穿所有系統(tǒng)的核心弱點(diǎn)。

缺乏環(huán)境建模能力，使得 Agent 無法理解狀態(tài)變化，也無法根據(jù)環(huán)境反饋調(diào)整策略。

缺乏通用工具使用策略，讓 Agent 在面對未知工具時(shí)表現(xiàn)得像“盲試”，而不是“理解后行動”。

缺乏自我糾錯(cuò)機(jī)制，使得錯(cuò)誤一旦發(fā)生，Agent 往往陷入循環(huán)、重復(fù)失敗或直接放棄。

缺乏長期規(guī)劃能力，讓多步驟任務(wù)變得異常困難，尤其是在需要跨階段保持上下文的場景中。

這些弱點(diǎn)共同構(gòu)成了當(dāng)前通用 Agent 的能力天花板，也說明了為什么“任務(wù)特化工程”在過去幾年里如此重要——它在很大程度上掩蓋了這些結(jié)構(gòu)性問題。

06通用Agent的瓶頸在哪里？

通用智能體的討論常常被大模型的光環(huán)所掩蓋，人們習(xí)慣性地把“模型能力”與“Agent 能力”畫上等號。但研究團(tuán)隊(duì)用系統(tǒng)性的跨環(huán)境實(shí)驗(yàn)告訴我們，真正的瓶頸根本不在模型，而在行動、在策略、在環(huán)境理解、在錯(cuò)誤恢復(fù)——在那些模型本身并不擅長的地方。

模型能力 ≠ Agent 能力

大模型的語言理解、推理和生成能力確實(shí)強(qiáng)大，但 Agent 的任務(wù)不是“回答問題”，而是“在環(huán)境中行動”。行動意味著狀態(tài)變化、工具調(diào)用、路徑規(guī)劃、錯(cuò)誤處理，這些都不是 LLM 的天然強(qiáng)項(xiàng)。研究的實(shí)驗(yàn)結(jié)果清楚地展示了這一點(diǎn)，即便是最強(qiáng)的模型，在面對陌生工具、未知環(huán)境、動態(tài)狀態(tài)時(shí)，也會表現(xiàn)得像一個(gè)“不會用電腦的新手”。

工具使用是第一個(gè)瓶頸。Agent 經(jīng)常誤用工具、傳錯(cuò)參數(shù)、重復(fù)調(diào)用失敗的函數(shù)，說明它并沒有真正理解工具的功能和限制。

環(huán)境理解是第二個(gè)瓶頸。無論是網(wǎng)頁結(jié)構(gòu)、文件系統(tǒng)狀態(tài)還是 API 返回值，Agent 都難以形成穩(wěn)定的環(huán)境模型，導(dǎo)致行動策略缺乏連貫性。

狀態(tài)建模則是第三個(gè)瓶頸。Agent 往往無法記住任務(wù)進(jìn)度、環(huán)境變化或歷史操作，導(dǎo)致規(guī)劃斷裂、重復(fù)執(zhí)行或邏輯混亂。

這些問題共同說明：模型強(qiáng)，不等于 Agent 強(qiáng)。

當(dāng)前基準(zhǔn)嚴(yán)重高估了 Agent 的真實(shí)能力

研究的另一個(gè)關(guān)鍵洞察，是對現(xiàn)有基準(zhǔn)的批判。當(dāng)前 Agent 基準(zhǔn)往往給了太多“任務(wù)特化輔助”：結(jié)構(gòu)化輸入、預(yù)設(shè) API、環(huán)境包裝器、提示工程。這些輔助讓 Agent 看起來很強(qiáng)，但那是因?yàn)楣こ處熖嫠瓿闪舜蟛糠帧袄斫猸h(huán)境”的工作。

真實(shí)世界任務(wù)遠(yuǎn)比基準(zhǔn)復(fù)雜。網(wǎng)頁是動態(tài)的，API 沒有文檔，文件系統(tǒng)狀態(tài)不穩(wěn)定，工具行為不可預(yù)測?；鶞?zhǔn)中的“理想環(huán)境”與現(xiàn)實(shí)中的“混沌環(huán)境”之間的差距，正是通用 Agent 在落地時(shí)頻頻翻車的原因。

研究的零特化評測框架，正是為了把這些隱藏的輔助全部剝離，讓 Agent 面對真實(shí)世界的復(fù)雜性。

通用 Agent 需要“跨環(huán)境一致的認(rèn)知結(jié)構(gòu)”

研究提出的第三個(gè)洞察，是對未來通用 Agent 架構(gòu)的方向性判斷：真正的通用 Agent 必須具備跨環(huán)境一致的認(rèn)知結(jié)構(gòu)，而不是依賴任務(wù)特化工程。

通用規(guī)劃器是第一層能力。Agent 必須能從自然語言任務(wù)中自主拆解步驟，而不是依賴模板化提示。

通用工具策略是第二層能力。Agent 必須能在沒有文檔的情況下理解工具功能、推斷參數(shù)、處理失敗。

通用錯(cuò)誤恢復(fù)機(jī)制是第三層能力。失敗不是例外，而是常態(tài)。Agent 必須能識別失敗、重新規(guī)劃，而不是陷入循環(huán)。

通用環(huán)境建模是第四層能力。Agent 必須能理解環(huán)境狀態(tài)、預(yù)測變化、保持上下文，而不是每一步都“從零開始”。

這些能力共同構(gòu)成了未來通用 Agent 的“認(rèn)知骨架”。

評測體系必須從“任務(wù)特化”轉(zhuǎn)向“環(huán)境無關(guān)”

研究的第四個(gè)洞察，是對評測體系的方向性重構(gòu)。未來的評測不應(yīng)該再圍繞“任務(wù)得分”，而應(yīng)該圍繞“泛化能力”。這與近年來關(guān)于“Benchmark Saturation”的研究形成呼應(yīng)：當(dāng)模型在特定基準(zhǔn)上達(dá)到極限時(shí)，基準(zhǔn)本身已經(jīng)無法反映真實(shí)能力。

環(huán)境無關(guān)的評測體系，才是推動 Agent 進(jìn)化的關(guān)鍵。只有在陌生環(huán)境中，Agent 的真實(shí)能力才會被暴露；只有在無特化條件下，通用性才有意義。（END）

參考資料：https://arxiv.org/pdf/2602.22953

關(guān)于波動智能——

波動智能旨在建立一個(gè)基于人類意圖與反應(yīng)的真實(shí)需求洞察及滿足的價(jià)值體系，融合人工智能與意識科學(xué)，構(gòu)建覆蓋情緒識別、建模與推薦的智能引擎，自主研發(fā)面向社交、電商等場景的多模態(tài)意圖識別引擎、意圖標(biāo)簽系統(tǒng)及意圖智能推薦算法，形成從情緒采集、意圖建模到商業(yè)轉(zhuǎn)化的完整解決方案。波動智能提出“意圖是連接人、物與內(nèi)容的新型接口”，其產(chǎn)品廣泛應(yīng)用于AI社交、個(gè)性化內(nèi)容推薦、虛擬陪伴、電商體驗(yàn)優(yōu)化等領(lǐng)域。波動智能正在探索“EMO-as-a-Service”技術(shù)服務(wù)架構(gòu)，賦能企業(yè)實(shí)現(xiàn)更高效的用戶洞察與精準(zhǔn)情緒交互，推動從功能驅(qū)動到意圖驅(qū)動的產(chǎn)業(yè)范式升級。

親愛的人工智能研究者，為了確保您不會錯(cuò)過*波動智能*的最新推送，請星標(biāo)*波動智能*。我們傾心打造并精選每篇內(nèi)容，只為為您帶來啟發(fā)和深思，希望能成為您理性思考路上的伙伴！

加入AI交流群請掃碼加微信

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.