国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

IBM:通用智能體標(biāo)準(zhǔn)

0
分享至

我們一直期待 AI 不只是“工具鏈的執(zhí)行者”,而是真正能在陌生環(huán)境里自主理解、規(guī)劃、行動的“主體”。

但越是接近這個(gè)愿景,越能感受到現(xiàn)實(shí)的落差——尤其當(dāng)我們認(rèn)真問一句,這些號稱“通用”的 Agent,真的能在沒有任何任務(wù)特化工程的情況下完成任務(wù)嗎?

2 月 27 日,IBM Research 發(fā)布最新研究成果《General Agent Evaluation》,它提出統(tǒng)一協(xié)議、零特化原則、跨環(huán)境評測框架,并系統(tǒng)性地測試了五個(gè)主流 Agent 系統(tǒng),揭示了一個(gè)殘酷但真實(shí)的事實(shí),在沒有任務(wù)特化工程的情況下,所有系統(tǒng)的表現(xiàn)都顯著下降。

IBM Research 成立于 1945 年,是全球最早的科技研究院之一。它的定位從來不是“做產(chǎn)品”,而是“做未來”。幾十年來,它在計(jì)算機(jī)科學(xué)史上留下了大量里程碑式成果,從磁盤存儲、關(guān)系數(shù)據(jù)庫、量子計(jì)算,到深藍(lán)、沃森,再到今天的企業(yè)級 AI、可信 AI、自動化系統(tǒng)與智能體研究。

01通用智能體的承諾與現(xiàn)實(shí)落差

通用 Agent不依賴任務(wù)特化 API,不依賴提示工程,不依賴環(huán)境包裝器,面對陌生任務(wù)也能自主理解、規(guī)劃、執(zhí)行。OpenAI SDK Agent、Claude Code 等系統(tǒng)讓人看到了一些苗頭,但當(dāng)我們真正把它們放到“無特化環(huán)境”里時(shí),結(jié)果往往變得不那么好看。

評測,反而成了通用 Agent 的最大瓶頸。不是因?yàn)樵u測難,而是因?yàn)楝F(xiàn)有評測體系根本無法回答“通用性”這個(gè)問題。絕大多數(shù) Agent 基準(zhǔn)都隱含著大量任務(wù)集成假設(shè),任務(wù) API 已經(jīng)準(zhǔn)備好、環(huán)境已經(jīng)結(jié)構(gòu)化、輸入已經(jīng)清洗、工具已經(jīng)綁定。這些條件讓 Agent看起來很強(qiáng),但也讓它們完全無法在真實(shí)世界的“未知環(huán)境”中站穩(wěn)腳跟。

如果要理解這項(xiàng)研究的意義,必須先看清當(dāng)前 Agent 研究的三大誤區(qū)。

第一個(gè)誤區(qū)是把“任務(wù)特化 Agent”當(dāng)成“通用 Agent”。許多系統(tǒng)在特定任務(wù)上表現(xiàn)驚艷,但那是因?yàn)樗鼈儽簧疃燃蛇M(jìn)了任務(wù)環(huán)境:API已經(jīng)綁定、工具已經(jīng)封裝、提示已經(jīng)優(yōu)化。它們的強(qiáng),是工程強(qiáng),而不是智能強(qiáng)。

第二個(gè)誤區(qū),是基準(zhǔn)測試隱含大量“任務(wù)集成假設(shè)”。當(dāng)前主流 Agent 基準(zhǔn)往往假設(shè)任務(wù)結(jié)構(gòu)化、環(huán)境穩(wěn)定、接口清晰,這讓評測結(jié)果看起來很漂亮,卻完全無法反映真實(shí)世界的復(fù)雜性。研究團(tuán)隊(duì)明確指出,現(xiàn)有基準(zhǔn)“編碼了任務(wù)信息”,從根本上排除了對通用Agent 的公平評估。

第三個(gè)誤區(qū),是缺乏跨環(huán)境、跨任務(wù)的統(tǒng)一評測協(xié)議。每個(gè)基準(zhǔn)都有自己的接口、格式、工具鏈,導(dǎo)致 Agent 無法在不同環(huán)境間遷移,也無法被系統(tǒng)性比較。

在這樣的背景下,研究團(tuán)隊(duì)提出了一個(gè)關(guān)鍵問題:

“如果不給 Agent 做任何任務(wù)特化,它還能完成任務(wù)嗎?”

這個(gè)問題看似簡單,卻直擊通用 Agent 的本質(zhì)。真正的通用性,不是模型參數(shù)的大小,也不是工具數(shù)量的多少,而是Agent 是否能在陌生環(huán)境中自主理解任務(wù)、規(guī)劃行動、調(diào)用工具、處理錯(cuò)誤、完成目標(biāo)。

而這恰恰是當(dāng)前 Agent 的最大短板。

通用 Agent 的真正挑戰(zhàn),不在于語言模型本身,而在于四個(gè)系統(tǒng)性能力:環(huán)境理解、工具泛化、長期規(guī)劃、錯(cuò)誤恢復(fù)。模型可以很強(qiáng),但如果無法理解環(huán)境狀態(tài)、無法在未知工具中遷移策略、無法在失敗后重新規(guī)劃,那它就無法成為真正的“通用智能體”。

02構(gòu)建通用智能體評估的基礎(chǔ)設(shè)施

通用智能體的討論已經(jīng)持續(xù)多年,但真正意義上的“通用性”始終缺乏一個(gè)可以落地、可復(fù)現(xiàn)、跨環(huán)境的評測體系。這項(xiàng)研究最重要的貢獻(xiàn),就是把這件事從“概念”變成“基礎(chǔ)設(shè)施”。研究團(tuán)隊(duì)不是在展示一個(gè)更強(qiáng)的 Agent,而是在搭建一個(gè)讓所有 Agent 都必須面對的“現(xiàn)實(shí)考場”。這套體系的出現(xiàn),意味著通用 Agent 的研究終于有了共同語言和統(tǒng)一標(biāo)準(zhǔn)。


圖1:跨代理模型配置的性價(jià)比權(quán)衡。帕累托邊界(紅色虛線)顯示了最佳的權(quán)衡:GPT 5.2配置提供了最佳的成本效益,而Claude Opus 4.5在3-33×成本更高。

研究的第一個(gè)貢獻(xiàn),是正式提出“General Agent Evaluation”作為一個(gè)獨(dú)立研究方向。過去的Agent 評測往往被塞進(jìn)某個(gè)任務(wù)基準(zhǔn)里,或者依附在某個(gè)系統(tǒng)的展示中,缺乏系統(tǒng)性、方法論和理論框架。IBM Research 這次把它從任務(wù)中抽離出來,定義為一個(gè)獨(dú)立的科學(xué)問題,如何評估一個(gè)不依賴任務(wù)特化工程的智能體?這一步的意義類似于當(dāng)年 ImageNet 之于視覺、GLUE 之于語言,它為未來十年的 Agent 研究奠定了方向。

第二個(gè)貢獻(xiàn),是構(gòu)建了跨六類環(huán)境的統(tǒng)一評測框架。研究沒有選擇單一任務(wù)或單一環(huán)境,而是覆蓋了 Web、文件系統(tǒng)、API 工具、代碼執(zhí)行、游戲/模擬、結(jié)構(gòu)化任務(wù)六大類環(huán)境。這些環(huán)境共同構(gòu)成了現(xiàn)實(shí)世界中 Agent 可能面對的主要任務(wù)類型。更重要的是,它們都遵循同一套協(xié)議,讓 Agent 不再依賴環(huán)境特化的接口,而必須在自然語言描述下自主行動。

第三是提出“零特化(Zero Integration)”評測原則。這個(gè)原則非常關(guān)鍵,它要求評測過程中不允許任何任務(wù)特化提示、API、包裝器或結(jié)構(gòu)化輸入。換句話說,Agent 必須像真實(shí)世界那樣面對“未知環(huán)境”,不能依賴工程師提前鋪好的路。這是對通用性最直接、最嚴(yán)格的檢驗(yàn),也讓許多看似強(qiáng)大的Agent 暴露出真實(shí)能力邊界。

第四個(gè)貢獻(xiàn),是對五個(gè)主流 Agent 系統(tǒng)進(jìn)行系統(tǒng)性評測,揭示了它們在無特化條件下的通用性缺陷。研究沒有點(diǎn)名批評,但結(jié)果非常清晰:所有系統(tǒng)在陌生環(huán)境中的表現(xiàn)都遠(yuǎn)低于它們在任務(wù)特化基準(zhǔn)中的成績。規(guī)劃混亂、工具調(diào)用失敗、環(huán)境理解不足、錯(cuò)誤恢復(fù)能力薄弱,這些問題在跨環(huán)境評測中被放大得淋漓盡致。


圖2:代理評估的演變。(A)單獨(dú)基準(zhǔn)的集合,每個(gè)基準(zhǔn)都需要一個(gè)自定義代理或一個(gè)具有特定適應(yīng)能力的代理(HAL)(B)通過單一協(xié)議(如CLI或Web)整合的多個(gè)基準(zhǔn)(C)通過可適應(yīng)任何代理協(xié)議的通用協(xié)議(Exgentic)整合的多重基準(zhǔn)。

第五是提出可擴(kuò)展的評測協(xié)議,為未來 Agent 標(biāo)準(zhǔn)化奠基。研究的框架不是一次性實(shí)驗(yàn),而是一套可擴(kuò)展、可復(fù)現(xiàn)、可跨系統(tǒng)遷移的評測基礎(chǔ)設(shè)施。它可以不斷加入新環(huán)境、新任務(wù)、新工具,成為未來通用 Agent 研究的“公共底座”。

03評測框架設(shè)計(jì):如何評估“真正的通用Agent”

IBM Research 的設(shè)計(jì)思路非常明確,讓 Agent 在盡可能接近真實(shí)世界的條件下行動,而不是在工程師為它準(zhǔn)備好的“溫室”里完成任務(wù)。

統(tǒng)一協(xié)議(Unified Protocol)

研究的核心是一個(gè)統(tǒng)一的交互協(xié)議。所有任務(wù)都以自然語言描述,不提供結(jié)構(gòu)化輸入、不提供任務(wù)模板、不提供 API 文檔。Agent 必須自己理解任務(wù)、規(guī)劃步驟、選擇工具、執(zhí)行操作、處理錯(cuò)誤。它不能依賴任何任務(wù)特化提示,也不能依賴環(huán)境包裝器。這個(gè)協(xié)議讓所有 Agent 都站在同一起跑線上,也讓評測結(jié)果更能反映真實(shí)能力。


圖3:Open General Agent Leaderboard是第一個(gè)在不同環(huán)境中跨關(guān)鍵技能一致測試General Agent架構(gòu)的基準(zhǔn)。

六大環(huán)境類型

研究團(tuán)隊(duì)選擇的六類環(huán)境,幾乎覆蓋了現(xiàn)實(shí)世界中 Agent 可能遇到的主要任務(wù)類型。

Web 環(huán)境是最貼近真實(shí)世界的場景,涉及動態(tài)頁面、DOM 結(jié)構(gòu)、交互邏輯等復(fù)雜因素。難點(diǎn)在于環(huán)境高度非結(jié)構(gòu)化,Agent 必須具備強(qiáng)大的感知與規(guī)劃能力。

文件系統(tǒng)環(huán)境更偏向傳統(tǒng)操作系統(tǒng)任務(wù),考驗(yàn) Agent 的指令理解、路徑推理和狀態(tài)管理能力。相對可控,但仍需要多步驟規(guī)劃。

API 工具環(huán)境模擬現(xiàn)實(shí)中的工具調(diào)用場景,難點(diǎn)在于 Agent 必須理解工具功能、參數(shù)格式,并在缺乏明確文檔的情況下正確調(diào)用。

代碼執(zhí)行環(huán)境考驗(yàn) Agent 的編程能力、調(diào)試能力和邏輯推理能力。錯(cuò)誤恢復(fù)在這里尤為關(guān)鍵。

游戲/模擬環(huán)境提供了動態(tài)狀態(tài)、規(guī)則系統(tǒng)和策略空間,是測試長期規(guī)劃和環(huán)境建模能力的理想場景。

結(jié)構(gòu)化任務(wù)環(huán)境則用于評估 Agent 在半結(jié)構(gòu)化信息中的推理能力,介于自然語言與程序化任務(wù)之間。

這些環(huán)境共同構(gòu)成了一個(gè)跨維度、跨任務(wù)、跨交互模式的評測體系,讓 Agent 的通用性在多角度、多層次上被檢驗(yàn)。

任務(wù)設(shè)計(jì)原則

研究的任務(wù)設(shè)計(jì)遵循四個(gè)嚴(yán)格原則。

無結(jié)構(gòu)化輸入,意味著任務(wù)不會被預(yù)處理成模型最擅長的格式,Agent 必須自己理解自然語言。

無任務(wù)特化工具,意味著 Agent 不能依賴為某個(gè)任務(wù)定制的工具鏈。

無預(yù)設(shè) API,意味著 Agent 必須自己探索工具功能,而不是依賴工程師提前寫好的接口。

無提示工程,意味著 Agent 不能依賴“魔法提示”來完成任務(wù)。

這些原則共同指向一個(gè)目標(biāo),強(qiáng)調(diào)“陌生環(huán)境中的泛化能力”。真正的通用Agent,不是靠工程堆出來的,而是靠能力本身支撐的。

04實(shí)驗(yàn)設(shè)置:5個(gè)Agent × 6類環(huán)境

通用智能體的評測,只有在“把所有系統(tǒng)放到同一片陌生土地上”時(shí)才真正有意義。IBM Research的實(shí)驗(yàn)設(shè)計(jì)正是基于這種理念,不給任何系統(tǒng)鋪路,不給任何任務(wù)特化接口,讓所有 Agent 在同樣的自然語言任務(wù)描述下,進(jìn)入六類完全不同的環(huán)境,看看它們到底能走多遠(yuǎn)。


圖4:Exgentic定義了代理和基準(zhǔn)之間的統(tǒng)一協(xié)議。Exgentic Orchestrator連接代理和基準(zhǔn),首先傳遞任務(wù)定義,然后協(xié)調(diào)基準(zhǔn)和代理之間傳遞的觀察和操作。Exgentic提供適配器,將統(tǒng)一協(xié)議轉(zhuǎn)換為代理和基準(zhǔn)測試所需的特定協(xié)議。最后,基準(zhǔn)提供質(zhì)量結(jié)果指標(biāo),而代理提供代理運(yùn)行時(shí)成本。

被評測的五類主流 Agent 系統(tǒng)

研究團(tuán)隊(duì)沒有把注意力放在“誰更強(qiáng)”上,而是刻意選擇了五種代表性系統(tǒng),覆蓋當(dāng)前 Agent 生態(tài)的主要技術(shù)路線。

工業(yè)級 Agent 是最受關(guān)注的一類,包括 OpenAI SDK Agent、Claude Code 等具備強(qiáng)大工具調(diào)用能力的系統(tǒng)。它們通常在任務(wù)特化環(huán)境中表現(xiàn)亮眼,但在零特化條件下能否保持穩(wěn)定,是本次評測的關(guān)鍵看點(diǎn)。

開源 Agent 框架代表了社區(qū)生態(tài)的另一條路線,強(qiáng)調(diào)可擴(kuò)展性、可組合性和靈活性。它們的優(yōu)勢在于工程透明,但在陌生環(huán)境中往往缺乏穩(wěn)健性。

工具增強(qiáng)型 LLM Agent 則依賴豐富的工具集,通過調(diào)用外部 API、插件或函數(shù)來完成任務(wù)。它們的挑戰(zhàn)在于如何在沒有預(yù)設(shè) API 文檔的情況下理解工具功能。

代碼執(zhí)行型 Agent 是近年來的熱門方向,依靠編寫和執(zhí)行代碼來解決復(fù)雜任務(wù)。它們在結(jié)構(gòu)化任務(wù)中表現(xiàn)強(qiáng)勢,但在動態(tài)環(huán)境中容易迷失。

Web 操作型 Agent 則專注于瀏覽器環(huán)境,能夠解析 DOM、點(diǎn)擊按鈕、填寫表單,但面對動態(tài)網(wǎng)頁和不確定結(jié)構(gòu)時(shí)常常出現(xiàn)策略崩潰。

這五類系統(tǒng)共同構(gòu)成了當(dāng)前 Agent 技術(shù)版圖的縮影,也讓評測結(jié)果更具行業(yè)代表性。

評測指標(biāo)

為了全面刻畫 Agent 的真實(shí)能力,研究從六個(gè)維度進(jìn)行評估。

成功率是最直觀的指標(biāo),衡量 Agent 是否最終完成任務(wù)。

規(guī)劃質(zhì)量反映了 Agent 的任務(wù)分解能力,是否能把自然語言目標(biāo)拆解成合理步驟。

工具使用策略考察 Agent 是否能正確選擇工具、理解參數(shù)、處理調(diào)用失敗。

環(huán)境探索能力決定了 Agent 在未知環(huán)境中能否主動嘗試、收集信息、調(diào)整策略。

錯(cuò)誤恢復(fù)能力是通用 Agent 的生命線,失敗后能否重新規(guī)劃,而不是陷入循環(huán)或直接放棄。

任務(wù)泛化能力則是最核心的指標(biāo),衡量 Agent 是否能在完全陌生的任務(wù)和環(huán)境中保持穩(wěn)定表現(xiàn)。

這些指標(biāo)共同構(gòu)成了一個(gè)多維度的能力畫像,讓“通用性”不再是模糊概念,而是可量化、可比較的能力結(jié)構(gòu)。

05實(shí)驗(yàn)結(jié)果:通用Agent的真實(shí)能力遠(yuǎn)低于預(yù)期

當(dāng)五類系統(tǒng)被放入六類陌生環(huán)境,所有任務(wù)只通過自然語言描述,沒有任何任務(wù)特化工程時(shí),結(jié)果呈現(xiàn)出一種令人意外卻又合理的趨勢,通用 Agent 的真實(shí)能力,比我們想象的要弱得多。

總體表現(xiàn):所有系統(tǒng)在“無特化”條件下顯著下降

成功率普遍偏低,這是最直接的信號。許多系統(tǒng)在任務(wù)特化基準(zhǔn)中能達(dá)到 70%–90% 的成功率,但在零特化環(huán)境中往往跌到個(gè)位數(shù)或十幾的水平。

工具調(diào)用混亂是另一個(gè)普遍現(xiàn)象。Agent 經(jīng)常誤用工具、傳錯(cuò)參數(shù)、重復(fù)調(diào)用失敗的函數(shù),甚至在沒有理解工具功能的情況下盲目嘗試。

規(guī)劃錯(cuò)誤頻繁出現(xiàn),尤其是在多步驟任務(wù)中。Agent 往往無法保持任務(wù)上下文,導(dǎo)致步驟順序混亂、遺漏關(guān)鍵操作或重復(fù)執(zhí)行無意義動作。

環(huán)境理解不足則貫穿所有環(huán)境類型。無論是網(wǎng)頁結(jié)構(gòu)、文件系統(tǒng)狀態(tài)還是 API 返回值,Agent 都難以形成穩(wěn)定的環(huán)境模型,導(dǎo)致行動策略缺乏連貫性。

這些問題共同揭示了一個(gè)事實(shí):當(dāng)前 Agent 的“智能”更多來自工程鋪路,而不是自主能力。

各環(huán)境表現(xiàn)差異

盡管整體表現(xiàn)不佳,但不同環(huán)境之間仍呈現(xiàn)出明顯差異。

文件系統(tǒng)任務(wù)相對較好,因?yàn)榄h(huán)境結(jié)構(gòu)穩(wěn)定、反饋明確、操作可控。Agent 在這里更容易形成有效策略。

Web 操作與 API 調(diào)用任務(wù)的失敗率極高。動態(tài)網(wǎng)頁、復(fù)雜 DOM、缺乏結(jié)構(gòu)化 API 文檔,讓 Agent 很難理解環(huán)境狀態(tài),導(dǎo)致大量無效操作。

多步驟推理任務(wù)表現(xiàn)不穩(wěn)定。Agent 往往能完成前幾步,但在任務(wù)中段或末段出現(xiàn)邏輯斷裂,暴露出長期規(guī)劃能力的不足。

這些差異說明,Agent 的能力高度依賴環(huán)境結(jié)構(gòu)化程度,而非真正的通用性。


表:失敗的運(yùn)行比成功的運(yùn)行長多少,以交互次數(shù)的百分比差異來衡量。

正值意味著失敗需要更多的交互;負(fù)值意味著它們?nèi)〉母佟?/p>

Agent的系統(tǒng)性弱點(diǎn)

研究的實(shí)驗(yàn)結(jié)果揭示了四個(gè)貫穿所有系統(tǒng)的核心弱點(diǎn)。

缺乏環(huán)境建模能力,使得 Agent 無法理解狀態(tài)變化,也無法根據(jù)環(huán)境反饋調(diào)整策略。

缺乏通用工具使用策略,讓 Agent 在面對未知工具時(shí)表現(xiàn)得像“盲試”,而不是“理解后行動”。

缺乏自我糾錯(cuò)機(jī)制,使得錯(cuò)誤一旦發(fā)生,Agent 往往陷入循環(huán)、重復(fù)失敗或直接放棄。

缺乏長期規(guī)劃能力,讓多步驟任務(wù)變得異常困難,尤其是在需要跨階段保持上下文的場景中。

這些弱點(diǎn)共同構(gòu)成了當(dāng)前通用 Agent 的能力天花板,也說明了為什么“任務(wù)特化工程”在過去幾年里如此重要——它在很大程度上掩蓋了這些結(jié)構(gòu)性問題。

06通用Agent的瓶頸在哪里?

通用智能體的討論常常被大模型的光環(huán)所掩蓋,人們習(xí)慣性地把“模型能力”與“Agent 能力”畫上等號。但研究團(tuán)隊(duì)用系統(tǒng)性的跨環(huán)境實(shí)驗(yàn)告訴我們,真正的瓶頸根本不在模型,而在行動、在策略、在環(huán)境理解、在錯(cuò)誤恢復(fù)——在那些模型本身并不擅長的地方。

模型能力 ≠ Agent 能力

大模型的語言理解、推理和生成能力確實(shí)強(qiáng)大,但 Agent 的任務(wù)不是“回答問題”,而是“在環(huán)境中行動”。行動意味著狀態(tài)變化、工具調(diào)用、路徑規(guī)劃、錯(cuò)誤處理,這些都不是 LLM 的天然強(qiáng)項(xiàng)。研究的實(shí)驗(yàn)結(jié)果清楚地展示了這一點(diǎn),即便是最強(qiáng)的模型,在面對陌生工具、未知環(huán)境、動態(tài)狀態(tài)時(shí),也會表現(xiàn)得像一個(gè)“不會用電腦的新手”。

工具使用是第一個(gè)瓶頸。Agent 經(jīng)常誤用工具、傳錯(cuò)參數(shù)、重復(fù)調(diào)用失敗的函數(shù),說明它并沒有真正理解工具的功能和限制。

環(huán)境理解是第二個(gè)瓶頸。無論是網(wǎng)頁結(jié)構(gòu)、文件系統(tǒng)狀態(tài)還是 API 返回值,Agent 都難以形成穩(wěn)定的環(huán)境模型,導(dǎo)致行動策略缺乏連貫性。

狀態(tài)建模則是第三個(gè)瓶頸。Agent 往往無法記住任務(wù)進(jìn)度、環(huán)境變化或歷史操作,導(dǎo)致規(guī)劃斷裂、重復(fù)執(zhí)行或邏輯混亂。

這些問題共同說明:模型強(qiáng),不等于 Agent 強(qiáng)。

當(dāng)前基準(zhǔn)嚴(yán)重高估了 Agent 的真實(shí)能力

研究的另一個(gè)關(guān)鍵洞察,是對現(xiàn)有基準(zhǔn)的批判。當(dāng)前 Agent 基準(zhǔn)往往給了太多“任務(wù)特化輔助”:結(jié)構(gòu)化輸入、預(yù)設(shè) API、環(huán)境包裝器、提示工程。這些輔助讓 Agent 看起來很強(qiáng),但那是因?yàn)楣こ處熖嫠瓿闪舜蟛糠帧袄斫猸h(huán)境”的工作。

真實(shí)世界任務(wù)遠(yuǎn)比基準(zhǔn)復(fù)雜。網(wǎng)頁是動態(tài)的,API 沒有文檔,文件系統(tǒng)狀態(tài)不穩(wěn)定,工具行為不可預(yù)測?;鶞?zhǔn)中的“理想環(huán)境”與現(xiàn)實(shí)中的“混沌環(huán)境”之間的差距,正是通用 Agent 在落地時(shí)頻頻翻車的原因。

研究的零特化評測框架,正是為了把這些隱藏的輔助全部剝離,讓 Agent 面對真實(shí)世界的復(fù)雜性。

通用 Agent 需要“跨環(huán)境一致的認(rèn)知結(jié)構(gòu)”

研究提出的第三個(gè)洞察,是對未來通用 Agent 架構(gòu)的方向性判斷:真正的通用 Agent 必須具備跨環(huán)境一致的認(rèn)知結(jié)構(gòu),而不是依賴任務(wù)特化工程。

通用規(guī)劃器是第一層能力。Agent 必須能從自然語言任務(wù)中自主拆解步驟,而不是依賴模板化提示。

通用工具策略是第二層能力。Agent 必須能在沒有文檔的情況下理解工具功能、推斷參數(shù)、處理失敗。

通用錯(cuò)誤恢復(fù)機(jī)制是第三層能力。失敗不是例外,而是常態(tài)。Agent 必須能識別失敗、重新規(guī)劃,而不是陷入循環(huán)。

通用環(huán)境建模是第四層能力。Agent 必須能理解環(huán)境狀態(tài)、預(yù)測變化、保持上下文,而不是每一步都“從零開始”。

這些能力共同構(gòu)成了未來通用 Agent 的“認(rèn)知骨架”。

評測體系必須從“任務(wù)特化”轉(zhuǎn)向“環(huán)境無關(guān)”

研究的第四個(gè)洞察,是對評測體系的方向性重構(gòu)。未來的評測不應(yīng)該再圍繞“任務(wù)得分”,而應(yīng)該圍繞“泛化能力”。這與近年來關(guān)于“Benchmark Saturation”的研究形成呼應(yīng):當(dāng)模型在特定基準(zhǔn)上達(dá)到極限時(shí),基準(zhǔn)本身已經(jīng)無法反映真實(shí)能力。

環(huán)境無關(guān)的評測體系,才是推動 Agent 進(jìn)化的關(guān)鍵。只有在陌生環(huán)境中,Agent 的真實(shí)能力才會被暴露;只有在無特化條件下,通用性才有意義。(END)

參考資料:https://arxiv.org/pdf/2602.22953


關(guān)于波動智能——

波動智能旨在建立一個(gè)基于人類意圖與反應(yīng)的真實(shí)需求洞察及滿足的價(jià)值體系,融合人工智能與意識科學(xué),構(gòu)建覆蓋情緒識別、建模與推薦的智能引擎,自主研發(fā)面向社交、電商等場景的多模態(tài)意圖識別引擎、意圖標(biāo)簽系統(tǒng)及意圖智能推薦算法,形成從情緒采集、意圖建模到商業(yè)轉(zhuǎn)化的完整解決方案。波動智能提出“意圖是連接人、物與內(nèi)容的新型接口”,其產(chǎn)品廣泛應(yīng)用于AI社交、個(gè)性化內(nèi)容推薦、虛擬陪伴、電商體驗(yàn)優(yōu)化等領(lǐng)域。波動智能正在探索“EMO-as-a-Service”技術(shù)服務(wù)架構(gòu),賦能企業(yè)實(shí)現(xiàn)更高效的用戶洞察與精準(zhǔn)情緒交互,推動從功能驅(qū)動到意圖驅(qū)動的產(chǎn)業(yè)范式升級。

親愛的人工智能研究者,為了確保您不會錯(cuò)過*波動智能*的最新推送,請星標(biāo)*波動智能*。我們傾心打造并精選每篇內(nèi)容,只為為您帶來啟發(fā)和深思,希望能成為您理性思考路上的伙伴!

加入AI交流群請掃碼加微信

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
起泡膠、捏捏樂、水晶泥等網(wǎng)紅玩具 經(jīng)檢測:部分捏捏樂甲醛超標(biāo)33倍

起泡膠、捏捏樂、水晶泥等網(wǎng)紅玩具 經(jīng)檢測:部分捏捏樂甲醛超標(biāo)33倍

閃電新聞
2026-03-02 11:03:00
美以伊最新發(fā)聲

美以伊最新發(fā)聲

看看新聞Knews
2026-03-02 16:59:09
鏡報(bào):伊朗可能抵制世界杯,這對于國際足聯(lián)高層而言非常棘手

鏡報(bào):伊朗可能抵制世界杯,這對于國際足聯(lián)高層而言非常棘手

懂球帝
2026-03-02 23:22:52
莫迪殺紅了眼!吞了中企幾百億,又派人來偷火,中國不能坐以待斃

莫迪殺紅了眼!吞了中企幾百億,又派人來偷火,中國不能坐以待斃

梁訊
2026-02-28 15:40:12
北京首都國際機(jī)場工作人員穿明制漢服!

北京首都國際機(jī)場工作人員穿明制漢服!

小鹿姐姐情感說
2026-03-02 08:40:09
WTT新加坡大滿貫收官不到24小時(shí),國乒傳來3大重磅消息,2大調(diào)整

WTT新加坡大滿貫收官不到24小時(shí),國乒傳來3大重磅消息,2大調(diào)整

羅納爾說個(gè)球
2026-03-02 23:06:07
內(nèi)賈德大難不死活了下來,“反美斗士”終于等來翻身之日?

內(nèi)賈德大難不死活了下來,“反美斗士”終于等來翻身之日?

又是美好的日子
2026-03-03 03:59:32
中核集團(tuán)的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個(gè)身份

中核集團(tuán)的顧軍被查了。最讓人脊背發(fā)涼的是他的第一個(gè)身份

南權(quán)先生
2026-02-02 16:05:36
“兒子下肢已壞了,你還讓他跳繩!”低認(rèn)知的殘忍,只有自我感動

“兒子下肢已壞了,你還讓他跳繩!”低認(rèn)知的殘忍,只有自我感動

蝴蝶花雨話教育
2026-02-24 15:29:04
突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導(dǎo)彈,并封鎖霍爾木茲海峽,油價(jià)或飆升,國內(nèi)金飾克價(jià)突破1600元

突然大跌,15萬人爆倉!伊朗發(fā)射高超音速導(dǎo)彈,并封鎖霍爾木茲海峽,油價(jià)或飆升,國內(nèi)金飾克價(jià)突破1600元

每日經(jīng)濟(jì)新聞
2026-03-01 01:03:36
奔馳GLC價(jià)格“大跳水”!最高優(yōu)惠12.5萬,網(wǎng)友:還是選寶馬

奔馳GLC價(jià)格“大跳水”!最高優(yōu)惠12.5萬,網(wǎng)友:還是選寶馬

汽車網(wǎng)評
2026-03-02 22:56:03
面對霍爾姆茨海峽的封鎖,中國準(zhǔn)備好了嗎?

面對霍爾姆茨海峽的封鎖,中國準(zhǔn)備好了嗎?

勝研集
2026-03-02 12:20:33
沒想到這么快,幾個(gè)小時(shí)就舉了白旗,彈盡糧絕,不投降就沒命了!

沒想到這么快,幾個(gè)小時(shí)就舉了白旗,彈盡糧絕,不投降就沒命了!

科普100克克
2025-10-05 15:24:42
伊朗前王儲巴列維宣布將返回伊朗領(lǐng)導(dǎo)革命

伊朗前王儲巴列維宣布將返回伊朗領(lǐng)導(dǎo)革命

一種觀點(diǎn)
2026-01-19 19:36:11
Claude祭出「記憶搬家」,60秒搬空ChatGPT靈魂!70萬用戶退訂OpenAI

Claude祭出「記憶搬家」,60秒搬空ChatGPT靈魂!70萬用戶退訂OpenAI

新智元
2026-03-02 12:35:56
39歲李思思離開央視兩年,商演小縣城不擺架子

39歲李思思離開央視兩年,商演小縣城不擺架子

范櫳舍長
2026-03-02 20:28:08
伊朗稱已準(zhǔn)備好長期戰(zhàn)爭

伊朗稱已準(zhǔn)備好長期戰(zhàn)爭

界面新聞
2026-03-02 20:42:23
向太太敢說了!向華強(qiáng)今年已經(jīng)78了,但是她和向華強(qiáng)還有X生活!

向太太敢說了!向華強(qiáng)今年已經(jīng)78了,但是她和向華強(qiáng)還有X生活!

心靜物娛
2025-12-24 11:02:28
曝伊朗考慮退出世界杯 小組賽3場均在美國踢 4隊(duì)按規(guī)有望遞補(bǔ)參賽

曝伊朗考慮退出世界杯 小組賽3場均在美國踢 4隊(duì)按規(guī)有望遞補(bǔ)參賽

我愛英超
2026-03-02 22:59:13
43歲阿Sa承認(rèn)與男友同居,已帶男友見過家長,疑好事將近

43歲阿Sa承認(rèn)與男友同居,已帶男友見過家長,疑好事將近

扒蝦侃娛
2026-03-02 22:27:05
2026-03-03 04:28:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4555文章數(shù) 37413關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
藝術(shù)
游戲
手機(jī)
公開課

家居要聞

萬物互聯(lián) 享科技福祉

藝術(shù)要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

外媒給《寶可夢》新作60分:不夠有趣的縫合怪

手機(jī)要聞

iPhone 17e外觀與前代幾乎一致 舊款iPhone 16e保護(hù)殼可繼續(xù)用

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版