xbench發(fā)布AgentIF-OneDay評測：Agent能否獨立干完“一天的活”？

2026-01-21 10:12:59　來源: 硅星人

北京舉報

分享至

隨著大模型在單點推理上日益逼近PhD水平，Agent領(lǐng)域迎來了新的分水嶺：短程任務(wù)表現(xiàn)驚艷，長程任務(wù)卻顯乏力。為精準評估大模型的多模態(tài)理解與復(fù)雜問題解決能力，紅杉中國在兩周內(nèi)連續(xù)發(fā)布兩篇論文，旨在通過構(gòu)建更科學(xué)的評估基準，預(yù)判技術(shù)演進的未來方向。

xbench正式推出AgentIF-OneDay評測體系，不再單純考核模型知道多少知識，而是衡量它解決復(fù)雜任務(wù)的能力。AgentIF-OneDay深入探索了從OneHour到OneDay的能力跨越，揭示了主流Agent在工作流執(zhí)行、隱式推斷與迭代編輯中的真實表現(xiàn)。讓我們共同見證，Agent 是如何通過Scaling Context與Scaling Domain，從單純的“提問助手”進化為真正創(chuàng)造經(jīng)濟價值的“數(shù)字員工”。

Agent能否協(xié)助你一天的生活？

自從紅杉中國xbench發(fā)布ScienceQA與DeepSearch以來，這兩個評測集已經(jīng)經(jīng)歷了多次迭代升級。無論是模型本身，還是圍繞模型構(gòu)建的Agent系統(tǒng)，都已經(jīng)在這些以分鐘級為單位的集中推理任務(wù)上能夠穩(wěn)定勝任，從最初的human-average水平，逐漸達到接近PhD-level的表現(xiàn)。

隨著我們進一步進入Agent能力評測的領(lǐng)域，我們發(fā)現(xiàn)Agent完成短時任務(wù)與長時任務(wù)之間存在巨大的能力鴻溝。即便在單點推理和局部任務(wù)中已達到極高水平，一旦任務(wù)在突破一般人一小時可處理的復(fù)雜度，Agent的整體完成度就會出現(xiàn)明顯下降。

從xbench所堅持的理念出發(fā)，更好的評估模型和智能體在實際工作和生活中的價值。我們希望通過評測體系來觀察行業(yè)技術(shù)路線的演進，預(yù)測模型能力的上限，同時也希望給業(yè)界補充一個面向utility和economic value的思考視角。我們提出一個新的視角來理解Agent的能力邊界：任務(wù)復(fù)雜度，任務(wù)復(fù)雜度并不等同于知識點有多深奧或推理難度，而是完成一個任務(wù)所需的人類時間投入，并由此對應(yīng)其潛在的經(jīng)濟與使用價值。

我們認為Agent能力的演進會沿著兩條主線展開：scaling context與scaling domain。這兩條軸線共同決定了Agent能夠承擔(dān)的任務(wù)復(fù)雜度上限，也是Agent系統(tǒng)從工具走向數(shù)字員工的發(fā)展方向。

?Scaling context指的是完成的任務(wù)在時間維度上的延展。隨著任務(wù)復(fù)雜度的提升，Agent需要在更長的執(zhí)行周期中持續(xù)維護上下文狀態(tài)，跟蹤中間目標與約束，并在多步驟、多工具的交互過程中保持一致性。從分鐘級任務(wù)，到一天級、乃至一周級的工作量。

?Scaling domain則指Agent在任務(wù)類型上擴展帶來的復(fù)雜度。與高度結(jié)構(gòu)化、domain集中的任務(wù)（如coding或數(shù)學(xué)推理）不同，現(xiàn)實世界中的工作往往橫跨多個領(lǐng)域與語境，不同任務(wù)在目標表述、隱含約束、工具使用方式與評估標準上差異顯著。Agent能力的進一步提升，伴隨著對更廣的任務(wù)分布的覆蓋能力。

xbench在設(shè)計AgentIF評測體系時，會同時沿著context與domain兩個方向推進。一方面，通過逐步拉長任務(wù)對應(yīng)的人類時間尺度，從OneHour走向OneDay；另一方面，通過覆蓋更加多樣的生活、學(xué)習(xí)與職業(yè)場景，刻畫Agent 在真實世界任務(wù)分布中的整體能力邊界。

本次發(fā)布的AgentIF-OneDay是xbench在該評測系列中的一個新工作。我們以人類一天內(nèi)可完成的任務(wù)復(fù)雜度作為基準，測試一個Agent是否具備在無需人類介入的情況下，穩(wěn)定完成整套任務(wù)并交付結(jié)果的能力。盡量覆蓋更diverse的domain，包括生活、學(xué)習(xí)和職業(yè)場景會遇到的多種多樣的任務(wù)以及多種工具。

如何構(gòu)造一天的典型任務(wù)？

在對大量用戶真實工作日志進行分析后，我們發(fā)現(xiàn)盡管具體任務(wù)內(nèi)容差異巨大，但日常工作在類型上呈現(xiàn)出高度穩(wěn)定的模式。大多數(shù)普通人的一天可以按照使用場景被抽象為三個任務(wù)類型——工作流執(zhí)行、范例參考以及迭代式編輯。

場景一

當(dāng)你知道該怎么做，但執(zhí)行太繁瑣

用戶已知完整流程并明確給出操作步驟，Agent只需精確執(zhí)行。我們稱此類任務(wù)為工作流執(zhí)行（Workflow Execution）。

例題

我計劃去NeurIPS 2025，幫我規(guī)劃一個好的行程方案。請你先去官網(wǎng)確認NeurIPS 2025會議的主會場位置（San Diego Convention Center, San Diego）是否準確，然后用另一個可靠來源交叉驗證這個信息，確保萬無一失。接下來，幫我收集基本信息，比如會議時間、地點和論文提交截止日期。還要確認完整的會議日程是否已經(jīng)發(fā)布——如果還沒發(fā)布，請明確告訴我。最后，從紐約出發(fā)給我兩套去圣地亞哥的行程方案：一個最便宜的Cheap Plan，一個最快的Fast Plan。

當(dāng)Agent能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態(tài)，就意味著它具備幫我把事情做完的潛力。這也是大量用戶希望Agent能真正替代重復(fù)性勞動的原因——當(dāng)流程執(zhí)行能力成熟時，Agent就能自然承擔(dān)原本需要人工耐心完成的碎片化任務(wù)。

場景二

當(dāng)你不知道規(guī)則，只能給個參考

用戶不明確知道完整的工作流或者條件約束，只提供若干案例或參考資料。我們將此定義為范例參考（Latent Instruction Inference）。

例題

我現(xiàn)在用的是iPhone13 Pro Max，AT&T套餐每月20美元預(yù)付費。我想換iPhone17 Pro Max。基于附件里的購機方案和運營商優(yōu)惠，幫我找出總成本最低的方式。

范例參考是人類最自然的工作方式，人們不會每次都從零寫起，而是需要Agent從提供的示例文件中挖掘出潛在的意圖，并交付同時滿足用戶的顯示指令與附件的隱式指令；Agent如果具備這種能力，就能真正參與內(nèi)容生產(chǎn)、報告生成、數(shù)據(jù)整理等職業(yè)型任務(wù)，而不是停留在淺層回答問題的階段。

場景三

當(dāng)需求本身是動態(tài)的，要邊做邊看

人類的工作普遍呈現(xiàn)多輪迭代結(jié)構(gòu)，在工作的開始并不知道完整解法、也沒有參考示例，需要在與Agent多輪交互中逐漸提出新需求。Agent也必須具備在不斷變化的約束下維持上下文一致性并穩(wěn)定推進任務(wù)的能力。這類任務(wù)稱為迭代式編輯（Iterative Refinement）。

例題

拿著這個SVG平面圖（venue_layout.svg）和Excel約束表（venue_constraints.xlsx），更新會場布局以滿足所有約束條件，同時保持設(shè)計的可讀性和可行走性。

我們在過去3個月按照這三個類型，制備了AgentIF第一期的題庫，總共由104道任務(wù)組成，覆蓋了工作、生活（例如游戲攻略、旅游規(guī)劃）和學(xué)習(xí)。其中62道由文件驅(qū)動的合成任務(wù)用于補充長尾場景，覆蓋PDF、PPT、Excel、圖像、代碼文件在內(nèi)的15種以上格式。本質(zhì)上模擬了真實工作流程中極常見的跨格式、跨來源的模式。

每道任務(wù)都帶有一套細粒度的評判標準，總計767個評分點，分為正向指標（如格式一致性、結(jié)構(gòu)復(fù)現(xiàn)、步驟完整）與負向指標（如誤刪內(nèi)容、越界生成、錯誤操作）。評測系統(tǒng)采用LLM作為裁判（值得一提的是Gemini 3-pro的出現(xiàn)讓rubrics打分的準確性也提升到可用的程度），并結(jié)合網(wǎng)頁檢索、HTML渲染、多模態(tài)比對等方法做自動校驗。在這套機制下，agent系統(tǒng)的得分不僅取決于它最終是否完成任務(wù)，還包括流程是否干凈、是否出現(xiàn)誤操作、是否正確解析附件、是否能在迭代過程中保持一致性。

主流Agent的評測結(jié)果和啟發(fā)

在AgentIF的測評框架下，我們對現(xiàn)有主流Agent系統(tǒng)進行了系統(tǒng)化測試，也有了一些有趣的發(fā)現(xiàn)：

發(fā)現(xiàn)一：以O(shè)verall的完整任務(wù)成功率為標準，Manus、Genspark與ChatGPT-Agent都集中在0.62–0.65區(qū)間，構(gòu)成當(dāng)下能力最強的第一梯隊。

這意味著和我們想象的有所差別，不論Agent系統(tǒng)是通過模型原生甚至RL訓(xùn)練出來的模型，還是基于API的工具鏈集成或深度的multi-Agent系統(tǒng)，在完成一套真實任務(wù)鏈時，用戶側(cè)感受到的能力是比較相近的。

這一現(xiàn)象在一定程度上印證了模型即Agent的判斷——在底層模型能力不發(fā)生變化、且不引入test-time scaling的前提下，不同多智能體框架本身難以拉開數(shù)量級上的性能差異。基座模型會逐步集成agentic能力，下游基于api的Agent產(chǎn)品，在能力表現(xiàn)上也會體現(xiàn)出agent rl的能力。

雖然這些agent系統(tǒng)能力非常接近，但在任務(wù)領(lǐng)域上與能力維度存在明顯差異。

發(fā)現(xiàn)二：從任務(wù)領(lǐng)域上，任務(wù)領(lǐng)域上從ChatGPT是最優(yōu)生產(chǎn)力工具，Manus是最佳生活助手，Genspark是最好學(xué)習(xí)伙伴。

三個產(chǎn)品具有不同迭代方向，ChatGPT-Agent重點關(guān)注GDPval，聚焦專業(yè)工作場景的體驗；相對來說Manus與Genspark更側(cè)重用戶反饋。不同的評測體現(xiàn)帶來了不同的產(chǎn)品長項與短板。我們認為優(yōu)秀的通用Agent應(yīng)當(dāng)兼顧最多樣的任務(wù)，而不側(cè)重一方。

發(fā)現(xiàn)三：在能力維度上，GenSpark在隱式指令推斷上表現(xiàn)最優(yōu)，Manus在開放工作流執(zhí)行最優(yōu)，Minimax-Agent具有最好的迭代式編輯能力。

能力維度的表現(xiàn)不一或來源于Agent框架的差異。隱式條件推斷是目前Agent普遍最薄弱的能力項。一些任務(wù)要求Agent從附件中自動識別格式規(guī)則，例如從PPT 模板中抽取頁眉頁腳結(jié)構(gòu)或引用標注方式，再遷移到新的內(nèi)容生成中。我們觀察到，即便是整體表現(xiàn)最好的系統(tǒng)，在這類任務(wù)中也很難做到完全正確。要么格式復(fù)現(xiàn)正確但覆蓋不足，要么內(nèi)容理解到位但無法保持結(jié)構(gòu)一致。

綜合來看，穩(wěn)定性、文件處理鏈路、隱式結(jié)構(gòu)理解能力，乃至跨工具的狀態(tài)管理，都是決定Agent能否真正承擔(dān)一天工作量的關(guān)鍵環(huán)節(jié)。AgentIF-OneDay通過這類任務(wù)，揭示了當(dāng)前Agent在真實使用場景中的能力邊界和一些常見的失效模式，也幫助我們更清楚地看到下一階段能力演進的方向。

展望：從oneday、oneweek到持續(xù)學(xué)習(xí)

隨著系統(tǒng)能力不斷提升，我們預(yù)計在2026年Agent將開始挑戰(zhàn)one-week的人類工作量。圍繞one-week的人類工作量，我們已經(jīng)開始著手構(gòu)建OneWeek的評測集。我們認為當(dāng)一個Agent能夠在一周尺度的工作量上保持穩(wěn)定高質(zhì)量的產(chǎn)出，它就具備了承擔(dān)真實崗位的能力，也能夠在組織內(nèi)開始創(chuàng)造更多實際價值。

與AgentIF-OneDay相比，OneWeekIF面臨的挑戰(zhàn)并不只是任務(wù)變得更長。隨著時間跨度增加，評測本身的出題難度也增加很多，rubric的設(shè)計會更加嚴格。一周尺度的任務(wù)往往開始呈現(xiàn)出明確的行業(yè)語境，無論是金融、醫(yī)療還是法律，這些高價值場景數(shù)據(jù)的獲取成本也會顯著上升。

當(dāng)任務(wù)復(fù)雜度發(fā)展到這一階段，依賴靜態(tài)數(shù)據(jù)集和離線構(gòu)建的訓(xùn)練與評測方式，開始顯露出難以回避的局限性。也正是在這里，一個方向變得越來越自然：讓 Agent在實際運行過程中具備主動學(xué)習(xí)的能力——能夠在真實或半真實環(huán)境中自主收集經(jīng)驗，對自身行為進行評估與修正，并通過長期交互逐步形成穩(wěn)定策略。

從更長期的技術(shù)演進來看，靜態(tài)訓(xùn)練與靜態(tài)評測可能都不是未來Agent系統(tǒng)的發(fā)展路徑。近期關(guān)于online learning的討論越來越多，更多researcher傾向于認為，如果模型只在既有的人類知識分布內(nèi)循環(huán)，就無法突破到更高層級的智能，下一步的能力scaling不是訓(xùn)練完成的那一刻，很可能發(fā)生在模型被部署之后，通過不斷的real world RL來獲取practical的知識，持續(xù)學(xué)習(xí)、持續(xù)適應(yīng)。

用戶數(shù)據(jù)飛輪帶來高可靠Agent的出現(xiàn)

一個贏得用戶信任的Agent助理需要交付可靠結(jié)果，在長程任務(wù)中，錯誤累計效應(yīng)會呈指數(shù)級放大。我們將長程任務(wù)Agent的發(fā)展類比自動駕駛的發(fā)展歷程，同樣是從有限路段走向通用路段，從依賴頻繁人工干預(yù)走向長時無干預(yù)FSD。該過程的實現(xiàn)依賴于大量用戶駕駛數(shù)據(jù)的積累，用戶數(shù)據(jù)可以最大化拓展場景的豐富度，并給系統(tǒng)帶來最好的泛化性。在長時任務(wù)的Agents中，我們同樣可以推演，有效的數(shù)據(jù)累計可以帶來高可靠Agent系統(tǒng)的出現(xiàn)，優(yōu)先轉(zhuǎn)起數(shù)據(jù)飛輪的公司將率先實現(xiàn)通用Agent的FSD時刻。

開源鏈接：

Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

點個“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.