国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

xbench發(fā)布AgentIF-OneDay評測:Agent能否獨立干完“一天的活”?

0
分享至


隨著大模型在單點推理上日益逼近PhD水平,Agent領(lǐng)域迎來了新的分水嶺:短程任務(wù)表現(xiàn)驚艷,長程任務(wù)卻顯乏力。為精準評估大模型的多模態(tài)理解與復(fù)雜問題解決能力,紅杉中國在兩周內(nèi)連續(xù)發(fā)布兩篇論文,旨在通過構(gòu)建更科學(xué)的評估基準,預(yù)判技術(shù)演進的未來方向。

xbench正式推出AgentIF-OneDay評測體系,不再單純考核模型知道多少知識,而是衡量它解決復(fù)雜任務(wù)的能力。AgentIF-OneDay深入探索了從OneHour到OneDay的能力跨越,揭示了主流Agent在工作流執(zhí)行、隱式推斷與迭代編輯中的真實表現(xiàn)。讓我們共同見證,Agent 是如何通過Scaling Context與Scaling Domain,從單純的“提問助手”進化為真正創(chuàng)造經(jīng)濟價值的“數(shù)字員工”。


Agent能否協(xié)助你一天的生活?

自從紅杉中國xbench發(fā)布ScienceQA與DeepSearch以來,這兩個評測集已經(jīng)經(jīng)歷了多次迭代升級。無論是模型本身,還是圍繞模型構(gòu)建的Agent系統(tǒng),都已經(jīng)在這些以分鐘級為單位的集中推理任務(wù)上能夠穩(wěn)定勝任,從最初的human-average水平,逐漸達到接近PhD-level的表現(xiàn)。

隨著我們進一步進入Agent能力評測的領(lǐng)域,我們發(fā)現(xiàn)Agent完成短時任務(wù)與長時任務(wù)之間存在巨大的能力鴻溝。即便在單點推理和局部任務(wù)中已達到極高水平,一旦任務(wù)在突破一般人一小時可處理的復(fù)雜度,Agent的整體完成度就會出現(xiàn)明顯下降。


從xbench所堅持的理念出發(fā),更好的評估模型和智能體在實際工作和生活中的價值。我們希望通過評測體系來觀察行業(yè)技術(shù)路線的演進,預(yù)測模型能力的上限,同時也希望給業(yè)界補充一個面向utility和economic value的思考視角。我們提出一個新的視角來理解Agent的能力邊界:任務(wù)復(fù)雜度,任務(wù)復(fù)雜度并不等同于知識點有多深奧或推理難度,而是完成一個任務(wù)所需的人類時間投入,并由此對應(yīng)其潛在的經(jīng)濟與使用價值。

我們認為Agent能力的演進會沿著兩條主線展開:scaling context與scaling domain。這兩條軸線共同決定了Agent能夠承擔(dān)的任務(wù)復(fù)雜度上限,也是Agent系統(tǒng)從工具走向數(shù)字員工的發(fā)展方向。

?Scaling context指的是完成的任務(wù)在時間維度上的延展。隨著任務(wù)復(fù)雜度的提升,Agent需要在更長的執(zhí)行周期中持續(xù)維護上下文狀態(tài),跟蹤中間目標與約束,并在多步驟、多工具的交互過程中保持一致性。從分鐘級任務(wù),到一天級、乃至一周級的工作量。

?Scaling domain則指Agent在任務(wù)類型上擴展帶來的復(fù)雜度。與高度結(jié)構(gòu)化、domain集中的任務(wù)(如coding或數(shù)學(xué)推理)不同,現(xiàn)實世界中的工作往往橫跨多個領(lǐng)域與語境,不同任務(wù)在目標表述、隱含約束、工具使用方式與評估標準上差異顯著。Agent能力的進一步提升,伴隨著對更廣的任務(wù)分布的覆蓋能力。

xbench在設(shè)計AgentIF評測體系時,會同時沿著context與domain兩個方向推進。一方面,通過逐步拉長任務(wù)對應(yīng)的人類時間尺度,從OneHour走向OneDay;另一方面,通過覆蓋更加多樣的生活、學(xué)習(xí)與職業(yè)場景,刻畫Agent 在真實世界任務(wù)分布中的整體能力邊界。


本次發(fā)布的AgentIF-OneDay是xbench在該評測系列中的一個新工作。我們以人類一天內(nèi)可完成的任務(wù)復(fù)雜度作為基準,測試一個Agent是否具備在無需人類介入的情況下,穩(wěn)定完成整套任務(wù)并交付結(jié)果的能力。盡量覆蓋更diverse的domain,包括生活、學(xué)習(xí)和職業(yè)場景會遇到的多種多樣的任務(wù)以及多種工具。

如何構(gòu)造一天的典型任務(wù)?

在對大量用戶真實工作日志進行分析后,我們發(fā)現(xiàn)盡管具體任務(wù)內(nèi)容差異巨大,但日常工作在類型上呈現(xiàn)出高度穩(wěn)定的模式。大多數(shù)普通人的一天可以按照使用場景被抽象為三個任務(wù)類型——工作流執(zhí)行、范例參考以及迭代式編輯。

場景一

當(dāng)你知道該怎么做,但執(zhí)行太繁瑣

用戶已知完整流程并明確給出操作步驟,Agent只需精確執(zhí)行。我們稱此類任務(wù)為工作流執(zhí)行(Workflow Execution)

例題

我計劃去NeurIPS 2025,幫我規(guī)劃一個好的行程方案。請你先去官網(wǎng)確認NeurIPS 2025會議的主會場位置(San Diego Convention Center, San Diego)是否準確,然后用另一個可靠來源交叉驗證這個信息,確保萬無一失。接下來,幫我收集基本信息,比如會議時間、地點和論文提交截止日期。還要確認完整的會議日程是否已經(jīng)發(fā)布——如果還沒發(fā)布,請明確告訴我。最后,從紐約出發(fā)給我兩套去圣地亞哥的行程方案:一個最便宜的Cheap Plan,一個最快的Fast Plan。

當(dāng)Agent能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態(tài),就意味著它具備幫我把事情做完的潛力。這也是大量用戶希望Agent能真正替代重復(fù)性勞動的原因——當(dāng)流程執(zhí)行能力成熟時,Agent就能自然承擔(dān)原本需要人工耐心完成的碎片化任務(wù)。

場景二

當(dāng)你不知道規(guī)則,只能給個參考

用戶不明確知道完整的工作流或者條件約束,只提供若干案例或參考資料。我們將此定義為范例參考(Latent Instruction Inference)。

例題

我現(xiàn)在用的是iPhone13 Pro Max,AT&T套餐每月20美元預(yù)付費。我想換iPhone17 Pro Max。基于附件里的購機方案和運營商優(yōu)惠,幫我找出總成本最低的方式。

范例參考是人類最自然的工作方式,人們不會每次都從零寫起,而是需要Agent從提供的示例文件中挖掘出潛在的意圖,并交付同時滿足用戶的顯示指令與附件的隱式指令;Agent如果具備這種能力,就能真正參與內(nèi)容生產(chǎn)、報告生成、數(shù)據(jù)整理等職業(yè)型任務(wù),而不是停留在淺層回答問題的階段。

場景三

當(dāng)需求本身是動態(tài)的,要邊做邊看

人類的工作普遍呈現(xiàn)多輪迭代結(jié)構(gòu),在工作的開始并不知道完整解法、也沒有參考示例,需要在與Agent多輪交互中逐漸提出新需求。Agent也必須具備在不斷變化的約束下維持上下文一致性并穩(wěn)定推進任務(wù)的能力。這類任務(wù)稱為迭代式編輯(Iterative Refinement)。

例題

拿著這個SVG平面圖(venue_layout.svg)和Excel約束表(venue_constraints.xlsx),更新會場布局以滿足所有約束條件,同時保持設(shè)計的可讀性和可行走性。

我們在過去3個月按照這三個類型,制備了AgentIF第一期的題庫,總共由104道任務(wù)組成,覆蓋了工作、生活(例如游戲攻略、旅游規(guī)劃)和學(xué)習(xí)。其中62道由文件驅(qū)動的合成任務(wù)用于補充長尾場景,覆蓋PDF、PPT、Excel、圖像、代碼文件在內(nèi)的15種以上格式。本質(zhì)上模擬了真實工作流程中極常見的跨格式、跨來源的模式。

每道任務(wù)都帶有一套細粒度的評判標準,總計767個評分點,分為正向指標(如格式一致性、結(jié)構(gòu)復(fù)現(xiàn)、步驟完整)與負向指標(如誤刪內(nèi)容、越界生成、錯誤操作)。評測系統(tǒng)采用LLM作為裁判(值得一提的是Gemini 3-pro的出現(xiàn)讓rubrics打分的準確性也提升到可用的程度),并結(jié)合網(wǎng)頁檢索、HTML渲染、多模態(tài)比對等方法做自動校驗。在這套機制下,agent系統(tǒng)的得分不僅取決于它最終是否完成任務(wù),還包括流程是否干凈、是否出現(xiàn)誤操作、是否正確解析附件、是否能在迭代過程中保持一致性。

主流Agent的評測結(jié)果和啟發(fā)

在AgentIF的測評框架下,我們對現(xiàn)有主流Agent系統(tǒng)進行了系統(tǒng)化測試,也有了一些有趣的發(fā)現(xiàn):


發(fā)現(xiàn)一:以O(shè)verall的完整任務(wù)成功率為標準,Manus、Genspark與ChatGPT-Agent都集中在0.62–0.65區(qū)間,構(gòu)成當(dāng)下能力最強的第一梯隊。

這意味著和我們想象的有所差別,不論Agent系統(tǒng)是通過模型原生甚至RL訓(xùn)練出來的模型,還是基于API的工具鏈集成或深度的multi-Agent系統(tǒng),在完成一套真實任務(wù)鏈時,用戶側(cè)感受到的能力是比較相近的。

這一現(xiàn)象在一定程度上印證了模型即Agent的判斷——在底層模型能力不發(fā)生變化、且不引入test-time scaling的前提下,不同多智能體框架本身難以拉開數(shù)量級上的性能差異。基座模型會逐步集成agentic能力,下游基于api的Agent產(chǎn)品,在能力表現(xiàn)上也會體現(xiàn)出agent rl的能力。

雖然這些agent系統(tǒng)能力非常接近,但在任務(wù)領(lǐng)域上與能力維度存在明顯差異。

發(fā)現(xiàn)二:任務(wù)領(lǐng)域上,任務(wù)領(lǐng)域上從ChatGPT是最優(yōu)生產(chǎn)力工具,Manus是最佳生活助手,Genspark是最好學(xué)習(xí)伙伴。


三個產(chǎn)品具有不同迭代方向,ChatGPT-Agent重點關(guān)注GDPval,聚焦專業(yè)工作場景的體驗;相對來說Manus與Genspark更側(cè)重用戶反饋。不同的評測體現(xiàn)帶來了不同的產(chǎn)品長項與短板。我們認為優(yōu)秀的通用Agent應(yīng)當(dāng)兼顧最多樣的任務(wù),而不側(cè)重一方。

發(fā)現(xiàn)三:能力維度上,GenSpark在隱式指令推斷上表現(xiàn)最優(yōu),Manus在開放工作流執(zhí)行最優(yōu),Minimax-Agent具有最好的迭代式編輯能力。

能力維度的表現(xiàn)不一或來源于Agent框架的差異。隱式條件推斷是目前Agent普遍最薄弱的能力項。一些任務(wù)要求Agent從附件中自動識別格式規(guī)則,例如從PPT 模板中抽取頁眉頁腳結(jié)構(gòu)或引用標注方式,再遷移到新的內(nèi)容生成中。我們觀察到,即便是整體表現(xiàn)最好的系統(tǒng),在這類任務(wù)中也很難做到完全正確。要么格式復(fù)現(xiàn)正確但覆蓋不足,要么內(nèi)容理解到位但無法保持結(jié)構(gòu)一致。

綜合來看,穩(wěn)定性、文件處理鏈路、隱式結(jié)構(gòu)理解能力,乃至跨工具的狀態(tài)管理,都是決定Agent能否真正承擔(dān)一天工作量的關(guān)鍵環(huán)節(jié)。AgentIF-OneDay通過這類任務(wù),揭示了當(dāng)前Agent在真實使用場景中的能力邊界和一些常見的失效模式,也幫助我們更清楚地看到下一階段能力演進的方向。

展望:從oneday、oneweek到持續(xù)學(xué)習(xí)

隨著系統(tǒng)能力不斷提升,我們預(yù)計在2026年Agent將開始挑戰(zhàn)one-week的人類工作量。圍繞one-week的人類工作量,我們已經(jīng)開始著手構(gòu)建OneWeek的評測集。我們認為當(dāng)一個Agent能夠在一周尺度的工作量上保持穩(wěn)定高質(zhì)量的產(chǎn)出,它就具備了承擔(dān)真實崗位的能力,也能夠在組織內(nèi)開始創(chuàng)造更多實際價值。

與AgentIF-OneDay相比,OneWeekIF面臨的挑戰(zhàn)并不只是任務(wù)變得更長。隨著時間跨度增加,評測本身的出題難度也增加很多,rubric的設(shè)計會更加嚴格。一周尺度的任務(wù)往往開始呈現(xiàn)出明確的行業(yè)語境,無論是金融、醫(yī)療還是法律,這些高價值場景數(shù)據(jù)的獲取成本也會顯著上升。

當(dāng)任務(wù)復(fù)雜度發(fā)展到這一階段,依賴靜態(tài)數(shù)據(jù)集和離線構(gòu)建的訓(xùn)練與評測方式,開始顯露出難以回避的局限性。也正是在這里,一個方向變得越來越自然:讓 Agent在實際運行過程中具備主動學(xué)習(xí)的能力——能夠在真實或半真實環(huán)境中自主收集經(jīng)驗,對自身行為進行評估與修正,并通過長期交互逐步形成穩(wěn)定策略。

從更長期的技術(shù)演進來看,靜態(tài)訓(xùn)練與靜態(tài)評測可能都不是未來Agent系統(tǒng)的發(fā)展路徑。近期關(guān)于online learning的討論越來越多,更多researcher傾向于認為,如果模型只在既有的人類知識分布內(nèi)循環(huán),就無法突破到更高層級的智能,下一步的能力scaling不是訓(xùn)練完成的那一刻,很可能發(fā)生在模型被部署之后,通過不斷的real world RL來獲取practical的知識,持續(xù)學(xué)習(xí)、持續(xù)適應(yīng)。

用戶數(shù)據(jù)飛輪帶來高可靠Agent的出現(xiàn)

一個贏得用戶信任的Agent助理需要交付可靠結(jié)果,在長程任務(wù)中,錯誤累計效應(yīng)會呈指數(shù)級放大。我們將長程任務(wù)Agent的發(fā)展類比自動駕駛的發(fā)展歷程,同樣是從有限路段走向通用路段,從依賴頻繁人工干預(yù)走向長時無干預(yù)FSD。該過程的實現(xiàn)依賴于大量用戶駕駛數(shù)據(jù)的積累,用戶數(shù)據(jù)可以最大化拓展場景的豐富度,并給系統(tǒng)帶來最好的泛化性。在長時任務(wù)的Agents中,我們同樣可以推演,有效的數(shù)據(jù)累計可以帶來高可靠Agent系統(tǒng)的出現(xiàn),優(yōu)先轉(zhuǎn)起數(shù)據(jù)飛輪的公司將率先實現(xiàn)通用Agent的FSD時刻。

開源鏈接:

Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
WTT世界乒聯(lián)“點名”孫穎莎,釋放三個強烈信號,王曼昱真沒說錯

WTT世界乒聯(lián)“點名”孫穎莎,釋放三個強烈信號,王曼昱真沒說錯

八斗小先生
2026-02-28 17:15:54
一位腫瘤醫(yī)生的忠告:這世上除了生死,都是小事

一位腫瘤醫(yī)生的忠告:這世上除了生死,都是小事

洞見
2026-02-28 21:27:24
牡丹花下死!這次曝光新戀情的黃曉明,沒給楊穎、葉柯留一絲體面

牡丹花下死!這次曝光新戀情的黃曉明,沒給楊穎、葉柯留一絲體面

情感大頭說說
2026-03-01 06:40:17
一位34歲大齡剩女的相親標準:“想娶我,必須要滿足這三個條件”

一位34歲大齡剩女的相親標準:“想娶我,必須要滿足這三個條件”

多久情感
2026-02-28 09:03:32
特朗普呼吁伊朗政權(quán)更迭

特朗普呼吁伊朗政權(quán)更迭

界面新聞
2026-02-28 15:47:47
美元拋售潮來了!2 萬億海外美元正瘋狂回流,人民幣殺瘋了

美元拋售潮來了!2 萬億海外美元正瘋狂回流,人民幣殺瘋了

白淺娛樂聊
2026-03-01 01:47:54
中領(lǐng)館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

中領(lǐng)館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

閃電新聞
2026-02-26 12:46:48
哈梅內(nèi)伊的生死,是一個悖論

哈梅內(nèi)伊的生死,是一個悖論

劉遠舉
2026-02-28 23:09:07
一年流出視頻294部的小寶到底探過多少朵花?

一年流出視頻294部的小寶到底探過多少朵花?

挪威森林
2026-01-25 17:18:42
奧美拉唑被列為重點監(jiān)控藥物!醫(yī)生提醒:長期服用,注意5大細節(jié)

奧美拉唑被列為重點監(jiān)控藥物!醫(yī)生提醒:長期服用,注意5大細節(jié)

醫(yī)學(xué)原創(chuàng)故事會
2026-03-01 00:07:02
逃離三亞大潰!一萬四天價機票逼瘋打工人,中產(chǎn)游客已窮哭

逃離三亞大潰敗!一萬四天價機票逼瘋打工人,中產(chǎn)游客已窮哭

烈史
2026-02-26 14:51:59
3月外片陣容豪華,影迷:又要過節(jié)了

3月外片陣容豪華,影迷:又要過節(jié)了

澎湃新聞
2026-02-28 16:30:28
伊朗外長:目前美伊之間沒有直接聯(lián)系

伊朗外長:目前美伊之間沒有直接聯(lián)系

界面新聞
2026-02-28 23:26:14
掀桌子了,哈梅內(nèi)伊梭哈到底?

掀桌子了,哈梅內(nèi)伊梭哈到底?

漢唐智庫
2026-02-28 07:52:21
我們不相信蒸汽機是中國發(fā)明的,但美國經(jīng)濟學(xué)家薩克斯說蒸汽機是一項在中國開發(fā)的偉大發(fā)明

我們不相信蒸汽機是中國發(fā)明的,但美國經(jīng)濟學(xué)家薩克斯說蒸汽機是一項在中國開發(fā)的偉大發(fā)明

青陸
2026-02-27 14:47:40
如今黃河已成懸河,為啥不讓挖泥船把泥沙清走,讓黃河整體下移?

如今黃河已成懸河,為啥不讓挖泥船把泥沙清走,讓黃河整體下移?

天下十三洲獵奇
2026-03-01 00:21:41
外交部發(fā)言人就美國和以色列軍事打擊伊朗答記者問

外交部發(fā)言人就美國和以色列軍事打擊伊朗答記者問

界面新聞
2026-02-28 21:45:34
玄武門之變,李世民為啥只霸占李元吉之妻,卻沒霸占李建成老婆?

玄武門之變,李世民為啥只霸占李元吉之妻,卻沒霸占李建成老婆?

老媹古裝影視解說
2026-02-26 20:08:25
內(nèi)塔尼亞胡稱越來越多跡象表明哈梅內(nèi)伊“已不在人世”

內(nèi)塔尼亞胡稱越來越多跡象表明哈梅內(nèi)伊“已不在人世”

澎湃新聞
2026-03-01 03:39:07
越看越上頭!小七寶萌化全網(wǎng),張?zhí)m直言:這娃來的正是好時候!

越看越上頭!小七寶萌化全網(wǎng),張?zhí)m直言:這娃來的正是好時候!

樂悠悠娛樂
2026-02-28 15:12:32
2026-03-01 09:40:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
2894文章數(shù) 10458關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:中東大戰(zhàn)開始 有三個可怕的后果

頭條要聞

牛彈琴:中東大戰(zhàn)開始 有三個可怕的后果

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
本地
健康
手機
藝術(shù)

教育要聞

專業(yè)排名百分比揭秘!別再理解錯了

本地新聞

津南好·四時總相宜

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機要聞

更新包超10GB:華為鴻蒙HarmonyOS 6.0.0.328花粉Beta版開推

藝術(shù)要聞

這9個字讓你懷舊,能全認出就是真正的書法家!

無障礙瀏覽 進入關(guān)懷版