国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

走出 MMLU 的高分幻覺(jué):AI Agent 的「斯坦利時(shí)刻」與職場(chǎng)生存法則

0
分享至


Trainee-Bench:揭秘為什么很能打的大模型們?cè)诠ぷ鲌?chǎng)景中依然只是個(gè)‘職場(chǎng)巨嬰’。

01


序章:穿越數(shù)字世界的“莫哈韋沙漠”

把時(shí)鐘撥回 2005 年,內(nèi)華達(dá)州的莫哈韋沙漠。

那是美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)舉辦的無(wú)人駕駛挑戰(zhàn)賽現(xiàn)場(chǎng)。不同于平整的封閉賽道,DARPA 給出的考題殘酷而簡(jiǎn)單:沒(méi)有高精地圖輔助,沒(méi)有人類遠(yuǎn)程接管,車(chē)輛必須依靠自身的感知決策系統(tǒng),穿越數(shù)百公里的荒漠。

最初的嘗試是慘烈的,無(wú)數(shù)車(chē)輛在起步后不久就撞向巖石、陷入溝壑。直到一輛名為“斯坦利(Stanley)”的賽車(chē),依靠在非結(jié)構(gòu)化環(huán)境中的自主決策能力沖過(guò)終點(diǎn)。那一刻,被公認(rèn)為自動(dòng)駕駛的“斯坦利時(shí)刻”——它證明了機(jī)器智能的價(jià)值不在于實(shí)驗(yàn)室里的理想?yún)?shù),而在于能在充滿未知的物理世界中“活下來(lái)”并完成任務(wù)。

今天,在通往通用人工智能(AGI)的道路上,我們正站在這一時(shí)刻的數(shù)字鏡像前。

在多模態(tài)大模型(MLLMs)狂飆突進(jìn)的今天,MMLU、GSM8K 等基準(zhǔn)測(cè)試的分?jǐn)?shù)每隔幾個(gè)月就被刷新。然而,企業(yè)和開(kāi)發(fā)者卻面臨著一個(gè)共同的困惑:為什么這些在考卷上接近滿分的 AI,一旦放入真實(shí)的業(yè)務(wù)流程中,往往就變成了需要人類時(shí)刻照看的“巨嬰”?

02


繁榮下的隱憂:高分低能的“執(zhí)行鴻溝”

現(xiàn)有的 Agent 評(píng)測(cè)大多像是在“無(wú)菌室”里做題:環(huán)境是靜態(tài)的,任務(wù)是單一的,信息是全知的。我們正在用測(cè)試“大腦”的考卷,來(lái)評(píng)估“手腳”的靈活性。

近日,來(lái)自復(fù)旦大學(xué)、上海 AI Lab、浙江大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)發(fā)表了論文 。研究團(tuán)隊(duì)指出,現(xiàn)在的 Agent 之所以難用于實(shí)際生產(chǎn)環(huán)境,是因?yàn)樗鼈兇嬖陲@著的“執(zhí)行鴻溝”

? 現(xiàn)有的測(cè)試benchmark是“全知視角”的(Oracle-based):我們給模型完美的上下文,要求它輸出完美的答案。

? 真實(shí)的職場(chǎng)是“迷霧模式”的(Partially Observable):任務(wù)說(shuō)明書(shū)里可能沒(méi)有密碼,需求是模糊的,環(huán)境里充滿了老板突然交辦的任務(wù) B 和臨時(shí)插進(jìn)來(lái)的會(huì)議。

為了打破這種“高分低能”的幻覺(jué),研究團(tuán)隊(duì)造了一個(gè)高度仿真的“職場(chǎng)模擬器”——Trainee-Bench。他們拉來(lái)了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在內(nèi)的頂尖模型,進(jìn)行了一場(chǎng)殘酷的“入職第一天”壓力測(cè)試。

論文標(biāo)題:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

項(xiàng)目地址:https://github.com/KnowledgeXLab/EvoEnv

03


Trainee-Bench:AI 實(shí)習(xí)生的“受難日”

Trainee-Bench 不再關(guān)注單一能力的上限,而是考察 Agent 在復(fù)雜動(dòng)態(tài)環(huán)境中的“生存策略”。它模擬了一個(gè)新員工入職時(shí)的真實(shí)困境——缺乏“上帝視角”的輔助,一切靠自己。研究從三個(gè)硬核的技術(shù)維度,重新定義了 Agent 的能力邊界:

維度一:從“線性推理”到“動(dòng)態(tài)調(diào)度”

職場(chǎng)充滿了異步性。當(dāng) Agent 正在處理一份報(bào)表時(shí),突然收到緊急郵件。它能否展現(xiàn)出類似操作系統(tǒng)的調(diào)度能力?

? 優(yōu)先級(jí)判斷:能分清輕重緩急嗎?

? 掛起與恢復(fù):處理完緊急任務(wù)后,能無(wú)損地回到剛才的進(jìn)度嗎?


維度二:從“全知地圖”到“主動(dòng)探索”

在真實(shí)環(huán)境中,信息往往是碎片化且隱蔽的。Trainee-Bench 構(gòu)建了一個(gè)“無(wú)圖(Mapless)”環(huán)境,Agent 不會(huì)被告知“文件在哪里”或“工具怎么用”。它必須像人類實(shí)習(xí)生一樣,通過(guò)lsgrep探測(cè)目錄,自主閱讀文檔理解參數(shù),并在探索中逐步構(gòu)建起對(duì)環(huán)境的“認(rèn)知地圖”。


維度三:從“單次完成”到“持續(xù)學(xué)習(xí)”

一個(gè)合格的數(shù)字員工,必須具備“長(zhǎng)記性”的能力。Trainee-Bench 設(shè)置了長(zhǎng)程的時(shí)間跨度,考察 Agent 能否利用前一天的環(huán)境反饋和執(zhí)行歷史,在第二天避開(kāi)同樣的坑。


04


核心解密:如何構(gòu)建一個(gè)“無(wú)限流”職場(chǎng)?

Trainee-Bench 的構(gòu)造流程精妙地模擬了現(xiàn)實(shí)世界的復(fù)雜性。整個(gè)環(huán)境的構(gòu)建分為三個(gè)關(guān)鍵步驟:

? 第一步:拒絕死記硬背的“任務(wù)實(shí)例化”:為了防止Agent“背題”或過(guò)度擬合,Trainee-Bench 引入了 元任務(wù)(Meta-Task) 的概念。團(tuán)隊(duì)精心設(shè)計(jì)了181個(gè)元任務(wù)規(guī)則,這些元任務(wù)規(guī)則就像Rogue-like游戲一樣,通過(guò)隨機(jī)種子生成不同的NPC性格、文件路徑、數(shù)據(jù)分布等。此外,這些元任務(wù)會(huì)刻意隱藏部分關(guān)鍵線索,讓 agent 必須主動(dòng)探索環(huán)境和向外部尋求幫助才能繼續(xù)推進(jìn)任務(wù)。

? 第二步:還原真實(shí)的“動(dòng)態(tài)復(fù)合場(chǎng)景”:真實(shí)工作從來(lái)不是單線程的。Trainee-Bench 將多個(gè)獨(dú)立的任務(wù)實(shí)例,按照時(shí)間軸編排進(jìn)一個(gè)動(dòng)態(tài)復(fù)合場(chǎng)景中。這些任務(wù)具有不同的優(yōu)先級(jí),也可能存在先后依賴,考驗(yàn) 智能體的多任務(wù)規(guī)劃能力。

? 第三步:像導(dǎo)師一樣的“自動(dòng)驗(yàn)證機(jī)制”:系統(tǒng)不僅看最終結(jié)果,更關(guān)注過(guò)程。通過(guò)預(yù)埋的 Checkpoints(檢查點(diǎn)),環(huán)境能夠自動(dòng)評(píng)估Agent每一步做對(duì)了沒(méi)有,并給出細(xì)粒度的自然語(yǔ)言反饋。


05


評(píng)測(cè)結(jié)果:頂尖模型的集體“滑鐵盧”

研究團(tuán)隊(duì)測(cè)試了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在內(nèi)的7款頂尖模型,測(cè)試結(jié)果有些“扎心”。即便面對(duì)目前地表最強(qiáng)的 7 款模型,Trainee-Bench 依然像是一道難以逾越的墻。

洞察一:成功率的“天花板”極低

在綜合測(cè)試中,表現(xiàn)最好的Gemini-3-Flash成功率也僅為35%,而備受期待的GPT-5.1Claude-4-Sonnet成功率僅在23%左右。這說(shuō)明,面對(duì)非結(jié)構(gòu)化的動(dòng)態(tài)職場(chǎng),SOTA 模型離“獨(dú)立上崗”還有極遠(yuǎn)的距離。


洞察二:任務(wù)一多,立刻“顧頭不顧尾”

實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)并發(fā)任務(wù)數(shù)量從2 個(gè)增加到 6 個(gè)時(shí),除了 Claude-4 和 GPT-5.1 表現(xiàn)相對(duì)平穩(wěn)外,其他模型的性能都出現(xiàn)了斷崖式下降。多線程工作的調(diào)度能力,依然是 AI 邁向高級(jí)助理的致命軟肋。


洞察三:最扎心的發(fā)現(xiàn):Agent 竟然“記吃不記打”?

Trainee-Bench最獨(dú)特的設(shè)計(jì)之一是引入了“持續(xù)學(xué)習(xí)”的評(píng)估。研究者讓Agent先工作一天(Day 1),根據(jù)反饋總結(jié)經(jīng)驗(yàn),讓智能體在Day 2再次執(zhí)行和第一天類似的任務(wù)。理論上,有了經(jīng)驗(yàn)總結(jié),第二天應(yīng)該干得更好對(duì)吧?

結(jié)果恰恰相反!結(jié)果顯示:使用了經(jīng)驗(yàn)后,Agent 的整體表現(xiàn)反而下降了(得分從 0.42 降至 0.36)。原因在于,當(dāng)前大模型總結(jié)的“經(jīng)驗(yàn)”往往非常膚淺或過(guò)度擬合。面對(duì)動(dòng)態(tài)變化的新環(huán)境,生搬硬套昨天的教條反而成了執(zhí)行的累贅。


06


智能體商業(yè)價(jià)值的重構(gòu):用“人類時(shí)間”丈量技術(shù)

技術(shù)范式的轉(zhuǎn)移,必然伴隨著商業(yè)邏輯的重構(gòu)。AI Agent 的核心價(jià)值不在于算力消耗,而在于“解放”人類的時(shí)間。

在移動(dòng)互聯(lián)網(wǎng)時(shí)代,商業(yè)的核心是“注意力經(jīng)濟(jì)APP 恨不得占有你每一分鐘。而 AI Agent 時(shí)代的邏輯恰恰相反:Agent 本質(zhì)上是 "Service-as-Software"(服務(wù)即軟件),它的核心價(jià)值在于“解放”人類的時(shí)間。

本篇論文提出的測(cè)試結(jié)果,實(shí)際上指向了一個(gè)可以直接與 投資回報(bào)率(ROI)掛鉤的終極指標(biāo):等價(jià)人類時(shí)間(Equivalent Human Time),即:

價(jià) 值 人 類 自 主 完 成 時(shí) 間 耗 時(shí) 人 類 監(jiān) 工 與 修 正 時(shí) 間

如果一個(gè) Agent 需要人類頻繁介入去糾錯(cuò)、去喂數(shù)據(jù),該指標(biāo)可能為負(fù)——這意味著它不僅沒(méi)有生產(chǎn)力,反而在浪費(fèi)算力。只有當(dāng) Agent 在“探索、調(diào)度、學(xué)習(xí)”三個(gè)環(huán)節(jié)實(shí)現(xiàn)零接管,它才真正具備了商業(yè)上的“長(zhǎng)青”價(jià)值。

《The Agent's First Day》的實(shí)驗(yàn)數(shù)據(jù)給出了一個(gè)令人振奮的側(cè)面:當(dāng)人類在關(guān)鍵時(shí)刻給出少量指導(dǎo)(Human Guidance)時(shí),GPT-4o 的得分能從0.24飆升至0.83。這證明了:模型本身的推理能力其實(shí)已經(jīng)足夠強(qiáng),它真正匱乏的是像人類一樣的主動(dòng)探索意識(shí)和對(duì)環(huán)境的敏銳感知。


07


結(jié)語(yǔ):尋找數(shù)字職場(chǎng)的“斯坦利”

20 年前,莫哈韋沙漠揚(yáng)起的沙塵,開(kāi)啟了物理世界自動(dòng)駕駛的黃金時(shí)代。

今天,《The Agent's First Day》在數(shù)字世界里構(gòu)建的這座“職場(chǎng)迷宮”,或許正是 AI Agent 走向 AGI 所必須跨越的荒漠。它向行業(yè)揭示了一個(gè)樸素的洞察:停止單純卷模型的參數(shù),開(kāi)始卷 Agent 的自主學(xué)習(xí)性。

因?yàn)?,只有那些能夠?dú)自處理復(fù)雜任務(wù)、讓用戶真正敢于放手、在“無(wú)圖”環(huán)境中生存下來(lái)的 Agent,才能在未來(lái)的職場(chǎng)中獲得一張正式的工牌。

想要挑戰(zhàn)一下你的 Agent 嗎?Trainee-Bench 的數(shù)據(jù)與代碼已正式開(kāi)源,歡迎全球開(kāi)發(fā)者帶著Agent前來(lái)應(yīng)聘!

? 論文標(biāo)題:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

? 項(xiàng)目地址:https://github.com/KnowledgeXLab/EvoEnv

? arXiv 地址:https://arxiv.org/abs/2601.08173

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
駐韓美軍部分“薩德”反導(dǎo)系統(tǒng)轉(zhuǎn)往中東

駐韓美軍部分“薩德”反導(dǎo)系統(tǒng)轉(zhuǎn)往中東

環(huán)球網(wǎng)資訊
2026-03-10 13:06:08
人在庫(kù)姆卻被拒之門(mén)外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

人在庫(kù)姆卻被拒之門(mén)外!伊朗選舉鬧劇,選出哈梅內(nèi)伊“太子”

老馬拉車(chē)莫少裝
2026-03-09 19:03:45
新歡上位成功?買(mǎi)超又曝喜當(dāng)?shù)職g似是當(dāng)年那個(gè)女大學(xué)生

新歡上位成功?買(mǎi)超又曝喜當(dāng)?shù)職g似是當(dāng)年那個(gè)女大學(xué)生

悅君兮君不知
2026-03-09 21:42:31
A股:不出意外 明天周三 牛市很有可能會(huì)迎大級(jí)別的反彈!

A股:不出意外 明天周三 牛市很有可能會(huì)迎大級(jí)別的反彈!

夜深愛(ài)雜談
2026-03-10 20:50:27
只有一個(gè)女兒的父母千萬(wàn)記住:女婿對(duì)你啥樣,都別交這五樣底

只有一個(gè)女兒的父母千萬(wàn)記住:女婿對(duì)你啥樣,都別交這五樣底

楓紅染山徑
2026-03-06 00:41:37
為什么有人會(huì)信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

為什么有人會(huì)信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

侃神評(píng)故事
2026-03-09 11:15:03
粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長(zhǎng),有幾人能鎮(zhèn)住他?

粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長(zhǎng),有幾人能鎮(zhèn)住他?

浩渺青史
2026-03-10 18:31:00
眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說(shuō)不出話

眾星送別袁惟仁,前妻陸元琪露面表示不再怨恨,Ella哭到說(shuō)不出話

萌神木木
2026-03-10 11:43:57
滅國(guó)級(jí)絞殺!伊朗新領(lǐng)袖剛上臺(tái),美軍基地全面開(kāi)放,這要徹底亡國(guó)

滅國(guó)級(jí)絞殺!伊朗新領(lǐng)袖剛上臺(tái),美軍基地全面開(kāi)放,這要徹底亡國(guó)

東極妙嚴(yán)
2026-03-09 17:19:50
伊各方誓言贏得戰(zhàn)爭(zhēng),美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當(dāng)選伊朗最高領(lǐng)袖

伊各方誓言贏得戰(zhàn)爭(zhēng),美總統(tǒng)發(fā)出矛盾信息,哈梅內(nèi)伊次子當(dāng)選伊朗最高領(lǐng)袖

環(huán)球網(wǎng)資訊
2026-03-10 06:43:10
身價(jià)僅80萬(wàn)!前皇馬7號(hào)沉淪:西甲10場(chǎng)0球 球隊(duì)瀕臨降級(jí)區(qū)

身價(jià)僅80萬(wàn)!前皇馬7號(hào)沉淪:西甲10場(chǎng)0球 球隊(duì)瀕臨降級(jí)區(qū)

葉青足球世界
2026-03-10 15:18:17
48歲中科院美女博導(dǎo)在中東突然去世:死因披露,給兒子留言曝光

48歲中科院美女博導(dǎo)在中東突然去世:死因披露,給兒子留言曝光

博士觀察
2026-03-09 16:22:08
追覓手機(jī)外觀確認(rèn):奢華設(shè)計(jì)叫板華為小米 三分天下

追覓手機(jī)外觀確認(rèn):奢華設(shè)計(jì)叫板華為小米 三分天下

快科技
2026-03-09 16:32:10
48小時(shí)生成500萬(wàn)字小說(shuō)?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來(lái)自AI

48小時(shí)生成500萬(wàn)字小說(shuō)?AI侵襲網(wǎng)文圈,有編輯稱四成收稿來(lái)自AI

藍(lán)鯨新聞
2026-03-09 12:14:45
為面子與左翎離婚29年,前妻幸福美滿他卻銷(xiāo)聲匿跡

為面子與左翎離婚29年,前妻幸福美滿他卻銷(xiāo)聲匿跡

心靈的觸動(dòng)a
2026-03-09 22:33:30
伊朗駐華大使館發(fā)文挑撥中美關(guān)系,估計(jì)難奏效

伊朗駐華大使館發(fā)文挑撥中美關(guān)系,估計(jì)難奏效

深度財(cái)線
2026-03-10 15:46:07
2026中國(guó)高端手機(jī)最新銷(xiāo)量:iPhone 17以2383.97萬(wàn)臺(tái)登頂榜首

2026中國(guó)高端手機(jī)最新銷(xiāo)量:iPhone 17以2383.97萬(wàn)臺(tái)登頂榜首

PChome電腦之家
2026-03-09 15:16:03
外媒:法國(guó)要求聯(lián)合國(guó)安理會(huì)召開(kāi)緊急會(huì)議,討論黎巴嫩當(dāng)前局勢(shì)

外媒:法國(guó)要求聯(lián)合國(guó)安理會(huì)召開(kāi)緊急會(huì)議,討論黎巴嫩當(dāng)前局勢(shì)

環(huán)球網(wǎng)資訊
2026-03-09 19:57:22
巴薩棄將巴甲閃耀 計(jì)劃世界杯后離開(kāi)帕爾梅拉斯 標(biāo)價(jià)超5000萬(wàn)歐

巴薩棄將巴甲閃耀 計(jì)劃世界杯后離開(kāi)帕爾梅拉斯 標(biāo)價(jià)超5000萬(wàn)歐

智道足球
2026-03-10 19:16:51
寶馬銷(xiāo)售直播狂踩小米汽車(chē)!小米高管回應(yīng)

寶馬銷(xiāo)售直播狂踩小米汽車(chē)!小米高管回應(yīng)

鞭牛士
2026-03-10 14:32:06
2026-03-10 23:15:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣(mài)Token

頭條要聞

小伙輾轉(zhuǎn)8天回國(guó):后悔賺錢(qián)賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉(zhuǎn)8天回國(guó):后悔賺錢(qián)賺到伊朗 赴死的心都有了

體育要聞

加蘭沒(méi)那么差,但鱸魚(yú)會(huì)用嗎?

娛樂(lè)要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

汽車(chē)要聞

MG4有SUV衍生 上汽乘用車(chē)多款新車(chē)規(guī)劃曝光

態(tài)度原創(chuàng)

教育
游戲
時(shí)尚
本地
軍事航空

教育要聞

近10年,全國(guó)普通高校畢業(yè)生規(guī)模連年增長(zhǎng)!

羨慕嗎?國(guó)外圖書(shū)館都能借上3A大作了

看來(lái)看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

本地新聞

云游中國(guó)|候鳥(niǎo)高顏值亮相!沉浸式打卡青海濕地

軍事要聞

剛說(shuō)完戰(zhàn)爭(zhēng)很快結(jié)束 特朗普改口

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版