網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

上交大與騰訊發(fā)布：AI助手復(fù)雜任務(wù)完成成功率僅14%根源揭示突破

2026-04-27 21:16:25　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由上海交通大學(xué)聯(lián)合上海人工智能實(shí)驗(yàn)室、騰訊及南洋理工大學(xué)共同開(kāi)展的研究，以預(yù)印本形式于2026年4月17日發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.15715。研究的核心是構(gòu)建一套名為GTA-2的分級(jí)評(píng)測(cè)體系，專(zhuān)門(mén)用來(lái)衡量AI智能體在真實(shí)工具使用場(chǎng)景下的能力上限。

前言：當(dāng)AI助手遇到真實(shí)工作

每當(dāng)一個(gè)新的AI大模型發(fā)布，總有人迫不及待地在演示視頻里展示它如何完成復(fù)雜任務(wù)——搜索信息、處理表格、生成報(bào)告，一氣呵成?？雌饋?lái)，通用AI助手的時(shí)代似乎已經(jīng)到來(lái)。

但現(xiàn)實(shí)中，當(dāng)你真的把一項(xiàng)復(fù)雜的工作任務(wù)交給AI時(shí)，結(jié)果往往令人失望。它可能在某個(gè)中間步驟卡住，或者生成了一堆文件卻沒(méi)有組織成你需要的格式，又或者最后交出的"報(bào)告"根本不符合要求。

這種落差從哪里來(lái)？現(xiàn)有的AI評(píng)測(cè)標(biāo)準(zhǔn)夠不夠真實(shí)、夠不夠全面？研究團(tuán)隊(duì)認(rèn)為，問(wèn)題的根源在于當(dāng)前的評(píng)測(cè)體系本身——那些測(cè)試AI工具使用能力的"考題"，大多是人工編造的、依賴(lài)虛假工具的、只在純文字環(huán)境下運(yùn)行的題目，根本不能反映真實(shí)世界里AI助手要面對(duì)的復(fù)雜狀況。

于是，他們決定自己動(dòng)手造一套更真實(shí)的考場(chǎng)。

一、這套考卷究竟考什么

要理解這項(xiàng)研究，可以把它想象成一場(chǎng)分為兩輪的考試。

第一輪考的是"基本功"：給你一張圖片，讓你識(shí)別圖中的文字，然后用計(jì)算器算出答案，最后把結(jié)果標(biāo)注在圖上。這種任務(wù)有明確的答案，有清晰的步驟，考的是AI能不能精準(zhǔn)調(diào)用正確工具、一步一步把問(wèn)題解決。這一輪叫做GTA-Atomic，直接繼承自研究團(tuán)隊(duì)此前發(fā)布的GTA基準(zhǔn)測(cè)試，已經(jīng)在2024年的NeurIPS會(huì)議上發(fā)表。

第二輪考的是"綜合實(shí)戰(zhàn)"：給你一份真實(shí)的銷(xiāo)售數(shù)據(jù)表格，讓你計(jì)算各月的關(guān)鍵業(yè)績(jī)指標(biāo)，找出表現(xiàn)最好的產(chǎn)品類(lèi)別，畫(huà)出折線(xiàn)圖、柱狀圖和餅圖，最后把所有內(nèi)容打包成一份包含數(shù)據(jù)分析和改善建議的專(zhuān)業(yè)PDF報(bào)告。這種任務(wù)沒(méi)有唯一正確的做法，考的是AI能不能從頭到尾完成一件真實(shí)的生產(chǎn)性工作任務(wù)，并且交出一份可以實(shí)際使用的"成果物"。這一輪叫做GTA-Workflow，是這次研究最核心的新貢獻(xiàn)。

這兩輪考試共同構(gòu)成了GTA-2分級(jí)評(píng)測(cè)體系，形成了一個(gè)從"單個(gè)工具操作"到"完整工作流程"的完整評(píng)估階梯。

二、考題從哪里來(lái)：三個(gè)"真實(shí)"的堅(jiān)守

研究團(tuán)隊(duì)在設(shè)計(jì)題目時(shí)，反復(fù)強(qiáng)調(diào)了"真實(shí)性"這一原則，并將其拆解為三個(gè)層面。

第一個(gè)真實(shí)，是查詢(xún)來(lái)自真實(shí)用戶(hù)。研究團(tuán)隊(duì)不讓AI生成題目，而是讓人類(lèi)親手寫(xiě)出帶有實(shí)際工具使用需求的問(wèn)題，或者從Reddit、Stack Exchange等真實(shí)社區(qū)里收集高質(zhì)量的用戶(hù)帖子改編而來(lái)。這樣的問(wèn)題不會(huì)在字里行間暗示"你需要用搜索工具查一下"，而是像現(xiàn)實(shí)中用戶(hù)提問(wèn)一樣，把工具使用的需求藏在任務(wù)目標(biāo)里，需要AI自己推斷。

第二個(gè)真實(shí)，是工具是真實(shí)部署的。評(píng)測(cè)中使用的每一個(gè)工具——無(wú)論是圖像識(shí)別、文檔讀取還是圖表繪制——都是真正可以運(yùn)行、會(huì)產(chǎn)生真實(shí)輸出的程序，不是用文字模擬的假工具。這意味著AI調(diào)用一個(gè)錯(cuò)誤的工具，就會(huì)得到一個(gè)真實(shí)的錯(cuò)誤結(jié)果，而不是系統(tǒng)幫它"假裝成功"。

第三個(gè)真實(shí)，是輸入包含真實(shí)的多模態(tài)內(nèi)容。任務(wù)的輸入不僅限于文字，還包括截圖、手寫(xiě)內(nèi)容、地圖、食譜圖片、空間場(chǎng)景等各種真實(shí)生活中會(huì)遇到的視覺(jué)材料。AI必須真正理解這些圖像，而不是在純文字環(huán)境下應(yīng)付了事。

這三個(gè)"真實(shí)"共同構(gòu)成了一道天然的難度壁壘，把那些只會(huì)背答案、走捷徑的AI擋在門(mén)外。

三、工作流考場(chǎng)的獨(dú)特挑戰(zhàn)

GTA-Workflow的核心難點(diǎn)，在于它根本沒(méi)有一個(gè)"標(biāo)準(zhǔn)答案路徑"。

在基礎(chǔ)工具使用的考試中，研究人員可以預(yù)先設(shè)定好每一步應(yīng)該調(diào)用什么工具、參數(shù)填什么、預(yù)期輸出是什么，然后對(duì)照AI的實(shí)際操作打分。但在工作流任務(wù)中，完成同一個(gè)目標(biāo)可以有數(shù)十種不同的路徑。更重要的是，那些先進(jìn)的AI系統(tǒng)（比如Manus或OpenClaw）內(nèi)部有自己的規(guī)劃?rùn)C(jī)制和記憶管理，外部根本無(wú)法觀(guān)察它們的"內(nèi)部決策"，更談不上對(duì)過(guò)程進(jìn)行逐步評(píng)分。

因此，研究團(tuán)隊(duì)專(zhuān)門(mén)設(shè)計(jì)了一套"遞歸檢查點(diǎn)評(píng)估機(jī)制"來(lái)應(yīng)對(duì)這一挑戰(zhàn)。

具體做法是這樣的：對(duì)于每一個(gè)工作流任務(wù)，研究人員不去規(guī)定AI應(yīng)該怎么做，而是把最終成果物應(yīng)該滿(mǎn)足的條件分解成一棵"目標(biāo)樹(shù)"。這棵樹(shù)的根節(jié)點(diǎn)是整體任務(wù)目標(biāo)，往下分出若干子任務(wù)節(jié)點(diǎn)，每個(gè)子任務(wù)節(jié)點(diǎn)再往下分出更細(xì)化的"葉節(jié)點(diǎn)"——也就是最具體、可以直接核查的子目標(biāo)。

舉個(gè)例子，在銷(xiāo)售數(shù)據(jù)分析報(bào)告任務(wù)中，整棵目標(biāo)樹(shù)可能是這樣的結(jié)構(gòu)：根節(jié)點(diǎn)是"完成完整的數(shù)據(jù)分析報(bào)告"；它分出兩個(gè)子節(jié)點(diǎn)，一個(gè)是"數(shù)據(jù)解析與指標(biāo)計(jì)算"，另一個(gè)是"圖表繪制與PDF生成"；在"數(shù)據(jù)解析"這個(gè)子節(jié)點(diǎn)下面，又有"正確計(jì)算月度增長(zhǎng)率"和"正確計(jì)算客單價(jià)"等葉節(jié)點(diǎn)；在"圖表繪制"下面，有"折線(xiàn)圖正確反映趨勢(shì)"、"柱狀圖包含各類(lèi)目數(shù)據(jù)"和"餅圖比例準(zhǔn)確"等葉節(jié)點(diǎn)。

每一個(gè)葉節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)可以由AI評(píng)判模型客觀(guān)打分的具體要求，分值從0到10。非葉節(jié)點(diǎn)的得分則是其子節(jié)點(diǎn)的加權(quán)平均值，權(quán)重由重要程度決定，最后層層聚合到根節(jié)點(diǎn)，得出整個(gè)任務(wù)的總分。這種設(shè)計(jì)的妙處在于，它既給出了總體完成度的概覽（根節(jié)點(diǎn)分?jǐn)?shù)），又保留了每個(gè)具體子目標(biāo)的細(xì)粒度信息，可以用來(lái)分析AI在哪個(gè)環(huán)節(jié)出了問(wèn)題。

四、題庫(kù)是怎么做出來(lái)的

GTA-Workflow的132道題經(jīng)歷了一套嚴(yán)格的"煉制"流程，絕不是隨手從網(wǎng)上抄幾個(gè)問(wèn)題就了事。

原始素材來(lái)自?xún)蓚€(gè)渠道。一是直接收集Manus、Kortix、Flowith、Minimax Agent和CrewAI等AI智能體平臺(tái)上的真實(shí)任務(wù)案例，確保題目與當(dāng)前AI系統(tǒng)的實(shí)際應(yīng)用場(chǎng)景對(duì)齊。二是從Reddit和Stack Exchange上篩選高互動(dòng)度的用戶(hù)提問(wèn)，把真實(shí)用戶(hù)的需求轉(zhuǎn)化為評(píng)測(cè)題目。原始收集到的154道題，最終保留了132道。

但這些原始題目并不能直接用。研究團(tuán)隊(duì)讓AI模型對(duì)每道題進(jìn)行分類(lèi)：該刪的刪，因?yàn)轭}目要么太依賴(lài)深度視覺(jué)理解而超出工具能力范圍，要么根本無(wú)法用給定工具集解決；該精煉的精煉，把模糊的要求變清晰，把缺失的輸出格式補(bǔ)上；該擴(kuò)充的擴(kuò)充，把過(guò)于簡(jiǎn)單、工具使用不夠豐富的題目擴(kuò)展成真正的多步驟工作流。只有極少數(shù)本身質(zhì)量足夠高的題目可以直接通過(guò)。

從數(shù)字來(lái)看，67道題經(jīng)過(guò)了擴(kuò)充處理，62道經(jīng)過(guò)了精煉處理，只有3道題直接通過(guò)。這說(shuō)明現(xiàn)實(shí)中收集來(lái)的原始素材往往不適合直接當(dāng)作評(píng)測(cè)題目，必須經(jīng)過(guò)大量改造才能達(dá)到標(biāo)準(zhǔn)。精煉操作平均給每道題增加了4.45個(gè)約束條件，成果物要求的描述字?jǐn)?shù)平均增加了14倍；擴(kuò)充操作平均新增了3.48個(gè)工具，成果物要求增加了將近5倍。

改造完成后，還需要經(jīng)過(guò)自動(dòng)驗(yàn)證和人工審核兩道關(guān)卡。自動(dòng)驗(yàn)證負(fù)責(zé)檢查三條硬性規(guī)定：檢查點(diǎn)必須描述結(jié)果狀態(tài)而非操作動(dòng)作，評(píng)分標(biāo)準(zhǔn)不能提及具體工具調(diào)用，任務(wù)描述里不能出現(xiàn)預(yù)設(shè)的執(zhí)行步驟。凡是違反這些規(guī)定的題目，就要退回重寫(xiě)，直到符合要求為止。最后，人工標(biāo)注員逐題核查任務(wù)的清晰度、可行性和真實(shí)性，并對(duì)使用頻率偏低的工具進(jìn)行專(zhuān)項(xiàng)補(bǔ)充，保證題庫(kù)的工具覆蓋均衡。

五、考場(chǎng)配置：工具、模態(tài)與評(píng)分規(guī)則

GTA-Workflow支持的輸入類(lèi)型比基礎(chǔ)測(cè)試豐富得多，涵蓋圖片、Word文檔、Excel表格、PowerPoint演示文稿、PDF文件、音頻和視頻，接近真實(shí)辦公場(chǎng)景下會(huì)遇到的各種文件類(lèi)型。

工具數(shù)量從基礎(chǔ)測(cè)試的14個(gè)擴(kuò)展到37個(gè)，新增了大量與實(shí)際工作相關(guān)的能力，包括讀寫(xiě)Word、Excel、PDF、PPT文件的系列工具，音頻處理工具（截取片段、降噪、音調(diào)變換），視頻處理工具（截取片段、添加文字注釋、目標(biāo)檢測(cè)），以及語(yǔ)音轉(zhuǎn)文字、HTML文件生成等。工具類(lèi)別仍然維持感知、操作、邏輯和創(chuàng)作四大類(lèi)不變。

輸出成果物同樣更加多樣，涵蓋純文本、圖片、音頻、視頻、代碼、Word文檔、PDF、HTML頁(yè)面、CSV數(shù)據(jù)文件、Excel表格、PPT演示文稿、JSON數(shù)據(jù)文件和Markdown文檔等十余種格式，覆蓋了真實(shí)工作產(chǎn)出的大部分常見(jiàn)形態(tài)。

評(píng)分方面，研究團(tuán)隊(duì)使用GPT-5.2作為AI評(píng)判模型，對(duì)每個(gè)葉節(jié)點(diǎn)進(jìn)行0到10分的打分，并要求給出評(píng)分理由。任務(wù)總分通過(guò)遞歸加權(quán)聚合計(jì)算得出，當(dāng)根節(jié)點(diǎn)分?jǐn)?shù)超過(guò)7分時(shí)，判定為任務(wù)完成。為了驗(yàn)證這套評(píng)分機(jī)制的可靠性，研究團(tuán)隊(duì)專(zhuān)門(mén)找了兩名人類(lèi)標(biāo)注員對(duì)30道題的276個(gè)葉節(jié)點(diǎn)進(jìn)行獨(dú)立評(píng)分，然后與AI評(píng)判模型的分?jǐn)?shù)做對(duì)比。結(jié)果顯示，AI評(píng)判模型與人類(lèi)平均分的皮爾遜相關(guān)系數(shù)達(dá)到0.966，任務(wù)級(jí)別的組內(nèi)相關(guān)系數(shù)為0.928，平均絕對(duì)誤差僅0.74分，與兩個(gè)人類(lèi)標(biāo)注員之間的一致性（皮爾遜相關(guān)系數(shù)0.965）基本持平。換句話(huà)說(shuō)，AI裁判的公正程度已經(jīng)接近人類(lèi)裁判。

六、各大AI模型的實(shí)際表現(xiàn)

當(dāng)研究團(tuán)隊(duì)把這套考卷遞到當(dāng)今最頂尖的AI模型面前，結(jié)果令人瞠目。

先看基礎(chǔ)工具使用的考試。表現(xiàn)最好的GPT-4和GPT-4o，正確完成任務(wù)的比例不超過(guò)50%。其他閉源模型大多在25%以下，開(kāi)源模型則更低，Mixtral-8x7B只有約10%，Llama-3-8B只有約3%。即便是在"給出前幾步的情況下預(yù)測(cè)下一步"這種相對(duì)容易的步進(jìn)測(cè)試中，GPT-4o的工具選擇準(zhǔn)確率也只有70%，參數(shù)填寫(xiě)準(zhǔn)確率更是只有35%。這說(shuō)明，哪怕是最基礎(chǔ)的多步驟工具調(diào)用任務(wù)，對(duì)當(dāng)前AI來(lái)說(shuō)都遠(yuǎn)比看起來(lái)難。

再看工作流任務(wù)的考試。在13個(gè)被測(cè)模型中，表現(xiàn)最好的Gemini-2.5-Pro，完整完成任務(wù)的成功率僅為14.39%。GPT-5為11.36%，Grok-4為9.85%，Claude-Sonnet-4.5為9.09%。開(kāi)源模型中，Qwen3-235B-A22B和Llama-4-Scout都達(dá)到了10.61%，與頂級(jí)閉源模型差距不大。但規(guī)模較小的模型表現(xiàn)則是斷崖式下滑：Llama-3.1-70B成功率不足1%，Qwen3-8B和Llama-3.1-8B-Instruct則徹底為零——沒(méi)有完成任何一道題。

特別耐人尋味的是，Kimi-K2的工具調(diào)用成功率高達(dá)89.85%，工具本身調(diào)用起來(lái)幾乎沒(méi)有問(wèn)題，但最終任務(wù)完成率卻只有8.33%。這個(gè)數(shù)字清楚地說(shuō)明，能正確調(diào)用工具，和能用工具完成一件真實(shí)的工作，是兩件完全不同的事情。

七、失敗圖鑒：哪里出了問(wèn)題

研究團(tuán)隊(duì)不滿(mǎn)足于知道AI失敗了，更想知道AI在哪個(gè)環(huán)節(jié)失敗的。為此，他們對(duì)每一個(gè)失敗的檢查點(diǎn)打上了階段標(biāo)簽，分析錯(cuò)誤的分布。

最常見(jiàn)的失敗發(fā)生在執(zhí)行階段，也就是AI在實(shí)際調(diào)用工具、與文件交互的過(guò)程中出了問(wèn)題。Gemini-2.5-Pro有33.7%的失敗屬于執(zhí)行階段錯(cuò)誤，Claude-Sonnet-4.5有34.0%。這說(shuō)明，維持長(zhǎng)達(dá)數(shù)十步的工具交互鏈條而不出錯(cuò)，是一件極其困難的事情。

第二大失敗原因是最終成果物沒(méi)有正確落地，包括文件格式不對(duì)、文件沒(méi)有正確導(dǎo)出、成果物結(jié)構(gòu)不符合要求等。這類(lèi)失敗在較弱的模型中尤為突出，Qwen3-8B有24.7%的失敗屬于此類(lèi)。這意味著，即便AI做完了大部分中間步驟，最后一哩路卻經(jīng)常走不通。

相比之下，推理錯(cuò)誤——也就是AI在邏輯思考上出了問(wèn)題——反而只占很小的比例，各模型均在7%以?xún)?nèi)。這說(shuō)明，當(dāng)前AI模型并不缺乏局部推理能力，缺的是把局部推理串聯(lián)成完整任務(wù)執(zhí)行的系統(tǒng)性能力。

研究團(tuán)隊(duì)還把失敗細(xì)分為三個(gè)層級(jí)：葉節(jié)點(diǎn)層面的局部子目標(biāo)失敗（A級(jí)）、組合層面的中間整合失?。˙級(jí)）和最終成果物層面的落地失?。–級(jí)）。在使用默認(rèn)Lagent框架的情況下，Gemini-2.5-Pro的C級(jí)失敗率高達(dá)77.78%，Claude-Sonnet-4.5更高達(dá)80.56%。也就是說(shuō)，即便是最頂尖的AI，一旦用標(biāo)準(zhǔn)框架運(yùn)行，有超過(guò)八成的時(shí)間根本交不出一份合格的最終成果物。B級(jí)失敗率也高達(dá)70%左右，說(shuō)明中間各部分的整合工作同樣是個(gè)大難題。

八、框架的力量：換一個(gè)"運(yùn)行環(huán)境"，成功率翻幾番

最令研究團(tuán)隊(duì)興奮的發(fā)現(xiàn)之一，來(lái)自不同AI執(zhí)行框架之間的對(duì)比實(shí)驗(yàn)。

研究團(tuán)隊(duì)用完全相同的底層AI模型（Claude-Sonnet-4.5），分別在兩個(gè)不同的執(zhí)行框架下完成30道工作流任務(wù)：一個(gè)是研究中默認(rèn)使用的Lagent框架，一個(gè)是更先進(jìn)的OpenClaw框架。

結(jié)果差距驚人。Lagent框架下，根節(jié)點(diǎn)平均得分只有2.49分，任務(wù)完成率為0%——30道題一道都沒(méi)完成。切換到OpenClaw框架后，相同的AI模型根節(jié)點(diǎn)平均分跳升至6.82分，任務(wù)完成率達(dá)到50%，葉節(jié)點(diǎn)通過(guò)率從10.14%飆升至73.55%。

同樣的AI模型，就像同一個(gè)人，換了一套更完善的工作流程和工具支持體系，成功率從零變成了一半。

研究團(tuán)隊(duì)還測(cè)試了Manus和Kortix這兩個(gè)不對(duì)外公開(kāi)底層模型的商業(yè)AI智能體平臺(tái)。Manus的任務(wù)完成率為53.3%，根節(jié)點(diǎn)平均得分6.94；Kortix的完成率同樣為53.3%，平均得分6.83。這兩個(gè)商業(yè)系統(tǒng)的表現(xiàn)與OpenClaw相當(dāng)，都遠(yuǎn)超單獨(dú)使用頂級(jí)大模型的結(jié)果。

從效率角度看，三個(gè)先進(jìn)框架各有側(cè)重。Manus的成本效率最高，每花1美元獲得的根節(jié)點(diǎn)得分達(dá)到0.463；OpenClaw成本最高（每30道題花費(fèi)35美元），但絕對(duì)性能最強(qiáng)；Kortix則提供了介于兩者之間的均衡選擇。

這組對(duì)比實(shí)驗(yàn)最直接的啟示是：在工作流場(chǎng)景下，AI模型的能力固然重要，但執(zhí)行框架的設(shè)計(jì)質(zhì)量同樣關(guān)鍵，甚至可能更重要。一個(gè)設(shè)計(jì)糟糕的框架，能讓頂尖AI模型一敗涂地；一個(gè)設(shè)計(jì)出色的框架，能把同樣的AI模型帶到全然不同的高度。

九、難度解剖：哪類(lèi)任務(wù)最難啃

研究團(tuán)隊(duì)從任務(wù)復(fù)雜度、成果物類(lèi)型和任務(wù)領(lǐng)域三個(gè)維度，深入分析了難度分布。

從復(fù)雜度角度看，GTA-2按照葉節(jié)點(diǎn)數(shù)量把工作流分為簡(jiǎn)單（3至7個(gè)葉節(jié)點(diǎn)）、中等（8至12個(gè)）和復(fù)雜（13至19個(gè)）三檔。幾乎所有模型都呈現(xiàn)出相同的規(guī)律：隨著葉節(jié)點(diǎn)數(shù)量增加，葉節(jié)點(diǎn)通過(guò)率穩(wěn)步下降。GPT-5在簡(jiǎn)單任務(wù)上能達(dá)到約22%的葉節(jié)點(diǎn)通過(guò)率，但在復(fù)雜任務(wù)上降至約13%。唯一的例外是Gemini-2.5-Pro，它在中等難度任務(wù)上成績(jī)有所下滑，但在復(fù)雜任務(wù)上反而回升到約24%，表現(xiàn)出一定的長(zhǎng)程穩(wěn)健性。

從成果物類(lèi)型角度看，所有模型在生成純文本類(lèi)成果（PDF文檔、純文本、HTML頁(yè)面）時(shí)表現(xiàn)最好，平均根節(jié)點(diǎn)得分在3.7至4.3分之間。多媒體類(lèi)成果（圖片、音頻、視頻）居中，平均約3.48分。最難搞定的是結(jié)構(gòu)化數(shù)據(jù)文件（CSV、Excel、JSON）和PPT演示文稿，平均分分別只有2.62和2.79。GPT-5在PPT生成上得了3.12分，但Claude-Sonnet-4.5只有2.14分，兩者相差近1分，說(shuō)明不同模型在高精度數(shù)據(jù)處理上存在明顯差異。

從任務(wù)領(lǐng)域角度看，六個(gè)任務(wù)類(lèi)別（數(shù)據(jù)分析、教育與教學(xué)、規(guī)劃與決策、創(chuàng)意設(shè)計(jì)、營(yíng)銷(xiāo)策略、檢索與問(wèn)答）中，沒(méi)有任何一個(gè)模型在所有類(lèi)別上都最強(qiáng)。Gemini-2.5-Pro在檢索與問(wèn)答上領(lǐng)先，Claude-Sonnet-4.5在創(chuàng)意設(shè)計(jì)上略勝一籌，說(shuō)明不同模型有各自的專(zhuān)長(zhǎng)區(qū)域。整體而言，需要精確數(shù)據(jù)操作或動(dòng)態(tài)信息整合的任務(wù)（數(shù)據(jù)分析、營(yíng)銷(xiāo)策略）最具挑戰(zhàn)性，而有穩(wěn)定知識(shí)基礎(chǔ)支撐的任務(wù)（教育、知識(shí)問(wèn)答）相對(duì)容易。

十、反饋的價(jià)值：檢查點(diǎn)也可以幫AI改進(jìn)

研究團(tuán)隊(duì)還探索了一種有趣的應(yīng)用：把評(píng)估框架反過(guò)來(lái)當(dāng)作改進(jìn)工具用。

實(shí)驗(yàn)過(guò)程是這樣的：讓GPT-5先生成一份工作流任務(wù)的成果物，然后由AI評(píng)判模型用檢查點(diǎn)樹(shù)進(jìn)行評(píng)分。接著讓GPT-5看到反饋，再做一次。研究團(tuán)隊(duì)對(duì)比了兩種反饋方式：一種是"粗粒度反饋"，只告訴AI"結(jié)果不對(duì)"；另一種是"檢查點(diǎn)反饋"，返回每個(gè)子目標(biāo)的具體失敗診斷。

結(jié)果頗為說(shuō)明問(wèn)題。沒(méi)有反饋時(shí)，平均根節(jié)點(diǎn)得分為2.83。加入粗粒度反饋后，得分小幅提升至2.93，相對(duì)提升4.05%。加入檢查點(diǎn)反饋后，得分上升至3.15，相對(duì)提升12.03%。檢查點(diǎn)反饋比粗粒度反饋的效果高出將近三倍。

這說(shuō)明，越細(xì)化的錯(cuò)誤診斷，就越能幫助AI找到正確的改進(jìn)方向。這也提示了一個(gè)頗具價(jià)值的應(yīng)用方向：把檢查點(diǎn)評(píng)估機(jī)制嵌入AI的訓(xùn)練或迭代優(yōu)化流程，讓AI在每次嘗試后獲得結(jié)構(gòu)化的診斷反饋，可能是提升工作流完成能力的有效路徑。

十一、評(píng)估本身是否可信

任何評(píng)估體系都需要接受關(guān)于自身可靠性的質(zhì)疑，GTA-2也不例外。研究團(tuán)隊(duì)專(zhuān)門(mén)設(shè)計(jì)了多項(xiàng)驗(yàn)證實(shí)驗(yàn)。

關(guān)于評(píng)分閾值的選取，研究團(tuán)隊(duì)測(cè)試了從5到9的五個(gè)不同成功判定閾值，觀(guān)察各閾值下模型排名和分值分布的變化。結(jié)果發(fā)現(xiàn)，閾值過(guò)低（5分）時(shí)，大多數(shù)模型都"及格"，分辨不出好壞；閾值過(guò)高（9分）時(shí)，幾乎所有模型都?xì)w零，同樣失去區(qū)分能力。7分是在嚴(yán)格性和區(qū)分度之間平衡最好的點(diǎn)，因此被選為默認(rèn)閾值。

關(guān)于AI評(píng)判模型的可靠性，除了前面提到的人類(lèi)一致性測(cè)試，研究團(tuán)隊(duì)還測(cè)試了換用Gemini-2.5-Flash作為裁判時(shí)的結(jié)果變化。雖然Gemini-2.5-Flash給出的分?jǐn)?shù)整體偏高，但四個(gè)模型的相對(duì)排名與使用GPT-5.2時(shí)完全一致，斯皮爾曼相關(guān)系數(shù)和肯德?tīng)栂嚓P(guān)系數(shù)均為完美的1.0。這說(shuō)明具體用哪個(gè)AI模型做裁判影響不大，排名結(jié)論是穩(wěn)健的。

關(guān)于跨模型公平性，研究團(tuán)隊(duì)分別從GPT-5輸出、Gemini-2.5-Pro輸出、OpenClaw輸出和Qwen3-30B-A3B輸出各取30道題，讓AI評(píng)判模型與人類(lèi)評(píng)分對(duì)比。對(duì)所有來(lái)源，皮爾遜相關(guān)系數(shù)均高于0.92，組內(nèi)相關(guān)系數(shù)均高于0.85，說(shuō)明AI裁判不會(huì)因?yàn)槌晒飦?lái)源不同而產(chǎn)生系統(tǒng)性偏差。

說(shuō)到底，這項(xiàng)研究傳達(dá)的信息相當(dāng)明確：當(dāng)前的AI助手，在真實(shí)工作場(chǎng)景下的表現(xiàn)，比我們通常以為的要差得多。

最頂尖的AI模型，在連續(xù)調(diào)用十幾個(gè)工具、處理各種文件格式、最終生成一份結(jié)構(gòu)完整的可用成果物這樣的任務(wù)上，成功率只有百分之十幾。失敗的原因不在于推理邏輯，而在于執(zhí)行過(guò)程的穩(wěn)定性和最終成果物的落地質(zhì)量。而換一個(gè)更完善的執(zhí)行框架，哪怕底層AI模型沒(méi)有變，成功率就能從零躍升到一半以上——這說(shuō)明我們現(xiàn)在面對(duì)的，與其說(shuō)是AI能力的天花板，不如說(shuō)是AI系統(tǒng)工程設(shè)計(jì)的瓶頸。

這對(duì)普通用戶(hù)意味著什么？如果你現(xiàn)在用某個(gè)AI助手來(lái)完成復(fù)雜工作任務(wù)，它完不成的大概率不是因?yàn)?笨"，而是因?yàn)樗澈蟮倪\(yùn)行框架設(shè)計(jì)得不夠完善。未來(lái)更好用的AI助手，可能不只是靠訓(xùn)練更強(qiáng)的大模型來(lái)實(shí)現(xiàn)，更需要在系統(tǒng)架構(gòu)層面下功夫。

這也引出了一個(gè)值得繼續(xù)追問(wèn)的問(wèn)題：當(dāng)AI執(zhí)行框架的設(shè)計(jì)越來(lái)越像一個(gè)"工作流操作系統(tǒng)"時(shí)，評(píng)估這套系統(tǒng)的能力，和評(píng)估底層AI模型本身，會(huì)不會(huì)最終成為同等重要的事情？GTA-2給出了一個(gè)初步的答案框架，但更深入的探索顯然還在路上。有興趣深入了解的讀者，可以通過(guò)arXiv編號(hào)2604.15715查閱完整論文，代碼和數(shù)據(jù)集也將在GitHub的open-compass/GTA倉(cāng)庫(kù)開(kāi)放。

Q&A

Q1：GTA-Workflow的檢查點(diǎn)評(píng)估機(jī)制是怎么運(yùn)作的？

A：GTA-Workflow把每個(gè)任務(wù)的目標(biāo)分解成一棵"目標(biāo)樹(shù)"，樹(shù)的最底層葉節(jié)點(diǎn)是具體可核查的子目標(biāo)，比如"折線(xiàn)圖是否正確反映趨勢(shì)"。AI評(píng)判模型對(duì)每個(gè)葉節(jié)點(diǎn)打0到10分，再按權(quán)重層層加權(quán)聚合到根節(jié)點(diǎn)，得出整個(gè)任務(wù)的總分。根節(jié)點(diǎn)得分超過(guò)7分即視為任務(wù)完成。這種機(jī)制既給出總體完成度，也保留了細(xì)粒度的子目標(biāo)診斷信息。

Q2：GTA-Workflow測(cè)出來(lái)頂級(jí)AI成功率只有14%，是因?yàn)轭}目太難了嗎？

A：難度確實(shí)比常規(guī)評(píng)測(cè)高，但"難"的來(lái)源是真實(shí)性而非刻意刁難。任務(wù)來(lái)自真實(shí)用戶(hù)需求，使用真實(shí)可運(yùn)行的工具，要求生成真實(shí)可用的成果物。在這個(gè)標(biāo)準(zhǔn)下，頂級(jí)AI成功率低的核心原因不是推理能力不足，而是在長(zhǎng)達(dá)數(shù)十步的工具交互鏈條中難以保持穩(wěn)定性，以及最終成果物的格式和結(jié)構(gòu)經(jīng)常不符合要求。

Q3：OpenClaw和Manus這些框架為什么能大幅提升AI的工作流完成率？

A：這些先進(jìn)執(zhí)行框架提供了更完善的系統(tǒng)級(jí)支持，包括動(dòng)態(tài)規(guī)劃能力（可以根據(jù)中間結(jié)果調(diào)整后續(xù)步驟）、持久化記憶管理（能記住任務(wù)各階段的狀態(tài)和中間結(jié)果）以及更穩(wěn)健的多步驟工具協(xié)調(diào)機(jī)制。相比之下，基礎(chǔ)框架（如Lagent）主要依賴(lài)AI模型自身的單次規(guī)劃能力，遇到執(zhí)行失敗或狀態(tài)丟失時(shí)缺乏恢復(fù)機(jī)制，導(dǎo)致任務(wù)中途崩潰的概率大幅升高?？蚣艿牟町?，本質(zhì)上是"工作流操作系統(tǒng)"設(shè)計(jì)水平的差異。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.