国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上交大與騰訊發(fā)布:AI助手復(fù)雜任務(wù)完成成功率僅14%根源揭示突破

0
分享至


這項(xiàng)由上海交通大學(xué)聯(lián)合上海人工智能實(shí)驗(yàn)室、騰訊及南洋理工大學(xué)共同開(kāi)展的研究,以預(yù)印本形式于2026年4月17日發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.15715。研究的核心是構(gòu)建一套名為GTA-2的分級(jí)評(píng)測(cè)體系,專(zhuān)門(mén)用來(lái)衡量AI智能體在真實(shí)工具使用場(chǎng)景下的能力上限。

前言:當(dāng)AI助手遇到真實(shí)工作

每當(dāng)一個(gè)新的AI大模型發(fā)布,總有人迫不及待地在演示視頻里展示它如何完成復(fù)雜任務(wù)——搜索信息、處理表格、生成報(bào)告,一氣呵成??雌饋?lái),通用AI助手的時(shí)代似乎已經(jīng)到來(lái)。

但現(xiàn)實(shí)中,當(dāng)你真的把一項(xiàng)復(fù)雜的工作任務(wù)交給AI時(shí),結(jié)果往往令人失望。它可能在某個(gè)中間步驟卡住,或者生成了一堆文件卻沒(méi)有組織成你需要的格式,又或者最后交出的"報(bào)告"根本不符合要求。

這種落差從哪里來(lái)?現(xiàn)有的AI評(píng)測(cè)標(biāo)準(zhǔn)夠不夠真實(shí)、夠不夠全面?研究團(tuán)隊(duì)認(rèn)為,問(wèn)題的根源在于當(dāng)前的評(píng)測(cè)體系本身——那些測(cè)試AI工具使用能力的"考題",大多是人工編造的、依賴(lài)虛假工具的、只在純文字環(huán)境下運(yùn)行的題目,根本不能反映真實(shí)世界里AI助手要面對(duì)的復(fù)雜狀況。

于是,他們決定自己動(dòng)手造一套更真實(shí)的考場(chǎng)。

一、這套考卷究竟考什么

要理解這項(xiàng)研究,可以把它想象成一場(chǎng)分為兩輪的考試。

第一輪考的是"基本功":給你一張圖片,讓你識(shí)別圖中的文字,然后用計(jì)算器算出答案,最后把結(jié)果標(biāo)注在圖上。這種任務(wù)有明確的答案,有清晰的步驟,考的是AI能不能精準(zhǔn)調(diào)用正確工具、一步一步把問(wèn)題解決。這一輪叫做GTA-Atomic,直接繼承自研究團(tuán)隊(duì)此前發(fā)布的GTA基準(zhǔn)測(cè)試,已經(jīng)在2024年的NeurIPS會(huì)議上發(fā)表。

第二輪考的是"綜合實(shí)戰(zhàn)":給你一份真實(shí)的銷(xiāo)售數(shù)據(jù)表格,讓你計(jì)算各月的關(guān)鍵業(yè)績(jī)指標(biāo),找出表現(xiàn)最好的產(chǎn)品類(lèi)別,畫(huà)出折線(xiàn)圖、柱狀圖和餅圖,最后把所有內(nèi)容打包成一份包含數(shù)據(jù)分析和改善建議的專(zhuān)業(yè)PDF報(bào)告。這種任務(wù)沒(méi)有唯一正確的做法,考的是AI能不能從頭到尾完成一件真實(shí)的生產(chǎn)性工作任務(wù),并且交出一份可以實(shí)際使用的"成果物"。這一輪叫做GTA-Workflow,是這次研究最核心的新貢獻(xiàn)。

這兩輪考試共同構(gòu)成了GTA-2分級(jí)評(píng)測(cè)體系,形成了一個(gè)從"單個(gè)工具操作"到"完整工作流程"的完整評(píng)估階梯。

二、考題從哪里來(lái):三個(gè)"真實(shí)"的堅(jiān)守

研究團(tuán)隊(duì)在設(shè)計(jì)題目時(shí),反復(fù)強(qiáng)調(diào)了"真實(shí)性"這一原則,并將其拆解為三個(gè)層面。

第一個(gè)真實(shí),是查詢(xún)來(lái)自真實(shí)用戶(hù)。研究團(tuán)隊(duì)不讓AI生成題目,而是讓人類(lèi)親手寫(xiě)出帶有實(shí)際工具使用需求的問(wèn)題,或者從Reddit、Stack Exchange等真實(shí)社區(qū)里收集高質(zhì)量的用戶(hù)帖子改編而來(lái)。這樣的問(wèn)題不會(huì)在字里行間暗示"你需要用搜索工具查一下",而是像現(xiàn)實(shí)中用戶(hù)提問(wèn)一樣,把工具使用的需求藏在任務(wù)目標(biāo)里,需要AI自己推斷。

第二個(gè)真實(shí),是工具是真實(shí)部署的。評(píng)測(cè)中使用的每一個(gè)工具——無(wú)論是圖像識(shí)別、文檔讀取還是圖表繪制——都是真正可以運(yùn)行、會(huì)產(chǎn)生真實(shí)輸出的程序,不是用文字模擬的假工具。這意味著AI調(diào)用一個(gè)錯(cuò)誤的工具,就會(huì)得到一個(gè)真實(shí)的錯(cuò)誤結(jié)果,而不是系統(tǒng)幫它"假裝成功"。

第三個(gè)真實(shí),是輸入包含真實(shí)的多模態(tài)內(nèi)容。任務(wù)的輸入不僅限于文字,還包括截圖、手寫(xiě)內(nèi)容、地圖、食譜圖片、空間場(chǎng)景等各種真實(shí)生活中會(huì)遇到的視覺(jué)材料。AI必須真正理解這些圖像,而不是在純文字環(huán)境下應(yīng)付了事。

這三個(gè)"真實(shí)"共同構(gòu)成了一道天然的難度壁壘,把那些只會(huì)背答案、走捷徑的AI擋在門(mén)外。

三、工作流考場(chǎng)的獨(dú)特挑戰(zhàn)

GTA-Workflow的核心難點(diǎn),在于它根本沒(méi)有一個(gè)"標(biāo)準(zhǔn)答案路徑"。

在基礎(chǔ)工具使用的考試中,研究人員可以預(yù)先設(shè)定好每一步應(yīng)該調(diào)用什么工具、參數(shù)填什么、預(yù)期輸出是什么,然后對(duì)照AI的實(shí)際操作打分。但在工作流任務(wù)中,完成同一個(gè)目標(biāo)可以有數(shù)十種不同的路徑。更重要的是,那些先進(jìn)的AI系統(tǒng)(比如Manus或OpenClaw)內(nèi)部有自己的規(guī)劃?rùn)C(jī)制和記憶管理,外部根本無(wú)法觀(guān)察它們的"內(nèi)部決策",更談不上對(duì)過(guò)程進(jìn)行逐步評(píng)分。

因此,研究團(tuán)隊(duì)專(zhuān)門(mén)設(shè)計(jì)了一套"遞歸檢查點(diǎn)評(píng)估機(jī)制"來(lái)應(yīng)對(duì)這一挑戰(zhàn)。

具體做法是這樣的:對(duì)于每一個(gè)工作流任務(wù),研究人員不去規(guī)定AI應(yīng)該怎么做,而是把最終成果物應(yīng)該滿(mǎn)足的條件分解成一棵"目標(biāo)樹(shù)"。這棵樹(shù)的根節(jié)點(diǎn)是整體任務(wù)目標(biāo),往下分出若干子任務(wù)節(jié)點(diǎn),每個(gè)子任務(wù)節(jié)點(diǎn)再往下分出更細(xì)化的"葉節(jié)點(diǎn)"——也就是最具體、可以直接核查的子目標(biāo)。

舉個(gè)例子,在銷(xiāo)售數(shù)據(jù)分析報(bào)告任務(wù)中,整棵目標(biāo)樹(shù)可能是這樣的結(jié)構(gòu):根節(jié)點(diǎn)是"完成完整的數(shù)據(jù)分析報(bào)告";它分出兩個(gè)子節(jié)點(diǎn),一個(gè)是"數(shù)據(jù)解析與指標(biāo)計(jì)算",另一個(gè)是"圖表繪制與PDF生成";在"數(shù)據(jù)解析"這個(gè)子節(jié)點(diǎn)下面,又有"正確計(jì)算月度增長(zhǎng)率"和"正確計(jì)算客單價(jià)"等葉節(jié)點(diǎn);在"圖表繪制"下面,有"折線(xiàn)圖正確反映趨勢(shì)"、"柱狀圖包含各類(lèi)目數(shù)據(jù)"和"餅圖比例準(zhǔn)確"等葉節(jié)點(diǎn)。

每一個(gè)葉節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)可以由AI評(píng)判模型客觀(guān)打分的具體要求,分值從0到10。非葉節(jié)點(diǎn)的得分則是其子節(jié)點(diǎn)的加權(quán)平均值,權(quán)重由重要程度決定,最后層層聚合到根節(jié)點(diǎn),得出整個(gè)任務(wù)的總分。這種設(shè)計(jì)的妙處在于,它既給出了總體完成度的概覽(根節(jié)點(diǎn)分?jǐn)?shù)),又保留了每個(gè)具體子目標(biāo)的細(xì)粒度信息,可以用來(lái)分析AI在哪個(gè)環(huán)節(jié)出了問(wèn)題。

四、題庫(kù)是怎么做出來(lái)的

GTA-Workflow的132道題經(jīng)歷了一套嚴(yán)格的"煉制"流程,絕不是隨手從網(wǎng)上抄幾個(gè)問(wèn)題就了事。

原始素材來(lái)自?xún)蓚€(gè)渠道。一是直接收集Manus、Kortix、Flowith、Minimax Agent和CrewAI等AI智能體平臺(tái)上的真實(shí)任務(wù)案例,確保題目與當(dāng)前AI系統(tǒng)的實(shí)際應(yīng)用場(chǎng)景對(duì)齊。二是從Reddit和Stack Exchange上篩選高互動(dòng)度的用戶(hù)提問(wèn),把真實(shí)用戶(hù)的需求轉(zhuǎn)化為評(píng)測(cè)題目。原始收集到的154道題,最終保留了132道。

但這些原始題目并不能直接用。研究團(tuán)隊(duì)讓AI模型對(duì)每道題進(jìn)行分類(lèi):該刪的刪,因?yàn)轭}目要么太依賴(lài)深度視覺(jué)理解而超出工具能力范圍,要么根本無(wú)法用給定工具集解決;該精煉的精煉,把模糊的要求變清晰,把缺失的輸出格式補(bǔ)上;該擴(kuò)充的擴(kuò)充,把過(guò)于簡(jiǎn)單、工具使用不夠豐富的題目擴(kuò)展成真正的多步驟工作流。只有極少數(shù)本身質(zhì)量足夠高的題目可以直接通過(guò)。

從數(shù)字來(lái)看,67道題經(jīng)過(guò)了擴(kuò)充處理,62道經(jīng)過(guò)了精煉處理,只有3道題直接通過(guò)。這說(shuō)明現(xiàn)實(shí)中收集來(lái)的原始素材往往不適合直接當(dāng)作評(píng)測(cè)題目,必須經(jīng)過(guò)大量改造才能達(dá)到標(biāo)準(zhǔn)。精煉操作平均給每道題增加了4.45個(gè)約束條件,成果物要求的描述字?jǐn)?shù)平均增加了14倍;擴(kuò)充操作平均新增了3.48個(gè)工具,成果物要求增加了將近5倍。

改造完成后,還需要經(jīng)過(guò)自動(dòng)驗(yàn)證和人工審核兩道關(guān)卡。自動(dòng)驗(yàn)證負(fù)責(zé)檢查三條硬性規(guī)定:檢查點(diǎn)必須描述結(jié)果狀態(tài)而非操作動(dòng)作,評(píng)分標(biāo)準(zhǔn)不能提及具體工具調(diào)用,任務(wù)描述里不能出現(xiàn)預(yù)設(shè)的執(zhí)行步驟。凡是違反這些規(guī)定的題目,就要退回重寫(xiě),直到符合要求為止。最后,人工標(biāo)注員逐題核查任務(wù)的清晰度、可行性和真實(shí)性,并對(duì)使用頻率偏低的工具進(jìn)行專(zhuān)項(xiàng)補(bǔ)充,保證題庫(kù)的工具覆蓋均衡。

五、考場(chǎng)配置:工具、模態(tài)與評(píng)分規(guī)則

GTA-Workflow支持的輸入類(lèi)型比基礎(chǔ)測(cè)試豐富得多,涵蓋圖片、Word文檔、Excel表格、PowerPoint演示文稿、PDF文件、音頻和視頻,接近真實(shí)辦公場(chǎng)景下會(huì)遇到的各種文件類(lèi)型。

工具數(shù)量從基礎(chǔ)測(cè)試的14個(gè)擴(kuò)展到37個(gè),新增了大量與實(shí)際工作相關(guān)的能力,包括讀寫(xiě)Word、Excel、PDF、PPT文件的系列工具,音頻處理工具(截取片段、降噪、音調(diào)變換),視頻處理工具(截取片段、添加文字注釋、目標(biāo)檢測(cè)),以及語(yǔ)音轉(zhuǎn)文字、HTML文件生成等。工具類(lèi)別仍然維持感知、操作、邏輯和創(chuàng)作四大類(lèi)不變。

輸出成果物同樣更加多樣,涵蓋純文本、圖片、音頻、視頻、代碼、Word文檔、PDF、HTML頁(yè)面、CSV數(shù)據(jù)文件、Excel表格、PPT演示文稿、JSON數(shù)據(jù)文件和Markdown文檔等十余種格式,覆蓋了真實(shí)工作產(chǎn)出的大部分常見(jiàn)形態(tài)。

評(píng)分方面,研究團(tuán)隊(duì)使用GPT-5.2作為AI評(píng)判模型,對(duì)每個(gè)葉節(jié)點(diǎn)進(jìn)行0到10分的打分,并要求給出評(píng)分理由。任務(wù)總分通過(guò)遞歸加權(quán)聚合計(jì)算得出,當(dāng)根節(jié)點(diǎn)分?jǐn)?shù)超過(guò)7分時(shí),判定為任務(wù)完成。為了驗(yàn)證這套評(píng)分機(jī)制的可靠性,研究團(tuán)隊(duì)專(zhuān)門(mén)找了兩名人類(lèi)標(biāo)注員對(duì)30道題的276個(gè)葉節(jié)點(diǎn)進(jìn)行獨(dú)立評(píng)分,然后與AI評(píng)判模型的分?jǐn)?shù)做對(duì)比。結(jié)果顯示,AI評(píng)判模型與人類(lèi)平均分的皮爾遜相關(guān)系數(shù)達(dá)到0.966,任務(wù)級(jí)別的組內(nèi)相關(guān)系數(shù)為0.928,平均絕對(duì)誤差僅0.74分,與兩個(gè)人類(lèi)標(biāo)注員之間的一致性(皮爾遜相關(guān)系數(shù)0.965)基本持平。換句話(huà)說(shuō),AI裁判的公正程度已經(jīng)接近人類(lèi)裁判。

六、各大AI模型的實(shí)際表現(xiàn)

當(dāng)研究團(tuán)隊(duì)把這套考卷遞到當(dāng)今最頂尖的AI模型面前,結(jié)果令人瞠目。

先看基礎(chǔ)工具使用的考試。表現(xiàn)最好的GPT-4和GPT-4o,正確完成任務(wù)的比例不超過(guò)50%。其他閉源模型大多在25%以下,開(kāi)源模型則更低,Mixtral-8x7B只有約10%,Llama-3-8B只有約3%。即便是在"給出前幾步的情況下預(yù)測(cè)下一步"這種相對(duì)容易的步進(jìn)測(cè)試中,GPT-4o的工具選擇準(zhǔn)確率也只有70%,參數(shù)填寫(xiě)準(zhǔn)確率更是只有35%。這說(shuō)明,哪怕是最基礎(chǔ)的多步驟工具調(diào)用任務(wù),對(duì)當(dāng)前AI來(lái)說(shuō)都遠(yuǎn)比看起來(lái)難。

再看工作流任務(wù)的考試。在13個(gè)被測(cè)模型中,表現(xiàn)最好的Gemini-2.5-Pro,完整完成任務(wù)的成功率僅為14.39%。GPT-5為11.36%,Grok-4為9.85%,Claude-Sonnet-4.5為9.09%。開(kāi)源模型中,Qwen3-235B-A22B和Llama-4-Scout都達(dá)到了10.61%,與頂級(jí)閉源模型差距不大。但規(guī)模較小的模型表現(xiàn)則是斷崖式下滑:Llama-3.1-70B成功率不足1%,Qwen3-8B和Llama-3.1-8B-Instruct則徹底為零——沒(méi)有完成任何一道題。

特別耐人尋味的是,Kimi-K2的工具調(diào)用成功率高達(dá)89.85%,工具本身調(diào)用起來(lái)幾乎沒(méi)有問(wèn)題,但最終任務(wù)完成率卻只有8.33%。這個(gè)數(shù)字清楚地說(shuō)明,能正確調(diào)用工具,和能用工具完成一件真實(shí)的工作,是兩件完全不同的事情。

七、失敗圖鑒:哪里出了問(wèn)題

研究團(tuán)隊(duì)不滿(mǎn)足于知道AI失敗了,更想知道AI在哪個(gè)環(huán)節(jié)失敗的。為此,他們對(duì)每一個(gè)失敗的檢查點(diǎn)打上了階段標(biāo)簽,分析錯(cuò)誤的分布。

最常見(jiàn)的失敗發(fā)生在執(zhí)行階段,也就是AI在實(shí)際調(diào)用工具、與文件交互的過(guò)程中出了問(wèn)題。Gemini-2.5-Pro有33.7%的失敗屬于執(zhí)行階段錯(cuò)誤,Claude-Sonnet-4.5有34.0%。這說(shuō)明,維持長(zhǎng)達(dá)數(shù)十步的工具交互鏈條而不出錯(cuò),是一件極其困難的事情。

第二大失敗原因是最終成果物沒(méi)有正確落地,包括文件格式不對(duì)、文件沒(méi)有正確導(dǎo)出、成果物結(jié)構(gòu)不符合要求等。這類(lèi)失敗在較弱的模型中尤為突出,Qwen3-8B有24.7%的失敗屬于此類(lèi)。這意味著,即便AI做完了大部分中間步驟,最后一哩路卻經(jīng)常走不通。

相比之下,推理錯(cuò)誤——也就是AI在邏輯思考上出了問(wèn)題——反而只占很小的比例,各模型均在7%以?xún)?nèi)。這說(shuō)明,當(dāng)前AI模型并不缺乏局部推理能力,缺的是把局部推理串聯(lián)成完整任務(wù)執(zhí)行的系統(tǒng)性能力。

研究團(tuán)隊(duì)還把失敗細(xì)分為三個(gè)層級(jí):葉節(jié)點(diǎn)層面的局部子目標(biāo)失敗(A級(jí))、組合層面的中間整合失?。˙級(jí))和最終成果物層面的落地失?。–級(jí))。在使用默認(rèn)Lagent框架的情況下,Gemini-2.5-Pro的C級(jí)失敗率高達(dá)77.78%,Claude-Sonnet-4.5更高達(dá)80.56%。也就是說(shuō),即便是最頂尖的AI,一旦用標(biāo)準(zhǔn)框架運(yùn)行,有超過(guò)八成的時(shí)間根本交不出一份合格的最終成果物。B級(jí)失敗率也高達(dá)70%左右,說(shuō)明中間各部分的整合工作同樣是個(gè)大難題。

八、框架的力量:換一個(gè)"運(yùn)行環(huán)境",成功率翻幾番

最令研究團(tuán)隊(duì)興奮的發(fā)現(xiàn)之一,來(lái)自不同AI執(zhí)行框架之間的對(duì)比實(shí)驗(yàn)。

研究團(tuán)隊(duì)用完全相同的底層AI模型(Claude-Sonnet-4.5),分別在兩個(gè)不同的執(zhí)行框架下完成30道工作流任務(wù):一個(gè)是研究中默認(rèn)使用的Lagent框架,一個(gè)是更先進(jìn)的OpenClaw框架。

結(jié)果差距驚人。Lagent框架下,根節(jié)點(diǎn)平均得分只有2.49分,任務(wù)完成率為0%——30道題一道都沒(méi)完成。切換到OpenClaw框架后,相同的AI模型根節(jié)點(diǎn)平均分跳升至6.82分,任務(wù)完成率達(dá)到50%,葉節(jié)點(diǎn)通過(guò)率從10.14%飆升至73.55%。

同樣的AI模型,就像同一個(gè)人,換了一套更完善的工作流程和工具支持體系,成功率從零變成了一半。

研究團(tuán)隊(duì)還測(cè)試了Manus和Kortix這兩個(gè)不對(duì)外公開(kāi)底層模型的商業(yè)AI智能體平臺(tái)。Manus的任務(wù)完成率為53.3%,根節(jié)點(diǎn)平均得分6.94;Kortix的完成率同樣為53.3%,平均得分6.83。這兩個(gè)商業(yè)系統(tǒng)的表現(xiàn)與OpenClaw相當(dāng),都遠(yuǎn)超單獨(dú)使用頂級(jí)大模型的結(jié)果。

從效率角度看,三個(gè)先進(jìn)框架各有側(cè)重。Manus的成本效率最高,每花1美元獲得的根節(jié)點(diǎn)得分達(dá)到0.463;OpenClaw成本最高(每30道題花費(fèi)35美元),但絕對(duì)性能最強(qiáng);Kortix則提供了介于兩者之間的均衡選擇。

這組對(duì)比實(shí)驗(yàn)最直接的啟示是:在工作流場(chǎng)景下,AI模型的能力固然重要,但執(zhí)行框架的設(shè)計(jì)質(zhì)量同樣關(guān)鍵,甚至可能更重要。一個(gè)設(shè)計(jì)糟糕的框架,能讓頂尖AI模型一敗涂地;一個(gè)設(shè)計(jì)出色的框架,能把同樣的AI模型帶到全然不同的高度。

九、難度解剖:哪類(lèi)任務(wù)最難啃

研究團(tuán)隊(duì)從任務(wù)復(fù)雜度、成果物類(lèi)型和任務(wù)領(lǐng)域三個(gè)維度,深入分析了難度分布。

從復(fù)雜度角度看,GTA-2按照葉節(jié)點(diǎn)數(shù)量把工作流分為簡(jiǎn)單(3至7個(gè)葉節(jié)點(diǎn))、中等(8至12個(gè))和復(fù)雜(13至19個(gè))三檔。幾乎所有模型都呈現(xiàn)出相同的規(guī)律:隨著葉節(jié)點(diǎn)數(shù)量增加,葉節(jié)點(diǎn)通過(guò)率穩(wěn)步下降。GPT-5在簡(jiǎn)單任務(wù)上能達(dá)到約22%的葉節(jié)點(diǎn)通過(guò)率,但在復(fù)雜任務(wù)上降至約13%。唯一的例外是Gemini-2.5-Pro,它在中等難度任務(wù)上成績(jī)有所下滑,但在復(fù)雜任務(wù)上反而回升到約24%,表現(xiàn)出一定的長(zhǎng)程穩(wěn)健性。

從成果物類(lèi)型角度看,所有模型在生成純文本類(lèi)成果(PDF文檔、純文本、HTML頁(yè)面)時(shí)表現(xiàn)最好,平均根節(jié)點(diǎn)得分在3.7至4.3分之間。多媒體類(lèi)成果(圖片、音頻、視頻)居中,平均約3.48分。最難搞定的是結(jié)構(gòu)化數(shù)據(jù)文件(CSV、Excel、JSON)和PPT演示文稿,平均分分別只有2.62和2.79。GPT-5在PPT生成上得了3.12分,但Claude-Sonnet-4.5只有2.14分,兩者相差近1分,說(shuō)明不同模型在高精度數(shù)據(jù)處理上存在明顯差異。

從任務(wù)領(lǐng)域角度看,六個(gè)任務(wù)類(lèi)別(數(shù)據(jù)分析、教育與教學(xué)、規(guī)劃與決策、創(chuàng)意設(shè)計(jì)、營(yíng)銷(xiāo)策略、檢索與問(wèn)答)中,沒(méi)有任何一個(gè)模型在所有類(lèi)別上都最強(qiáng)。Gemini-2.5-Pro在檢索與問(wèn)答上領(lǐng)先,Claude-Sonnet-4.5在創(chuàng)意設(shè)計(jì)上略勝一籌,說(shuō)明不同模型有各自的專(zhuān)長(zhǎng)區(qū)域。整體而言,需要精確數(shù)據(jù)操作或動(dòng)態(tài)信息整合的任務(wù)(數(shù)據(jù)分析、營(yíng)銷(xiāo)策略)最具挑戰(zhàn)性,而有穩(wěn)定知識(shí)基礎(chǔ)支撐的任務(wù)(教育、知識(shí)問(wèn)答)相對(duì)容易。

十、反饋的價(jià)值:檢查點(diǎn)也可以幫AI改進(jìn)

研究團(tuán)隊(duì)還探索了一種有趣的應(yīng)用:把評(píng)估框架反過(guò)來(lái)當(dāng)作改進(jìn)工具用。

實(shí)驗(yàn)過(guò)程是這樣的:讓GPT-5先生成一份工作流任務(wù)的成果物,然后由AI評(píng)判模型用檢查點(diǎn)樹(shù)進(jìn)行評(píng)分。接著讓GPT-5看到反饋,再做一次。研究團(tuán)隊(duì)對(duì)比了兩種反饋方式:一種是"粗粒度反饋",只告訴AI"結(jié)果不對(duì)";另一種是"檢查點(diǎn)反饋",返回每個(gè)子目標(biāo)的具體失敗診斷。

結(jié)果頗為說(shuō)明問(wèn)題。沒(méi)有反饋時(shí),平均根節(jié)點(diǎn)得分為2.83。加入粗粒度反饋后,得分小幅提升至2.93,相對(duì)提升4.05%。加入檢查點(diǎn)反饋后,得分上升至3.15,相對(duì)提升12.03%。檢查點(diǎn)反饋比粗粒度反饋的效果高出將近三倍。

這說(shuō)明,越細(xì)化的錯(cuò)誤診斷,就越能幫助AI找到正確的改進(jìn)方向。這也提示了一個(gè)頗具價(jià)值的應(yīng)用方向:把檢查點(diǎn)評(píng)估機(jī)制嵌入AI的訓(xùn)練或迭代優(yōu)化流程,讓AI在每次嘗試后獲得結(jié)構(gòu)化的診斷反饋,可能是提升工作流完成能力的有效路徑。

十一、評(píng)估本身是否可信

任何評(píng)估體系都需要接受關(guān)于自身可靠性的質(zhì)疑,GTA-2也不例外。研究團(tuán)隊(duì)專(zhuān)門(mén)設(shè)計(jì)了多項(xiàng)驗(yàn)證實(shí)驗(yàn)。

關(guān)于評(píng)分閾值的選取,研究團(tuán)隊(duì)測(cè)試了從5到9的五個(gè)不同成功判定閾值,觀(guān)察各閾值下模型排名和分值分布的變化。結(jié)果發(fā)現(xiàn),閾值過(guò)低(5分)時(shí),大多數(shù)模型都"及格",分辨不出好壞;閾值過(guò)高(9分)時(shí),幾乎所有模型都?xì)w零,同樣失去區(qū)分能力。7分是在嚴(yán)格性和區(qū)分度之間平衡最好的點(diǎn),因此被選為默認(rèn)閾值。

關(guān)于AI評(píng)判模型的可靠性,除了前面提到的人類(lèi)一致性測(cè)試,研究團(tuán)隊(duì)還測(cè)試了換用Gemini-2.5-Flash作為裁判時(shí)的結(jié)果變化。雖然Gemini-2.5-Flash給出的分?jǐn)?shù)整體偏高,但四個(gè)模型的相對(duì)排名與使用GPT-5.2時(shí)完全一致,斯皮爾曼相關(guān)系數(shù)和肯德?tīng)栂嚓P(guān)系數(shù)均為完美的1.0。這說(shuō)明具體用哪個(gè)AI模型做裁判影響不大,排名結(jié)論是穩(wěn)健的。

關(guān)于跨模型公平性,研究團(tuán)隊(duì)分別從GPT-5輸出、Gemini-2.5-Pro輸出、OpenClaw輸出和Qwen3-30B-A3B輸出各取30道題,讓AI評(píng)判模型與人類(lèi)評(píng)分對(duì)比。對(duì)所有來(lái)源,皮爾遜相關(guān)系數(shù)均高于0.92,組內(nèi)相關(guān)系數(shù)均高于0.85,說(shuō)明AI裁判不會(huì)因?yàn)槌晒飦?lái)源不同而產(chǎn)生系統(tǒng)性偏差。

說(shuō)到底,這項(xiàng)研究傳達(dá)的信息相當(dāng)明確:當(dāng)前的AI助手,在真實(shí)工作場(chǎng)景下的表現(xiàn),比我們通常以為的要差得多。

最頂尖的AI模型,在連續(xù)調(diào)用十幾個(gè)工具、處理各種文件格式、最終生成一份結(jié)構(gòu)完整的可用成果物這樣的任務(wù)上,成功率只有百分之十幾。失敗的原因不在于推理邏輯,而在于執(zhí)行過(guò)程的穩(wěn)定性和最終成果物的落地質(zhì)量。而換一個(gè)更完善的執(zhí)行框架,哪怕底層AI模型沒(méi)有變,成功率就能從零躍升到一半以上——這說(shuō)明我們現(xiàn)在面對(duì)的,與其說(shuō)是AI能力的天花板,不如說(shuō)是AI系統(tǒng)工程設(shè)計(jì)的瓶頸。

這對(duì)普通用戶(hù)意味著什么?如果你現(xiàn)在用某個(gè)AI助手來(lái)完成復(fù)雜工作任務(wù),它完不成的大概率不是因?yàn)?笨",而是因?yàn)樗澈蟮倪\(yùn)行框架設(shè)計(jì)得不夠完善。未來(lái)更好用的AI助手,可能不只是靠訓(xùn)練更強(qiáng)的大模型來(lái)實(shí)現(xiàn),更需要在系統(tǒng)架構(gòu)層面下功夫。

這也引出了一個(gè)值得繼續(xù)追問(wèn)的問(wèn)題:當(dāng)AI執(zhí)行框架的設(shè)計(jì)越來(lái)越像一個(gè)"工作流操作系統(tǒng)"時(shí),評(píng)估這套系統(tǒng)的能力,和評(píng)估底層AI模型本身,會(huì)不會(huì)最終成為同等重要的事情?GTA-2給出了一個(gè)初步的答案框架,但更深入的探索顯然還在路上。有興趣深入了解的讀者,可以通過(guò)arXiv編號(hào)2604.15715查閱完整論文,代碼和數(shù)據(jù)集也將在GitHub的open-compass/GTA倉(cāng)庫(kù)開(kāi)放。

Q&A

Q1:GTA-Workflow的檢查點(diǎn)評(píng)估機(jī)制是怎么運(yùn)作的?

A:GTA-Workflow把每個(gè)任務(wù)的目標(biāo)分解成一棵"目標(biāo)樹(shù)",樹(shù)的最底層葉節(jié)點(diǎn)是具體可核查的子目標(biāo),比如"折線(xiàn)圖是否正確反映趨勢(shì)"。AI評(píng)判模型對(duì)每個(gè)葉節(jié)點(diǎn)打0到10分,再按權(quán)重層層加權(quán)聚合到根節(jié)點(diǎn),得出整個(gè)任務(wù)的總分。根節(jié)點(diǎn)得分超過(guò)7分即視為任務(wù)完成。這種機(jī)制既給出總體完成度,也保留了細(xì)粒度的子目標(biāo)診斷信息。

Q2:GTA-Workflow測(cè)出來(lái)頂級(jí)AI成功率只有14%,是因?yàn)轭}目太難了嗎?

A:難度確實(shí)比常規(guī)評(píng)測(cè)高,但"難"的來(lái)源是真實(shí)性而非刻意刁難。任務(wù)來(lái)自真實(shí)用戶(hù)需求,使用真實(shí)可運(yùn)行的工具,要求生成真實(shí)可用的成果物。在這個(gè)標(biāo)準(zhǔn)下,頂級(jí)AI成功率低的核心原因不是推理能力不足,而是在長(zhǎng)達(dá)數(shù)十步的工具交互鏈條中難以保持穩(wěn)定性,以及最終成果物的格式和結(jié)構(gòu)經(jīng)常不符合要求。

Q3:OpenClaw和Manus這些框架為什么能大幅提升AI的工作流完成率?

A:這些先進(jìn)執(zhí)行框架提供了更完善的系統(tǒng)級(jí)支持,包括動(dòng)態(tài)規(guī)劃能力(可以根據(jù)中間結(jié)果調(diào)整后續(xù)步驟)、持久化記憶管理(能記住任務(wù)各階段的狀態(tài)和中間結(jié)果)以及更穩(wěn)健的多步驟工具協(xié)調(diào)機(jī)制。相比之下,基礎(chǔ)框架(如Lagent)主要依賴(lài)AI模型自身的單次規(guī)劃能力,遇到執(zhí)行失敗或狀態(tài)丟失時(shí)缺乏恢復(fù)機(jī)制,導(dǎo)致任務(wù)中途崩潰的概率大幅升高??蚣艿牟町?,本質(zhì)上是"工作流操作系統(tǒng)"設(shè)計(jì)水平的差異。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA官方:弗拉格當(dāng)選年度最佳新秀 成獨(dú)行俠隊(duì)史第三位獲獎(jiǎng)?wù)?>
    </a>
        <h3>
      <a href=羅說(shuō)NBA
2026-04-28 07:21:45
遼寧男籃1-0山東,郭艾倫一針見(jiàn)血道出遼籃內(nèi)線(xiàn)強(qiáng)大優(yōu)勢(shì)

遼寧男籃1-0山東,郭艾倫一針見(jiàn)血道出遼籃內(nèi)線(xiàn)強(qiáng)大優(yōu)勢(shì)

赫岝鄉(xiāng)村攝影
2026-04-29 03:34:08
一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線(xiàn)又添猛人

一場(chǎng)1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國(guó)足鋒線(xiàn)又添猛人

零度眼看球
2026-04-28 06:46:34
阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

阿聯(lián)酋退出歐佩克,直接讓全球能源圈來(lái)了個(gè)大震蕩!

利刃號(hào)
2026-04-28 22:23:41
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

小犙拍客在北漂
2026-04-29 03:02:30
21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過(guò)氣

悠悠說(shuō)世界
2026-04-25 14:03:58
賴(lài)清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

賴(lài)清德做夢(mèng)都沒(méi)想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

小楊侃事
2026-04-12 09:40:51
中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤(pán)將向上變盤(pán)!誰(shuí)能領(lǐng)漲?

中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤(pán)將向上變盤(pán)!誰(shuí)能領(lǐng)漲?

丁丁鯉史紀(jì)
2026-04-28 18:24:04
豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

豆包提前查到事業(yè)編成績(jī)單,全網(wǎng)炸了!

互聯(lián)網(wǎng)品牌官
2026-04-27 18:11:08
臺(tái)灣政壇徹底炸鍋!

臺(tái)灣政壇徹底炸鍋!

安安說(shuō)
2026-04-28 10:56:05
聯(lián)想把用了20年的BIOS供應(yīng)商買(mǎi)回家了

聯(lián)想把用了20年的BIOS供應(yīng)商買(mǎi)回家了

薛定諤的BUG
2026-04-27 22:37:44
賴(lài)清德向大陸喊話(huà),林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

賴(lài)清德向大陸喊話(huà),林佳龍返臺(tái):機(jī)場(chǎng)大言不慚!解放軍打獨(dú)大動(dòng)作

共工之錨
2026-04-28 15:40:37
遼寧省委書(shū)記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

遼寧省委書(shū)記、省長(zhǎng)等共同巡看夜經(jīng)濟(jì)市集

蘭妮搞笑分享
2026-04-29 00:11:17
白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

海外散修厲飛雨
2026-04-27 17:50:27
和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

翰飛觀(guān)事
2026-04-26 14:55:41
帕勞通告全球,拒與臺(tái)灣“斷交”!話(huà)音剛落,大陸宣布統(tǒng)一后安排

帕勞通告全球,拒與臺(tái)灣“斷交”!話(huà)音剛落,大陸宣布統(tǒng)一后安排

厲羽萱
2026-04-29 00:28:09
為什么男人每次偷情要開(kāi)房,女人每次偷情都在車(chē)?yán)锬兀?>
    </a>
        <h3>
      <a href=思絮
2026-04-28 10:25:11
別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

小娛樂(lè)悠悠
2026-04-27 09:21:13
5月1日正式開(kāi)刀!3萬(wàn)就立案,所有打工人都要警惕

5月1日正式開(kāi)刀!3萬(wàn)就立案,所有打工人都要警惕

洞見(jiàn)小能手
2026-04-27 21:17:44
2026-04-29 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車(chē)要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

藝術(shù)
教育
時(shí)尚
家居
房產(chǎn)

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國(guó)第一民企落子民營(yíng)大省!

教育要聞

教育部通知,今年9月份開(kāi)始,上學(xué)的規(guī)則全變了

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

家居要聞

江景風(fēng)格 流動(dòng)的秩序

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國(guó)人口增量第4??!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版