AI賽跑中的"路癡"困局:明尼蘇達大學研究揭示AI智能體的致命短板

2026-04-28 17:27:40　來源: 科技行者

天津舉報

分享至

這項由明尼蘇達大學雙城分校、延世大學和Grammarly聯(lián)合開展的研究，以預印本形式發(fā)布于2026年4月（arXiv編號：2604.10261），目前正在學術審議中。研究構建了一個名為"THE AMAZING AGENT RACE（AAR，神奇智能體競賽）"的測試框架，用于系統(tǒng)評估AI智能體（即能自主使用工具完成任務的AI程序）在復雜任務中的真實能力。

你是否曾經(jīng)把一件復雜的事情交給AI助手去完成，比如"幫我查一下蘋果公司幾位創(chuàng)始人出生地之間的海拔差是多少"？表面上看，這只是一個簡單的問題，但實際上要回答它，AI需要先找到蘋果公司的維基百科頁面，從中提取創(chuàng)始人姓名，然后跳轉到每位創(chuàng)始人的個人頁面，找出他們的出生城市，再調用地圖API獲取坐標，接著查詢每個城市的海拔數(shù)據(jù)，最后做一次減法。任何一個環(huán)節(jié)出了差錯，最終答案就會完全錯誤。

研究團隊發(fā)現(xiàn)，現(xiàn)有的AI測評體系幾乎都在測試"簡單直線任務"，就像讓運動員在筆直的跑道上沖刺，卻從不測試他們在復雜路線圖中的導航能力。研究團隊分析了ToolBench、ToolHop、GAIA等六個主流測試基準，發(fā)現(xiàn)其中55%到100%的題目都是簡單的"A導致B，B導致C"這樣的直線型任務，平均步驟只有2到5步。這就像把駕照考試簡化成只在空曠停車場里停車，卻從不考復雜路況中的判斷。

于是，研究團隊設計了一個全新的測試場景——借鑒美國著名電視節(jié)目《了不起的賽跑》的形式，讓AI智能體在信息迷宮中進行一場真正意義上的競速賽。這套測試共包含1400道題目，每一道題都是一個錯綜復雜的任務網(wǎng)絡，而不是簡單的單向鏈條。

**一、普通測試與真實挑戰(zhàn)之間的鴻溝**

以往給AI出的題目，大多像是一張從A到B的單行路：先做這個，再做那個，最后得出答案。研究團隊將這種結構稱為"線性鏈"。比如"查詢某公司成立年份，然后計算數(shù)字根"，這兩步之間只有一條路，走通就行。

然而現(xiàn)實世界中的任務往往不是這樣的。更接近真實情況的是一種叫做"有向無環(huán)圖"的結構——這個名字聽起來很復雜，但本質上只是說：任務可以"分叉再合并"。舉個具體例子：假設你要同時查詢法蘭克福的海拔高度和周邊大學數(shù)量，然后把這兩個數(shù)字做差。這時任務從"查法蘭克福位置"這一步分叉成兩條并行的支線——一條去查海拔，一條去查大學——最后兩條支線再匯聚到"做差"這一步。這種"一分為二、二合為一"的結構，研究團隊稱之為"鉆石模式"。

測試發(fā)現(xiàn)，現(xiàn)有六個主流基準測試中，鉆石模式這類非線性結構的占比極低，甚至有三個基準（ToolBench、ToolHop和GAIA）是100%純線性的。TaskBench雖然理論上有一些分支結構，但實際上94%的題目仍然是直線，平均只有1.7個步驟。相比之下，這套新測試框架中每一道題都是真正的分支網(wǎng)絡，平均包含22個節(jié)點，最多含有5個鉆石分叉，而且整體線性比例為0%。

這就像是對比兩種駕駛考試：一種只讓你在直道上開100米，另一種則要求你在立交橋、環(huán)形路口、單行道和限速區(qū)組成的城市路網(wǎng)中完整行駛一圈。兩者測試的根本不是同一種能力。

**二、這場"競賽"究竟是怎么設計的**

每道題目被稱為一條"賽程"（leg），由四部分組成：一個維基百科起點頁面、一份包含K個線索的"線索信封"、一套19種工具的使用說明，以及一個步驟預算。AI要完成這條賽程，最終輸出一個0到9之間的單個數(shù)字作為答案，就像賽跑中的終點密碼。

線索信封是整個設計中最精妙的部分。它用迂回晦澀的文字描述每一步的目標，絕不直接說出維基百科頁面的標題，也不告訴AI要用哪個工具。比如它不會說"請訪問紐約證券交易所的維基百科頁面"，而是會寫"尋找那個位于大蘋果心臟、主宰金融命脈的繁忙樞紐……"。這樣設計的目的是防止AI直接從記憶中調取答案，強迫它真正去"導航"和"推理"。

賽程中的每個節(jié)點都有明確類型。"路線信息點"要求AI導航到正確的維基百科頁面并提取特定信息，比如某機構的創(chuàng)立年份或某城市的人口數(shù)量。"路障"則要求AI執(zhí)行多步工具調用，例如先用地理編碼工具獲取某城市的坐標，再用坐標查詢海拔數(shù)據(jù)。"繞行"是對已獲取數(shù)值進行數(shù)學變換，比如求數(shù)字根或找下一個質數(shù)。"終點線"則是把前面所有節(jié)點收集到的數(shù)值匯總計算，通過取模運算得出那個最終的單個數(shù)字答案。

工具箱中包含19種工具，分成抓取與搜索、谷歌地圖系列、天氣查詢、Python代碼執(zhí)行、國家統(tǒng)計數(shù)據(jù)、股票數(shù)據(jù)和加密貨幣數(shù)據(jù)等八大類。其中地圖類工具最多，包括地理編碼、反向地理編碼、附近地點搜索、地點評分、距離矩陣、海拔查詢和路線規(guī)劃七種。股票和加密貨幣工具會返回實時數(shù)據(jù)，確保AI不可能靠背誦答案過關，因為數(shù)據(jù)會隨時間變化。

難度分為四個等級。簡單級別的賽程在鉆石增強之前包含3到6個節(jié)點，只有1個鉆石分叉，信息提取僅需查看維基百科的信息框；中等級別擴展到7到12個節(jié)點，1到2個鉆石；困難級別包含13到16個節(jié)點，需要跨越多個章節(jié)提取信息；極端級別則高達17到21個預增強節(jié)點，3到5個鉆石，加上最深3跳的維基百科爬取深度。由于每個鉆石分叉會增加3個額外節(jié)點（兩條支線加一個匯合點），極端難度賽程實際平均達到33個節(jié)點。

**三、測試題目是如何自動生成的**

為了生成1400道高質量題目，研究團隊搭建了一條八步自動化流水線，就像一家精密的工廠生產(chǎn)線。

流水線從"爬取"開始：系統(tǒng)從英語維基百科瀏覽量前十萬的頁面中隨機選取一個作為種子，抓取該頁面及其通過鏈接可到達的1到3跳范圍內的頁面，緩存所有信息框字段和正文內容。接著是"規(guī)劃"步驟，用AI大模型根據(jù)難度參數(shù)規(guī)劃一條有主題的路線，為每個節(jié)點生成提取提示。然后"構建"步驟將規(guī)劃轉化為具體的節(jié)點實例：路線信息點指定要從哪個頁面提取哪個字段，路障節(jié)點從17個預設模板中選擇并實例化，繞行節(jié)點指定具體的數(shù)學變換。

"預驗證"步驟會在真實API上試運行所有工具調用鏈，剔除失敗的鏈，并重新編排節(jié)點順序。"鏈接"步驟通過鏈接跟蹤或搜索查詢將相鄰節(jié)點連接起來。"增強"步驟插入鉆石分叉模式，將線性鏈轉化為有向無環(huán)圖。"執(zhí)行"步驟按照依賴順序運行所有工具調用鏈，計算出每個節(jié)點的真實值和最終答案密碼。最后"語言化"步驟將所有節(jié)點描述轉化為迂回的線索文本，用婉轉說法替代直接的維基百科標題，確保沒有任何線索直接暴露頁面名稱。

只有當線索的"往返對齊分數(shù)"達到0.7以上，且線索隱含的答案與執(zhí)行器計算出的答案一致，這道題才會被接受；否則直接丟棄重新生成。研究團隊還通過四重機制確保題目不會被AI"背答案"蒙混過關：線索描述用婉轉說法替代原始標題；路障答案依賴實時API數(shù)據(jù)；繞行變換產(chǎn)生的數(shù)值在維基百科中根本不存在；最終密碼通過對程序化生成實例進行取模運算得出。

**四、誰來參加這場競賽，成績如何**

研究團隊讓三種AI智能體框架分別參賽，每種框架代表一種不同的"選手類型"。

Codex CLI是OpenAI開發(fā)的編程助手智能體，擅長自主規(guī)劃和執(zhí)行Shell命令，可以調用工具、寫代碼，并在出錯后自行修正。Claude Code是Anthropic開發(fā)的類似工具，同樣能自主規(guī)劃、執(zhí)行命令，并進行迭代式錯誤修復。Mini-swe-agent是一個輕量級版本的軟件工程智能體，通過一種叫做"ReAct循環(huán)"的機制在bash終端中逐步執(zhí)行工具調用。

在模型選擇上，Codex CLI和Mini-swe-agent使用了OpenAI的GPT-5.4（旗艦級）和GPT-5.4-mini（經(jīng)濟型）兩個版本；Claude Code使用了Anthropic的Claude Sonnet 4；研究團隊還額外測試了一個120億參數(shù)的開源推理模型GPT-OSS-120B，通過OpenRouter接入，專門測試"深度推理型"模型是否能在這種任務上表現(xiàn)出色。

所有參賽者都在同樣的條件下競爭：在Docker容器中運行，每道題有600秒的時間限制，可以訪問所有19種工具，工具輸出超過8000字符會被截斷。評判系統(tǒng)記錄每個參賽者寫入答案文件的數(shù)字，同時通過比對工具調用日志與標準執(zhí)行軌跡來計算部分信用指標。

總成績出來后，沒有一個參賽者超過37.2%的正確率。做個對比參照：隨機猜測一個0到9的數(shù)字，正確率應該是10%。最好的成績也只比隨機猜測高出約27個百分點，這個數(shù)字在1400道題的測試中聽起來相當令人沮喪。

**五、三把尺子分別量什么**

研究團隊使用了三個相互補充的評估指標，就像醫(yī)生同時檢查體溫、血壓和心率，而不是只用一個綜合健康分數(shù)來判斷病情。

"終點線準確率"（FA）是最直接的指標：AI寫出來的數(shù)字是否等于標準答案？這是主要勝負判定標準。"補給站訪問率"（PVR）則專門衡量導航能力：對于需要導航到的維基百科頁面，AI實際訪問了多大比例的正確頁面？這個指標揭示的是AI是否走對了路，而不僅僅是最終是否到達終點。"路障完成率"（RCR）衡量工具使用能力：對于需要調用工具的節(jié)點，AI是否調用了所有應該調用的工具？這反映的是AI是否掌握了正確的技能，即便它可能在錯誤的地點使用了這些技能。

這三把尺子的組合讓研究團隊能夠做出精準的"失敗歸因"。一個AI可能同時表現(xiàn)出高RCR和低PVR，意味著它非常擅長使用工具，但導航到了錯誤的頁面，在錯誤的數(shù)據(jù)上做了正確的計算——這就像一個廚藝精湛的廚師，卻把豬肉錯認成了牛肉，做出來的菜在技術上完美，但食材就不對。

**六、數(shù)字背后的驚人發(fā)現(xiàn)**

研究的核心發(fā)現(xiàn)可以用一句話概括：AI智能體是出色的工具使用者，卻是糟糕的導航員。

從錯誤分布來看，導航錯誤占據(jù)了所有失敗案例的主導地位。在線性賽程測試中，隨著難度從簡單升至極端，導航錯誤率從5%急劇攀升至52%，而工具使用錯誤始終維持在3.5%到15%的低位。換句話說，到了最難的題目，超過一半的失敗都是因為AI找錯了頁面，而不是因為它不會用工具。

在非線性（鉆石型）賽程中，這個差距更加明顯：導航錯誤率整體達到47.3%，比線性賽程高出16個百分點；而工具使用錯誤率反而降到了3.8%，比線性賽程還低5個百分點。這個現(xiàn)象出乎意料：更復雜的分支結構并沒有讓工具使用變得更難，反而因為鉆石謎題提供了更明確的工具調用線索，工具使用反而更容易了。真正被鉆石結構難倒的，是導航能力——面對更長的路線和更復雜的網(wǎng)絡，AI越來越容易迷路。

智能體框架的選擇比模型大小更重要，這是另一個出人意料的發(fā)現(xiàn)。Codex CLI加上旗艦模型GPT-5.4的組合得分37.1%，而換成輕量級Mini-swe-agent加GPT-5.4-mini組合只有26.1%，差距高達11個百分點。但Codex CLI加GPT-5.4和Claude Code加Sonnet 4的成績幾乎完全相同（37.1%對37.2%），盡管來自完全不同的公司和模型系列。框架之間的差距，比模型大小之間的差距更大。

工具使用能力上的差異部分解釋了這個現(xiàn)象：Codex CLI的路障完成率達到65.8%，而Mini-swe-agent只有34.4%。Mini-swe-agent平均只走8到9步就提交答案，而Codex CLI平均走34到48步——Mini-swe-agent在沒有充分驗證的情況下就匆忙作答，就像一個學生做完前兩道題就覺得整張卷子都做完了。

令人眼前一亮的是Claude Code的效率表現(xiàn)：它使用的Token數(shù)量（即處理文字的計算量）比Codex CLI少6倍（每道題約11.4萬到22.5萬Token對比140萬到180萬Token），卻取得了相同的準確率。這說明在當前的AI智能體架構中，花錢越多未必表現(xiàn)越好——資源消耗和任務表現(xiàn)在很大程度上是解耦的。

至于那個120億參數(shù)的開源推理模型GPT-OSS-120B，結果令人唏噓：在線性賽程中只有3.1%的準確率，僅略高于隨機猜測，比GPT-5.4低了足足12倍。原因并不是模型太小，而是它的"思考方式"不合適。這類推理模型會花大量時間在內部進行深度思考，結果在600秒的時間限制內平均只調用了2.2次工具（相比之下GPT-5.4調用了27次），幾乎只完成了1輪有效的動作就超時了。在AAR的非線性賽程測試中，研究團隊在測試了68道題后因為0%的準確率而提前終止了測試。深度推理對于需要大量淺層工具調用的導航任務來說，反而成了一種負擔——就像用一臺精密的天文望遠鏡來找丟在客廳的鑰匙，工具本身沒有問題，但場景根本不匹配。

**七、"捷徑"現(xiàn)象與測試的真實邊界**

研究團隊還發(fā)現(xiàn)了一個頗為微妙的現(xiàn)象：在非線性賽程中，有14%到21%的正確答案是通過"走捷徑"得到的——AI在只訪問了不到30%的規(guī)定維基百科頁面的情況下，依然給出了正確答案。在線性賽程中，這個比例是6%到11%。到了極端難度的非線性賽程，正確答案中有高達88%都是通過捷徑達成的。

這些捷徑并不是碰運氣猜中的。走捷徑的AI平均路障完成率達到43.8%，中間值準確率達到60.9%，比隨機猜測高出3.5倍，說明它們確實在進行真實的工具鏈推理。它們的策略是：通過線索描述中隱含的地理或數(shù)值信息，直接推斷出API調用所需的參數(shù)，繞過維基百科的導航步驟，直接完成工具調用。

這揭示了測試設計的一個結構性特點：在非線性賽程中，62%的標準中間值屬于工具調用或計算節(jié)點，這些節(jié)點不需要訪問任何維基百科頁面就可以完成；只有38%的中間值真正需要從維基百科頁面中提取信息。如果把走捷徑的成功案例剔除，非線性賽程的實際準確率會從31%驟降到14%到17%，幾乎回到隨機猜測的水平。研究團隊認為，在未來版本中應該設計更隱晦的線索表達方式，減少工具參數(shù)在文字中的泄漏，但這需要在"夠難"和"仍然可解"之間找到平衡。

**八、失敗是如何發(fā)生的——五種典型的"迷路"方式**

通過人工檢查50個失敗案例，研究團隊歸納出五種典型失敗模式。

第一種是"幻覺式規(guī)劃"：AI寫出了一堆看似合理的步驟和觀察，但實際上根本沒有真正執(zhí)行任何工具調用，所有"數(shù)據(jù)"都是它自己編造的。第二種是"參數(shù)傳遞錯誤"：工具調用本身是對的，但上一步的輸出沒有正確地作為下一步的輸入，導致整個工具鏈在傳遞數(shù)據(jù)時出了岔子。第三種是"終點線算術錯誤"：前面所有節(jié)點都做對了，但在最后的匯總計算中出現(xiàn)了失誤，通過鉆石匯合點聚合多個數(shù)值的過程尤其容易出錯。第四種是"長途漂移"：在節(jié)點數(shù)量多的賽程中，AI逐漸偏離了正確路線，越走越遠，最終完全迷失在錯誤的維基百科頁面群中。第五種是"預算耗盡"：AI還沒做完就用完了步驟配額，不得不提前放棄。不過這種情況相對少見，所有配置下步驟預算耗盡率均低于1.5%。

有一個具體案例很能說明問題：在一道極端難度賽程（36個節(jié)點）中，使用Codex CLI加GPT-5.4-mini的AI只訪問了14個必要頁面中的1個（補給站訪問率僅為0.07），但卻調用了所有應該調用的工具類型（路障完成率達到1.0）——它把正確的工具用在了錯誤的頁面上。這個AI甚至在不同的錯誤候選頁面之間反復自我糾正，但因為初始導航就偏了，越糾正越偏。如果只看最終的準確率數(shù)字，你會以為它一無是處；但分拆指標后才發(fā)現(xiàn)，它的工具使用能力其實是完美的，只有導航能力徹底失效了。這正是三指標分析框架的價值所在。

還有一個反向的有趣案例：一道35節(jié)點的極端難度賽程，AI只訪問了11個必要頁面中的大約1個（補給站訪問率0.09），但最終正確給出了答案。它的策略是從起點頁面出發(fā)，然后通過地圖地理編碼、海拔查詢、周邊地點搜索和Python代碼執(zhí)行等工具，在不訪問維基百科的情況下正確計算出了80%的中間值，最終得出正確的終點密碼。這個"工具捷徑"案例展示了AI的一種創(chuàng)造性解題思路，但也暴露了測試設計中線索泄漏的問題。

**九、各工具模板的表現(xiàn)差異**

研究團隊還分析了不同工具類型對最終準確率的影響差異。純計算類模板表現(xiàn)最好，比如日期計算（平均準確率40.2%）和數(shù)學轉換（33.4%），因為一旦AI拿到了輸入數(shù)值，Python代碼執(zhí)行幾乎不會出錯。地理API類模板居中，比如地理編碼+海拔查詢（27.0%）和附近地點計數(shù)（28.1%），這類工具要求正確的地理定位，導航錯誤會直接導致工具調用在錯誤位置進行。最難的是需要精確參數(shù)格式的專業(yè)API，比如股票價格查詢（18.5%）、天氣查詢（22.2%）和地點評分查詢（22.5%），因為AI經(jīng)常在股票代碼格式、日期格式或地點名稱精確度上出錯。這個規(guī)律在所有四種智能體配置中保持一致。

說到底，這項研究做了一件很重要的事：它把"AI助手到底哪里不行"這個問題講清楚了。以前我們只知道AI做不對某些復雜任務，但不知道是哪個環(huán)節(jié)出了問題。是不會用工具？是算數(shù)不好？還是別的什么？現(xiàn)在我們有了明確的答案：不是工具使用能力不行，而是導航能力太差。AI智能體在拿到正確數(shù)據(jù)后通常能做出正確的分析，但要讓它自己去找到正確的數(shù)據(jù)源，在浩如煙海的網(wǎng)頁中準確定位到目標頁面，這件事對它來說遠比我們以為的要難得多。

隨著難度增加，導航錯誤率從5%飆升到52%，而工具錯誤率始終維持在個位數(shù)。更長的路線、更多的分叉，讓AI越來越容易迷路。不正確的AI往往會越做越亂——它們平均比正確完成任務的AI多發(fā)出56%的搜索請求，多抓取18%的網(wǎng)頁，但效果反而更差。問題不在于它們搜索得不夠多，而在于它們搜索的方向一開始就錯了，越努力越南轅北轍。

這對未來的AI開發(fā)者意味著：與其讓AI搜索更多內容，不如提高它的精準定位能力；與其增加推理深度，不如在關鍵節(jié)點加入"我是不是走對路了"的自檢機制；與其堆砌參數(shù)規(guī)模，不如優(yōu)化智能體框架對導航任務的處理方式——畢竟Claude Code用六分之一的計算資源就做到了和Codex CLI相同的成績。

這些發(fā)現(xiàn)對于任何正在使用或開發(fā)AI助手的人都有實際意義。下次你發(fā)現(xiàn)AI給出了一個看似工整但明顯不對勁的答案時，不妨想想：它很可能不是"不會做"，而是"找錯地方了"。對于這篇感興趣的讀者，可以通過arXiv編號2604.10261查閱完整論文，以及訪問該項目在GitHub上的公開代碼庫，里面包含了所有1400道題目、標準執(zhí)行軌跡和完整的評估代碼。

Q&A

Q1：THE AMAZING AGENT RACE測試和以往AI工具使用測試有什么本質區(qū)別？

A：THE AMAZING AGENT RACE的核心區(qū)別在于引入了分支合并的網(wǎng)絡結構，而不是傳統(tǒng)測試中的簡單直線鏈條。以往測試55%到100%是純線性的，平均只有2到5個步驟，AI只需按順序執(zhí)行操作即可。而AAR的每道題都是真正的有向無環(huán)圖結構，平均有22個節(jié)點，包含多個"一分為二再合二為一"的鉆石分叉點，同時要求AI先自主導航維基百科找到必要信息，再調用外部API工具完成計算。

Q2：終點線準確率、補給站訪問率和路障完成率三個指標各自測什么？

A：終點線準確率（FA）是最終的對錯判定：AI寫出的單個數(shù)字是否等于標準答案。補給站訪問率（PVR）專門衡量導航能力：AI實際訪問了多大比例的正確維基百科頁面，反映它是否走對了路。路障完成率（RCR）衡量工具使用能力：對于需要調用外部工具的節(jié)點，AI是否調用了所有應該調用的工具，反映它是否掌握了正確的操作技能。三個指標合用才能精確判斷失敗發(fā)生在導航、工具使用還是最終計算哪個環(huán)節(jié)。

Q3：為什么深度推理模型GPT-OSS-120B在AAR測試中表現(xiàn)這么差？

A：GPT-OSS-120B的問題不在于模型能力本身，而在于它的"工作方式"和任務要求不匹配。這類推理模型會花大量時間在內部進行深度思考和規(guī)劃，結果在每道題600秒的時間限制內，平均只完成了約2.2次工具調用，還不等它真正開始行動就超時了。相比之下，GPT-5.4在同樣時間內平均完成27次工具調用。AAR這類任務需要的是快速執(zhí)行大量淺層工具調用，而不是少量深度思考，深度推理模式在這里完全是一種反效果。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.