阿里巴巴與香港中文大學(xué)聯(lián)手打造的職場全能測評體系

2026-04-23 21:13:41　來源: 科技行者

北京舉報

分享至

這項由阿里巴巴Qwen團隊與香港中文大學(xué)聯(lián)合開展的研究，以預(yù)印本形式發(fā)布于2026年4月，論文編號為arXiv:2604.10866，感興趣的讀者可通過該編號查閱完整原文。

假設(shè)你是一家大型醫(yī)院的院長，正在考慮引入一個AI系統(tǒng)幫助急診室護士做分診判斷。你最想知道什么？當(dāng)然是這個AI到底靠不靠譜——它能否在嘈雜、混亂、數(shù)據(jù)不完整的真實環(huán)境里穩(wěn)定工作，而不只是在教科書式的完美場景下表現(xiàn)優(yōu)異。遺憾的是，在這項研究誕生之前，沒有任何一個測評體系能告訴你答案。

這正是OCCUBENCH（職業(yè)能力基準(zhǔn)測評）要解決的核心問題。研究團隊發(fā)現(xiàn)，現(xiàn)有的AI智能體測評，基本都只覆蓋了網(wǎng)頁瀏覽、代碼編寫、桌面操作這幾個有現(xiàn)成測試環(huán)境的領(lǐng)域，而醫(yī)療、金融、法律、制造、能源、物流這些真正需要AI大展身手的行業(yè)，卻幾乎是測評的空白地帶。原因并不復(fù)雜：這些行業(yè)的系統(tǒng)都關(guān)在企業(yè)防火墻后面，沒有公開接口，更無法隨意接入外部測試。

研究團隊給出的解法，可以用一個比喻來理解：假設(shè)你想測驗一個廚師能不能做日本料理，但你既沒有日本食材，也沒有專業(yè)廚房，怎么辦？你可以請一位深度了解日本料理的美食評論家扮演"模擬廚房"，他根據(jù)自己的知識判斷廚師的每一步操作是否合理，給出相應(yīng)的"食材反饋"和"烹飪結(jié)果"。這位美食評論家，就是研究團隊所說的"語言世界模型"（Language World Model，簡稱LWM）——用大型語言模型（LLM）本身來扮演各種專業(yè)環(huán)境，充當(dāng)AI智能體的交互對象和考官。

正是憑借這個核心思路，研究團隊構(gòu)建了一個覆蓋100個真實職業(yè)場景、橫跨10大行業(yè)類別、涉及65個專業(yè)細分領(lǐng)域、共計382道測試題的評測基準(zhǔn)OCCUBENCH。這是目前已知范圍最廣、職業(yè)覆蓋最全的AI智能體專業(yè)能力評測體系。

一、為什么需要一個"職場版"AI考場

要理解這項研究的意義，不妨先盤點一下現(xiàn)有的AI智能體測評都在測什么。WebArena測的是在真實網(wǎng)站上完成任務(wù)，比如在電商平臺下單或在論壇發(fā)帖。OSWorld測的是操控電腦桌面，比如用辦公軟件整理文件。SWE-bench測的是在代碼倉庫里修復(fù)程序Bug。TAU-bench稍微進了一步，測的是在零售和航空公司的API上處理客服問題。

這些測評都很有價值，但它們有一個共同的硬傷：只能測能拿到環(huán)境的領(lǐng)域。核電站安全監(jiān)控系統(tǒng)？沒有公開環(huán)境。海關(guān)進出口申報系統(tǒng)？沒有可用接口。醫(yī)院急診分診流程？沒有外部入口。溫室大棚灌溉控制系統(tǒng)？沒有測試平臺。這不是幾個特例，而是絕大多數(shù)高價值專業(yè)場景的普遍處境。

更重要的是，即便是已有測評的領(lǐng)域，現(xiàn)有體系也有兩個嚴(yán)重不足。第一，擴展成本極高——要給WebArena增加一個新行業(yè)，就得從頭部署和配置整套網(wǎng)絡(luò)應(yīng)用，工程量巨大。第二，所有現(xiàn)有測評都只考"順風(fēng)順?biāo)?的情況，沒有任何一個系統(tǒng)性地測試AI在"環(huán)境出故障"時的應(yīng)對能力。然而在現(xiàn)實職場里，API超時、數(shù)據(jù)殘缺、系統(tǒng)返回錯誤，這些都是家常便飯，而不是極端情況。

正因如此，研究團隊提出了"語言世界模型"這個概念。其核心邏輯是：只要一個大語言模型對某個專業(yè)領(lǐng)域有足夠深入的理解，它就能模擬出該領(lǐng)域的工具調(diào)用環(huán)境——就像那位深諳日本料理的美食評論家能模擬出一個可信的日式廚房一樣。這樣一來，構(gòu)建測試環(huán)境就從一個繁重的工程問題，變成了一個相對輕量的配置問題，測評的覆蓋范圍也從"有公開環(huán)境的領(lǐng)域"擴展到了"任何LLM能理解的領(lǐng)域"。

二、"模擬廚房"是怎么搭建的

要讓大語言模型扮演好"模擬考場"這個角色，研究團隊為每一個測試場景設(shè)計了一套精密的配置方案，包含四個核心組件。

第一個組件是系統(tǒng)提示詞，它定義了這個模擬環(huán)境的運行規(guī)則、仿真邏輯、錯誤處理方式和輸出格式。比如在酒店收益管理場景里，系統(tǒng)提示詞會明確告訴模擬器：ADR（平均每日房價）、入住率和總收益之間是什么計算關(guān)系，超出庫存范圍的預(yù)訂請求應(yīng)該如何響應(yīng)。這就相當(dāng)于給模擬廚房貼上了"操作手冊"。

第二個組件是工具定義，它規(guī)定了被測AI智能體可以使用哪些工具、每個工具接受什么參數(shù)、會返回什么格式的數(shù)據(jù)。每個測試場景包含2到10個工具，中位數(shù)是5個。這就相當(dāng)于告訴進入模擬廚房的廚師：這里有哪些鍋碗瓢盆可以使用。

第三個組件是初始狀態(tài)，是一個結(jié)構(gòu)化的JSON對象，描述環(huán)境的起始條件。急診室場景里，初始狀態(tài)可能包括候診隊列里有哪些病人、各診室的占用情況；核電站場景里，初始狀態(tài)可能包含各個傳感器的當(dāng)前讀數(shù)和報警狀態(tài)。這就是模擬廚房開始營業(yè)時"冰箱里有什么食材"的清單。

第四個組件是狀態(tài)描述，為每個狀態(tài)字段提供語義標(biāo)注，告訴模擬器在模擬過程中要維護哪些因果關(guān)系，比如"每完成一次房間預(yù)訂，剩余庫存數(shù)量就應(yīng)相應(yīng)減少"。這保證了模擬過程的內(nèi)部一致性，防止模擬器給出自相矛盾的反饋。

在實際評測時，被測AI智能體和模擬器按照以下流程交互：智能體發(fā)出一個工具調(diào)用請求，模擬器根據(jù)自己的配置和當(dāng)前的對話歷史生成一個JSON格式的響應(yīng)，智能體收到響應(yīng)后決定下一步行動，如此循環(huán)，直到任務(wù)完成或失敗。最終，一個獨立的評分模塊會根據(jù)預(yù)設(shè)的評分標(biāo)準(zhǔn)判斷整個軌跡是否通過。整個過程就像一場角色扮演游戲：模擬器扮演職場環(huán)境，智能體扮演職員，評分模塊扮演督導(dǎo)。

三、一套工業(yè)級的"題庫生成流水線"

光有模擬器框架還不夠，研究團隊還面臨一個更大的挑戰(zhàn)：如何批量生成382道高質(zhì)量的職業(yè)測試題，讓每道題都滿足可解性（有正確答案）、可驗證性（判斷對錯有明確標(biāo)準(zhǔn)）、區(qū)分度（能拉開不同能力的差距）和多樣性（題目結(jié)構(gòu)各不相同）這四個條件？

為此，研究團隊設(shè)計了一套多智能體協(xié)作的自動化生成流水線，以Gemini-3-Flash-Preview作為世界模型驅(qū)動器。整個流程可以類比為一家教材出版社的編輯流程：先由專業(yè)顧問撰寫參考文獻，再由出題組生成題目，然后由答題組試做，最后由審核組把關(guān)，不達標(biāo)的題目退回修改，實在修不好的就淘汰。

具體來說，每個職業(yè)場景首先被拆分成16個不重疊的子主題，并為每個子主題生成一份專業(yè)參考文檔，覆蓋該子領(lǐng)域的術(shù)語體系、工作流程、狀態(tài)變量、邊界情況和約束條件。這些文檔是后續(xù)所有內(nèi)容生成的"知識底座"，確保不同題目在結(jié)構(gòu)上有實質(zhì)性差異，而不只是表面換了幾個數(shù)字。

接著，流水線自動生成環(huán)境配置、任務(wù)說明、工具定義、解題方案和評分標(biāo)準(zhǔn)。每道題會在有解題方案和沒有解題方案兩種條件下各運行多次，前者用來驗證題目可解，后者用來評估題目難度。通過多數(shù)投票機制，評分模塊判斷軌跡是否通過；如果題目本身有問題（比如工具定義矛盾或任務(wù)無法完成），修復(fù)模塊會診斷并嘗試糾正。

最終，研究團隊過濾掉了三類題目：所有難度等級下智能體都能輕松解答的（說明題目太簡單，沒有區(qū)分價值）、完全無法解答的（說明題目設(shè)計有缺陷）、工具定義不合法的（說明配置存在技術(shù)問題）。經(jīng)過這番篩選，最終保留下382道題，平均每道題涉及5.5個可用工具，需要進行16.2次工具調(diào)用。

四、OCCUBENCH覆蓋哪些"職業(yè)賽道"

研究團隊將100個職業(yè)場景分配到10個行業(yè)類別中，每個類別的題目數(shù)量大致與該行業(yè)在現(xiàn)實中對AI智能體的需求規(guī)模相當(dāng)。

商業(yè)與企業(yè)類是規(guī)模最大的類別，包含19個場景，涵蓋簡歷篩選、費用審計、反洗錢合規(guī)審查等典型企業(yè)流程。技術(shù)與IT類緊隨其后，共16個場景，包括Linux系統(tǒng)運維、CI/CD流程故障恢復(fù)、網(wǎng)絡(luò)入侵響應(yīng)等。工業(yè)與工程類有12個場景，涉及生產(chǎn)排程和礦井通風(fēng)管理等。交通與物流類有11個場景，涵蓋最后一公里配送和列車調(diào)度。商業(yè)零售類有9個場景，包括動態(tài)定價和酒店收益管理。教育與文化類有8個場景，涵蓋自適應(yīng)課程設(shè)計和事實核查。醫(yī)療健康類有7個場景，包括急診分診和藥物相互作用篩查。公共服務(wù)與政務(wù)類有7個場景，涉及許可證處理和野火疏散協(xié)調(diào)。農(nóng)業(yè)與環(huán)境類有7個場景，包括灌溉控制和作物病害診斷?？茖W(xué)與研究類有4個場景，涵蓋望遠鏡調(diào)度和考古發(fā)掘規(guī)劃。

這些場景的設(shè)計遵循了幾個原則。首先，每個場景都對應(yīng)一個真實存在的人類職業(yè)角色，比如急診分診護士、運維工程師、海關(guān)官員、生產(chǎn)調(diào)度員，確保測評結(jié)果對現(xiàn)實有直接參考意義。其次，沒有任何單一子領(lǐng)域占據(jù)超過3個場景，防止某個細分領(lǐng)域的偏向性影響整體結(jié)果。更關(guān)鍵的是，絕大多數(shù)場景——核電站安全、藥物篩查、緊急協(xié)調(diào)——在任何現(xiàn)有基準(zhǔn)測評里都找不到對應(yīng)題目，這恰恰驗證了這套體系存在的獨特價值。

五、"故意出錯"的考場：環(huán)境魯棒性測試

OCCUBENCH的另一個顯著特色是系統(tǒng)性的故障注入測試，專門評估AI智能體在"環(huán)境不正常"時的表現(xiàn)。研究團隊設(shè)計了三種故障模式，通過在模擬器的系統(tǒng)提示詞里追加故障規(guī)則來實現(xiàn)，數(shù)據(jù)本身不做任何改動。

E0是干凈環(huán)境，沒有任何故障，作為基準(zhǔn)參照。E1是顯式故障環(huán)境，模擬器會隨機返回明顯的錯誤響應(yīng)，包括HTTP 500內(nèi)部服務(wù)器錯誤、請求超時、連接被拒絕、服務(wù)不可用等。這些故障有明確的錯誤信號，智能體看到后應(yīng)該知道這次調(diào)用失敗了，正確做法是重試。就像你打電話給客服，對方說"系統(tǒng)正在維護，請稍后再試"，這是顯式的失敗信號。

E2是隱式故障環(huán)境，要危險得多。模擬器返回的數(shù)據(jù)看起來格式完全正常、沒有任何錯誤提示，但內(nèi)容是殘缺的：數(shù)據(jù)被截斷了（只返回前幾條記錄）、字段缺失了、列表不完整了、或者返回的是過期的緩存數(shù)據(jù)。響應(yīng)表面上"正常"，但信息是不完整的。就像你讓助理整理15份合同，他交給你的文件夾里只有2份，但外觀上和完整文件夾沒什么區(qū)別。

E3是混合故障環(huán)境，大約一半顯式故障、一半隱式故障交替出現(xiàn)。所有故障都是暫時性的——重試之后就會恢復(fù)正?！以谡麄€對話過程中分散出現(xiàn)，不集中在開頭。故障的數(shù)量（默認為2次故障事件）和持續(xù)時間（默認每次連續(xù)影響2次工具調(diào)用）都是可以獨立調(diào)節(jié)的參數(shù)。

六、15個頂尖模型的大比武

研究團隊用OCCUBENCH評測了15個前沿模型，來自8個不同的模型家族，包括OpenAI的GPT-5.2、Anthropic的多個Claude版本（Opus和Sonnet的4、4.5、4.6三代）、Google的Gemini 3.1 Pro和Flash-Lite、DeepSeek V3.2、Moonshot的Kimi K2.5、MiniMax M2.7、Zhipu的GLM-5，以及阿里巴巴自家的Qwen 3.5 Plus和Flash。所有模型都開啟了思維鏈/推理模式，對于支持可調(diào)推理深度的模型，統(tǒng)一設(shè)置為"high"檔。

整體來看，GPT-5.2以79.6%的平均完成率排名第一，Gemini 3.1 Pro以72.3%排名第二，Claude Opus 4.6以71.5%排名第三，Qwen 3.5 Plus和DeepSeek V3.2分別以69.9%和69.6%排名第四和第五。

最令人意外的發(fā)現(xiàn)，或許是沒有任何一個模型能在所有行業(yè)里都保持領(lǐng)先。GPT-5.2在農(nóng)業(yè)（84%）、商業(yè)（86%）、工業(yè)（85%）和科學(xué)（94%）四個類別里拿了最高分，但在商業(yè)零售領(lǐng)域只有67%，遠低于Qwen 3.5 Plus的81%。Gemini 3.1 Pro在教育領(lǐng)域最強（84%），卻在醫(yī)療領(lǐng)域僅有62%。Claude Opus 4.6在交通（77%）和商業(yè)（78%）表現(xiàn)突出，卻在商業(yè)零售（53%）墊底。Qwen 3.5 Plus領(lǐng)跑醫(yī)療和商業(yè)零售（均為81%），卻在教育領(lǐng)域只有56%。

這幅"每個模型都有自己獨特的能力版圖"的圖景，對于企業(yè)選型有直接的實踐意義。如果你是一家醫(yī)療機構(gòu)，Qwen 3.5 Plus或Kimi K2.5（醫(yī)療81%）可能比GPT-5.2（76%）更適合你；如果你是一家物流公司，Claude Opus 4.6（77%）或許值得優(yōu)先考慮。單靠一個綜合排名根本無法傳達這種信息，這正是跨行業(yè)評測的核心價值。

開源模型的表現(xiàn)也在這次測評里得到了充分驗證。Qwen 3.5 Plus和DeepSeek V3.2分別以第4和第5名的成績，超越了大部分Claude變體，直接挑戰(zhàn)了"閉源模型在專業(yè)任務(wù)上必然優(yōu)于開源模型"的傳統(tǒng)認知。

七、故障來了，各模型表現(xiàn)天差地別

在魯棒性測評部分，研究團隊對9個代表性模型（每個家族選一個）分別測試了E0到E3四種環(huán)境條件下的表現(xiàn)。

平均來看，干凈環(huán)境（E0）下所有模型的平均完成率是67.5%。引入顯式故障（E1）后，平均降至62.6%，下降了4.9個百分點。引入隱式故障（E2）后，平均只剩53.4%，相比干凈環(huán)境下降了14.1個百分點?；旌瞎收希‥3）的平均分是54.4%，略高于E2但遠低于E1。

這個排序本身就很有啟發(fā)性。直覺上，混合了兩種故障的E3應(yīng)該比單一類型的E2更難，但現(xiàn)實恰恰相反。原因在于，顯式故障（超時、500錯誤）會觸發(fā)智能體的"警覺反應(yīng)"——這些信號太明顯了，智能體看到就知道要重試。而隱式故障（數(shù)據(jù)截斷、字段缺失）不會觸發(fā)任何報警，數(shù)據(jù)看起來正常，智能體很可能直接接受并在不完整的信息基礎(chǔ)上做出錯誤決策。E3里混入了一部分顯式故障，反而提醒了智能體"這個環(huán)境有問題，要小心"，從而提升了對隱式故障部分的警惕性。

具體到各模型的魯棒性表現(xiàn)，Gemini 3.1 Pro和MiniMax M2.7以0.87的魯棒性分數(shù)并列第一。GPT-5.2的魯棒性為0.84，排名第三。Kimi K2.5則以0.63的魯棒性墊底——它在干凈環(huán)境下完成率有64.1%，但在E2下只剩40.6%，降幅高達23.5個百分點。Claude Opus 4.6在E2下從71.5%跌至53.9%，下降17.6個百分點。Qwen 3.5 Plus從69.9%跌至51.6%，下降18.3個百分點。

研究團隊還系統(tǒng)地測試了故障強度對表現(xiàn)的影響：隨著故障次數(shù)從1增加到4，以及每次故障持續(xù)時間從1輪增加到4輪，所有模型的表現(xiàn)都呈現(xiàn)單調(diào)下降的趨勢。Claude Opus 4.6在故障次數(shù)從1增至4時，完成率從71.5%降至60.2%；Qwen 3.5 Plus在同樣條件下從61.3%降至49.7%。這意味著在實際部署中，故障頻率越高、持續(xù)時間越長，AI智能體的表現(xiàn)下滑就越嚴(yán)重，而這恰恰是真實生產(chǎn)環(huán)境中經(jīng)常出現(xiàn)的情況。

八、越大越新越愛"動腦"，表現(xiàn)就越好

研究團隊利用OCCUBENCH的多版本模型覆蓋，系統(tǒng)地驗證了三個關(guān)于AI能力的普遍性規(guī)律。

在模型規(guī)模方面，在有大小版本對比的五個模型家族里，大模型一致性地優(yōu)于小模型：Gemini 3.1 Pro比Flash-Lite高11.0個百分點，Qwen 3.5 Plus比Flash高10.2個百分點，Claude Opus 4.6比Sonnet 4.6高7.1個百分點，Claude Opus 4比Sonnet 4高7.9個百分點。唯一的例外是Claude 4.5代，Opus和Sonnet兩者幾乎持平（65.2%對64.9%），說明這一代的架構(gòu)改進對兩種規(guī)格的模型都同樣有效。

在代際進步方面，以Claude家族為例，Opus系列從第四代的61.3%穩(wěn)步提升到4.5代的65.2%，再到4.6代的71.5%，三代累計提升了10.2個百分點，驗證了持續(xù)迭代的價值。Sonnet系列則呈現(xiàn)不同的曲線：從第四代（53.4%）到4.5代（64.9%）有一個大幅躍升，但從4.5代到4.6代出現(xiàn)了微小的下滑（64.4%），研究團隊推測這可能反映了4.6代的自適應(yīng)思維架構(gòu)在推理深度與執(zhí)行效率之間存在權(quán)衡取舍。

在推理深度方面，研究團隊對支持可調(diào)推理深度的GPT-5.2和Claude Opus 4.6進行了專項測試，結(jié)果非常清晰。GPT-5.2從不使用推理（none檔，完成率54.7%）到最大推理深度（xhigh檔，完成率82.2%），提升了整整27.5個百分點，而且是完全單調(diào)遞增的曲線，沒有任何反轉(zhuǎn)。Claude Opus 4.6從low檔（70.2%）到max檔（73.8%）也有3.6個百分點的提升。這意味著，對于復(fù)雜專業(yè)任務(wù)，在推理上多花計算資源是一種可靠的提升手段。

九、會做題的AI，不一定會出題

OCCUBENCH的最后一個重要發(fā)現(xiàn)，觸及了這種評測方法的一個根本性問題：如果AI智能體本身就是被評測的對象，那么用另一個AI來充當(dāng)考場，會不會產(chǎn)生偏差？

研究團隊選取了8個代表性智能體模型，分別用三個不同的模擬器（Gemini-3-Flash-Preview、Qwen 3.5 Plus、GPT-5.2）來運行相同的測評，然后比較三個模擬器給出的排名是否一致。評估標(biāo)準(zhǔn)是"成對排名一致率"——在28對可能的模型組合里，有多少對在不同模擬器下的相對排名是一致的。

結(jié)果令人吃驚：GPT-5.2作為智能體排名第一（79.6%），但作為模擬器卻產(chǎn)生了最差的結(jié)果——在GPT-5.2模擬器下，所有被測智能體的平均完成率只有29.3%，遠低于Gemini Flash模擬器下的67.9%和Qwen 3.5 Plus模擬器下的63.4%。

研究團隊通過三個具體案例揭示了GPT-5.2模擬器失效的根本原因。在急診分診場景里，GPT-5.2模擬器憑空捏造了兩個原本不存在的空病房，導(dǎo)致被測智能體把病人轉(zhuǎn)入了"幻覺病房"而非正確病房。在工單升級流程場景里，GPT-5.2模擬器在返回可用人員列表時漏掉了滿足條件的Raj——一個二級數(shù)據(jù)庫專家，只保留了一個三級管理員，于是被測智能體只能選擇不滿足要求的候選人。在訂單退貨場景里，GPT-5.2模擬器自作主張地依據(jù)當(dāng)前日期計算出30天退貨期已過，拒絕了原本應(yīng)該批準(zhǔn)的退貨請求——而任務(wù)說明里根本沒有這條約束。

這三種失效模式——憑空捏造狀態(tài)、遺漏關(guān)鍵實體、自行發(fā)明業(yè)務(wù)規(guī)則——都指向同一個問題：一個強大的語言模型在扮演"環(huán)境模擬器"時，會不由自主地用自己的"世界知識"覆蓋任務(wù)配置，而不是嚴(yán)格遵守給定的環(huán)境合約。

相比之下，Qwen 3.5 Plus模擬器沒有出現(xiàn)這些問題，與Gemini Flash模擬器在28對模型組合里有24對排名一致，一致率達到85.7%，而且排名前三的模型（GPT-5.2、Gemini Pro、Opus 4.6）完全吻合。這說明，只要模擬器足夠可靠，基于語言世界模型的評測確實能產(chǎn)生穩(wěn)定可信的排名。研究團隊建議：在使用這種評測方式時，要么事先驗證模擬器質(zhì)量，要么在更換模擬器后重新驗證任務(wù)的可解性。

十、為什么有些行業(yè)對AI來說更難

把15個模型在各行業(yè)的表現(xiàn)加以平均，可以繪出一幅"行業(yè)難度地圖"。最容易的兩個行業(yè)是商業(yè)與企業(yè)（平均70.1%）和公共服務(wù)與政務(wù)（平均69.4%），最難的兩個是交通與物流（平均56.2%）和教育與文化（平均57.6%）。

這個結(jié)果有直觀的解釋。商業(yè)和公政類的任務(wù)往往遵循文檔完善、流程清晰的既定程序，決策路徑相對明確，即使是不同能力的模型也能沿著正確的流程走。交通物流類的任務(wù)則涉及復(fù)雜的多約束優(yōu)化——既要規(guī)劃路線，又要平衡負載，還要滿足時間窗口和資源限制，同時監(jiān)控多個狀態(tài)變量。教育類任務(wù)需要細膩的教學(xué)判斷，比如根據(jù)學(xué)生的實時反饋調(diào)整教學(xué)節(jié)奏和內(nèi)容深度，這要求模型具備一種更接近"人際感知"的能力，不是簡單的流程執(zhí)行能力所能涵蓋的。

這幅難度地圖對實際部署有重要參考價值：在最難的行業(yè)里，即便是最好的模型也只有56%到57%的平均完成率，這意味著全面自動化還有相當(dāng)長的路要走，人機協(xié)作才是更現(xiàn)實的選項。

說到底，OCCUBENCH做的事情可以用一句話來概括：它第一次系統(tǒng)性地回答了"AI能不能在真實職場里獨當(dāng)一面"這個問題，而不是只告訴你它在理想條件下表現(xiàn)如何。研究團隊給出的答案，既令人振奮，也令人保持清醒：當(dāng)前最強的模型已經(jīng)能在很多專業(yè)場景里完成80%左右的任務(wù)，但在交通物流、教育這些更復(fù)雜的領(lǐng)域仍有明顯短板；面對隱性數(shù)據(jù)故障，幾乎所有模型都會有顯著的能力下滑；沒有任何一個模型在所有行業(yè)里都是最強的，組織在選型時需要根據(jù)自己的具體業(yè)務(wù)來判斷。

更值得關(guān)注的是"模擬器本身也可能出錯"這個發(fā)現(xiàn)——它提醒我們，評測體系的可靠性不只取決于被測對象，還取決于測試工具本身的質(zhì)量。這是一個關(guān)于AI評測方法論的深層洞察，對整個領(lǐng)域的未來研究方向都有參考價值。

對這項研究感興趣的讀者，可以通過論文編號arXiv:2604.10866獲取完整原文，也可以通過論文提到的項目主頁獲取數(shù)據(jù)集和代碼。這是一項還在持續(xù)演進中的工作，但它已經(jīng)為AI智能體的職業(yè)能力評測樹立了一個新的參照框架。

Q&A

Q1：OCCUBENCH評測體系具體包含哪些行業(yè)和場景？

A：OCCUBENCH覆蓋10個行業(yè)類別，包括商業(yè)與企業(yè)、技術(shù)與IT、工業(yè)與工程、交通與物流、商業(yè)零售、教育與文化、醫(yī)療健康、公共服務(wù)與政務(wù)、農(nóng)業(yè)與環(huán)境、科學(xué)與研究，共100個職業(yè)場景、65個專業(yè)細分領(lǐng)域、382道測試題。每個場景對應(yīng)一個真實人類職業(yè)角色，例如急診分診護士、運維工程師、海關(guān)官員等。

Q2：語言世界模型評測方式的可靠性如何保證？

A：研究團隊通過對比三個不同模擬器（Gemini Flash、Qwen 3.5 Plus、GPT-5.2）的評測結(jié)果來驗證可靠性。當(dāng)使用能力足夠強且能嚴(yán)格遵守環(huán)境配置的模擬器時，28對模型組合中有85.7%的相對排名是一致的，前三名完全吻合。但強調(diào)，使用前需驗證模擬器質(zhì)量，因為過強的模型可能會用自身知識覆蓋任務(wù)規(guī)定，產(chǎn)生"幻覺環(huán)境"。

Q3：AI智能體在故障環(huán)境下表現(xiàn)為何會大幅下降？

A：隱式故障（E2）對AI智能體的影響最大，原因在于數(shù)據(jù)看起來格式正常但內(nèi)容殘缺，例如15條記錄只返回2條，卻沒有任何錯誤提示。大多數(shù)模型缺乏主動驗證數(shù)據(jù)完整性的能力，會直接基于不完整數(shù)據(jù)做決策，導(dǎo)致完成率平均從67.5%下滑至53.4%。顯式故障反而影響較小，因為錯誤信號明確，智能體知道需要重試。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.