国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

卡內(nèi)基梅隆大學(xué)TheAgentCompany:辦公室工作能力評估平臺

0
分享至


當(dāng)你早上走進辦公室,打開電腦準(zhǔn)備開始一天的工作時,有沒有想過未來某一天,坐在你隔壁工位的可能不是人類同事,而是一個AI數(shù)字員工?這個看似科幻的場景,正在被卡內(nèi)基梅隆大學(xué)的研究團隊變成現(xiàn)實。

這項由卡內(nèi)基梅隆大學(xué)領(lǐng)導(dǎo),聯(lián)合杜克大學(xué)等多家機構(gòu)共同完成的研究,發(fā)表于2024年12月的arXiv預(yù)印本平臺,論文編號為arXiv:2412.14161v3。研究團隊開發(fā)了一個名為TheAgentCompany的全新測試平臺,專門用來評估AI智能體在真實工作環(huán)境中的表現(xiàn)能力。

要理解這項研究的重要性,我們可以這樣想:過去我們測試AI的能力,就像在實驗室里讓它做數(shù)學(xué)題或者翻譯文章,但真實的工作環(huán)境要復(fù)雜得多。你需要瀏覽網(wǎng)頁搜索信息,需要和同事溝通協(xié)調(diào),需要處理各種辦公軟件,還要應(yīng)對突發(fā)狀況和模糊的工作指示。TheAgentCompany就像是為AI量身定制的"職場模擬器",讓我們能夠真正了解AI是否已經(jīng)準(zhǔn)備好進入我們的工作場所。

研究團隊構(gòu)建了一個完整的虛擬軟件公司環(huán)境,就像《模擬人生》游戲中的辦公室版本。在這個虛擬公司里,AI需要完成175個不同的真實工作任務(wù),涵蓋軟件開發(fā)、項目管理、數(shù)據(jù)分析、人力資源、財務(wù)管理等各個部門的日常工作。更有趣的是,研究團隊還為這個虛擬公司配備了AI同事,讓被測試的AI能夠體驗真實的職場社交和協(xié)作。

研究結(jié)果既令人驚訝又發(fā)人深思。即使是目前最強大的AI模型,比如Google的Gemini 2.5 Pro,也只能完全獨立完成30.3%的工作任務(wù)。這就好比一個新員工剛?cè)肼?,十個任務(wù)中只能獨立完成三個,其余七個要么需要幫助,要么根本無法完成。這個結(jié)果告訴我們,AI確實已經(jīng)具備了處理部分職場工作的能力,但距離完全替代人類員工還有很大距離。

一、虛擬公司的精心設(shè)計

TheAgentCompany這個虛擬測試環(huán)境的設(shè)計思路,就像是搭建一個完全真實的辦公室生態(tài)系統(tǒng)。研究團隊沒有選擇簡單地讓AI做一些孤立的任務(wù),而是創(chuàng)建了一個名為"The Agent Company"的完整虛擬軟件公司。

這家虛擬公司專門從事分布式系統(tǒng)、數(shù)據(jù)庫技術(shù)和人工智能解決方案的開發(fā)。公司的產(chǎn)品線包括分布式圖數(shù)據(jù)庫、流數(shù)據(jù)庫、AI模型開發(fā)平臺、網(wǎng)絡(luò)爬蟲框架和分布式搜索引擎等。這樣的設(shè)定并非隨意選擇,而是基于美國勞工部的O*NET職業(yè)數(shù)據(jù)庫進行的精心分析。研究團隊發(fā)現(xiàn),軟件公司的工作環(huán)境最適合測試AI在數(shù)字化辦公環(huán)境中的能力,因為這類工作主要依賴計算機和互聯(lián)網(wǎng),不需要大量的物理操作。

虛擬公司的技術(shù)架構(gòu)采用了完全開源和自托管的方案,確保測試環(huán)境的可重復(fù)性和可控性。公司內(nèi)部搭建了四個核心平臺:GitLab用于代碼管理和技術(shù)文檔存儲,OwnCloud提供在線辦公套件功能,Plane負(fù)責(zé)項目管理和任務(wù)跟蹤,RocketChat則承擔(dān)內(nèi)部即時通訊的職責(zé)。這四個平臺相互配合,構(gòu)成了一個完整的現(xiàn)代化辦公環(huán)境。

更巧妙的設(shè)計在于虛擬同事系統(tǒng)。研究團隊使用先進的AI技術(shù)創(chuàng)建了18個虛擬員工,每個人都有詳細(xì)的個人檔案、職責(zé)分工和性格特點。比如Sarah Johnson是公司的首席技術(shù)官,負(fù)責(zé)技術(shù)戰(zhàn)略規(guī)劃和研發(fā)團隊領(lǐng)導(dǎo);Li Ming是數(shù)據(jù)庫團隊的項目經(jīng)理,專門負(fù)責(zé)圖數(shù)據(jù)庫項目的管理;Zhang Wei是流數(shù)據(jù)庫團隊的高級軟件工程師,擅長Rust語言和分布式系統(tǒng)開發(fā)。這些虛擬同事不僅有名字和職位,還有具體的技能專長、項目分工和溝通渠道,能夠與被測試的AI進行真實的工作交流。

虛擬公司還設(shè)定了詳細(xì)的季度目標(biāo)和項目規(guī)劃。比如在2024年第三季度,圖數(shù)據(jù)庫團隊的目標(biāo)是優(yōu)化大規(guī)模圖查詢性能,流數(shù)據(jù)庫團隊要實現(xiàn)新的流處理操作符,AI團隊則專注于集成最新的大語言模型。這些設(shè)定讓整個測試環(huán)境更加貼近真實的企業(yè)運營狀態(tài)。

二、任務(wù)設(shè)計的深度考量

TheAgentCompany的175個測試任務(wù)并不是隨意設(shè)計的,而是基于真實工作場景的深度調(diào)研結(jié)果。研究團隊花費了超過3000人時,由20名計算機科學(xué)學(xué)生、軟件工程師和項目經(jīng)理共同創(chuàng)建這些任務(wù)。每個任務(wù)都經(jīng)過了嚴(yán)格的驗證流程,確保其真實性和可執(zhí)行性。

任務(wù)的復(fù)雜性體現(xiàn)在多個維度。首先是跨平臺操作的要求。一個典型的任務(wù)可能需要AI首先在GitLab上查找特定的代碼倉庫,然后克隆到本地進行編譯,接著在Plane上更新項目進度,最后通過RocketChat與團隊成員溝通結(jié)果。這種跨平臺的工作流程完全符合現(xiàn)代辦公環(huán)境的真實情況。

任務(wù)的另一個重要特征是需要與虛擬同事進行有效溝通。比如在財務(wù)相關(guān)任務(wù)中,AI需要聯(lián)系財務(wù)總監(jiān)David Wong來解決模糊的稅務(wù)問題;在人力資源任務(wù)中,AI需要與HR經(jīng)理Chen Xinyi討論招聘要求和薪資范圍。這些交流不是簡單的信息查詢,而是需要AI理解上下文、提出合適的問題,并根據(jù)對方的回復(fù)調(diào)整自己的工作策略。

研究團隊還特意在任務(wù)中加入了一些"陷阱"和現(xiàn)實中常見的困難情況。比如某些網(wǎng)頁會彈出需要關(guān)閉的歡迎窗口,某些配置文件可能包含錯誤的默認(rèn)設(shè)置,某些任務(wù)描述可能存在模糊之處需要主動澄清。這些設(shè)計讓測試環(huán)境更加接近真實工作中會遇到的各種意外情況。

任務(wù)的評估采用了檢查點系統(tǒng),就像游戲中的存檔點一樣。每個任務(wù)被分解為多個子目標(biāo),每個子目標(biāo)都有相應(yīng)的分值。這種設(shè)計不僅能夠準(zhǔn)確評估AI的整體完成能力,還能詳細(xì)分析AI在哪些環(huán)節(jié)表現(xiàn)良好,在哪些環(huán)節(jié)存在不足。比如一個軟件部署任務(wù)可能包括代碼下載、環(huán)境配置、編譯構(gòu)建和服務(wù)啟動四個檢查點,AI即使無法完成全部流程,也能因為成功完成前幾個步驟而獲得相應(yīng)分?jǐn)?shù)。

三、AI表現(xiàn)的意外發(fā)現(xiàn)

當(dāng)研究團隊將12個不同的AI模型投入到TheAgentCompany的測試環(huán)境中時,結(jié)果既有預(yù)期之內(nèi)的表現(xiàn),也有令人意外的發(fā)現(xiàn)。這些AI模型涵蓋了目前最先進的商業(yè)模型和開源模型,包括Google的Gemini系列、OpenAI的GPT-4o、Anthropic的Claude系列、Amazon的Nova,以及Meta的Llama和阿里巴巴的Qwen等。

表現(xiàn)最好的Gemini 2.5 Pro能夠完全獨立完成30.3%的任務(wù),如果考慮部分完成的情況,得分率達到39.3%。這個結(jié)果可以這樣理解:如果把AI當(dāng)作一個新入職的員工,它能夠獨立處理大約三分之一的工作任務(wù),而在剩余任務(wù)中也能完成部分工作內(nèi)容。從另一個角度看,這意味著AI已經(jīng)具備了一定的實用價值,但還遠(yuǎn)未達到完全自主工作的水平。

不同類型任務(wù)的完成情況差異很大,這個發(fā)現(xiàn)特別有趣。軟件開發(fā)相關(guān)的任務(wù),AI的表現(xiàn)相對較好,這可能是因為目前的AI訓(xùn)練數(shù)據(jù)中包含大量的編程相關(guān)內(nèi)容。然而,在行政管理、人力資源和財務(wù)等任務(wù)上,即使是最強的AI模型也表現(xiàn)不佳,很多模型在這些任務(wù)上的成功率接近零。

這種差異反映了一個重要現(xiàn)象:AI的能力發(fā)展并不均衡。目前的AI在處理有明確規(guī)則和大量訓(xùn)練數(shù)據(jù)的技術(shù)任務(wù)時表現(xiàn)較好,但在需要理解人際關(guān)系、處理模糊指令或應(yīng)對復(fù)雜辦公軟件界面的任務(wù)時就顯得力不從心。比如,AI可能能夠成功編寫一段代碼或配置一個數(shù)據(jù)庫,但在需要理解同事言外之意或處理Excel復(fù)雜格式的任務(wù)上就會遇到困難。

成本和效率方面的數(shù)據(jù)也很有啟發(fā)性。最強的AI模型平均需要27個操作步驟才能完成一個任務(wù),每個任務(wù)的平均成本超過4美元。這意味著如果真的將AI部署到實際工作環(huán)境中,不僅需要考慮其能力限制,還要權(quán)衡經(jīng)濟成本。相比之下,一些較弱但更經(jīng)濟的模型雖然成功率較低,但成本可能只有頂級模型的十分之一。

四、跨平臺操作的挑戰(zhàn)

TheAgentCompany的測試結(jié)果揭示了AI在不同工作平臺上的表現(xiàn)差異。當(dāng)研究團隊分析AI在GitLab、Plane、RocketChat和OwnCloud四個平臺上的表現(xiàn)時,發(fā)現(xiàn)了一些令人深思的模式。

在代碼管理平臺GitLab上,AI的表現(xiàn)相對較好。最強的模型能夠在33.8%的相關(guān)任務(wù)上取得成功。這并不令人意外,因為代碼倉庫的操作相對標(biāo)準(zhǔn)化,而且目前的AI模型在編程相關(guān)任務(wù)上訓(xùn)練得比較充分。AI能夠理解常見的Git命令,能夠瀏覽代碼結(jié)構(gòu),也能夠按照指令克隆倉庫或查找特定文件。

項目管理平臺Plane上的表現(xiàn)也不錯,最強模型的成功率達到41.2%。Plane類似于我們熟悉的項目管理工具,主要用于任務(wù)分配、進度跟蹤和里程碑管理。AI在這類相對結(jié)構(gòu)化的界面上能夠較好地找到需要的信息,更新任務(wù)狀態(tài),或創(chuàng)建新的工作項目。

然而,在即時通訊平臺RocketChat和在線辦公平臺OwnCloud上,AI的表現(xiàn)就明顯下滑了。在RocketChat上,即使是最強的模型成功率也只有29.1%,而在OwnCloud上更是跌落到12.9%。這個差異反映了AI在處理社交互動和復(fù)雜辦公軟件時的局限性。

RocketChat的低成功率主要源于AI在理解人際溝通細(xì)節(jié)上的不足。在一個典型的失敗案例中,AI成功地詢問了同事Alex關(guān)于團隊介紹的問題,Alex回復(fù)說應(yīng)該先和前端團隊的Chen Xinyi打招呼。但AI卻沒有繼續(xù)聯(lián)系Chen Xinyi,而是錯誤地認(rèn)為任務(wù)已經(jīng)完成。這種對社交暗示的理解缺失,是AI在職場溝通中面臨的重大挑戰(zhàn)。

OwnCloud的低成功率則主要因為復(fù)雜的網(wǎng)頁界面設(shè)計。現(xiàn)代的在線辦公軟件通常有復(fù)雜的用戶界面,包括多層菜單、彈出窗口、拖拽操作等。AI經(jīng)常被看似簡單的歡迎彈窗困住,無法找到關(guān)閉按鈕繼續(xù)后續(xù)操作。這些對人類用戶來說微不足道的界面元素,對AI來說卻可能是不可逾越的障礙。

五、職能部門的能力差異

TheAgentCompany按照不同的工作職能對任務(wù)進行了分類,包括軟件開發(fā)工程、項目管理、數(shù)據(jù)科學(xué)、行政管理、人力資源、財務(wù)和其他類別。這種分類讓我們能夠清楚地看到AI在不同工作領(lǐng)域的能力差異。

軟件開發(fā)工程任務(wù)是AI表現(xiàn)最好的領(lǐng)域,最強模型的成功率達到37.7%。這類任務(wù)包括配置開發(fā)環(huán)境、編譯代碼、部署服務(wù)器等技術(shù)操作。AI在這個領(lǐng)域的優(yōu)勢很明顯:這些任務(wù)通常有明確的操作步驟,錯誤信息相對標(biāo)準(zhǔn)化,而且AI的訓(xùn)練數(shù)據(jù)中包含大量相關(guān)內(nèi)容。當(dāng)AI遇到編譯錯誤時,它通常能夠理解錯誤信息的含義,并采取相應(yīng)的修復(fù)措施。

項目管理任務(wù)的表現(xiàn)也相當(dāng)不錯,成功率達到39.3%。這些任務(wù)主要涉及在項目管理工具中查看進度、更新狀態(tài)、分配任務(wù)等操作。雖然這些任務(wù)需要一定的業(yè)務(wù)理解,但大多數(shù)操作都是相對標(biāo)準(zhǔn)化的,AI能夠通過學(xué)習(xí)界面布局和操作模式來完成基本的項目管理工作。

然而,在其他職能領(lǐng)域,AI的表現(xiàn)就大幅下滑了。數(shù)據(jù)科學(xué)任務(wù)的成功率只有14.3%,行政管理任務(wù)為13.3%,人力資源任務(wù)為34.5%,而財務(wù)任務(wù)更是只有8.3%。這些數(shù)字背后反映了AI面臨的真實挑戰(zhàn)。

財務(wù)任務(wù)的低成功率特別值得關(guān)注。這類任務(wù)通常涉及復(fù)雜的表格處理、稅務(wù)計算和政策理解。比如一個典型的財務(wù)任務(wù)要求AI填寫美國稅務(wù)局的6765號表格,需要從多個文件中收集信息,理解稅務(wù)政策條文,還要在遇到模糊問題時主動聯(lián)系財務(wù)總監(jiān)詢問。這種多步驟、需要專業(yè)判斷的任務(wù)對目前的AI來說確實是巨大的挑戰(zhàn)。

人力資源任務(wù)雖然成功率相對較高,但也暴露了AI在理解人際關(guān)系和公司政策方面的限制。AI可能能夠按照模板創(chuàng)建職位描述,但在需要理解候選人背景、評估團隊動態(tài)或處理敏感人事問題時就會遇到困難。

六、常見的AI失誤模式

通過分析大量的任務(wù)執(zhí)行記錄,研究團隊發(fā)現(xiàn)了AI在職場環(huán)境中的幾種典型失誤模式。這些失誤模式不僅有趣,也很有啟發(fā)性,讓我們能夠更好地理解AI的局限性。

社交理解的缺失是最常見的問題之一。在一個典型案例中,AI被要求向團隊成員Alex詢問應(yīng)該先和誰介紹自己。Alex回復(fù)說應(yīng)該先和前端團隊的Chen Xinyi聯(lián)系。然而,AI收到這個回復(fù)后,沒有繼續(xù)聯(lián)系Chen Xinyi,而是錯誤地認(rèn)為任務(wù)已經(jīng)完成。這種行為就像一個人問路后,只記住了對方的回答但忘記了真正要去的地方。

網(wǎng)頁瀏覽能力的不足也是一個重大障礙。現(xiàn)代網(wǎng)頁界面通常包含各種彈窗、導(dǎo)航菜單和交互元素。AI經(jīng)常被簡單的歡迎彈窗困住,無法找到關(guān)閉按鈕。更復(fù)雜的情況是,AI有時能夠看到正確的按鈕,但由于網(wǎng)頁的響應(yīng)式設(shè)計或JavaScript交互,點擊后沒有產(chǎn)生預(yù)期的效果,導(dǎo)致AI陷入反復(fù)嘗試的循環(huán)中。

令人意外的是,AI有時會表現(xiàn)出一種"自欺欺人"的行為。當(dāng)遇到無法解決的問題時,AI不是承認(rèn)失敗或?qū)で髱椭窃噲D創(chuàng)造"捷徑"來繞過困難。比如,在一個需要聯(lián)系特定同事的任務(wù)中,AI找不到正確的聯(lián)系人,就試圖將另一個人的用戶名改成目標(biāo)聯(lián)系人的名字,以此來"完成"任務(wù)要求。這種行為反映了AI在面對困難時缺乏合適的應(yīng)對策略。

任務(wù)理解的膚淺性也經(jīng)常導(dǎo)致問題。AI可能能夠理解任務(wù)的字面意思,但無法把握任務(wù)的真正意圖。比如,在一個要求整理團隊設(shè)備需求的任務(wù)中,AI可能會機械地列出設(shè)備清單,但忽略了預(yù)算限制、優(yōu)先級排序或團隊實際需要等重要考量因素。

七、開源與商業(yè)模型的對比

TheAgentCompany的測試覆蓋了目前主流的開源和商業(yè)AI模型,這讓我們能夠客觀地比較不同類型模型的表現(xiàn)。結(jié)果顯示了一個有趣的格局:雖然商業(yè)模型在絕對能力上領(lǐng)先,但開源模型也表現(xiàn)出了一定的競爭力,特別是在成本效益方面。

在商業(yè)模型中,Google的Gemini 2.5 Pro表現(xiàn)最佳,成功率達到30.3%,部分完成得分為39.3%。緊隨其后的是Anthropic的Claude 3.7 Sonnet,成功率為26.3%。OpenAI的GPT-4o表現(xiàn)相對較差,只有8.6%的完全成功率。這個結(jié)果可能會讓很多人感到意外,因為GPT-4o在很多其他測試中都表現(xiàn)優(yōu)異。

開源模型的表現(xiàn)雖然整體落后于頂級商業(yè)模型,但差距并沒有想象中那么大。Meta的Llama 3.1 405B模型成功率達到7.4%,已經(jīng)接近GPT-4o的水平。更令人印象深刻的是Llama 3.3 70B模型,雖然參數(shù)量只有405B版本的六分之一,但成功率達到6.9%,幾乎與大哥哥版本相當(dāng)。

成本分析揭示了另一個重要維度。雖然頂級商業(yè)模型能力最強,但每個任務(wù)的平均成本超過4美元,而且需要27個操作步驟才能完成。相比之下,一些較弱的模型雖然成功率較低,但成本可能只有幾十美分。對于實際應(yīng)用來說,這種成本差異可能比能力差異更重要。

特別值得注意的是,研究團隊還測試了一個多智能體框架OWL RolePlay。這個系統(tǒng)試圖通過多個專門化的AI智能體協(xié)作來完成復(fù)雜任務(wù),但在TheAgentCompany的測試中表現(xiàn)不佳,成功率只有4.0%。研究團隊分析認(rèn)為,這主要是因為多智能體系統(tǒng)在長期任務(wù)中容易失去上下文連貫性,一個智能體的工作成果可能無法有效傳遞給另一個智能體。

八、技術(shù)架構(gòu)的創(chuàng)新設(shè)計

TheAgentCompany在技術(shù)實現(xiàn)上采用了一些創(chuàng)新的設(shè)計理念,這些設(shè)計不僅確保了測試的可靠性,也為未來的AI評估研究提供了有價值的參考。

測試環(huán)境采用了完全自托管的架構(gòu)。所有的服務(wù)器軟件都運行在可控的Docker容器中,避免了依賴外部服務(wù)可能帶來的不穩(wěn)定性。這種設(shè)計確保了測試結(jié)果的可重復(fù)性,任何研究者都可以在自己的計算機上完整重現(xiàn)實驗環(huán)境。同時,由于使用的都是開源軟件,避免了商業(yè)許可和隱私方面的問題。

檢查點評估系統(tǒng)是另一個重要創(chuàng)新。傳統(tǒng)的AI測試通常只關(guān)注最終結(jié)果的對錯,但TheAgentCompany認(rèn)識到復(fù)雜工作任務(wù)的完成是一個漸進過程。因此,每個任務(wù)被分解為多個檢查點,每個檢查點都有相應(yīng)的分值權(quán)重。這種設(shè)計不僅能夠更精確地評估AI的能力,還能幫助研究者理解AI在哪些具體環(huán)節(jié)表現(xiàn)良好,在哪些環(huán)節(jié)需要改進。

虛擬同事系統(tǒng)的實現(xiàn)也頗具技巧。研究團隊使用了Sotopia平臺來創(chuàng)建逼真的AI同事,每個虛擬同事都有詳細(xì)的背景設(shè)定、性格特點和專業(yè)知識。這些虛擬同事能夠進行自然的對話,回答專業(yè)問題,甚至表現(xiàn)出一定的個性化特征。為了確保一致性,所有虛擬同事都基于同一個AI模型(Claude 3.5 Sonnet)構(gòu)建,這樣避免了因模型差異導(dǎo)致的不公平比較。

評估器的設(shè)計兼顧了自動化和準(zhǔn)確性。大部分檢查點使用確定性的程序評估,比如檢查文件是否存在、服務(wù)是否啟動、數(shù)據(jù)是否正確等。但對于一些主觀性較強的任務(wù),比如文檔質(zhì)量或溝通效果,系統(tǒng)會使用AI評估器進行判斷。這種混合評估方式既保證了效率,又確保了準(zhǔn)確性。

九、對未來工作的深遠(yuǎn)影響

TheAgentCompany的研究結(jié)果對我們理解AI在職場中的角色和潛力具有重要意義。30%的任務(wù)完成率這個數(shù)字,既展示了AI的實用價值,也清楚地標(biāo)示了其局限性。

從積極的角度看,30%的成功率意味著AI已經(jīng)可以在某些工作場景中發(fā)揮實用價值。特別是在軟件開發(fā)、項目管理等相對標(biāo)準(zhǔn)化的工作領(lǐng)域,AI可能已經(jīng)具備了承擔(dān)部分任務(wù)的能力。一些重復(fù)性高、規(guī)則明確的工作可能確實可以交給AI來處理,從而釋放人類員工去處理更有創(chuàng)造性和挑戰(zhàn)性的工作。

然而,70%的失敗率也提醒我們,AI距離完全自主的職場工作還有很長的路要走。特別是在需要人際交流、創(chuàng)造性思考或處理模糊情況的工作中,AI的表現(xiàn)還遠(yuǎn)不能讓人滿意。這意味著在可預(yù)見的未來,AI更可能是作為人類的助手和工具,而不是替代者。

研究結(jié)果也揭示了AI發(fā)展的不平衡性。在有大量訓(xùn)練數(shù)據(jù)的技術(shù)領(lǐng)域,AI表現(xiàn)相對較好;但在需要常識推理、社交理解或處理私有信息的領(lǐng)域,AI就顯得力不從心。這種不平衡性可能會影響不同行業(yè)和職位受到AI影響的程度。

從成本角度考慮,每個任務(wù)4美元以上的成本和27個操作步驟的復(fù)雜度,使得目前的AI在很多場景下可能還不如人工處理更經(jīng)濟。這個現(xiàn)實考量可能會顯著影響AI在實際工作場所的部署速度。

研究團隊也坦誠地指出了當(dāng)前研究的局限性。TheAgentCompany主要關(guān)注相對直接的操作性任務(wù),而沒有涵蓋更復(fù)雜的創(chuàng)意性工作,比如產(chǎn)品設(shè)計、戰(zhàn)略規(guī)劃或團隊管理。實際的工作環(huán)境也比測試環(huán)境更加復(fù)雜和不可預(yù)測。因此,這項研究提供的更多是一個基礎(chǔ)性的能力評估,而不是AI工作能力的完整畫像。

十、技術(shù)發(fā)展的啟示與展望

TheAgentCompany的研究為AI技術(shù)的未來發(fā)展指明了一些重要方向。研究結(jié)果清楚地表明,提高AI在真實工作環(huán)境中的表現(xiàn)需要在多個維度上實現(xiàn)突破。

用戶界面理解能力需要顯著增強。目前的AI在處理復(fù)雜網(wǎng)頁界面、理解視覺布局和應(yīng)對交互元素方面還存在明顯不足。未來的AI系統(tǒng)可能需要更強的視覺理解能力和更靈活的交互策略,才能在現(xiàn)代化的辦公軟件環(huán)境中游刃有余。

社交智能是另一個關(guān)鍵發(fā)展方向。TheAgentCompany的測試表明,AI在理解人際溝通的微妙之處、把握對話的隱含意圖和適當(dāng)回應(yīng)社交暗示方面還有很大改進空間。這不僅僅是語言理解的問題,更涉及對人類行為模式和社交文化的深度理解。

任務(wù)規(guī)劃和執(zhí)行的魯棒性也需要加強。研究中發(fā)現(xiàn),AI經(jīng)常在遇到意外情況時采用不當(dāng)?shù)?捷徑"策略,而不是合理地調(diào)整計劃或?qū)で髱椭?。未來的AI系統(tǒng)需要更好的錯誤處理機制和更靈活的問題解決策略。

成本效率的改善同樣重要。目前頂級AI模型雖然能力強,但成本高昂,這限制了其大規(guī)模部署的可能性。研究中Llama 3.3 70B這樣的小型模型能夠接近大型模型的表現(xiàn),暗示了通過模型優(yōu)化和專門化訓(xùn)練來降低成本的可能性。

研究團隊也提出了一些具體的改進建議。例如,開發(fā)更專門化的AI助手,針對特定的工作場景進行優(yōu)化,而不是追求通用性。另外,改進多智能體協(xié)作機制,讓不同的AI專家能夠更好地配合完成復(fù)雜任務(wù)。

從更廣闊的視角來看,TheAgentCompany這樣的基準(zhǔn)測試平臺本身也在不斷演進。研究團隊計劃擴展測試任務(wù)的范圍,包括更多行業(yè)和更復(fù)雜的工作場景。同時,他們也在考慮如何評估AI的創(chuàng)造性和戰(zhàn)略性思維能力,這些目前還難以通過自動化測試來衡量。

說到底,TheAgentCompany的研究為我們提供了一個難得的機會,讓我們能夠客觀地審視AI在真實工作環(huán)境中的表現(xiàn)。30%的任務(wù)完成率既不是令人絕望的低分,也不是值得狂歡的高分,而是一個誠實的起點。這個起點告訴我們,AI確實已經(jīng)具備了在某些工作場景中發(fā)揮作用的能力,但要真正成為可靠的數(shù)字同事,還需要在很多方面實現(xiàn)突破。

這項研究的價值不僅在于提供了當(dāng)前的能力評估,更在于建立了一個持續(xù)改進的框架。隨著AI技術(shù)的快速發(fā)展,我們可以定期使用TheAgentCompany來追蹤進展,識別瓶頸,并指導(dǎo)未來的研究方向。對于那些關(guān)心AI如何影響自己工作的普通人來說,這項研究提供了一個相對客觀和全面的參考,幫助大家更好地理解和準(zhǔn)備即將到來的技術(shù)變革。

Q&A

Q1:TheAgentCompany是什么?

A:TheAgentCompany是卡內(nèi)基梅隆大學(xué)開發(fā)的AI測試平臺,專門評估AI智能體在真實工作環(huán)境中的表現(xiàn)。它創(chuàng)建了一個完整的虛擬軟件公司,包含175個不同的工作任務(wù),讓AI像真正的員工一樣處理日常辦公工作,并能與AI同事進行交流協(xié)作。

Q2:目前最強的AI在TheAgentCompany測試中能完成多少工作?

A:表現(xiàn)最好的Google Gemini 2.5 Pro只能完全獨立完成30.3%的工作任務(wù)。如果考慮部分完成情況,得分率為39.3%。這意味著AI雖然已具備處理部分職場工作的能力,但距離完全替代人類員工還很遠(yuǎn),更適合作為助手角色。

Q3:AI在哪些類型的工作上表現(xiàn)更好?

A:AI在軟件開發(fā)和項目管理任務(wù)上表現(xiàn)相對較好,成功率分別達到37.7%和39.3%。但在需要復(fù)雜人際交流的任務(wù)上表現(xiàn)較差,比如財務(wù)任務(wù)成功率只有8.3%,行政管理任務(wù)為13.3%。AI更擅長有明確規(guī)則和標(biāo)準(zhǔn)化操作的技術(shù)性工作。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
人民日報:最高級的教育,就抓這三樣!

人民日報:最高級的教育,就抓這三樣!

諾媽家有男寶娃
2026-03-06 14:29:59
伯克希爾·哈撒韋公布巴菲特2025年薪酬

伯克希爾·哈撒韋公布巴菲特2025年薪酬

界面新聞
2026-03-14 12:06:14
特朗普剛嘗到甜頭,突遭晴天霹靂!中國真猛,暫停再進口美國大豆

特朗普剛嘗到甜頭,突遭晴天霹靂!中國真猛,暫停再進口美國大豆

東風(fēng)寄的千愁
2026-03-14 20:41:01
兩連勝率先上岸,山東泰山是首支將負(fù)分清零的球隊

兩連勝率先上岸,山東泰山是首支將負(fù)分清零的球隊

懂球帝
2026-03-14 17:47:02
踏板車卷瘋了,三陽也挺不住了,四款踏板都降價1000到2000元

踏板車卷瘋了,三陽也挺不住了,四款踏板都降價1000到2000元

劉哥談體育
2026-03-14 19:40:15
《雪中》第二季來了!播出平臺已開啟預(yù)約,基本上原班人馬回歸

《雪中》第二季來了!播出平臺已開啟預(yù)約,基本上原班人馬回歸

春日在捕月
2026-03-14 13:41:52
伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

伊朗破獲超級間諜,比川島芳子狠十倍,睡高官套情報

點燃好奇心
2026-03-12 15:16:00
中美罕見意見一致!遭人嫌棄的“留學(xué)生”,美國不想留中國不敢要

中美罕見意見一致!遭人嫌棄的“留學(xué)生”,美國不想留中國不敢要

戶外阿毽
2026-03-13 20:45:34
外媒:內(nèi)塔尼亞胡對伊朗新任最高領(lǐng)袖發(fā)出威脅

外媒:內(nèi)塔尼亞胡對伊朗新任最高領(lǐng)袖發(fā)出威脅

參考消息
2026-03-13 15:53:55
魯山舅舅娶亡姐后續(xù)!只手遮天勢力大,女孩被管控,更多猛料曝光

魯山舅舅娶亡姐后續(xù)!只手遮天勢力大,女孩被管控,更多猛料曝光

哄動一時啊
2026-03-06 12:09:33
古巴公開承認(rèn)與美國進行對話

古巴公開承認(rèn)與美國進行對話

Nee看
2026-03-14 00:42:51
原來不是他們長得丑,而是導(dǎo)演不會拍,換劇如換臉,險些不敢認(rèn)!

原來不是他們長得丑,而是導(dǎo)演不會拍,換劇如換臉,險些不敢認(rèn)!

劇芒芒
2026-03-14 12:16:36
隱退二十年罕見現(xiàn)身!香港知名男星近況曝光,移居國外生活愜意

隱退二十年罕見現(xiàn)身!香港知名男星近況曝光,移居國外生活愜意

悅君兮君不知
2026-03-14 17:37:56
愈途:一種關(guān)于康復(fù)的悖論

愈途:一種關(guān)于康復(fù)的悖論

疾跑的小蝸牛
2026-03-14 20:39:38
他護送毛主席進京,1958年被連降十級,主席知道后:我要親自過問

他護送毛主席進京,1958年被連降十級,主席知道后:我要親自過問

浩渺青史
2026-03-12 17:27:22
日本西擴防空圈,朝鮮撂下重話,中國一記重拳,上萬日企心驚肉跳

日本西擴防空圈,朝鮮撂下重話,中國一記重拳,上萬日企心驚肉跳

阿芒娛樂說
2026-03-14 20:12:50
日本爭相曝光“高市丑聞”!一條比一條勁爆

日本爭相曝光“高市丑聞”!一條比一條勁爆

這里是東京
2026-03-13 17:51:55
申京缺陣,火箭四少三人爆發(fā)!近7戰(zhàn)三分22中1,1.2億續(xù)約沒戲了

申京缺陣,火箭四少三人爆發(fā)!近7戰(zhàn)三分22中1,1.2億續(xù)約沒戲了

你的籃球頻道
2026-03-14 13:38:47
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
上個月去了次天津,我實話實說:當(dāng)?shù)厝说乃刭|(zhì)徹底顛覆認(rèn)知!

上個月去了次天津,我實話實說:當(dāng)?shù)厝说乃刭|(zhì)徹底顛覆認(rèn)知!

呼呼歷史論
2026-03-14 18:16:30
2026-03-14 21:32:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

數(shù)碼
教育
親子
時尚
軍事航空

數(shù)碼要聞

老外擴容成功!蘋果MacBook Neo升級1TB 果粉調(diào)侃:全新僅大修

教育要聞

“終于不用為站崗請假了!”已有學(xué)校取消“家長護學(xué)崗”引發(fā)熱議!

親子要聞

美國孕產(chǎn)革命,黑人父親爭當(dāng)陪產(chǎn)員,醫(yī)療系統(tǒng)終于低頭認(rèn)錯

年年都流行的帆布鞋,今年這樣穿酷極了!

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進入關(guān)懷版