網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

手機(jī)智能助手的"高考"來(lái)了！阿里巴巴團(tuán)隊(duì)發(fā)布史上最難移動(dòng)AI測(cè)試

2025-12-24 16:36:47　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由阿里巴巴通義實(shí)驗(yàn)室的孔曲雨、張旭等研究人員聯(lián)合香港科技大學(xué)（廣州）和佛羅里達(dá)大學(xué)團(tuán)隊(duì)共同完成的研究，發(fā)表于2025年12月。研究團(tuán)隊(duì)開(kāi)發(fā)了名為MobileWorld的全新測(cè)評(píng)平臺(tái)，感興趣的讀者可以通過(guò)論文編號(hào)arXiv:2512.19432查詢完整論文。

當(dāng)我們?nèi)粘Ｊ褂檬謾C(jī)時(shí)，經(jīng)常需要在不同應(yīng)用之間切換，比如先查看微信消息，然后在日歷里添加約會(huì)，接著打開(kāi)地圖查路線。這些看似簡(jiǎn)單的操作，對(duì)于人工智能來(lái)說(shuō)卻是巨大的挑戰(zhàn)。就像讓一個(gè)機(jī)器人學(xué)會(huì)開(kāi)車不僅要會(huì)踩油門剎車，還要懂得觀察路況、理解交通規(guī)則一樣復(fù)雜。

過(guò)去，研究人員們用來(lái)測(cè)試手機(jī)AI助手能力的"考試"叫做AndroidWorld，但就像一份變得太簡(jiǎn)單的考試一樣，現(xiàn)在的AI已經(jīng)能在這個(gè)測(cè)試中獲得90%以上的高分。這意味著這份"考試"已經(jīng)無(wú)法真正區(qū)分出哪個(gè)AI更聰明、更實(shí)用了。更重要的是，這些傳統(tǒng)測(cè)試就像在溫室里種花一樣，缺乏真實(shí)世界的復(fù)雜性和挑戰(zhàn)性。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)創(chuàng)造了一個(gè)全新的、更加困難的"考場(chǎng)"——MobileWorld。這個(gè)新測(cè)試就像從小學(xué)數(shù)學(xué)題直接跳到了高考數(shù)學(xué)，不僅題目更復(fù)雜，還增加了全新的考試形式。

一、前所未有的復(fù)雜任務(wù)挑戰(zhàn)

想象一下，如果你要完成"給朋友發(fā)郵件分享購(gòu)物清單"這樣的任務(wù)，傳統(tǒng)的AI測(cè)試可能只需要幾個(gè)簡(jiǎn)單步驟。但在MobileWorld中，AI需要做的事情復(fù)雜得多：它可能需要先在購(gòu)物APP里查看商品，記住價(jià)格和名稱，然后切換到郵件APP，寫郵件時(shí)還要從之前查看的內(nèi)容中提取信息，最后發(fā)送給正確的聯(lián)系人。

這種復(fù)雜性體現(xiàn)在兩個(gè)方面。首先是任務(wù)長(zhǎng)度的顯著增加。如果說(shuō)原來(lái)的測(cè)試像是"走到廚房拿個(gè)蘋果"這樣的簡(jiǎn)單指令，那么新的測(cè)試就像是"去超市買齊今晚晚餐的食材，回家后按照網(wǎng)上的食譜做一頓三菜一湯的晚餐"。具體來(lái)說(shuō)，MobileWorld中的任務(wù)平均需要27.8個(gè)操作步驟才能完成，幾乎是原來(lái)測(cè)試（14.3步）的兩倍。

更關(guān)鍵的是跨應(yīng)用協(xié)作的大幅增加。在MobileWorld中，62.2%的任務(wù)都需要在多個(gè)應(yīng)用之間切換和協(xié)調(diào)，而原來(lái)只有9.5%。這就像從單人項(xiàng)目變成了需要多個(gè)部門協(xié)作的復(fù)雜工程，每一步都要考慮前面的操作結(jié)果，還要為后續(xù)操作做準(zhǔn)備。

二、會(huì)提問(wèn)的AI：當(dāng)指令不夠清楚時(shí)

現(xiàn)實(shí)生活中，我們給別人的指令往往不夠詳細(xì)。比如你對(duì)朋友說(shuō)"幫我定個(gè)餐廳"，朋友通常會(huì)反問(wèn)："什么時(shí)候？幾個(gè)人？想吃什么菜？預(yù)算多少？"這種互動(dòng)對(duì)話在人與人之間很自然，但對(duì)AI來(lái)說(shuō)卻是全新的挑戰(zhàn)。

MobileWorld引入了"智能對(duì)話"功能，讓AI學(xué)會(huì)在信息不足時(shí)主動(dòng)提問(wèn)。舉個(gè)例子，如果用戶說(shuō)"給Kevin發(fā)個(gè)郵件說(shuō)Hello"，但手機(jī)通訊錄里沒(méi)有Kevin的郵箱地址，AI就需要主動(dòng)詢問(wèn)"請(qǐng)問(wèn)Kevin的郵箱地址是什么？"而不是胡亂猜測(cè)或者直接報(bào)錯(cuò)。

這項(xiàng)功能的實(shí)現(xiàn)很巧妙。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"模擬用戶"系統(tǒng)，就像游戲中的NPC（非玩家角色）一樣，這個(gè)虛擬用戶知道任務(wù)的完整信息，但只有當(dāng)AI問(wèn)對(duì)了問(wèn)題時(shí)才會(huì)透露相應(yīng)的答案。這樣就能測(cè)試AI是否真的理解了任務(wù)需求，是否能夠識(shí)別信息缺失并準(zhǔn)確提問(wèn)。

在MobileWorld的所有任務(wù)中，有22.4%專門用來(lái)測(cè)試這種對(duì)話能力。這些任務(wù)故意省略關(guān)鍵信息，迫使AI必須通過(guò)提問(wèn)來(lái)獲取完整的任務(wù)要求。這就像是給AI設(shè)置了一道"理解力"和"溝通力"的雙重考驗(yàn)。

三、工具使用達(dá)人：結(jié)合外部資源的智能操作

現(xiàn)代智能助手不應(yīng)該只會(huì)在手機(jī)上點(diǎn)點(diǎn)戳戳，還應(yīng)該能夠調(diào)用各種外部工具和服務(wù)。就像一個(gè)真正的助理不僅要會(huì)整理文件，還要會(huì)使用電腦、打印機(jī)、傳真機(jī)等各種辦公設(shè)備一樣。

MobileWorld集成了一個(gè)叫做MCP（模型上下文協(xié)議）的工具系統(tǒng)，這相當(dāng)于給AI配備了一個(gè)"瑞士軍刀"般的工具包。這個(gè)工具包里包含了地圖導(dǎo)航、代碼倉(cāng)庫(kù)查詢、文檔處理、金融數(shù)據(jù)查詢、學(xué)術(shù)論文檢索等61種不同的工具。

舉個(gè)具體例子：假設(shè)用戶需要"查看某個(gè)開(kāi)源項(xiàng)目的最新更新情況，然后在團(tuán)隊(duì)群里分享總結(jié)"。傳統(tǒng)的AI可能需要先打開(kāi)瀏覽器，搜索項(xiàng)目網(wǎng)站，逐頁(yè)查看更新信息，然后切換到聊天軟件手動(dòng)輸入總結(jié)。但配備了MCP工具的AI可以直接調(diào)用GitHub工具快速獲取項(xiàng)目的詳細(xì)更新信息，然后自動(dòng)整理成易讀的格式，最后通過(guò)聊天軟件發(fā)送給團(tuán)隊(duì)。

這種混合操作模式代表了未來(lái)智能助手的發(fā)展方向。AI不再局限于單純的界面操作，而是能夠智能選擇最合適的方式完成任務(wù)：有時(shí)通過(guò)點(diǎn)擊界面，有時(shí)通過(guò)調(diào)用專業(yè)工具，有時(shí)兩者結(jié)合使用。在MobileWorld中，19.9%的任務(wù)專門測(cè)試這種混合能力。

四、如何確保測(cè)試的公平性和準(zhǔn)確性

任何測(cè)試都面臨一個(gè)核心問(wèn)題：如何確保結(jié)果準(zhǔn)確可靠？傳統(tǒng)的AI測(cè)試常常依賴人工評(píng)判，就像作文考試需要老師主觀打分一樣，容易出現(xiàn)不一致的結(jié)果。MobileWorld采用了一套完全自動(dòng)化、客觀化的評(píng)判系統(tǒng)，就像選擇題考試有標(biāo)準(zhǔn)答案一樣。

這個(gè)評(píng)判系統(tǒng)的巧妙之處在于多層次驗(yàn)證。對(duì)于需要文字回答的任務(wù)，系統(tǒng)會(huì)檢查答案的準(zhǔn)確性，比如問(wèn)"今天北京的最高溫度是多少"，AI回答"25度"，系統(tǒng)就會(huì)驗(yàn)證這個(gè)數(shù)字是否正確。對(duì)于需要操作的任務(wù)，系統(tǒng)會(huì)檢查多個(gè)層面的結(jié)果。

以發(fā)送郵件為例，系統(tǒng)不僅會(huì)檢查郵件是否真的發(fā)送出去了，還會(huì)深入檢查郵件的收件人、主題、內(nèi)容是否都正確。這就像檢查一份快遞不僅要確認(rèn)送達(dá)了，還要核實(shí)收件人姓名、地址、包裹內(nèi)容都準(zhǔn)確無(wú)誤一樣。

為了實(shí)現(xiàn)這種深度檢查，研究團(tuán)隊(duì)構(gòu)建了一套完整的"透明后臺(tái)"系統(tǒng)。他們使用開(kāi)源軟件替代常用的商業(yè)應(yīng)用：用Mattermost代替微信企業(yè)版、用Mastodon代替微博、用自建郵件系統(tǒng)代替Gmail等。這樣做的好處是研究團(tuán)隊(duì)能夠完全控制這些應(yīng)用的后臺(tái)數(shù)據(jù)庫(kù)，可以精確追蹤每一個(gè)操作的結(jié)果。

整個(gè)測(cè)試環(huán)境被封裝在Docker容器中，就像把整個(gè)"考場(chǎng)"裝在一個(gè)可以隨時(shí)重置的盒子里。每次測(cè)試開(kāi)始前，系統(tǒng)都會(huì)恢復(fù)到相同的初始狀態(tài)，確保所有AI都在完全相同的條件下接受測(cè)試。

五、當(dāng)前AI的真實(shí)表現(xiàn)：差距比想象的更大

當(dāng)研究團(tuán)隊(duì)用MobileWorld測(cè)試當(dāng)前最先進(jìn)的AI系統(tǒng)時(shí)，結(jié)果令人震驚。原本在AndroidWorld中能夠取得90%以上高分的AI，在新測(cè)試中的表現(xiàn)急劇下滑，最好的AI系統(tǒng)也只達(dá)到了51.7%的成功率。

這種性能下降就像一個(gè)在溫室里茁壯成長(zhǎng)的植物突然被移到野外環(huán)境中一樣。溫室里的條件簡(jiǎn)單可控，但真實(shí)環(huán)境充滿了各種意想不到的挑戰(zhàn)。研究團(tuán)隊(duì)發(fā)現(xiàn)，不同類型的AI在面對(duì)新挑戰(zhàn)時(shí)表現(xiàn)出明顯的能力差異。

那些采用"分工合作"架構(gòu)的AI系統(tǒng)表現(xiàn)相對(duì)較好。這種系統(tǒng)就像一個(gè)小團(tuán)隊(duì)，有專門負(fù)責(zé)制定計(jì)劃的"策劃師"和專門執(zhí)行具體操作的"執(zhí)行者"。比如GPT-5配合專門的操作執(zhí)行器能夠達(dá)到51.7%的成功率。相比之下，那些試圖"一個(gè)人干所有活"的端到端AI系統(tǒng)表現(xiàn)就差得多，最好的也只有20.9%的成功率。

更有趣的是，不同類型任務(wù)的難度差異巨大。在傳統(tǒng)的純界面操作任務(wù)中，最好的AI能達(dá)到54%的成功率，這已經(jīng)相當(dāng)不錯(cuò)了。但在需要對(duì)話交互的任務(wù)中，大多數(shù)AI的成功率跌到了10%以下，有些甚至接近0%。在需要使用外部工具的任務(wù)中，情況同樣糟糕，大部分AI完全無(wú)法正確調(diào)用和使用這些工具。

這種巨大的性能差異揭示了當(dāng)前AI系統(tǒng)的一個(gè)根本性問(wèn)題：它們更像是只會(huì)按照既定程序工作的機(jī)器，而缺乏真正的靈活性和適應(yīng)能力。當(dāng)任務(wù)稍微偏離訓(xùn)練時(shí)見(jiàn)過(guò)的模式，AI就會(huì)顯得手足無(wú)措。

六、AI失敗案例：五大致命弱點(diǎn)

通過(guò)深入分析AI的失敗案例，研究團(tuán)隊(duì)識(shí)別出了五個(gè)關(guān)鍵的能力缺陷，這些缺陷就像是AI智能助手身上的"阿喀琉斯之踵"。

第一個(gè)問(wèn)題是"胡猜亂想"。當(dāng)面對(duì)模糊指令時(shí)，許多AI不會(huì)主動(dòng)提問(wèn)，而是自己臆測(cè)答案。比如用戶說(shuō)"我想從家鄉(xiāng)開(kāi)車去天津，請(qǐng)查一下距離"，AI應(yīng)該問(wèn)"您的家鄉(xiāng)是哪里？"但實(shí)際上，許多AI直接假設(shè)用戶在上海，然后給出錯(cuò)誤的距離信息。這就像一個(gè)服務(wù)員在客人說(shuō)"要一杯飲料"時(shí)不詢問(wèn)具體需求，而是直接端來(lái)一杯白開(kāi)水一樣不合理。

第二個(gè)問(wèn)題是"工具使用混亂"。當(dāng)AI需要調(diào)用外部工具時(shí)，經(jīng)常會(huì)被工具返回的大量信息給"淹沒(méi)"。比如要求AI查詢某篇學(xué)術(shù)論文的特定數(shù)據(jù)并發(fā)郵件匯報(bào)，AI調(diào)用論文查詢工具后得到了一份2萬(wàn)字的完整文檔，結(jié)果它無(wú)法從中提取出需要的關(guān)鍵信息，最終提供了錯(cuò)誤的匯報(bào)內(nèi)容。這就像讓人在圖書(shū)館里找一個(gè)電話號(hào)碼，結(jié)果他把整套百科全書(shū)都搬了出來(lái)，卻找不到要的那個(gè)號(hào)碼。

第三個(gè)問(wèn)題是"健忘癥"。在執(zhí)行長(zhǎng)期任務(wù)時(shí)，AI無(wú)法記住自己之前做過(guò)什么，導(dǎo)致重復(fù)操作甚至相互沖突的行為。有個(gè)案例中，AI被要求重命名下載文件夾中的所有文件，它成功重命名了幾個(gè)文件后，卻忘記了已經(jīng)處理過(guò)的文件，開(kāi)始重復(fù)重命名同樣的文件，最終搞得一團(tuán)糟。這就像一個(gè)人整理房間時(shí)不記得哪些地方已經(jīng)整理過(guò)，結(jié)果把同一個(gè)抽屜翻來(lái)覆去整理好多遍。

第四個(gè)問(wèn)題是"數(shù)學(xué)差勁"。當(dāng)任務(wù)涉及復(fù)雜的邏輯推理或數(shù)值計(jì)算時(shí)，AI經(jīng)常出錯(cuò)。比如要求找出購(gòu)物車中最貴的三件商品并計(jì)算總價(jià)，AI雖然能夠看到所有商品的價(jià)格，但在篩選最貴商品或計(jì)算總和時(shí)頻繁出錯(cuò)。這不是簡(jiǎn)單的算術(shù)問(wèn)題，而是AI無(wú)法準(zhǔn)確處理多步驟邏輯推理的體現(xiàn)。

第五個(gè)問(wèn)題是"時(shí)空盲"。AI往往無(wú)法正確理解現(xiàn)實(shí)世界的時(shí)間和地點(diǎn)信息。比如用戶說(shuō)"明天中午約個(gè)午餐"，AI需要查看系統(tǒng)時(shí)間確定"明天"是幾月幾號(hào)，然后在日歷中創(chuàng)建正確日期的事件。但大多數(shù)AI要么忽略了查看當(dāng)前時(shí)間這一步，要么無(wú)法正確解讀時(shí)間信息，導(dǎo)致創(chuàng)建的日程時(shí)間完全錯(cuò)誤。

這五個(gè)問(wèn)題揭示了當(dāng)前AI技術(shù)的根本局限：它們還無(wú)法像人類一樣靈活地處理不確定性、管理復(fù)雜信息、保持長(zhǎng)期記憶、進(jìn)行復(fù)雜推理以及理解現(xiàn)實(shí)世界的時(shí)空背景。

七、技術(shù)實(shí)現(xiàn)的巧妙設(shè)計(jì)

MobileWorld的技術(shù)實(shí)現(xiàn)充滿了巧思，研究團(tuán)隊(duì)需要解決許多前人未曾面對(duì)的技術(shù)難題。整個(gè)系統(tǒng)的架構(gòu)就像建造一個(gè)復(fù)雜的電影攝影棚，既要看起來(lái)像真實(shí)的環(huán)境，又要便于控制和觀察。

首先是環(huán)境的真實(shí)性問(wèn)題。為了讓AI面對(duì)真實(shí)的移動(dòng)應(yīng)用環(huán)境，研究團(tuán)隊(duì)不能簡(jiǎn)單地使用模擬界面，而需要真正的Android應(yīng)用。但商業(yè)應(yīng)用有太多限制：需要網(wǎng)絡(luò)連接、涉及用戶隱私、后臺(tái)邏輯不透明等。研究團(tuán)隊(duì)的解決方案是使用功能相當(dāng)?shù)拈_(kāi)源替代品，比如用Mattermost替代企業(yè)微信、用Mastodon替代微博等。

這些開(kāi)源應(yīng)用被深度定制和集成到一個(gè)統(tǒng)一的測(cè)試環(huán)境中。每個(gè)應(yīng)用都運(yùn)行在Docker容器里，就像把每個(gè)演員都安排在獨(dú)立的化妝間里，既保證了隔離性又便于統(tǒng)一管理。更重要的是，研究團(tuán)隊(duì)為每個(gè)應(yīng)用都開(kāi)發(fā)了專門的監(jiān)控和評(píng)估接口，可以實(shí)時(shí)跟蹤AI的每一個(gè)操作及其結(jié)果。

為了支持對(duì)話交互功能，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"智能陪練"系統(tǒng)。這個(gè)系統(tǒng)使用GPT-4.1扮演用戶角色，它知道任務(wù)的完整信息，但只在AI問(wèn)對(duì)問(wèn)題時(shí)才透露相應(yīng)答案。這種設(shè)計(jì)確保了對(duì)話的自然性，同時(shí)維持了測(cè)試的客觀性。

對(duì)于外部工具集成，研究團(tuán)隊(duì)選擇了MCP協(xié)議作為標(biāo)準(zhǔn)接口。MCP就像是一套通用的"插頭和插座"規(guī)范，讓AI能夠方便地連接和使用各種外部服務(wù)。研究團(tuán)隊(duì)集成了61個(gè)不同的工具，涵蓋了地圖導(dǎo)航、代碼倉(cāng)庫(kù)、文檔處理、金融數(shù)據(jù)、學(xué)術(shù)檢索等多個(gè)領(lǐng)域，為AI提供了豐富的"工具箱"。

評(píng)估系統(tǒng)的設(shè)計(jì)更是精巧。研究團(tuán)隊(duì)開(kāi)發(fā)了四種不同的驗(yàn)證方式：文本匹配驗(yàn)證、后臺(tái)數(shù)據(jù)庫(kù)檢查、本地存儲(chǔ)檢查和應(yīng)用回調(diào)驗(yàn)證。這就像為一場(chǎng)考試設(shè)計(jì)了四種不同的防作弊機(jī)制，確保結(jié)果的準(zhǔn)確性和可信度。

八、測(cè)試結(jié)果的深度分析

當(dāng)所有設(shè)計(jì)完成后，研究團(tuán)隊(duì)對(duì)13個(gè)不同的AI系統(tǒng)進(jìn)行了全面測(cè)試，結(jié)果揭示了許多出人意料的發(fā)現(xiàn)。這些發(fā)現(xiàn)不僅展示了當(dāng)前AI技術(shù)的真實(shí)水平，也為未來(lái)的發(fā)展方向提供了重要指導(dǎo)。

在傳統(tǒng)界面操作任務(wù)中，不同AI系統(tǒng)的表現(xiàn)差異巨大。最強(qiáng)的系統(tǒng)（GPT-5配合專門執(zhí)行器）達(dá)到了54%的成功率，而一些端到端的專門AI模型只有16.4%的成功率。這種差異反映了兩種不同技術(shù)路線的優(yōu)劣：分工合作的架構(gòu)雖然復(fù)雜，但能夠更好地處理多樣化的任務(wù)需求。

在對(duì)話交互任務(wù)中，結(jié)果更加令人震驚。GPT-5表現(xiàn)最好，達(dá)到了62.2%的成功率，顯示出大型語(yǔ)言模型在理解和生成自然對(duì)話方面的優(yōu)勢(shì)。但大多數(shù)專門的移動(dòng)AI系統(tǒng)在這方面幾乎完全失效，成功率普遍低于10%。這說(shuō)明當(dāng)前的移動(dòng)AI訓(xùn)練過(guò)度專注于界面操作，而忽略了對(duì)話交互能力的培養(yǎng)。

在工具使用任務(wù)中，即使是最好的AI系統(tǒng)也只達(dá)到了51.6%的成功率。更糟糕的是，許多AI根本無(wú)法正確調(diào)用外部工具。分析發(fā)現(xiàn)，失敗主要源于兩個(gè)方面：一是AI無(wú)法準(zhǔn)確生成工具調(diào)用的參數(shù)，就像撥電話時(shí)號(hào)碼按錯(cuò)了；二是AI無(wú)法有效處理工具返回的復(fù)雜信息，就像收到了說(shuō)明書(shū)卻看不懂關(guān)鍵內(nèi)容。

效率分析同樣有趣。最高效的AI系統(tǒng)平均用24.2步完成任務(wù)，而效率最低的需要34.2步。但這里有個(gè)悖論：一些看似"高效"的AI實(shí)際上是因?yàn)樘嵩绶艞壎綌?shù)較少，并非真正的高效。真正的效率應(yīng)該是在保證成功的前提下最少的操作步數(shù)。

更深入的分析顯示，AI在處理跨應(yīng)用任務(wù)時(shí)的困難程度呈指數(shù)級(jí)增長(zhǎng)。單應(yīng)用任務(wù)的成功率普遍較高，但涉及兩個(gè)應(yīng)用的任務(wù)成功率明顯下降，三個(gè)或更多應(yīng)用的任務(wù)更是極具挑戰(zhàn)性。這表明當(dāng)前AI缺乏有效的"工作記憶"機(jī)制，無(wú)法在切換環(huán)境時(shí)保持任務(wù)狀態(tài)的連續(xù)性。

九、對(duì)未來(lái)的重要啟示

MobileWorld的研究成果不僅僅是一個(gè)新的測(cè)試平臺(tái)，更重要的是它為整個(gè)人工智能領(lǐng)域的發(fā)展提供了寶貴的洞察和指導(dǎo)。這些發(fā)現(xiàn)就像給正在爬山的登山者指出了前方的險(xiǎn)阻和可行路徑。

首先，這項(xiàng)研究明確表明了單純追求在簡(jiǎn)單任務(wù)上的高性能是不夠的。就像一個(gè)學(xué)生不能只練習(xí)簡(jiǎn)單的數(shù)學(xué)題就認(rèn)為自己數(shù)學(xué)很好，AI系統(tǒng)也不能僅僅在受控環(huán)境中表現(xiàn)良好就聲稱具備了真實(shí)世界的應(yīng)用能力。MobileWorld展示的巨大性能差距提醒研究者們，真實(shí)世界的復(fù)雜性遠(yuǎn)超想象。

其次，對(duì)話交互能力的重要性被明確凸顯出來(lái)。在人類日常生活中，溝通澄清是極其常見(jiàn)的行為，任何真正實(shí)用的AI助手都必須具備這種能力。研究結(jié)果顯示，當(dāng)前大多數(shù)移動(dòng)AI系統(tǒng)在這方面的能力幾乎為零，這為未來(lái)的技術(shù)發(fā)展指明了關(guān)鍵方向。

工具集成能力同樣至關(guān)重要。隨著數(shù)字化程度的不斷提高，AI助手需要能夠靈活運(yùn)用各種外部服務(wù)和工具。MobileWorld證明了這種混合操作模式的可行性，同時(shí)也揭示了當(dāng)前技術(shù)的不足。未來(lái)的AI系統(tǒng)需要更好的工具選擇策略和信息處理能力。

從技術(shù)架構(gòu)角度看，研究結(jié)果強(qiáng)烈支持模塊化、分工合作的系統(tǒng)設(shè)計(jì)。就像現(xiàn)代軟件開(kāi)發(fā)采用微服務(wù)架構(gòu)一樣，AI系統(tǒng)也應(yīng)該將不同功能拆分為專門的模塊，然后通過(guò)有效的協(xié)調(diào)機(jī)制實(shí)現(xiàn)協(xié)同工作。這種設(shè)計(jì)不僅能提高性能，還能增強(qiáng)系統(tǒng)的可維護(hù)性和可擴(kuò)展性。

長(zhǎng)期記憶和狀態(tài)管理也被確認(rèn)為關(guān)鍵技術(shù)挑戰(zhàn)。當(dāng)前的AI系統(tǒng)在處理長(zhǎng)序列任務(wù)時(shí)表現(xiàn)不佳，主要原因是缺乏有效的記憶機(jī)制。未來(lái)需要開(kāi)發(fā)更好的記憶架構(gòu)，讓AI能夠像人類一樣在長(zhǎng)時(shí)間的任務(wù)執(zhí)行過(guò)程中保持清晰的狀態(tài)認(rèn)知。

最后，這項(xiàng)研究為AI評(píng)估標(biāo)準(zhǔn)的制定提供了重要參考。傳統(tǒng)的評(píng)估方法過(guò)于簡(jiǎn)化，無(wú)法反映真實(shí)應(yīng)用場(chǎng)景的復(fù)雜性。MobileWorld展示了如何構(gòu)建更加真實(shí)、全面的評(píng)估體系，這種方法論對(duì)其他AI應(yīng)用領(lǐng)域同樣具有借鑒意義。

說(shuō)到底，這項(xiàng)研究就像給整個(gè)AI行業(yè)做了一次全面的"體檢"，結(jié)果顯示看似健康的AI其實(shí)還有很多需要改進(jìn)的地方。但正是這種客觀的認(rèn)知，才能推動(dòng)技術(shù)向著真正實(shí)用的方向發(fā)展。MobileWorld不僅是一個(gè)測(cè)試平臺(tái)，更是一面鏡子，讓我們看到了當(dāng)前AI技術(shù)的真實(shí)面貌和未來(lái)發(fā)展的可能性。對(duì)于普通用戶來(lái)說(shuō)，這意味著真正智能、可靠的AI助手雖然還需要時(shí)間，但研究者們正在朝著正確的方向努力。對(duì)于技術(shù)開(kāi)發(fā)者來(lái)說(shuō)，這提供了明確的技術(shù)路標(biāo)和改進(jìn)目標(biāo)，相信在不久的將來(lái)，我們將看到更加智能、更加實(shí)用的AI助手走進(jìn)日常生活。

Q&A

Q1：MobileWorld和傳統(tǒng)的AndroidWorld測(cè)試有什么區(qū)別？

A：MobileWorld比AndroidWorld難得多。傳統(tǒng)測(cè)試平均只需要14步就能完成任務(wù)，而MobileWorld需要28步。更重要的是，MobileWorld有62%的任務(wù)需要在多個(gè)應(yīng)用間切換，還增加了AI與用戶對(duì)話、使用外部工具等全新能力測(cè)試，更接近真實(shí)使用場(chǎng)景。

Q2：為什么現(xiàn)在的AI在MobileWorld測(cè)試中表現(xiàn)這么差？

A：主要有五個(gè)原因：一是面對(duì)模糊指令時(shí)會(huì)胡亂猜測(cè)而不是主動(dòng)提問(wèn)；二是無(wú)法有效處理外部工具返回的復(fù)雜信息；三是缺乏長(zhǎng)期記憶，會(huì)忘記之前的操作；四是邏輯推理和數(shù)學(xué)計(jì)算能力不足；五是無(wú)法正確理解現(xiàn)實(shí)世界的時(shí)間和位置信息。

Q3：MobileWorld測(cè)試對(duì)普通用戶有什么意義？

A：這個(gè)測(cè)試幫助我們了解AI助手的真實(shí)能力水平，避免對(duì)當(dāng)前技術(shù)抱有不切實(shí)際的期望。測(cè)試結(jié)果顯示，真正智能可靠的AI助手還需要時(shí)間發(fā)展，但研究者們已經(jīng)找到了明確的改進(jìn)方向，未來(lái)的AI助手將更加實(shí)用和智能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.