国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

手機(jī)智能助手的"高考"來(lái)了!阿里巴巴團(tuán)隊(duì)發(fā)布史上最難移動(dòng)AI測(cè)試

0
分享至


這項(xiàng)由阿里巴巴通義實(shí)驗(yàn)室的孔曲雨、張旭等研究人員聯(lián)合香港科技大學(xué)(廣州)和佛羅里達(dá)大學(xué)團(tuán)隊(duì)共同完成的研究,發(fā)表于2025年12月。研究團(tuán)隊(duì)開(kāi)發(fā)了名為MobileWorld的全新測(cè)評(píng)平臺(tái),感興趣的讀者可以通過(guò)論文編號(hào)arXiv:2512.19432查詢完整論文。

當(dāng)我們?nèi)粘J褂檬謾C(jī)時(shí),經(jīng)常需要在不同應(yīng)用之間切換,比如先查看微信消息,然后在日歷里添加約會(huì),接著打開(kāi)地圖查路線。這些看似簡(jiǎn)單的操作,對(duì)于人工智能來(lái)說(shuō)卻是巨大的挑戰(zhàn)。就像讓一個(gè)機(jī)器人學(xué)會(huì)開(kāi)車不僅要會(huì)踩油門剎車,還要懂得觀察路況、理解交通規(guī)則一樣復(fù)雜。

過(guò)去,研究人員們用來(lái)測(cè)試手機(jī)AI助手能力的"考試"叫做AndroidWorld,但就像一份變得太簡(jiǎn)單的考試一樣,現(xiàn)在的AI已經(jīng)能在這個(gè)測(cè)試中獲得90%以上的高分。這意味著這份"考試"已經(jīng)無(wú)法真正區(qū)分出哪個(gè)AI更聰明、更實(shí)用了。更重要的是,這些傳統(tǒng)測(cè)試就像在溫室里種花一樣,缺乏真實(shí)世界的復(fù)雜性和挑戰(zhàn)性。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)創(chuàng)造了一個(gè)全新的、更加困難的"考場(chǎng)"——MobileWorld。這個(gè)新測(cè)試就像從小學(xué)數(shù)學(xué)題直接跳到了高考數(shù)學(xué),不僅題目更復(fù)雜,還增加了全新的考試形式。

一、前所未有的復(fù)雜任務(wù)挑戰(zhàn)

想象一下,如果你要完成"給朋友發(fā)郵件分享購(gòu)物清單"這樣的任務(wù),傳統(tǒng)的AI測(cè)試可能只需要幾個(gè)簡(jiǎn)單步驟。但在MobileWorld中,AI需要做的事情復(fù)雜得多:它可能需要先在購(gòu)物APP里查看商品,記住價(jià)格和名稱,然后切換到郵件APP,寫郵件時(shí)還要從之前查看的內(nèi)容中提取信息,最后發(fā)送給正確的聯(lián)系人。

這種復(fù)雜性體現(xiàn)在兩個(gè)方面。首先是任務(wù)長(zhǎng)度的顯著增加。如果說(shuō)原來(lái)的測(cè)試像是"走到廚房拿個(gè)蘋果"這樣的簡(jiǎn)單指令,那么新的測(cè)試就像是"去超市買齊今晚晚餐的食材,回家后按照網(wǎng)上的食譜做一頓三菜一湯的晚餐"。具體來(lái)說(shuō),MobileWorld中的任務(wù)平均需要27.8個(gè)操作步驟才能完成,幾乎是原來(lái)測(cè)試(14.3步)的兩倍。

更關(guān)鍵的是跨應(yīng)用協(xié)作的大幅增加。在MobileWorld中,62.2%的任務(wù)都需要在多個(gè)應(yīng)用之間切換和協(xié)調(diào),而原來(lái)只有9.5%。這就像從單人項(xiàng)目變成了需要多個(gè)部門協(xié)作的復(fù)雜工程,每一步都要考慮前面的操作結(jié)果,還要為后續(xù)操作做準(zhǔn)備。

二、會(huì)提問(wèn)的AI:當(dāng)指令不夠清楚時(shí)

現(xiàn)實(shí)生活中,我們給別人的指令往往不夠詳細(xì)。比如你對(duì)朋友說(shuō)"幫我定個(gè)餐廳",朋友通常會(huì)反問(wèn):"什么時(shí)候?幾個(gè)人?想吃什么菜?預(yù)算多少?"這種互動(dòng)對(duì)話在人與人之間很自然,但對(duì)AI來(lái)說(shuō)卻是全新的挑戰(zhàn)。

MobileWorld引入了"智能對(duì)話"功能,讓AI學(xué)會(huì)在信息不足時(shí)主動(dòng)提問(wèn)。舉個(gè)例子,如果用戶說(shuō)"給Kevin發(fā)個(gè)郵件說(shuō)Hello",但手機(jī)通訊錄里沒(méi)有Kevin的郵箱地址,AI就需要主動(dòng)詢問(wèn)"請(qǐng)問(wèn)Kevin的郵箱地址是什么?"而不是胡亂猜測(cè)或者直接報(bào)錯(cuò)。

這項(xiàng)功能的實(shí)現(xiàn)很巧妙。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"模擬用戶"系統(tǒng),就像游戲中的NPC(非玩家角色)一樣,這個(gè)虛擬用戶知道任務(wù)的完整信息,但只有當(dāng)AI問(wèn)對(duì)了問(wèn)題時(shí)才會(huì)透露相應(yīng)的答案。這樣就能測(cè)試AI是否真的理解了任務(wù)需求,是否能夠識(shí)別信息缺失并準(zhǔn)確提問(wèn)。

在MobileWorld的所有任務(wù)中,有22.4%專門用來(lái)測(cè)試這種對(duì)話能力。這些任務(wù)故意省略關(guān)鍵信息,迫使AI必須通過(guò)提問(wèn)來(lái)獲取完整的任務(wù)要求。這就像是給AI設(shè)置了一道"理解力"和"溝通力"的雙重考驗(yàn)。

三、工具使用達(dá)人:結(jié)合外部資源的智能操作

現(xiàn)代智能助手不應(yīng)該只會(huì)在手機(jī)上點(diǎn)點(diǎn)戳戳,還應(yīng)該能夠調(diào)用各種外部工具和服務(wù)。就像一個(gè)真正的助理不僅要會(huì)整理文件,還要會(huì)使用電腦、打印機(jī)、傳真機(jī)等各種辦公設(shè)備一樣。

MobileWorld集成了一個(gè)叫做MCP(模型上下文協(xié)議)的工具系統(tǒng),這相當(dāng)于給AI配備了一個(gè)"瑞士軍刀"般的工具包。這個(gè)工具包里包含了地圖導(dǎo)航、代碼倉(cāng)庫(kù)查詢、文檔處理、金融數(shù)據(jù)查詢、學(xué)術(shù)論文檢索等61種不同的工具。

舉個(gè)具體例子:假設(shè)用戶需要"查看某個(gè)開(kāi)源項(xiàng)目的最新更新情況,然后在團(tuán)隊(duì)群里分享總結(jié)"。傳統(tǒng)的AI可能需要先打開(kāi)瀏覽器,搜索項(xiàng)目網(wǎng)站,逐頁(yè)查看更新信息,然后切換到聊天軟件手動(dòng)輸入總結(jié)。但配備了MCP工具的AI可以直接調(diào)用GitHub工具快速獲取項(xiàng)目的詳細(xì)更新信息,然后自動(dòng)整理成易讀的格式,最后通過(guò)聊天軟件發(fā)送給團(tuán)隊(duì)。

這種混合操作模式代表了未來(lái)智能助手的發(fā)展方向。AI不再局限于單純的界面操作,而是能夠智能選擇最合適的方式完成任務(wù):有時(shí)通過(guò)點(diǎn)擊界面,有時(shí)通過(guò)調(diào)用專業(yè)工具,有時(shí)兩者結(jié)合使用。在MobileWorld中,19.9%的任務(wù)專門測(cè)試這種混合能力。

四、如何確保測(cè)試的公平性和準(zhǔn)確性

任何測(cè)試都面臨一個(gè)核心問(wèn)題:如何確保結(jié)果準(zhǔn)確可靠?傳統(tǒng)的AI測(cè)試常常依賴人工評(píng)判,就像作文考試需要老師主觀打分一樣,容易出現(xiàn)不一致的結(jié)果。MobileWorld采用了一套完全自動(dòng)化、客觀化的評(píng)判系統(tǒng),就像選擇題考試有標(biāo)準(zhǔn)答案一樣。

這個(gè)評(píng)判系統(tǒng)的巧妙之處在于多層次驗(yàn)證。對(duì)于需要文字回答的任務(wù),系統(tǒng)會(huì)檢查答案的準(zhǔn)確性,比如問(wèn)"今天北京的最高溫度是多少",AI回答"25度",系統(tǒng)就會(huì)驗(yàn)證這個(gè)數(shù)字是否正確。對(duì)于需要操作的任務(wù),系統(tǒng)會(huì)檢查多個(gè)層面的結(jié)果。

以發(fā)送郵件為例,系統(tǒng)不僅會(huì)檢查郵件是否真的發(fā)送出去了,還會(huì)深入檢查郵件的收件人、主題、內(nèi)容是否都正確。這就像檢查一份快遞不僅要確認(rèn)送達(dá)了,還要核實(shí)收件人姓名、地址、包裹內(nèi)容都準(zhǔn)確無(wú)誤一樣。

為了實(shí)現(xiàn)這種深度檢查,研究團(tuán)隊(duì)構(gòu)建了一套完整的"透明后臺(tái)"系統(tǒng)。他們使用開(kāi)源軟件替代常用的商業(yè)應(yīng)用:用Mattermost代替微信企業(yè)版、用Mastodon代替微博、用自建郵件系統(tǒng)代替Gmail等。這樣做的好處是研究團(tuán)隊(duì)能夠完全控制這些應(yīng)用的后臺(tái)數(shù)據(jù)庫(kù),可以精確追蹤每一個(gè)操作的結(jié)果。

整個(gè)測(cè)試環(huán)境被封裝在Docker容器中,就像把整個(gè)"考場(chǎng)"裝在一個(gè)可以隨時(shí)重置的盒子里。每次測(cè)試開(kāi)始前,系統(tǒng)都會(huì)恢復(fù)到相同的初始狀態(tài),確保所有AI都在完全相同的條件下接受測(cè)試。

五、當(dāng)前AI的真實(shí)表現(xiàn):差距比想象的更大

當(dāng)研究團(tuán)隊(duì)用MobileWorld測(cè)試當(dāng)前最先進(jìn)的AI系統(tǒng)時(shí),結(jié)果令人震驚。原本在AndroidWorld中能夠取得90%以上高分的AI,在新測(cè)試中的表現(xiàn)急劇下滑,最好的AI系統(tǒng)也只達(dá)到了51.7%的成功率。

這種性能下降就像一個(gè)在溫室里茁壯成長(zhǎng)的植物突然被移到野外環(huán)境中一樣。溫室里的條件簡(jiǎn)單可控,但真實(shí)環(huán)境充滿了各種意想不到的挑戰(zhàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),不同類型的AI在面對(duì)新挑戰(zhàn)時(shí)表現(xiàn)出明顯的能力差異。

那些采用"分工合作"架構(gòu)的AI系統(tǒng)表現(xiàn)相對(duì)較好。這種系統(tǒng)就像一個(gè)小團(tuán)隊(duì),有專門負(fù)責(zé)制定計(jì)劃的"策劃師"和專門執(zhí)行具體操作的"執(zhí)行者"。比如GPT-5配合專門的操作執(zhí)行器能夠達(dá)到51.7%的成功率。相比之下,那些試圖"一個(gè)人干所有活"的端到端AI系統(tǒng)表現(xiàn)就差得多,最好的也只有20.9%的成功率。

更有趣的是,不同類型任務(wù)的難度差異巨大。在傳統(tǒng)的純界面操作任務(wù)中,最好的AI能達(dá)到54%的成功率,這已經(jīng)相當(dāng)不錯(cuò)了。但在需要對(duì)話交互的任務(wù)中,大多數(shù)AI的成功率跌到了10%以下,有些甚至接近0%。在需要使用外部工具的任務(wù)中,情況同樣糟糕,大部分AI完全無(wú)法正確調(diào)用和使用這些工具。

這種巨大的性能差異揭示了當(dāng)前AI系統(tǒng)的一個(gè)根本性問(wèn)題:它們更像是只會(huì)按照既定程序工作的機(jī)器,而缺乏真正的靈活性和適應(yīng)能力。當(dāng)任務(wù)稍微偏離訓(xùn)練時(shí)見(jiàn)過(guò)的模式,AI就會(huì)顯得手足無(wú)措。

六、AI失敗案例:五大致命弱點(diǎn)

通過(guò)深入分析AI的失敗案例,研究團(tuán)隊(duì)識(shí)別出了五個(gè)關(guān)鍵的能力缺陷,這些缺陷就像是AI智能助手身上的"阿喀琉斯之踵"。

第一個(gè)問(wèn)題是"胡猜亂想"。當(dāng)面對(duì)模糊指令時(shí),許多AI不會(huì)主動(dòng)提問(wèn),而是自己臆測(cè)答案。比如用戶說(shuō)"我想從家鄉(xiāng)開(kāi)車去天津,請(qǐng)查一下距離",AI應(yīng)該問(wèn)"您的家鄉(xiāng)是哪里?"但實(shí)際上,許多AI直接假設(shè)用戶在上海,然后給出錯(cuò)誤的距離信息。這就像一個(gè)服務(wù)員在客人說(shuō)"要一杯飲料"時(shí)不詢問(wèn)具體需求,而是直接端來(lái)一杯白開(kāi)水一樣不合理。

第二個(gè)問(wèn)題是"工具使用混亂"。當(dāng)AI需要調(diào)用外部工具時(shí),經(jīng)常會(huì)被工具返回的大量信息給"淹沒(méi)"。比如要求AI查詢某篇學(xué)術(shù)論文的特定數(shù)據(jù)并發(fā)郵件匯報(bào),AI調(diào)用論文查詢工具后得到了一份2萬(wàn)字的完整文檔,結(jié)果它無(wú)法從中提取出需要的關(guān)鍵信息,最終提供了錯(cuò)誤的匯報(bào)內(nèi)容。這就像讓人在圖書(shū)館里找一個(gè)電話號(hào)碼,結(jié)果他把整套百科全書(shū)都搬了出來(lái),卻找不到要的那個(gè)號(hào)碼。

第三個(gè)問(wèn)題是"健忘癥"。在執(zhí)行長(zhǎng)期任務(wù)時(shí),AI無(wú)法記住自己之前做過(guò)什么,導(dǎo)致重復(fù)操作甚至相互沖突的行為。有個(gè)案例中,AI被要求重命名下載文件夾中的所有文件,它成功重命名了幾個(gè)文件后,卻忘記了已經(jīng)處理過(guò)的文件,開(kāi)始重復(fù)重命名同樣的文件,最終搞得一團(tuán)糟。這就像一個(gè)人整理房間時(shí)不記得哪些地方已經(jīng)整理過(guò),結(jié)果把同一個(gè)抽屜翻來(lái)覆去整理好多遍。

第四個(gè)問(wèn)題是"數(shù)學(xué)差勁"。當(dāng)任務(wù)涉及復(fù)雜的邏輯推理或數(shù)值計(jì)算時(shí),AI經(jīng)常出錯(cuò)。比如要求找出購(gòu)物車中最貴的三件商品并計(jì)算總價(jià),AI雖然能夠看到所有商品的價(jià)格,但在篩選最貴商品或計(jì)算總和時(shí)頻繁出錯(cuò)。這不是簡(jiǎn)單的算術(shù)問(wèn)題,而是AI無(wú)法準(zhǔn)確處理多步驟邏輯推理的體現(xiàn)。

第五個(gè)問(wèn)題是"時(shí)空盲"。AI往往無(wú)法正確理解現(xiàn)實(shí)世界的時(shí)間和地點(diǎn)信息。比如用戶說(shuō)"明天中午約個(gè)午餐",AI需要查看系統(tǒng)時(shí)間確定"明天"是幾月幾號(hào),然后在日歷中創(chuàng)建正確日期的事件。但大多數(shù)AI要么忽略了查看當(dāng)前時(shí)間這一步,要么無(wú)法正確解讀時(shí)間信息,導(dǎo)致創(chuàng)建的日程時(shí)間完全錯(cuò)誤。

這五個(gè)問(wèn)題揭示了當(dāng)前AI技術(shù)的根本局限:它們還無(wú)法像人類一樣靈活地處理不確定性、管理復(fù)雜信息、保持長(zhǎng)期記憶、進(jìn)行復(fù)雜推理以及理解現(xiàn)實(shí)世界的時(shí)空背景。

七、技術(shù)實(shí)現(xiàn)的巧妙設(shè)計(jì)

MobileWorld的技術(shù)實(shí)現(xiàn)充滿了巧思,研究團(tuán)隊(duì)需要解決許多前人未曾面對(duì)的技術(shù)難題。整個(gè)系統(tǒng)的架構(gòu)就像建造一個(gè)復(fù)雜的電影攝影棚,既要看起來(lái)像真實(shí)的環(huán)境,又要便于控制和觀察。

首先是環(huán)境的真實(shí)性問(wèn)題。為了讓AI面對(duì)真實(shí)的移動(dòng)應(yīng)用環(huán)境,研究團(tuán)隊(duì)不能簡(jiǎn)單地使用模擬界面,而需要真正的Android應(yīng)用。但商業(yè)應(yīng)用有太多限制:需要網(wǎng)絡(luò)連接、涉及用戶隱私、后臺(tái)邏輯不透明等。研究團(tuán)隊(duì)的解決方案是使用功能相當(dāng)?shù)拈_(kāi)源替代品,比如用Mattermost替代企業(yè)微信、用Mastodon替代微博等。

這些開(kāi)源應(yīng)用被深度定制和集成到一個(gè)統(tǒng)一的測(cè)試環(huán)境中。每個(gè)應(yīng)用都運(yùn)行在Docker容器里,就像把每個(gè)演員都安排在獨(dú)立的化妝間里,既保證了隔離性又便于統(tǒng)一管理。更重要的是,研究團(tuán)隊(duì)為每個(gè)應(yīng)用都開(kāi)發(fā)了專門的監(jiān)控和評(píng)估接口,可以實(shí)時(shí)跟蹤AI的每一個(gè)操作及其結(jié)果。

為了支持對(duì)話交互功能,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)"智能陪練"系統(tǒng)。這個(gè)系統(tǒng)使用GPT-4.1扮演用戶角色,它知道任務(wù)的完整信息,但只在AI問(wèn)對(duì)問(wèn)題時(shí)才透露相應(yīng)答案。這種設(shè)計(jì)確保了對(duì)話的自然性,同時(shí)維持了測(cè)試的客觀性。

對(duì)于外部工具集成,研究團(tuán)隊(duì)選擇了MCP協(xié)議作為標(biāo)準(zhǔn)接口。MCP就像是一套通用的"插頭和插座"規(guī)范,讓AI能夠方便地連接和使用各種外部服務(wù)。研究團(tuán)隊(duì)集成了61個(gè)不同的工具,涵蓋了地圖導(dǎo)航、代碼倉(cāng)庫(kù)、文檔處理、金融數(shù)據(jù)、學(xué)術(shù)檢索等多個(gè)領(lǐng)域,為AI提供了豐富的"工具箱"。

評(píng)估系統(tǒng)的設(shè)計(jì)更是精巧。研究團(tuán)隊(duì)開(kāi)發(fā)了四種不同的驗(yàn)證方式:文本匹配驗(yàn)證、后臺(tái)數(shù)據(jù)庫(kù)檢查、本地存儲(chǔ)檢查和應(yīng)用回調(diào)驗(yàn)證。這就像為一場(chǎng)考試設(shè)計(jì)了四種不同的防作弊機(jī)制,確保結(jié)果的準(zhǔn)確性和可信度。

八、測(cè)試結(jié)果的深度分析

當(dāng)所有設(shè)計(jì)完成后,研究團(tuán)隊(duì)對(duì)13個(gè)不同的AI系統(tǒng)進(jìn)行了全面測(cè)試,結(jié)果揭示了許多出人意料的發(fā)現(xiàn)。這些發(fā)現(xiàn)不僅展示了當(dāng)前AI技術(shù)的真實(shí)水平,也為未來(lái)的發(fā)展方向提供了重要指導(dǎo)。

在傳統(tǒng)界面操作任務(wù)中,不同AI系統(tǒng)的表現(xiàn)差異巨大。最強(qiáng)的系統(tǒng)(GPT-5配合專門執(zhí)行器)達(dá)到了54%的成功率,而一些端到端的專門AI模型只有16.4%的成功率。這種差異反映了兩種不同技術(shù)路線的優(yōu)劣:分工合作的架構(gòu)雖然復(fù)雜,但能夠更好地處理多樣化的任務(wù)需求。

在對(duì)話交互任務(wù)中,結(jié)果更加令人震驚。GPT-5表現(xiàn)最好,達(dá)到了62.2%的成功率,顯示出大型語(yǔ)言模型在理解和生成自然對(duì)話方面的優(yōu)勢(shì)。但大多數(shù)專門的移動(dòng)AI系統(tǒng)在這方面幾乎完全失效,成功率普遍低于10%。這說(shuō)明當(dāng)前的移動(dòng)AI訓(xùn)練過(guò)度專注于界面操作,而忽略了對(duì)話交互能力的培養(yǎng)。

在工具使用任務(wù)中,即使是最好的AI系統(tǒng)也只達(dá)到了51.6%的成功率。更糟糕的是,許多AI根本無(wú)法正確調(diào)用外部工具。分析發(fā)現(xiàn),失敗主要源于兩個(gè)方面:一是AI無(wú)法準(zhǔn)確生成工具調(diào)用的參數(shù),就像撥電話時(shí)號(hào)碼按錯(cuò)了;二是AI無(wú)法有效處理工具返回的復(fù)雜信息,就像收到了說(shuō)明書(shū)卻看不懂關(guān)鍵內(nèi)容。

效率分析同樣有趣。最高效的AI系統(tǒng)平均用24.2步完成任務(wù),而效率最低的需要34.2步。但這里有個(gè)悖論:一些看似"高效"的AI實(shí)際上是因?yàn)樘嵩绶艞壎綌?shù)較少,并非真正的高效。真正的效率應(yīng)該是在保證成功的前提下最少的操作步數(shù)。

更深入的分析顯示,AI在處理跨應(yīng)用任務(wù)時(shí)的困難程度呈指數(shù)級(jí)增長(zhǎng)。單應(yīng)用任務(wù)的成功率普遍較高,但涉及兩個(gè)應(yīng)用的任務(wù)成功率明顯下降,三個(gè)或更多應(yīng)用的任務(wù)更是極具挑戰(zhàn)性。這表明當(dāng)前AI缺乏有效的"工作記憶"機(jī)制,無(wú)法在切換環(huán)境時(shí)保持任務(wù)狀態(tài)的連續(xù)性。

九、對(duì)未來(lái)的重要啟示

MobileWorld的研究成果不僅僅是一個(gè)新的測(cè)試平臺(tái),更重要的是它為整個(gè)人工智能領(lǐng)域的發(fā)展提供了寶貴的洞察和指導(dǎo)。這些發(fā)現(xiàn)就像給正在爬山的登山者指出了前方的險(xiǎn)阻和可行路徑。

首先,這項(xiàng)研究明確表明了單純追求在簡(jiǎn)單任務(wù)上的高性能是不夠的。就像一個(gè)學(xué)生不能只練習(xí)簡(jiǎn)單的數(shù)學(xué)題就認(rèn)為自己數(shù)學(xué)很好,AI系統(tǒng)也不能僅僅在受控環(huán)境中表現(xiàn)良好就聲稱具備了真實(shí)世界的應(yīng)用能力。MobileWorld展示的巨大性能差距提醒研究者們,真實(shí)世界的復(fù)雜性遠(yuǎn)超想象。

其次,對(duì)話交互能力的重要性被明確凸顯出來(lái)。在人類日常生活中,溝通澄清是極其常見(jiàn)的行為,任何真正實(shí)用的AI助手都必須具備這種能力。研究結(jié)果顯示,當(dāng)前大多數(shù)移動(dòng)AI系統(tǒng)在這方面的能力幾乎為零,這為未來(lái)的技術(shù)發(fā)展指明了關(guān)鍵方向。

工具集成能力同樣至關(guān)重要。隨著數(shù)字化程度的不斷提高,AI助手需要能夠靈活運(yùn)用各種外部服務(wù)和工具。MobileWorld證明了這種混合操作模式的可行性,同時(shí)也揭示了當(dāng)前技術(shù)的不足。未來(lái)的AI系統(tǒng)需要更好的工具選擇策略和信息處理能力。

從技術(shù)架構(gòu)角度看,研究結(jié)果強(qiáng)烈支持模塊化、分工合作的系統(tǒng)設(shè)計(jì)。就像現(xiàn)代軟件開(kāi)發(fā)采用微服務(wù)架構(gòu)一樣,AI系統(tǒng)也應(yīng)該將不同功能拆分為專門的模塊,然后通過(guò)有效的協(xié)調(diào)機(jī)制實(shí)現(xiàn)協(xié)同工作。這種設(shè)計(jì)不僅能提高性能,還能增強(qiáng)系統(tǒng)的可維護(hù)性和可擴(kuò)展性。

長(zhǎng)期記憶和狀態(tài)管理也被確認(rèn)為關(guān)鍵技術(shù)挑戰(zhàn)。當(dāng)前的AI系統(tǒng)在處理長(zhǎng)序列任務(wù)時(shí)表現(xiàn)不佳,主要原因是缺乏有效的記憶機(jī)制。未來(lái)需要開(kāi)發(fā)更好的記憶架構(gòu),讓AI能夠像人類一樣在長(zhǎng)時(shí)間的任務(wù)執(zhí)行過(guò)程中保持清晰的狀態(tài)認(rèn)知。

最后,這項(xiàng)研究為AI評(píng)估標(biāo)準(zhǔn)的制定提供了重要參考。傳統(tǒng)的評(píng)估方法過(guò)于簡(jiǎn)化,無(wú)法反映真實(shí)應(yīng)用場(chǎng)景的復(fù)雜性。MobileWorld展示了如何構(gòu)建更加真實(shí)、全面的評(píng)估體系,這種方法論對(duì)其他AI應(yīng)用領(lǐng)域同樣具有借鑒意義。

說(shuō)到底,這項(xiàng)研究就像給整個(gè)AI行業(yè)做了一次全面的"體檢",結(jié)果顯示看似健康的AI其實(shí)還有很多需要改進(jìn)的地方。但正是這種客觀的認(rèn)知,才能推動(dòng)技術(shù)向著真正實(shí)用的方向發(fā)展。MobileWorld不僅是一個(gè)測(cè)試平臺(tái),更是一面鏡子,讓我們看到了當(dāng)前AI技術(shù)的真實(shí)面貌和未來(lái)發(fā)展的可能性。對(duì)于普通用戶來(lái)說(shuō),這意味著真正智能、可靠的AI助手雖然還需要時(shí)間,但研究者們正在朝著正確的方向努力。對(duì)于技術(shù)開(kāi)發(fā)者來(lái)說(shuō),這提供了明確的技術(shù)路標(biāo)和改進(jìn)目標(biāo),相信在不久的將來(lái),我們將看到更加智能、更加實(shí)用的AI助手走進(jìn)日常生活。

Q&A

Q1:MobileWorld和傳統(tǒng)的AndroidWorld測(cè)試有什么區(qū)別?

A:MobileWorld比AndroidWorld難得多。傳統(tǒng)測(cè)試平均只需要14步就能完成任務(wù),而MobileWorld需要28步。更重要的是,MobileWorld有62%的任務(wù)需要在多個(gè)應(yīng)用間切換,還增加了AI與用戶對(duì)話、使用外部工具等全新能力測(cè)試,更接近真實(shí)使用場(chǎng)景。

Q2:為什么現(xiàn)在的AI在MobileWorld測(cè)試中表現(xiàn)這么差?

A:主要有五個(gè)原因:一是面對(duì)模糊指令時(shí)會(huì)胡亂猜測(cè)而不是主動(dòng)提問(wèn);二是無(wú)法有效處理外部工具返回的復(fù)雜信息;三是缺乏長(zhǎng)期記憶,會(huì)忘記之前的操作;四是邏輯推理和數(shù)學(xué)計(jì)算能力不足;五是無(wú)法正確理解現(xiàn)實(shí)世界的時(shí)間和位置信息。

Q3:MobileWorld測(cè)試對(duì)普通用戶有什么意義?

A:這個(gè)測(cè)試幫助我們了解AI助手的真實(shí)能力水平,避免對(duì)當(dāng)前技術(shù)抱有不切實(shí)際的期望。測(cè)試結(jié)果顯示,真正智能可靠的AI助手還需要時(shí)間發(fā)展,但研究者們已經(jīng)找到了明確的改進(jìn)方向,未來(lái)的AI助手將更加實(shí)用和智能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
財(cái)政部部長(zhǎng)藍(lán)佛安:明年繼續(xù)“國(guó)補(bǔ)”,支持消費(fèi)品以舊換新

財(cái)政部部長(zhǎng)藍(lán)佛安:明年繼續(xù)“國(guó)補(bǔ)”,支持消費(fèi)品以舊換新

極目新聞
2025-12-28 15:45:56
成都豐田爆炸原因曝光,現(xiàn)場(chǎng)一片狼藉損失慘重

成都豐田爆炸原因曝光,現(xiàn)場(chǎng)一片狼藉損失慘重

映射生活的身影
2025-12-28 19:35:49
外國(guó)人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國(guó)人吃

外國(guó)人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國(guó)人吃

帶你感受人間冷暖
2025-12-26 00:05:14
火藥味,越來(lái)越濃了!

火藥味,越來(lái)越濃了!

子說(shuō)一點(diǎn)
2025-12-27 18:36:54
俄絕不答應(yīng)!剛拿到中方48億投資,轉(zhuǎn)頭就給美國(guó)送去“大禮”?

俄絕不答應(yīng)!剛拿到中方48億投資,轉(zhuǎn)頭就給美國(guó)送去“大禮”?

花花娛界
2025-12-28 20:28:50
毛新宇攜家人祭奠爺爺:17歲漂亮女兒正面照流出,一畫面信息量大

毛新宇攜家人祭奠爺爺:17歲漂亮女兒正面照流出,一畫面信息量大

博士觀察
2025-12-27 10:54:27
剛剛,20家公司出現(xiàn)重大利好和利空公告,有沒(méi)有與你相關(guān)的個(gè)股?

剛剛,20家公司出現(xiàn)重大利好和利空公告,有沒(méi)有與你相關(guān)的個(gè)股?

股市皆大事
2025-12-28 09:50:10
當(dāng)下,請(qǐng)你做好隨時(shí)失去一切的準(zhǔn)備。

當(dāng)下,請(qǐng)你做好隨時(shí)失去一切的準(zhǔn)備。

詩(shī)詞中國(guó)
2025-12-28 17:43:04
大量海外版回音壁流入閑魚(yú)!100W大功率帶低音炮,低至288元

大量海外版回音壁流入閑魚(yú)!100W大功率帶低音炮,低至288元

閑搞機(jī)
2025-12-28 11:06:20
美國(guó)國(guó)務(wù)院發(fā)火,要求中國(guó)大陸“必須停止”,島內(nèi)一個(gè)時(shí)代或終結(jié)

美國(guó)國(guó)務(wù)院發(fā)火,要求中國(guó)大陸“必須停止”,島內(nèi)一個(gè)時(shí)代或終結(jié)

三石記
2025-12-27 15:03:24
這家浙江工廠訂單多到做不完,老板:春節(jié)先放20天假,再發(fā)2000元

這家浙江工廠訂單多到做不完,老板:春節(jié)先放20天假,再發(fā)2000元

搗蛋窩
2025-12-28 15:40:13
54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門+阿森納顫抖

54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門+阿森納顫抖

我愛(ài)英超
2025-12-28 03:55:16
洪都拉斯準(zhǔn)總統(tǒng)公開(kāi)喊話:與臺(tái)灣合作,要比與大陸合作好100倍

洪都拉斯準(zhǔn)總統(tǒng)公開(kāi)喊話:與臺(tái)灣合作,要比與大陸合作好100倍

策略述
2025-12-28 14:25:37
闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門夢(mèng)破碎

闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門夢(mèng)破碎

花哥扒娛樂(lè)
2025-12-28 19:49:42
連續(xù)下跌10年的“中字頭”,有的橫盤8年,有的已跌85%!

連續(xù)下跌10年的“中字頭”,有的橫盤8年,有的已跌85%!

財(cái)經(jīng)智多星
2025-12-28 13:25:52
天山勝利隧道通車!其意義不亞于中國(guó)建造航母,對(duì)新疆意味什么?

天山勝利隧道通車!其意義不亞于中國(guó)建造航母,對(duì)新疆意味什么?

特特農(nóng)村生活
2025-12-28 01:00:36
比液冷還猛?英偉達(dá)Rubin引爆HVLP4銅箔   國(guó)產(chǎn)9龍頭迎接海外訂單

比液冷還猛?英偉達(dá)Rubin引爆HVLP4銅箔 國(guó)產(chǎn)9龍頭迎接海外訂單

元芳說(shuō)投資
2025-12-28 06:00:11
日本選手在南京奪冠!頒獎(jiǎng)靠邊站,蒯曼想讓她捧杯,秦志戩沒(méi)同意

日本選手在南京奪冠!頒獎(jiǎng)靠邊站,蒯曼想讓她捧杯,秦志戩沒(méi)同意

三十年萊斯特城球迷
2025-12-28 17:22:15
曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

裕豐娛間說(shuō)
2025-12-28 00:07:11
貝克漢姆26歲長(zhǎng)子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯(lián)

貝克漢姆26歲長(zhǎng)子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯(lián)

譯言
2025-12-27 09:33:47
2025-12-28 21:16:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
時(shí)尚
家居
數(shù)碼
手機(jī)

教育要聞

雅思3個(gè)月提2分,因?yàn)槲覀冏鰧?duì)了這幾件事!

2026年了,最好看還是這件大衣!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

數(shù)碼要聞

AM4老兵不死:銳龍7 5800X登上銷量榜首!前十有4款是AM4

手機(jī)要聞

HMD新機(jī)曝光:高刷LCD屏+大電池

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版