網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

螞蟻集團(tuán)發(fā)布VenusBench-GD：首個(gè)全平臺(tái)GUI智能交互能力測(cè)試基準(zhǔn)

2025-12-23 21:12:03　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由螞蟻集團(tuán)Venus團(tuán)隊(duì)聯(lián)合iMean AI公司共同完成的研究發(fā)表于2024年12月，研究論文編號(hào)為arXiv:2512.16501v1。該研究團(tuán)隊(duì)由來自螞蟻集團(tuán)的周北桐、黃哲瀟、郭遠(yuǎn)、顧張軒等多位研究員以及iMean AI的孔德韓、尚彥一等研究人員組成，項(xiàng)目由螞蟻集團(tuán)的沈舒恒博士領(lǐng)導(dǎo)。有興趣深入了解的讀者可以通過論文編號(hào)arXiv:2512.16501v1查詢完整論文。

當(dāng)你用手機(jī)點(diǎn)擊一個(gè)APP圖標(biāo)，或者在電腦上尋找某個(gè)按鈕時(shí)，這些看似簡(jiǎn)單的操作背后其實(shí)隱藏著復(fù)雜的視覺理解過程。你的眼睛需要在密密麻麻的界面元素中精準(zhǔn)定位目標(biāo)，大腦要理解各種圖標(biāo)的含義，還要根據(jù)空間位置關(guān)系找到正確的位置?，F(xiàn)在，人工智能也在努力學(xué)會(huì)這種能力，就像訓(xùn)練一個(gè)從未見過電腦界面的人學(xué)會(huì)如何操作各種軟件一樣。

螞蟻集團(tuán)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問題：現(xiàn)有的AI測(cè)試標(biāo)準(zhǔn)就像只考察學(xué)生能否認(rèn)識(shí)單個(gè)漢字，卻從未測(cè)試他們能否讀懂一篇完整文章。大多數(shù)GUI（圖形用戶界面）測(cè)試基準(zhǔn)要么規(guī)模太小，就像只有幾十道題的考試，要么過于專業(yè)化，就像只測(cè)試醫(yī)學(xué)專業(yè)術(shù)語(yǔ)而忽略了日常對(duì)話能力。更重要的是，這些測(cè)試往往只關(guān)注最基礎(chǔ)的"找到紅色按鈕"這類簡(jiǎn)單任務(wù)，卻忽略了真實(shí)應(yīng)用中需要的復(fù)雜推理能力，比如"找到價(jià)格最便宜的那個(gè)商品并加入購(gòu)物車"。

為了解決這個(gè)問題，研究團(tuán)隊(duì)開發(fā)了VenusBench-GD，這是目前世界上最大規(guī)模、最全面的GUI理解能力測(cè)試基準(zhǔn)。這就像為AI設(shè)計(jì)了一套從小學(xué)到大學(xué)的完整課程體系，不僅要測(cè)試基礎(chǔ)的視覺識(shí)別能力，還要考察復(fù)雜的邏輯推理和問題解決能力。

這套測(cè)試系統(tǒng)覆蓋了我們?nèi)粘Ｊ褂玫乃兄饕脚_(tái)：手機(jī)應(yīng)用、網(wǎng)頁(yè)界面和電腦軟件，總共包含97個(gè)不同的應(yīng)用程序，涵蓋創(chuàng)意設(shè)計(jì)、辦公效率、電子商務(wù)、娛樂、金融、知識(shí)獲取、社交、旅行和工具類等10個(gè)主要領(lǐng)域。研究團(tuán)隊(duì)花費(fèi)三個(gè)月時(shí)間，動(dòng)員20位專業(yè)標(biāo)注員，精心制作了6166個(gè)測(cè)試樣本，每個(gè)樣本都經(jīng)過多輪嚴(yán)格的質(zhì)量檢驗(yàn)。

VenusBench-GD的最大創(chuàng)新在于建立了分層次的評(píng)估體系?；A(chǔ)任務(wù)就像教會(huì)AI"看圖識(shí)字"，包括元素識(shí)別、空間定位和視覺特征理解三個(gè)方面。元素識(shí)別類似于教AI認(rèn)識(shí)界面上的各種"零件"，比如按鈕、文本框、下拉菜單等；空間定位則是教會(huì)AI理解相對(duì)位置關(guān)系，比如"找到搜索框右邊的那個(gè)按鈕"；視覺特征理解讓AI學(xué)會(huì)根據(jù)外觀描述找到目標(biāo)，比如"找到那個(gè)心形圖標(biāo)"。

高級(jí)任務(wù)則更像是考察AI的"綜合應(yīng)用能力"。功能推理任務(wù)要求AI理解不同界面元素的實(shí)際功能，就像你需要知道那個(gè)"X"按鈕是用來關(guān)閉窗口的，而不僅僅是識(shí)別它的外形。邏輯推理任務(wù)則更進(jìn)一步，要求AI能夠進(jìn)行多步驟的思考和比較，比如"找到評(píng)分最高但價(jià)格適中的那家餐廳"。最有趣的是拒絕應(yīng)答任務(wù)，這是在測(cè)試AI是否具備"實(shí)事求是"的品質(zhì)——當(dāng)用戶的要求在當(dāng)前界面中根本無法完成時(shí)，AI應(yīng)該誠(chéng)實(shí)地說"找不到"，而不是胡亂猜測(cè)一個(gè)答案。

研究團(tuán)隊(duì)在數(shù)據(jù)質(zhì)量控制方面下了很大功夫。他們開發(fā)了一套"人機(jī)協(xié)作"的標(biāo)注流程，先讓人工專家標(biāo)記出界面中的重要元素，然后用AI模型生成對(duì)應(yīng)的自然語(yǔ)言指令，最后再由人工專家驗(yàn)證指令與元素是否匹配。這個(gè)過程就像制作一道精美的菜肴，需要選材、配菜、烹飪、品嘗等多個(gè)環(huán)節(jié)的精心把控。

為了確保測(cè)試結(jié)果的可靠性，研究團(tuán)隊(duì)還進(jìn)行了"盲測(cè)"實(shí)驗(yàn)。他們從多個(gè)現(xiàn)有基準(zhǔn)中隨機(jī)抽取了3000個(gè)樣本，打亂順序后讓標(biāo)注員重新評(píng)估質(zhì)量，就像讓老師在不知道學(xué)生姓名的情況下批改試卷一樣。結(jié)果顯示，VenusBench-GD的標(biāo)注錯(cuò)誤率僅為2.6%，遠(yuǎn)低于其他基準(zhǔn)的10-25%錯(cuò)誤率。

在實(shí)驗(yàn)評(píng)估部分，研究團(tuán)隊(duì)測(cè)試了目前最先進(jìn)的多種AI模型，包括GPT-4o、Claude等通用多模態(tài)模型，以及專門為GUI任務(wù)設(shè)計(jì)的特化模型。測(cè)試結(jié)果揭示了一個(gè)有趣的現(xiàn)象：在基礎(chǔ)任務(wù)上，通用AI模型的表現(xiàn)已經(jīng)追上甚至超越了專門的GUI模型。比如Qwen3-VL-8B模型在基礎(chǔ)任務(wù)上達(dá)到了76.96%的準(zhǔn)確率，表現(xiàn)相當(dāng)出色。這就像一個(gè)全科醫(yī)生在處理常見疾病時(shí)，效果并不比?？漆t(yī)生差多少。

然而，在高級(jí)任務(wù)上，專業(yè)化的GUI模型仍然保持明顯優(yōu)勢(shì)。在功能推理和邏輯推理任務(wù)中，像Holo1.5-72B和UI-Venus-Ground-72B這樣的專業(yè)模型分別達(dá)到了40%和68%的準(zhǔn)確率，明顯優(yōu)于通用模型。這說明專業(yè)化訓(xùn)練在復(fù)雜任務(wù)中仍然具有不可替代的價(jià)值，就像?？漆t(yī)生在處理疑難雜癥時(shí)的專業(yè)優(yōu)勢(shì)一樣。

最令人意外的發(fā)現(xiàn)出現(xiàn)在拒絕應(yīng)答任務(wù)中。大多數(shù)專業(yè)GUI模型在這個(gè)任務(wù)上的表現(xiàn)近乎為零，只有UI-Venus-Ground-72B達(dá)到了51.33%的準(zhǔn)確率。這暴露了當(dāng)前AI模型的一個(gè)致命弱點(diǎn)：過度自信和缺乏自我認(rèn)知。就像一個(gè)總是不懂裝懂的學(xué)生，即使面對(duì)無法解答的問題也要硬著頭皮給出答案，而不是誠(chéng)實(shí)地承認(rèn)"我不知道"。

研究團(tuán)隊(duì)還特別關(guān)注了多語(yǔ)言環(huán)境下的表現(xiàn)。他們發(fā)現(xiàn)模型在中文指令下的表現(xiàn)通常比英文更好，這可能與訓(xùn)練數(shù)據(jù)的分布有關(guān)。比如Qwen3-VL-4B模型在基礎(chǔ)任務(wù)上從英文環(huán)境的72.54%提升到中文環(huán)境的81.32%，顯示出明顯的語(yǔ)言偏好。

為了驗(yàn)證測(cè)試基準(zhǔn)的有效性，研究團(tuán)隊(duì)還進(jìn)行了人類表現(xiàn)對(duì)比實(shí)驗(yàn)。結(jié)果顯示人類在高級(jí)任務(wù)上的表現(xiàn)顯著超越所有AI模型：在邏輯推理、功能理解和拒絕應(yīng)答三個(gè)方面分別超出當(dāng)前最佳AI模型41.6%、11.8%和17.8%。這說明AI在GUI理解方面還有很大的提升空間，就像學(xué)生與老師之間仍然存在明顯的能力差距。

通過深入的錯(cuò)誤分析，研究團(tuán)隊(duì)發(fā)現(xiàn)了AI模型的幾個(gè)主要問題。首先是語(yǔ)義理解偏差，AI往往難以將抽象概念與具體視覺元素聯(lián)系起來，比如無法理解"文本對(duì)齊"這個(gè)概念對(duì)應(yīng)的圖標(biāo)樣式。其次是空間定位不準(zhǔn)確，雖然能夠大致判斷區(qū)域位置，但在密集界面中難以精確區(qū)分相鄰元素。第三是視覺特征組合能力不足，當(dāng)需要同時(shí)考慮顏色、形狀、位置等多個(gè)屬性時(shí)容易出錯(cuò)。最重要的是缺乏多步推理能力，面對(duì)需要比較、篩選、排序的復(fù)雜任務(wù)時(shí)往往采用"貪心策略"，只關(guān)注第一個(gè)符合條件的選項(xiàng)而忽略全局最優(yōu)解。

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范疇。隨著AI助手越來越多地參與我們的日常數(shù)字生活，GUI理解能力將成為衡量AI實(shí)用性的重要指標(biāo)。一個(gè)真正智能的AI助手不僅要能聽懂你說的話，還要能在復(fù)雜的應(yīng)用界面中準(zhǔn)確執(zhí)行你的指令，就像一個(gè)貼心的秘書能夠熟練操作各種辦公軟件一樣。

VenusBench-GD的發(fā)布標(biāo)志著GUI智能理解研究進(jìn)入了一個(gè)新階段。它不僅提供了更嚴(yán)格的評(píng)估標(biāo)準(zhǔn)，也為研究者指出了未來的發(fā)展方向。隨著這套測(cè)試基準(zhǔn)的廣泛應(yīng)用，我們有理由期待AI在圖形界面理解方面取得更大突破，最終實(shí)現(xiàn)真正智能的人機(jī)交互體驗(yàn)。

說到底，這項(xiàng)研究就像為AI設(shè)計(jì)了一套"駕照考試"，不僅要測(cè)試基本的操作技能，還要考察復(fù)雜情況下的應(yīng)變能力。只有通過這樣全面而嚴(yán)格的考核，AI才能真正成為我們值得信賴的數(shù)字助手。當(dāng)然，從目前的測(cè)試結(jié)果來看，AI們距離拿到"滿分駕照"還需要繼續(xù)努力，但這個(gè)方向無疑是正確的。歸根結(jié)底，這不僅是技術(shù)進(jìn)步的需要，更是我們邁向更智能、更便捷數(shù)字生活的必經(jīng)之路。

Q&A

Q1：VenusBench-GD與現(xiàn)有的GUI測(cè)試基準(zhǔn)有什么不同？

A：VenusBench-GD是目前規(guī)模最大、最全面的GUI理解測(cè)試基準(zhǔn)，包含6166個(gè)測(cè)試樣本，覆蓋手機(jī)、網(wǎng)頁(yè)、電腦三大平臺(tái)的97個(gè)應(yīng)用。與現(xiàn)有基準(zhǔn)相比，它建立了分層評(píng)估體系，不僅測(cè)試基礎(chǔ)的元素識(shí)別能力，還考察復(fù)雜的邏輯推理和功能理解能力，標(biāo)注錯(cuò)誤率僅為2.6%，遠(yuǎn)低于其他基準(zhǔn)的10-25%。

Q2：為什么專業(yè)的GUI模型在拒絕應(yīng)答任務(wù)上表現(xiàn)這么差？

A：這暴露了當(dāng)前AI模型過度自信和缺乏自我認(rèn)知的問題。大多數(shù)專業(yè)GUI模型在拒絕應(yīng)答任務(wù)上準(zhǔn)確率接近零，說明它們無法識(shí)別不可能完成的指令，總是試圖強(qiáng)行給出答案而不是誠(chéng)實(shí)地說"找不到"。這就像一個(gè)不懂裝懂的學(xué)生，即使面對(duì)無法解答的問題也要硬著頭皮回答。

Q3：VenusBench-GD測(cè)試結(jié)果對(duì)普通用戶有什么意義？

A：測(cè)試結(jié)果表明當(dāng)前AI在GUI理解方面還有很大提升空間，人類在復(fù)雜任務(wù)上仍明顯超越AI模型。這意味著現(xiàn)階段的AI助手在處理復(fù)雜界面操作時(shí)可能出錯(cuò)，用戶需要保持適當(dāng)?shù)谋O(jiān)督。同時(shí)，這也預(yù)示著未來AI助手的巨大潛力，隨著技術(shù)進(jìn)步，我們將擁有更智能、更可靠的數(shù)字助手。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.