国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

螞蟻集團(tuán)發(fā)布VenusBench-GD:首個(gè)全平臺(tái)GUI智能交互能力測(cè)試基準(zhǔn)

0
分享至


這項(xiàng)由螞蟻集團(tuán)Venus團(tuán)隊(duì)聯(lián)合iMean AI公司共同完成的研究發(fā)表于2024年12月,研究論文編號(hào)為arXiv:2512.16501v1。該研究團(tuán)隊(duì)由來自螞蟻集團(tuán)的周北桐、黃哲瀟、郭遠(yuǎn)、顧張軒等多位研究員以及iMean AI的孔德韓、尚彥一等研究人員組成,項(xiàng)目由螞蟻集團(tuán)的沈舒恒博士領(lǐng)導(dǎo)。有興趣深入了解的讀者可以通過論文編號(hào)arXiv:2512.16501v1查詢完整論文。

當(dāng)你用手機(jī)點(diǎn)擊一個(gè)APP圖標(biāo),或者在電腦上尋找某個(gè)按鈕時(shí),這些看似簡(jiǎn)單的操作背后其實(shí)隱藏著復(fù)雜的視覺理解過程。你的眼睛需要在密密麻麻的界面元素中精準(zhǔn)定位目標(biāo),大腦要理解各種圖標(biāo)的含義,還要根據(jù)空間位置關(guān)系找到正確的位置?,F(xiàn)在,人工智能也在努力學(xué)會(huì)這種能力,就像訓(xùn)練一個(gè)從未見過電腦界面的人學(xué)會(huì)如何操作各種軟件一樣。

螞蟻集團(tuán)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問題:現(xiàn)有的AI測(cè)試標(biāo)準(zhǔn)就像只考察學(xué)生能否認(rèn)識(shí)單個(gè)漢字,卻從未測(cè)試他們能否讀懂一篇完整文章。大多數(shù)GUI(圖形用戶界面)測(cè)試基準(zhǔn)要么規(guī)模太小,就像只有幾十道題的考試,要么過于專業(yè)化,就像只測(cè)試醫(yī)學(xué)專業(yè)術(shù)語(yǔ)而忽略了日常對(duì)話能力。更重要的是,這些測(cè)試往往只關(guān)注最基礎(chǔ)的"找到紅色按鈕"這類簡(jiǎn)單任務(wù),卻忽略了真實(shí)應(yīng)用中需要的復(fù)雜推理能力,比如"找到價(jià)格最便宜的那個(gè)商品并加入購(gòu)物車"。

為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了VenusBench-GD,這是目前世界上最大規(guī)模、最全面的GUI理解能力測(cè)試基準(zhǔn)。這就像為AI設(shè)計(jì)了一套從小學(xué)到大學(xué)的完整課程體系,不僅要測(cè)試基礎(chǔ)的視覺識(shí)別能力,還要考察復(fù)雜的邏輯推理和問題解決能力。

這套測(cè)試系統(tǒng)覆蓋了我們?nèi)粘J褂玫乃兄饕脚_(tái):手機(jī)應(yīng)用、網(wǎng)頁(yè)界面和電腦軟件,總共包含97個(gè)不同的應(yīng)用程序,涵蓋創(chuàng)意設(shè)計(jì)、辦公效率、電子商務(wù)、娛樂、金融、知識(shí)獲取、社交、旅行和工具類等10個(gè)主要領(lǐng)域。研究團(tuán)隊(duì)花費(fèi)三個(gè)月時(shí)間,動(dòng)員20位專業(yè)標(biāo)注員,精心制作了6166個(gè)測(cè)試樣本,每個(gè)樣本都經(jīng)過多輪嚴(yán)格的質(zhì)量檢驗(yàn)。

VenusBench-GD的最大創(chuàng)新在于建立了分層次的評(píng)估體系?;A(chǔ)任務(wù)就像教會(huì)AI"看圖識(shí)字",包括元素識(shí)別、空間定位和視覺特征理解三個(gè)方面。元素識(shí)別類似于教AI認(rèn)識(shí)界面上的各種"零件",比如按鈕、文本框、下拉菜單等;空間定位則是教會(huì)AI理解相對(duì)位置關(guān)系,比如"找到搜索框右邊的那個(gè)按鈕";視覺特征理解讓AI學(xué)會(huì)根據(jù)外觀描述找到目標(biāo),比如"找到那個(gè)心形圖標(biāo)"。

高級(jí)任務(wù)則更像是考察AI的"綜合應(yīng)用能力"。功能推理任務(wù)要求AI理解不同界面元素的實(shí)際功能,就像你需要知道那個(gè)"X"按鈕是用來關(guān)閉窗口的,而不僅僅是識(shí)別它的外形。邏輯推理任務(wù)則更進(jìn)一步,要求AI能夠進(jìn)行多步驟的思考和比較,比如"找到評(píng)分最高但價(jià)格適中的那家餐廳"。最有趣的是拒絕應(yīng)答任務(wù),這是在測(cè)試AI是否具備"實(shí)事求是"的品質(zhì)——當(dāng)用戶的要求在當(dāng)前界面中根本無法完成時(shí),AI應(yīng)該誠(chéng)實(shí)地說"找不到",而不是胡亂猜測(cè)一個(gè)答案。

研究團(tuán)隊(duì)在數(shù)據(jù)質(zhì)量控制方面下了很大功夫。他們開發(fā)了一套"人機(jī)協(xié)作"的標(biāo)注流程,先讓人工專家標(biāo)記出界面中的重要元素,然后用AI模型生成對(duì)應(yīng)的自然語(yǔ)言指令,最后再由人工專家驗(yàn)證指令與元素是否匹配。這個(gè)過程就像制作一道精美的菜肴,需要選材、配菜、烹飪、品嘗等多個(gè)環(huán)節(jié)的精心把控。

為了確保測(cè)試結(jié)果的可靠性,研究團(tuán)隊(duì)還進(jìn)行了"盲測(cè)"實(shí)驗(yàn)。他們從多個(gè)現(xiàn)有基準(zhǔn)中隨機(jī)抽取了3000個(gè)樣本,打亂順序后讓標(biāo)注員重新評(píng)估質(zhì)量,就像讓老師在不知道學(xué)生姓名的情況下批改試卷一樣。結(jié)果顯示,VenusBench-GD的標(biāo)注錯(cuò)誤率僅為2.6%,遠(yuǎn)低于其他基準(zhǔn)的10-25%錯(cuò)誤率。

在實(shí)驗(yàn)評(píng)估部分,研究團(tuán)隊(duì)測(cè)試了目前最先進(jìn)的多種AI模型,包括GPT-4o、Claude等通用多模態(tài)模型,以及專門為GUI任務(wù)設(shè)計(jì)的特化模型。測(cè)試結(jié)果揭示了一個(gè)有趣的現(xiàn)象:在基礎(chǔ)任務(wù)上,通用AI模型的表現(xiàn)已經(jīng)追上甚至超越了專門的GUI模型。比如Qwen3-VL-8B模型在基礎(chǔ)任務(wù)上達(dá)到了76.96%的準(zhǔn)確率,表現(xiàn)相當(dāng)出色。這就像一個(gè)全科醫(yī)生在處理常見疾病時(shí),效果并不比??漆t(yī)生差多少。

然而,在高級(jí)任務(wù)上,專業(yè)化的GUI模型仍然保持明顯優(yōu)勢(shì)。在功能推理和邏輯推理任務(wù)中,像Holo1.5-72B和UI-Venus-Ground-72B這樣的專業(yè)模型分別達(dá)到了40%和68%的準(zhǔn)確率,明顯優(yōu)于通用模型。這說明專業(yè)化訓(xùn)練在復(fù)雜任務(wù)中仍然具有不可替代的價(jià)值,就像??漆t(yī)生在處理疑難雜癥時(shí)的專業(yè)優(yōu)勢(shì)一樣。

最令人意外的發(fā)現(xiàn)出現(xiàn)在拒絕應(yīng)答任務(wù)中。大多數(shù)專業(yè)GUI模型在這個(gè)任務(wù)上的表現(xiàn)近乎為零,只有UI-Venus-Ground-72B達(dá)到了51.33%的準(zhǔn)確率。這暴露了當(dāng)前AI模型的一個(gè)致命弱點(diǎn):過度自信和缺乏自我認(rèn)知。就像一個(gè)總是不懂裝懂的學(xué)生,即使面對(duì)無法解答的問題也要硬著頭皮給出答案,而不是誠(chéng)實(shí)地承認(rèn)"我不知道"。

研究團(tuán)隊(duì)還特別關(guān)注了多語(yǔ)言環(huán)境下的表現(xiàn)。他們發(fā)現(xiàn)模型在中文指令下的表現(xiàn)通常比英文更好,這可能與訓(xùn)練數(shù)據(jù)的分布有關(guān)。比如Qwen3-VL-4B模型在基礎(chǔ)任務(wù)上從英文環(huán)境的72.54%提升到中文環(huán)境的81.32%,顯示出明顯的語(yǔ)言偏好。

為了驗(yàn)證測(cè)試基準(zhǔn)的有效性,研究團(tuán)隊(duì)還進(jìn)行了人類表現(xiàn)對(duì)比實(shí)驗(yàn)。結(jié)果顯示人類在高級(jí)任務(wù)上的表現(xiàn)顯著超越所有AI模型:在邏輯推理、功能理解和拒絕應(yīng)答三個(gè)方面分別超出當(dāng)前最佳AI模型41.6%、11.8%和17.8%。這說明AI在GUI理解方面還有很大的提升空間,就像學(xué)生與老師之間仍然存在明顯的能力差距。

通過深入的錯(cuò)誤分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了AI模型的幾個(gè)主要問題。首先是語(yǔ)義理解偏差,AI往往難以將抽象概念與具體視覺元素聯(lián)系起來,比如無法理解"文本對(duì)齊"這個(gè)概念對(duì)應(yīng)的圖標(biāo)樣式。其次是空間定位不準(zhǔn)確,雖然能夠大致判斷區(qū)域位置,但在密集界面中難以精確區(qū)分相鄰元素。第三是視覺特征組合能力不足,當(dāng)需要同時(shí)考慮顏色、形狀、位置等多個(gè)屬性時(shí)容易出錯(cuò)。最重要的是缺乏多步推理能力,面對(duì)需要比較、篩選、排序的復(fù)雜任務(wù)時(shí)往往采用"貪心策略",只關(guān)注第一個(gè)符合條件的選項(xiàng)而忽略全局最優(yōu)解。

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范疇。隨著AI助手越來越多地參與我們的日常數(shù)字生活,GUI理解能力將成為衡量AI實(shí)用性的重要指標(biāo)。一個(gè)真正智能的AI助手不僅要能聽懂你說的話,還要能在復(fù)雜的應(yīng)用界面中準(zhǔn)確執(zhí)行你的指令,就像一個(gè)貼心的秘書能夠熟練操作各種辦公軟件一樣。

VenusBench-GD的發(fā)布標(biāo)志著GUI智能理解研究進(jìn)入了一個(gè)新階段。它不僅提供了更嚴(yán)格的評(píng)估標(biāo)準(zhǔn),也為研究者指出了未來的發(fā)展方向。隨著這套測(cè)試基準(zhǔn)的廣泛應(yīng)用,我們有理由期待AI在圖形界面理解方面取得更大突破,最終實(shí)現(xiàn)真正智能的人機(jī)交互體驗(yàn)。

說到底,這項(xiàng)研究就像為AI設(shè)計(jì)了一套"駕照考試",不僅要測(cè)試基本的操作技能,還要考察復(fù)雜情況下的應(yīng)變能力。只有通過這樣全面而嚴(yán)格的考核,AI才能真正成為我們值得信賴的數(shù)字助手。當(dāng)然,從目前的測(cè)試結(jié)果來看,AI們距離拿到"滿分駕照"還需要繼續(xù)努力,但這個(gè)方向無疑是正確的。歸根結(jié)底,這不僅是技術(shù)進(jìn)步的需要,更是我們邁向更智能、更便捷數(shù)字生活的必經(jīng)之路。

Q&A

Q1:VenusBench-GD與現(xiàn)有的GUI測(cè)試基準(zhǔn)有什么不同?

A:VenusBench-GD是目前規(guī)模最大、最全面的GUI理解測(cè)試基準(zhǔn),包含6166個(gè)測(cè)試樣本,覆蓋手機(jī)、網(wǎng)頁(yè)、電腦三大平臺(tái)的97個(gè)應(yīng)用。與現(xiàn)有基準(zhǔn)相比,它建立了分層評(píng)估體系,不僅測(cè)試基礎(chǔ)的元素識(shí)別能力,還考察復(fù)雜的邏輯推理和功能理解能力,標(biāo)注錯(cuò)誤率僅為2.6%,遠(yuǎn)低于其他基準(zhǔn)的10-25%。

Q2:為什么專業(yè)的GUI模型在拒絕應(yīng)答任務(wù)上表現(xiàn)這么差?

A:這暴露了當(dāng)前AI模型過度自信和缺乏自我認(rèn)知的問題。大多數(shù)專業(yè)GUI模型在拒絕應(yīng)答任務(wù)上準(zhǔn)確率接近零,說明它們無法識(shí)別不可能完成的指令,總是試圖強(qiáng)行給出答案而不是誠(chéng)實(shí)地說"找不到"。這就像一個(gè)不懂裝懂的學(xué)生,即使面對(duì)無法解答的問題也要硬著頭皮回答。

Q3:VenusBench-GD測(cè)試結(jié)果對(duì)普通用戶有什么意義?

A:測(cè)試結(jié)果表明當(dāng)前AI在GUI理解方面還有很大提升空間,人類在復(fù)雜任務(wù)上仍明顯超越AI模型。這意味著現(xiàn)階段的AI助手在處理復(fù)雜界面操作時(shí)可能出錯(cuò),用戶需要保持適當(dāng)?shù)谋O(jiān)督。同時(shí),這也預(yù)示著未來AI助手的巨大潛力,隨著技術(shù)進(jìn)步,我們將擁有更智能、更可靠的數(shù)字助手。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家在號(hào)召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

國(guó)家在號(hào)召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

百態(tài)人間
2025-12-24 16:40:00
一旦臺(tái)海戰(zhàn)爭(zhēng)爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場(chǎng)

一旦臺(tái)海戰(zhàn)爭(zhēng)爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場(chǎng)

滄海旅行家
2025-12-11 15:28:35
美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

羅說NBA
2025-12-28 06:53:32
下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會(huì)了

下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會(huì)了

封面新聞
2025-12-28 13:05:04
陳剛和“陳剛”合影

陳剛和“陳剛”合影

觀察者網(wǎng)
2025-12-27 09:46:55
萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

知鑒明史
2025-09-03 18:55:30
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
中方反制不到24小時(shí),美悍然宣布:中國(guó)違法,我們九屆政府都護(hù)臺(tái)

中方反制不到24小時(shí),美悍然宣布:中國(guó)違法,我們九屆政府都護(hù)臺(tái)

博覽歷史
2025-12-27 16:31:18
普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

普京強(qiáng)硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

新華社
2025-12-28 11:18:09
利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

足球偵探
2025-12-28 16:23:29
“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩(shī)意世界
2025-11-30 11:04:47
18家大國(guó)企全軍覆沒!昔日世界第一的中國(guó)機(jī)床,現(xiàn)還有翻身機(jī)會(huì)嗎

18家大國(guó)企全軍覆沒!昔日世界第一的中國(guó)機(jī)床,現(xiàn)還有翻身機(jī)會(huì)嗎

牛牛叨史
2025-12-20 21:06:35
5名“大法官”未達(dá)6人門檻仍下判決,翁曉玲:臺(tái)灣距離邪惡時(shí)代不遠(yuǎn)了

5名“大法官”未達(dá)6人門檻仍下判決,翁曉玲:臺(tái)灣距離邪惡時(shí)代不遠(yuǎn)了

海峽導(dǎo)報(bào)社
2025-12-21 08:44:14
原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

澎湃新聞
2025-12-28 10:40:26
陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

陳曉帶著,秦昊護(hù)著,郭京飛寵著,演了19部戲,終于紅了

小椰的奶奶
2025-12-28 08:54:10
金融圈刷屏,“私募魔女”李蓓開投資課:收費(fèi)12888元,但“不指望靠這個(gè)賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

金融圈刷屏,“私募魔女”李蓓開投資課:收費(fèi)12888元,但“不指望靠這個(gè)賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

每日經(jīng)濟(jì)新聞
2025-12-27 19:22:17
李兆會(huì)的18年復(fù)仇路

李兆會(huì)的18年復(fù)仇路

詩(shī)意世界
2025-10-10 14:09:20
周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

文史茶館2020
2025-12-28 11:15:51
俄警告歐洲國(guó)家勿向?yàn)跖杀?>
    </a>
        <h3>
      <a href=界面新聞
2025-12-28 14:26:52
姜昆翻車,美國(guó)境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

姜昆翻車,美國(guó)境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

你食不食油餅
2025-12-26 06:13:35
2025-12-28 19:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
旅游
親子
公開課
軍事航空

教育要聞

于潔:教師怎樣走出這10個(gè)認(rèn)知誤區(qū)

旅游要聞

【直播】元旦游上海,黃浦普陀專場(chǎng):黃浦新年三重奏?普陀“半馬蘇河”,靈!

親子要聞

千萬別把孩子,養(yǎng)成這種“奴隸”?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進(jìn)入關(guān)懷版