国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AAAI 2026 Oral|InfiGUI-G1模型來(lái)了,刷新GUI Grounding SOTA

0
分享至



隨著多模態(tài)大語(yǔ)言模型(MLLM)的飛速發(fā)展,能夠像人類一樣通過(guò)視覺(jué)輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現(xiàn)實(shí)。然而,在通往通用計(jì)算機(jī)控制的道路上,如何讓模型精準(zhǔn)地將自然語(yǔ)言指令對(duì)應(yīng)到屏幕上的具體元素 —— 即 GUI Grounding 任務(wù),依然是一大難題。

現(xiàn)有的方法,特別是基于驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR),雖然在提升 “指得準(zhǔn)”(空間對(duì)齊)方面表現(xiàn)出色,卻往往在 “指得對(duì)”(語(yǔ)義對(duì)齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復(fù)雜的語(yǔ)義場(chǎng)景下無(wú)法通過(guò)有效探索找到正確的功能圖標(biāo)。

針對(duì)這一痛點(diǎn),來(lái)自浙江大學(xué)、香港理工大學(xué)及 InfiX.ai 的研究團(tuán)隊(duì)提出了一種全新的自適應(yīng)探索策略優(yōu)化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過(guò)多答案生成與自適應(yīng)獎(jiǎng)勵(lì)機(jī)制,徹底打破了傳統(tǒng) RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數(shù)量,InfiGUI-G1 便在多個(gè)高難度 GUI 基準(zhǔn)測(cè)試中刷新了 SOTA,部分指標(biāo)甚至大幅超越了閉源模型。

本文將深入介紹這項(xiàng)被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過(guò) “學(xué)會(huì)探索” 來(lái)實(shí)現(xiàn)更精準(zhǔn)的 GUI 語(yǔ)義理解。



  • 論文標(biāo)題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2508.05731
  • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

從 “空間對(duì)齊” 到 “語(yǔ)義對(duì)齊”:被忽視的探索瓶頸

GUI Grounding 任務(wù)的核心是將自然語(yǔ)言指令(如 “打開(kāi)相機(jī)”)映射到屏幕上的特定元素坐標(biāo)。研究團(tuán)隊(duì)指出,這一任務(wù)可以解構(gòu)為兩個(gè)正交的維度:

1. 空間對(duì)齊(Spatial Alignment):能否精確地定位到元素(即 “指得準(zhǔn)”)。

2. 語(yǔ)義對(duì)齊(Semantic Alignment):能否識(shí)別出功能正確的元素(即 “指得對(duì)”)。

現(xiàn)有的 RLVR 方法(如 Naive RLVR)雖然能通過(guò)優(yōu)化坐標(biāo)生成來(lái)提升定位精度,但在面對(duì)語(yǔ)義模糊或復(fù)雜的指令時(shí)卻顯得力不從心。

例如,當(dāng)指令是 “使用相機(jī)搜索物體” 時(shí),屏幕上可能同時(shí)存在普通的 “相機(jī)應(yīng)用” 和具有視覺(jué)搜索功能的 “Google Lens”。缺乏深度語(yǔ)義理解的模型往往會(huì)自信地死磕 “相機(jī)應(yīng)用” 圖標(biāo)。由于傳統(tǒng) RL 依賴當(dāng)前策略采樣,模型會(huì)不斷重復(fù)這個(gè)高置信度的錯(cuò)誤,陷入“自信陷阱”(Confidence Trap),從而無(wú)法發(fā)現(xiàn)真正正確的 “Google Lens” 圖標(biāo),導(dǎo)致無(wú)法獲得修正語(yǔ)義誤解所需的學(xué)習(xí)信號(hào)。



GUI Grounding 的主要失敗模式: (a) 空間對(duì)齊失敗,(b) 語(yǔ)義對(duì)齊失敗

InfiGUI-G1:自適應(yīng)探索策略優(yōu)化(AEPO)

為了解決這一探索效率低下的問(wèn)題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統(tǒng)的單次回答生成不同,AEPO 旨在通過(guò)更廣泛且高效的探索來(lái)捕捉低概率但正確的選項(xiàng)。

AEPO 框架由三個(gè)協(xié)同工作的核心組件構(gòu)成:

1.多答案生成機(jī)制(Multi-Answer Generation)傳統(tǒng)的 RL 方法通常只采樣一個(gè)動(dòng)作,一旦模型 “固執(zhí)己見(jiàn)” 地選錯(cuò),梯度的學(xué)習(xí)信號(hào)就會(huì)消失。AEPO 強(qiáng)制模型在一次前向傳遞中生成 N 個(gè)候選坐標(biāo)點(diǎn)。這一機(jī)制迫使模型跳出單一的高置信度預(yù)測(cè),去探索策略分布長(zhǎng)尾中的可能性,從而大幅增加了發(fā)現(xiàn)正確答案(如上述例子中的 Google Lens)的概率。

2.自適應(yīng)探索獎(jiǎng)勵(lì)(Adaptive Exploration Reward, AER)僅僅生成多個(gè)答案是不夠的,如何評(píng)價(jià)這些答案的質(zhì)量至關(guān)重要。研究團(tuán)隊(duì)基于效率第一性原理(效率 = 效用 / 成本)設(shè)計(jì)了 AER 函數(shù)。

  • 動(dòng)態(tài)激勵(lì):如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎(jiǎng)勵(lì);如果失敗,則給予較小的懲罰以鼓勵(lì)繼續(xù)探索。
  • 這種非線性的獎(jiǎng)勵(lì)設(shè)計(jì)在失敗時(shí)鼓勵(lì)模型 “廣撒網(wǎng)”,在成功時(shí)引導(dǎo)模型追求 “快準(zhǔn)狠”,實(shí)現(xiàn)了探索與利用的動(dòng)態(tài)平衡。

3.共線懲罰(Collinear Penalty)為了防止模型通過(guò)生成近似直線的點(diǎn)來(lái) “作弊”(簡(jiǎn)單的線性掃描策略),研究引入了共線懲罰。如果生成的多個(gè)候選點(diǎn)在幾何上近似共線,將被視為低質(zhì)量探索并受到嚴(yán)厲懲罰。這強(qiáng)制模型在語(yǔ)義空間而非單純的幾何空間中進(jìn)行多樣化探索。



AEPO 與 Naive 強(qiáng)化學(xué)習(xí)基準(zhǔn)方法的對(duì)比

實(shí)驗(yàn)結(jié)果:小參數(shù)量實(shí)現(xiàn)性能越級(jí)

研究團(tuán)隊(duì)在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個(gè)極具挑戰(zhàn)性的基準(zhǔn)上對(duì) InfiGUI-G1(3B 和 7B 版本)進(jìn)行了全面評(píng)估。

1.綜合性能全面領(lǐng)先:在 MMBench-GUI 基準(zhǔn)測(cè)試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個(gè)平臺(tái)上的表現(xiàn)均刷新了開(kāi)源模型的最佳成績(jī)。值得注意的是,InfiGUI-G1-7B 在部分指標(biāo)上甚至優(yōu)于參數(shù)量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

2.攻克高難度語(yǔ)義理解任務(wù)ScreenSpot-Pro 基準(zhǔn)專門區(qū)分了文本類(Text)和圖標(biāo)類(Icon)任務(wù)。結(jié)果顯示,InfiGUI-G1 在更依賴語(yǔ)義理解的 “圖標(biāo)” 任務(wù)上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語(yǔ)義對(duì)齊的瓶頸,讓模型真正 “看懂” 了抽象圖標(biāo)背后的功能含義,而不僅僅是進(jìn)行簡(jiǎn)單的文本匹配。

3.讓 “不可學(xué)習(xí)” 變得 “可學(xué)習(xí)”為了驗(yàn)證 AEPO 是否真的解決了探索難題,研究團(tuán)隊(duì)將樣本按難度分為簡(jiǎn)單、中等和困難。實(shí)驗(yàn)發(fā)現(xiàn),InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無(wú)法答對(duì)的樣本)上的提升最為巨大,相對(duì) Naive RLVR 基線提升了超過(guò)60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長(zhǎng)尾知識(shí)。



ScreenSpot-Pro 基準(zhǔn)測(cè)試的性能對(duì)比

總結(jié)與展望

InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺(jué)識(shí)別能力,更在于如何通過(guò)有效的強(qiáng)化學(xué)習(xí)策略來(lái)解決語(yǔ)義對(duì)齊問(wèn)題。通過(guò)引入自適應(yīng)探索機(jī)制,InfiGUI-G1 以極高的數(shù)據(jù)效率和較小的模型規(guī)模,實(shí)現(xiàn)了超越大模型的 GUI Grounding 能力。這項(xiàng)工作為未來(lái)開(kāi)發(fā)更通用、更智能的 GUI 交互助手提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

目前,InfiGUI-G1 的代碼、模型權(quán)重及相關(guān)資源已在 GitHub 開(kāi)源,歡迎社區(qū)進(jìn)一步研究與使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
老師給外籍小朋友剝蝦視頻瘋傳,評(píng)論區(qū)罵慘了,怒斥:枉為人師

老師給外籍小朋友剝蝦視頻瘋傳,評(píng)論區(qū)罵慘了,怒斥:枉為人師

談史論天地
2026-04-09 08:46:08
內(nèi)維爾談阿森納英超剩余賽程:全避開(kāi)硬仗,賽程再好不過(guò)了

內(nèi)維爾談阿森納英超剩余賽程:全避開(kāi)硬仗,賽程再好不過(guò)了

慢歌輕步謠
2026-04-20 10:37:49
詹姆斯在湖人戰(zhàn)勝火箭中,創(chuàng)造了斯托克頓都無(wú)法企及的NBA紀(jì)錄

詹姆斯在湖人戰(zhàn)勝火箭中,創(chuàng)造了斯托克頓都無(wú)法企及的NBA紀(jì)錄

好火子
2026-04-19 22:10:22
爭(zhēng)議!廣東“揮淚斬馬謖”竟是煙霧彈?硬漢中鋒空降,實(shí)則在賭未來(lái)

爭(zhēng)議!廣東“揮淚斬馬謖”竟是煙霧彈?硬漢中鋒空降,實(shí)則在賭未來(lái)

煙潯渺渺
2026-04-20 07:29:08
39+5+4!下克上!季后賽第一場(chǎng)打爆冷!黑八要來(lái)了……

39+5+4!下克上!季后賽第一場(chǎng)打爆冷!黑八要來(lái)了……

7號(hào)觀察室
2026-04-20 11:19:18
撿漏神操作!曼聯(lián)鎖定 5200 萬(wàn)皇馬巨星,完爆隊(duì)內(nèi)廢柴

撿漏神操作!曼聯(lián)鎖定 5200 萬(wàn)皇馬巨星,完爆隊(duì)內(nèi)廢柴

瀾歸序
2026-04-20 01:07:19
世錦賽今日賽程:丁俊暉再戰(zhàn)土豆哥,吳宜澤、雷佩凡、范爭(zhēng)一登場(chǎng)

世錦賽今日賽程:丁俊暉再戰(zhàn)土豆哥,吳宜澤、雷佩凡、范爭(zhēng)一登場(chǎng)

老高說(shuō)體育
2026-04-20 10:06:05
《八千里路云和月》大結(jié)局,田家泰犧牲,七哥的真正身份曝光

《八千里路云和月》大結(jié)局,田家泰犧牲,七哥的真正身份曝光

看盡落塵花q
2026-04-19 23:49:01
沉默2天后,中方通告全球,藏南是中國(guó)領(lǐng)土,并送給印度一個(gè)忠告

沉默2天后,中方通告全球,藏南是中國(guó)領(lǐng)土,并送給印度一個(gè)忠告

通文知史
2026-04-19 11:55:07
MSC神女號(hào)安全通過(guò)霍爾木茲海峽

MSC神女號(hào)安全通過(guò)霍爾木茲海峽

第一財(cái)經(jīng)資訊
2026-04-19 23:04:28
中南醫(yī)院院長(zhǎng)被查,曾吹噓自己老婆被他器重的人,腸子都悔青了

中南醫(yī)院院長(zhǎng)被查,曾吹噓自己老婆被他器重的人,腸子都悔青了

江山揮筆
2026-04-19 15:03:25
本田被曝將關(guān)停廣州、武漢兩座燃油車工廠 年產(chǎn)能砍至72萬(wàn)輛

本田被曝將關(guān)停廣州、武漢兩座燃油車工廠 年產(chǎn)能砍至72萬(wàn)輛

金融界
2026-04-17 13:45:07
打不得!日本戰(zhàn)艦闖入臺(tái)海峽,我軍為什么不直接擊沉它?

打不得!日本戰(zhàn)艦闖入臺(tái)海峽,我軍為什么不直接擊沉它?

趣文說(shuō)娛
2026-04-18 19:34:03
網(wǎng)友喊話讓何潤(rùn)東代言霸王茶姬,此前他已接到多個(gè)商務(wù)合作,最近30天抖音漲粉近200萬(wàn),品牌客服回應(yīng)

網(wǎng)友喊話讓何潤(rùn)東代言霸王茶姬,此前他已接到多個(gè)商務(wù)合作,最近30天抖音漲粉近200萬(wàn),品牌客服回應(yīng)

極目新聞
2026-04-19 17:19:41
你做初一,我做十五!日艦過(guò)航臺(tái)海三天后,052D沖向橫當(dāng)水道

你做初一,我做十五!日艦過(guò)航臺(tái)海三天后,052D沖向橫當(dāng)水道

透視到底
2026-04-20 10:07:00
上海連續(xù)5天雨,這天雨勢(shì)最明顯

上海連續(xù)5天雨,這天雨勢(shì)最明顯

上觀新聞
2026-04-20 09:28:05
回顧:2005年梁海玲器官被切后慘死豪宅,有人透露:她知道的太多

回顧:2005年梁海玲器官被切后慘死豪宅,有人透露:她知道的太多

歷來(lái)都很現(xiàn)實(shí)
2024-09-24 23:58:16
有人說(shuō)她要“背鍋”

有人說(shuō)她要“背鍋”

徐靜波靜說(shuō)日本
2026-04-19 07:11:41
不裝了賴清德、馬英九暴露真面目!國(guó)民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

不裝了賴清德、馬英九暴露真面目!國(guó)民黨發(fā)甲級(jí)動(dòng)員,想決一死戰(zhàn)

青梅侃史啊
2026-04-19 19:17:48
文強(qiáng)背后的女人:王紫綺與她的 “亮點(diǎn)帝國(guó)”,罪惡藏在旗袍之下

文強(qiáng)背后的女人:王紫綺與她的 “亮點(diǎn)帝國(guó)”,罪惡藏在旗袍之下

干史人
2026-04-17 18:51:57
2026-04-20 11:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12803文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

男子收到陌生賬號(hào)轉(zhuǎn)賬8萬(wàn)余元 3天后奢侈品牌商家找來(lái)

頭條要聞

男子收到陌生賬號(hào)轉(zhuǎn)賬8萬(wàn)余元 3天后奢侈品牌商家找來(lái)

體育要聞

七大獎(jiǎng)項(xiàng)候選官宣!文班或全票DPOY

娛樂(lè)要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

旅游
本地
數(shù)碼
公開(kāi)課
軍事航空

旅游要聞

贛鄱千年道:見(jiàn)證一片葉子的多種“打開(kāi)方式”

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

數(shù)碼要聞

小米米家中央空調(diào)人感風(fēng)風(fēng)管機(jī)雙出風(fēng)預(yù)售:超一級(jí)能效,8999元

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開(kāi)火炸出個(gè)洞

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版