国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AAAI 2026 Oral|InfiGUI-G1模型來(lái)了,刷新GUI Grounding SOTA

0
分享至



隨著多模態(tài)大語(yǔ)言模型(MLLM)的飛速發(fā)展,能夠像人類一樣通過(guò)視覺(jué)輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現(xiàn)實(shí)。然而,在通往通用計(jì)算機(jī)控制的道路上,如何讓模型精準(zhǔn)地將自然語(yǔ)言指令對(duì)應(yīng)到屏幕上的具體元素 —— 即 GUI Grounding 任務(wù),依然是一大難題。

現(xiàn)有的方法,特別是基于驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR),雖然在提升 “指得準(zhǔn)”(空間對(duì)齊)方面表現(xiàn)出色,卻往往在 “指得對(duì)”(語(yǔ)義對(duì)齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復(fù)雜的語(yǔ)義場(chǎng)景下無(wú)法通過(guò)有效探索找到正確的功能圖標(biāo)。

針對(duì)這一痛點(diǎn),來(lái)自浙江大學(xué)、香港理工大學(xué)及 InfiX.ai 的研究團(tuán)隊(duì)提出了一種全新的自適應(yīng)探索策略優(yōu)化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過(guò)多答案生成與自適應(yīng)獎(jiǎng)勵(lì)機(jī)制,徹底打破了傳統(tǒng) RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數(shù)量,InfiGUI-G1 便在多個(gè)高難度 GUI 基準(zhǔn)測(cè)試中刷新了 SOTA,部分指標(biāo)甚至大幅超越了閉源模型。

本文將深入介紹這項(xiàng)被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過(guò) “學(xué)會(huì)探索” 來(lái)實(shí)現(xiàn)更精準(zhǔn)的 GUI 語(yǔ)義理解。



  • 論文標(biāo)題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2508.05731
  • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

從 “空間對(duì)齊” 到 “語(yǔ)義對(duì)齊”:被忽視的探索瓶頸

GUI Grounding 任務(wù)的核心是將自然語(yǔ)言指令(如 “打開(kāi)相機(jī)”)映射到屏幕上的特定元素坐標(biāo)。研究團(tuán)隊(duì)指出,這一任務(wù)可以解構(gòu)為兩個(gè)正交的維度:

1. 空間對(duì)齊(Spatial Alignment):能否精確地定位到元素(即 “指得準(zhǔn)”)。

2. 語(yǔ)義對(duì)齊(Semantic Alignment):能否識(shí)別出功能正確的元素(即 “指得對(duì)”)。

現(xiàn)有的 RLVR 方法(如 Naive RLVR)雖然能通過(guò)優(yōu)化坐標(biāo)生成來(lái)提升定位精度,但在面對(duì)語(yǔ)義模糊或復(fù)雜的指令時(shí)卻顯得力不從心。

例如,當(dāng)指令是 “使用相機(jī)搜索物體” 時(shí),屏幕上可能同時(shí)存在普通的 “相機(jī)應(yīng)用” 和具有視覺(jué)搜索功能的 “Google Lens”。缺乏深度語(yǔ)義理解的模型往往會(huì)自信地死磕 “相機(jī)應(yīng)用” 圖標(biāo)。由于傳統(tǒng) RL 依賴當(dāng)前策略采樣,模型會(huì)不斷重復(fù)這個(gè)高置信度的錯(cuò)誤,陷入“自信陷阱”(Confidence Trap),從而無(wú)法發(fā)現(xiàn)真正正確的 “Google Lens” 圖標(biāo),導(dǎo)致無(wú)法獲得修正語(yǔ)義誤解所需的學(xué)習(xí)信號(hào)。



GUI Grounding 的主要失敗模式: (a) 空間對(duì)齊失敗,(b) 語(yǔ)義對(duì)齊失敗

InfiGUI-G1:自適應(yīng)探索策略優(yōu)化(AEPO)

為了解決這一探索效率低下的問(wèn)題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統(tǒng)的單次回答生成不同,AEPO 旨在通過(guò)更廣泛且高效的探索來(lái)捕捉低概率但正確的選項(xiàng)。

AEPO 框架由三個(gè)協(xié)同工作的核心組件構(gòu)成:

1.多答案生成機(jī)制(Multi-Answer Generation)傳統(tǒng)的 RL 方法通常只采樣一個(gè)動(dòng)作,一旦模型 “固執(zhí)己見(jiàn)” 地選錯(cuò),梯度的學(xué)習(xí)信號(hào)就會(huì)消失。AEPO 強(qiáng)制模型在一次前向傳遞中生成 N 個(gè)候選坐標(biāo)點(diǎn)。這一機(jī)制迫使模型跳出單一的高置信度預(yù)測(cè),去探索策略分布長(zhǎng)尾中的可能性,從而大幅增加了發(fā)現(xiàn)正確答案(如上述例子中的 Google Lens)的概率。

2.自適應(yīng)探索獎(jiǎng)勵(lì)(Adaptive Exploration Reward, AER)僅僅生成多個(gè)答案是不夠的,如何評(píng)價(jià)這些答案的質(zhì)量至關(guān)重要。研究團(tuán)隊(duì)基于效率第一性原理(效率 = 效用 / 成本)設(shè)計(jì)了 AER 函數(shù)。

  • 動(dòng)態(tài)激勵(lì):如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎(jiǎng)勵(lì);如果失敗,則給予較小的懲罰以鼓勵(lì)繼續(xù)探索。
  • 這種非線性的獎(jiǎng)勵(lì)設(shè)計(jì)在失敗時(shí)鼓勵(lì)模型 “廣撒網(wǎng)”,在成功時(shí)引導(dǎo)模型追求 “快準(zhǔn)狠”,實(shí)現(xiàn)了探索與利用的動(dòng)態(tài)平衡。

3.共線懲罰(Collinear Penalty)為了防止模型通過(guò)生成近似直線的點(diǎn)來(lái) “作弊”(簡(jiǎn)單的線性掃描策略),研究引入了共線懲罰。如果生成的多個(gè)候選點(diǎn)在幾何上近似共線,將被視為低質(zhì)量探索并受到嚴(yán)厲懲罰。這強(qiáng)制模型在語(yǔ)義空間而非單純的幾何空間中進(jìn)行多樣化探索。



AEPO 與 Naive 強(qiáng)化學(xué)習(xí)基準(zhǔn)方法的對(duì)比

實(shí)驗(yàn)結(jié)果:小參數(shù)量實(shí)現(xiàn)性能越級(jí)

研究團(tuán)隊(duì)在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個(gè)極具挑戰(zhàn)性的基準(zhǔn)上對(duì) InfiGUI-G1(3B 和 7B 版本)進(jìn)行了全面評(píng)估。

1.綜合性能全面領(lǐng)先:在 MMBench-GUI 基準(zhǔn)測(cè)試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個(gè)平臺(tái)上的表現(xiàn)均刷新了開(kāi)源模型的最佳成績(jī)。值得注意的是,InfiGUI-G1-7B 在部分指標(biāo)上甚至優(yōu)于參數(shù)量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

2.攻克高難度語(yǔ)義理解任務(wù)ScreenSpot-Pro 基準(zhǔn)專門區(qū)分了文本類(Text)和圖標(biāo)類(Icon)任務(wù)。結(jié)果顯示,InfiGUI-G1 在更依賴語(yǔ)義理解的 “圖標(biāo)” 任務(wù)上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語(yǔ)義對(duì)齊的瓶頸,讓模型真正 “看懂” 了抽象圖標(biāo)背后的功能含義,而不僅僅是進(jìn)行簡(jiǎn)單的文本匹配。

3.讓 “不可學(xué)習(xí)” 變得 “可學(xué)習(xí)”為了驗(yàn)證 AEPO 是否真的解決了探索難題,研究團(tuán)隊(duì)將樣本按難度分為簡(jiǎn)單、中等和困難。實(shí)驗(yàn)發(fā)現(xiàn),InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無(wú)法答對(duì)的樣本)上的提升最為巨大,相對(duì) Naive RLVR 基線提升了超過(guò)60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長(zhǎng)尾知識(shí)。



ScreenSpot-Pro 基準(zhǔn)測(cè)試的性能對(duì)比

總結(jié)與展望

InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺(jué)識(shí)別能力,更在于如何通過(guò)有效的強(qiáng)化學(xué)習(xí)策略來(lái)解決語(yǔ)義對(duì)齊問(wèn)題。通過(guò)引入自適應(yīng)探索機(jī)制,InfiGUI-G1 以極高的數(shù)據(jù)效率和較小的模型規(guī)模,實(shí)現(xiàn)了超越大模型的 GUI Grounding 能力。這項(xiàng)工作為未來(lái)開(kāi)發(fā)更通用、更智能的 GUI 交互助手提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

目前,InfiGUI-G1 的代碼、模型權(quán)重及相關(guān)資源已在 GitHub 開(kāi)源,歡迎社區(qū)進(jìn)一步研究與使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

中國(guó)首例五胞胎終于長(zhǎng)大了,父親因勞累去世,母親直言后悔生下他們

等風(fēng)來(lái)育兒聯(lián)盟
2025-08-01 12:21:35
這條荒唐新聞,引起公憤了!

這條荒唐新聞,引起公憤了!

胖胖說(shuō)他不胖
2026-01-11 10:00:11
董路:輸U(kuò)16國(guó)足2-5、輸U(kuò)23國(guó)足0-1,澳大利亞足球到頭了!

董路:輸U(kuò)16國(guó)足2-5、輸U(kuò)23國(guó)足0-1,澳大利亞足球到頭了!

綠茵舞著
2026-01-11 22:32:58
國(guó)乒新教練班子空留兩崗位是最大看點(diǎn) 馬龍樊振東或以雙重身份回歸

國(guó)乒新教練班子空留兩崗位是最大看點(diǎn) 馬龍樊振東或以雙重身份回歸

勁爆體壇
2026-01-12 19:22:18
金球獎(jiǎng)這一夜,國(guó)際女星個(gè)個(gè)風(fēng)情萬(wàn)種,但都被一位中國(guó)女星艷壓了

金球獎(jiǎng)這一夜,國(guó)際女星個(gè)個(gè)風(fēng)情萬(wàn)種,但都被一位中國(guó)女星艷壓了

八卦南風(fēng)
2026-01-12 16:25:50
洗碗機(jī)大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會(huì)崩潰

洗碗機(jī)大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會(huì)崩潰

八斗小先生
2026-01-10 15:30:07
3:2!熊皇破荒難救主 拉神雙響主導(dǎo)走勢(shì) 巴薩擊敗皇馬衛(wèi)冕超級(jí)杯

3:2!熊皇破荒難救主 拉神雙響主導(dǎo)走勢(shì) 巴薩擊敗皇馬衛(wèi)冕超級(jí)杯

阿超他的體育圈
2026-01-12 05:10:31
“以為眼花了”,山東氣溫將飆到17℃!天氣上演超級(jí)過(guò)山車:下一波雨雪在路上;煙威的雪為何下到“冒煙”?

“以為眼花了”,山東氣溫將飆到17℃!天氣上演超級(jí)過(guò)山車:下一波雨雪在路上;煙威的雪為何下到“冒煙”?

魯中晨報(bào)
2026-01-12 18:49:10
周杰倫宣布以球員身份參加澳網(wǎng)

周杰倫宣布以球員身份參加澳網(wǎng)

現(xiàn)代快報(bào)
2026-01-12 16:26:09
哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

顧史
2025-12-12 14:59:24
馬筱梅曬嬰兒服,豪宅內(nèi)景被看光,她不讓汪小菲在臺(tái)北買房是對(duì)的

馬筱梅曬嬰兒服,豪宅內(nèi)景被看光,她不讓汪小菲在臺(tái)北買房是對(duì)的

韓馳
2026-01-10 13:12:31
2012年安徽30歲醫(yī)學(xué)博士孕期癱瘓,生子后丈夫提離婚,如今翻盤(pán)?

2012年安徽30歲醫(yī)學(xué)博士孕期癱瘓,生子后丈夫提離婚,如今翻盤(pán)?

小熊侃史
2026-01-12 07:35:07
周恩來(lái)的母親萬(wàn)冬兒有多美?才華橫溢眉目如畫(huà),30歲因肺結(jié)核去世

周恩來(lái)的母親萬(wàn)冬兒有多美?才華橫溢眉目如畫(huà),30歲因肺結(jié)核去世

芊芊子吟
2026-01-06 13:50:03
哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個(gè)血脂真相!

哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個(gè)血脂真相!

岐黃傳人孫大夫
2026-01-08 10:06:20
又是明尼阿波利斯!美ICE執(zhí)法人員當(dāng)街射殺女子事件仍在發(fā)酵,全美上千場(chǎng)抗議爆發(fā)

又是明尼阿波利斯!美ICE執(zhí)法人員當(dāng)街射殺女子事件仍在發(fā)酵,全美上千場(chǎng)抗議爆發(fā)

新民周刊
2026-01-12 16:45:52
就在剛剛,24家A股上市公司發(fā)布重大利好消息,看看都有哪些?

就在剛剛,24家A股上市公司發(fā)布重大利好消息,看看都有哪些?

股市皆大事
2026-01-12 08:26:49
中國(guó)出手了!石平之子錄取資格被取消,女兒在機(jī)場(chǎng)被攔,太解氣了

中國(guó)出手了!石平之子錄取資格被取消,女兒在機(jī)場(chǎng)被攔,太解氣了

小lu侃侃而談
2026-01-12 19:56:41
震撼!曾精確預(yù)言911的盲眼神婆預(yù)測(cè)今年8大事件,有一條暗指中國(guó)

震撼!曾精確預(yù)言911的盲眼神婆預(yù)測(cè)今年8大事件,有一條暗指中國(guó)

刀刃故事
2024-11-22 01:55:03
兩岸喜訊!大陸沒(méi)想到,沒(méi)等正式收臺(tái),臺(tái)當(dāng)局先送來(lái)2份“大禮”

兩岸喜訊!大陸沒(méi)想到,沒(méi)等正式收臺(tái),臺(tái)當(dāng)局先送來(lái)2份“大禮”

趣生活
2026-01-10 22:29:06
天津宜家亂成一鍋粥,還有人總結(jié)了攻略...

天津宜家亂成一鍋粥,還有人總結(jié)了攻略...

全接觸狐狐
2026-01-12 09:34:14
2026-01-12 21:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12101文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國(guó)正面接招

頭條要聞

女子坐火車遇71歲初中班主任 被一口叫出名字感動(dòng)落淚

頭條要聞

女子坐火車遇71歲初中班主任 被一口叫出名字感動(dòng)落淚

體育要聞

聰明的球員,不是教練教出來(lái)的

娛樂(lè)要聞

蔡少芬結(jié)婚18周年,與張晉過(guò)二人世界

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

教育
時(shí)尚
房產(chǎn)
游戲
旅游

教育要聞

剛迎超長(zhǎng)寒假!北京中小學(xué)又撞上近十年“最短學(xué)期”?!

伊姐周日熱推:電視劇《御賜小仵作2》;電視劇《偶像瘋子》......

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!??谖骱0队忠l(fā)!

《暗黑4》DLC全新區(qū)域地圖泄露:奈非天的故鄉(xiāng)!

旅游要聞

中國(guó)文旅看山西:省文旅廳和交通廳聯(lián)手規(guī)劃打造“萬(wàn)里山河”景觀路

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版