国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

SimpAgent (ICCV2025 Highlight):上下?簡化重塑GUI智能體,更少計(jì)算,更強(qiáng)性能

0
分享至


在多模態(tài)?模型的加持下,純視覺GUI智能體被視為未來通?操作智能體的重要?向。

作者丨陳恭巍

近年來,GUI智能體的發(fā)展正從依賴HTML、Accessibility樹等?本解析的模式,逐步邁向基于截圖感知的“純視覺”范式。在多模態(tài)?模型(MLLM)的加持下,純視覺GUI智能體展現(xiàn)出?需系統(tǒng)權(quán)限、泛化能?強(qiáng)、交互?然等優(yōu)勢,被視為未來通?操作智能體的重要?向。

然?,這?新范式背后卻暗藏困境:?密度、松散關(guān)聯(lián)的元素上下?,以及冗余的歷史上下?,正在制約GUI智能體在性能與效率上的平衡。 為此,哈?深和華為的研究者們從上下?簡化建模的?度提出了SimpAgent,實(shí)現(xiàn)了更快更強(qiáng)的GUI智能體,該?作已被 ICCV 2025 錄?為 Highlight 論?。

論?地址:https://arxiv.org/abs/2507.03730

代碼倉庫:https://github.com/JiuTian-VL/SimpAgent

01

背景:從?本解析到純視覺智能體,效率困境浮現(xiàn)

早期GUI智能體多依賴HTML、Accessibility樹等?本表示,具備明確的結(jié)構(gòu)化信息,但受限于權(quán)限、噪聲和可擴(kuò)展性,難以在真實(shí)環(huán)境中?泛部署。隨著GPT-4o、Gemini等多模態(tài)基礎(chǔ)模型的興起,研究者逐漸轉(zhuǎn)向基于截圖的純視覺?案(如SeeClick、ShowUI、OdysseyAgent),實(shí)現(xiàn)了?需API的通?GUI操作。

這?趨勢催?了兩類主流技術(shù)?案:

1.基于模塊化框架的視覺智能體(UGround,Aguvis):借助MLLM作為Planner與Executor,結(jié)合?量GUI預(yù)訓(xùn)練數(shù)據(jù)(數(shù)?萬到百萬級),顯著提升了界?理解與操作能?。

2.端到端視覺智能體(OS-Altas、ShowUI):通過整合截圖與操作歷史,直接訓(xùn)練MLLM進(jìn)?決策,減少依賴外部規(guī)劃模塊。

但是現(xiàn)有基于純視覺的GUI智能體在上下?建模上仍然存在內(nèi)在缺陷:它們未能針對GUI界?特有的結(jié)構(gòu)特性與冗余模式進(jìn)?有效優(yōu)化。

02

核?挑戰(zhàn):?密度界?元素與冗余歷史上下?

通過對典型GUI導(dǎo)航任務(wù)的深?分析,我們總結(jié)出兩?制約因素:

1?? ?密度、弱關(guān)聯(lián)的界?元素

GUI截圖平均包含???上百個(gè)UI元素(AITW:56個(gè),AndroidControl:180個(gè))。然?,?量元素與任務(wù)?標(biāo)?關(guān)且呈弱關(guān)聯(lián):遮蔽部分區(qū)域通常對任務(wù)完成?影響。?關(guān)元素不僅增加視覺?擾,還削弱模型對關(guān)鍵元素的聚焦能?。


實(shí)驗(yàn)證明:僅使?截圖中與操作相關(guān)的?半?yún)^(qū)域(元素剪枝)即可?完整截圖取得更?決策準(zhǔn)確率(68.8% vs. 66.0%)。

2?? 冗余的歷史上下?

復(fù)雜任務(wù)需要參考?xì)v史操作與截圖。然?,在AITW實(shí)驗(yàn)中,引?4步歷史截圖和動(dòng)作僅提升3%性能,卻帶來3.4倍計(jì)算開銷。這種低性價(jià)?的冗余上下?,不僅拖慢推理速度,也?幅增加部署成本。


03

現(xiàn)有探索:數(shù)據(jù)堆疊與壓縮加速的局限

為應(yīng)對這些挑戰(zhàn),學(xué)術(shù)界和產(chǎn)業(yè)界提出了多種嘗試:

  • ?規(guī)模預(yù)訓(xùn)練(OS-Atlas、ShowUI:通過數(shù)?萬到百萬級GUI樣本顯著增強(qiáng)模型基礎(chǔ)能?,但?昂成本使遷移?新領(lǐng)域困難。

  • 視覺壓縮(FastV、Victor、Token Merger:通過token裁剪或顯式聚合加速推理,然?壓縮后的信息丟失明顯,性能顯著下降。

  • 歷史重采樣(OdysseyAgent:利?外部模塊對歷史截圖進(jìn)?降維,但忽視多模態(tài)交互,且引?額外參數(shù)開銷。

這些?法要么成本?昂,要么在效率與性能之間?法兼顧,亟需?種從上下?建模?度出發(fā)的新范式。

04

我們的?案:上下?感知簡化框架——SimpAgent

針對上述痛點(diǎn),我們提出SimpAgent,?種?向GUI智能體的上下?感知簡化框架,圍繞“元素剪枝”與“歷史壓縮”兩?核?模塊,實(shí)現(xiàn)推理性能與計(jì)算效率的雙重突破:


1. Masking元素剪枝:?效去除?擾元素

  • ?法:在訓(xùn)練中基于概率分布隨機(jī)遮蓋截圖區(qū)域,以?概率剔除?關(guān)元素,避免復(fù)雜的元素關(guān)系建模。

  • 特點(diǎn):利?UI元素的弱關(guān)聯(lián)特性,簡化視覺場景;即使遮蓋區(qū)域覆蓋?半截圖,模型性能仍顯著提升。

  • 效果:顯著增強(qiáng)模型對關(guān)鍵信息的感知能?,減少?效特征?擾。

2. ?致性引導(dǎo)的歷史壓縮:?效保留關(guān)鍵信息

  • ?法:在LLM淺層丟棄冗余視覺token,通過?致性損失約束深層壓縮結(jié)果與完整歷史分??致,避免信息丟失。

  • 優(yōu)勢

    基于模型?身注意?機(jī)制完成壓縮,?需額外參數(shù)模塊;

    推理FLOPs降低27%,性能損耗極?(AITW下降僅0.1%)。

  • 可解釋性:可視化注意?表明,動(dòng)作token在?致性引導(dǎo)下能更聚焦于歷史關(guān)鍵元素,信息流更緊湊。

05

實(shí)驗(yàn)結(jié)果:更少計(jì)算,更強(qiáng)性能

我們在四?代表性GUI導(dǎo)航基準(zhǔn)上全?驗(yàn)證SimpAgent:

  • AITW(移動(dòng)+Web:提升?71.3%,較基線Qwen2VL-2B提升+2.3%。

  • GUI-Odyssey(?序列導(dǎo)航):提升?76.0%,歷史壓縮在15.4步平均?度下依然穩(wěn)定。

  • Mind2Web(跨?站測試):跨域測試集刷新SOTA,具備更強(qiáng)泛化。

  • AndroidControl833App:?額外預(yù)訓(xùn)練數(shù)據(jù)下,性能媲美預(yù)訓(xùn)練1.9M樣本的OS-Atlas。




06

可視化分析:上下?簡化如何改變模型的關(guān)注模式?

1?? 元素剪枝后的注意?分布


  • 可視化結(jié)果顯示,經(jīng)過Masking剪枝,模型在截圖中的注意?顯著向與?標(biāo)操作直接相關(guān)的UI元素集中,背景與?關(guān)區(qū)域的注意?權(quán)重降低。

  • 這種聚焦效應(yīng)表明,剪枝有效減少了冗余視覺信息對模型的?擾,幫助模型在復(fù)雜界?中迅速定位關(guān)鍵?標(biāo)。

2?? ?致性引導(dǎo)的歷史壓縮效果


  • 在?致性引導(dǎo)的監(jiān)督下,動(dòng)作Token(紅?)作為query時(shí)更關(guān)注歷史觀測Token(橙?)。該對?表明,?致性引導(dǎo)有助于促進(jìn)觀測信息向動(dòng)作的聚合,提升歷史信息壓縮效果。

  • 可視化結(jié)果驗(yàn)證了SimpAgent的?致性引導(dǎo)機(jī)制:它通過調(diào)整注意?分布,促進(jìn)模型在歷史壓縮條件下?效聚合關(guān)鍵信息,從?在降低計(jì)算開銷的同時(shí)維持推理性能。

07

展望:讓GUI智能體更輕、更強(qiáng)

SimpAgent展示了“少即是多”的范式轉(zhuǎn)向:

  • 不再依賴數(shù)據(jù)與算?的堆疊,?是深?任務(wù)本質(zhì),從上下?特性出發(fā)優(yōu)化架構(gòu);

  • 為低算?環(huán)境、移動(dòng)端和實(shí)時(shí)場景部署GUI智能體提供可??案;

  • 為未來的?效純視覺智能體提供可復(fù)?的訓(xùn)練與壓縮策略。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請先在「AI科技評論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
愧對山東厚愛!首發(fā)5虎他倆0得分,高詩巖6投0中,狀元郎未出手

愧對山東厚愛!首發(fā)5虎他倆0得分,高詩巖6投0中,狀元郎未出手

萌蘭聊個(gè)球
2025-12-26 22:12:51
“第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

“第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

小熊侃史
2025-12-26 11:25:18
陜西省檢察院黨組副書記、副檢察長葛迪履新遼寧省高院代院長

陜西省檢察院黨組副書記、副檢察長葛迪履新遼寧省高院代院長

澎湃新聞
2025-12-26 21:02:34
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
烏專家:中國“榨干”蘇聯(lián)遺產(chǎn),我們圖紙沒看懂,他們造出2.0!

烏專家:中國“榨干”蘇聯(lián)遺產(chǎn),我們圖紙沒看懂,他們造出2.0!

小莜讀史
2025-12-25 20:46:05
韋瑟斯龐28分青島終結(jié)山西4連勝 王睿澤19分迪亞洛22+4+4

韋瑟斯龐28分青島終結(jié)山西4連勝 王睿澤19分迪亞洛22+4+4

醉臥浮生
2025-12-26 21:33:19
美國過年,中國第三架殲36升空,樣子又變了,已進(jìn)入下一階段

美國過年,中國第三架殲36升空,樣子又變了,已進(jìn)入下一階段

頭條爆料007
2025-12-26 17:46:35
京東物流無人機(jī)已進(jìn)入全國常態(tài)化測試運(yùn)營階段,開通近50條航線

京東物流無人機(jī)已進(jìn)入全國常態(tài)化測試運(yùn)營階段,開通近50條航線

IT之家
2025-12-26 21:20:20
烏克蘭摧毀赫爾松俄羅斯軍船!重創(chuàng)下諾夫哥羅德船廠

烏克蘭摧毀赫爾松俄羅斯軍船!重創(chuàng)下諾夫哥羅德船廠

項(xiàng)鵬飛
2025-12-24 16:56:09
爆陳震已收到最終處罰通知,一切都結(jié)束了!

爆陳震已收到最終處罰通知,一切都結(jié)束了!

新零售參考Pro
2025-12-26 18:37:31
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽
2025-12-23 18:33:38
小米這次真的“害怕”了,小米17 Ultra直播全程關(guān)評!

小米這次真的“害怕”了,小米17 Ultra直播全程關(guān)評!

路飛寫代碼
2025-12-26 12:42:29
項(xiàng)立剛單方面叫陣5天后,羅永浩終于含蓄的回應(yīng)了……

項(xiàng)立剛單方面叫陣5天后,羅永浩終于含蓄的回應(yīng)了……

柴狗夫斯基
2025-12-26 11:03:31
汪文斌最新署名文章

汪文斌最新署名文章

新京報(bào)
2025-12-25 15:06:10
朱孝天道歉后,阿信發(fā)文

朱孝天道歉后,阿信發(fā)文

紅星新聞
2025-12-26 11:41:34
現(xiàn)代物理學(xué)為什么百年來都沒重大突破?難道被什么鎖死了?

現(xiàn)代物理學(xué)為什么百年來都沒重大突破?難道被什么鎖死了?

宇宙時(shí)空
2025-12-25 20:12:16
尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

扶蘇聊歷史
2025-12-25 16:18:51
郭晶晶霍啟剛給仨娃買蜜雪冰城,爺爺霍震霆結(jié)賬,還去看了車

郭晶晶霍啟剛給仨娃買蜜雪冰城,爺爺霍震霆結(jié)賬,還去看了車

小咪侃娛圈
2025-12-26 14:04:13
陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

江江食研社
2025-12-26 07:30:06
8000塊的全新iPhone17Pro Max敢買?這是監(jiān)管機(jī),不能買!

8000塊的全新iPhone17Pro Max敢買?這是監(jiān)管機(jī),不能買!

果粉使用技巧
2025-12-24 18:18:50
2025-12-26 23:31:00
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7026文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

黑老大2名表超5千萬成交 深圳原政法委書記是其保護(hù)傘

頭條要聞

黑老大2名表超5千萬成交 深圳原政法委書記是其保護(hù)傘

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財(cái)經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

時(shí)尚
旅游
本地
公開課
軍事航空

我們?yōu)槭裁葱枰?jié)日穿搭?

旅游要聞

辰山植物園“荒野生花”番杏科植物展即將開幕,元旦假期邂逅石礫間的堅(jiān)韌精靈

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏最新20點(diǎn)俄烏和平草案遞交莫斯科 俄方拒絕

無障礙瀏覽 進(jìn)入關(guān)懷版