網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

浙江大學(xué)團(tuán)隊(duì)研究:AI操控電腦時(shí)，怎樣讓它學(xué)會(huì)"看不清就放大"？

2026-04-23 21:16:46　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由浙江大學(xué)與螞蟻集團(tuán)聯(lián)合開展的研究，發(fā)表于2026年4月，論文編號(hào)為arXiv:2604.14113，題為"UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding"。感興趣的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)檢索完整論文。

每天，我們都在電腦屏幕上點(diǎn)擊各種各樣的小圖標(biāo)——那個(gè)小得像芝麻粒一樣的"關(guān)閉"按鈕、密密麻麻擠在一起的工具欄選項(xiàng)、藏在角落里的設(shè)置齒輪。對(duì)人類來(lái)說(shuō)，眼睛沒看清楚的時(shí)候，我們會(huì)本能地湊近屏幕或者把屏幕放大再看。但對(duì)于那些被訓(xùn)練來(lái)自動(dòng)操作電腦界面的AI來(lái)說(shuō)，這個(gè)"沒看清就放大"的本能，卻長(zhǎng)期是一個(gè)沒有被認(rèn)真解決的問(wèn)題。

浙江大學(xué)和螞蟻集團(tuán)的研究團(tuán)隊(duì)注意到了這個(gè)盲區(qū)。他們開發(fā)了一套名為UI-Zoomer的框架，專門解決AI在執(zhí)行"圖形界面定位"任務(wù)（簡(jiǎn)單說(shuō)就是"看圖找按鈕"）時(shí)遇到的難題。這套框架的核心思路異常樸素：只有在AI自己也沒把握的時(shí)候，才去放大圖像仔細(xì)再看；而且放大多少，也要根據(jù)AI的不確定程度來(lái)動(dòng)態(tài)決定，而非一刀切。這個(gè)研究不需要重新訓(xùn)練AI模型，可以直接套用在已有的模型上，在多個(gè)測(cè)試基準(zhǔn)中帶來(lái)了最高13.4%的準(zhǔn)確率提升。

一、AI操控電腦，為何"小圖標(biāo)"是一道難關(guān)

要理解這項(xiàng)研究，先得弄清楚一件事：什么叫做"圖形界面定位"，以及它為什么難。

現(xiàn)代AI助手越來(lái)越多地被要求直接操作電腦，比如幫用戶打開某個(gè)設(shè)置、點(diǎn)擊某個(gè)按鈕、在復(fù)雜的軟件界面里找到一個(gè)特定的功能選項(xiàng)。這類任務(wù)的本質(zhì)，就是AI拿到一張電腦截圖和一句描述（比如"點(diǎn)擊拼寫檢查按鈕"），然后輸出一個(gè)坐標(biāo)，告訴執(zhí)行程序該點(diǎn)哪里。

聽起來(lái)不復(fù)雜，但現(xiàn)實(shí)中的屏幕往往令人抓狂。4K分辨率的專業(yè)設(shè)計(jì)軟件界面上，一個(gè)圖標(biāo)可能只占整張截圖面積的千分之一；CAD制圖軟件、科學(xué)數(shù)據(jù)分析工具的工具欄里，幾十個(gè)相似的小圖標(biāo)擠在一起，差一個(gè)像素就點(diǎn)錯(cuò)了。AI模型在處理這類截圖時(shí)，面臨的困境類似于你站在十米外看一張密密麻麻的菜單，要說(shuō)清楚第三行第七個(gè)字是什么——眼神再好，也有極限。

現(xiàn)有的解決思路里，有一類叫做"測(cè)試時(shí)放大"的方法，思路就是把截圖裁一塊出來(lái)放大后重新讓AI看，提高有效分辨率。這個(gè)方向確實(shí)有效，但已有的方法有兩個(gè)共同的硬傷。

第一個(gè)硬傷是"不管三七二十一，統(tǒng)統(tǒng)放大"。有的方法對(duì)每一張截圖都做一遍放大再推理，不管AI對(duì)這張圖本來(lái)有沒有把握。研究團(tuán)隊(duì)做了一個(gè)直觀的實(shí)驗(yàn)：在ScreenSpot-v2這個(gè)測(cè)試集上，加了無(wú)差別放大操作之后，準(zhǔn)確率從81.84%反而跌到了77.20%，推理時(shí)間卻從35分47秒暴漲到6小時(shí)43分鐘。原因很直白——那些AI本來(lái)就能看清楚的簡(jiǎn)單情況，被強(qiáng)制放大之后反而失去了整體布局信息，越看越糊涂。

第二個(gè)硬傷是"放大多少，憑感覺拍腦袋"。無(wú)論哪種方法，裁切窗口的大小都是事先固定的比例，比如統(tǒng)一裁截圖面積的30%或50%，完全不管當(dāng)前這張圖里AI的預(yù)測(cè)是聚在一起還是散得到處都是。裁太大，分辨率沒提升多少；裁太小，又可能把關(guān)鍵上下文信息切掉。

UI-Zoomer的目標(biāo)，就是同時(shí)解決這兩個(gè)硬傷。

二、核心思路：用AI自己的"猶豫程度"來(lái)決定要不要放大、放大多少

UI-Zoomer的整體邏輯，可以用一個(gè)日常場(chǎng)景來(lái)理解。假設(shè)你是個(gè)經(jīng)驗(yàn)豐富的醫(yī)生在讀X光片，大多數(shù)片子一眼就能給出診斷，但遇到某張片子你反復(fù)看了幾次，每次看感覺焦點(diǎn)都不在同一個(gè)地方，而且你自己也不太確定——這時(shí)候你才會(huì)說(shuō)"把這個(gè)區(qū)域放大打印一下"。更重要的是，你會(huì)根據(jù)自己"猶豫"的范圍來(lái)決定放大哪一塊：如果幾次觀察都覺得問(wèn)題在同一個(gè)小區(qū)域附近，就放大那一小塊；如果每次感覺問(wèn)題區(qū)域都不一樣，分散在好幾處，就把那幾處都囊括進(jìn)來(lái)放大。

UI-Zoomer對(duì)AI做的，正是這同一件事。整個(gè)流程分三個(gè)階段。

第一階段叫做"多次隨機(jī)采樣"。研究團(tuán)隊(duì)讓AI對(duì)同一張截圖和同一個(gè)指令，在稍微放松的狀態(tài)下（用技術(shù)語(yǔ)言說(shuō)叫"溫度0.9的隨機(jī)采樣"）獨(dú)立回答8次，每次都給出一個(gè)預(yù)測(cè)的邊界框（即AI認(rèn)為目標(biāo)按鈕在哪里的矩形區(qū)域）。這8個(gè)答案不是完全相同的，因?yàn)榧恿穗S機(jī)性之后，AI每次思考時(shí)會(huì)有輕微的波動(dòng)。你可以把這8次回答理解成讓8個(gè)醫(yī)生獨(dú)立看同一張X光片，分別寫下自己的判斷。

第二階段叫做"可靠性門控"。拿到8個(gè)預(yù)測(cè)之后，需要判斷AI到底有沒有把握。研究團(tuán)隊(duì)用了兩種互補(bǔ)的信號(hào)來(lái)衡量這件事。一種叫"空間一致性"，就是看這8個(gè)預(yù)測(cè)框互相之間的重疊程度——如果8個(gè)框都堆在一起，說(shuō)明AI每次都指向同一個(gè)地方，非常一致，顯然是有把握的；如果8個(gè)框散落在截圖的不同角落，說(shuō)明AI自己也拿不定主意。另一種叫"平均置信度"，就是看AI在生成每個(gè)坐標(biāo)數(shù)字時(shí)，對(duì)自己輸出的每個(gè)字符有多確定——這個(gè)可以從模型內(nèi)部的概率分?jǐn)?shù)直接讀取。把這兩個(gè)信號(hào)加在一起，得到一個(gè)綜合的"可靠性分?jǐn)?shù)"。

如果可靠性分?jǐn)?shù)超過(guò)了一個(gè)預(yù)設(shè)閾值，說(shuō)明AI是有把握的，直接用"投票"方法選出最佳答案就好：從8個(gè)預(yù)測(cè)里選出和其他預(yù)測(cè)框重疊最多的那個(gè)，作為最終答案。這個(gè)過(guò)程完全不需要再額外推理一次，既省時(shí)間又不損失精度。

如果可靠性分?jǐn)?shù)沒過(guò)閾值，說(shuō)明AI在這個(gè)問(wèn)題上真的不確定，這才進(jìn)入第三階段。

第三階段叫做"不確定性驅(qū)動(dòng)的自適應(yīng)裁切"。這是UI-Zoomer最精妙的部分——裁切窗口的大小，完全由AI預(yù)測(cè)的"分散程度"來(lái)決定。

研究團(tuán)隊(duì)在這里用了一個(gè)統(tǒng)計(jì)學(xué)上的工具，叫做"全方差分解"。通俗地說(shuō)，他們把AI預(yù)測(cè)的總體不確定性分成了兩部分：一部分來(lái)自"8次預(yù)測(cè)的中心點(diǎn)散布有多廣"，另一部分來(lái)自"每個(gè)預(yù)測(cè)框本身有多大"。前者反映的是AI對(duì)目標(biāo)位置本身的困惑——不同預(yù)測(cè)指向不同的位置；后者反映的是AI認(rèn)為目標(biāo)元素本身可能有多大——即使每次都指向同一個(gè)地方，如果預(yù)測(cè)框本身很大，也說(shuō)明目標(biāo)元素可能相當(dāng)寬泛。把這兩部分加起來(lái)，就得到了總體的不確定性范圍，裁切半徑就等于這個(gè)范圍乘以一個(gè)縮放系數(shù)。

具體操作時(shí)還有一些工程細(xì)節(jié)。為了防止少數(shù)幾個(gè)極度離譜的預(yù)測(cè)把整體方差拉得過(guò)大，系統(tǒng)會(huì)先過(guò)濾掉距離中位數(shù)最遠(yuǎn)的25%的預(yù)測(cè)，只用最靠近中心的75%來(lái)估算裁切范圍。裁切框統(tǒng)一變成正方形，因?yàn)殚L(zhǎng)條形的裁切區(qū)域容易讓AI誤解空間布局。如果算出來(lái)的裁切框超出了圖像邊界，就把整個(gè)框平移進(jìn)來(lái)，保持大小不變，而不是把框縮小或截?cái)唷驗(yàn)楸３执笮〔拍鼙ＷC分辨率的提升效果。

裁切出來(lái)的區(qū)域被放大到模型的標(biāo)準(zhǔn)輸入尺寸后，AI再做一次確定性推理（溫度設(shè)為0），得到精細(xì)化的定位結(jié)果。最后，這個(gè)在裁切區(qū)域內(nèi)的坐標(biāo)還要經(jīng)過(guò)一步換算，映射回原始截圖的全局坐標(biāo)，才是最終的點(diǎn)擊位置。

三、實(shí)驗(yàn)結(jié)果：在不同難度的考場(chǎng)上檢驗(yàn)成績(jī)

為了驗(yàn)證UI-Zoomer的有效性，研究團(tuán)隊(duì)在三個(gè)不同的測(cè)試基準(zhǔn)上進(jìn)行了評(píng)估，每個(gè)基準(zhǔn)代表不同的難度和應(yīng)用場(chǎng)景。

ScreenSpot-Pro是最難的一個(gè)，專門針對(duì)4K分辨率的專業(yè)桌面軟件，涵蓋開發(fā)工具、創(chuàng)意設(shè)計(jì)軟件、CAD制圖、科學(xué)計(jì)算、Office辦公和操作系統(tǒng)六類應(yīng)用，共23款軟件，目標(biāo)元素普遍非常小且密集。UI-Vision覆蓋83個(gè)真實(shí)世界的桌面應(yīng)用，包含基礎(chǔ)元素定位、功能性操作和空間布局三類任務(wù)。ScreenSpot-v2則是一個(gè)多平臺(tái)基準(zhǔn)，包含移動(dòng)端、桌面端和網(wǎng)頁(yè)端，整體難度相對(duì)較低，面向標(biāo)準(zhǔn)分辨率界面。

研究團(tuán)隊(duì)在四個(gè)基礎(chǔ)模型上分別測(cè)試了UI-Zoomer的效果：通用視覺語(yǔ)言模型Qwen2.5-VL-7B，以及專門針對(duì)GUI任務(wù)優(yōu)化過(guò)的GUI-G2-7B、UI-Venus-7B和UI-Venus-72B。后三個(gè)模型都通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行了專項(xiàng)訓(xùn)練，本身就具備較強(qiáng)的圖形界面理解能力。

在ScreenSpot-Pro上，四個(gè)模型加上UI-Zoomer之后，準(zhǔn)確率提升幅度相當(dāng)顯著。Qwen2.5-VL-7B從27.6%躍升到41.0%，提升了13.4個(gè)百分點(diǎn)。GUI-G2-7B從48.7%提升到61.4%，提升了12.7個(gè)百分點(diǎn)。UI-Venus-7B從50.0%提升到61.8%，提升了11.8個(gè)百分點(diǎn)。最大體量的UI-Venus-72B從59.2%提升到67.8%，提升了8.6個(gè)百分點(diǎn)。

在UI-Vision上，UI-Venus-7B的平均準(zhǔn)確率從24.4%提升到33.7%，提升幅度達(dá)到9.3個(gè)百分點(diǎn)，Qwen2.5-VL-7B的提升則高達(dá)10.3個(gè)百分點(diǎn)。在相對(duì)容易的ScreenSpot-v2上，提升幅度較小但依然穩(wěn)定，UI-Venus-7B提升了0.9個(gè)百分點(diǎn)，Qwen2.5-VL-7B提升了4.2個(gè)百分點(diǎn)。

這個(gè)規(guī)律本身就很有意思：越難的測(cè)試場(chǎng)景，UI-Zoomer帶來(lái)的提升越大。這完全符合預(yù)期——高分辨率的專業(yè)軟件界面上，小圖標(biāo)的定位問(wèn)題最突出，放大操作帶來(lái)的收益也最明顯。反過(guò)來(lái)在相對(duì)簡(jiǎn)單的移動(dòng)端界面上，AI本來(lái)就能看清楚大多數(shù)元素，放大操作的必要性就低得多。

值得關(guān)注的還有一個(gè)細(xì)節(jié)：在圖標(biāo)類目標(biāo)上，UI-Zoomer帶來(lái)的提升（平均+12.5個(gè)百分點(diǎn)）始終高于文字類目標(biāo)（平均+11.1個(gè)百分點(diǎn)）。這也符合直覺——純文字的按鈕包含語(yǔ)義信息，AI即使在低分辨率下也能通過(guò)文字內(nèi)容推斷；而圖標(biāo)完全依賴視覺細(xì)節(jié)，分辨率不足時(shí)就真的看不出是什么了，放大之后收益自然更大。

與同類方法的橫向比較同樣值得審視。之前的DiMo-GUI方法對(duì)每個(gè)樣本無(wú)差別地進(jìn)行放大推理，在ScreenSpot-Pro上只達(dá)到了49.7%；RegionFocus觸發(fā)機(jī)制依賴執(zhí)行錯(cuò)誤反饋，只達(dá)到32.1%。UI-Zoomer的UI-Venus-7B版本達(dá)到61.8%，明顯優(yōu)于這兩者。與暴力多次采樣取最優(yōu)的pass@8方法（58.2%）相比，UI-Zoomer以相近的推理預(yù)算達(dá)到了更高的準(zhǔn)確率，說(shuō)明關(guān)鍵不只是多采樣，而是怎么用好采樣結(jié)果。

四、每個(gè)設(shè)計(jì)細(xì)節(jié)背后的道理：拆解消融實(shí)驗(yàn)

研究團(tuán)隊(duì)做了大量的消融實(shí)驗(yàn)，驗(yàn)證每一個(gè)設(shè)計(jì)選擇的必要性。這些實(shí)驗(yàn)的結(jié)論，進(jìn)一步解釋了為什么UI-Zoomer要這樣設(shè)計(jì)而不是那樣設(shè)計(jì)。

關(guān)于可靠性門控的兩個(gè)信號(hào)，單獨(dú)使用空間一致性時(shí)準(zhǔn)確率是60.81%，單獨(dú)使用平均置信度時(shí)是61.10%，兩者結(jié)合后是61.80%。數(shù)字差異不大，但統(tǒng)計(jì)意義上兩者的互補(bǔ)性從分布形態(tài)上就能看出來(lái)：空間一致性的分布很分散，能區(qū)分"預(yù)測(cè)框到底聚不聚"的情況；平均置信度的分布比較集中，能區(qū)分"模型對(duì)坐標(biāo)數(shù)字有沒有把握"的情況。兩個(gè)信號(hào)各有側(cè)重，組合后比任何一個(gè)單獨(dú)用都更可靠。

關(guān)于方差分解，只用來(lái)自"框內(nèi)尺寸"的內(nèi)部方差時(shí)準(zhǔn)確率60.97%，只用來(lái)自"預(yù)測(cè)框中心點(diǎn)散布"的跨樣本方差時(shí)是61.42%，兩者合用是61.80%。這個(gè)結(jié)果驗(yàn)證了把不確定性分成兩個(gè)來(lái)源的合理性：目標(biāo)本身有多大（內(nèi)部方差）和AI在哪里有分歧（跨樣本方差）是兩件不同的事，缺少任何一個(gè)都會(huì)導(dǎo)致裁切區(qū)域的估算出現(xiàn)偏差。

關(guān)于裁切策略，固定80%比例裁切準(zhǔn)確率只有55.22%，固定50%是59.58%，固定30%是61.35%，而自適應(yīng)方法是61.80%。固定比例方法的尷尬在于：比例太大，放大效果有限；比例太小，上下文信息丟失。更糟的是，同一個(gè)固定比例對(duì)不同難度的圖片表現(xiàn)差異極大，而自適應(yīng)方法能根據(jù)當(dāng)前情況動(dòng)態(tài)調(diào)整，從根本上規(guī)避了這個(gè)兩難困境。

關(guān)于邊界處理，當(dāng)裁切窗口延伸到圖像邊界外時(shí)，三種處理方式的效果分別是：縮小窗口58.47%，硬截?cái)?0.25%，平移窗口61.80%。平移方法之所以最好，是因?yàn)樗３至瞬们写翱诘膶?shí)際大小不變，意味著放大后的分辨率始終是預(yù)期水平；縮小和截?cái)喽紩?huì)減少看到的內(nèi)容，可能恰好把目標(biāo)元素邊緣切掉。

關(guān)于保留候選比例，保留全部預(yù)測(cè)（100%）時(shí)準(zhǔn)確率60.03%，保留最近的50%時(shí)是60.37%，保留最近的75%時(shí)是61.80%。這說(shuō)明少量極端離譜的預(yù)測(cè)確實(shí)會(huì)把整體方差估算拉偏，但過(guò)度過(guò)濾又會(huì)損失有效信息，75%是一個(gè)經(jīng)過(guò)驗(yàn)證的平衡點(diǎn)。

關(guān)于是否強(qiáng)制方形裁切，非方形時(shí)60.56%，強(qiáng)制方形后61.80%，提升了1.24個(gè)百分點(diǎn)。強(qiáng)制方形減少了長(zhǎng)條形裁切框?qū)δＰ涂臻g理解的干擾，這在界面元素寬高比變化很大的情況下尤其重要。

關(guān)于采樣溫度，從0.1到0.9準(zhǔn)確率持續(xù)上升，從54.46%上升到61.80%，在1.0時(shí)略有回落。這表明多樣性對(duì)于估算裁切區(qū)域至關(guān)重要——溫度太低時(shí)，8個(gè)預(yù)測(cè)幾乎完全相同，等于沒有采樣，方差估算毫無(wú)意義；溫度太高則引入純隨機(jī)噪聲。0.9是最佳點(diǎn)。

關(guān)于候選數(shù)量，從2到8個(gè)準(zhǔn)確率持續(xù)上升，在8個(gè)時(shí)達(dá)到61.80%，之后在12和16個(gè)時(shí)略有下降。超過(guò)8個(gè)之后，額外的預(yù)測(cè)開始引入冗余甚至噪聲，反而稍微拖累了方差估算的質(zhì)量。

五、它什么時(shí)候管用，什么時(shí)候還是會(huì)栽跟頭

研究團(tuán)隊(duì)展示的案例分析，給出了對(duì)UI-Zoomer邊界的直觀理解。

在成功案例中，典型情形是：AI的8次初始預(yù)測(cè)雖然散落在一定范圍內(nèi)，沒有一個(gè)精確命中，但整體分布合理地包圍了目標(biāo)區(qū)域。UI-Zoomer據(jù)此圈定了一個(gè)合適的裁切范圍，放大之后AI一眼就鎖定了目標(biāo)。這說(shuō)明即使初始預(yù)測(cè)不夠精準(zhǔn)，只要"集體犯錯(cuò)"的方向是正確的，放大這個(gè)方向就能成功。

在失敗案例中，有兩類典型情形。一類是界面上存在多個(gè)外觀幾乎相同的圖標(biāo)，而目標(biāo)是其中一個(gè)，AI每次預(yù)測(cè)可能都指向不同的相似圖標(biāo)，裁切范圍雖然覆蓋了某個(gè)區(qū)域，但放大后依然無(wú)法區(qū)分。另一類是目標(biāo)極小且視覺特征非常微弱，即使放大之后，模型也沒有足夠的線索做出正確判斷。這兩類失敗揭示了UI-Zoomer的根本局限：它能改善分辨率，但無(wú)法憑空增加視覺區(qū)分度，當(dāng)目標(biāo)本身與周圍環(huán)境在視覺上高度相似時(shí)，放大也無(wú)濟(jì)于事。

關(guān)于門控閾值的調(diào)節(jié)，實(shí)驗(yàn)結(jié)果呈現(xiàn)出一條清晰的規(guī)律：閾值太低，幾乎沒有樣本被送去放大，等于退化成基線方法；閾值太高，幾乎所有樣本都被放大，等于無(wú)差別放大，準(zhǔn)確率反而下降，推理時(shí)間也接近翻倍。最優(yōu)的閾值范圍在中間，讓大約20%到55%的樣本接受放大處理。此外，桌面和網(wǎng)頁(yè)界面從放大操作中獲益更多，移動(dòng)端界面元素相對(duì)較大且布局更規(guī)整，放大的必要性更低。

說(shuō)到底，UI-Zoomer做的事情聽起來(lái)非常簡(jiǎn)單，卻填補(bǔ)了一個(gè)長(zhǎng)期存在的空白：讓AI知道自己什么時(shí)候在猜，并在猜測(cè)的時(shí)候采取有針對(duì)性的措施，而不是要么完全不管，要么對(duì)所有情況統(tǒng)統(tǒng)加碼處理。

這對(duì)普通人的意義，在不遠(yuǎn)的將來(lái)會(huì)越來(lái)越具體。當(dāng)AI助手被要求幫你操作電腦、填寫表格、在復(fù)雜軟件里找到某個(gè)隱藏功能時(shí)，它們面臨的正是這類"小圖標(biāo)、密排版"的難題。UI-Zoomer這套框架不需要重新訓(xùn)練模型，可以作為一個(gè)"外掛"直接套在已有的AI模型上，帶來(lái)實(shí)質(zhì)性的準(zhǔn)確率提升，同時(shí)通過(guò)門控機(jī)制避免了不必要的計(jì)算開銷。

當(dāng)然，當(dāng)界面上存在大量視覺相似的小圖標(biāo)時(shí)，單純提高分辨率并不足夠，AI還需要更深層的語(yǔ)義理解能力——這是這項(xiàng)研究坦然承認(rèn)的局限，也是未來(lái)工作需要繼續(xù)推進(jìn)的方向。有興趣進(jìn)一步了解技術(shù)細(xì)節(jié)的讀者，可以在arXiv平臺(tái)上以編號(hào)2604.14113檢索原始論文。

Q&A

Q1：UI-Zoomer是否需要重新訓(xùn)練AI模型才能使用？

A：不需要。UI-Zoomer是一個(gè)無(wú)需訓(xùn)練的框架，可以直接套用在已有的AI模型上使用，不改變模型本身的參數(shù)。它的工作方式是在推理階段對(duì)AI的輸出進(jìn)行分析，決定是否需要裁切放大，屬于"測(cè)試時(shí)"的增強(qiáng)手段。

Q2：UI-Zoomer的門控機(jī)制是如何判斷AI"沒把握"的？

A：門控機(jī)制結(jié)合了兩個(gè)信號(hào)。第一個(gè)是"空間一致性"，即讓AI對(duì)同一張截圖采樣8次，看8次預(yù)測(cè)框的重疊程度是否高——重疊少說(shuō)明AI每次都指向不同位置，表明不確定。第二個(gè)是"平均置信度"，直接讀取AI生成坐標(biāo)時(shí)對(duì)每個(gè)數(shù)字的內(nèi)部概率分?jǐn)?shù)。兩個(gè)信號(hào)加總后與閾值比較，低于閾值才觸發(fā)放大流程。

Q3：為什么無(wú)差別地對(duì)所有圖片都放大反而會(huì)讓準(zhǔn)確率下降？

A：因?yàn)閷?duì)于AI本來(lái)就能看清楚的簡(jiǎn)單界面，強(qiáng)制裁切放大會(huì)去掉原本對(duì)AI有幫助的整體布局信息。AI在看完整截圖時(shí)能利用上下文來(lái)推斷按鈕位置，裁切之后上下文丟失，反而增加了判斷難度。實(shí)驗(yàn)數(shù)據(jù)顯示，無(wú)差別放大讓ScreenSpot-v2上的準(zhǔn)確率從81.84%下降到77.20%，推理時(shí)間卻增加了近11倍。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.