国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

浙江大學(xué)團(tuán)隊(duì)研究:AI操控電腦時(shí),怎樣讓它學(xué)會(huì)"看不清就放大"?

0
分享至


這項(xiàng)由浙江大學(xué)與螞蟻集團(tuán)聯(lián)合開展的研究,發(fā)表于2026年4月,論文編號(hào)為arXiv:2604.14113,題為"UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding"。感興趣的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)檢索完整論文。

每天,我們都在電腦屏幕上點(diǎn)擊各種各樣的小圖標(biāo)——那個(gè)小得像芝麻粒一樣的"關(guān)閉"按鈕、密密麻麻擠在一起的工具欄選項(xiàng)、藏在角落里的設(shè)置齒輪。對(duì)人類來(lái)說(shuō),眼睛沒看清楚的時(shí)候,我們會(huì)本能地湊近屏幕或者把屏幕放大再看。但對(duì)于那些被訓(xùn)練來(lái)自動(dòng)操作電腦界面的AI來(lái)說(shuō),這個(gè)"沒看清就放大"的本能,卻長(zhǎng)期是一個(gè)沒有被認(rèn)真解決的問(wèn)題。

浙江大學(xué)和螞蟻集團(tuán)的研究團(tuán)隊(duì)注意到了這個(gè)盲區(qū)。他們開發(fā)了一套名為UI-Zoomer的框架,專門解決AI在執(zhí)行"圖形界面定位"任務(wù)(簡(jiǎn)單說(shuō)就是"看圖找按鈕")時(shí)遇到的難題。這套框架的核心思路異常樸素:只有在AI自己也沒把握的時(shí)候,才去放大圖像仔細(xì)再看;而且放大多少,也要根據(jù)AI的不確定程度來(lái)動(dòng)態(tài)決定,而非一刀切。這個(gè)研究不需要重新訓(xùn)練AI模型,可以直接套用在已有的模型上,在多個(gè)測(cè)試基準(zhǔn)中帶來(lái)了最高13.4%的準(zhǔn)確率提升。

一、AI操控電腦,為何"小圖標(biāo)"是一道難關(guān)

要理解這項(xiàng)研究,先得弄清楚一件事:什么叫做"圖形界面定位",以及它為什么難。

現(xiàn)代AI助手越來(lái)越多地被要求直接操作電腦,比如幫用戶打開某個(gè)設(shè)置、點(diǎn)擊某個(gè)按鈕、在復(fù)雜的軟件界面里找到一個(gè)特定的功能選項(xiàng)。這類任務(wù)的本質(zhì),就是AI拿到一張電腦截圖和一句描述(比如"點(diǎn)擊拼寫檢查按鈕"),然后輸出一個(gè)坐標(biāo),告訴執(zhí)行程序該點(diǎn)哪里。

聽起來(lái)不復(fù)雜,但現(xiàn)實(shí)中的屏幕往往令人抓狂。4K分辨率的專業(yè)設(shè)計(jì)軟件界面上,一個(gè)圖標(biāo)可能只占整張截圖面積的千分之一;CAD制圖軟件、科學(xué)數(shù)據(jù)分析工具的工具欄里,幾十個(gè)相似的小圖標(biāo)擠在一起,差一個(gè)像素就點(diǎn)錯(cuò)了。AI模型在處理這類截圖時(shí),面臨的困境類似于你站在十米外看一張密密麻麻的菜單,要說(shuō)清楚第三行第七個(gè)字是什么——眼神再好,也有極限。

現(xiàn)有的解決思路里,有一類叫做"測(cè)試時(shí)放大"的方法,思路就是把截圖裁一塊出來(lái)放大后重新讓AI看,提高有效分辨率。這個(gè)方向確實(shí)有效,但已有的方法有兩個(gè)共同的硬傷。

第一個(gè)硬傷是"不管三七二十一,統(tǒng)統(tǒng)放大"。有的方法對(duì)每一張截圖都做一遍放大再推理,不管AI對(duì)這張圖本來(lái)有沒有把握。研究團(tuán)隊(duì)做了一個(gè)直觀的實(shí)驗(yàn):在ScreenSpot-v2這個(gè)測(cè)試集上,加了無(wú)差別放大操作之后,準(zhǔn)確率從81.84%反而跌到了77.20%,推理時(shí)間卻從35分47秒暴漲到6小時(shí)43分鐘。原因很直白——那些AI本來(lái)就能看清楚的簡(jiǎn)單情況,被強(qiáng)制放大之后反而失去了整體布局信息,越看越糊涂。

第二個(gè)硬傷是"放大多少,憑感覺拍腦袋"。無(wú)論哪種方法,裁切窗口的大小都是事先固定的比例,比如統(tǒng)一裁截圖面積的30%或50%,完全不管當(dāng)前這張圖里AI的預(yù)測(cè)是聚在一起還是散得到處都是。裁太大,分辨率沒提升多少;裁太小,又可能把關(guān)鍵上下文信息切掉。

UI-Zoomer的目標(biāo),就是同時(shí)解決這兩個(gè)硬傷。

二、核心思路:用AI自己的"猶豫程度"來(lái)決定要不要放大、放大多少

UI-Zoomer的整體邏輯,可以用一個(gè)日常場(chǎng)景來(lái)理解。假設(shè)你是個(gè)經(jīng)驗(yàn)豐富的醫(yī)生在讀X光片,大多數(shù)片子一眼就能給出診斷,但遇到某張片子你反復(fù)看了幾次,每次看感覺焦點(diǎn)都不在同一個(gè)地方,而且你自己也不太確定——這時(shí)候你才會(huì)說(shuō)"把這個(gè)區(qū)域放大打印一下"。更重要的是,你會(huì)根據(jù)自己"猶豫"的范圍來(lái)決定放大哪一塊:如果幾次觀察都覺得問(wèn)題在同一個(gè)小區(qū)域附近,就放大那一小塊;如果每次感覺問(wèn)題區(qū)域都不一樣,分散在好幾處,就把那幾處都囊括進(jìn)來(lái)放大。

UI-Zoomer對(duì)AI做的,正是這同一件事。整個(gè)流程分三個(gè)階段。

第一階段叫做"多次隨機(jī)采樣"。研究團(tuán)隊(duì)讓AI對(duì)同一張截圖和同一個(gè)指令,在稍微放松的狀態(tài)下(用技術(shù)語(yǔ)言說(shuō)叫"溫度0.9的隨機(jī)采樣")獨(dú)立回答8次,每次都給出一個(gè)預(yù)測(cè)的邊界框(即AI認(rèn)為目標(biāo)按鈕在哪里的矩形區(qū)域)。這8個(gè)答案不是完全相同的,因?yàn)榧恿穗S機(jī)性之后,AI每次思考時(shí)會(huì)有輕微的波動(dòng)。你可以把這8次回答理解成讓8個(gè)醫(yī)生獨(dú)立看同一張X光片,分別寫下自己的判斷。

第二階段叫做"可靠性門控"。拿到8個(gè)預(yù)測(cè)之后,需要判斷AI到底有沒有把握。研究團(tuán)隊(duì)用了兩種互補(bǔ)的信號(hào)來(lái)衡量這件事。一種叫"空間一致性",就是看這8個(gè)預(yù)測(cè)框互相之間的重疊程度——如果8個(gè)框都堆在一起,說(shuō)明AI每次都指向同一個(gè)地方,非常一致,顯然是有把握的;如果8個(gè)框散落在截圖的不同角落,說(shuō)明AI自己也拿不定主意。另一種叫"平均置信度",就是看AI在生成每個(gè)坐標(biāo)數(shù)字時(shí),對(duì)自己輸出的每個(gè)字符有多確定——這個(gè)可以從模型內(nèi)部的概率分?jǐn)?shù)直接讀取。把這兩個(gè)信號(hào)加在一起,得到一個(gè)綜合的"可靠性分?jǐn)?shù)"。

如果可靠性分?jǐn)?shù)超過(guò)了一個(gè)預(yù)設(shè)閾值,說(shuō)明AI是有把握的,直接用"投票"方法選出最佳答案就好:從8個(gè)預(yù)測(cè)里選出和其他預(yù)測(cè)框重疊最多的那個(gè),作為最終答案。這個(gè)過(guò)程完全不需要再額外推理一次,既省時(shí)間又不損失精度。

如果可靠性分?jǐn)?shù)沒過(guò)閾值,說(shuō)明AI在這個(gè)問(wèn)題上真的不確定,這才進(jìn)入第三階段。

第三階段叫做"不確定性驅(qū)動(dòng)的自適應(yīng)裁切"。這是UI-Zoomer最精妙的部分——裁切窗口的大小,完全由AI預(yù)測(cè)的"分散程度"來(lái)決定。

研究團(tuán)隊(duì)在這里用了一個(gè)統(tǒng)計(jì)學(xué)上的工具,叫做"全方差分解"。通俗地說(shuō),他們把AI預(yù)測(cè)的總體不確定性分成了兩部分:一部分來(lái)自"8次預(yù)測(cè)的中心點(diǎn)散布有多廣",另一部分來(lái)自"每個(gè)預(yù)測(cè)框本身有多大"。前者反映的是AI對(duì)目標(biāo)位置本身的困惑——不同預(yù)測(cè)指向不同的位置;后者反映的是AI認(rèn)為目標(biāo)元素本身可能有多大——即使每次都指向同一個(gè)地方,如果預(yù)測(cè)框本身很大,也說(shuō)明目標(biāo)元素可能相當(dāng)寬泛。把這兩部分加起來(lái),就得到了總體的不確定性范圍,裁切半徑就等于這個(gè)范圍乘以一個(gè)縮放系數(shù)。

具體操作時(shí)還有一些工程細(xì)節(jié)。為了防止少數(shù)幾個(gè)極度離譜的預(yù)測(cè)把整體方差拉得過(guò)大,系統(tǒng)會(huì)先過(guò)濾掉距離中位數(shù)最遠(yuǎn)的25%的預(yù)測(cè),只用最靠近中心的75%來(lái)估算裁切范圍。裁切框統(tǒng)一變成正方形,因?yàn)殚L(zhǎng)條形的裁切區(qū)域容易讓AI誤解空間布局。如果算出來(lái)的裁切框超出了圖像邊界,就把整個(gè)框平移進(jìn)來(lái),保持大小不變,而不是把框縮小或截?cái)唷驗(yàn)楸3执笮〔拍鼙WC分辨率的提升效果。

裁切出來(lái)的區(qū)域被放大到模型的標(biāo)準(zhǔn)輸入尺寸后,AI再做一次確定性推理(溫度設(shè)為0),得到精細(xì)化的定位結(jié)果。最后,這個(gè)在裁切區(qū)域內(nèi)的坐標(biāo)還要經(jīng)過(guò)一步換算,映射回原始截圖的全局坐標(biāo),才是最終的點(diǎn)擊位置。

三、實(shí)驗(yàn)結(jié)果:在不同難度的考場(chǎng)上檢驗(yàn)成績(jī)

為了驗(yàn)證UI-Zoomer的有效性,研究團(tuán)隊(duì)在三個(gè)不同的測(cè)試基準(zhǔn)上進(jìn)行了評(píng)估,每個(gè)基準(zhǔn)代表不同的難度和應(yīng)用場(chǎng)景。

ScreenSpot-Pro是最難的一個(gè),專門針對(duì)4K分辨率的專業(yè)桌面軟件,涵蓋開發(fā)工具、創(chuàng)意設(shè)計(jì)軟件、CAD制圖、科學(xué)計(jì)算、Office辦公和操作系統(tǒng)六類應(yīng)用,共23款軟件,目標(biāo)元素普遍非常小且密集。UI-Vision覆蓋83個(gè)真實(shí)世界的桌面應(yīng)用,包含基礎(chǔ)元素定位、功能性操作和空間布局三類任務(wù)。ScreenSpot-v2則是一個(gè)多平臺(tái)基準(zhǔn),包含移動(dòng)端、桌面端和網(wǎng)頁(yè)端,整體難度相對(duì)較低,面向標(biāo)準(zhǔn)分辨率界面。

研究團(tuán)隊(duì)在四個(gè)基礎(chǔ)模型上分別測(cè)試了UI-Zoomer的效果:通用視覺語(yǔ)言模型Qwen2.5-VL-7B,以及專門針對(duì)GUI任務(wù)優(yōu)化過(guò)的GUI-G2-7B、UI-Venus-7B和UI-Venus-72B。后三個(gè)模型都通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行了專項(xiàng)訓(xùn)練,本身就具備較強(qiáng)的圖形界面理解能力。

在ScreenSpot-Pro上,四個(gè)模型加上UI-Zoomer之后,準(zhǔn)確率提升幅度相當(dāng)顯著。Qwen2.5-VL-7B從27.6%躍升到41.0%,提升了13.4個(gè)百分點(diǎn)。GUI-G2-7B從48.7%提升到61.4%,提升了12.7個(gè)百分點(diǎn)。UI-Venus-7B從50.0%提升到61.8%,提升了11.8個(gè)百分點(diǎn)。最大體量的UI-Venus-72B從59.2%提升到67.8%,提升了8.6個(gè)百分點(diǎn)。

在UI-Vision上,UI-Venus-7B的平均準(zhǔn)確率從24.4%提升到33.7%,提升幅度達(dá)到9.3個(gè)百分點(diǎn),Qwen2.5-VL-7B的提升則高達(dá)10.3個(gè)百分點(diǎn)。在相對(duì)容易的ScreenSpot-v2上,提升幅度較小但依然穩(wěn)定,UI-Venus-7B提升了0.9個(gè)百分點(diǎn),Qwen2.5-VL-7B提升了4.2個(gè)百分點(diǎn)。

這個(gè)規(guī)律本身就很有意思:越難的測(cè)試場(chǎng)景,UI-Zoomer帶來(lái)的提升越大。這完全符合預(yù)期——高分辨率的專業(yè)軟件界面上,小圖標(biāo)的定位問(wèn)題最突出,放大操作帶來(lái)的收益也最明顯。反過(guò)來(lái)在相對(duì)簡(jiǎn)單的移動(dòng)端界面上,AI本來(lái)就能看清楚大多數(shù)元素,放大操作的必要性就低得多。

值得關(guān)注的還有一個(gè)細(xì)節(jié):在圖標(biāo)類目標(biāo)上,UI-Zoomer帶來(lái)的提升(平均+12.5個(gè)百分點(diǎn))始終高于文字類目標(biāo)(平均+11.1個(gè)百分點(diǎn))。這也符合直覺——純文字的按鈕包含語(yǔ)義信息,AI即使在低分辨率下也能通過(guò)文字內(nèi)容推斷;而圖標(biāo)完全依賴視覺細(xì)節(jié),分辨率不足時(shí)就真的看不出是什么了,放大之后收益自然更大。

與同類方法的橫向比較同樣值得審視。之前的DiMo-GUI方法對(duì)每個(gè)樣本無(wú)差別地進(jìn)行放大推理,在ScreenSpot-Pro上只達(dá)到了49.7%;RegionFocus觸發(fā)機(jī)制依賴執(zhí)行錯(cuò)誤反饋,只達(dá)到32.1%。UI-Zoomer的UI-Venus-7B版本達(dá)到61.8%,明顯優(yōu)于這兩者。與暴力多次采樣取最優(yōu)的pass@8方法(58.2%)相比,UI-Zoomer以相近的推理預(yù)算達(dá)到了更高的準(zhǔn)確率,說(shuō)明關(guān)鍵不只是多采樣,而是怎么用好采樣結(jié)果。

四、每個(gè)設(shè)計(jì)細(xì)節(jié)背后的道理:拆解消融實(shí)驗(yàn)

研究團(tuán)隊(duì)做了大量的消融實(shí)驗(yàn),驗(yàn)證每一個(gè)設(shè)計(jì)選擇的必要性。這些實(shí)驗(yàn)的結(jié)論,進(jìn)一步解釋了為什么UI-Zoomer要這樣設(shè)計(jì)而不是那樣設(shè)計(jì)。

關(guān)于可靠性門控的兩個(gè)信號(hào),單獨(dú)使用空間一致性時(shí)準(zhǔn)確率是60.81%,單獨(dú)使用平均置信度時(shí)是61.10%,兩者結(jié)合后是61.80%。數(shù)字差異不大,但統(tǒng)計(jì)意義上兩者的互補(bǔ)性從分布形態(tài)上就能看出來(lái):空間一致性的分布很分散,能區(qū)分"預(yù)測(cè)框到底聚不聚"的情況;平均置信度的分布比較集中,能區(qū)分"模型對(duì)坐標(biāo)數(shù)字有沒有把握"的情況。兩個(gè)信號(hào)各有側(cè)重,組合后比任何一個(gè)單獨(dú)用都更可靠。

關(guān)于方差分解,只用來(lái)自"框內(nèi)尺寸"的內(nèi)部方差時(shí)準(zhǔn)確率60.97%,只用來(lái)自"預(yù)測(cè)框中心點(diǎn)散布"的跨樣本方差時(shí)是61.42%,兩者合用是61.80%。這個(gè)結(jié)果驗(yàn)證了把不確定性分成兩個(gè)來(lái)源的合理性:目標(biāo)本身有多大(內(nèi)部方差)和AI在哪里有分歧(跨樣本方差)是兩件不同的事,缺少任何一個(gè)都會(huì)導(dǎo)致裁切區(qū)域的估算出現(xiàn)偏差。

關(guān)于裁切策略,固定80%比例裁切準(zhǔn)確率只有55.22%,固定50%是59.58%,固定30%是61.35%,而自適應(yīng)方法是61.80%。固定比例方法的尷尬在于:比例太大,放大效果有限;比例太小,上下文信息丟失。更糟的是,同一個(gè)固定比例對(duì)不同難度的圖片表現(xiàn)差異極大,而自適應(yīng)方法能根據(jù)當(dāng)前情況動(dòng)態(tài)調(diào)整,從根本上規(guī)避了這個(gè)兩難困境。

關(guān)于邊界處理,當(dāng)裁切窗口延伸到圖像邊界外時(shí),三種處理方式的效果分別是:縮小窗口58.47%,硬截?cái)?0.25%,平移窗口61.80%。平移方法之所以最好,是因?yàn)樗3至瞬们写翱诘膶?shí)際大小不變,意味著放大后的分辨率始終是預(yù)期水平;縮小和截?cái)喽紩?huì)減少看到的內(nèi)容,可能恰好把目標(biāo)元素邊緣切掉。

關(guān)于保留候選比例,保留全部預(yù)測(cè)(100%)時(shí)準(zhǔn)確率60.03%,保留最近的50%時(shí)是60.37%,保留最近的75%時(shí)是61.80%。這說(shuō)明少量極端離譜的預(yù)測(cè)確實(shí)會(huì)把整體方差估算拉偏,但過(guò)度過(guò)濾又會(huì)損失有效信息,75%是一個(gè)經(jīng)過(guò)驗(yàn)證的平衡點(diǎn)。

關(guān)于是否強(qiáng)制方形裁切,非方形時(shí)60.56%,強(qiáng)制方形后61.80%,提升了1.24個(gè)百分點(diǎn)。強(qiáng)制方形減少了長(zhǎng)條形裁切框?qū)δP涂臻g理解的干擾,這在界面元素寬高比變化很大的情況下尤其重要。

關(guān)于采樣溫度,從0.1到0.9準(zhǔn)確率持續(xù)上升,從54.46%上升到61.80%,在1.0時(shí)略有回落。這表明多樣性對(duì)于估算裁切區(qū)域至關(guān)重要——溫度太低時(shí),8個(gè)預(yù)測(cè)幾乎完全相同,等于沒有采樣,方差估算毫無(wú)意義;溫度太高則引入純隨機(jī)噪聲。0.9是最佳點(diǎn)。

關(guān)于候選數(shù)量,從2到8個(gè)準(zhǔn)確率持續(xù)上升,在8個(gè)時(shí)達(dá)到61.80%,之后在12和16個(gè)時(shí)略有下降。超過(guò)8個(gè)之后,額外的預(yù)測(cè)開始引入冗余甚至噪聲,反而稍微拖累了方差估算的質(zhì)量。

五、它什么時(shí)候管用,什么時(shí)候還是會(huì)栽跟頭

研究團(tuán)隊(duì)展示的案例分析,給出了對(duì)UI-Zoomer邊界的直觀理解。

在成功案例中,典型情形是:AI的8次初始預(yù)測(cè)雖然散落在一定范圍內(nèi),沒有一個(gè)精確命中,但整體分布合理地包圍了目標(biāo)區(qū)域。UI-Zoomer據(jù)此圈定了一個(gè)合適的裁切范圍,放大之后AI一眼就鎖定了目標(biāo)。這說(shuō)明即使初始預(yù)測(cè)不夠精準(zhǔn),只要"集體犯錯(cuò)"的方向是正確的,放大這個(gè)方向就能成功。

在失敗案例中,有兩類典型情形。一類是界面上存在多個(gè)外觀幾乎相同的圖標(biāo),而目標(biāo)是其中一個(gè),AI每次預(yù)測(cè)可能都指向不同的相似圖標(biāo),裁切范圍雖然覆蓋了某個(gè)區(qū)域,但放大后依然無(wú)法區(qū)分。另一類是目標(biāo)極小且視覺特征非常微弱,即使放大之后,模型也沒有足夠的線索做出正確判斷。這兩類失敗揭示了UI-Zoomer的根本局限:它能改善分辨率,但無(wú)法憑空增加視覺區(qū)分度,當(dāng)目標(biāo)本身與周圍環(huán)境在視覺上高度相似時(shí),放大也無(wú)濟(jì)于事。

關(guān)于門控閾值的調(diào)節(jié),實(shí)驗(yàn)結(jié)果呈現(xiàn)出一條清晰的規(guī)律:閾值太低,幾乎沒有樣本被送去放大,等于退化成基線方法;閾值太高,幾乎所有樣本都被放大,等于無(wú)差別放大,準(zhǔn)確率反而下降,推理時(shí)間也接近翻倍。最優(yōu)的閾值范圍在中間,讓大約20%到55%的樣本接受放大處理。此外,桌面和網(wǎng)頁(yè)界面從放大操作中獲益更多,移動(dòng)端界面元素相對(duì)較大且布局更規(guī)整,放大的必要性更低。

說(shuō)到底,UI-Zoomer做的事情聽起來(lái)非常簡(jiǎn)單,卻填補(bǔ)了一個(gè)長(zhǎng)期存在的空白:讓AI知道自己什么時(shí)候在猜,并在猜測(cè)的時(shí)候采取有針對(duì)性的措施,而不是要么完全不管,要么對(duì)所有情況統(tǒng)統(tǒng)加碼處理。

這對(duì)普通人的意義,在不遠(yuǎn)的將來(lái)會(huì)越來(lái)越具體。當(dāng)AI助手被要求幫你操作電腦、填寫表格、在復(fù)雜軟件里找到某個(gè)隱藏功能時(shí),它們面臨的正是這類"小圖標(biāo)、密排版"的難題。UI-Zoomer這套框架不需要重新訓(xùn)練模型,可以作為一個(gè)"外掛"直接套在已有的AI模型上,帶來(lái)實(shí)質(zhì)性的準(zhǔn)確率提升,同時(shí)通過(guò)門控機(jī)制避免了不必要的計(jì)算開銷。

當(dāng)然,當(dāng)界面上存在大量視覺相似的小圖標(biāo)時(shí),單純提高分辨率并不足夠,AI還需要更深層的語(yǔ)義理解能力——這是這項(xiàng)研究坦然承認(rèn)的局限,也是未來(lái)工作需要繼續(xù)推進(jìn)的方向。有興趣進(jìn)一步了解技術(shù)細(xì)節(jié)的讀者,可以在arXiv平臺(tái)上以編號(hào)2604.14113檢索原始論文。

Q&A

Q1:UI-Zoomer是否需要重新訓(xùn)練AI模型才能使用?

A:不需要。UI-Zoomer是一個(gè)無(wú)需訓(xùn)練的框架,可以直接套用在已有的AI模型上使用,不改變模型本身的參數(shù)。它的工作方式是在推理階段對(duì)AI的輸出進(jìn)行分析,決定是否需要裁切放大,屬于"測(cè)試時(shí)"的增強(qiáng)手段。

Q2:UI-Zoomer的門控機(jī)制是如何判斷AI"沒把握"的?

A:門控機(jī)制結(jié)合了兩個(gè)信號(hào)。第一個(gè)是"空間一致性",即讓AI對(duì)同一張截圖采樣8次,看8次預(yù)測(cè)框的重疊程度是否高——重疊少說(shuō)明AI每次都指向不同位置,表明不確定。第二個(gè)是"平均置信度",直接讀取AI生成坐標(biāo)時(shí)對(duì)每個(gè)數(shù)字的內(nèi)部概率分?jǐn)?shù)。兩個(gè)信號(hào)加總后與閾值比較,低于閾值才觸發(fā)放大流程。

Q3:為什么無(wú)差別地對(duì)所有圖片都放大反而會(huì)讓準(zhǔn)確率下降?

A:因?yàn)閷?duì)于AI本來(lái)就能看清楚的簡(jiǎn)單界面,強(qiáng)制裁切放大會(huì)去掉原本對(duì)AI有幫助的整體布局信息。AI在看完整截圖時(shí)能利用上下文來(lái)推斷按鈕位置,裁切之后上下文丟失,反而增加了判斷難度。實(shí)驗(yàn)數(shù)據(jù)顯示,無(wú)差別放大讓ScreenSpot-v2上的準(zhǔn)確率從81.84%下降到77.20%,推理時(shí)間卻增加了近11倍。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來(lái)

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來(lái)

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

王洪文被捕前,對(duì)秘書說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說(shuō)史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰(shuí)拍下了那張后臺(tái)照片?

誰(shuí)拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開始慌了

倒查13年,央國(guó)企開始慌了

職場(chǎng)資深秘書
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

健康
房產(chǎn)
游戲
藝術(shù)
公開課

干細(xì)胞治療燒燙傷三大優(yōu)勢(shì)!

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國(guó)人口增量第4省!

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫面

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國(guó)第一民企落子民營(yíng)大??!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版