国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港大突破:純視覺(jué)AI助手實(shí)現(xiàn)人機(jī)界面類人操作

0
分享至


香港大學(xué)和Salesforce研究院聯(lián)合發(fā)布的這項(xiàng)研究成果于2025年第42屆機(jī)器學(xué)習(xí)國(guó)際會(huì)議(ICML)上發(fā)表,有興趣深入了解的讀者可以通過(guò)論文編號(hào)PMLR 267查詢完整論文。

在日常生活中,我們操作電腦和手機(jī)時(shí)就像閱讀一本圖畫書一樣輕松自然——看到屏幕上的按鈕就點(diǎn)擊,看到輸入框就打字,看到菜單就選擇。然而,讓人工智能做同樣的事情卻一直是個(gè)巨大挑戰(zhàn)。傳統(tǒng)的AI助手就像一個(gè)盲人,必須依靠別人描述屏幕內(nèi)容才能操作,而且還需要為每種設(shè)備單獨(dú)編寫復(fù)雜的程序。

現(xiàn)在,這個(gè)問(wèn)題有了突破性的解決方案。研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為AGUVIS的AI系統(tǒng),它第一次實(shí)現(xiàn)了真正的"純視覺(jué)"操作——完全像人類一樣通過(guò)觀察屏幕圖像來(lái)操作各種設(shè)備,無(wú)需任何代碼翻譯或特殊適配。

這項(xiàng)研究的重要意義在于,它打破了長(zhǎng)期以來(lái)AI助手必須依賴復(fù)雜技術(shù)接口的局限。過(guò)去,每當(dāng)我們想讓AI操作一個(gè)新的應(yīng)用程序時(shí),就像讓一個(gè)外國(guó)人學(xué)會(huì)使用中文軟件一樣,需要大量的翻譯工作和特殊培訓(xùn)。而AGUVIS則像一個(gè)真正聰明的助手,只需要看一眼屏幕,就能理解界面布局,知道該點(diǎn)擊哪里,該輸入什么內(nèi)容。

更令人興奮的是,AGUVIS不僅能"看懂"屏幕,還能進(jìn)行復(fù)雜的思考推理。當(dāng)面對(duì)復(fù)雜任務(wù)時(shí),它會(huì)像人類一樣進(jìn)行內(nèi)在的思維過(guò)程——分析當(dāng)前情況,制定行動(dòng)計(jì)劃,然后一步步執(zhí)行。這種能力讓它能夠處理從網(wǎng)頁(yè)瀏覽到手機(jī)應(yīng)用操作的各種復(fù)雜任務(wù)。

研究團(tuán)隊(duì)通過(guò)構(gòu)建大規(guī)模的多平臺(tái)訓(xùn)練數(shù)據(jù)集,讓AGUVIS學(xué)會(huì)了跨平臺(tái)的通用操作能力。無(wú)論是網(wǎng)頁(yè)、桌面軟件還是手機(jī)應(yīng)用,它都能無(wú)縫切換,就像一個(gè)技術(shù)全能的數(shù)字助理。在多項(xiàng)實(shí)際測(cè)試中,AGUVIS不僅達(dá)到了業(yè)界最高水準(zhǔn),更重要的是,它是第一個(gè)完全基于開(kāi)源技術(shù)實(shí)現(xiàn)的純視覺(jué)GUI智能體,這意味著這項(xiàng)技術(shù)有望很快普及到各種實(shí)際應(yīng)用中。

**一、告別"翻譯員":為什么純視覺(jué)操作如此重要**

傳統(tǒng)的AI助手操作界面時(shí),就像一個(gè)只能通過(guò)翻譯員才能溝通的外國(guó)游客。每次想要操作網(wǎng)頁(yè)時(shí),它必須先將網(wǎng)頁(yè)轉(zhuǎn)換成HTML代碼,再讓專門的程序把這些代碼"翻譯"成它能理解的指令。當(dāng)換到手機(jī)應(yīng)用時(shí),又需要另一套完全不同的"翻譯系統(tǒng)"。這種方式不僅復(fù)雜低效,還經(jīng)常出現(xiàn)"翻譯錯(cuò)誤"導(dǎo)致操作失敗。

更糟糕的是,這種傳統(tǒng)方式就像給每個(gè)房間都配備不同的鑰匙一樣繁瑣。每個(gè)新的應(yīng)用程序、每個(gè)新的操作系統(tǒng),都需要開(kāi)發(fā)者重新編寫適配代碼,工作量巨大且容易出錯(cuò)。而且,隨著界面復(fù)雜程度的增加,這些"翻譯文檔"會(huì)變得異常龐大,處理一個(gè)復(fù)雜網(wǎng)頁(yè)可能需要分析超過(guò)四千個(gè)文字單元,就像讓AI讀完一篇小論文才能點(diǎn)擊一個(gè)按鈕。

AGUVIS的革命性突破在于完全拋棄了這種"翻譯員"模式。它直接像人類一樣通過(guò)眼睛觀察屏幕圖像,理解界面布局和功能元素。無(wú)論面對(duì)的是網(wǎng)頁(yè)上的購(gòu)買按鈕,還是手機(jī)上的設(shè)置選項(xiàng),AGUVIS都能直接識(shí)別并操作,不需要任何中間翻譯過(guò)程。

這種純視覺(jué)方法的優(yōu)勢(shì)顯而易見(jiàn)。首先是通用性——就像人類學(xué)會(huì)使用一種界面后,面對(duì)類似界面時(shí)能夠快速適應(yīng)一樣,AGUVIS在一個(gè)平臺(tái)上學(xué)到的操作經(jīng)驗(yàn)可以輕松遷移到其他平臺(tái)。其次是效率性——直接處理視覺(jué)信息比解析復(fù)雜代碼要快得多,AGUVIS處理界面的速度比傳統(tǒng)方法提高了數(shù)倍。

更重要的是,這種方法大大降低了部署難度。傳統(tǒng)AI助手需要為每個(gè)新環(huán)境專門開(kāi)發(fā)適配程序,就像為每棟新樓重新畫設(shè)計(jì)圖一樣復(fù)雜。而AGUVIS則像一個(gè)經(jīng)驗(yàn)豐富的服務(wù)員,不管走進(jìn)哪家餐廳,都能快速找到菜單、收銀臺(tái)和洗手間的位置。

**二、會(huì)"思考"的AI:內(nèi)在思維讓操作更智能**

AGUVIS最引人注目的特性之一是它具備了類似人類的"內(nèi)在思維"能力。當(dāng)我們面對(duì)復(fù)雜任務(wù)時(shí),比如在網(wǎng)上預(yù)訂機(jī)票,我們會(huì)在心中進(jìn)行一系列思考:首先分析當(dāng)前頁(yè)面上有什么選項(xiàng),然后規(guī)劃需要執(zhí)行的步驟序列,最后決定具體該點(diǎn)擊哪個(gè)按鈕。AGUVIS也具備了這樣的思維過(guò)程。

這種內(nèi)在思維能力通過(guò)"內(nèi)在獨(dú)白"機(jī)制實(shí)現(xiàn)。就像我們?cè)诮鉀Q問(wèn)題時(shí)會(huì)在心中默默分析一樣,AGUVIS在執(zhí)行每個(gè)操作前都會(huì)進(jìn)行詳細(xì)的思考分析。比如,當(dāng)任務(wù)是"預(yù)訂從波士頓機(jī)場(chǎng)到北站的行程"時(shí),AGUVIS會(huì)先思考:"我需要設(shè)定出發(fā)地為波士頓機(jī)場(chǎng),接下來(lái)應(yīng)該點(diǎn)擊目的地輸入框并輸入北站",然后才執(zhí)行具體的點(diǎn)擊和輸入操作。

這種思維機(jī)制讓AGUVIS能夠處理真正復(fù)雜的多步驟任務(wù)。不同于那些只能執(zhí)行簡(jiǎn)單指令的傳統(tǒng)系統(tǒng),AGUVIS能夠?qū)?fù)雜目標(biāo)分解為合理的行動(dòng)序列,并在執(zhí)行過(guò)程中不斷調(diào)整策略。當(dāng)遇到頁(yè)面布局發(fā)生變化或出現(xiàn)意外情況時(shí),它能夠重新分析情況,調(diào)整行動(dòng)計(jì)劃。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)證明,具備內(nèi)在思維能力的AGUVIS在復(fù)雜任務(wù)上的成功率比傳統(tǒng)方法提高了顯著幅度。特別是在需要多步推理的任務(wù)中,比如在電商網(wǎng)站上完成包含篩選條件、價(jià)格比較、購(gòu)買流程的完整購(gòu)物任務(wù),內(nèi)在思維讓AGUVIS的表現(xiàn)更加可靠和智能。

更有趣的是,這種內(nèi)在思維不僅提高了任務(wù)完成質(zhì)量,還增強(qiáng)了系統(tǒng)的可解釋性。通過(guò)觀察AGUVIS的思考過(guò)程,研究人員和用戶都能清楚地理解它為什么做出特定決策,這為未來(lái)的優(yōu)化和故障排除提供了寶貴信息。

**三、統(tǒng)一的"萬(wàn)能鑰匙":跨平臺(tái)操作的技術(shù)突破**

傳統(tǒng)AI助手面臨的最大難題之一,就像一個(gè)工人需要為每種不同的機(jī)器學(xué)習(xí)完全不同的操作方法。網(wǎng)頁(yè)有網(wǎng)頁(yè)的規(guī)則,手機(jī)應(yīng)用有手機(jī)應(yīng)用的規(guī)則,桌面軟件又有完全不同的交互方式。這種多樣性讓開(kāi)發(fā)通用AI助手變得異常困難。

AGUVIS通過(guò)創(chuàng)新的統(tǒng)一行動(dòng)空間設(shè)計(jì)解決了這個(gè)根本問(wèn)題。它建立了一套"萬(wàn)能鑰匙"系統(tǒng),可以適應(yīng)各種不同的操作環(huán)境。這個(gè)系統(tǒng)的核心是將所有基本操作歸納為幾種通用動(dòng)作:點(diǎn)擊、輸入文字、按鍵組合、滾動(dòng)頁(yè)面等,同時(shí)通過(guò)靈活的插件機(jī)制處理特殊情況。

具體來(lái)說(shuō),AGUVIS采用了基于pyautogui的標(biāo)準(zhǔn)化操作框架。這就像建立了一種"世界語(yǔ)",讓AI能夠用同一套"詞匯"與不同的設(shè)備和應(yīng)用程序交流。無(wú)論是在網(wǎng)頁(yè)上點(diǎn)擊購(gòu)買按鈕,還是在手機(jī)上滑動(dòng)屏幕,AGUVIS都使用相同的基礎(chǔ)指令集,只是參數(shù)有所不同。

為了處理不同平臺(tái)的特殊需求,研究團(tuán)隊(duì)設(shè)計(jì)了智能插件系統(tǒng)。這個(gè)系統(tǒng)就像一個(gè)工具箱,可以根據(jù)具體環(huán)境自動(dòng)選擇合適的專用工具。比如,在手機(jī)環(huán)境中自動(dòng)加載滑動(dòng)手勢(shì)功能,在瀏覽器環(huán)境中啟用表單填寫優(yōu)化功能,在桌面環(huán)境中支持復(fù)雜的鍵盤快捷鍵操作。

這種統(tǒng)一設(shè)計(jì)的最大優(yōu)勢(shì)在于學(xué)習(xí)遷移能力。AGUVIS在一個(gè)平臺(tái)上學(xué)會(huì)的操作技巧可以自然地應(yīng)用到其他平臺(tái)上。比如,它在網(wǎng)頁(yè)上學(xué)會(huì)了如何識(shí)別和點(diǎn)擊按鈕后,這種能力可以直接用于手機(jī)應(yīng)用和桌面軟件的按鈕操作,不需要重新訓(xùn)練。

研究結(jié)果顯示,這種跨平臺(tái)學(xué)習(xí)能力顯著提升了AGUVIS的整體性能。在混合平臺(tái)訓(xùn)練的模型比僅在單一平臺(tái)訓(xùn)練的模型表現(xiàn)更好,證明了不同平臺(tái)間的操作經(jīng)驗(yàn)確實(shí)可以相互促進(jìn)和加強(qiáng)。

**四、海量數(shù)據(jù)的智慧結(jié)晶:訓(xùn)練數(shù)據(jù)的創(chuàng)新構(gòu)建**

構(gòu)建一個(gè)能夠理解和操作各種界面的AI系統(tǒng),需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù),這就像培養(yǎng)一個(gè)全能的數(shù)字助理需要讓它見(jiàn)識(shí)各種不同的工作場(chǎng)景一樣。然而,收集這樣的數(shù)據(jù)面臨著巨大挑戰(zhàn):不僅需要覆蓋各種不同的平臺(tái)和應(yīng)用,還必須包含詳細(xì)的操作推理過(guò)程。

研究團(tuán)隊(duì)采用了創(chuàng)新的數(shù)據(jù)構(gòu)建策略,將數(shù)據(jù)分為兩個(gè)互補(bǔ)的部分:基礎(chǔ)操作數(shù)據(jù)和復(fù)雜推理數(shù)據(jù)?;A(chǔ)操作數(shù)據(jù)就像練習(xí)基本功一樣,包含超過(guò)100萬(wàn)個(gè)單步操作示例,涵蓋了從網(wǎng)頁(yè)點(diǎn)擊到手機(jī)滑動(dòng)的各種基本動(dòng)作。這些數(shù)據(jù)讓AGUVIS學(xué)會(huì)了準(zhǔn)確識(shí)別界面元素和執(zhí)行精確操作的基本技能。

更具挑戰(zhàn)性的是復(fù)雜推理數(shù)據(jù)的構(gòu)建。這類數(shù)據(jù)需要展示完整的思維過(guò)程,不僅要知道"做什么",還要理解"為什么這樣做"。研究團(tuán)隊(duì)使用了GPT-4o模型來(lái)幫助生成這些推理過(guò)程。具體做法是向GPT-4o展示屏幕截圖和目標(biāo)任務(wù),讓它像人類專家一樣分析情況并生成詳細(xì)的思考過(guò)程。

這種數(shù)據(jù)構(gòu)建方法的巧妙之處在于它能夠生成預(yù)測(cè)性而非回顧性的推理。傳統(tǒng)方法往往是在知道正確答案后再編造解釋,就像馬后炮一樣缺乏真正的指導(dǎo)意義。而AGUVIS的訓(xùn)練數(shù)據(jù)中,每個(gè)推理步驟都是基于當(dāng)前可見(jiàn)信息做出的前瞻性分析,真正模擬了人類的決策過(guò)程。

為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的人工評(píng)估。結(jié)果顯示,超過(guò)86%的生成推理數(shù)據(jù)能夠準(zhǔn)確反映任務(wù)意圖并與實(shí)際操作保持一致。這種高質(zhì)量數(shù)據(jù)為AGUVIS的優(yōu)異性能奠定了堅(jiān)實(shí)基礎(chǔ)。

數(shù)據(jù)構(gòu)建過(guò)程中還采用了模板增強(qiáng)技術(shù)。對(duì)于那些包含豐富界面信息但缺乏操作標(biāo)注的數(shù)據(jù),研究團(tuán)隊(duì)通過(guò)精心設(shè)計(jì)的模板自動(dòng)生成操作指令。這種方法大大擴(kuò)充了訓(xùn)練數(shù)據(jù)的規(guī)模,同時(shí)保證了數(shù)據(jù)的多樣性和覆蓋面。

**五、分階段精進(jìn):從基礎(chǔ)技能到高級(jí)推理的訓(xùn)練策略**

AGUVIS的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)從學(xué)徒到專家的技能發(fā)展路徑。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩階段訓(xùn)練策略,讓AI系統(tǒng)循序漸進(jìn)地掌握從基本操作到復(fù)雜推理的全套技能。

第一階段被稱為"基礎(chǔ)操作訓(xùn)練",就像教一個(gè)新手學(xué)習(xí)基本的鼠標(biāo)和鍵盤操作一樣。在這個(gè)階段,AGUVIS專注于學(xué)習(xí)準(zhǔn)確識(shí)別界面元素和執(zhí)行精確操作。它需要學(xué)會(huì)在屏幕上找到正確的按鈕位置,理解不同類型界面元素的功能,掌握點(diǎn)擊、輸入、滾動(dòng)等基本動(dòng)作的準(zhǔn)確執(zhí)行。

為了提高訓(xùn)練效率,研究團(tuán)隊(duì)開(kāi)發(fā)了"操作打包"技術(shù)。這種技術(shù)就像將同一主題的練習(xí)題歸類整理一樣,將來(lái)自同一屏幕截圖的多個(gè)操作示例組合在一起進(jìn)行訓(xùn)練。這樣不僅減少了重復(fù)的圖像處理時(shí)間,還幫助AI更好地理解同一界面上不同元素之間的關(guān)系。

第二階段進(jìn)入"規(guī)劃推理訓(xùn)練",這個(gè)階段就像從機(jī)械操作提升到戰(zhàn)略思維。AGUVIS需要學(xué)會(huì)復(fù)雜的任務(wù)分解、多步驟規(guī)劃和情境適應(yīng)能力。訓(xùn)練數(shù)據(jù)包含了完整的思維過(guò)程記錄,讓AI學(xué)會(huì)在執(zhí)行操作前進(jìn)行深入分析和合理規(guī)劃。

這種分階段訓(xùn)練的最大優(yōu)勢(shì)在于確保了技能發(fā)展的穩(wěn)固性。如果直接進(jìn)行復(fù)雜任務(wù)訓(xùn)練,AI可能會(huì)在基礎(chǔ)操作上出現(xiàn)錯(cuò)誤,導(dǎo)致整個(gè)任務(wù)失敗。而通過(guò)分階段訓(xùn)練,AGUVIS首先建立了堅(jiān)實(shí)的基礎(chǔ)操作能力,然后在此基礎(chǔ)上發(fā)展高級(jí)推理技能。

實(shí)驗(yàn)結(jié)果證明了這種訓(xùn)練策略的有效性。相比于一步到位的訓(xùn)練方法,分階段訓(xùn)練讓AGUVIS在各種評(píng)估任務(wù)上都表現(xiàn)出了更高的成功率和更強(qiáng)的穩(wěn)定性。特別是在需要多步驟協(xié)調(diào)的復(fù)雜任務(wù)中,這種訓(xùn)練方式的優(yōu)勢(shì)更加明顯。

**六、架構(gòu)選擇的智慧:為什么選擇Qwen2-VL**

在構(gòu)建AGUVIS系統(tǒng)時(shí),選擇合適的基礎(chǔ)架構(gòu)就像為一棟大樓選擇最佳的地基一樣重要。研究團(tuán)隊(duì)最終選擇了Qwen2-VL作為主要架構(gòu),這個(gè)選擇背后有著深思熟慮的考量。

Qwen2-VL架構(gòu)的最大優(yōu)勢(shì)在于其對(duì)高分辨率圖像的原生支持能力。傳統(tǒng)的視覺(jué)-語(yǔ)言模型處理屏幕截圖時(shí),就像用老式相機(jī)拍攝現(xiàn)代高清顯示器一樣,往往需要對(duì)圖像進(jìn)行大幅壓縮,導(dǎo)致重要的界面細(xì)節(jié)丟失。而Qwen2-VL采用了NaViT風(fēng)格的圖像編碼器,能夠動(dòng)態(tài)處理不同分辨率的圖像,保留屏幕截圖中的關(guān)鍵細(xì)節(jié)信息。

另一個(gè)關(guān)鍵優(yōu)勢(shì)是其空間感知能力。界面操作需要精確的位置定位,就像外科醫(yī)生需要準(zhǔn)確找到手術(shù)部位一樣。Qwen2-VL通過(guò)2D-RoPE位置編碼機(jī)制,能夠準(zhǔn)確理解屏幕上不同元素的相對(duì)位置關(guān)系,這對(duì)于精確的點(diǎn)擊操作至關(guān)重要。

為了驗(yàn)證架構(gòu)選擇的通用性,研究團(tuán)隊(duì)還使用LLaVA-OneVision進(jìn)行了對(duì)比實(shí)驗(yàn)。結(jié)果顯示,雖然LLaVA-OneVision也能實(shí)現(xiàn)不錯(cuò)的性能,但在處理高分辨率界面時(shí)需要更多的計(jì)算資源。這證明了AGUVIS框架的模型無(wú)關(guān)性——它可以適配不同的基礎(chǔ)架構(gòu),但選擇合適的架構(gòu)能夠獲得更好的性能表現(xiàn)。

在具體實(shí)現(xiàn)中,研究團(tuán)隊(duì)對(duì)架構(gòu)進(jìn)行了針對(duì)性優(yōu)化。他們將圖像最大像素設(shè)置為1280×720,在性能和效率之間找到了最佳平衡點(diǎn)。實(shí)驗(yàn)表明,進(jìn)一步提高分辨率到1920×1080并不能顯著改善性能,卻會(huì)大幅增加計(jì)算開(kāi)銷。

這種精心調(diào)優(yōu)的架構(gòu)設(shè)計(jì)讓AGUVIS能夠在保持高性能的同時(shí)控制計(jì)算成本。相比傳統(tǒng)的文本解析方法,AGUVIS的視覺(jué)處理方式不僅準(zhǔn)確性更高,計(jì)算效率也更出色。

**七、全面評(píng)估:在各種挑戰(zhàn)中證明實(shí)力**

要驗(yàn)證一個(gè)AI助手的真實(shí)能力,就像測(cè)試一個(gè)萬(wàn)能工具是否真的萬(wàn)能一樣,需要在各種不同的場(chǎng)景和任務(wù)中進(jìn)行全面檢驗(yàn)。研究團(tuán)隊(duì)設(shè)計(jì)了涵蓋基礎(chǔ)操作到復(fù)雜規(guī)劃的多層次評(píng)估體系。

在基礎(chǔ)操作能力測(cè)試中,AGUVIS面對(duì)ScreenSpot基準(zhǔn)測(cè)試表現(xiàn)優(yōu)異。這個(gè)測(cè)試就像給AI進(jìn)行"駕駛考試",需要準(zhǔn)確識(shí)別和操作移動(dòng)設(shè)備、桌面和網(wǎng)頁(yè)上的各種界面元素。AGUVIS在所有平臺(tái)上都取得了領(lǐng)先成績(jī),特別是在需要自主規(guī)劃的復(fù)雜場(chǎng)景中,性能提升更加顯著。

更嚴(yán)苛的測(cè)試來(lái)自離線評(píng)估基準(zhǔn)。在Multimodal-Mind2Web測(cè)試中,AGUVIS需要完成真實(shí)的網(wǎng)頁(yè)導(dǎo)航和交互任務(wù)。與依賴HTML代碼的傳統(tǒng)方法不同,AGUVIS僅通過(guò)觀察網(wǎng)頁(yè)截圖就能準(zhǔn)確理解頁(yè)面結(jié)構(gòu)并執(zhí)行操作。在所有評(píng)估指標(biāo)上,AGUVIS都實(shí)現(xiàn)了顯著的性能提升,特別是在任務(wù)成功率方面提高了超過(guò)50%。

手機(jī)操作能力的評(píng)估通過(guò)AndroidControl基準(zhǔn)進(jìn)行。這個(gè)測(cè)試涵蓋了高層次任務(wù)規(guī)劃和低層次指令執(zhí)行兩個(gè)層面。AGUVIS在兩個(gè)層面都表現(xiàn)出色,證明了其既能進(jìn)行宏觀規(guī)劃,也能精確執(zhí)行具體操作的綜合能力。

最具挑戰(zhàn)性的是在線實(shí)時(shí)評(píng)估。在Mind2Web-Live、AndroidWorld和MobileMiniWob等真實(shí)環(huán)境中,AGUVIS需要面對(duì)動(dòng)態(tài)變化的界面和不可預(yù)期的情況。這就像讓一個(gè)助手在真實(shí)的辦公環(huán)境中完成各種任務(wù),不僅要求技術(shù)能力,還需要適應(yīng)性和魯棒性。

評(píng)估結(jié)果顯示,AGUVIS在所有在線測(cè)試中都達(dá)到了業(yè)界最高水準(zhǔn)。更重要的是,它是第一個(gè)完全基于開(kāi)源技術(shù)實(shí)現(xiàn)這種性能水平的系統(tǒng)。在一些測(cè)試中,AGUVIS甚至超越了依賴閉源GPT-4o的競(jìng)爭(zhēng)方案,證明了其技術(shù)路線的先進(jìn)性。

特別值得一提的是效率優(yōu)勢(shì)。AGUVIS的純視覺(jué)方法在成本效益方面表現(xiàn)卓越,處理成本比傳統(tǒng)HTML解析方法降低了93%,輸入處理效率提高了70%。這種效率優(yōu)勢(shì)為大規(guī)模實(shí)際部署奠定了基礎(chǔ)。

**八、深度解析:訓(xùn)練策略的精妙設(shè)計(jì)**

AGUVIS訓(xùn)練過(guò)程中的每個(gè)設(shè)計(jì)決策都經(jīng)過(guò)了精心考量和實(shí)驗(yàn)驗(yàn)證。研究團(tuán)隊(duì)通過(guò)大量對(duì)比實(shí)驗(yàn)深入分析了不同訓(xùn)練策略的影響,這些發(fā)現(xiàn)為未來(lái)的研究提供了寶貴指導(dǎo)。

關(guān)于訓(xùn)練階段順序的實(shí)驗(yàn)特別有啟發(fā)性。研究團(tuán)隊(duì)比較了先基礎(chǔ)后高級(jí)的分階段訓(xùn)練與同時(shí)進(jìn)行的聯(lián)合訓(xùn)練。結(jié)果發(fā)現(xiàn),分階段訓(xùn)練方式能夠讓模型在復(fù)雜推理任務(wù)上表現(xiàn)更好,而聯(lián)合訓(xùn)練雖然在基礎(chǔ)操作上略有優(yōu)勢(shì),但在需要規(guī)劃能力的任務(wù)上表現(xiàn)不佳。這說(shuō)明基礎(chǔ)技能的扎實(shí)掌握是發(fā)展高級(jí)能力的必要前提。

內(nèi)在思維機(jī)制的作用也得到了深入分析。通過(guò)對(duì)比有無(wú)內(nèi)在思維的模型版本,研究發(fā)現(xiàn)內(nèi)在思維不僅提升了復(fù)雜任務(wù)的成功率,還增強(qiáng)了基礎(chǔ)操作的準(zhǔn)確性。這個(gè)發(fā)現(xiàn)頗為意外,說(shuō)明思維過(guò)程不僅幫助規(guī)劃,還能提高執(zhí)行精度。內(nèi)在思維讓模型在操作前進(jìn)行充分考慮,減少了沖動(dòng)性錯(cuò)誤。

跨平臺(tái)學(xué)習(xí)效應(yīng)的驗(yàn)證更加令人振奮。實(shí)驗(yàn)顯示,在網(wǎng)頁(yè)和手機(jī)數(shù)據(jù)上共同訓(xùn)練的模型,在單獨(dú)的網(wǎng)頁(yè)任務(wù)上表現(xiàn)比僅用網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練的模型更好。這證明了不同平臺(tái)間確實(shí)存在可遷移的通用操作原理,跨平臺(tái)訓(xùn)練能夠讓模型學(xué)到更robust的技能。

研究團(tuán)隊(duì)還深入分析了數(shù)據(jù)質(zhì)量對(duì)性能的影響。通過(guò)人工評(píng)估,他們發(fā)現(xiàn)生成的推理數(shù)據(jù)中86.7%能夠準(zhǔn)確反映任務(wù)意圖,其余部分的錯(cuò)誤主要來(lái)源于訓(xùn)練數(shù)據(jù)中的噪聲。這個(gè)分析為未來(lái)的數(shù)據(jù)質(zhì)量控制提供了重要參考。

錯(cuò)誤分析揭示了當(dāng)前系統(tǒng)的局限性。在ScreenSpot測(cè)試的錯(cuò)誤案例中,40%來(lái)自指令歧義,60%屬于操作定位錯(cuò)誤。有趣的是,當(dāng)強(qiáng)制模型進(jìn)行明確推理時(shí),能夠解決20%的定位錯(cuò)誤,這說(shuō)明思維過(guò)程確實(shí)能夠提高操作準(zhǔn)確性。

這些深度分析不僅驗(yàn)證了AGUVIS設(shè)計(jì)的合理性,也為未來(lái)改進(jìn)指明了方向。特別是在處理模糊指令和提高不確定性處理能力方面,還有進(jìn)一步優(yōu)化的空間。

**九、超越實(shí)驗(yàn)室:真實(shí)世界的適應(yīng)能力**

AGUVIS最令人印象深刻的能力之一,是它在面對(duì)真實(shí)世界復(fù)雜情況時(shí)展現(xiàn)出的強(qiáng)大適應(yīng)性。研究團(tuán)隊(duì)專門測(cè)試了系統(tǒng)在處理訓(xùn)練數(shù)據(jù)中未見(jiàn)過(guò)的情況時(shí)的表現(xiàn),結(jié)果令人驚喜。

最典型的例子是處理網(wǎng)站cookie同意彈窗的能力。這類彈窗在AGUVIS的訓(xùn)練數(shù)據(jù)中并不常見(jiàn),但在真實(shí)網(wǎng)絡(luò)環(huán)境中卻隨處可見(jiàn)。當(dāng)AGUVIS遇到這類彈窗時(shí),它能夠正確識(shí)別這是阻礙任務(wù)執(zhí)行的障礙,并采取適當(dāng)?shù)年P(guān)閉操作。比如在訪問(wèn)航空公司網(wǎng)站查找航班信息時(shí),它會(huì)先關(guān)閉隱私政策彈窗,然后繼續(xù)執(zhí)行預(yù)訂任務(wù)。

更具挑戰(zhàn)性的是OSWorld測(cè)試環(huán)境。這個(gè)測(cè)試要求在統(tǒng)一的計(jì)算機(jī)環(huán)境中處理跨越網(wǎng)頁(yè)、桌面軟件和操作系統(tǒng)層面的復(fù)雜任務(wù)。盡管AGUVIS僅在網(wǎng)頁(yè)和手機(jī)數(shù)據(jù)上訓(xùn)練,但它在桌面GUI任務(wù)上仍然表現(xiàn)出色,成功率達(dá)到10.26%,證明了其強(qiáng)大的泛化能力。

這種泛化能力的根源在于AGUVIS學(xué)到了界面交互的基本原理,而不是簡(jiǎn)單的模式匹配。就像一個(gè)經(jīng)驗(yàn)豐富的用戶面對(duì)新軟件時(shí),能夠憑借對(duì)通用界面設(shè)計(jì)規(guī)律的理解快速上手一樣,AGUVIS也具備了這種抽象理解能力。

研究團(tuán)隊(duì)還發(fā)現(xiàn),AGUVIS在處理界面變化時(shí)表現(xiàn)出了良好的魯棒性。當(dāng)網(wǎng)頁(yè)布局發(fā)生微調(diào)或應(yīng)用界面更新時(shí),它能夠基于視覺(jué)相似性和功能邏輯找到對(duì)應(yīng)的操作目標(biāo),不會(huì)因?yàn)榧?xì)微變化而完全失效。

這種真實(shí)世界適應(yīng)能力為AGUVIS的實(shí)際應(yīng)用奠定了基礎(chǔ)。它不僅是一個(gè)實(shí)驗(yàn)室演示系統(tǒng),而是具備了處理真實(shí)復(fù)雜環(huán)境的實(shí)用價(jià)值。

**十、技術(shù)創(chuàng)新的深遠(yuǎn)影響**

AGUVIS的技術(shù)突破不僅僅是性能指標(biāo)的提升,更代表了GUI自動(dòng)化領(lǐng)域的范式轉(zhuǎn)換。這種變化的影響將遠(yuǎn)遠(yuǎn)超出學(xué)術(shù)研究范圍,可能重新定義人機(jī)交互的未來(lái)形態(tài)。

從技術(shù)角度來(lái)看,AGUVIS證明了純視覺(jué)方法在GUI操作上的可行性和優(yōu)越性。這打破了長(zhǎng)期以來(lái)認(rèn)為必須依賴結(jié)構(gòu)化代碼信息才能準(zhǔn)確操作界面的固有觀念。這種范式轉(zhuǎn)換類似于從符號(hào)推理到神經(jīng)網(wǎng)絡(luò)的人工智能發(fā)展歷程,代表了思維方式的根本性轉(zhuǎn)變。

AGUVIS的開(kāi)源特性具有特別重要的意義。不同于那些依賴閉源商業(yè)模型的解決方案,AGUVIS為整個(gè)研究社區(qū)提供了一個(gè)開(kāi)放的基礎(chǔ)平臺(tái)。這意味著世界各地的研究者都可以在此基礎(chǔ)上進(jìn)行創(chuàng)新和改進(jìn),加速整個(gè)領(lǐng)域的發(fā)展進(jìn)程。

從實(shí)用價(jià)值角度,AGUVIS的統(tǒng)一操作能力為構(gòu)建真正通用的數(shù)字助手鋪平了道路。未來(lái)的AI助手將不再需要為每個(gè)新應(yīng)用單獨(dú)開(kāi)發(fā)適配程序,而是像人類用戶一樣,憑借視覺(jué)理解和操作經(jīng)驗(yàn)快速適應(yīng)各種新環(huán)境。

這項(xiàng)技術(shù)還可能推動(dòng)無(wú)障礙技術(shù)的發(fā)展。對(duì)于視力或行動(dòng)不便的用戶,AGUVIS類型的系統(tǒng)可能成為他們與數(shù)字世界交互的重要橋梁,幫助他們更便利地使用各種軟件和服務(wù)。

從經(jīng)濟(jì)效益角度,AGUVIS展示的效率優(yōu)勢(shì)具有重要的商業(yè)價(jià)值。其處理成本比傳統(tǒng)方法降低93%的優(yōu)勢(shì),為大規(guī)模部署自動(dòng)化服務(wù)提供了經(jīng)濟(jì)可行性。這可能催生新的商業(yè)模式和服務(wù)形態(tài)。

不過(guò),這種技術(shù)進(jìn)步也帶來(lái)了需要關(guān)注的挑戰(zhàn)。研究團(tuán)隊(duì)明確指出了安全性考量的重要性,強(qiáng)調(diào)需要確保AI助手不會(huì)執(zhí)行有害操作。這要求在技術(shù)發(fā)展的同時(shí)建立相應(yīng)的安全機(jī)制和倫理規(guī)范。

說(shuō)到底,AGUVIS不僅是一個(gè)技術(shù)解決方案,更是向著更自然、更智能的人機(jī)交互未來(lái)邁出的重要一步。它讓我們看到了AI助手真正像人類一樣"看懂"和操作數(shù)字界面的可能性,為構(gòu)建更加智能和便利的數(shù)字生活環(huán)境奠定了基礎(chǔ)。這項(xiàng)研究的開(kāi)源發(fā)布,更是為全球研究者提供了寶貴的資源和啟發(fā),有望推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。

未來(lái),當(dāng)我們與各種數(shù)字設(shè)備和應(yīng)用程序交互時(shí),可能不再需要學(xué)習(xí)復(fù)雜的操作指令或適應(yīng)不同的界面設(shè)計(jì),而是可以簡(jiǎn)單地告訴AI助手我們想要完成什么任務(wù),就像與一個(gè)聰明的人類助理交流一樣自然便利。這種愿景正在通過(guò)AGUVIS這樣的技術(shù)突破逐步變?yōu)楝F(xiàn)實(shí)。

Q&A

Q1:AGUVIS相比傳統(tǒng)AI助手有什么優(yōu)勢(shì)?

A:AGUVIS最大的優(yōu)勢(shì)是采用純視覺(jué)操作,完全像人類一樣通過(guò)觀察屏幕圖像來(lái)操作設(shè)備,不需要復(fù)雜的代碼翻譯。傳統(tǒng)AI助手就像需要翻譯員的外國(guó)游客,每換一個(gè)應(yīng)用都需要重新編寫適配程序,而AGUVIS就像一個(gè)經(jīng)驗(yàn)豐富的多語(yǔ)言服務(wù)員,能夠快速適應(yīng)各種新環(huán)境。處理效率比傳統(tǒng)方法提高了70%,成本降低了93%。

Q2:AGUVIS的內(nèi)在思維機(jī)制是怎么工作的?

A:AGUVIS具備類似人類的內(nèi)在思考能力,在執(zhí)行操作前會(huì)進(jìn)行詳細(xì)分析。比如預(yù)訂機(jī)票任務(wù)時(shí),它會(huì)先思考"需要設(shè)定出發(fā)地,然后點(diǎn)擊目的地輸入框",再執(zhí)行具體操作。這種思維過(guò)程讓它能夠處理復(fù)雜的多步驟任務(wù),成功率比傳統(tǒng)直接操作方法顯著提高,特別是在需要規(guī)劃和推理的復(fù)雜場(chǎng)景中表現(xiàn)更加智能可靠。

Q3:普通用戶什么時(shí)候能使用到AGUVIS技術(shù)?

A:AGUVIS已經(jīng)完全開(kāi)源,研究團(tuán)隊(duì)公開(kāi)了所有數(shù)據(jù)集、模型和訓(xùn)練方法,全球開(kāi)發(fā)者都可以基于此技術(shù)進(jìn)行應(yīng)用開(kāi)發(fā)。雖然目前還主要是研究階段的成果,但其開(kāi)源特性意味著技術(shù)普及速度會(huì)很快。預(yù)計(jì)不久的將來(lái),我們就能看到基于AGUVIS技術(shù)的實(shí)際產(chǎn)品,讓普通用戶享受到更智能、更便利的AI助手服務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
山東省人大兩名廳官,同日被官宣落馬

山東省人大兩名廳官,同日被官宣落馬

中國(guó)青年報(bào)
2026-03-14 15:37:05
410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開(kāi)房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
被網(wǎng)友的“防塵大法”驚到了,打開(kāi)思路后,家里一塵不染

被網(wǎng)友的“防塵大法”驚到了,打開(kāi)思路后,家里一塵不染

美家指南
2026-03-13 15:24:18
伊朗女足主帥公布全隊(duì)不唱國(guó)歌原因!批國(guó)內(nèi)施壓:不然球員不會(huì)逃

伊朗女足主帥公布全隊(duì)不唱國(guó)歌原因!批國(guó)內(nèi)施壓:不然球員不會(huì)逃

風(fēng)過(guò)鄉(xiāng)
2026-03-14 07:13:52
突發(fā)公告!董事長(zhǎng)葉文光、總經(jīng)理陳凱,全被立案

突發(fā)公告!董事長(zhǎng)葉文光、總經(jīng)理陳凱,全被立案

新浪財(cái)經(jīng)
2026-03-14 11:08:41
文壇突發(fā)地震!40位作家身陷抄襲風(fēng)波,賈平凹蔣方舟等多人被牽連

文壇突發(fā)地震!40位作家身陷抄襲風(fēng)波,賈平凹蔣方舟等多人被牽連

影像溫度
2026-03-13 15:58:02
日本懵了:導(dǎo)彈剛瞄向中國(guó),就收到美國(guó)“戰(zhàn)書”,特朗普訪華有變

日本懵了:導(dǎo)彈剛瞄向中國(guó),就收到美國(guó)“戰(zhàn)書”,特朗普訪華有變

林子說(shuō)事
2026-03-12 20:11:19
美國(guó)化肥告急,“看看人家中國(guó)”

美國(guó)化肥告急,“看看人家中國(guó)”

觀察者網(wǎng)
2026-03-14 12:16:03
春麗的大腿被削弱了?職業(yè)選手:肌肉少了三分之一

春麗的大腿被削弱了?職業(yè)選手:肌肉少了三分之一

游民星空
2026-03-13 16:06:26
王毅:中方贊賞荷蘭新政府釋放的“積極信號(hào)”

王毅:中方贊賞荷蘭新政府釋放的“積極信號(hào)”

財(cái)聞
2026-03-13 23:35:56
國(guó)家隊(duì)收手了,三大利空壓頂,下周股市要當(dāng)心

國(guó)家隊(duì)收手了,三大利空壓頂,下周股市要當(dāng)心

慧眼看世界哈哈
2026-03-14 16:41:58
心梗去世的人越來(lái)越多?專家提醒:沒(méi)事寧可做家務(wù),也別做這8事

心梗去世的人越來(lái)越多?專家提醒:沒(méi)事寧可做家務(wù),也別做這8事

敘說(shuō)醫(yī)療健康
2026-03-12 22:00:05
太善良!王藝迪4比3險(xiǎn)勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

太善良!王藝迪4比3險(xiǎn)勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

鳳幻洋
2026-03-14 14:30:08
繃不住了!追覓手機(jī)“造出來(lái)了”,但看了真機(jī)直接傻眼了!

繃不住了!追覓手機(jī)“造出來(lái)了”,但看了真機(jī)直接傻眼了!

熱點(diǎn)科技
2026-03-13 13:41:47
萊納德28分快船擊敗公牛收獲4連勝,吉迪20分11板10助

萊納德28分快船擊敗公牛收獲4連勝,吉迪20分11板10助

湖人崛起
2026-03-14 12:50:52
5億造的雷神山,如今每年2500萬(wàn)的溢出,80人晝夜守的到底是什么

5億造的雷神山,如今每年2500萬(wàn)的溢出,80人晝夜守的到底是什么

娛樂(lè)圈見(jiàn)解說(shuō)
2026-03-14 04:13:56
伊朗導(dǎo)彈7射6中,以色列0預(yù)警,傷亡慘重

伊朗導(dǎo)彈7射6中,以色列0預(yù)警,傷亡慘重

世家寶
2026-03-12 12:55:28
楊瀚森狂砍47分21板,只換來(lái)48秒0+0+0,惡心誰(shuí)呢?

楊瀚森狂砍47分21板,只換來(lái)48秒0+0+0,惡心誰(shuí)呢?

貴圈真亂
2026-03-14 13:19:22
法比奧:球隊(duì)展現(xiàn)出血性和斗志,對(duì)申花望球迷來(lái)工體支持我們

法比奧:球隊(duì)展現(xiàn)出血性和斗志,對(duì)申花望球迷來(lái)工體支持我們

懂球帝
2026-03-14 19:42:38
哈梅內(nèi)伊之子兩次遇襲受傷,德黑蘭電視信號(hào)被炸斷

哈梅內(nèi)伊之子兩次遇襲受傷,德黑蘭電視信號(hào)被炸斷

桂系007
2026-03-13 23:58:18
2026-03-14 21:35:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂(lè)要聞

張藝興,犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

本地
數(shù)碼
手機(jī)
公開(kāi)課
軍事航空

本地新聞

坐標(biāo)北京,過(guò)敏季反向遷徒

數(shù)碼要聞

老外擴(kuò)容成功!蘋果MacBook Neo升級(jí)1TB 果粉調(diào)侃:全新僅大修

手機(jī)要聞

華為新機(jī)三箭齊發(fā):暢享90系列、Pura X2、Pura 90,均迎大變化!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版