国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

StepFun團隊首創(chuàng)圖像生成模型的"虛擬GUI環(huán)境"評測基準(zhǔn)

0
分享至


這項由StepFun領(lǐng)導(dǎo)、聯(lián)合南華理工大學(xué)、北京大學(xué)、清華大學(xué)等多家機構(gòu)的研究發(fā)表于2026年2月的arXiv預(yù)印本論文arXiv:2602.09007v1,為那些對這一前沿技術(shù)感興趣的讀者提供了完整的研究細節(jié)。

當(dāng)我們在手機上輕點一個應(yīng)用圖標(biāo),屏幕會立刻切換到相應(yīng)的界面,這種看似理所當(dāng)然的交互背后,其實隱藏著復(fù)雜的用戶界面邏輯?,F(xiàn)在,研究人員正在嘗試讓人工智能也能理解并模擬這種界面變化——就像讓AI成為一個能夠完美預(yù)測你下一步操作結(jié)果的數(shù)字助手。

傳統(tǒng)的圖像生成模型就像一個只會畫靜物畫的畫家,雖然能創(chuàng)造出美麗的圖像,但無法理解用戶界面中"點擊按鈕后會發(fā)生什么"這樣的交互邏輯。而最新的圖像生成技術(shù)正試圖突破這一限制,讓AI不僅能生成美觀的界面,更能像真實的操作系統(tǒng)一樣響應(yīng)用戶的每一次點擊和滑動。

想象一下,如果AI能夠完美模擬任何軟件界面的行為,那么我們就能創(chuàng)建出無窮無盡的虛擬應(yīng)用環(huán)境,用來訓(xùn)練更智能的數(shù)字助手,而不需要依賴昂貴的真實硬件和軟件。這就像擁有了一個永遠不會崩潰、永遠有新場景的超級訓(xùn)練場,專門用來教會AI如何與人類的數(shù)字世界進行交互。

然而,要評估這些AI模型是否真的理解用戶界面邏輯,我們需要一套全新的測試標(biāo)準(zhǔn)。現(xiàn)有的圖像質(zhì)量評測就像只關(guān)注一幅畫是否好看,卻不關(guān)心這幅畫是否符合物理定律。對于用戶界面來說,僅僅畫得漂亮是遠遠不夠的——它必須在功能上合理,在邏輯上連貫,在交互上自然。

一、革命性評測基準(zhǔn)的誕生:GEBench如何重新定義AI界面生成能力

研究團隊創(chuàng)建了一個名為GEBench的全新評測體系,這個體系就像為AI界面生成能力設(shè)計的"駕照考試"。與傳統(tǒng)的圖像生成評測不同,GEBench不僅要求AI生成美觀的界面,更要求它們能夠理解用戶操作背后的邏輯,就像一個合格的司機不僅要會開車,還要懂得交通規(guī)則。

這套評測體系包含了700個精心設(shè)計的測試場景,每個場景都像一道精心設(shè)計的難題,考察AI在不同情況下的界面生成能力。研究人員將這些場景分為五個不同的類別,每個類別都針對AI的特定能力進行測試,就像駕照考試中的科目一、科目二那樣各有側(cè)重。

第一類測試場景專注于單步界面轉(zhuǎn)換,就像測試AI能否準(zhǔn)確理解"點擊搜索按鈕后會出現(xiàn)搜索框"這樣的簡單操作。在這類測試中,AI需要根據(jù)給定的初始界面和具體的用戶指令,生成相應(yīng)的后續(xù)界面狀態(tài)。這聽起來簡單,但實際上要求AI不僅要理解指令的語義,還要掌握界面元素的視覺變化規(guī)律。

第二類測試更具挑戰(zhàn)性,要求AI完成多步驟的復(fù)雜任務(wù)規(guī)劃。比如,當(dāng)用戶說"我要點一杯咖啡"時,AI需要生成一系列連貫的界面變化:從主界面到菜單界面,再到商品選擇界面,最后到支付確認界面。這就像要求AI不僅會下棋,還要能提前計算好幾步棋的走法,確保整個過程邏輯連貫、合理可行。

第三類測試則更加考驗AI的創(chuàng)造力,要求它在沒有參考界面的情況下,僅根據(jù)文字描述生成全新的虛擬應(yīng)用界面。這種能力類似于建筑師僅憑客戶的需求描述就能設(shè)計出完整建筑圖紙的能力,需要AI具備對用戶界面設(shè)計原則的深度理解。

第四類測試專門針對那些在真實世界中很少出現(xiàn)的特殊交互場景,考察AI是否能夠處理異常情況或罕見的用戶操作路徑。這就像測試司機在遇到突發(fā)狀況時的應(yīng)變能力,是對AI適應(yīng)性和魯棒性的重要考驗。

最后一類測試可能是最具技術(shù)挑戰(zhàn)性的,它要求AI根據(jù)精確的坐標(biāo)點擊位置生成相應(yīng)的界面響應(yīng)。這種測試需要AI具備像人類一樣的空間感知能力,能夠準(zhǔn)確理解"在屏幕上的(938, 61)位置點擊會觸發(fā)什么反應(yīng)"。這種精確的位置感知能力是構(gòu)建可靠GUI環(huán)境的關(guān)鍵技術(shù)基礎(chǔ)。

為了確保評測的公平性和客觀性,研究團隊設(shè)計了一套名為GE-Score的五維評分體系。這個評分系統(tǒng)就像奧運會的體操評分一樣,從多個不同角度對AI的表現(xiàn)進行綜合評估,而不是簡單地給出一個總分。

第一個維度是目標(biāo)達成度,評估AI生成的界面是否真正實現(xiàn)了用戶指令的預(yù)期效果。這就像檢查一道菜是否符合食譜要求,不僅要看起來像,更要在功能上正確。第二個維度是交互邏輯性,考察界面變化是否符合現(xiàn)實世界中用戶界面的行為模式,避免出現(xiàn)"魔法傳送"式的不合理跳躍。

第三個維度關(guān)注一致性,確保在界面發(fā)生變化時,那些不應(yīng)該改變的部分保持穩(wěn)定。這就像裝修房屋時,即使重新布置了客廳,廚房和臥室也應(yīng)該保持原樣。第四個維度評估界面元素的合理性,檢查生成的按鈕、菜單、文本框等是否看起來像真實應(yīng)用中會出現(xiàn)的組件,而不是AI憑空想象出來的奇怪元素。

最后一個維度關(guān)注視覺質(zhì)量,包括文字是否清晰可讀、圖標(biāo)是否銳利自然、整體畫面是否存在明顯的人工痕跡或錯誤。這個維度雖然看起來是最基礎(chǔ)的,但在實際測試中往往成為區(qū)分不同AI模型能力的重要指標(biāo)。

二、震撼的測試結(jié)果:當(dāng)前AI模型的真實表現(xiàn)與意外短板

研究團隊對12個目前最先進的圖像生成模型進行了全面測試,其中包括8個商業(yè)模型和4個開源模型。這些模型就像參加同一場考試的不同學(xué)生,每個都有自己的優(yōu)勢和短板,而測試結(jié)果揭示了一些令人意外的發(fā)現(xiàn)。

在這場"AI界面生成能力大考"中,Google的Nano Banana Pro表現(xiàn)最為突出,在中文界面測試中獲得了69.62分的GE綜合得分。這個分數(shù)意味著什么呢?簡單來說,如果滿分代表完美的人類級別界面生成能力,那么目前最好的AI模型大概達到了70%左右的水平——已經(jīng)相當(dāng)不錯,但距離完美還有明顯差距。

緊隨其后的是OpenAI的GPT-image-1.5,在英文界面測試中表現(xiàn)優(yōu)異,獲得了63.16分。有趣的是,不同模型在處理中文和英文界面時的表現(xiàn)存在明顯差異,這反映了當(dāng)前AI技術(shù)在多語言處理方面仍存在挑戰(zhàn)。這就像有些翻譯員擅長英文但中文稍弱,有些則相反。

然而,當(dāng)我們深入分析具體的測試結(jié)果時,發(fā)現(xiàn)了一個令人擔(dān)憂的模式:幾乎所有模型在簡單的單步操作中表現(xiàn)良好,但在復(fù)雜的多步驟任務(wù)中表現(xiàn)急劇下降。比如,Nano Banana Pro在單步操作中能夠獲得84分以上的高分,但在多步驟規(guī)劃任務(wù)中分數(shù)就降到了68分左右。這種差異就像一個學(xué)生能夠輕松解決單個數(shù)學(xué)問題,但在面對需要多步推理的復(fù)雜應(yīng)用題時就顯得力不從心。

更令人驚訝的是,在需要精確坐標(biāo)定位的測試中,即使是表現(xiàn)最好的模型也只能達到23.9%的目標(biāo)達成率。這意味著當(dāng)你告訴AI"在屏幕的某個特定位置點擊"時,它只有不到四分之一的概率能正確理解并生成相應(yīng)的界面響應(yīng)。這就像一個射擊選手在近距離靶場表現(xiàn)很好,但一旦需要精確瞄準(zhǔn)遠處的小目標(biāo)時就頻頻脫靶。

開源模型的表現(xiàn)相對較弱,這并不令人意外,但差距之大仍然讓人吃驚。大部分開源模型的綜合得分都在35分以下,與商業(yè)模型形成了鮮明對比。這種差距主要體現(xiàn)在多個方面:首先是界面元素的一致性保持能力較弱,經(jīng)常出現(xiàn)不相關(guān)區(qū)域發(fā)生意外變化的問題;其次是對復(fù)雜指令的理解能力不足,容易產(chǎn)生邏輯混亂的界面變化。

為了驗證這套評測體系的可靠性,研究團隊還進行了人工評估對比實驗。他們邀請專業(yè)評估員對同樣的AI生成結(jié)果進行打分,然后與AI評估系統(tǒng)的結(jié)果進行比較。令人欣慰的是,兩者之間的相關(guān)性達到了0.9892,這個數(shù)字接近完美相關(guān),說明AI評估系統(tǒng)的判斷與人類專家高度一致。

這種高度一致性的背后是研究團隊設(shè)計的精細評分標(biāo)準(zhǔn)。他們?yōu)槊總€評測維度制定了詳細的評分準(zhǔn)則,就像奧運會體操比賽的評分細則一樣具體而明確。評估員不需要憑主觀感受打分,而是根據(jù)明確的標(biāo)準(zhǔn)檢查每個細節(jié),大大降低了評估的主觀性和隨意性。

三、AI界面生成的三大技術(shù)瓶頸:文字渲染、圖標(biāo)識別與精確定位

通過對大量測試案例的深入分析,研究團隊識別出了當(dāng)前AI界面生成技術(shù)面臨的三個核心技術(shù)障礙。這些問題就像阻擋AI達到人類水平的三座大山,每一座都需要技術(shù)突破才能翻越。

第一座大山是文字渲染問題。在我們看來理所當(dāng)然的清晰文字顯示,對AI來說竟然是一個巨大挑戰(zhàn)。研究發(fā)現(xiàn),即使是表現(xiàn)最好的商業(yè)模型,在生成包含大量文字的界面時也會出現(xiàn)字符重疊、筆畫模糊或者完全錯誤的文字內(nèi)容。這個問題在中文界面中尤其嚴重,因為中文字符的復(fù)雜結(jié)構(gòu)對AI的渲染能力提出了更高要求。

這種文字渲染問題的根本原因在于,當(dāng)前的AI模型將文字視為圖像紋理而非具有意義的符號。就像一個不識字的人試圖臨摹書法作品,雖然能夠模仿大致的形狀,但無法理解每個字符的精確結(jié)構(gòu)和組成規(guī)則。這導(dǎo)致AI在生成界面時,經(jīng)常會創(chuàng)造出看似像文字、實際上卻無法閱讀的奇怪符號組合。

第二座大山是圖標(biāo)語義理解問題。用戶界面中的圖標(biāo)不僅僅是裝飾性元素,每個圖標(biāo)都承載著特定的功能含義。比如,垃圾桶圖標(biāo)代表刪除,放大鏡圖標(biāo)代表搜索,齒輪圖標(biāo)代表設(shè)置。然而,AI模型往往無法準(zhǔn)確理解這些圖標(biāo)的語義關(guān)聯(lián),導(dǎo)致在界面狀態(tài)轉(zhuǎn)換時出現(xiàn)邏輯錯誤。

研究人員發(fā)現(xiàn)了一個有趣的現(xiàn)象:AI能夠生成視覺上非常逼真的圖標(biāo),但這些圖標(biāo)的功能表現(xiàn)卻可能完全錯誤。比如,當(dāng)用戶點擊搜索圖標(biāo)時,AI可能生成一個看起來很專業(yè)的搜索界面,但搜索框的位置、搜索結(jié)果的布局或者相關(guān)按鈕的功能都可能是錯誤的。這就像一個演員能夠完美模仿另一個人的外表,但卻不理解這個人的性格和行為模式。

更嚴重的是,在多步驟交互過程中,圖標(biāo)的語義混亂會產(chǎn)生累積效應(yīng)。第一步的小錯誤會在后續(xù)步驟中被放大,最終導(dǎo)致整個交互流程偏離預(yù)期軌道。這種"蝴蝶效應(yīng)"使得AI在處理復(fù)雜任務(wù)時顯得特別脆弱,就像一個導(dǎo)航系統(tǒng)在第一個轉(zhuǎn)彎處出現(xiàn)偏差后,越走越偏離正確路線。

第三座大山是精確空間定位問題。當(dāng)研究人員告訴AI"在坐標(biāo)(938, 61)的位置點擊"時,AI需要準(zhǔn)確理解這個數(shù)字坐標(biāo)對應(yīng)屏幕上的哪個具體元素,并生成相應(yīng)的響應(yīng)效果。然而,測試結(jié)果顯示,即使是最先進的模型在這方面的成功率也低得驚人。

這個問題反映了AI在抽象坐標(biāo)系統(tǒng)與具體視覺元素之間建立映射關(guān)系的能力不足。人類能夠輕松地將"點擊右上角"這樣的描述轉(zhuǎn)換為精確的操作,但AI卻需要進行復(fù)雜的數(shù)學(xué)計算來理解坐標(biāo)與界面元素的對應(yīng)關(guān)系。更困難的是,不同設(shè)備的屏幕尺寸和分辨率不同,同樣的坐標(biāo)在不同設(shè)備上可能對應(yīng)完全不同的界面元素。

研究團隊通過對比分析發(fā)現(xiàn),這些空間定位錯誤往往表現(xiàn)為"近似正確但不夠精確"的模式。AI能夠大致理解用戶想要點擊的區(qū)域,但在確定具體的目標(biāo)元素時會出現(xiàn)偏差。這就像一個射箭手能夠射中靶子,但總是偏離靶心幾厘米的距離——看起來很接近,但在需要精確操作的場景下就顯得不夠可靠。

四、視覺美觀與功能實用的微妙平衡:AI面臨的核心挑戰(zhàn)

在深入分析測試結(jié)果的過程中,研究團隊發(fā)現(xiàn)了一個特別有趣的現(xiàn)象:那些在視覺質(zhì)量方面表現(xiàn)出色的AI模型,在功能邏輯方面的表現(xiàn)卻不一定同樣優(yōu)秀。這種現(xiàn)象揭示了AI界面生成技術(shù)面臨的一個根本性挑戰(zhàn)——如何在創(chuàng)造美觀界面和確保功能正確之間找到完美平衡。

這種矛盾現(xiàn)象可以用一個簡單的比喻來理解:就像一個非常有藝術(shù)天賦的設(shè)計師能夠創(chuàng)作出令人驚艷的海報,但這并不意味著他能夠設(shè)計出功能完善的汽車儀表盤。美觀和實用是兩個不同的評判標(biāo)準(zhǔn),需要不同類型的技能和理解能力。

研究人員通過詳細的案例分析發(fā)現(xiàn),某些模型生成的界面在視覺上非常精美,色彩搭配協(xié)調(diào),布局合理,文字和圖標(biāo)都很清晰。然而,當(dāng)仔細檢查這些界面的功能邏輯時,卻發(fā)現(xiàn)了許多問題:比如出現(xiàn)了現(xiàn)實中不存在的按鈕組合,或者某些交互元素的行為違反了用戶界面設(shè)計的基本原則。

這種"視覺過度優(yōu)化"問題的根源在于,當(dāng)前的AI訓(xùn)練方式更重視圖像的美觀程度,而對功能邏輯的關(guān)注相對較少。就像訓(xùn)練一個畫家時,如果只強調(diào)畫面要好看,而不教授解剖學(xué)和物理學(xué)原理,那么畫出來的人物可能很美,但在結(jié)構(gòu)上可能存在不合理之處。

另一方面,一些在功能邏輯方面表現(xiàn)較好的模型,其生成的界面在視覺質(zhì)量上卻有明顯不足。這些界面雖然在交互邏輯上基本正確,但可能存在色彩搭配不協(xié)調(diào)、布局不夠精美或者細節(jié)處理粗糙等問題。這就像一個工程師設(shè)計的產(chǎn)品功能很完善,但外觀設(shè)計卻不夠吸引人。

研究團隊還發(fā)現(xiàn)了一個更深層的問題:即使是那些在簡單場景下能夠很好平衡美觀和實用的模型,在面對復(fù)雜的多步驟任務(wù)時,這種平衡往往會被打破。隨著交互步驟的增加,AI模型維持界面一致性和邏輯連貫性的能力會逐漸下降,就像一個雜技演員能夠輕松地同時拋接三個球,但當(dāng)球的數(shù)量增加到七八個時就開始出現(xiàn)失誤。

這種現(xiàn)象在時間一致性方面表現(xiàn)得特別明顯。在單個界面生成中表現(xiàn)優(yōu)秀的模型,在生成一系列相關(guān)界面時經(jīng)常會出現(xiàn)風(fēng)格突變、元素位置飄移或者色彩體系混亂等問題。這些看似微小的不一致性會嚴重影響用戶體驗,就像看電影時演員的服裝在不同鏡頭間莫名其妙地發(fā)生變化。

為了解決這個平衡問題,研究團隊提出了一個重要觀點:評估AI界面生成能力時,不能僅僅關(guān)注單一維度的表現(xiàn),而必須建立多維度的綜合評價體系。這就像評估一個城市的宜居性,不能只看經(jīng)濟發(fā)展水平,還要考慮環(huán)境質(zhì)量、交通便利性、教育資源等多個因素。

五、突破之路:未來AI界面生成技術(shù)的發(fā)展方向

基于這次全面評測的結(jié)果,研究團隊為未來的AI界面生成技術(shù)發(fā)展描繪了一張清晰的路線圖。這些發(fā)展方向就像指向山頂?shù)亩鄺l登山路徑,每一條都有其獨特的挑戰(zhàn)和機遇。

在文字渲染技術(shù)改進方面,研究團隊建議開發(fā)專門的文字感知模塊,讓AI能夠像理解圖像一樣理解文字的結(jié)構(gòu)和意義。這種模塊不僅要能夠識別文字的視覺形態(tài),更要理解文字的語義內(nèi)容和排版規(guī)則。就像教會AI不僅要知道"A"這個字母長什么樣,還要明白它在不同語境中的含義和正確的使用方式。

具體的技術(shù)路徑包括開發(fā)基于矢量圖形的文字渲染系統(tǒng),這樣AI生成的文字就不會因為像素化而變得模糊不清。同時,需要建立大規(guī)模的多語言字體數(shù)據(jù)庫,讓AI學(xué)習(xí)不同語言文字的正確渲染方式。這個過程就像為AI建立一個超級圖書館,里面收錄了世界上所有語言的標(biāo)準(zhǔn)字體樣本。

在圖標(biāo)語義理解方面,研究團隊提出了構(gòu)建"圖標(biāo)-功能"知識圖譜的建議。這個知識圖譜就像一本詳細的圖標(biāo)詞典,記錄了每個圖標(biāo)設(shè)計與其對應(yīng)功能之間的關(guān)聯(lián)關(guān)系。通過學(xué)習(xí)這個知識圖譜,AI就能夠理解為什么垃圾桶圖標(biāo)代表刪除,為什么箭頭圖標(biāo)通常表示方向或者操作流程。

更重要的是,這個知識圖譜還需要包含不同文化背景下圖標(biāo)含義的差異。比如,某些在西方文化中常見的圖標(biāo)設(shè)計,在東方文化中可能有不同的理解方式。讓AI掌握這些文化差異,就像培養(yǎng)一個具有國際視野的設(shè)計師,能夠為不同地區(qū)的用戶提供合適的界面設(shè)計。

在精確空間定位技術(shù)方面,研究團隊建議開發(fā)基于幾何推理的坐標(biāo)理解系統(tǒng)。這個系統(tǒng)不是簡單地記憶坐標(biāo)與界面元素的對應(yīng)關(guān)系,而是要理解屏幕空間的幾何結(jié)構(gòu)和元素布局的邏輯規(guī)律。就像教會AI不僅要知道"客廳的沙發(fā)在坐標(biāo)(3,4)",更要理解整個房間的布局邏輯和空間關(guān)系。

這種幾何推理能力的培養(yǎng)需要大量的多分辨率、多設(shè)備類型的訓(xùn)練數(shù)據(jù)。AI需要學(xué)習(xí)同一個界面在不同屏幕尺寸下的適配規(guī)律,理解響應(yīng)式設(shè)計的基本原理。這個過程就像訓(xùn)練一個建筑師,不僅要會設(shè)計房子,還要知道如何根據(jù)不同的地形條件調(diào)整設(shè)計方案。

對于多步驟任務(wù)處理能力的提升,研究團隊提出了分層規(guī)劃架構(gòu)的設(shè)想。這種架構(gòu)將復(fù)雜任務(wù)分解為多個相互關(guān)聯(lián)的子任務(wù),每個子任務(wù)都有明確的輸入、輸出和成功標(biāo)準(zhǔn)。就像組織一次復(fù)雜的活動,需要有總體規(guī)劃、詳細執(zhí)行方案和各個環(huán)節(jié)的協(xié)調(diào)機制。

在這種架構(gòu)下,AI首先需要理解用戶的總體目標(biāo),然后制定詳細的執(zhí)行計劃,最后在每個步驟中檢查執(zhí)行結(jié)果是否符合預(yù)期。如果發(fā)現(xiàn)偏差,系統(tǒng)能夠及時調(diào)整后續(xù)步驟,避免錯誤的累積放大。這就像一個有經(jīng)驗的項目經(jīng)理,不僅會制定周密的計劃,還能在執(zhí)行過程中靈活應(yīng)對各種突發(fā)情況。

研究團隊還強調(diào)了建立更好的評測基準(zhǔn)的重要性。他們認為,當(dāng)前的GEBench只是一個開始,未來還需要開發(fā)更多針對特定應(yīng)用場景的專業(yè)評測工具。比如,針對移動應(yīng)用界面的評測標(biāo)準(zhǔn)應(yīng)該與桌面應(yīng)用不同,游戲界面的評測重點又應(yīng)該與辦公軟件不同。

這種多樣化的評測體系建設(shè)就像為不同類型的運動員設(shè)計不同的訓(xùn)練和評估方案。游泳運動員和長跑運動員雖然都是運動員,但評估他們能力的標(biāo)準(zhǔn)應(yīng)該截然不同。同樣,用于聊天軟件的AI界面生成能力和用于專業(yè)設(shè)計工具的AI能力也應(yīng)該用不同的標(biāo)準(zhǔn)來衡量。

說到底,這項研究最重要的貢獻不僅在于揭示了當(dāng)前AI技術(shù)的不足,更在于為未來的技術(shù)發(fā)展指明了明確的方向。就像第一次登山失敗的探險隊為后來者繪制了詳細的地形圖,標(biāo)明了哪些路徑可行、哪些地方有危險,這些寶貴的經(jīng)驗將幫助后續(xù)的研究者更有效地攻克技術(shù)難題。

當(dāng)AI真正掌握了這些界面生成能力后,我們將看到數(shù)字交互方式的根本性變革。到那時,AI助手不再是簡單的問答機器,而是真正理解人機交互邏輯的智能伙伴,能夠幫助我們更高效、更自然地與數(shù)字世界進行交流。這個未來可能比我們想象的更近,也可能需要更多的技術(shù)突破,但這次研究為我們提供了清晰的路標(biāo)和前進方向。

對于那些對這一技術(shù)發(fā)展感興趣的讀者,可以通過論文編號arXiv:2602.09007v1獲取完整的研究細節(jié),深入了解這項開創(chuàng)性工作的具體技術(shù)方案和實驗結(jié)果。

Q&A

Q1:GEBench是什么?

A:GEBench是StepFun團隊開發(fā)的全新AI評測體系,專門用來測試圖像生成模型能否像真實操作系統(tǒng)一樣響應(yīng)用戶界面操作。它包含700個測試場景,從五個不同角度評估AI的界面生成能力,就像給AI設(shè)計的"駕照考試"。

Q2:為什么現(xiàn)有的圖像評測標(biāo)準(zhǔn)不適用于界面生成?

A:傳統(tǒng)的圖像評測只關(guān)注畫面是否好看,就像只判斷一幅畫是否美觀。但界面生成不僅要好看,更要在功能上合理、邏輯上連貫。比如點擊搜索按鈕后必須出現(xiàn)搜索框,而不是隨機的美麗圖案。

Q3:當(dāng)前最好的AI模型在界面生成方面表現(xiàn)如何?

A:目前表現(xiàn)最好的Google Nano Banana Pro在綜合測試中獲得約70%的分數(shù),說明已經(jīng)相當(dāng)不錯但距離完美還有差距。特別是在復(fù)雜的多步操作和精確定位方面,所有模型都表現(xiàn)不佳,成功率往往低于25%。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

《妻子的浪漫旅行8》錄制路透,金莎孫丞瀟牽手,秦昊伊能靜撒糖

章眽八卦
2026-03-14 19:34:29
今年春季,事業(yè)像開掛一樣飆升的三個星座,升職加薪只是開始

今年春季,事業(yè)像開掛一樣飆升的三個星座,升職加薪只是開始

小晴星座說
2026-03-14 19:34:17
同濟醫(yī)院核磁共振事故:患者不能自己脫困嗎

同濟醫(yī)院核磁共振事故:患者不能自己脫困嗎

金牌娛樂
2026-03-14 09:31:27
宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

宮魯鳴若下課,女籃新帥3選1,王治郅在列,57歲名宿解禁成熱門

萌蘭聊個球
2026-03-14 14:44:40
陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

陳立夫:從高官到雞農(nóng),58歲患糖尿病,活102歲的長壽秘訣是什么

林雁飛
2026-03-06 14:35:14
哈馬斯呼吁伊朗不要將襲擊目標(biāo)對準(zhǔn)鄰國

哈馬斯呼吁伊朗不要將襲擊目標(biāo)對準(zhǔn)鄰國

新華社
2026-03-14 18:14:07
擊落美軍加油機?B-1B轟炸機對伊朗扔炸彈,以色列財長之子受重傷

擊落美軍加油機?B-1B轟炸機對伊朗扔炸彈,以色列財長之子受重傷

鷹眼Defence
2026-03-13 17:40:40
1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會無期

1944年,宋氏三姐妹拍了最后一張照片后,天各一方,相會無期

浩渺青史
2026-03-13 19:38:07
比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

瀾歸序
2026-03-14 04:18:00
她果然沒離,畢竟400億資產(chǎn)的男人也不多??!

BenSir本色說
2026-03-11 22:06:22

貴州茅臺董秘蔣焰嚴重違紀(jì)違法被留置 此前已被“帶走”

貴州茅臺董秘蔣焰嚴重違紀(jì)違法被留置 此前已被“帶走”

21世紀(jì)經(jīng)濟報道
2026-03-13 21:14:12
伊朗最大的內(nèi)鬼被處決了

伊朗最大的內(nèi)鬼被處決了

犀利辣椒
2026-03-13 06:40:38
8次搶斷,劉洋刷新山東泰山隊史球員中超單場搶斷紀(jì)錄

8次搶斷,劉洋刷新山東泰山隊史球員中超單場搶斷紀(jì)錄

懂球帝
2026-03-14 18:17:53
廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

廣東男籃本賽季消失的“七位故人”!他們都在哪?過的還好嗎?

男足的小球童
2026-03-14 19:37:29
1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

1萬5起價 蘋果iPhone Fold計劃銷量上調(diào)20%

PChome電腦之家
2026-03-13 11:21:45
新版《呼嘯山莊》“一刀未剪”,海報標(biāo)注“未成年人謹慎觀看”

新版《呼嘯山莊》“一刀未剪”,海報標(biāo)注“未成年人謹慎觀看”

韓小娛
2026-03-14 07:31:32
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

燦若銀爛
2026-02-27 20:11:39
太善良!王藝迪4比3險勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

太善良!王藝迪4比3險勝申裕斌,接受采訪擔(dān)心申裕斌是不是受傷

鳳幻洋
2026-03-14 14:30:08
中國女足艱難晉級!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

中國女足艱難晉級!媒體人熱議:衛(wèi)冕提前結(jié)束,米帥注定是恥辱

奧拜爾
2026-03-14 15:48:55
西部排名又變了:火箭超越湖人,快船高歌猛進,勇士岌岌可危

西部排名又變了:火箭超越湖人,快船高歌猛進,勇士岌岌可危

籃球大視野
2026-03-14 17:26:40
2026-03-14 20:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7585文章數(shù) 555關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

頭條要聞

霍爾木茲海峽上周末僅4艘船通過 繞行要多走5500公里

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

數(shù)碼
家居
游戲
手機
公開課

數(shù)碼要聞

399 元 2TB!長江存儲致態(tài) TiPlus7200 殺瘋,7200MB/s 封神

家居要聞

藝術(shù)之家 法式優(yōu)雅

《GTA》歷代開發(fā)成本對比:25年來暴增上百倍!

手機要聞

華為新機三箭齊發(fā):暢享90系列、Pura X2、Pura 90,均迎大變化!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版