StepFun團隊首創(chuàng)圖像生成模型的"虛擬GUI環(huán)境"評測基準(zhǔn)

2026-03-13 15:51:29　來源: 科技行者

北京舉報

分享至

這項由StepFun領(lǐng)導(dǎo)、聯(lián)合南華理工大學(xué)、北京大學(xué)、清華大學(xué)等多家機構(gòu)的研究發(fā)表于2026年2月的arXiv預(yù)印本論文arXiv:2602.09007v1，為那些對這一前沿技術(shù)感興趣的讀者提供了完整的研究細節(jié)。

當(dāng)我們在手機上輕點一個應(yīng)用圖標(biāo)，屏幕會立刻切換到相應(yīng)的界面，這種看似理所當(dāng)然的交互背后，其實隱藏著復(fù)雜的用戶界面邏輯?，F(xiàn)在，研究人員正在嘗試讓人工智能也能理解并模擬這種界面變化——就像讓AI成為一個能夠完美預(yù)測你下一步操作結(jié)果的數(shù)字助手。

傳統(tǒng)的圖像生成模型就像一個只會畫靜物畫的畫家，雖然能創(chuàng)造出美麗的圖像，但無法理解用戶界面中"點擊按鈕后會發(fā)生什么"這樣的交互邏輯。而最新的圖像生成技術(shù)正試圖突破這一限制，讓AI不僅能生成美觀的界面，更能像真實的操作系統(tǒng)一樣響應(yīng)用戶的每一次點擊和滑動。

想象一下，如果AI能夠完美模擬任何軟件界面的行為，那么我們就能創(chuàng)建出無窮無盡的虛擬應(yīng)用環(huán)境，用來訓(xùn)練更智能的數(shù)字助手，而不需要依賴昂貴的真實硬件和軟件。這就像擁有了一個永遠不會崩潰、永遠有新場景的超級訓(xùn)練場，專門用來教會AI如何與人類的數(shù)字世界進行交互。

然而，要評估這些AI模型是否真的理解用戶界面邏輯，我們需要一套全新的測試標(biāo)準(zhǔn)。現(xiàn)有的圖像質(zhì)量評測就像只關(guān)注一幅畫是否好看，卻不關(guān)心這幅畫是否符合物理定律。對于用戶界面來說，僅僅畫得漂亮是遠遠不夠的——它必須在功能上合理，在邏輯上連貫，在交互上自然。

一、革命性評測基準(zhǔn)的誕生：GEBench如何重新定義AI界面生成能力

研究團隊創(chuàng)建了一個名為GEBench的全新評測體系，這個體系就像為AI界面生成能力設(shè)計的"駕照考試"。與傳統(tǒng)的圖像生成評測不同，GEBench不僅要求AI生成美觀的界面，更要求它們能夠理解用戶操作背后的邏輯，就像一個合格的司機不僅要會開車，還要懂得交通規(guī)則。

這套評測體系包含了700個精心設(shè)計的測試場景，每個場景都像一道精心設(shè)計的難題，考察AI在不同情況下的界面生成能力。研究人員將這些場景分為五個不同的類別，每個類別都針對AI的特定能力進行測試，就像駕照考試中的科目一、科目二那樣各有側(cè)重。

第一類測試場景專注于單步界面轉(zhuǎn)換，就像測試AI能否準(zhǔn)確理解"點擊搜索按鈕后會出現(xiàn)搜索框"這樣的簡單操作。在這類測試中，AI需要根據(jù)給定的初始界面和具體的用戶指令，生成相應(yīng)的后續(xù)界面狀態(tài)。這聽起來簡單，但實際上要求AI不僅要理解指令的語義，還要掌握界面元素的視覺變化規(guī)律。

第二類測試更具挑戰(zhàn)性，要求AI完成多步驟的復(fù)雜任務(wù)規(guī)劃。比如，當(dāng)用戶說"我要點一杯咖啡"時，AI需要生成一系列連貫的界面變化：從主界面到菜單界面，再到商品選擇界面，最后到支付確認界面。這就像要求AI不僅會下棋，還要能提前計算好幾步棋的走法，確保整個過程邏輯連貫、合理可行。

第三類測試則更加考驗AI的創(chuàng)造力，要求它在沒有參考界面的情況下，僅根據(jù)文字描述生成全新的虛擬應(yīng)用界面。這種能力類似于建筑師僅憑客戶的需求描述就能設(shè)計出完整建筑圖紙的能力，需要AI具備對用戶界面設(shè)計原則的深度理解。

第四類測試專門針對那些在真實世界中很少出現(xiàn)的特殊交互場景，考察AI是否能夠處理異常情況或罕見的用戶操作路徑。這就像測試司機在遇到突發(fā)狀況時的應(yīng)變能力，是對AI適應(yīng)性和魯棒性的重要考驗。

最后一類測試可能是最具技術(shù)挑戰(zhàn)性的，它要求AI根據(jù)精確的坐標(biāo)點擊位置生成相應(yīng)的界面響應(yīng)。這種測試需要AI具備像人類一樣的空間感知能力，能夠準(zhǔn)確理解"在屏幕上的(938, 61)位置點擊會觸發(fā)什么反應(yīng)"。這種精確的位置感知能力是構(gòu)建可靠GUI環(huán)境的關(guān)鍵技術(shù)基礎(chǔ)。

為了確保評測的公平性和客觀性，研究團隊設(shè)計了一套名為GE-Score的五維評分體系。這個評分系統(tǒng)就像奧運會的體操評分一樣，從多個不同角度對AI的表現(xiàn)進行綜合評估，而不是簡單地給出一個總分。

第一個維度是目標(biāo)達成度，評估AI生成的界面是否真正實現(xiàn)了用戶指令的預(yù)期效果。這就像檢查一道菜是否符合食譜要求，不僅要看起來像，更要在功能上正確。第二個維度是交互邏輯性，考察界面變化是否符合現(xiàn)實世界中用戶界面的行為模式，避免出現(xiàn)"魔法傳送"式的不合理跳躍。

第三個維度關(guān)注一致性，確保在界面發(fā)生變化時，那些不應(yīng)該改變的部分保持穩(wěn)定。這就像裝修房屋時，即使重新布置了客廳，廚房和臥室也應(yīng)該保持原樣。第四個維度評估界面元素的合理性，檢查生成的按鈕、菜單、文本框等是否看起來像真實應(yīng)用中會出現(xiàn)的組件，而不是AI憑空想象出來的奇怪元素。

最后一個維度關(guān)注視覺質(zhì)量，包括文字是否清晰可讀、圖標(biāo)是否銳利自然、整體畫面是否存在明顯的人工痕跡或錯誤。這個維度雖然看起來是最基礎(chǔ)的，但在實際測試中往往成為區(qū)分不同AI模型能力的重要指標(biāo)。

二、震撼的測試結(jié)果：當(dāng)前AI模型的真實表現(xiàn)與意外短板

研究團隊對12個目前最先進的圖像生成模型進行了全面測試，其中包括8個商業(yè)模型和4個開源模型。這些模型就像參加同一場考試的不同學(xué)生，每個都有自己的優(yōu)勢和短板，而測試結(jié)果揭示了一些令人意外的發(fā)現(xiàn)。

在這場"AI界面生成能力大考"中，Google的Nano Banana Pro表現(xiàn)最為突出，在中文界面測試中獲得了69.62分的GE綜合得分。這個分數(shù)意味著什么呢？簡單來說，如果滿分代表完美的人類級別界面生成能力，那么目前最好的AI模型大概達到了70%左右的水平——已經(jīng)相當(dāng)不錯，但距離完美還有明顯差距。

緊隨其后的是OpenAI的GPT-image-1.5，在英文界面測試中表現(xiàn)優(yōu)異，獲得了63.16分。有趣的是，不同模型在處理中文和英文界面時的表現(xiàn)存在明顯差異，這反映了當(dāng)前AI技術(shù)在多語言處理方面仍存在挑戰(zhàn)。這就像有些翻譯員擅長英文但中文稍弱，有些則相反。

然而，當(dāng)我們深入分析具體的測試結(jié)果時，發(fā)現(xiàn)了一個令人擔(dān)憂的模式：幾乎所有模型在簡單的單步操作中表現(xiàn)良好，但在復(fù)雜的多步驟任務(wù)中表現(xiàn)急劇下降。比如，Nano Banana Pro在單步操作中能夠獲得84分以上的高分，但在多步驟規(guī)劃任務(wù)中分數(shù)就降到了68分左右。這種差異就像一個學(xué)生能夠輕松解決單個數(shù)學(xué)問題，但在面對需要多步推理的復(fù)雜應(yīng)用題時就顯得力不從心。

更令人驚訝的是，在需要精確坐標(biāo)定位的測試中，即使是表現(xiàn)最好的模型也只能達到23.9%的目標(biāo)達成率。這意味著當(dāng)你告訴AI"在屏幕的某個特定位置點擊"時，它只有不到四分之一的概率能正確理解并生成相應(yīng)的界面響應(yīng)。這就像一個射擊選手在近距離靶場表現(xiàn)很好，但一旦需要精確瞄準(zhǔn)遠處的小目標(biāo)時就頻頻脫靶。

開源模型的表現(xiàn)相對較弱，這并不令人意外，但差距之大仍然讓人吃驚。大部分開源模型的綜合得分都在35分以下，與商業(yè)模型形成了鮮明對比。這種差距主要體現(xiàn)在多個方面：首先是界面元素的一致性保持能力較弱，經(jīng)常出現(xiàn)不相關(guān)區(qū)域發(fā)生意外變化的問題；其次是對復(fù)雜指令的理解能力不足，容易產(chǎn)生邏輯混亂的界面變化。

為了驗證這套評測體系的可靠性，研究團隊還進行了人工評估對比實驗。他們邀請專業(yè)評估員對同樣的AI生成結(jié)果進行打分，然后與AI評估系統(tǒng)的結(jié)果進行比較。令人欣慰的是，兩者之間的相關(guān)性達到了0.9892，這個數(shù)字接近完美相關(guān)，說明AI評估系統(tǒng)的判斷與人類專家高度一致。

這種高度一致性的背后是研究團隊設(shè)計的精細評分標(biāo)準(zhǔn)。他們?yōu)槊總€評測維度制定了詳細的評分準(zhǔn)則，就像奧運會體操比賽的評分細則一樣具體而明確。評估員不需要憑主觀感受打分，而是根據(jù)明確的標(biāo)準(zhǔn)檢查每個細節(jié)，大大降低了評估的主觀性和隨意性。

三、AI界面生成的三大技術(shù)瓶頸：文字渲染、圖標(biāo)識別與精確定位

通過對大量測試案例的深入分析，研究團隊識別出了當(dāng)前AI界面生成技術(shù)面臨的三個核心技術(shù)障礙。這些問題就像阻擋AI達到人類水平的三座大山，每一座都需要技術(shù)突破才能翻越。

第一座大山是文字渲染問題。在我們看來理所當(dāng)然的清晰文字顯示，對AI來說竟然是一個巨大挑戰(zhàn)。研究發(fā)現(xiàn)，即使是表現(xiàn)最好的商業(yè)模型，在生成包含大量文字的界面時也會出現(xiàn)字符重疊、筆畫模糊或者完全錯誤的文字內(nèi)容。這個問題在中文界面中尤其嚴重，因為中文字符的復(fù)雜結(jié)構(gòu)對AI的渲染能力提出了更高要求。

這種文字渲染問題的根本原因在于，當(dāng)前的AI模型將文字視為圖像紋理而非具有意義的符號。就像一個不識字的人試圖臨摹書法作品，雖然能夠模仿大致的形狀，但無法理解每個字符的精確結(jié)構(gòu)和組成規(guī)則。這導(dǎo)致AI在生成界面時，經(jīng)常會創(chuàng)造出看似像文字、實際上卻無法閱讀的奇怪符號組合。

第二座大山是圖標(biāo)語義理解問題。用戶界面中的圖標(biāo)不僅僅是裝飾性元素，每個圖標(biāo)都承載著特定的功能含義。比如，垃圾桶圖標(biāo)代表刪除，放大鏡圖標(biāo)代表搜索，齒輪圖標(biāo)代表設(shè)置。然而，AI模型往往無法準(zhǔn)確理解這些圖標(biāo)的語義關(guān)聯(lián)，導(dǎo)致在界面狀態(tài)轉(zhuǎn)換時出現(xiàn)邏輯錯誤。

研究人員發(fā)現(xiàn)了一個有趣的現(xiàn)象：AI能夠生成視覺上非常逼真的圖標(biāo)，但這些圖標(biāo)的功能表現(xiàn)卻可能完全錯誤。比如，當(dāng)用戶點擊搜索圖標(biāo)時，AI可能生成一個看起來很專業(yè)的搜索界面，但搜索框的位置、搜索結(jié)果的布局或者相關(guān)按鈕的功能都可能是錯誤的。這就像一個演員能夠完美模仿另一個人的外表，但卻不理解這個人的性格和行為模式。

更嚴重的是，在多步驟交互過程中，圖標(biāo)的語義混亂會產(chǎn)生累積效應(yīng)。第一步的小錯誤會在后續(xù)步驟中被放大，最終導(dǎo)致整個交互流程偏離預(yù)期軌道。這種"蝴蝶效應(yīng)"使得AI在處理復(fù)雜任務(wù)時顯得特別脆弱，就像一個導(dǎo)航系統(tǒng)在第一個轉(zhuǎn)彎處出現(xiàn)偏差后，越走越偏離正確路線。

第三座大山是精確空間定位問題。當(dāng)研究人員告訴AI"在坐標(biāo)(938, 61)的位置點擊"時，AI需要準(zhǔn)確理解這個數(shù)字坐標(biāo)對應(yīng)屏幕上的哪個具體元素，并生成相應(yīng)的響應(yīng)效果。然而，測試結(jié)果顯示，即使是最先進的模型在這方面的成功率也低得驚人。

這個問題反映了AI在抽象坐標(biāo)系統(tǒng)與具體視覺元素之間建立映射關(guān)系的能力不足。人類能夠輕松地將"點擊右上角"這樣的描述轉(zhuǎn)換為精確的操作，但AI卻需要進行復(fù)雜的數(shù)學(xué)計算來理解坐標(biāo)與界面元素的對應(yīng)關(guān)系。更困難的是，不同設(shè)備的屏幕尺寸和分辨率不同，同樣的坐標(biāo)在不同設(shè)備上可能對應(yīng)完全不同的界面元素。

研究團隊通過對比分析發(fā)現(xiàn)，這些空間定位錯誤往往表現(xiàn)為"近似正確但不夠精確"的模式。AI能夠大致理解用戶想要點擊的區(qū)域，但在確定具體的目標(biāo)元素時會出現(xiàn)偏差。這就像一個射箭手能夠射中靶子，但總是偏離靶心幾厘米的距離——看起來很接近，但在需要精確操作的場景下就顯得不夠可靠。

四、視覺美觀與功能實用的微妙平衡：AI面臨的核心挑戰(zhàn)

在深入分析測試結(jié)果的過程中，研究團隊發(fā)現(xiàn)了一個特別有趣的現(xiàn)象：那些在視覺質(zhì)量方面表現(xiàn)出色的AI模型，在功能邏輯方面的表現(xiàn)卻不一定同樣優(yōu)秀。這種現(xiàn)象揭示了AI界面生成技術(shù)面臨的一個根本性挑戰(zhàn)——如何在創(chuàng)造美觀界面和確保功能正確之間找到完美平衡。

這種矛盾現(xiàn)象可以用一個簡單的比喻來理解：就像一個非常有藝術(shù)天賦的設(shè)計師能夠創(chuàng)作出令人驚艷的海報，但這并不意味著他能夠設(shè)計出功能完善的汽車儀表盤。美觀和實用是兩個不同的評判標(biāo)準(zhǔn)，需要不同類型的技能和理解能力。

研究人員通過詳細的案例分析發(fā)現(xiàn)，某些模型生成的界面在視覺上非常精美，色彩搭配協(xié)調(diào)，布局合理，文字和圖標(biāo)都很清晰。然而，當(dāng)仔細檢查這些界面的功能邏輯時，卻發(fā)現(xiàn)了許多問題：比如出現(xiàn)了現(xiàn)實中不存在的按鈕組合，或者某些交互元素的行為違反了用戶界面設(shè)計的基本原則。

這種"視覺過度優(yōu)化"問題的根源在于，當(dāng)前的AI訓(xùn)練方式更重視圖像的美觀程度，而對功能邏輯的關(guān)注相對較少。就像訓(xùn)練一個畫家時，如果只強調(diào)畫面要好看，而不教授解剖學(xué)和物理學(xué)原理，那么畫出來的人物可能很美，但在結(jié)構(gòu)上可能存在不合理之處。

另一方面，一些在功能邏輯方面表現(xiàn)較好的模型，其生成的界面在視覺質(zhì)量上卻有明顯不足。這些界面雖然在交互邏輯上基本正確，但可能存在色彩搭配不協(xié)調(diào)、布局不夠精美或者細節(jié)處理粗糙等問題。這就像一個工程師設(shè)計的產(chǎn)品功能很完善，但外觀設(shè)計卻不夠吸引人。

研究團隊還發(fā)現(xiàn)了一個更深層的問題：即使是那些在簡單場景下能夠很好平衡美觀和實用的模型，在面對復(fù)雜的多步驟任務(wù)時，這種平衡往往會被打破。隨著交互步驟的增加，AI模型維持界面一致性和邏輯連貫性的能力會逐漸下降，就像一個雜技演員能夠輕松地同時拋接三個球，但當(dāng)球的數(shù)量增加到七八個時就開始出現(xiàn)失誤。

這種現(xiàn)象在時間一致性方面表現(xiàn)得特別明顯。在單個界面生成中表現(xiàn)優(yōu)秀的模型，在生成一系列相關(guān)界面時經(jīng)常會出現(xiàn)風(fēng)格突變、元素位置飄移或者色彩體系混亂等問題。這些看似微小的不一致性會嚴重影響用戶體驗，就像看電影時演員的服裝在不同鏡頭間莫名其妙地發(fā)生變化。

為了解決這個平衡問題，研究團隊提出了一個重要觀點：評估AI界面生成能力時，不能僅僅關(guān)注單一維度的表現(xiàn)，而必須建立多維度的綜合評價體系。這就像評估一個城市的宜居性，不能只看經(jīng)濟發(fā)展水平，還要考慮環(huán)境質(zhì)量、交通便利性、教育資源等多個因素。

五、突破之路：未來AI界面生成技術(shù)的發(fā)展方向

基于這次全面評測的結(jié)果，研究團隊為未來的AI界面生成技術(shù)發(fā)展描繪了一張清晰的路線圖。這些發(fā)展方向就像指向山頂?shù)亩鄺l登山路徑，每一條都有其獨特的挑戰(zhàn)和機遇。

在文字渲染技術(shù)改進方面，研究團隊建議開發(fā)專門的文字感知模塊，讓AI能夠像理解圖像一樣理解文字的結(jié)構(gòu)和意義。這種模塊不僅要能夠識別文字的視覺形態(tài)，更要理解文字的語義內(nèi)容和排版規(guī)則。就像教會AI不僅要知道"A"這個字母長什么樣，還要明白它在不同語境中的含義和正確的使用方式。

具體的技術(shù)路徑包括開發(fā)基于矢量圖形的文字渲染系統(tǒng)，這樣AI生成的文字就不會因為像素化而變得模糊不清。同時，需要建立大規(guī)模的多語言字體數(shù)據(jù)庫，讓AI學(xué)習(xí)不同語言文字的正確渲染方式。這個過程就像為AI建立一個超級圖書館，里面收錄了世界上所有語言的標(biāo)準(zhǔn)字體樣本。

在圖標(biāo)語義理解方面，研究團隊提出了構(gòu)建"圖標(biāo)-功能"知識圖譜的建議。這個知識圖譜就像一本詳細的圖標(biāo)詞典，記錄了每個圖標(biāo)設(shè)計與其對應(yīng)功能之間的關(guān)聯(lián)關(guān)系。通過學(xué)習(xí)這個知識圖譜，AI就能夠理解為什么垃圾桶圖標(biāo)代表刪除，為什么箭頭圖標(biāo)通常表示方向或者操作流程。

更重要的是，這個知識圖譜還需要包含不同文化背景下圖標(biāo)含義的差異。比如，某些在西方文化中常見的圖標(biāo)設(shè)計，在東方文化中可能有不同的理解方式。讓AI掌握這些文化差異，就像培養(yǎng)一個具有國際視野的設(shè)計師，能夠為不同地區(qū)的用戶提供合適的界面設(shè)計。

在精確空間定位技術(shù)方面，研究團隊建議開發(fā)基于幾何推理的坐標(biāo)理解系統(tǒng)。這個系統(tǒng)不是簡單地記憶坐標(biāo)與界面元素的對應(yīng)關(guān)系，而是要理解屏幕空間的幾何結(jié)構(gòu)和元素布局的邏輯規(guī)律。就像教會AI不僅要知道"客廳的沙發(fā)在坐標(biāo)(3,4)"，更要理解整個房間的布局邏輯和空間關(guān)系。

這種幾何推理能力的培養(yǎng)需要大量的多分辨率、多設(shè)備類型的訓(xùn)練數(shù)據(jù)。AI需要學(xué)習(xí)同一個界面在不同屏幕尺寸下的適配規(guī)律，理解響應(yīng)式設(shè)計的基本原理。這個過程就像訓(xùn)練一個建筑師，不僅要會設(shè)計房子，還要知道如何根據(jù)不同的地形條件調(diào)整設(shè)計方案。

對于多步驟任務(wù)處理能力的提升，研究團隊提出了分層規(guī)劃架構(gòu)的設(shè)想。這種架構(gòu)將復(fù)雜任務(wù)分解為多個相互關(guān)聯(lián)的子任務(wù)，每個子任務(wù)都有明確的輸入、輸出和成功標(biāo)準(zhǔn)。就像組織一次復(fù)雜的活動，需要有總體規(guī)劃、詳細執(zhí)行方案和各個環(huán)節(jié)的協(xié)調(diào)機制。

在這種架構(gòu)下，AI首先需要理解用戶的總體目標(biāo)，然后制定詳細的執(zhí)行計劃，最后在每個步驟中檢查執(zhí)行結(jié)果是否符合預(yù)期。如果發(fā)現(xiàn)偏差，系統(tǒng)能夠及時調(diào)整后續(xù)步驟，避免錯誤的累積放大。這就像一個有經(jīng)驗的項目經(jīng)理，不僅會制定周密的計劃，還能在執(zhí)行過程中靈活應(yīng)對各種突發(fā)情況。

研究團隊還強調(diào)了建立更好的評測基準(zhǔn)的重要性。他們認為，當(dāng)前的GEBench只是一個開始，未來還需要開發(fā)更多針對特定應(yīng)用場景的專業(yè)評測工具。比如，針對移動應(yīng)用界面的評測標(biāo)準(zhǔn)應(yīng)該與桌面應(yīng)用不同，游戲界面的評測重點又應(yīng)該與辦公軟件不同。

這種多樣化的評測體系建設(shè)就像為不同類型的運動員設(shè)計不同的訓(xùn)練和評估方案。游泳運動員和長跑運動員雖然都是運動員，但評估他們能力的標(biāo)準(zhǔn)應(yīng)該截然不同。同樣，用于聊天軟件的AI界面生成能力和用于專業(yè)設(shè)計工具的AI能力也應(yīng)該用不同的標(biāo)準(zhǔn)來衡量。

說到底，這項研究最重要的貢獻不僅在于揭示了當(dāng)前AI技術(shù)的不足，更在于為未來的技術(shù)發(fā)展指明了明確的方向。就像第一次登山失敗的探險隊為后來者繪制了詳細的地形圖，標(biāo)明了哪些路徑可行、哪些地方有危險，這些寶貴的經(jīng)驗將幫助后續(xù)的研究者更有效地攻克技術(shù)難題。

當(dāng)AI真正掌握了這些界面生成能力后，我們將看到數(shù)字交互方式的根本性變革。到那時，AI助手不再是簡單的問答機器，而是真正理解人機交互邏輯的智能伙伴，能夠幫助我們更高效、更自然地與數(shù)字世界進行交流。這個未來可能比我們想象的更近，也可能需要更多的技術(shù)突破，但這次研究為我們提供了清晰的路標(biāo)和前進方向。

對于那些對這一技術(shù)發(fā)展感興趣的讀者，可以通過論文編號arXiv:2602.09007v1獲取完整的研究細節(jié)，深入了解這項開創(chuàng)性工作的具體技術(shù)方案和實驗結(jié)果。

Q&A

Q1：GEBench是什么？

A：GEBench是StepFun團隊開發(fā)的全新AI評測體系，專門用來測試圖像生成模型能否像真實操作系統(tǒng)一樣響應(yīng)用戶界面操作。它包含700個測試場景，從五個不同角度評估AI的界面生成能力，就像給AI設(shè)計的"駕照考試"。

Q2：為什么現(xiàn)有的圖像評測標(biāo)準(zhǔn)不適用于界面生成？

A：傳統(tǒng)的圖像評測只關(guān)注畫面是否好看，就像只判斷一幅畫是否美觀。但界面生成不僅要好看，更要在功能上合理、邏輯上連貫。比如點擊搜索按鈕后必須出現(xiàn)搜索框，而不是隨機的美麗圖案。

Q3：當(dāng)前最好的AI模型在界面生成方面表現(xiàn)如何？

A：目前表現(xiàn)最好的Google Nano Banana Pro在綜合測試中獲得約70%的分數(shù)，說明已經(jīng)相當(dāng)不錯但距離完美還有差距。特別是在復(fù)雜的多步操作和精確定位方面，所有模型都表現(xiàn)不佳，成功率往往低于25%。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.