網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Altman 親自坐鎮(zhèn)發(fā)布 ChatGPT Image 2，小編實(shí)測：風(fēng)格、畫質(zhì)、敘事感全都夯爆了

2026-04-22 11:48:30　來源: InfoQ

北京舉報

分享至

作者 | 冬梅

在推出視頻生成應(yīng)用 Sora 之后，OpenAI 正憑借一款全新升級的 AI 模型，再度發(fā)力圖像生成領(lǐng)域。

北京時間凌晨三點(diǎn)，OpenAI CEO Sam Altman 親自帶隊開啟了一場 20 多分鐘線上直播，正式發(fā)布 ChatGPT Images 2.0，也是該公司迄今為止功能最強(qiáng)大的圖像生成模型。

OpenAI 深夜推出 Image 2

官方表示，與早期模型不同，ChatGPT Images 2.0 是一款具備思考能力的模型，它能夠先對生成主題進(jìn)行聯(lián)網(wǎng)搜索、然后自我校驗(yàn)，甚至能一次性直出 8 張連貫圖片。

直播中，Altman 對這款新模型給予了極高評價。他表示：“Images 2.0 是一個巨大的飛躍，就像從 GPT-3 一步跳到了 GPT-5。它創(chuàng)造極致精美作品的能力令人驚嘆?！边@一比喻迅速在科技圈引發(fā)熱議。

具體而言，這款模型有哪些特點(diǎn)？

該模型在遵循詳細(xì)指令、精準(zhǔn)定位與關(guān)聯(lián)物體、渲染密集文本方面較上一版本有明顯提升，且支持任意寬高比的圖像生成。它可穩(wěn)定渲染小字、圖標(biāo)、UI、密集構(gòu)圖、精細(xì)風(fēng)格等傳統(tǒng)模型易出錯的內(nèi)容，最高支持 2K 分辨率，輸出結(jié)果更貼合需求、可直接商用。

更重要的是，它對構(gòu)圖與視覺審美的把控，讓生成結(jié)果更少“AI 感”，更具刻意設(shè)計的質(zhì)感。它對多語言的適配表現(xiàn)精準(zhǔn)，還能憑借其拓展的視覺知識與世界知識為你補(bǔ)足信息，讓你用更少的提示詞，就能得到更智能的圖像。

ChatGPT Images 2.0 提供極速模式與思考模式兩種生成方式。OpenAI 技術(shù)人員在直播中表示，思考模式在生成需要承載大量特定數(shù)據(jù)與信息的圖像時尤為實(shí)用。據(jù)他介紹，該模式可讓模型對生成內(nèi)容進(jìn)行 “二次校驗(yàn)”、聯(lián)網(wǎng)檢索信息，甚至能生成可正常掃碼使用的二維碼。

該模型最重磅的新功能之一，是支持一次性生成多張圖像。此前的 AI 模型若被要求生成多版圖像方案，只會將單張圖片分割成多個方格呈現(xiàn)；而全新模型不僅能一次性輸出多張獨(dú)立圖像文件，還能保持畫面內(nèi)容的一致性，確保人物形象、場景場景在所有圖像中保持統(tǒng)一。

依托 OpenAI 推理模型的智能能力，以及對視覺世界的深刻理解，該模型將圖像生成從單純的渲染提升至戰(zhàn)略設(shè)計層面，讓它從一個工具升級為一套視覺系統(tǒng)，幫助人們將想法轉(zhuǎn)化為可理解、可分享、可教學(xué)、可拓展的視覺成果。即日起，所有 ChatGPT、Codex 及 API 用戶均可使用該功能。

此外，新模型支持多種畫幅比例與分辨率生成，其中還包括 360° 全景圖像。Altman 還表示，Images 2.0 在精準(zhǔn)渲染多國語言文字方面的能力也有大幅提升。

概括起來，ChatGPT Images 2.0 核心特點(diǎn)主要有以下幾點(diǎn)：

精準(zhǔn)指令遵循與關(guān)系理解：能精準(zhǔn)執(zhí)行復(fù)雜長指令，正確擺放物體位置關(guān)系并清晰渲染密集文本。
具備“思考能力”：生成前可聯(lián)網(wǎng)搜索實(shí)時信息并進(jìn)行自我校驗(yàn)，是首個具備推理規(guī)劃能力的圖像模型。
一次性多圖連貫生成：單次指令可直出最多 8 張風(fēng)格連貫、角色統(tǒng)一的圖像。
2K 超清與靈活構(gòu)圖：最高支持 2K 分辨率輸出，寬高比可靈活擴(kuò)展至 3:1 至 1:3。
多語言文本渲染飛躍：中、日、韓等非拉丁文字拼寫正確且能自然融入設(shè)計。

Altman 在直播中提到，該模型可用于生成完整的雜志版式，甚至整部漫畫，也就是說，這款模型直接商用也不成問題了。

在接受播客節(jié)目《Core Memory》采訪時，Altman 坦言，他此前曾認(rèn)為 AI 圖像生成技術(shù) “已經(jīng)足夠成熟”，無需再做優(yōu)化，但 OpenAI 圖像團(tuán)隊的成果徹底推翻了他的這一想法。去年 12 月，OpenAI 曾推出 GPT-Image-1.5 模型，當(dāng)時官方稱該模型在圖像精準(zhǔn)編輯方面表現(xiàn)尤為突出。

ChatGPT Images 2.0 將直接對標(biāo)谷歌于 2025 年 8 月發(fā)布的熱門圖像生成與編輯 AI 模型 Nano Banana。

OpenAI 總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 在 X 平臺發(fā)文稱，新模型擁有“真正的魔法”，解鎖了“生產(chǎn)力和創(chuàng)意領(lǐng)域的新用例”。

圖片終于沒“AI 味兒”了

既然是文生圖模型，說再多不如放上幾張生成的圖片更有說服力。于是此次 OpenAI 放出的官方博客中，基本是以模型實(shí)際生成的真實(shí)圖片示例為主。甚至他們對于模型的描述，都以圖片形式呈現(xiàn)。

為了測試模型是否以 “視覺多語者” 為核心，強(qiáng)調(diào) AI 不只是畫 “好看的圖”，而是理解全人類視覺語言這樣的描述，OpenAI 給出了下面一長段提示詞，生成的圖片效果如下：

提示詞：我正在制作一個以 “視覺多語者”為主題的雜志頁面。圖片中央的標(biāo)題為：“一次性創(chuàng)造一切”。

請創(chuàng)作一幅贊頌視覺創(chuàng)作的藝術(shù)作品，不僅限于精美的攝影照片，還應(yīng)覆蓋人類視覺文化與自然視覺元素的全部范疇。畫面需采用精心編排的拼貼形式，呈現(xiàn)多元內(nèi)容分布：科學(xué)示意圖、元素周期表、太陽系、中世紀(jì)手稿頁面、植物插畫、人體解剖圖、古舊地圖、氣象圖表、工程原理圖、交通導(dǎo)視標(biāo)識、多語言文字、漫畫分鏡、界面截圖、相機(jī)拍攝的照片、蝴蝶標(biāo)本、餅狀統(tǒng)計圖、建筑藍(lán)圖與外立面設(shè)計圖。

畫面文字需體現(xiàn)出該模型能夠流暢駕馭各類語言、符號系統(tǒng)、交互界面、文化形式與視覺規(guī)范 —— 既能實(shí)現(xiàn)實(shí)用功能，也能呈現(xiàn)美學(xué)美感；既能理解文檔資料，也能進(jìn)行藝術(shù)創(chuàng)作。

同時融入像素藝術(shù)、藝術(shù)流派、歷史元素、雕塑、自然、攝影、繪畫等各類藝術(shù)形式。以上僅為示例，希望你主動構(gòu)思其他適配的元素與風(fēng)格，不要局限于上述概念。

整體效果需呈現(xiàn)高端研究發(fā)布或博物館級宣言的質(zhì)感：優(yōu)雅、大氣，旨在傳達(dá)一個理念：圖像智能應(yīng)當(dāng)基于整個視覺世界進(jìn)行訓(xùn)練，而非僅僅局限于精修后的美學(xué)作品。

采用非結(jié)構(gòu)化、富有創(chuàng)意與藝術(shù)感的版式，例如扇形排布等，避免網(wǎng)格狀布局。畫面為豎版 4:5 比例。除 “一次性創(chuàng)造一切”這一標(biāo)題外，不要添加任何額外說明性文字；作為藝術(shù)組成部分的文字則不受限制。避免整體畫面呈現(xiàn)米黃色調(diào)，確保畫面中鮮艷的元素色彩足夠鮮亮奪目。

從上述生成的圖片可見，貼合當(dāng)前大模型從 “審美生成” 向 “通用視覺智能” 升級的趨勢，適合作為高端演示、研究發(fā)布、產(chǎn)品官宣的視覺素材。

另一張可直接用于雜志專題版面的圖片示例如下：

提示詞：制作一篇關(guān)于北美狼群的雜志專題版面，講述它們其實(shí)遠(yuǎn)比人們印象中更無害。整體風(fēng)格要做成一本印刷精美、畫面光潔、排版考究、廣泛發(fā)行的科學(xué)類雜志樣式。

對手寫字體的要求，主要考驗(yàn)?zāi)Ｐ蛯θ祟愓鎸?shí)書寫行為的視覺還原能力、文字結(jié)構(gòu)理解能力、細(xì)節(jié)指令執(zhí)行能力以及物理質(zhì)感渲染能力：既要生成結(jié)構(gòu)清晰、符合書寫邏輯的文字形態(tài)，避免出現(xiàn)扭曲亂碼，又要模擬出字跡粗細(xì)不均、間距錯落、傾斜潦草等極具真實(shí)感的人為變化，擺脫機(jī)械印刷式的刻板效果。

同時還要準(zhǔn)確還原鉛筆筆跡、橫線紙張、輕微咖啡漬等材質(zhì)細(xì)節(jié)，并嚴(yán)格遵循畫面布局、視角風(fēng)格等復(fù)雜指令，整體體現(xiàn)出模型對自然人文細(xì)節(jié)的捕捉、對真實(shí)場景的還原以及精細(xì)約束下的畫面控制能力。

提示詞：一張照片級寫實(shí)、手機(jī)拍攝的圖片，內(nèi)容是一篇鉛筆手寫作文；字體醒目又優(yōu)雅，但整體潦草、略顯不工整，寫在 8.5×11 英寸的橫格紙上，主題為多倫多棒球歷史。字跡要呈現(xiàn)出非常自然的人類手寫變化感，不要過于規(guī)整。在畫面右上角添加一處淡淡的咖啡漬。

ChatGPT Images 2.0 發(fā)布后，一個核心問題隨之浮現(xiàn)：它是否真的能“聽懂”復(fù)雜到近乎嚴(yán)苛的指令，并在單幀畫面中同時駕馭多語種文本的真實(shí)渲染與寫實(shí)場景的自然構(gòu)建？

為此，OpenAI 設(shè)計了一段極限測試提示詞——要求在虛構(gòu)的印度書店攝影作品中，同時呈現(xiàn)印地語、孟加拉語等九種印度語言的藝術(shù)類書籍封面，且所有出版社文字必須清晰標(biāo)注為“OpenAI”。主要想測試下它的文字渲染和指令理解能不能扛住這種細(xì)節(jié)壓力。

提示詞：我想要制作一個雜志頁面，主體是一張專業(yè)寫實(shí)風(fēng)格的攝影作品，場景為一家印度書店，店內(nèi)售賣使用印度各類語言書寫的印度書籍。照片中需要出現(xiàn)使用以下語言的書籍封面：印地語、孟加拉語、馬拉地語、泰盧固語、泰米爾語、烏爾都語、古吉拉特語、卡納達(dá)語、奧里雅語。這些書籍為虛構(gòu)創(chuàng)作，但書名需與 “藝術(shù)”相關(guān)，封面要看起來像真實(shí)出版的書籍，而非刻意擺拍的一套書。出版社必須標(biāo)注為 OpenAI，所有文字都要清晰可辨。這張照片的目的是展現(xiàn)印度語言的多樣性。整個頁面只保留圖片內(nèi)容，不添加任何額外文字或標(biāo)題。畫幅比例：1440×2560 豎版。

如果說上一段測試是看模型能不能“聽懂話”，那這段就想看它能不能“講好一個完整的故事”——在一張圖里塞進(jìn)五排分鏡、兩個角色、一個梗和一個彩蛋，還不許后期編輯。這就是 OpenAI 給 ChatGPT Images 2.0 出的又一道難題：一口氣生成一頁中文漫畫，檢驗(yàn)它連續(xù)生圖敘事能力到底行不行。

提示詞：生成一幅全彩中文漫畫，內(nèi)容關(guān)于一位 OpenAI 研究科學(xué)家陳博遠(yuǎn)（第一張圖），他正在為即將發(fā)布的 ChatGPT Image 2 模型改進(jìn)文本渲染能力。（背景中有波霸奶茶，以及一個用單條膠帶貼在墻上的香蕉）。當(dāng)他在電腦屏幕上嘗試生成一幅關(guān)于自己家鄉(xiāng)無錫的、細(xì)節(jié)豐富且精美的手繪風(fēng)格多語言信息海報時，模型成功渲染出了極小的中文文字。他的努力得到了回報，團(tuán)隊對模型在多語言文字表現(xiàn)上的離譜高質(zhì)量印象深刻，看到它居然能寫出那么多語言。當(dāng)他一只手拿著手機(jī)休息時，收到了來自 Sam Altman（頭像見第二張圖）的一條翻譯短信，Sam 請他看看自己剛剛生成的一張用來祝賀團(tuán)隊的圖片中的多語言渲染效果，因?yàn)?Sam 只懂英文。然而，最后要讓博遠(yuǎn)以典型漫畫風(fēng)格暴怒收尾——他發(fā)現(xiàn) Sam 生成的這張本來完美的祝賀圖中，正中央赫然出現(xiàn)了“穩(wěn)穩(wěn)地接住你”這句話。因?yàn)檫@句話在中國互聯(lián)網(wǎng)上已經(jīng)成了一個梗，是 GPT 最愛用的那種不自然但好笑的漢語句子。博遠(yuǎn)應(yīng)該怒吼：“天吶！它又學(xué)會了接??！”（旁邊配隊友的小頭像，流著汗用中文說：“我們在努力修了！”）。在漫畫最底部，加一行極小的中文腳注：“注：本漫畫全篇，包括此腳注及圖中圖，均由 gpt image 2 一次性生成，未做任何編輯或多步驟操作?！?/p>

附加要求：采用 1440×2560 豎版畫幅。第一排畫這位研究員努力工作；第二排畫他在無錫海報上的多語言成果；第三排展示團(tuán)隊興奮狀態(tài)；第四排左右分格，左邊畫他休息時手機(jī)收到消息，右邊畫 Sam 的短信內(nèi)容；第五排展示 Sam 發(fā)的圖片以及陳博遠(yuǎn)的反應(yīng)。除第一排外，其余部分無旁白敘事。避免出現(xiàn)中國地圖。所有角色均為漫畫風(fēng)格。香蕉背景僅在第一格出現(xiàn)，膠帶應(yīng)為單條膠帶，而非交叉粘貼。香蕉與膠帶裝飾要小，作為不起眼的彩蛋供人尋找。OpenAI 標(biāo)志僅出現(xiàn)在陳博遠(yuǎn)的衣服上，其他地方不出現(xiàn)。場景中不要出現(xiàn)馬克杯，因?yàn)橐延胁ò阅滩?。Sam 僅出現(xiàn)在短信格中。整幅漫畫應(yīng)呈現(xiàn)為一本實(shí)體漫畫書內(nèi)頁的專業(yè)照片質(zhì)感。在海報的右下角，有一行小字“極小中文也清晰可讀：”，后面跟一段字號更小的中文：“（此處為極小字號測試）無錫是作者的故鄉(xiāng)，所以做了這幅海報，中文總算是修好了。很多年沒回家了，好想吃大閘蟹??！”（極小）。

上一題測的是連續(xù)分鏡漫畫，這道題又換了個花樣：讓模型在一張圖里把三個獨(dú)立場景無縫拼成一條故事線——入住、喝茶、休息，而且女主角得是同一個人。這就看它能不能既管好構(gòu)圖布局，又別把人物畫得一會兒一個樣。

提示詞：一張用于引導(dǎo)預(yù)訂高端韓屋住宿的卡片圖像。畫面中三個場景在同一畫面內(nèi)自然銜接：穿過幽靜小巷辦理入住的瞬間、在能看到庭院的窗邊喝茶的瞬間、在溫暖燈光下的客房內(nèi)休息的瞬間。同一位韓國女性反復(fù)出現(xiàn)，營造優(yōu)雅從容的旅行氛圍。整體采用奶油色與木色調(diào)、柔和自然光、整潔的韓屋空間。呈現(xiàn)令人想要收藏的高端旅行卡片質(zhì)感。預(yù)留便于添加標(biāo)題、簡短標(biāo)簽及預(yù)訂信息的留白區(qū)域。移動端優(yōu)先的 4:5 畫幅比例。

文字能不能本身就是一張好看的海報？下面這個任務(wù)是讓模型挑戰(zhàn)多語言字體排印——把各種文字當(dāng)主角，用日式編輯設(shè)計的調(diào)性，做一張純粹頌揚(yáng)語言之美的海報。測試下它對排版節(jié)奏和設(shè)計審美是否在線。

提示詞：生成一張關(guān)于字體排印的專業(yè)多語言海報。該海報應(yīng)作為一件頌揚(yáng)世界多樣語言的藝術(shù)作品。采用日式編輯設(shè)計風(fēng)格。4:5 豎版畫幅比例。

下面這幾段提示詞測試的是模型模擬特定攝影媒介質(zhì)感與捕捉真實(shí)瞬間細(xì)節(jié)的能力——從 35mm 膠片的顆粒感、陰天的灰調(diào)色彩，到風(fēng)吹發(fā)絲的動態(tài)細(xì)節(jié)和隨性構(gòu)圖的生活感，考驗(yàn)?zāi)Ｐ湍芊裉觥巴昝冷秩尽钡膽T性，復(fù)刻出紀(jì)實(shí)攝影那種未經(jīng)雕琢的臨場氣息。

提示詞：一張具有照片級真實(shí)感的旅行抓拍畫面：陰天清晨，一個人站在海邊公路的停車觀景處，使用 35mm 膠片拍攝。構(gòu)圖自然且?guī)в胁唤?jīng)意的瑕疵，可見膠片顆粒感，環(huán)境光為主光源，色彩偏灰調(diào)柔和，衣角和發(fā)絲被風(fēng)吹動。整體呈現(xiàn)電影般的真實(shí)質(zhì)感，以及一種充滿生活痕跡的紀(jì)實(shí)攝影氛圍。

提示詞：一張照片級真實(shí)感的快拍人像：夜晚，兩個朋友站在某個場館門外，使用便攜式傻瓜相機(jī)配合直閃拍攝。主體距離近，前景細(xì)節(jié)清晰銳利，陰影衰減強(qiáng)烈深邃，帶有些許未經(jīng)修飾的即興能量，充滿夜生活氛圍，整體呈現(xiàn)一眼可辨的 21 世紀(jì)初閃光燈照片質(zhì)感。

提示詞：這些肖像拍攝于戶外、室內(nèi)，以及特定、私密的郊區(qū)場景。我不想復(fù)制這些場景本身，而是要延續(xù)其攝影風(fēng)格與真實(shí)感——使用彩色膠片的大畫幅相機(jī)與中畫幅相機(jī)進(jìn)行拍攝，但進(jìn)一步強(qiáng)化被攝主體與場景的怪誕感。不是往貧窮邋遢的方向走，而是更偏向中產(chǎn)階級式的媚俗，同時融入那些在現(xiàn)實(shí)中——無論從審美還是物理層面——都絕不可能存在的元素。

下面測試的這道題比較有趣，主要測試的是模型的真實(shí)邏輯能力：讓模型畫一間教室，教授在講 GPT 圖像模型，幻燈片上還是這個場景，一層套一層的提示冊，測的是它能否在二維畫面里把“無限遞歸”這個想法真正做出來，而不是卡在某一層就斷了線索。

提示詞：一間 2015 年 UBC（不列顛哥倫比亞大學(xué)）的階梯教室，教授正在展示關(guān)于 GPT 圖像生成模型 2 的幻燈片，照片級真實(shí)感?；脽羝系膬?nèi)容是：一位教授正在展示關(guān)于 GPT 圖像生成模型 2 的幻燈片，如此遞歸嵌套，永無止境。

生成動漫風(fēng)格的圖片也是信手拈來。

提示詞：一頁日本青年漫畫（Seinen manga）風(fēng)格的漫畫書內(nèi)頁。

該模型能駕馭多種風(fēng)格，生成的復(fù)古風(fēng)格海報長這樣：

提示詞：一張 1960 年代捷克斯洛伐克電影海報風(fēng)格的作品，以超現(xiàn)實(shí)隱喻驅(qū)動構(gòu)圖，帶有拼貼畫的美學(xué)意識，兼具繪畫感與攝影蒙太奇質(zhì)感。中心意象具有象征性，整體呈現(xiàn)藝術(shù)電影的劇場氛圍。色調(diào)偏灰柔但略帶酸性色彩的沖擊感，具有手工印刷的肌理、套印不準(zhǔn)的油墨痕跡、做舊的紙張表面。畫面中存在不尋常的視覺并置，在抽象與敘事之間保持優(yōu)雅的張力，透出復(fù)古畫廊級海報的精致感。海報文字內(nèi)容：

· 底部大標(biāo)題："GPT Image 2.0"

· 頂部較小標(biāo)題："Built on a deeper understanding of images"

· 底部小字腳注："Coming soon"

所有可見文字保留英文。采用劇場海報式構(gòu)圖

主流漫畫風(fēng)格已被模型廣泛習(xí)得，但相對小眾的視覺流派是否同樣能被準(zhǔn)確復(fù)現(xiàn)？下題將“中世紀(jì)中期粉彩漫畫藝術(shù)”作為命題——這一風(fēng)格以色調(diào)柔和、線條復(fù)古見長，并承載著上世紀(jì)中葉獨(dú)特的平面設(shè)計遺韻，意在觀察模型能否超越日式或美式漫畫的慣性表達(dá)，精準(zhǔn)把握這一特定歷史風(fēng)格的視覺內(nèi)核與年代質(zhì)感。從下圖可見，效果不錯。

提示詞：一頁中世紀(jì)中期粉彩漫畫藝術(shù)風(fēng)格的漫畫書內(nèi)頁。

數(shù)學(xué)證明的視覺轉(zhuǎn)譯始終是圖像模型的難題之一。本次測試以康托爾對角線證明為命題，要求模型以信息圖形式呈現(xiàn)這一經(jīng)典的集合論論證。主要是想考察模型能否跳出具象場景的舒適區(qū)，將高度抽象的邏輯推演轉(zhuǎn)化為層級分明、易于理解的視覺敘事，在符號嚴(yán)謹(jǐn)性與設(shè)計表現(xiàn)力之間取得平衡。

提示詞：康托爾對角線證明法，信息圖。

提示詞：請基于上傳的 PDF 文件制作一幅橫版學(xué)術(shù)論文海報。請務(wù)必包含原文中的重要圖表、圖示及數(shù)據(jù)圖。

圖像模型的能力邊界是否止步于靜態(tài)提示詞的解析？本次測試將“思考模式”的聯(lián)網(wǎng)搜索功能納入命題——要求模型自主瀏覽 OpenAI 官方周邊商城，依據(jù)實(shí)時檢索到的商品信息，完成一張包含標(biāo)題、副標(biāo)題、圖注及產(chǎn)品排版的商業(yè)海報。此舉意在考察模型能否將外部信息獲取與視覺設(shè)計輸出無縫銜接，在真實(shí)世界的信息流中完成從“查找”到“呈現(xiàn)”的完整閉環(huán)。

提示詞：請搜索 OpenAI 官方周邊商城網(wǎng)站上的商品，并制作一張專業(yè)海報，以精美的排版展示我們的周邊產(chǎn)品。海報標(biāo)題應(yīng)為“Thinking Mode Searches”。

標(biāo)題下方附帶副標(biāo)題：“With thinking mode, the model can automatically browse the internet and find relevant contents for reference.” 再往下，為下方的圖片添加一段說明文字：“Prompt: Make a poster about OpenAI merch available on the official website right now.” 畫幅比例：4:5 豎版。

圖像模型的感知能力是否僅停留在對象識別層面？下面一道測試要求模型基于單張肖像，完成一份以視覺對比為主導(dǎo)的個人色彩分析。其難點(diǎn)在于：模型需從人物膚色、發(fā)色等特征中提煉出適配的色彩范圍，并以圖表形式呈現(xiàn)冷暖調(diào)性的差異，而非訴諸文字論述。這既是對色彩邏輯推理的檢驗(yàn)，也是對視覺傳達(dá)效率的考察——用圖像本身完成信息的精準(zhǔn)傳遞。

提示詞：使用這張肖像，制作一份以圖表為主的個人色彩分析圖。通過視覺對比展示哪些服裝顏色適合該人物。文字盡量精簡，避免段落式描述。

小編實(shí)測：確實(shí)很強(qiáng)

以上都是 OpenAI 官方博客放出的測試示例，具體真實(shí)生成效果如何，小編也寫了一些提示詞對模型進(jìn)行了測試。

首先試了一些簡短的提示詞，想看看模型在沒有給出很具體的提示詞時，生成效果如何。

提示詞：超寫實(shí)中式火鍋，紅油湯底翻滾，肥牛毛肚蝦滑整齊擺放，蒸汽氤氳，暖光俯拍，誘人食欲，高清質(zhì)感

又測試了下谷歌 Gmail 往來郵件界面截圖，基本上很難看出是由 AI 生成的。

提示詞：生成我和朋友之間的谷歌 Gmail 郵件往來截圖。

提示詞：生成一位溫柔的東方女性，電影級質(zhì)感。

提示詞：愛玩 3D 打印機(jī)的釣魚佬。

接下來小編用了一段較長篇幅的提示詞，考察長指令中多個物體的精確位置關(guān)系、數(shù)量描述、狀態(tài)細(xì)節(jié)（半滿、折角、刀刃朝向）、光影一致性以及密集小字渲染能力。

提示詞：生成一張寫實(shí)風(fēng)格的廚房中島臺俯視照片。臺面上從左至右依次放置：一杯半滿的橙汁（玻璃杯，杯口有一片橙子）、一本攤開的精裝食譜（翻開在第 42 頁，頁面左上角有折角）、一副銀色金屬邊框老花鏡（左鏡腿壓在食譜上）、一把帶木柄的廚師刀（刀刃朝右，刀尖下墊著一片羅勒葉）、一個白色陶瓷小碟（內(nèi)有三顆帶殼核桃，其中一顆裂開露出果仁）。所有物體的投影方向必須一致為右下方，光影來自左上方窗戶。畫面中所有文字（食譜內(nèi)容、物品標(biāo)簽等）必須清晰可讀。

通過 3:1 的極端寬幅要求測試模型對非標(biāo)畫幅比的構(gòu)圖適應(yīng)能力，同時 2K 分辨率檢驗(yàn)高保真細(xì)節(jié)輸出（如海玻璃的半透明質(zhì)感、遠(yuǎn)處帆船輪廓）。效果如下：

提示詞：生成一幅 3:1 超寬畫幅的寫實(shí)風(fēng)景攝影作品。畫面左側(cè)三分之一是雨后的黑色沙灘，沙灘上散落著幾片半透明的海玻璃；右側(cè)三分之二是灰藍(lán)色的海面與天空，海天交界處有一艘孤零零的白色帆船，帆布微微鼓起。構(gòu)圖上需要有一條從左下角海玻璃延伸至右側(cè)帆船的隱形勢力線。輸出分辨率為 2K。畫面中不要出現(xiàn)任何文字或人造建筑物。

為了考察模型單次提示下生成 8 張風(fēng)格、角色高度統(tǒng)一且敘事連貫的圖像序列的能力，驗(yàn)證模型對“批量直出”與跨圖角色一致性的控制力，小編給出了下面一段提示詞，生成效果如下：

提示詞：一次性生成 8 張圖像，排列在一張橫向長卷中。主角是一只穿著偵探風(fēng)衣的橘色虎斑貓，它在 8 個連續(xù)場景中破案：1. 在雨夜巷口發(fā)現(xiàn)線索；2. 用放大鏡檢查腳??；3. 追蹤到一座老宅門前；4. 透過窗戶窺視屋內(nèi)；5. 跳上窗臺潛入；6. 在書桌抽屜找到關(guān)鍵文件；7. 與一只戴領(lǐng)結(jié)的白貓對峙；8. 叼著文件走出大門，身后警燈閃爍。所有場景中橘貓的風(fēng)衣、體型、面部花紋保持一致，畫面整體色調(diào)統(tǒng)一為復(fù)古偵探片風(fēng)格。

除了測試了連續(xù)生成 8 張圖、長指令理解、2K 高清畫質(zhì)能力外，小編還對模型的多語言能力進(jìn)行了測試。在單一真實(shí)場景中同時渲染日、中、韓、泰四門非拉丁文字，并要求文字載體（黑板粉筆字、標(biāo)簽插牌）與場景質(zhì)感統(tǒng)一，檢驗(yàn)多語言文字的拼寫正確性與設(shè)計融入度。生成效果如下：

提示詞：生成一張日本昭和風(fēng)喫茶店內(nèi)的場景照片。墻上掛著一塊黑板手寫菜單，菜單上用粉筆分別以日文、中文（繁體）、韓文、泰文書寫四種飲品名稱：“炭燒咖啡”、“焦糖布丁奶茶”、“蜂蜜柚子茶”、“泰式冰奶茶”，每種文字旁標(biāo)注價格符號（￥、?、?、￥）。吧臺上放著對應(yīng)的四杯飲品，飲品的標(biāo)簽插牌上用對應(yīng)的語言文字注明品名。所有文字必須拼寫規(guī)范、風(fēng)格融入場景，無亂碼或錯字。

ChatGPT Image 2 的亮相，憑借更強(qiáng)的多模態(tài)生成、實(shí)時交互與端側(cè)輕量化能力，對行業(yè)格局形成明顯沖擊。模型在圖像保真、一致性編輯上直接對標(biāo)谷歌 Banana，速度與細(xì)節(jié)控制上的表現(xiàn)與 Banana 難分伯仲。

而剛發(fā)布不久的 Claude Design 也遭遇正面挑戰(zhàn)，從對話式設(shè)計、原型快速生成到多格式導(dǎo)出，全方位正面硬剛。

OpenAI 新模型的出現(xiàn)，直接攪動 AI 設(shè)計與多模態(tài)賽道格局，谷歌和 Anthropic 更要加快腳步了！

https://openai.com/index/introducing-chatgpt-images-2-0/

https://www.inc.com/ben-sherry/openais-new-image-generation-model-could-be-your-next-creative-director/91334078

直播推薦

Q:Lab 龍蝦季 Vol.2「碼農(nóng)場景篇」——當(dāng)瑣碎小需求遇上 AI！ArkClaw / BoClaw / CoPaw 同步接單，實(shí)測誰能快速搭建自動化流程：從 GitHub 抓取、翻譯、生成中文專題頁到同步產(chǎn)品中心，一站式完成需求閉環(huán)。

4 月 23 日 19:00-20:30 直播實(shí)測，碼上預(yù)約~

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.