国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Altman 親自坐鎮(zhèn)發(fā)布 ChatGPT Image 2,小編實(shí)測:風(fēng)格、畫質(zhì)、敘事感全都夯爆了

0
分享至


作者 | 冬梅

在推出視頻生成應(yīng)用 Sora 之后,OpenAI 正憑借一款全新升級的 AI 模型,再度發(fā)力圖像生成領(lǐng)域。

北京時間凌晨三點(diǎn),OpenAI CEO Sam Altman 親自帶隊開啟了一場 20 多分鐘線上直播,正式發(fā)布 ChatGPT Images 2.0,也是該公司迄今為止功能最強(qiáng)大的圖像生成模型。

OpenAI 深夜推出 Image 2

官方表示,與早期模型不同,ChatGPT Images 2.0 是一款具備思考能力的模型,它能夠先對生成主題進(jìn)行聯(lián)網(wǎng)搜索、然后自我校驗(yàn),甚至能一次性直出 8 張連貫圖片。

直播中,Altman 對這款新模型給予了極高評價。他表示:“Images 2.0 是一個巨大的飛躍,就像從 GPT-3 一步跳到了 GPT-5。它創(chuàng)造極致精美作品的能力令人驚嘆?!边@一比喻迅速在科技圈引發(fā)熱議。

具體而言,這款模型有哪些特點(diǎn)?

該模型在遵循詳細(xì)指令、精準(zhǔn)定位與關(guān)聯(lián)物體、渲染密集文本方面較上一版本有明顯提升,且支持任意寬高比的圖像生成。它可穩(wěn)定渲染小字、圖標(biāo)、UI、密集構(gòu)圖、精細(xì)風(fēng)格等傳統(tǒng)模型易出錯的內(nèi)容,最高支持 2K 分辨率,輸出結(jié)果更貼合需求、可直接商用。

更重要的是,它對構(gòu)圖與視覺審美的把控,讓生成結(jié)果更少“AI 感”,更具刻意設(shè)計的質(zhì)感。它對多語言的適配表現(xiàn)精準(zhǔn),還能憑借其拓展的視覺知識與世界知識為你補(bǔ)足信息,讓你用更少的提示詞,就能得到更智能的圖像。

ChatGPT Images 2.0 提供極速模式思考模式兩種生成方式。OpenAI 技術(shù)人員在直播中表示,思考模式在生成需要承載大量特定數(shù)據(jù)與信息的圖像時尤為實(shí)用。據(jù)他介紹,該模式可讓模型對生成內(nèi)容進(jìn)行 “二次校驗(yàn)”、聯(lián)網(wǎng)檢索信息,甚至能生成可正常掃碼使用的二維碼。


該模型最重磅的新功能之一,是支持一次性生成多張圖像。此前的 AI 模型若被要求生成多版圖像方案,只會將單張圖片分割成多個方格呈現(xiàn);而全新模型不僅能一次性輸出多張獨(dú)立圖像文件,還能保持畫面內(nèi)容的一致性,確保人物形象、場景場景在所有圖像中保持統(tǒng)一。

依托 OpenAI 推理模型的智能能力,以及對視覺世界的深刻理解,該模型將圖像生成從單純的渲染提升至戰(zhàn)略設(shè)計層面,讓它從一個工具升級為一套視覺系統(tǒng),幫助人們將想法轉(zhuǎn)化為可理解、可分享、可教學(xué)、可拓展的視覺成果。即日起,所有 ChatGPT、Codex 及 API 用戶均可使用該功能。

此外,新模型支持多種畫幅比例與分辨率生成,其中還包括 360° 全景圖像。Altman 還表示,Images 2.0 在精準(zhǔn)渲染多國語言文字方面的能力也有大幅提升。

概括起來,ChatGPT Images 2.0 核心特點(diǎn)主要有以下幾點(diǎn):

  • 精準(zhǔn)指令遵循與關(guān)系理解:能精準(zhǔn)執(zhí)行復(fù)雜長指令,正確擺放物體位置關(guān)系并清晰渲染密集文本。

  • 具備“思考能力”:生成前可聯(lián)網(wǎng)搜索實(shí)時信息并進(jìn)行自我校驗(yàn),是首個具備推理規(guī)劃能力的圖像模型。

  • 一次性多圖連貫生成:單次指令可直出最多 8 張風(fēng)格連貫、角色統(tǒng)一的圖像。

  • 2K 超清與靈活構(gòu)圖:最高支持 2K 分辨率輸出,寬高比可靈活擴(kuò)展至 3:1 至 1:3。

  • 多語言文本渲染飛躍:中、日、韓等非拉丁文字拼寫正確且能自然融入設(shè)計。

Altman 在直播中提到,該模型可用于生成完整的雜志版式,甚至整部漫畫,也就是說,這款模型直接商用也不成問題了。

在接受播客節(jié)目《Core Memory》采訪時,Altman 坦言,他此前曾認(rèn)為 AI 圖像生成技術(shù) “已經(jīng)足夠成熟”,無需再做優(yōu)化,但 OpenAI 圖像團(tuán)隊的成果徹底推翻了他的這一想法。去年 12 月,OpenAI 曾推出 GPT-Image-1.5 模型,當(dāng)時官方稱該模型在圖像精準(zhǔn)編輯方面表現(xiàn)尤為突出。

ChatGPT Images 2.0 將直接對標(biāo)谷歌于 2025 年 8 月發(fā)布的熱門圖像生成與編輯 AI 模型 Nano Banana。

OpenAI 總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 在 X 平臺發(fā)文稱,新模型擁有“真正的魔法”,解鎖了“生產(chǎn)力和創(chuàng)意領(lǐng)域的新用例”。

圖片終于沒“AI 味兒”了

既然是文生圖模型,說再多不如放上幾張生成的圖片更有說服力。于是此次 OpenAI 放出的官方博客中,基本是以模型實(shí)際生成的真實(shí)圖片示例為主。甚至他們對于模型的描述,都以圖片形式呈現(xiàn)。


為了測試模型是否以 “視覺多語者” 為核心,強(qiáng)調(diào) AI 不只是畫 “好看的圖”,而是理解全人類視覺語言這樣的描述,OpenAI 給出了下面一長段提示詞,生成的圖片效果如下:


提示詞:我正在制作一個以 “視覺多語者”為主題的雜志頁面。圖片中央的標(biāo)題為:“一次性創(chuàng)造一切”。

請創(chuàng)作一幅贊頌視覺創(chuàng)作的藝術(shù)作品,不僅限于精美的攝影照片,還應(yīng)覆蓋人類視覺文化與自然視覺元素的全部范疇。畫面需采用精心編排的拼貼形式,呈現(xiàn)多元內(nèi)容分布:科學(xué)示意圖、元素周期表、太陽系、中世紀(jì)手稿頁面、植物插畫、人體解剖圖、古舊地圖、氣象圖表、工程原理圖、交通導(dǎo)視標(biāo)識、多語言文字、漫畫分鏡、界面截圖、相機(jī)拍攝的照片、蝴蝶標(biāo)本、餅狀統(tǒng)計圖、建筑藍(lán)圖與外立面設(shè)計圖。

畫面文字需體現(xiàn)出該模型能夠流暢駕馭各類語言、符號系統(tǒng)、交互界面、文化形式與視覺規(guī)范 —— 既能實(shí)現(xiàn)實(shí)用功能,也能呈現(xiàn)美學(xué)美感;既能理解文檔資料,也能進(jìn)行藝術(shù)創(chuàng)作。

同時融入像素藝術(shù)、藝術(shù)流派、歷史元素、雕塑、自然、攝影、繪畫等各類藝術(shù)形式。以上僅為示例,希望你主動構(gòu)思其他適配的元素與風(fēng)格,不要局限于上述概念。

整體效果需呈現(xiàn)高端研究發(fā)布或博物館級宣言的質(zhì)感:優(yōu)雅、大氣,旨在傳達(dá)一個理念:圖像智能應(yīng)當(dāng)基于整個視覺世界進(jìn)行訓(xùn)練,而非僅僅局限于精修后的美學(xué)作品。

采用非結(jié)構(gòu)化、富有創(chuàng)意與藝術(shù)感的版式,例如扇形排布等,避免網(wǎng)格狀布局。畫面為豎版 4:5 比例。除 “一次性創(chuàng)造一切”這一標(biāo)題外,不要添加任何額外說明性文字;作為藝術(shù)組成部分的文字則不受限制。避免整體畫面呈現(xiàn)米黃色調(diào),確保畫面中鮮艷的元素色彩足夠鮮亮奪目。

從上述生成的圖片可見,貼合當(dāng)前大模型從 “審美生成” 向 “通用視覺智能” 升級的趨勢,適合作為高端演示、研究發(fā)布、產(chǎn)品官宣的視覺素材。

另一張可直接用于雜志專題版面的圖片示例如下:


提示詞:制作一篇關(guān)于北美狼群的雜志專題版面,講述它們其實(shí)遠(yuǎn)比人們印象中更無害。整體風(fēng)格要做成一本印刷精美、畫面光潔、排版考究、廣泛發(fā)行的科學(xué)類雜志樣式。

對手寫字體的要求,主要考驗(yàn)?zāi)P蛯θ祟愓鎸?shí)書寫行為的視覺還原能力、文字結(jié)構(gòu)理解能力、細(xì)節(jié)指令執(zhí)行能力以及物理質(zhì)感渲染能力:既要生成結(jié)構(gòu)清晰、符合書寫邏輯的文字形態(tài),避免出現(xiàn)扭曲亂碼,又要模擬出字跡粗細(xì)不均、間距錯落、傾斜潦草等極具真實(shí)感的人為變化,擺脫機(jī)械印刷式的刻板效果。

同時還要準(zhǔn)確還原鉛筆筆跡、橫線紙張、輕微咖啡漬等材質(zhì)細(xì)節(jié),并嚴(yán)格遵循畫面布局、視角風(fēng)格等復(fù)雜指令,整體體現(xiàn)出模型對自然人文細(xì)節(jié)的捕捉、對真實(shí)場景的還原以及精細(xì)約束下的畫面控制能力。


提示詞:一張照片級寫實(shí)、手機(jī)拍攝的圖片,內(nèi)容是一篇鉛筆手寫作文;字體醒目又優(yōu)雅,但整體潦草、略顯不工整,寫在 8.5×11 英寸的橫格紙上,主題為多倫多棒球歷史。字跡要呈現(xiàn)出非常自然的人類手寫變化感,不要過于規(guī)整。在畫面右上角添加一處淡淡的咖啡漬。

ChatGPT Images 2.0 發(fā)布后,一個核心問題隨之浮現(xiàn):它是否真的能“聽懂”復(fù)雜到近乎嚴(yán)苛的指令,并在單幀畫面中同時駕馭多語種文本的真實(shí)渲染與寫實(shí)場景的自然構(gòu)建?

為此,OpenAI 設(shè)計了一段極限測試提示詞——要求在虛構(gòu)的印度書店攝影作品中,同時呈現(xiàn)印地語、孟加拉語等九種印度語言的藝術(shù)類書籍封面,且所有出版社文字必須清晰標(biāo)注為“OpenAI”。主要想測試下它的文字渲染和指令理解能不能扛住這種細(xì)節(jié)壓力。


提示詞:我想要制作一個雜志頁面,主體是一張專業(yè)寫實(shí)風(fēng)格的攝影作品,場景為一家印度書店,店內(nèi)售賣使用印度各類語言書寫的印度書籍。照片中需要出現(xiàn)使用以下語言的書籍封面:印地語、孟加拉語、馬拉地語、泰盧固語、泰米爾語、烏爾都語、古吉拉特語、卡納達(dá)語、奧里雅語。這些書籍為虛構(gòu)創(chuàng)作,但書名需與 “藝術(shù)”相關(guān),封面要看起來像真實(shí)出版的書籍,而非刻意擺拍的一套書。出版社必須標(biāo)注為 OpenAI,所有文字都要清晰可辨。這張照片的目的是展現(xiàn)印度語言的多樣性 。整個頁面只保留圖片內(nèi)容,不添加任何額外文字或標(biāo)題。畫幅比例:1440×2560 豎版。

如果說上一段測試是看模型能不能“聽懂話”,那這段就想看它能不能“講好一個完整的故事”——在一張圖里塞進(jìn)五排分鏡、兩個角色、一個梗和一個彩蛋,還不許后期編輯。這就是 OpenAI 給 ChatGPT Images 2.0 出的又一道難題:一口氣生成一頁中文漫畫,檢驗(yàn)它連續(xù)生圖敘事能力到底行不行。


提示詞:生成一幅全彩中文漫畫,內(nèi)容關(guān)于一位 OpenAI 研究科學(xué)家陳博遠(yuǎn)(第一張圖),他正在為即將發(fā)布的 ChatGPT Image 2 模型改進(jìn)文本渲染能力。(背景中有波霸奶茶,以及一個用單條膠帶貼在墻上的香蕉)。當(dāng)他在電腦屏幕上嘗試生成一幅關(guān)于自己家鄉(xiāng)無錫的、細(xì)節(jié)豐富且精美的手繪風(fēng)格多語言信息海報時,模型成功渲染出了極小的中文文字。他的努力得到了回報,團(tuán)隊對模型在多語言文字表現(xiàn)上的離譜高質(zhì)量印象深刻,看到它居然能寫出那么多語言。當(dāng)他一只手拿著手機(jī)休息時,收到了來自 Sam Altman(頭像見第二張圖)的一條翻譯短信,Sam 請他看看自己剛剛生成的一張用來祝賀團(tuán)隊的圖片中的多語言渲染效果,因?yàn)?Sam 只懂英文。然而,最后要讓博遠(yuǎn)以典型漫畫風(fēng)格暴怒收尾——他發(fā)現(xiàn) Sam 生成的這張本來完美的祝賀圖中,正中央赫然出現(xiàn)了“穩(wěn)穩(wěn)地接住你”這句話。因?yàn)檫@句話在中國互聯(lián)網(wǎng)上已經(jīng)成了一個梗,是 GPT 最愛用的那種不自然但好笑的漢語句子。博遠(yuǎn)應(yīng)該怒吼:“天吶!它又學(xué)會了接??!”(旁邊配隊友的小頭像,流著汗用中文說:“我們在努力修了!”)。在漫畫最底部,加一行極小的中文腳注:“注:本漫畫全篇,包括此腳注及圖中圖,均由 gpt image 2 一次性生成,未做任何編輯或多步驟操作?!?/p>

附加要求:采用 1440×2560 豎版畫幅。第一排畫這位研究員努力工作;第二排畫他在無錫海報上的多語言成果;第三排展示團(tuán)隊興奮狀態(tài);第四排左右分格,左邊畫他休息時手機(jī)收到消息,右邊畫 Sam 的短信內(nèi)容;第五排展示 Sam 發(fā)的圖片以及陳博遠(yuǎn)的反應(yīng)。除第一排外,其余部分無旁白敘事。避免出現(xiàn)中國地圖。所有角色均為漫畫風(fēng)格。香蕉背景僅在第一格出現(xiàn),膠帶應(yīng)為單條膠帶,而非交叉粘貼。香蕉與膠帶裝飾要小,作為不起眼的彩蛋供人尋找。OpenAI 標(biāo)志僅出現(xiàn)在陳博遠(yuǎn)的衣服上,其他地方不出現(xiàn)。場景中不要出現(xiàn)馬克杯,因?yàn)橐延胁ò阅滩?。Sam 僅出現(xiàn)在短信格中。整幅漫畫應(yīng)呈現(xiàn)為一本實(shí)體漫畫書內(nèi)頁的專業(yè)照片質(zhì)感。在海報的右下角,有一行小字“極小中文也清晰可讀:”,后面跟一段字號更小的中文:“(此處為極小字號測試)無錫是作者的故鄉(xiāng),所以做了這幅海報,中文總算是修好了。很多年沒回家了,好想吃大閘蟹??!”(極小)。

上一題測的是連續(xù)分鏡漫畫,這道題又換了個花樣:讓模型在一張圖里把三個獨(dú)立場景無縫拼成一條故事線——入住、喝茶、休息,而且女主角得是同一個人。這就看它能不能既管好構(gòu)圖布局,又別把人物畫得一會兒一個樣。


提示詞:一張用于引導(dǎo)預(yù)訂高端韓屋住宿的卡片圖像。畫面中三個場景在同一畫面內(nèi)自然銜接:穿過幽靜小巷辦理入住的瞬間、在能看到庭院的窗邊喝茶的瞬間、在溫暖燈光下的客房內(nèi)休息的瞬間。同一位韓國女性反復(fù)出現(xiàn),營造優(yōu)雅從容的旅行氛圍。整體采用奶油色與木色調(diào)、柔和自然光、整潔的韓屋空間。呈現(xiàn)令人想要收藏的高端旅行卡片質(zhì)感。預(yù)留便于添加標(biāo)題、簡短標(biāo)簽及預(yù)訂信息的留白區(qū)域。移動端優(yōu)先的 4:5 畫幅比例。

文字能不能本身就是一張好看的海報?下面這個任務(wù)是讓模型挑戰(zhàn)多語言字體排印——把各種文字當(dāng)主角,用日式編輯設(shè)計的調(diào)性,做一張純粹頌揚(yáng)語言之美的海報。測試下它對排版節(jié)奏和設(shè)計審美是否在線。


提示詞:生成一張關(guān)于字體排印的專業(yè)多語言海報。該海報應(yīng)作為一件頌揚(yáng)世界多樣語言的藝術(shù)作品。采用日式編輯設(shè)計風(fēng)格。4:5 豎版畫幅比例。


下面這幾段提示詞測試的是模型模擬特定攝影媒介質(zhì)感與捕捉真實(shí)瞬間細(xì)節(jié)的能力——從 35mm 膠片的顆粒感、陰天的灰調(diào)色彩,到風(fēng)吹發(fā)絲的動態(tài)細(xì)節(jié)和隨性構(gòu)圖的生活感,考驗(yàn)?zāi)P湍芊裉觥巴昝冷秩尽钡膽T性,復(fù)刻出紀(jì)實(shí)攝影那種未經(jīng)雕琢的臨場氣息。


提示詞:一張具有照片級真實(shí)感的旅行抓拍畫面:陰天清晨,一個人站在海邊公路的停車觀景處,使用 35mm 膠片拍攝。構(gòu)圖自然且?guī)в胁唤?jīng)意的瑕疵,可見膠片顆粒感,環(huán)境光為主光源,色彩偏灰調(diào)柔和,衣角和發(fā)絲被風(fēng)吹動。整體呈現(xiàn)電影般的真實(shí)質(zhì)感,以及一種充滿生活痕跡的紀(jì)實(shí)攝影氛圍。


提示詞:一張照片級真實(shí)感的快拍人像:夜晚,兩個朋友站在某個場館門外,使用便攜式傻瓜相機(jī)配合直閃拍攝。主體距離近,前景細(xì)節(jié)清晰銳利,陰影衰減強(qiáng)烈深邃,帶有些許未經(jīng)修飾的即興能量,充滿夜生活氛圍,整體呈現(xiàn)一眼可辨的 21 世紀(jì)初閃光燈照片質(zhì)感。


提示詞:這些肖像拍攝于戶外、室內(nèi),以及特定、私密的郊區(qū)場景。我不想復(fù)制這些場景本身,而是要延續(xù)其攝影風(fēng)格與真實(shí)感——使用彩色膠片的大畫幅相機(jī)與中畫幅相機(jī)進(jìn)行拍攝,但進(jìn)一步強(qiáng)化被攝主體與場景的怪誕感。不是往貧窮邋遢的方向走,而是更偏向中產(chǎn)階級式的媚俗,同時融入那些在現(xiàn)實(shí)中——無論從審美還是物理層面——都絕不可能存在的元素。

下面測試的這道題比較有趣,主要測試的是模型的真實(shí)邏輯能力:讓模型畫一間教室,教授在講 GPT 圖像模型,幻燈片上還是這個場景,一層套一層的提示冊,測的是它能否在二維畫面里把“無限遞歸”這個想法真正做出來,而不是卡在某一層就斷了線索。


提示詞:一間 2015 年 UBC(不列顛哥倫比亞大學(xué))的階梯教室,教授正在展示關(guān)于 GPT 圖像生成模型 2 的幻燈片,照片級真實(shí)感?;脽羝系膬?nèi)容是:一位教授正在展示關(guān)于 GPT 圖像生成模型 2 的幻燈片,如此遞歸嵌套,永無止境。

生成動漫風(fēng)格的圖片也是信手拈來。


提示詞: 一頁日本青年漫畫(Seinen manga)風(fēng)格的漫畫書內(nèi)頁。

該模型能駕馭多種風(fēng)格,生成的復(fù)古風(fēng)格海報長這樣:


提示詞:一張 1960 年代捷克斯洛伐克電影海報風(fēng)格的作品,以超現(xiàn)實(shí)隱喻驅(qū)動構(gòu)圖,帶有拼貼畫的美學(xué)意識,兼具繪畫感與攝影蒙太奇質(zhì)感。中心意象具有象征性,整體呈現(xiàn)藝術(shù)電影的劇場氛圍。色調(diào)偏灰柔但略帶酸性色彩的沖擊感,具有手工印刷的肌理、套印不準(zhǔn)的油墨痕跡、做舊的紙張表面。畫面中存在不尋常的視覺并置,在抽象與敘事之間保持優(yōu)雅的張力,透出復(fù)古畫廊級海報的精致感。海報文字內(nèi)容:

· 底部大標(biāo)題:"GPT Image 2.0"

· 頂部較小標(biāo)題:"Built on a deeper understanding of images"

· 底部小字腳注:"Coming soon"

所有可見文字保留英文。采用劇場海報式構(gòu)圖

主流漫畫風(fēng)格已被模型廣泛習(xí)得,但相對小眾的視覺流派是否同樣能被準(zhǔn)確復(fù)現(xiàn)?下題將“中世紀(jì)中期粉彩漫畫藝術(shù)”作為命題——這一風(fēng)格以色調(diào)柔和、線條復(fù)古見長,并承載著上世紀(jì)中葉獨(dú)特的平面設(shè)計遺韻,意在觀察模型能否超越日式或美式漫畫的慣性表達(dá),精準(zhǔn)把握這一特定歷史風(fēng)格的視覺內(nèi)核與年代質(zhì)感。從下圖可見,效果不錯。


提示詞:一頁中世紀(jì)中期粉彩漫畫藝術(shù)風(fēng)格的漫畫書內(nèi)頁。

數(shù)學(xué)證明的視覺轉(zhuǎn)譯始終是圖像模型的難題之一。本次測試以康托爾對角線證明為命題,要求模型以信息圖形式呈現(xiàn)這一經(jīng)典的集合論論證。主要是想考察模型能否跳出具象場景的舒適區(qū),將高度抽象的邏輯推演轉(zhuǎn)化為層級分明、易于理解的視覺敘事,在符號嚴(yán)謹(jǐn)性與設(shè)計表現(xiàn)力之間取得平衡。


提示詞:康托爾對角線證明法,信息圖。


提示詞:請基于上傳的 PDF 文件制作一幅橫版學(xué)術(shù)論文海報。請務(wù)必包含原文中的重要圖表、圖示及數(shù)據(jù)圖。

圖像模型的能力邊界是否止步于靜態(tài)提示詞的解析?本次測試將“思考模式”的聯(lián)網(wǎng)搜索功能納入命題——要求模型自主瀏覽 OpenAI 官方周邊商城,依據(jù)實(shí)時檢索到的商品信息,完成一張包含標(biāo)題、副標(biāo)題、圖注及產(chǎn)品排版的商業(yè)海報。此舉意在考察模型能否將外部信息獲取與視覺設(shè)計輸出無縫銜接,在真實(shí)世界的信息流中完成從“查找”到“呈現(xiàn)”的完整閉環(huán)。


提示詞: 請搜索 OpenAI 官方周邊商城網(wǎng)站上的商品,并制作一張專業(yè)海報,以精美的排版展示我們的周邊產(chǎn)品。海報標(biāo)題應(yīng)為“Thinking Mode Searches”。

標(biāo)題下方附帶副標(biāo)題:“With thinking mode, the model can automatically browse the internet and find relevant contents for reference.” 再往下,為下方的圖片添加一段說明文字:“Prompt: Make a poster about OpenAI merch available on the official website right now.” 畫幅比例:4:5 豎版。

圖像模型的感知能力是否僅停留在對象識別層面?下面一道測試要求模型基于單張肖像,完成一份以視覺對比為主導(dǎo)的個人色彩分析。其難點(diǎn)在于:模型需從人物膚色、發(fā)色等特征中提煉出適配的色彩范圍,并以圖表形式呈現(xiàn)冷暖調(diào)性的差異,而非訴諸文字論述。這既是對色彩邏輯推理的檢驗(yàn),也是對視覺傳達(dá)效率的考察——用圖像本身完成信息的精準(zhǔn)傳遞。


提示詞:使用這張肖像,制作一份以圖表為主的個人色彩分析圖。通過視覺對比展示哪些服裝顏色適合該人物。文字盡量精簡,避免段落式描述。

小編實(shí)測:確實(shí)很強(qiáng)

以上都是 OpenAI 官方博客放出的測試示例,具體真實(shí)生成效果如何,小編也寫了一些提示詞對模型進(jìn)行了測試。

首先試了一些簡短的提示詞,想看看模型在沒有給出很具體的提示詞時,生成效果如何。


提示詞:超寫實(shí)中式火鍋,紅油湯底翻滾,肥牛毛肚蝦滑整齊擺放,蒸汽氤氳,暖光俯拍,誘人食欲,高清質(zhì)感

又測試了下谷歌 Gmail 往來郵件界面截圖,基本上很難看出是由 AI 生成的。


提示詞:生成我和朋友之間的谷歌 Gmail 郵件往來截圖。


提示詞:生成一位溫柔的東方女性,電影級質(zhì)感。


提示詞:愛玩 3D 打印機(jī)的釣魚佬。

接下來小編用了一段較長篇幅的提示詞,考察長指令中多個物體的精確位置關(guān)系、數(shù)量描述、狀態(tài)細(xì)節(jié)(半滿、折角、刀刃朝向)、光影一致性以及密集小字渲染能力。


提示詞:生成一張寫實(shí)風(fēng)格的廚房中島臺俯視照片。臺面上從左至右依次放置:一杯半滿的橙汁(玻璃杯,杯口有一片橙子)、一本攤開的精裝食譜(翻開在第 42 頁,頁面左上角有折角)、一副銀色金屬邊框老花鏡(左鏡腿壓在食譜上)、一把帶木柄的廚師刀(刀刃朝右,刀尖下墊著一片羅勒葉)、一個白色陶瓷小碟(內(nèi)有三顆帶殼核桃,其中一顆裂開露出果仁)。所有物體的投影方向必須一致為右下方,光影來自左上方窗戶。畫面中所有文字(食譜內(nèi)容、物品標(biāo)簽等)必須清晰可讀。

通過 3:1 的極端寬幅要求測試模型對非標(biāo)畫幅比的構(gòu)圖適應(yīng)能力,同時 2K 分辨率檢驗(yàn)高保真細(xì)節(jié)輸出(如海玻璃的半透明質(zhì)感、遠(yuǎn)處帆船輪廓)。效果如下:


提示詞:生成一幅 3:1 超寬畫幅的寫實(shí)風(fēng)景攝影作品。畫面左側(cè)三分之一是雨后的黑色沙灘,沙灘上散落著幾片半透明的海玻璃;右側(cè)三分之二是灰藍(lán)色的海面與天空,海天交界處有一艘孤零零的白色帆船,帆布微微鼓起。構(gòu)圖上需要有一條從左下角海玻璃延伸至右側(cè)帆船的隱形勢力線。輸出分辨率為 2K。畫面中不要出現(xiàn)任何文字或人造建筑物。

為了考察模型單次提示下生成 8 張風(fēng)格、角色高度統(tǒng)一且敘事連貫的圖像序列的能力,驗(yàn)證模型對“批量直出”與跨圖角色一致性的控制力,小編給出了下面一段提示詞,生成效果如下:


提示詞:一次性生成 8 張圖像,排列在一張橫向長卷中。主角是一只穿著偵探風(fēng)衣的橘色虎斑貓,它在 8 個連續(xù)場景中破案:1. 在雨夜巷口發(fā)現(xiàn)線索;2. 用放大鏡檢查腳??;3. 追蹤到一座老宅門前;4. 透過窗戶窺視屋內(nèi);5. 跳上窗臺潛入;6. 在書桌抽屜找到關(guān)鍵文件;7. 與一只戴領(lǐng)結(jié)的白貓對峙;8. 叼著文件走出大門,身后警燈閃爍。所有場景中橘貓的風(fēng)衣、體型、面部花紋保持一致,畫面整體色調(diào)統(tǒng)一為復(fù)古偵探片風(fēng)格。

除了測試了連續(xù)生成 8 張圖、長指令理解、2K 高清畫質(zhì)能力外,小編還對模型的多語言能力進(jìn)行了測試。在單一真實(shí)場景中同時渲染日、中、韓、泰四門非拉丁文字,并要求文字載體(黑板粉筆字、標(biāo)簽插牌)與場景質(zhì)感統(tǒng)一,檢驗(yàn)多語言文字的拼寫正確性與設(shè)計融入度。生成效果如下:


提示詞:生成一張日本昭和風(fēng)喫茶店內(nèi)的場景照片。墻上掛著一塊黑板手寫菜單,菜單上用粉筆分別以日文、中文(繁體)、韓文、泰文書寫四種飲品名稱:“炭燒咖啡”、“焦糖布丁奶茶”、“蜂蜜柚子茶”、“泰式冰奶茶”,每種文字旁標(biāo)注價格符號(¥、?、?、¥)。吧臺上放著對應(yīng)的四杯飲品,飲品的標(biāo)簽插牌上用對應(yīng)的語言文字注明品名。所有文字必須拼寫規(guī)范、風(fēng)格融入場景,無亂碼或錯字。

ChatGPT Image 2 的亮相,憑借更強(qiáng)的多模態(tài)生成、實(shí)時交互與端側(cè)輕量化能力,對行業(yè)格局形成明顯沖擊。模型在圖像保真、一致性編輯上直接對標(biāo)谷歌 Banana,速度與細(xì)節(jié)控制上的表現(xiàn)與 Banana 難分伯仲。

而剛發(fā)布不久的 Claude Design 也遭遇正面挑戰(zhàn),從對話式設(shè)計、原型快速生成到多格式導(dǎo)出,全方位正面硬剛。

OpenAI 新模型的出現(xiàn),直接攪動 AI 設(shè)計與多模態(tài)賽道格局,谷歌和 Anthropic 更要加快腳步了!

https://openai.com/index/introducing-chatgpt-images-2-0/

https://www.inc.com/ben-sherry/openais-new-image-generation-model-could-be-your-next-creative-director/91334078

直播推薦

Q:Lab 龍蝦季 Vol.2「碼農(nóng)場景篇」——當(dāng)瑣碎小需求遇上 AI!ArkClaw / BoClaw / CoPaw 同步接單,實(shí)測誰能快速搭建自動化流程:從 GitHub 抓取、翻譯、生成中文專題頁到同步產(chǎn)品中心,一站式完成需求閉環(huán)。

4 月 23 日 19:00-20:30 直播實(shí)測,碼上預(yù)約~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

南方都市報
2026-04-26 20:40:18
男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

丫頭舫
2026-04-27 17:39:57
38歲王思聰近照認(rèn)不出!滿頭白發(fā)穿睡衣度假,駝背顯老像 50 歲

38歲王思聰近照認(rèn)不出!滿頭白發(fā)穿睡衣度假,駝背顯老像 50 歲

橙星文娛
2026-04-27 14:17:09
2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補(bǔ)時絕平,曼聯(lián)險勝

2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補(bǔ)時絕平,曼聯(lián)險勝

足球狗說
2026-04-28 05:07:09
“酩酊大醉”不讀míng dīng dà zuì了,正確讀音是什么?

“酩酊大醉”不讀míng dīng dà zuì了,正確讀音是什么?

未央看點(diǎn)
2026-04-27 22:13:40
從排隊入籍到集體觀望?美國入籍申請驟降,綠卡人群態(tài)度變了?

從排隊入籍到集體觀望?美國入籍申請驟降,綠卡人群態(tài)度變了?

紐約時間
2026-04-28 02:29:16
看完女排最新集訓(xùn),心里五味雜陳!別說里約,連倫敦周期都比不上

看完女排最新集訓(xùn),心里五味雜陳!別說里約,連倫敦周期都比不上

金毛愛女排
2026-04-28 00:00:04
Deepseek,光通信之后的下一個主升浪

Deepseek,光通信之后的下一個主升浪

靜姐的財富第六感
2026-04-26 22:31:06
淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

風(fēng)過鄉(xiāng)
2026-04-27 06:15:09
有的人為了當(dāng)官,把老婆送給領(lǐng)導(dǎo)睡

有的人為了當(dāng)官,把老婆送給領(lǐng)導(dǎo)睡

斜杠人生
2026-04-28 00:00:04
金價:大家不用等候了!不出意外,金價可能將歷史重演!

金價:大家不用等候了!不出意外,金價可能將歷史重演!

殘夢重生來
2026-04-28 04:40:09
不到72小時,俞敏洪再迎兩大壞消息,主播集體辭職只是“開胃菜”

不到72小時,俞敏洪再迎兩大壞消息,主播集體辭職只是“開胃菜”

阿廢冷眼觀察所
2026-04-28 00:24:36
皮蛋再次成為關(guān)注對象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

皮蛋再次成為關(guān)注對象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

健康科普365
2026-04-25 09:27:08
七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

小莜讀史
2026-04-26 22:44:33
特朗普轉(zhuǎn)發(fā)“中印是人間地獄”,印度痛批低俗,中方態(tài)度耐人尋味

特朗普轉(zhuǎn)發(fā)“中印是人間地獄”,印度痛批低俗,中方態(tài)度耐人尋味

線裝史冊
2026-04-28 02:38:29
東南亞隱藏的“電詐大佬”,一個個正在浮出水面

東南亞隱藏的“電詐大佬”,一個個正在浮出水面

現(xiàn)實(shí)的聲音
2026-04-27 20:36:14
大姑子一家9口住進(jìn)來,老公說他5200養(yǎng)活全家足夠,我?guī)夯啬锛?>
    </a>
        <h3>
      <a href=麥子情感故事
2026-04-27 21:34:15
沒人再提激光雷達(dá)數(shù)量?直擊北京車展:今年智能駕駛“卷”什么

沒人再提激光雷達(dá)數(shù)量?直擊北京車展:今年智能駕駛“卷”什么

時代周報
2026-04-26 18:14:26
涉黃被傳喚,馬斯克出事了

涉黃被傳喚,馬斯克出事了

營銷頭版
2026-04-27 14:42:14
中國排協(xié)官宣!16點(diǎn)30分,女排訓(xùn)練將直播,第二批球員恐揭曉

中國排協(xié)官宣!16點(diǎn)30分,女排訓(xùn)練將直播,第二批球員恐揭曉

跑者排球視角
2026-04-27 23:48:17
2026-04-28 05:28:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12309文章數(shù) 51863關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實(shí)測出來了

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

體育要聞

人類馬拉松"破二"新紀(jì)元,一場跑鞋軍備競賽

娛樂要聞

黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉:謠言已澄清

財經(jīng)要聞

Meta 140億收購Manus遭中國發(fā)改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態(tài)度原創(chuàng)

旅游
親子
本地
公開課
軍事航空

旅游要聞

不止看花 京津冀春日游花樣翻新

親子要聞

警惕!深圳1歲女童小區(qū)玩耍后高燒半年,元兇竟是常見的它

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外長折返伊斯蘭堡內(nèi)情披露

無障礙瀏覽 進(jìn)入關(guān)懷版