nano banana刷屏一周：邪修玩法背后你不知道的訓(xùn)練密碼

2025-09-02 23:24:46　來源: 四木相對論

北京舉報

分享至

Google 最新發(fā)布的多模態(tài)模型 nano banana（Gemini 2.5 Flash image）已經(jīng)刷屏整整一周了。

Twitter、小紅書等等社媒上隨處可見小香蕉的帖子，Gemini 甚至還花錢給它買了個“熱搜”。

每次新模型出來后，網(wǎng)友們總有保留節(jié)目——玩梗和搞創(chuàng)意。nano banana 強(qiáng)大的主體形象一致性特點，以及對圖像理解、用戶意圖理解的能力，讓網(wǎng)友們貢獻(xiàn)出眾多“邪修”玩法。

玩法一：保持環(huán)境一致?lián)Q臉

*圖源：

@EHuanglu

玩法二：保持人物一致，指定衣服和動作

*圖源：

@ai_for_success

玩法三：生成3D模型

*圖源：

@deedydas

上傳一張帶有物體的精美照片，或者是一幅電影截圖，nano banana 可以生成一個幾乎 1:1 的3D模型圖，可以直接用來做3D建模。

玩法四：保持人物形象，改變?nèi)宋镒藨B(tài)

*圖源：

tapehead_Lab

玩法五：原材料生成食品圖

*圖源：

maxescu

上傳一些原材料的圖片，給模型輸入提示詞讓它來做一個吃的。

玩法六：改變圖片角度

*圖源：

dr_cintas

玩法七：更換背景、姿勢，一鍵P圖

*圖源：

clandestino_ai

玩法八：上傳戶型圖看裝修

*圖源：

levelsio

玩法九：替換發(fā)型

*圖源：

hahazwei

玩法十：生成四格電影

*圖源：

FinanceYF5

玩法十一：做幾何題

*圖源：@Gorden_Sun

在邪修玩法之外，nano banana 令人驚艷的特點包括但不限于審美提升，任務(wù)執(zhí)行精準(zhǔn)。

近期，nano banana 核心團(tuán)隊做客了一檔節(jié)目，揭秘模型訓(xùn)練背后的故事。核心觀點如下：

雖然模型已經(jīng)有很大提升，但團(tuán)隊認(rèn)為 nano banana 的文字渲染能力不夠完美，接下來還會優(yōu)化。
關(guān)于模型評估，這次 Gemini 團(tuán)隊把“文字渲染”作為評估指標(biāo)之一。一個重要原因是，當(dāng)模型學(xué)會了在圖像中正確生成文字這種結(jié)構(gòu)以后，往往也能學(xué)到圖像中其他結(jié)構(gòu)的生成。
nano banana說明，多模態(tài)模型的圖像理解和圖像生成能力是"攜手并進(jìn)"的。
nano banana能夠精準(zhǔn)執(zhí)行任務(wù)的一個原因是交錯生成，也就是將復(fù)雜的提示分解成多個步驟，并在不同的步驟中逐一進(jìn)行編輯。模型也能獲取多模態(tài)的上下文信息，然后基于它來生成新的圖像。
nano banana 相比自己的上一代，更大的提升是用不同角度渲染同一個角色，依然能保持一致。并且，它的審美也更好。

以下是這次交流的逐字翻譯：

Logan：大家好，歡迎來到 Release Notes 節(jié)目。我是 Logan Kilpatrick，來自 Google DeepMind 團(tuán)隊。今天和我們一起的是 Kaushik、Robert、Nicole 和 Mustafa。他們是 Gemini 圖像生成模型研發(fā)和產(chǎn)品團(tuán)隊成員。我們今天討論這個最新的模型。

Nicole：對，我們在 Gemini 中發(fā)布一個圖像生成和編輯功能的更新。這次是一個巨大的飛躍，模型達(dá)到了最先進(jìn)水平，我直接來演示一下這個模型的效果。現(xiàn)在我要給你拍一張照片，把畫面放遠(yuǎn)一點，生成一張你穿著巨型香蕉服裝的圖像，確保你的臉是清晰可見的。生成需要幾秒鐘，但速度還是相當(dāng)快的——你應(yīng)該記得我們上個版本也是相當(dāng)快速的模型。這是我最喜歡的功能之一。

圖片出來了，這就是 Logan，畫面中仍然是你的臉。這個模型了不起的地方在于，它生成的形象仍然看起來像你，它給你穿上了一個巨大的香蕉服裝。圖片的背景很好看，是你走在城市街道上的場景。

Logan：太有意思了，這張圖是在芝加哥，而且實際上這基本就是那條街的真實模樣。這個模型居然體現(xiàn)出了現(xiàn)實世界的知識！

Nicole：現(xiàn)在我們繼續(xù)，讓我們試一下輸入“make it nano”，讓我們看看模型會怎么做。好了，現(xiàn)在模型基于你的形象創(chuàng)建出了一個可愛的“納米版本”的你，穿著巨型香蕉服。

Logan：太喜歡這個了，真棒。

Nicole：這里特別棒的一點是——我們的提示詞非常模糊。

可是模型的創(chuàng)造力足夠強(qiáng)，居然能自行解釋這個要求，然后創(chuàng)建出一個場景，既滿足了用戶的提示，又在整體上下文中合理，還保持了場景中其他所有元素的一致性。

這一點真的令人興奮，我認(rèn)為這是我們第一次看到大模型能在多次編輯中保持場景的一致性，并讓用戶用非常自然的語言與模型交互，不需要輸入很長的提示詞——只需用非常自然的語言給出指令，就能夠和模型經(jīng)過多輪交互完成創(chuàng)作。

Logan：的確讓人興奮。我也很喜歡這一點。那么模型在文字渲染方面做得怎么樣？這是我個人最關(guān)心的用例之一。要不然我們在這張圖片上加點文字試試？比如“Gemini Nano”。

Nicole：圖片出來了，效果很好。文本字符數(shù)很少，詞也很簡單，所以效果非常好。我們在發(fā)布說明中也指出了目前文字渲染存在一些不足之處，我們也在努力改進(jìn)。

Logan：關(guān)于此次發(fā)布的評估維度有沒有什么可以分享的？很多情況下我們用人類偏好來衡量，但很難有一個“真實標(biāo)準(zhǔn)”，我想聽聽你們怎么看待這個問題，不僅針對這次發(fā)布，也包括模型訓(xùn)練的整體過程。

Mustafa：我認(rèn)為總體來說，對圖像、視頻這類多模態(tài)任務(wù)，要持續(xù)不斷提高指標(biāo)表現(xiàn)是非常困難的。過去的常用方法是利用大量人類偏好數(shù)據(jù)，不斷迭代優(yōu)化模型。顯然，圖像的好壞是非常主觀的。因此這就需要從大量用戶那里獲得反饋數(shù)據(jù)結(jié)論，非常耗費時間，并不是最快的評估方法，往往需要花費很多小時才能收集到結(jié)果。

所以我們一直在想辦法設(shè)計其他可用于模型訓(xùn)練過程中持續(xù)優(yōu)化的指標(biāo)。

我覺得“文字渲染”作為評估指標(biāo)就是一個非常有意思的例子。Kaushik 其實很早就一直在強(qiáng)調(diào)這一點，他是這方面最大的倡導(dǎo)者之一。而我們起初有段時間對他的話有點愛搭不理，心想“這家伙是不是有點瘋魔了”。他當(dāng)時確實對文本渲染指標(biāo)格外執(zhí)著。

不過到頭來，文本渲染確實逐漸成為我們重點關(guān)注的指標(biāo)之一。你可以這樣來看：當(dāng)模型學(xué)會了在圖像中正確生成文字這種結(jié)構(gòu)以后，它往往也能學(xué)到圖像中其他結(jié)構(gòu)的生成。

在圖像中會有不同的成分，可能有大塊的結(jié)構(gòu)，也會有紋理等細(xì)節(jié)。所以文字渲染這個指標(biāo)確實能夠提示模型在生成場景結(jié)構(gòu)方面的能力有多強(qiáng)。讓 Kaushik 再補(bǔ)充說一點吧。

Logan：你當(dāng)初是基于什么信念認(rèn)為它是重要的？是在做很多實驗時逐漸發(fā)現(xiàn)了這個現(xiàn)象嗎？

Kaushik：是的，我認(rèn)為最初是從找出這些模型不擅長什么開始的。要改進(jìn)任何模型，我們都需要一個能指示其薄弱環(huán)節(jié)的指標(biāo)。

接下來我們會嘗試各種各樣的改進(jìn)思路，無論是模型架構(gòu)、數(shù)據(jù)，還是其他方面。一旦有了明確的指標(biāo)，我們就肯定能在這上面取得顯著進(jìn)展。我記得幾年前，當(dāng)時幾乎沒有模型能在這方面做得很好，哪怕只是像“生成 Gemini nano”這樣簡短的一行提示詞，模型都難以應(yīng)對。

因此，我們越來越重視這個指標(biāo)，每次實驗都持續(xù)跟蹤它。無論在進(jìn)行什么實驗，只要我們跟蹤這個指標(biāo)，就能確保模型在這方面沒有退步。而且正因為把它作為一個指標(biāo)，我們甚至發(fā)現(xiàn)有些我們本來不認(rèn)為會有影響的改動，在這個指標(biāo)上確實產(chǎn)生了影響。

這樣我們就能確保隨著時間推移不斷提升這個指標(biāo)。

Mustafa：正如 Kaushik 所說，當(dāng)缺乏合適的圖像質(zhì)量指標(biāo)時，文字渲染是一個衡量整體圖像質(zhì)量的極佳方式。

人類評估的一個問題在于，當(dāng)足夠多的人去評估足夠多類別的大量提示詞及其結(jié)果時，確實能得到相當(dāng)多有價值的數(shù)據(jù)結(jié)果。不過這種方法代價很高，我們不可能一直讓一群人來給圖像評分。

所以在模型訓(xùn)練中，觀察這個文字渲染指標(biāo)，就能很好地說明模型的表現(xiàn)是否符合預(yù)期。

Logan：還想知道圖像生成能力和圖像理解能力之間的相互影響是怎樣的。

之前我們做過一期節(jié)目采訪 Ani，他們團(tuán)隊在圖像理解方面下了很大功夫。是不是可以這樣理解：當(dāng)模型在圖像理解上變強(qiáng)時，其中一些能力實際上也可以遷移到圖像生成上？畢竟，我們肯定希望最終能夠?qū)崿F(xiàn)原生的多模態(tài)理解與生成。

Mustafa：我們希望不同能力之間能實現(xiàn)正向遷移。這不光適用于單一模態(tài)的理解和生成，還包括：我們能否從圖像、視頻或音頻中學(xué)到一些世界規(guī)律，幫助提升文本的理解或生成？所以毫無疑問，圖像理解和圖像生成就像姐妹一樣。我們確實看到它們在交錯生成（interleaved generation）中是攜手并進(jìn)的。

我給你舉一個例子。

在語言領(lǐng)域有一種現(xiàn)象叫“報告偏差”（reporting bias）。意思是：你去朋友家玩，回來后跟別人聊天時，你不會特地去提你朋友家那張普通的沙發(fā)。但是如果你給別人看一張他家房間的照片，照片里卻清楚地展現(xiàn)了那張沙發(fā)。所以如果想讓模型學(xué)習(xí)世界上的很多事物，圖像和視頻里面其實已經(jīng)蘊含了這些信息，而不需要明確地、逐字逐句地提出請求來獲取這些信息。

通過其他模態(tài)也能學(xué)習(xí)到許多東西，但可能需要更多的語言 token 來描述。所以視覺信號絕對是學(xué)習(xí)這個世界的一個很好的捷徑。

回到理解和生成問題，這兩者是攜手并進(jìn)的。具體到“交錯式生成”（interleaved generation）這種場景，你會發(fā)現(xiàn)圖像理解對提升生成效果有巨大幫助，反之亦然。圖像生成是有助益的，我們有時會通過在白板上畫圖來幫助解決問題。所以這樣一來，也許你就能更好地理解以視覺圖像形式呈現(xiàn)的問題。

我們可以實際演示一下交錯式生成，展示理解和生成如何與文本協(xié)同工作。

我來試一個提示詞：“把這個主體變成1980年代美國商場魅力風(fēng)格的照片，給出五種不同呈現(xiàn)?！?/p>

*其中的三張展示

Nicole：看起來效果不錯。很明顯這一步花的時間稍長一些，因為我們這次要生成多張圖像。另外我們還讓模型生成了描述這些圖像的文本。

原生圖像生成的一個特點是模型會逐張生成圖像，而非同時生成多張。因此，模型可能會選擇參考前一張圖像，然后要么嘗試生成與之前截然不同的畫面，要么在之前的基礎(chǔ)上做出一些細(xì)微修改。

至少模型可以獲取到前面已經(jīng)生成的內(nèi)容作為上下文。這就是我們所說的“原生圖像生成模型”（native image generation model）的含義——模型能夠獲取多模態(tài)的上下文信息，然后基于它來生成新的圖像。

Logan：這很有意思。我之前腦補(bǔ)的模型工作方式一直是仿佛做了四次相互獨立的前向傳播之類的。但實際上，這整個過程都發(fā)生在同一次，是在模型統(tǒng)一的上下文中的。這樣生成的圖像風(fēng)格是保持一致的。

Nicole：模型還有個有趣的地方，每一張圖里模型都把 Logan 重復(fù)生成了兩次。

我們可以把其中一些圖放大看看。

這個造型被模型命名為“街機(jī)之王 Logan”，這張叫“Rad Dude”。這些圖像配的描述都不是我們事先寫的，我們最初給的提示詞只是說讓他來一張“1980年代美國商場魅力風(fēng)格的照片”。

下一張叫“購物狂”，Logan 你真的可以考慮試試這些服裝！

每張圖里 Logan 的服裝都不一樣，但每個形象看起來都是 Logan。至于在每張里都出現(xiàn)了兩個人，這大概是模型的一個小瑕疵。不過能夠看到模型想出了五種完全不同的創(chuàng)意，還給每種造型起了不同的名字、穿上不同的服裝，同時角色形象仍然保持一致，這真的很厲害了。

*每張圖都生成了兩個Logan

這項能力不僅對創(chuàng)造角色有用，其實如果用戶有一張自己房間的照片，它也同樣有用。

用戶可以對模型說，“嘿，幫我把這個房間用五種不同風(fēng)格裝修一下”，也許可以讓它從非常有創(chuàng)意的方案一直生成到相對保守、只做了一點點改動的方案。

我們團(tuán)隊里已經(jīng)有很多人用它來重新設(shè)計自家的花園和房子了，這種非常實用的應(yīng)用場景真的很棒。相比之下，我們剛才拿“80年代風(fēng)格的Logan”開玩笑就只是娛樂了。

Logan：我實際上曾經(jīng)在AI Studio上給我女朋友快速做了個“小項目”，能幫她把自己辦公室裝上各種不同顏色的窗簾或百葉窗來生成可視化效果。當(dāng)時她在糾結(jié)：“我不知道哪種窗簾顏色更符合想要的氛圍”，所以我就用模型試了一下。當(dāng)時用的是2.0版本，我以后得用2.5版本再試一次，看看各種不同的風(fēng)格效果。模型當(dāng)時的表現(xiàn)已經(jīng)很不錯，非常有幫助。不過2.0有時候會把床或者別的東西也改掉，不只是改窗簾。

Nicole：所以看到那個用例真的很有趣，這也是我最喜歡的用法之一。

這個模型在保持場景其他部分一致性方面做得相當(dāng)不錯。我們稱這種能力為“像素級編輯”（pixel-perfect editing）。這點非常重要，因為有時候用戶只想編輯圖像里的某一個元素，但希望其他所有東西都維持不變。

再舉個例子，如果用戶在塑造角色形象，只是想讓角色換個朝向，但希望 TA 穿的衣服在所有場景里都保持一樣。

這個模型在這方面做得很好，雖然不能保證每次都100%完美，但它的進(jìn)步程度已經(jīng)讓我們相當(dāng)振奮了。

Robert：還有一個非常棒的點就是模型速度依然很快。剛才整個生成總共用了13秒。

Logan：那對于已經(jīng)用過2.0版本的人來說，新模型的使用也有不同之處。舉個例子，用2.0的時候最好一次只做一項編輯。如果用戶讓它同時改六個不同的地方，模型往往每一項都做得不夠好。那么在這個模型中，這一點還有必要遵循嗎？或者說，在可用性方面還有什么需要提醒用戶注意的嗎？

Mustafa：基本上說，“交錯式生成” 的奇妙之處之一在于，它為圖像生成提供了一種全新的范式。

如果用戶的提示詞非常復(fù)雜，比如一次就提了50個圖像編輯要求，因為這個模型現(xiàn)在有了非常好的機(jī)制，可以從上下文（像素級信息）中提取信息并在下一步使用，所以用戶可以讓模型把這個復(fù)雜的指令拆解開，無論是編輯任務(wù)還是圖像生成任務(wù)都一樣。

把任務(wù)拆解成多個步驟，一步步逐項完成編輯。比如第一步處理其中的五個修改，然后下一步再處理下五個，如此往復(fù)。

這個過程其實非常類似于我們在語言模型那邊所謂“鏈?zhǔn)剿季S”（chain of thought）推理的計算。投入更多的算力，讓模型把這種思考過程帶入像素空間，并將整體任務(wù)分解成若干小步驟，這樣每一步都能做到精準(zhǔn)，同時這些步驟又在不斷累積，最終就可以完成無論多復(fù)雜的任務(wù)。

所以我再強(qiáng)調(diào)一下，這就是交錯式生成的魔力：我們可以采用增量生成的思路來生成非常復(fù)雜的圖像，而不是用傳統(tǒng)方法一股腦硬逼模型一次性生成最完美的圖。說到底，單次生成在模型所能推動的復(fù)雜度上是有上限的。

想想看，當(dāng)用戶要求圖像里有上百個細(xì)節(jié)的時候，一次性完成顯然做不到。但采用這種拆步驟的交織生成，用戶想要多大的容量、多高的復(fù)雜度都是可以逐步實現(xiàn)的。

Logan：Nicole，你同時也是我們 Imagen 模型這邊的產(chǎn)品經(jīng)理。那么對于開發(fā)者或者了解我們各類模型的用戶來說，他們該如何取舍或理解 Imagen 模型和我們這個原生多模態(tài)模型之間的關(guān)系呢？

Nicole：我們的目標(biāo)始終是用 Gemini 構(gòu)建出一個統(tǒng)一的模型。從長遠(yuǎn)來看，我們的目標(biāo)是把所有模態(tài)最終都融合進(jìn) Gemini 中，以便我們能充分利用 Mustafa 提到的各種知識遷移的好處，最終朝著 AGI 的方向邁進(jìn)。

不過在邁向終極目標(biāo)的過程中，讓專門的模型針對某一特定任務(wù)做到極致，其實有很大的價值。比如 Imagen 模型就是一個非常出色的文本圖像生成模型。而且我們也有很多不同的 Imagen 變體可以執(zhí)行圖像編輯，這些都已經(jīng)在 Vertex 平臺上提供。

這些模型就是專門針對特定任務(wù)進(jìn)行了優(yōu)化。如果你只是想做文本生成圖像，而且每次只需要輸出一張圖，希望畫質(zhì)特別精美，同時生成速度很快、成本也劃算，那么 Imagen 就是你的不二之選。

但如果你想實現(xiàn)一些更復(fù)雜的工作流，比如在同一個流程里先用模型生成圖像，再對圖像進(jìn)行編輯，并且希望經(jīng)過多輪交互來完成的時候；或者希望利用模型做一些頭腦風(fēng)暴式的創(chuàng)意工作，就像我們剛才那樣，比如“你能幫我想些設(shè)計創(chuàng)意嗎，為我的房間或這個書房？”，那么 Gemini 2.5 Flash Image 就是你該用的模型。

它真的是一個更加多模態(tài)的、有創(chuàng)造力的伙伴，既可以輸出圖像，也可以輸出文本。

而且你給 Gemini 的指令可以不用那么精確。比如一開始我們只是說了“make it nano”這種模糊指令，因為 Gemini 具備對世界的理解能力，會更加富有創(chuàng)造力地去解讀你的意圖。

但另一方面，如果開發(fā)者想要針對某個特定任務(wù)使用高度優(yōu)化的模型，Imagen 系列依然是很好的選擇。

Logan：我很想聽聽你們覺得該用哪個模型，或者說這個原生圖像生成模型是否能解決這個問題。比如我對模型說：“生成一張廣告牌的圖，把這個廣告牌做成我提到的某家公司風(fēng)格?！毕襁@種需求，原生圖像生成是不是會更有優(yōu)勢？因為它在融入世界知識這方面會更強(qiáng)一些。

而 Imagen 雖然在你提供明確提示時生成效果很好，但在理解我隱含的意圖方面就沒那么出色，也就是在真正領(lǐng)會我想讓它做什么這一點上。

Nicole：我覺得你說的是其中一個方面。另外，在原生圖像生成里，如果你就是想獲取你提到的那個公司風(fēng)格的視覺參考，你還可以直接把相關(guān)圖片輸入模型，作為參考。

你完全可以輸入一張圖像作為參考，這會幫助模型理解你的提示。而這種操作在 Gemini 里原生就支持，做起來比在 Imagen 里容易得多。

Logan：回到我們2.0升級的話題。我印象最深的是，當(dāng)2.0發(fā)布時，大家給我們反饋了海量關(guān)于在 AI Studio 乃至后來 Gemini 應(yīng)用中的體驗，各種模型的失敗模式之類的問題。

能不能請你們說說這個模型改進(jìn)的過程，以及之前收集到的那些失敗案例？比如2.0時有哪些效果不好的地方，而現(xiàn)在2.5有望把它做好？

Robert：我們當(dāng)時真的是天天守在 X 上翻閱各種反饋。

我記得我和 Kaushik 還有團(tuán)隊里其他一些人，一起收集了所有這些失敗的案例，然后把它們做成了評測集。所以我們現(xiàn)在有一個基于真實用戶反饋的數(shù)據(jù)集，內(nèi)容全都是推特上別人@我們說“嘿，這個沒生成好”的那些例子。

未來每出一個新模型，我們都會把新發(fā)現(xiàn)的問題附加進(jìn)這個集合里。舉個例子，比如我們發(fā)布2.0時，有一個常見的失敗情況是：如果你對圖像進(jìn)行編輯，模型確實會按你的要求添加那個編輯內(nèi)容，但它不一定能與你圖像的其余部分保持一致。所以當(dāng)時我們把這一條列入了待改進(jìn)清單，然后針對它不斷優(yōu)化。

當(dāng)然類似的問題還有很多。所以我們一直在不斷收集這些反饋。歡迎大家把那些生成失敗的例子都發(fā)給我們！

Logan：對你們來說，有沒有特別突出的例子，是以前完全不行、而現(xiàn)在變成了一項絕活的？

Robert：在2.0模型中，我們原本認(rèn)為非常難的一項是跨圖像的一致性。特別是當(dāng)用戶需要在多張圖中構(gòu)建同一個物體或者角色，并希望這個角色在所有圖里都保持一致時，結(jié)果發(fā)現(xiàn)這其實相當(dāng)容易。2.0模型能很好地做到這一點，比如它可以在角色頭上加頂帽子、改變一下表情之類，同時姿勢和場景的大體結(jié)構(gòu)都能保持不變。

2.5模型在2.0這些能力基礎(chǔ)上更進(jìn)一步的是：你可以讓它從不同角度渲染同一個角色，結(jié)果角色看起來還是完全一模一樣。又或者，你可以把一件家具放到一個完全不同的環(huán)境中，改變它的朝向，并據(jù)此生成整個新場景。那個家具依然保持與你上傳的原始圖像高度一致，盡管它在圖像中被進(jìn)行了很大的改變。

模型并不是簡單地把輸入圖像里的像素?fù)赋鰜碣N到輸出圖上去而已。

Logan：我很喜歡這一點。我對2.0版本的一些反饋是，有時生成的圖看起來就像是直接貼上去的，有點像用 PS 硬加上的效果。

Nicole：實際上我認(rèn)為這很大程度上取決于參與這個模型的各個團(tuán)隊的合作。對于之前的模型，我們團(tuán)隊當(dāng)時的心態(tài)是：它按照指令完成了編輯，這就算是成功了。但當(dāng)我們后來和 Imagen 團(tuán)隊越走越近、緊密合作時，他們看我們 Gemini 這邊得到的編輯結(jié)果，卻會說：“這太糟糕了。”

“你們怎么會希望模型做出這樣的效果呢？” 這是一個很好的例子，說明將兩邊團(tuán)隊的視角融合是如何促進(jìn)模型改進(jìn)的。Gemini 團(tuán)隊這邊更注重指令遵循、世界知識這些方面；而 Imagen 團(tuán)隊則更關(guān)注讓圖像看起來自然、美觀，并且真正實用。

我認(rèn)為兩方面都很重要。正是因為這些團(tuán)隊一起合作，才使得2.5模型在你剛才提到的那些方面改進(jìn)了許多。

Robert：說到這個，我們團(tuán)隊里其實有幾位成員來自 Imagen 團(tuán)隊，他們對圖像審美有著非常敏銳的感知。所以很多時候我們做模型評估時，會讓他們真的去看成百上千張圖片。他們會很篤定地說：“不，這個模型生成的圖像明顯比另一個模型好。”

而團(tuán)隊里很多其他人可能看了同樣的圖會有點摸不著頭腦，找不到區(qū)別。這樣的審美敏感度需要幾年時間去打磨，我自己這幾年也進(jìn)步了很多，但團(tuán)隊里確實有些人這方面異常厲害。每當(dāng)我們需要在模型之間做出取舍時，總是會請他們來幫忙。

Logan：能不能拿這些人的個人審美，來訓(xùn)練一個自動評分器？

Nicole：目前我們還沒做到，這是個有意思的項目。

Logan：我特別期待，隨著 Gemini 理解能力的提升，能夠基于我們團(tuán)隊里某個人的審美品味訓(xùn)練出一個“審美判別算子”，把那位同事的審美直覺拿來給模型提供訓(xùn)練數(shù)據(jù)就好了。

2.5版本有了很多進(jìn)步，顯然大家一定都非常期待去體驗這個模型。那么接下來呢？

Mustafa：說到圖像生成，我認(rèn)為視覺質(zhì)量當(dāng)然很重要，但我覺得有一個新的著力點。我們希望通過一個統(tǒng)一的“Omni”（全模態(tài)）模型來實現(xiàn)——就是讓它變得更聰明。

你希望你的圖像生成模型用起來讓人覺得很聰明。當(dāng)用戶和它交互時，不僅會對圖像質(zhì)量感到驚艷，還會覺得：“哇，這東西好聰明?！?/p>

我腦子里有個想法，非常期待能看到模型來實現(xiàn)。但有點微妙的是，我很難準(zhǔn)確定義這個特性：當(dāng)我讓模型做某件事時，它并沒有完全照著我的指令去做，但生成結(jié)束時我卻會說：“真慶幸，它沒有嚴(yán)格按我的指令來，結(jié)果比我描述的要好的多?！?/p>

Logan：你覺得模型是故意這么做的嗎？

Mustafa：不不，我不是那個意思。我是說，有時候你的請求本身可能描述不足；或者有時候是你對現(xiàn)實某些情況理解有誤。但是在 Gemini 掌握的外部世界知識看來，實際情況與你的想法不一樣。

我認(rèn)為這當(dāng)然不是模型有意為之，它只是自然地就發(fā)生了，你會感覺自己在跟一個比你還聰明的系統(tǒng)交互。當(dāng)我讓它生成一些圖像時，即使結(jié)果有點偏離了我的提示，生成出了和我要求不太一樣的東西，我也不介意，因為大多數(shù)情況下它給出的結(jié)果比我腦子里想的還要好。

所以我認(rèn)為，在我們保持或提升視覺質(zhì)量的同時，讓模型在更高層面上變得更聰明絕對是我們努力推進(jìn)的方向。當(dāng)然，還有非常多具體的能力、特性和應(yīng)用場景，特別是針對開發(fā)者的。后面還有一些更新的版本在籌備中，時間節(jié)點暫時不能透露。

Logan：你們還有沒有其他讓人興奮的新能力想提一下？

Nicole：我個人對提升準(zhǔn)確性這一點特別期待。這又說回一個場景，有時候你可能需要為工作演示做一個小圖表或信息圖。圖表好看當(dāng)然很好，但對于這個目的來說光好看是不夠的。它必須準(zhǔn)確，比如文本部分不允許有任何多余的亂七八糟字符。

它不僅得美觀，還必須在功能上符合場景需求。我覺得我們目前只是開始探索模型在這方面的潛力，我非常期待即將推出的一些版本，我們會在這類用例上不斷提升。我的夢想是，將來有一天這些模型真的可以幫我做一套好看的工作PPT。

我正打算把我工作中這部分活兒外包給 Gemini 去干，我們在這方面大有可為。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.