国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Nano Banana Pro效果這么強(qiáng),它的極限在哪里?

0
分享至



上周谷歌新推出的 Nano Banana Pro,相信大家已經(jīng)玩的不少了。

國(guó)內(nèi)外社交媒體上已經(jīng)有大量不同玩法的案例,知危把這些案例分為三種場(chǎng)景:

  • 原畫設(shè)計(jì)類:文生圖、圖生圖、草圖生圖、微調(diào)、文字渲染等;
  • 知識(shí)科普類:太陽系、細(xì)胞、電解反應(yīng)等對(duì)象的概念視覺化;
  • 實(shí)用辦公類:漫畫上色和翻譯、超分辨率、空間視角轉(zhuǎn)換、內(nèi)容續(xù)寫、論文板書等;

以上場(chǎng)景一般只是一次性生成。這兩天還有一些令人驚訝的進(jìn)展,Nano Banana Pro 已經(jīng)被整合進(jìn)谷歌的 NotebookLM 平臺(tái),用于生成 PPT,這意味著,這款模型不僅適用單輪生成,也能服務(wù)深度多輪生成場(chǎng)景,特別是 PPT 需要在文風(fēng)、內(nèi)容等方面保持多圖一致性,對(duì)模型的長(zhǎng)上下文感知能力要求很高。

目前為止,對(duì)于以上場(chǎng)景,Nano Banana Pro 的表現(xiàn)都沒有令人失望。而在知危這次對(duì) Nano Banana Pro 的測(cè)評(píng)中,主要關(guān)注的是一些尚未被廣泛注意到的點(diǎn),比如:

  • 和 OpenAI 旗艦生圖模型 GPT Image-1( GPT-4o 調(diào)用的生圖模型 )的招牌能力的對(duì)比,比如畫風(fēng)轉(zhuǎn)換,基于復(fù)雜指令批量生成元素的能力,進(jìn)一步確定 Nano Banana Pro 的真實(shí) “ 江湖地位 ”;
  • 從畫面瑕疵、隨機(jī)性出發(fā)的以假亂真的能力,比如監(jiān)控、電視屏幕、實(shí)驗(yàn)室拍攝等場(chǎng)景的模擬,這一點(diǎn)其實(shí)更早出現(xiàn) 在Veo 3、Sora 2 等視頻生成模型中;
  • 3D空間轉(zhuǎn)換的更極端場(chǎng)景的壓力測(cè)試;
  • 類似 PPT 生成這種保持多圖一致性的場(chǎng)景測(cè)試,知危選用了更有趣的場(chǎng)景,仿照《 清明上河圖 》做一個(gè)長(zhǎng)江流域版本,需要五張圖拼接完成;

所以,本篇測(cè)評(píng)更多是在試探 Nano Banana Pro 的能力邊界,試圖窺探到它的極限,不代表日常使用 Nano Banana Pro 的體驗(yàn)。

那接下來就開始測(cè)評(píng)吧!



首先當(dāng)然是跟 GPT Image-1 來個(gè)巔峰對(duì)決。

我們以《火影忍者》的一張經(jīng)典第七版合照為原圖,并用以下三個(gè)畫風(fēng)比較特別的動(dòng)漫來做畫風(fēng)轉(zhuǎn)換測(cè)試:

  • 《名偵探柯南》
  • 《蠟筆小新》
  • 《JoJo的奇妙冒險(xiǎn)》

原圖:



畫風(fēng)參考圖:



來看看 Nano Banana Pro 參考《 名偵探柯南 》的畫風(fēng)畫成什么樣:



一眼精巧,除了卡卡西,基本每個(gè)人的表情都表達(dá)了相同的情緒,三個(gè)年輕忍者的體型都變成《 名偵探柯南 》那種頭大身小的風(fēng)格,但細(xì)看又有很多問題,背景被替換成了參考圖的背景,三個(gè)年輕忍者的站位都變了,鳴人沒有怒視佐助。

再來看看 GPT Image-1 的表現(xiàn):



乍一看,感覺模型啥都沒干,但細(xì)看后可以發(fā)現(xiàn),佐助、鳴人的不爽表情的展現(xiàn)方式,和《 名偵探柯南 》確實(shí)比較相似,而且線條和陰影沒原來那么重和寫實(shí),確實(shí)更接近《 名偵探柯南 》那種更簡(jiǎn)潔的畫風(fēng),可謂 “ 潤(rùn)物細(xì)無聲 ” 了。

鑒于這兩部動(dòng)漫在寫實(shí)性上差距不是太大,我們?cè)儆酶卟町惖漠嬶L(fēng)來測(cè)試,也就是《 蠟筆小新 》。

畫風(fēng)參考圖:



Nano Banana Pro 基本是重復(fù)了原來的套路,背景更換、表情畫風(fēng)模仿,其它幾乎一成不變。



GPT Image-1 的表現(xiàn)乍一看是直接崩壞。



但仔細(xì)想想就會(huì)發(fā)現(xiàn),這不就是《 蠟筆小新 》里面對(duì)路人角色的刻畫方式嘛,太厲害了。



到目前為止,GPT Image-1 是完勝,Nano Banana Pro 的方法也有一定規(guī)律性,重點(diǎn)抓部分人物細(xì)節(jié)比如人臉、體型等,但失了對(duì)整體的把控。

而接下來《 JoJo 的奇妙冒險(xiǎn) 》畫風(fēng)的轉(zhuǎn)換測(cè)試,又一次讓知危開了眼界。

畫風(fēng)參考圖:



Nano Banana Pro 完美再現(xiàn)了 JoJo 獨(dú)特的面部雕塑風(fēng)格,當(dāng)然它使用的還是一樣的手法,即聚焦面部和體型模仿,該有的缺點(diǎn)也都有,但就是覺得很成功,可能這兩點(diǎn)就是 JoJo 的畫風(fēng)精髓。



至于 GPT Image-1,且不說有多失敗,簡(jiǎn)直可以說沒禮貌。



接下來,為了再極致地測(cè)試一下 Nano Banana Pro 的細(xì)節(jié)刻畫能力,我們還是用火影忍者的原圖,以及 JoJo 的畫風(fēng),但要增加人數(shù),比如八人的曉組織。

原圖:



Nano Banana Pro 雖然只是把部分人物 JoJo 化,但人物線條更加硬朗了,而且這次人物的畫面布局沒有被改變。



GPT Image-1 又出現(xiàn)相同的崩壞,原因不明。



我們繼續(xù)增加人數(shù),這一次畫面中大概有百來人。

原圖:



Nano Banana Pro 這次只完成了線條硬朗化,但真的一個(gè)人都沒落下。



總體而言,Nano Banana Pro 的畫風(fēng)轉(zhuǎn)換能力還是不如 GPT Image-1,但其有自己的特點(diǎn),Nano Banana Pro 的一大優(yōu)勢(shì)就在于對(duì)局部細(xì)節(jié)的精確刻畫,畢竟這項(xiàng)能力是通過死磕文字渲染得到的,可能因此使其對(duì)畫面整體把握度不夠。

在測(cè)評(píng)過程中也發(fā)現(xiàn)很多出問題的案例,Nano Banana Pro 是直接給你一個(gè)完全沒改過的圖像。目前大家對(duì)這些現(xiàn)象的猜測(cè)是模型的自回歸機(jī)制比重大于擴(kuò)散機(jī)制,也就是微調(diào)傾向大于重新繪制傾向。



接下來是對(duì)復(fù)雜指令遵循能力的測(cè)試,主要指一次性批量生成多個(gè)元素的能力,這也是當(dāng)時(shí) OpenAI 對(duì) GPT Image-1 模型的宣傳重點(diǎn),所以這個(gè)測(cè)試也是對(duì)標(biāo) GPT Image-1 的。

首先是直接批量生成 36 個(gè) 呈 6*6 網(wǎng)格排列的玩具機(jī)器人陣列,并且每個(gè)機(jī)器人的具體特征需要經(jīng)過進(jìn)一步推導(dǎo)才可得出,綜合考驗(yàn)推理能力和生圖能力,提示詞會(huì)列出機(jī)器人基于行的顏色特征和基于列的表面特征。

提示詞:

嚴(yán)格俯視(正上方正交/orthographic top-down),整齊排列的 6x6 網(wǎng)格(6 行 × 6 列),白色背景,細(xì)薄灰色網(wǎng)格線將每個(gè)單元格分隔開。每個(gè)單元格正中放置一個(gè)玩具機(jī)器人(總計(jì) 36 個(gè)),每個(gè)機(jī)器人都有**確定且唯一**的外形屬性和編號(hào)(兩位數(shù),從 01 到 36,編號(hào)以黑色或深灰色小字印在機(jī)器人底座或底盤一側(cè),清晰可辨)。

機(jī)器人風(fēng)格:復(fù)古玩具(懷舊機(jī)械/齒輪/鉚釘感),色彩鮮艷但材質(zhì)各異(按規(guī)則分配),每行和每列遵循確定性屬性映射(見下方規(guī)則),確保所有機(jī)器人互不重復(fù)。

嚴(yán)格保持頂視無透視變形(無魚眼、無傾斜),均勻平行光(自上而下)、細(xì)微柔和投影以顯示立體感但不改變頂視輪廓。

高分辨率、超細(xì)節(jié),8K 輸出(或更高),極致細(xì)節(jié)(紋理、螺絲、劃痕、貼紙、反光、鉚釘、漆面厚度等),無景深模糊。

畫面干凈:只出現(xiàn)機(jī)器人、網(wǎng)格線與白色背景。高保真、真實(shí)感玩具質(zhì)感 + 稍微卡通化的色彩飽和度。

確定性生成規(guī)則:

為了保證“每一個(gè)機(jī)器人都不同且可復(fù)現(xiàn)”,請(qǐng)按照下面規(guī)則組合屬性(行 × 列 的組合生成唯一外形):

行主色(Row 1 → Row 6,決定主色調(diào))

Row 1: 正紅(crimson)

Row 2: 橙黃(amber)

Row 3: 橙(tangerine)

Row 4: 黃(sunny yellow)

Row 5: 綠(emerald)

Row 6: 青(teal)

列材質(zhì)/表面處理(Column 1 → Column 6,決定材質(zhì)與整體質(zhì)感)

Col 1: 拋光金屬(polished steel)

Col 2: 拉絲鋁(brushed aluminum)

Col 3: 黃銅(brass)

Col 4: 鉻鍍層(chrome)

Col 5: 涂漆塑料(high-gloss painted plastic)

Col 6: 半透明塑料(translucent acrylic)

向上滑動(dòng)文字

Nano Banana Pro 和 GPT Image-1最終都沒有給出好的結(jié)果,在畫面比例選擇、網(wǎng)格編排、機(jī)器人編號(hào)、顏色行一致性、表面列一致性等方面都有問題,GPT Image-1 的表現(xiàn)更差。

Nano Banana Pro:



GPT Image-1:



下一步降低要求,把提示詞改為逐一描述每個(gè)機(jī)器人的特征,降低推理負(fù)擔(dān),比如第二行機(jī)器人的特征描述:

Row 2(橙 主色)

Robot 07 — 主色:橙;材質(zhì):拋光金屬。桶狀胸腔、豎直鉚釘排。

Robot 08 — 主色:橙;材質(zhì):拉絲鋁。立方胸腔,粗紋理拉絲面。

Robot 09 — 主色:橙;材質(zhì):黃銅。蝕刻花紋胸板。

Robot 10 — 主色:橙;材質(zhì):鉻鍍層。流線腿部,鉻色邊框。

Robot 11 — 主色:橙;材質(zhì):高光塑料。亮面大頭造型,塑料光澤強(qiáng)。

Robot 12 — 主色:橙;材質(zhì):半透明塑料。橙色半透明外殼,見內(nèi)層接縫。

Nano Banana Pro 大幅提高了生成質(zhì)量,畫面比例選擇、網(wǎng)格編排、機(jī)器人編號(hào)、顏色行一致性基本都沒有問題,表面列一致性上會(huì)有較大波動(dòng),但整體保持了相同的材質(zhì)和表面處理,不同列之間的差異也很明顯。



GPT Image-1 則幾乎沒有任何改善:



GPT Image-1 目前完敗,我們繼續(xù)給 Nano Banana Pro 上難度,按行且以以下三個(gè)特征為一個(gè)循環(huán),依次給每一個(gè)機(jī)器人再添加一個(gè)新特征:

  • 戴著圍巾/布條( scarf )。
  • 頭頂有發(fā)光燈泡/信號(hào)燈( beacon )。
  • 三指機(jī)械手( three-finger )。

比如:

Row 2(橙 主色)

Robot 07 — 主色:橙;材質(zhì):拋光金屬。桶狀胸腔、豎直鉚釘排。戴著圍巾/布條(scarf)。

Robot 08 — 主色:橙;材質(zhì):拉絲鋁。立方胸腔,粗紋理拉絲面。頭頂有發(fā)光燈泡/信號(hào)燈(beacon)。

Robot 09 — 主色:橙;材質(zhì):黃銅。蝕刻花紋胸板。三指機(jī)械手(three-finger)。

Robot 10 — 主色:橙;材質(zhì):鉻鍍層。流線腿部,鉻色邊框。戴著圍巾/布條(scarf)。

Robot 11 — 主色:橙;材質(zhì):高光塑料。亮面大頭造型,塑料光澤強(qiáng)。頭頂有發(fā)光燈泡/信號(hào)燈(beacon)。

Robot 12 — 主色:橙;材質(zhì):半透明塑料。橙色半透明外殼,見內(nèi)層接縫。三指機(jī)械手(three-finger)。

生成的結(jié)果既驚艷又令人遺憾,Nano Banana Pro幾乎已經(jīng)按照提示詞生成了每個(gè)機(jī)器人應(yīng)有的特征,但網(wǎng)格排列錯(cuò)誤且視覺混亂。



目前可以認(rèn)為 Nano Banana Pro 的復(fù)雜指令遵循能力,是比 GPT Image-1 更勝一籌的。



接下來是測(cè)試 Nano Banana Pro 以假亂真的能力。

在 AI 接連攻破各種圖片生成能力限制后,人類只能以圖片瑕疵和現(xiàn)實(shí)隨機(jī)性作為最后防線,但這道防線也變得越來越脆弱,所以這其實(shí)是在測(cè)試該模型的安全風(fēng)險(xiǎn)。

知危接連測(cè)試了監(jiān)控、老版數(shù)碼相機(jī)拍攝人物照片、手機(jī)拍攝物體照片、新聞屏幕,以及物理、化學(xué)、生物實(shí)驗(yàn)室拍攝等場(chǎng)景。

首先是監(jiān)控畫面的模擬,從圖中場(chǎng)景相關(guān)的線索比如香煙、拍攝時(shí)間、監(jiān)控標(biāo)識(shí)等很難發(fā)現(xiàn)問題,而最終找到的破綻竟然是畫面左下角不應(yīng)該朝向顧客的計(jì)算器。

提示詞:

便利店收銀臺(tái)視角的監(jiān)控畫面,低分辨率,色彩略微失真,一個(gè)戴著口罩的人正在買煙。



人物照片則是比較能感受到違和感,畢竟 AI 直接生成的人物通常面部油膩光感很強(qiáng),且特征比較趨同。

提示詞:

2000年代初的數(shù)碼相機(jī)拍攝,直射閃光燈,一群年輕朋友在一家昏暗的 KTV 里,紅眼效應(yīng),皮膚上的油光,背景漆黑。



不過若是基于真實(shí)照片生成,預(yù)計(jì)會(huì)很難辨認(rèn)。

對(duì)于手機(jī)拍攝的物體照片,其仿真度也很高。特別是 Nano Banana Pro 確實(shí)能做到讓物體的擺放足夠凌亂而自然,知危找到的唯一破綻是可樂瓶的文字寫倒了,但這通過微調(diào)也能輕松修改過來。

提示詞:

一張?jiān)趤y糟糟的床上拍的二手顯卡照片,床單皺皺巴巴,旁邊還有雜亂的充電線和半瓶可樂,頂燈光線昏暗。



這個(gè)照片的拍攝角度其實(shí)不是特別自然,可以讓 Nano Banana Pro 切換視角,生成效果也是一致性驚人,精確到每一個(gè)褶皺,還順便把可樂瓶的文字給修正了。



看來,往后很多二手平臺(tái)、評(píng)論區(qū)照片的真實(shí)性都需要更謹(jǐn)慎判斷了。

不僅是照片,連一段新聞是不是真的存在,可能也得多求證一番,為此知危也測(cè)試了這個(gè)場(chǎng)景。畫面幾乎無可挑剔,連摩爾紋都清晰地呈現(xiàn)了。

提示詞:

電視新聞畫面的屏攝(用手機(jī)拍電視屏幕),能看到屏幕的像素摩爾紋,新聞底部有滾動(dòng)字幕條,一個(gè)記者在街頭采訪。



測(cè)試實(shí)驗(yàn)室拍攝場(chǎng)景的仿真能力,主要是測(cè)試面向科研領(lǐng)域的安全風(fēng)險(xiǎn)??蒲蓄I(lǐng)域是最嚴(yán)謹(jǐn)?shù)孬@取新數(shù)據(jù)和新知識(shí)的場(chǎng)景,如果這道防線被攻破,人類將不自知地被困在 AI 生成數(shù)據(jù)的牢籠中,科研數(shù)據(jù)不再有新穎性或已有規(guī)律下的隨機(jī)性,那才是真正被智子封鎖了人類的科技發(fā)展。

當(dāng)然這里測(cè)試的更多是比較初級(jí)的科研場(chǎng)景,不然知危沒有足夠的專業(yè)知識(shí)來判斷真?zhèn)巍?/p>

在物理實(shí)驗(yàn)場(chǎng)景中,有一個(gè)很經(jīng)典的實(shí)驗(yàn),就是用一顆子彈穿過蘋果,觀察蘋果的物理反應(yīng)和變化。



在實(shí)際實(shí)驗(yàn)情況下,蘋果潑濺的碎片是近乎粉末狀的。



圖源:
https://www.youtube.com/watch?v=jjUTZH_Vdxs(視頻發(fā)布于18年前)

但 Nano Banana Pro 生成的圖像( 先不管不合理的攝像頭 ),蘋果潑濺的碎片卻像是切好的蘋果塊。

提示詞:

一顆子彈高速穿過一顆蘋果的瞬間。實(shí)驗(yàn)室實(shí)拍,分辨率較低。



Nano Banana Pro 還能生成子彈穿過梨的圖像,至于是否足夠仿真暫時(shí)無法判斷,知危沒有找到類似的實(shí)驗(yàn)視頻來比較。

提示詞:

一顆子彈高速穿過一顆梨的瞬間。實(shí)驗(yàn)室實(shí)拍,分辨率較低。



在接下來的化學(xué)實(shí)驗(yàn)、生物實(shí)驗(yàn)仿真測(cè)試中,Nano Banana Pro 的表現(xiàn)也是驚人的。

提示詞:

鋁粉與氧化鐵(鐵銹)在高溫下發(fā)生劇烈的氧化還原反應(yīng),火花四濺,實(shí)驗(yàn)室實(shí)拍,分辨率較低。



提示詞:

培養(yǎng)皿中的細(xì)菌菌落特寫,瓊脂表面有反光,菌落呈現(xiàn)不規(guī)則的圓形,邊緣有絨毛感。實(shí)驗(yàn)室實(shí)拍,分辨率較低。



以上種種場(chǎng)景,如果以后都要依賴人類靠肉眼去判斷,不僅難度大,也非常消耗時(shí)間精力。

這就不得不慶幸谷歌已經(jīng)推出了安全功能,Nano Banana Pro 會(huì)給每一張生成圖像添加的不可見獨(dú)特 SynthID 水印,讓用戶可以用 Gemini 直接檢驗(yàn)圖像是否由 Nano Banana Pro 生成。



空間感可謂是 Nano Banana Pro 的招牌能力,類似 GPT Image-1 的畫風(fēng)轉(zhuǎn)換目前牢不可破的 “ 江湖地位 ”。

網(wǎng)上已經(jīng)有很多例子了,知危這里只是用比較困難的場(chǎng)景再給 Nano Banana Pro 再上上難度。

比如對(duì)于下圖,要求 Nano Banana Pro 畫出從左向右觀察的鳥瞰視圖。



圖源:
https://unsplash.com/photos/a-view-of-a-city-with-a-bridge-in-the-background-ZuxmKH6sCz8

Nano Banana Pro 最終沒有執(zhí)行成功,而是給出了和原圖一樣的輸出。



通過查看推導(dǎo)過程,發(fā)現(xiàn) Nano Banana Pro 可以認(rèn)出圖中中央位置的大橋是曼哈頓大橋。



知危又替換了新的提示詞:

畫出從這張圖的中央位置的大橋的左端駕車前進(jìn)的視圖。

這個(gè)任務(wù)其實(shí)更加困難,但 Nano Banana Pro 卻執(zhí)行成功了,雖然觀察視角并不是真的在車上。當(dāng)然圖中也出現(xiàn)了很明顯的幻覺,右側(cè)的大樓其實(shí)不存在,那是建好的曼哈頓廣場(chǎng)一號(hào),正好就是左側(cè)正在施工中的大樓。



對(duì)現(xiàn)實(shí)中的圖片做空間轉(zhuǎn)換有過度依賴訓(xùn)練數(shù)據(jù)的可能,比如從谷歌地圖的全景照也能找到類似上圖幻覺部分的視角。



為了擺脫這個(gè)依賴,我們?cè)僬乙恍┈F(xiàn)實(shí)中未建成的建筑設(shè)計(jì)圖來考考 Nano Banana Pro 。

比如下圖是出自伊斯坦布爾 Hayri Atak 建筑設(shè)計(jì)工作室的作品,其建筑形態(tài)很罕見,借鑒了生物細(xì)胞結(jié)構(gòu)。



當(dāng)要求 Nano Banana Pro 畫出這張建筑的空中鳥瞰視圖,結(jié)果很不錯(cuò),建筑內(nèi)部四個(gè)交叉通道的空間細(xì)節(jié)都有考慮到,周邊建筑的細(xì)節(jié)也沒毛病。但陽光和陰影的呈現(xiàn)表明建筑左側(cè)是不透光的,這里其實(shí)有誤。



當(dāng)再要求畫出建筑的空中鳥瞰左視圖,對(duì)內(nèi)部結(jié)構(gòu)的呈現(xiàn)就出現(xiàn)了比較嚴(yán)重的錯(cuò)誤,通道的連接不再是交叉的而是近乎無規(guī)則的。



總之,對(duì)于空間智能,谷歌邁出了很重要的一小步,且有數(shù)據(jù)優(yōu)勢(shì)( 視頻、地圖等 ),但未來還有很長(zhǎng)的路要走。



最后一個(gè)測(cè)試場(chǎng)景是重頭戲!

我們要考驗(yàn) Nano Banana Pro 的長(zhǎng)上下文感知能力,類似 PPT 生成需要保持多圖一致性,并且該場(chǎng)景更有趣,是用五張橫版圖片拼接而成的《 清明上河圖 》畫風(fēng)的、展現(xiàn)明朝或唐朝時(shí)期的長(zhǎng)江流域風(fēng)景與民俗風(fēng)情的新版《 清明上河圖 》。

要知道,原版《 清明上河圖 》刻畫的只有一個(gè)城市,也就是北宋都城汴京( 今河南開封 )的汴河兩岸繁華景象,現(xiàn)在要切換到整個(gè)長(zhǎng)江流域,跨度差距非常大,很考驗(yàn)?zāi)P偷某橄竽芰桶殉橄蟾拍罹呦窕哪芰?/strong>,并且結(jié)合中國(guó)古畫 “ 在意不在形 ” 的特點(diǎn)( 在我們這個(gè)測(cè)試中通俗理解就是,畫中場(chǎng)景一般不存在現(xiàn)實(shí)中,且有諸多不合理之處,但能表達(dá)作者的意圖 )。

在實(shí)現(xiàn)過程中,知危還會(huì)先用 Nano Banana Pro 先做整個(gè)項(xiàng)目的藍(lán)圖,再逐一生成五張成圖,相當(dāng)于把知識(shí)科普能力融入到復(fù)雜生圖項(xiàng)目工作流的規(guī)劃階段。

在藍(lán)圖規(guī)劃中,Nano Banana Pro 對(duì)地理版圖的刻畫可謂相當(dāng)精準(zhǔn)。

提示詞:

時(shí)間背景為明朝1587年,把長(zhǎng)江劃分為5段,用橫版歷史科普?qǐng)D的方式展示,以長(zhǎng)江主河道為脈絡(luò)(抽象化為直線),用文字和圖像標(biāo)注每一段的端點(diǎn)地理特征(比如城市、山脈等)、沿岸主要城市和民俗風(fēng)情。



為了生成這幅明朝長(zhǎng)江版《 清明上河圖 》的第一張,知危要求 Nano Banana Pro 只將第一段轉(zhuǎn)換成清明上河圖畫風(fēng),即 “ 金沙江至敘州 ” 部分,并且為了讓五張圖片能夠首尾連接,要求長(zhǎng)江從圖片左側(cè)流向右側(cè)。

Nano Banana Pro 在圖像左側(cè)展現(xiàn)了長(zhǎng)江的源頭:白雪皚皚的山峰、牦牛和茶馬商隊(duì),體現(xiàn)了藏族和彝族文化。圖像右側(cè)則聚焦于敘州,描繪了城墻、熙熙攘攘的碼頭、餐館和熱鬧的集市,以及眾多活躍的人物。江面上也充滿生機(jī),描繪了貨輪、小渡船和船夫,展現(xiàn)一幅繁榮的貿(mào)易景象。

提示詞:

請(qǐng)將“上游一段:金沙江至敘州”部分轉(zhuǎn)換成清明上河圖畫風(fēng),橫版圖片,長(zhǎng)江從圖片左側(cè)流入,從圖片右側(cè)流出。



生成第二張圖即 “ 上游二段:敘州至夷陵”部分的提示詞是類似的形式,需要加一句“與上一段首尾連接 ”。

Nano Banana Pro 重點(diǎn)刻畫了長(zhǎng)江的奔流以及三峽的壯麗景色,畫面中還點(diǎn)綴著精致的船只,并在右側(cè)過渡到夷陵。

提示詞:

請(qǐng)將“上游二段:敘州至夷陵”部分轉(zhuǎn)換成清明上河圖畫風(fēng),橫版圖片,長(zhǎng)江從圖片左側(cè)流入,從圖片右側(cè)流出,并且圖片左側(cè)與“上游一段:金沙江至敘州”部分的圖片右側(cè)銜接。



在第三張圖 “ 中游:夷陵至九江 ” 部分,Nano Banana Pro 刻畫了更加繁榮的城市景象,融入了沿河生活和商業(yè)的豐富細(xì)節(jié),河流蜿蜒穿過山巒和富饒的平原,形形色色的船只在繁忙的水道上來往。



在第四張圖 “ 下游:九江至應(yīng)天 ” 部分,Nano Banana Pro 生成的內(nèi)容感覺和第三張重復(fù)太多。



在第五張圖 “ 入海口:應(yīng)天至東海 ” 部分,Nano Banana Pro 采用更廣闊的視角,展現(xiàn)了長(zhǎng)江入??诘木跋?,并過渡到了三角洲景觀,最后以東海的景色結(jié)束。



可以看出,這五張畫作的畫風(fēng)一致性很強(qiáng),并呈現(xiàn)和區(qū)分了長(zhǎng)江流域不同河段的地理特點(diǎn),人物分布非常密集,細(xì)看也能看出他們是真的在忙活,活靈活現(xiàn)。

如果把它們首尾拼接,雖說不能完美銜接,卻也真的有自然過渡的效果。











以上案例已經(jīng)非常接近完美,但更多是視覺娛樂,如果是為了教育目的,則目前對(duì)知識(shí)細(xì)節(jié)比如民俗的呈現(xiàn)其實(shí)不夠明確。

為此,我們提高對(duì)明確信息的要求,讓 Nano Banana Pro 在每一段呈現(xiàn) 5 個(gè)民俗點(diǎn),并寫一首七言絕句,以唐朝為背景。

強(qiáng)調(diào)明確信息的結(jié)果是,Gemini 可能覺得任務(wù)復(fù)雜,先調(diào)用 Gemini 3 Pro 分析了一番。



可能是因?yàn)橹R(shí)密度更高,Nano Banana Pro 選擇了抽象的概念圖而不是地理圖來呈現(xiàn)。

提示詞:

時(shí)間背景為唐朝636年,把長(zhǎng)江劃分為5段,用橫版歷史科普?qǐng)D的方式展示,以長(zhǎng)江主河道為脈絡(luò)(抽象化為直線),用文字和圖像標(biāo)注每一段的端點(diǎn)地理特征(比如城市、山脈等)、沿岸主要城市和民俗風(fēng)情(每段至少5個(gè)),并給每一段基于民俗風(fēng)情寫一首七言絕句。



最終成圖中,Nano Banana Pro 生成的幾乎每一個(gè)人物細(xì)節(jié)都是可辨識(shí)的知識(shí)點(diǎn),比如第一張圖的吹羌笛、牦牛運(yùn)輸?shù)龋恳粡垐D之間的區(qū)分度也更高了。不過對(duì)比之下,人物數(shù)量少了很多。

以下知危將 Gemini 3 Pro 列舉的民俗風(fēng)情與對(duì)應(yīng)畫作呈現(xiàn)出來,大家可以細(xì)看匹配程度。

“ 第一段:雪域清源·羌藏高原 ” 民俗風(fēng)情:

  • 羌笛悠揚(yáng):居住在岷山一帶的羌人吹奏羌笛,聲音蒼涼,寄托思鄉(xiāng)之情。
  • 游牧生活:吐蕃部族逐水草而居,住黑牦牛毛帳篷,以乳酪、肉食為主。
  • 牦牛運(yùn)輸:高寒山路上,耐寒負(fù)重的牦牛是唯一的駝運(yùn)工具。
  • 原始苯教:對(duì)自然神靈、神山圣湖的崇拜信仰,進(jìn)行祭祀活動(dòng)。
  • 毛紡織藝:利用牛羊毛紡織毪子(毛毯)、褐衫等御寒衣物。



“ 第二段:巴山蜀水·川江號(hào)子 ” 民俗風(fēng)情:

  • 川江號(hào)子:船工們?cè)陔U(xiǎn)灘惡水中齊力拉纖、劃槳時(shí)吼唱的勞動(dòng)號(hào)子,聲震峽谷。
  • 井鹽生產(chǎn):蜀地(如陵州、富順)利用竹筒汲取地下鹵水,用天然氣熬制食鹽。
  • 蜀錦織造:成都平原生產(chǎn)的絲織品,工藝精湛,圖案華麗,為唐代貢品。
  • 棧道交通:在沿江絕壁上開鑿孔穴、鋪設(shè)木板而成的險(xiǎn)要通道。
  • 竹枝詞風(fēng):流行于巴渝民間的歌謠,常以笛、鼓伴奏,描寫當(dāng)?shù)仫L(fēng)土人情。



“ 第三段:峽江天險(xiǎn)·猿啼巫云 ” 民俗風(fēng)情:

  • 纖夫拉纖:逆水經(jīng)過險(xiǎn)灘時(shí),數(shù)十名纖夫在岸邊巖石上赤身裸體、肩拉背拽。
  • 巫山神女:巫山十二峰云霧繚繞,關(guān)于神女瑤姬的美麗傳說引人遐想。
  • 兩岸猿聲:峽谷兩岸森林茂密,常有猿猴攀援啼叫,聲音空曠凄清。
  • 險(xiǎn)灘祭江:船只過青灘、泄灘等著名險(xiǎn)灘前,船家祭拜江神求平安。
  • 白帝城懷古:夔州白帝城,因三國(guó)劉備托孤的故事而成為文人憑吊之地。



“ 第四段:云夢(mèng)澤國(guó)·荊楚魚米 ” 民俗風(fēng)情:

  • 云夢(mèng)大澤:唐初江漢平原上湖泊眾多,尚未完全淤塞,呈現(xiàn)“云夢(mèng)澤”的水鄉(xiāng)澤國(guó)景觀。
  • 龍舟競(jìng)渡:荊楚之地紀(jì)念屈原的風(fēng)俗極盛,端午節(jié)在江面舉行賽龍舟活動(dòng)。
  • 魚米之鄉(xiāng):氣候濕潤(rùn),土地肥沃,水稻種植發(fā)達(dá),漁業(yè)資源極豐富。
  • 采菱唱曲:江南女子劃著小盆船在湖中采摘菱角,口唱清新的菱歌。
  • 黃鶴樓宴飲:鄂州(今武漢)黃鶴樓是文人墨客登高望遠(yuǎn)、宴飲賦詩(shī)的名勝。



“ 第五段:吳越水鄉(xiāng)·揚(yáng)一益二 ” 民俗風(fēng)情:

  • 揚(yáng)州繁華:當(dāng)時(shí)中國(guó)最繁華的商業(yè)都會(huì),號(hào)稱“揚(yáng)一益二”,夜市喧鬧,胡商云集。
  • 運(yùn)河漕運(yùn):隋唐大運(yùn)河江南河段與長(zhǎng)江在此交匯,南糧北運(yùn),舟船如織。
  • 江南絲綢:吳綾、越羅等絲織品品質(zhì)上乘,色彩輕盈,遠(yuǎn)銷海內(nèi)外。
  • 寺院鐘聲:繼承南朝佛教傳統(tǒng),沿江城市寺廟林立,晨鐘暮鼓,香火鼎盛。
  • 茶葉貿(mào)易:江南茶區(qū)(如湖州、常州)興盛,茶葉通過便捷水路運(yùn)往全國(guó)各地。



總體來看,Nano Banana Pro 的長(zhǎng)上下文感知能力還是很驚人的,前后一致性和自然銜接,世界知識(shí)的融入,對(duì)指令遵循的細(xì)節(jié)程度,幫助我們完成了這幅紛繁復(fù)雜的作品。











好了,本次評(píng)測(cè)就到這里了。這次測(cè)評(píng)并不是為了證明 Nano Banana Pro 不夠好,而是盡可能以 “ 能力邊界 ” 作為切入點(diǎn),看它在頭部競(jìng)品對(duì)標(biāo)、復(fù)雜性、真實(shí)性、多輪一致性等更極端的場(chǎng)景中到底能走多遠(yuǎn)。

可以看到,它在畫風(fēng)轉(zhuǎn)換上的整體性、完成度和穩(wěn)定性不如 GPT Image-1,但在元素批量生成、細(xì)節(jié)保持、多視角一致性方面展現(xiàn)出了驚喜般的優(yōu)勢(shì);在仿真類場(chǎng)景中,其以假亂真的能力也已經(jīng)觸及安全性的臨界區(qū),除了谷歌自身應(yīng)承擔(dān)的責(zé)任和應(yīng)對(duì)手段,也需要行業(yè)進(jìn)一步思考防范機(jī)制。

從更宏觀的角度看,Nano Banana Pro 畫新版《 清明上河圖 》的完成度以及生成 PPT 的能力,讓我們意識(shí)到一個(gè)很自然的趨勢(shì),未來的生圖模型不再只是一次性 “ 把提示詞畫出來 ”,而是深度結(jié)合上下文以及 Agentic 化,類似于編程模型的發(fā)展路徑,不斷嵌入到更復(fù)雜、更核心的項(xiàng)目工作流中。

總之,Nano Banana Pro 是一款極具潛力、但也需要被認(rèn)真認(rèn)識(shí)的下一代模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗下這步棋,打算拉全世界一起陪葬?

伊朗下這步棋,打算拉全世界一起陪葬?

販財(cái)局
2026-03-01 21:52:02
全軍啟用預(yù)備役人員證

全軍啟用預(yù)備役人員證

界面新聞
2026-03-01 10:34:50
羅永浩不知要卸妝一年沒卸 結(jié)果長(zhǎng)了黃褐斑 現(xiàn)狀已失控

羅永浩不知要卸妝一年沒卸 結(jié)果長(zhǎng)了黃褐斑 現(xiàn)狀已失控

快科技
2026-03-02 09:27:07
有了AI,春節(jié)檔最省錢的一年出現(xiàn)了

有了AI,春節(jié)檔最省錢的一年出現(xiàn)了

橘子娛樂
2026-02-17 19:06:36
不得不佩服,中國(guó)的戰(zhàn)略眼光,還是很敏銳的!

不得不佩服,中國(guó)的戰(zhàn)略眼光,還是很敏銳的!

達(dá)文西看世界
2026-03-02 18:40:02
娛樂圈的對(duì)賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國(guó)立

娛樂圈的對(duì)賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國(guó)立

林輕吟
2026-03-01 19:35:00
明明手上沒權(quán),為什么內(nèi)賈德還非死不可?真相遠(yuǎn)非復(fù)仇那么簡(jiǎn)單

明明手上沒權(quán),為什么內(nèi)賈德還非死不可?真相遠(yuǎn)非復(fù)仇那么簡(jiǎn)單

李健政觀察
2026-03-02 11:51:27
面對(duì)霍爾姆茨海峽的封鎖,中國(guó)準(zhǔn)備好了嗎?

面對(duì)霍爾姆茨海峽的封鎖,中國(guó)準(zhǔn)備好了嗎?

勝研集
2026-03-02 12:20:33
江蘇一光伏企業(yè)宣布裁員!

江蘇一光伏企業(yè)宣布裁員!

新浪財(cái)經(jīng)
2026-03-02 18:11:34
大S兩娃去醫(yī)院探望后媽馬筱梅照片曝光,網(wǎng)友感嘆滿屏討好的客氣

大S兩娃去醫(yī)院探望后媽馬筱梅照片曝光,網(wǎng)友感嘆滿屏討好的客氣

安寧007
2026-02-28 21:48:25
特朗普苦等4天中方終于回信,對(duì)美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對(duì)美開出兩大條件,做不到訪華免談

安珈使者啊
2026-03-01 12:15:35
窮可以讓一個(gè)女人卑微到什么程度?看網(wǎng)友的評(píng)論引起萬千共鳴

窮可以讓一個(gè)女人卑微到什么程度?看網(wǎng)友的評(píng)論引起萬千共鳴

夜深愛雜談
2026-03-01 21:28:54
上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

新民晚報(bào)
2026-03-02 14:52:26
出事了,戰(zhàn)爭(zhēng)形勢(shì)不妙!

出事了,戰(zhàn)爭(zhēng)形勢(shì)不妙!

君臨策
2026-03-02 19:16:06
科威特“一戰(zhàn)封神”:擊落3架F-15!美軍司令部已承認(rèn)損失

科威特“一戰(zhàn)封神”:擊落3架F-15!美軍司令部已承認(rèn)損失

戰(zhàn)風(fēng)
2026-03-02 20:13:20
荷蘭半導(dǎo)體專家:ASML花費(fèi)40年鉆研光刻機(jī),中國(guó)企業(yè)竟比ASML還狠

荷蘭半導(dǎo)體專家:ASML花費(fèi)40年鉆研光刻機(jī),中國(guó)企業(yè)竟比ASML還狠

策略述
2026-02-28 17:11:40
現(xiàn)貨黃金失守5320美元/盎司

現(xiàn)貨黃金失守5320美元/盎司

每日經(jīng)濟(jì)新聞
2026-03-02 09:06:28
馬斯克變性女兒亮相米蘭時(shí)裝周,姿勢(shì)怪異男相明顯,堪稱辣眼睛

馬斯克變性女兒亮相米蘭時(shí)裝周,姿勢(shì)怪異男相明顯,堪稱辣眼睛

電影偵探社
2026-03-01 16:36:05
日本模特阿部夏樹身材惹火,網(wǎng)友:這傲人胸圍是真實(shí)存在的嗎?

日本模特阿部夏樹身材惹火,網(wǎng)友:這傲人胸圍是真實(shí)存在的嗎?

娛樂領(lǐng)航家
2026-03-02 19:00:03
3月30日起執(zhí)行!國(guó)務(wù)院824號(hào)令:農(nóng)村土葬老墳處置規(guī)則與權(quán)益保護(hù)

3月30日起執(zhí)行!國(guó)務(wù)院824號(hào)令:農(nóng)村土葬老墳處置規(guī)則與權(quán)益保護(hù)

三農(nóng)雷哥
2026-02-26 19:39:24
2026-03-02 22:52:49
知危 incentive-icons
知危
投資不立危墻之下
541文章數(shù) 1833關(guān)注度
往期回顧 全部

數(shù)碼要聞

內(nèi)存價(jià)格創(chuàng)下歷史記錄 手機(jī)漲價(jià)潮最快一周內(nèi)“殺到”

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

數(shù)碼
本地
健康
教育
公開課

數(shù)碼要聞

安克250W六口桌面充首發(fā)849元:4C+2A 配2.26寸LCD屏

本地新聞

津南好·四時(shí)總相宜

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

石室小學(xué)育賢分校:騏驥少年馭“機(jī)”而上 科技體育點(diǎn)亮校園新程

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版