国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nano Banana團(tuán)隊談產(chǎn)品和圖像模型:希望各種模態(tài)能融合在一起

0
分享至

在美國紅點創(chuàng)投的播客Unsupervised Learning最新一期節(jié)目中,紅點創(chuàng)投合伙人Jacob Effron對話了負(fù)責(zé)Nano Banana的兩位Google研究員Nicole Brichtova和Oliver Wang。討論認(rèn)為,Nano Banana的流行,歸功于這款模型實現(xiàn)了前所未有的“角色一致性”。

Nano Banana在8月26日“匿名”發(fā)布,后來證明這款模型就是谷歌的Gemini 2.5 Flash Image模型。Nano Banana的成功也使得谷歌的Gemini APP的下載量飆升。

據(jù)應(yīng)用數(shù)據(jù)分析公司Appfigures提供的最新數(shù)據(jù),這款應(yīng)用已經(jīng)攀升至全球應(yīng)用商店排行榜的榜首,并且在九月份下載量環(huán)比增長了45%。雖然九月份才過了一半,Gemini應(yīng)用本月已經(jīng)獲得了1260萬次下載,遠(yuǎn)高于八月份的870萬次。在此之前,Gemini僅在2025年1月28日達(dá)到過美國App Store的第三名。谷歌母公司Alphabet(GOOG.US)在8月26日至9月17日收盤的股價漲幅為19.56%。

Gemini下載量數(shù)據(jù)(來源:Appfigures、TechCrunch)

在產(chǎn)品之外,這期播客訪談內(nèi)容涵蓋了模型如何融入創(chuàng)意工作流程,為什么盡管當(dāng)前AI圖像能力已經(jīng)讓人感覺很強大但“仍處于AI圖像發(fā)展的早期階段”,以及圖像與視頻生成如何正趨向統(tǒng)一。

在訪談中,Nicole Brichtova和Oliver Wang分還享了當(dāng)前模型的局限性、安全策略,以及為什么“從提示一步到生成可直接用于生產(chǎn)的內(nèi)容”這一期待其實被嚴(yán)重高估了。

以下為「明亮公司」編譯的訪談?wù)模ㄓ袆h節(jié)):

Nicole(左)、Oliver(中),主持人Jacob(右)

Nano Banana的成功歸功于角色的一致性

Jacob:Nicole和Oliver,非常感謝你們來到節(jié)目。我一直很期待這次對話。感覺你們已經(jīng)占據(jù)了我整個Twitter動態(tài)、還有我所有的空閑時間,都是Nano Banana。

今天我們會深入探討很多話題。也許我們可以先從這個問題開始——你們在產(chǎn)品和模型發(fā)布前就已經(jīng)接觸并體驗了它,我記得最初可能是匿名發(fā)布的。但你們是最早一批玩轉(zhuǎn)它的人,我很好奇,你們最初認(rèn)為哪些用例會最流行或讓你們最興奮?而現(xiàn)在發(fā)布后,實際情況又如何?

Nicole:Oliver已經(jīng)見過很多我臉部的各種迭代圖片。對我來說,最激動人心的是角色一致性,以及能在新場景中看到自己——所以我真的有一堆幻燈片,都是我的臉,比如通緝海報、考古學(xué)家,還有我童年夢想的職業(yè)。

基本上,我們現(xiàn)在創(chuàng)建了一個包含我的臉和團(tuán)隊其他成員的評估數(shù)據(jù)集,每當(dāng)我們開發(fā)新模型時都會用來測試。

Jacob:在AI領(lǐng)域,這簡直是最高榮譽了。

Nicole:我真的很興奮。所以我非??粗亟巧恢滦?,因為它給了人們一種全新的方式去想象自己,以前很難做到。這也是大家最終非常激動的原因之一。我們看到很多人把自己變成了手辦,這是非常受歡迎的用例之一。還有一個讓我感到驚喜但其實也合理的用法——人們?yōu)槔险掌仙?,這是非常有情感價值的用例。比如:現(xiàn)在我能看到自己小時候真實的樣子,或者能看到父母從黑白照片中還原出來的真實模樣。

Jacob:這真的很有趣。我相信看到大家的各種用法也是你們擁有熱門產(chǎn)品的樂趣之一。我在Twitter上也見過,你們一定收到無數(shù)功能請求吧?每個人都希望模型能做這或那。最常見的需求有哪些?你們?nèi)绾慰创@些產(chǎn)品和模型的下一個里程碑或發(fā)展的方向?

Nicole:Twitter上最多的需求是更高分辨率。目前很多專業(yè)用戶都在請求1K分辨率以上的圖像。還有很多請求希望支持透明背景,這是專業(yè)用戶很常見的需求。這兩點是我見到最多的,還有更好的文本渲染。

Jacob:角色一致性曾經(jīng)是很難解決的大問題,你們在這方面做得非常棒。你們認(rèn)為圖像模型改進(jìn)的下一個前沿是什么?

Oliver:對我來說,這個模型最令人興奮的一點是它可以開始接受更難的問題。以前你必須定義你想要的圖像的每個細(xì)節(jié),現(xiàn)在你可以像問語言模型一樣尋求幫助。例如,有人用它來重新裝修房間,但自己沒有主意,讓模型給出建議。模型能根據(jù)配色方案等給出合理建議。

我認(rèn)為最有趣的是結(jié)合語言模型的世界知識,讓圖像模型真正幫助用戶,甚至展示他們沒想到的東西。比如信息檢索請求——我想知道某個東西是如何工作的,模型能生成解釋圖片。我覺得這是未來很重要的用例。

Jacob:在這方面進(jìn)展如何?

Oliver:審美方面始終比較棘手,因為需要深度個性化才能給出有用的信息。我認(rèn)為個性化是技術(shù)側(cè)還在不斷改進(jìn)的領(lǐng)域。我們還需要一段時間才能真正理解用戶的需求,但如果能和模型對話,不斷澄清和細(xì)化,我覺得很令人期待。比如可以在對話線程中反復(fù)溝通,直到生成你想要的圖片。

Jacob:你覺得個性化會只發(fā)生在提示層面嗎?就是通過足夠的描述,給模型足夠的上下文來實現(xiàn)個性化?還是大家會有不同的美學(xué)模型?

Oliver:我認(rèn)為會更多發(fā)生在提示層面。比如用戶告訴你的信息,可以讓我們做出更明智的決策。希望能這樣,畢竟每個人都有自己的模型并分別服務(wù),聽起來很復(fù)雜,但也許未來就是這樣。

Nicole:但我確實認(rèn)為美學(xué)會有很大差異。我覺得在某種程度上,個性化必須在那個層面實現(xiàn)。你在Google購物標(biāo)簽頁就能看到,比如你在找毛衣,系統(tǒng)會給你推薦一堆,但你其實希望聚焦于自己的美學(xué),甚至能從你的衣柜中選出搭配。我希望這些都能在模型的上下文窗口里實現(xiàn)。我們應(yīng)該能把你衣柜里的圖片喂給模型,然后幫你找出合適的搭配。我對此很期待,希望能做到。也許還需要更高級的美學(xué)控制,但我覺得那可能更多發(fā)生在專業(yè)用戶層面。

在語言模型領(lǐng)域,甚至在圖像領(lǐng)域,很多決定其實都取決于預(yù)訓(xùn)練時用的數(shù)據(jù),這直接影響了模型的最終能力和美學(xué)風(fēng)格。所以我也很好奇,未來會不會有一個萬能模型,通過提示就能覆蓋所有圖像用例?還是會有各種風(fēng)格的模型?

Nicole:我們一直對現(xiàn)成模型能支持的用例范圍感到驚訝。你說得很對,很多面向消費者的用例,比如你只是想畫出房間的效果圖,這些都可以。但一旦進(jìn)入更高級的功能,就需要集成其他工具來讓它成為最終產(chǎn)品,在營銷或設(shè)計等工作流程中發(fā)揮作用。

Jacob:大家肯定很好奇,這些模型為什么會變得這么好?

Nicole:有很多特別的原因。

Oliver:其實沒有某個單一因素,而是把所有細(xì)節(jié)都做好了,真正調(diào)試好配方,還要有一個長期專注于這個問題的團(tuán)隊。我們其實也被模型的成功程度嚇了一跳。我們知道模型很酷,很期待發(fā)布。但當(dāng)我們在LM Arena上線后,不僅Elo分?jǐn)?shù)很高,這當(dāng)然很好。分?jǐn)?shù)高是模型有用的好跡象,但對我來說,真正的指標(biāo)是有大量用戶涌入LM Arena使用模型。我們不得不不斷增加每秒查詢量,完全沒預(yù)料到。這是第一次意識到,這確實是非常有用的東西。有很多人都需要這樣的模型。

上線后Nano Banana的Elo分?jǐn)?shù)明顯領(lǐng)先(來源:LM Arena網(wǎng)站)

Jacob:我覺得這是這個生態(tài)系統(tǒng)最有趣的部分。你們自己構(gòu)建模型時有些預(yù)期,但只有真正發(fā)布到用戶手中,才能發(fā)現(xiàn)它的強大和影響力,這次顯然引發(fā)了巨大反響。

顯然,模型的推理能力很大程度上受益于語言模型本身的進(jìn)步。你能否介紹一下圖像模型從語言模型進(jìn)步中獲得了多少好處?你認(rèn)為這種趨勢會隨著LLM發(fā)展繼續(xù)嗎?

Oliver:當(dāng)然受益,幾乎100%依賴語言模型的世界知識。比如Gemini 2.5 Flash Image(就是這個模型的名字)。

Jacob:名字有趣一點就好了。

Nicole:(Nano Banana)確實更容易讀。

Oliver:我有點好奇我們的成功是不是因為大家喜歡說Nano Banana這個名字。但它確實是Gemini模型的一部分,你可以像和Gemini對話一樣和它交流,它懂Gemini懂的所有東西。這是這些模型邁向?qū)嵱眯缘年P(guān)鍵一步,就是和語言模型整合。

Nicole:你可能還記得,兩三年前你必須非常具體地描述需求。比如“桌子上的貓,背景是什么,這些顏色”,現(xiàn)在不用那么詳細(xì)了。很大原因就是語言模型變得更強了。

Jacob:不再是后臺魔法提示轉(zhuǎn)換了。以前你輸入一句話,系統(tǒng)會自動擴(kuò)展成十句話的詳細(xì)提示,現(xiàn)在模型本身就足夠聰明,能理解你的意圖,這真的很讓人興奮。

如何打磨產(chǎn)品、多模態(tài)和語音AI的潛力

Jacob:從產(chǎn)品角度看,你們有各種不同類型的用戶。有些是專家,一上線就去LM Arena玩模型,他們很懂怎么用;還有很多普通Gemini用戶,面對“空白畫布”完全不知道該做什么。你們是怎么考慮為這兩類用戶打造產(chǎn)品的?

Nicole:我們還有很多可以做的。你說得對,LM Arena的用戶和開發(fā)者都很專業(yè),能用這些工具創(chuàng)造我們沒想到的新用例。比如有人在照片里把物體變成全息影像,我們根本沒訓(xùn)練過這種場景,但模型表現(xiàn)得很好。對于普通消費者來說,易用性極其重要?,F(xiàn)在你進(jìn)入Gemini應(yīng)用,會發(fā)現(xiàn)到處都是香蕉表情。我們這么做是因為大家聽說Nano Banana后去找,但應(yīng)用里沒有明顯入口。

我們做了很多工作,比如和創(chuàng)作者合作預(yù)置一些用例,放出直接鏈接到Gemini應(yīng)用的示例,提示會自動填充。我覺得“零狀態(tài)”問題還有很大改進(jìn)空間,比如用視覺引導(dǎo)用戶。未來還可以讓手勢成為編輯圖片的方式,不只是靠文字提示。

有時你想要很具體的效果,還是需要很長的提示,但這對大多數(shù)用戶來說并不自然。所以我會用“父母測試法”——如果我父母能用,那就合格了,現(xiàn)在還沒做到,所以還有很長路要走。

很多問題其實就是要“展示而不是講述”,給用戶易于復(fù)制的示例,讓分享變得簡單。沒有一個魔法答案,需要多方面共同努力。

Oliver:我們還發(fā)現(xiàn)社交分享在解決“空白畫布”問題上很重要。用戶看到別人做的東西,因為模型默認(rèn)就能個性化,可以用自己的照片、朋友、寵物嘗試,非常容易就能模仿,這也是模型傳播的重要方式。

Jacob:現(xiàn)在大家都是用文本和模型互動,你們對未來還有什么新型設(shè)計界面感到興奮嗎?

Nicole:我覺得我們才剛剛開始探索可能性。最終我希望各種模態(tài)能融合在一起,界面能根據(jù)任務(wù)自動切換最合適的方式?,F(xiàn)在大模型不僅能輸出文本,還能輸出圖片和視覺解釋,滿足用戶需求。

我覺得語音很有潛力,是很自然的交互方式,但還沒人真正做出很棒的語音界面?,F(xiàn)在我們還是在輸入文字,所以未來可能結(jié)合暫停、手勢等,比如你想擦除圖片中的物體,應(yīng)該能像在草稿本上一樣操作。如何在不同模態(tài)間無縫切換,是我非常期待的方向,還有很多空間去探索實際形態(tài)。

Jacob:你覺得語音的限制是什么?我完全能想象和圖片對話。

Nicole:有些問題是優(yōu)先級的,我們還在推進(jìn)模型能力,語音這兩年也進(jìn)步很大。我覺得很快會有人嘗試,也許我們也會做一些相關(guān)工作。

問題在于如何檢測用戶意圖,然后根據(jù)意圖切換不同模式,因為并不明顯。你可能又回到“空白畫布”問題,怎么向用戶展示功能?我們發(fā)現(xiàn)用戶進(jìn)來后對聊天機(jī)器人期望很高,覺得它什么都能做,實際上很難解釋限制,也很難展示所有功能,尤其工具能力越來越強時。所以要想辦法劃定范圍,在UI里展示可能性,幫助用戶完成任務(wù)。

Jacob:而且你教會用戶某個時刻機(jī)器人能做什么,三個月后又得重新教,因為功能已經(jīng)變了,這也是很有意思的產(chǎn)品挑戰(zhàn)。

很多產(chǎn)品都有評估機(jī)制,你們有自己的評估數(shù)據(jù)集,比如Nicole自己的照片。圖像模型的評估通常是什么樣?除了放到LM Arena讓用戶體驗外,你們在追蹤模型進(jìn)步方面有哪些經(jīng)驗?

Oliver:語言模型和視覺語言模型進(jìn)步的一個好處是能形成反饋環(huán),用語言模型的智能來評估自己生成的內(nèi)容。這形成了良性循環(huán),可以同時提升兩個維度。

但最終,用戶才是他們想要圖片的裁判。所以像LM Arena這種用戶自己輸入提示的場景,是評估模型的最佳方式。

Nicole:品味也很重要。Oliver不會夸自己,其實他在團(tuán)隊里很擅長判斷圖片效果,能發(fā)現(xiàn)問題和缺陷。我們團(tuán)隊有幾個人專門做這種“眼球評估”,就是技術(shù)性地看模型輸出效果,這在初期仍然很重要。我們也會收集用戶反饋,包括X(推特)上的意見,看看哪些地方有效,哪些地方需要改進(jìn),然后調(diào)整評估標(biāo)準(zhǔn),既保證已有功能不退步,也推動社區(qū)關(guān)心的方向。歡迎大家持續(xù)反饋。

Jacob:感覺這比語言模型難多了,比如法律用例有標(biāo)準(zhǔn)答案,模型偏離時有純粹的評估數(shù)據(jù)集。但圖片很主觀,很難明確爬坡方向。比如角色一致性能量化,但主觀性確實讓優(yōu)化變得很難。對了,Nano Banana這個名字有什么故事?

Nicole:我們團(tuán)隊有個PM叫Nana,她凌晨兩點半在準(zhǔn)備發(fā)布時想出了這個名字,然后大家覺得很有趣就用上了,現(xiàn)在甚至成了半官方名字。畢竟Gemini 2.5 flash image太難念了。

Jacob:確實很成功,連Google CEO都在發(fā)香蕉表情,名字的影響力很大。

Alphabet CEO Pichai在模型發(fā)布后的社交媒體信息(來源:X.com)

Nicole:品牌建議就是名字最好有合適的表情符號,這樣更容易傳播。

Jacob:感覺Hugging Face是AI界最早用表情做品牌的,現(xiàn)在我們離公司股票代碼都是表情的時代也不遠(yuǎn)了。

專業(yè)用戶的潛在應(yīng)用場景

Jacob:回到剛才的話題,你們有很多專業(yè)用戶,也有很多面對空白屏幕不知道做什么的普通用戶。你們見過最專業(yè)的用戶有哪些用法?

Oliver:我最喜歡的高級用例是視頻相關(guān)的。我大部分職業(yè)生涯都在做視頻工具,發(fā)現(xiàn)Nano Banana在AI生成視頻方面非常有用。比如結(jié)合視頻模型(VO3)可以更快地構(gòu)思、規(guī)劃鏡頭,這其實也是電影制作的流程,先做分鏡,再拍攝?,F(xiàn)在大家用它構(gòu)建更連貫、更長的視頻內(nèi)容。

Nicole:我對大家用它在建筑設(shè)計流程中的表現(xiàn)印象很深??梢詮乃{(lán)圖到類似三維模型,再到設(shè)計圖,快速迭代,節(jié)省了繁瑣的流程,讓人專注于創(chuàng)意和樂趣。這種效果出乎我的意料,模型開箱即用就能做到。

Jacob:感覺是各種“五分鐘編碼”圖像用例,幫你快速搭建基礎(chǔ)內(nèi)容。

Nicole:還有網(wǎng)站設(shè)計,以前從提示直接生成網(wǎng)站代碼,總覺得中間少了一個步驟,現(xiàn)在可以先快速迭代設(shè)計,滿意后再編碼。

Jacob:你覺得這會成為未來的工作流嗎?確實很合理,為什么要先消耗算力生成代碼,如果審美完全不滿意,還得重來?

Nicole:而且這樣更有趣。以前大家就在現(xiàn)有流程里用技術(shù),現(xiàn)在大模型發(fā)展太快,能直接從提示到網(wǎng)站,非常驚人。但我覺得大家還是很喜歡在中間環(huán)節(jié)迭代,確保風(fēng)格符合自己需求。

Jacob:你們既有模型也有API,未來會有各種接口和用例。你們?nèi)绾螀^(qū)分哪些功能適合放在Gemini聊天工具里,哪些適合通過其他產(chǎn)品實現(xiàn)?

Nicole:體驗很不同。我們看到大家會用Gemini做快速迭代,比如團(tuán)隊成員在重新設(shè)計花園時,會用Gemini想象效果圖。然后再和景觀設(shè)計師合作,把想法進(jìn)一步完善。這是創(chuàng)意過程的第一步,很少是最終成品。而專業(yè)開發(fā)者會用更復(fù)雜的工具,串聯(lián)多個模型,工作流更復(fù)雜。聊天機(jī)器人適合啟發(fā)、靈感和分享,專業(yè)用戶還是更需要視覺化的UI。

Jacob:編輯流程會如何融合進(jìn)來?你們的API已經(jīng)集成到Adobe等工具了,傳統(tǒng)編輯流程會變得很不一樣嗎?還是最后從95%到100%完成度,還是需要傳統(tǒng)編輯工具?

Oliver:很大程度上取決于用戶。有些人對細(xì)節(jié)要求極高,像素級控制,這種場景必須和現(xiàn)有工具深度集成,比如Adobe產(chǎn)品。有些用戶只是找靈感,要求沒那么嚴(yán)格,聊天機(jī)器人快速生成想法就夠了。所以兩者都是模型的重要應(yīng)用。

Nicole:像素級控制讓我最近學(xué)到一個新點,比如做廣告時,不同品牌對模特視線的位置有嚴(yán)格要求,因為視線影響廣告?zhèn)鬟_(dá)的信息。這種控制很難用聊天機(jī)器人實現(xiàn),所以專業(yè)用戶還是需要專門的精確工具。

Oliver:歸根結(jié)底,看能否用語言描述。如果只是高層次想法,語言很合適,但如果要左移三像素,語言就不太優(yōu)雅了。兩種方式都有存在意義。

Jacob:看真正的藝術(shù)家或創(chuàng)作者的完整流程,他們很難用語言精確描述自己的操作,很多時候是憑感覺。Google內(nèi)部也有很多團(tuán)隊對圖像模型感興趣,你們最期待它在Google各產(chǎn)品中的應(yīng)用有哪些?

Nicole:創(chuàng)意方面,比如在Google Photos做照片編輯很有前景,畢竟你的圖庫就在那兒。比如把家庭照片直接變成生日卡片,我每年都用得上。如果能直接在Photos里做很棒。

還有像一開始說的“事實性”用例也很有趣,比如讓模型用適合五歲孩子的方式解釋光合作用,并生成視覺化內(nèi)容,這在網(wǎng)上可能都找不到。這樣能為用戶開啟個性化、視覺化的學(xué)習(xí)體驗。

Oliver:還有Workspace,比如PowerPoint和Google Slides。讓大家能做出更有吸引力的演示文稿,不再千篇一律。

Jacob:作為前咨詢行業(yè)人士,如果能實現(xiàn)就太棒了,大家都花太多時間在排版上了。

Nicole:以前都是先在白板上畫出幻燈片結(jié)構(gòu),寫好標(biāo)題。比如左側(cè)放某個數(shù)據(jù)集的圖表,然后把這些信息交給大模型,讓它幫你完成很多工作,我對此非常期待。

圖像模型的未來:小團(tuán)隊有機(jī)會,但調(diào)用世界知識需要大模型支持

Jacob:回顧近幾年圖像模型的發(fā)展,從Stable Diffusion到Mid Journey,Oliver你怎么看這幾年的主要里程碑?整個路徑和變化你怎么總結(jié)?

Oliver:這幾年發(fā)展簡直像火箭一樣。我早期做這方面時,GAN(生成對抗網(wǎng)絡(luò))是主流方法,我們對GAN能做的事很驚訝,但它只能生成很窄分布的圖片。

比如可以生成看起來不錯的人臉,但只能是正面照。后來出現(xiàn)能泛化、完全由文本控制的模型,雖然起步時很小很模糊,但很多人都覺得這會改變一切,于是大家都全力投入,但沒人能預(yù)料到進(jìn)步速度如此之快。

我認(rèn)為這得益于很多頂尖團(tuán)隊的良性競爭。大家看到其他團(tuán)隊出色的模型,比如Mid Journey一度遙遙領(lǐng)先,效果驚人,大家都很受激勵,想知道他們怎么做到的。

尤其Stable Diffusion開源后,展示了開發(fā)者社區(qū)的規(guī)模,很多人愿意在這些模型上構(gòu)建產(chǎn)品,這是另一個重要節(jié)點。從那以后,整個領(lǐng)域發(fā)展非??欤m然有時壓力很大,因為不僅模型變強了,用戶期望也越來越高?,F(xiàn)在大家會抱怨一些小問題,但一年前我們還在為不真實的圖片感到驚訝。人類對新技術(shù)的適應(yīng)力真的很強。

Jacob:確實,如果2017年有人告訴我們會有如此強大的技術(shù),我們肯定會震驚,但現(xiàn)在大家總是抱怨不足。這也是人性有趣的地方。你怎么看Mid Journey當(dāng)初能領(lǐng)先一步的原因?他們一度是行業(yè)標(biāo)桿,所有人都盯著它。

Oliver:Mid Journey比其他團(tuán)隊更早掌握了后訓(xùn)練技巧,尤其是讓模型生成風(fēng)格化、藝術(shù)化圖像。他們一直專注于風(fēng)格控制,確保生成的圖片都很漂亮。剛開始時,聚焦于高質(zhì)量圖片的小領(lǐng)域是很好的策略。后來所有模型,包括Midjourney和Flux等,都擴(kuò)展到更廣泛的類別,同時保持高質(zhì)量。

Jacob:是什么讓模型能生成更廣泛的圖片,不再只挑選完美作品?

Oliver:有很多原因,大家都不斷完善細(xì)節(jié),尤其是數(shù)據(jù)質(zhì)量。同時,模型規(guī)模自然擴(kuò)大,算力提升,很多以前做不到的事現(xiàn)在都能實現(xiàn)了。

Jacob:你剛才也提到,我們在圖像模型上取得了巨大進(jìn)步,我很難判斷還剩多少提升空間。你怎么看未來三年?我們會不會回頭覺得現(xiàn)在的模型其實還很一般?

Oliver:我完全支持后者觀點。僅就圖像質(zhì)量而言,還有很大提升空間。未來的改進(jìn)點在于模型的表達(dá)能力?,F(xiàn)在我們能完美生成一些常見內(nèi)容,完全無法分辨是生成的還是現(xiàn)實的。但只要超出常規(guī)場景,質(zhì)量就會迅速下降,尤其是需要更多想象力、組合多概念的提示。這類場景模型很快就崩潰了。

未來模型最好的圖片可能和現(xiàn)在一樣好,但最差的圖片會大幅提升,模型會更有用、適用范圍更廣。我們發(fā)現(xiàn)模型越泛化,可支持的用例越多,價值也越大。

Jacob:你怎么看圖像模型領(lǐng)域的未來格局?相比大模型領(lǐng)域,主要是你們、OpenAI、Anthropic等大玩家,圖像模型會類似嗎?

Oliver:這是個好問題。到目前為止,圖像領(lǐng)域小團(tuán)隊也能做出頂級模型。我們看到一些小實驗室的作品非常驚艷。我希望這種情況能持續(xù),因為我喜歡小團(tuán)隊的創(chuàng)新。

但模型的世界知識、實用性很需要規(guī)模,尤其是語言模型的規(guī)模。所以我猜未來還是大型團(tuán)隊能同時訓(xùn)練強大的語言和圖像模型。我們看到中國的大型實驗室也在推出很棒的模型,和語言模型一樣,所以未來他們也會成為圖像領(lǐng)域的重要玩家。

Jacob:如果用最好的開源模型而不是閉源模型,會有很大劣勢嗎?

Oliver:這很難說,取決于開源模型的未來,變化很快。一年前可能覺得開源很安全,現(xiàn)在不一定。但開源確實有可能支撐很多小團(tuán)隊繼續(xù)創(chuàng)新。好模型肯定可以。

Jacob:Oliver,想問你一個問題。你之前做視頻很多年,我一直想弄明白圖像模型和視頻模型的關(guān)系。你們團(tuán)隊在視頻方面也有很大突破。兩者是獨立的嗎?還是互相借鑒?現(xiàn)在圖像和視頻領(lǐng)域是怎樣互動的?

Oliver:非常密切相關(guān)。未來大家都在向“全能模型”發(fā)展,就是能做所有事情的模型。這些模型有很多優(yōu)勢,可能最終會勝出。

我覺得我們在圖像生成領(lǐng)域?qū)W到的很多技術(shù)都應(yīng)用到了視頻生成模型,反之亦然。這也是視頻生成能迅速發(fā)展的原因之一,因為整個社區(qū)都在學(xué)習(xí)如何解決這些問題。所以我覺得兩者是非常親密的“朋友”,很多技術(shù)共享,未來可能會完全融合。

Jacob:你說的技術(shù),就是很多底層方法在不同模型間都很相似吧?

Nicole:連工作流也很像。很多用戶會把這些模型結(jié)合使用。比如電影制作,最初的構(gòu)思在大模型領(lǐng)域,然后在圖片或幀空間迭代,因為更快更便宜,最后才進(jìn)入視頻階段。所以從工作流和可用性角度看,圖像和視頻模型之間有很多互補性。很多用例和問題都是共通的,比如角色、物體、場景一致性,圖像和視頻都有,只是視頻更復(fù)雜。

Jacob:你覺得視頻領(lǐng)域下一個要解決的難題是什么?

Oliver:我覺得在視頻領(lǐng)域獲得和最新圖像模型一樣的控制力,會非常有影響力,這是值得關(guān)注的方向。視頻團(tuán)隊也在提升分辨率和時間一致性,當(dāng)然還有跨場景角色一致性,大家最關(guān)心的就是這個。未來肯定會朝著更長、更連貫的內(nèi)容發(fā)展。

Jacob:這些問題可以在圖像領(lǐng)域先解決,很多方法都能遷移到視頻領(lǐng)域,這很酷。今天聊得很精彩,我們最后有一組快問快答。

首先,你們認(rèn)為目前AI領(lǐng)域有什么被高估,什么被低估?

Nicole:我覺得被高估的是“一個簡短提示就能生成可用于生產(chǎn)的成果”。其實還需要很多迭代。即使是社交媒體上大家分享的內(nèi)容,背后也有很多工作。所以這個有點被過度宣傳了。被低估的是未來的融合,我們已經(jīng)聊過了,就是如何讓大家更容易使用這些模型,展示可能性,并針對具體工作流提供幫助。

Jacob:你見過哪些產(chǎn)品,在UI設(shè)計上有新穎的想法?

Nicole:我還在等,暫時沒看到。

Oliver:我喜歡節(jié)點式界面,但這不是大眾化的設(shè)計。

Jacob:未來每個人都能有自己的UI,也許會進(jìn)入個性化時代。你覺得明年圖像模型的進(jìn)步會比今年更快,還是差不多?

Nicole:希望更快。

Oliver:有更多聰明人投入,更多資源,肯定會加速進(jìn)步。

Jacob:你們已經(jīng)讓Nano Banana火遍全網(wǎng),還有哪些AI圖像領(lǐng)域的趨勢是你們關(guān)注的,但大家沒有足夠重視?

Nicole:我覺得是“事實性”維度。比如大家用Nano Banana做信息圖或給尼亞加拉瀑布標(biāo)注,雖然演示效果不錯,但仔細(xì)看文字還是有點混亂,不夠準(zhǔn)確,會重復(fù)信息。所以這是下一個前沿,大家還沒太關(guān)注。

Oliver:這和文本語言模型很像。GPT-1和2剛出來時,大家覺得很酷,可以寫俳句、做創(chuàng)意任務(wù),答案范圍很廣?,F(xiàn)在大家都用語言模型做信息檢索、對話、陪伴等。所以我覺得圖像領(lǐng)域也會有類似變化,從創(chuàng)意工具到信息檢索工具,未來甚至?xí)腥撕鸵曨l模型對話,這很有可能出現(xiàn)。

Nicole:模型也應(yīng)該更主動,現(xiàn)在都是用戶主動請求圖片。如果查詢本身適合用圖片回答,模型應(yīng)該主動生成。我們在搜索中已經(jīng)習(xí)慣了,有時返回文本,有時返回圖片,有時兩者都有。所以我也期待模型能更主動、更智能地根據(jù)需求選擇模態(tài)。

Jacob:我很喜歡這種無縫切換的未來。正如你說的,可靠性是關(guān)鍵。早期語言模型偶爾很驚艷,但遠(yuǎn)不夠穩(wěn)定,工作場景用不了。圖像模型也會經(jīng)歷類似的進(jìn)化。

最重要的問題:你們最喜歡用Nano Banana生成的內(nèi)容是什么?

Oliver:我最喜歡的是和孩子一起玩模型,把他們放到各種有趣場景里,讓他們的玩偶“活”起來。這些內(nèi)容非常個人化,孩子們很喜歡,對我來說最有價值。

作者:MD

出品:明亮公司

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
世錦賽戰(zhàn)報:4-10,賽會第23位冠軍出局,中國2位,16強決出3席了

世錦賽戰(zhàn)報:4-10,賽會第23位冠軍出局,中國2位,16強決出3席了

求球不落諦
2026-04-19 23:35:24
特朗普宣稱“不會再做好人”:伊朗不接受協(xié)議就炸掉全境橋梁電廠

特朗普宣稱“不會再做好人”:伊朗不接受協(xié)議就炸掉全境橋梁電廠

桂系007
2026-04-19 21:03:02
中央電視臺錄播2026年4月20日至26日乒乓球比賽

中央電視臺錄播2026年4月20日至26日乒乓球比賽

乒乓球球
2026-04-20 00:37:33
季后賽4場比賽都是一邊倒,還不如附加賽,肖華新規(guī)毀了NBA的懸念

季后賽4場比賽都是一邊倒,還不如附加賽,肖華新規(guī)毀了NBA的懸念

鐵甲西奇
2026-04-19 14:36:04
降速闖臺海的日本"雷"號軍艦 別忘了當(dāng)年的下場

降速闖臺海的日本"雷"號軍艦 別忘了當(dāng)年的下場

看看新聞Knews
2026-04-19 00:28:03
120師旅長名單公布后,不少老紅軍不服,毛主席:誰反對都沒有用

120師旅長名單公布后,不少老紅軍不服,毛主席:誰反對都沒有用

小莜讀史
2026-04-19 14:07:39
守好錢袋子!2026年5月開始,存款30萬以上的家庭要注意了

守好錢袋子!2026年5月開始,存款30萬以上的家庭要注意了

墜入二次元的海洋
2026-04-11 13:19:45
中甲5輪積分榜:3支球隊積分上雙,廣州豹居榜首,1隊負(fù)分墊底

中甲5輪積分榜:3支球隊積分上雙,廣州豹居榜首,1隊負(fù)分墊底

中超偽球迷
2026-04-19 21:36:43
收手吧鐘漢良,假發(fā)邊明顯、疲態(tài)盡顯,誰要看50歲裝嫩談戀愛?

收手吧鐘漢良,假發(fā)邊明顯、疲態(tài)盡顯,誰要看50歲裝嫩談戀愛?

一娛三分地
2026-04-14 13:56:40
MSC神女號安全通過霍爾木茲海峽

MSC神女號安全通過霍爾木茲海峽

第一財經(jīng)資訊
2026-04-19 23:04:28
麥當(dāng)勞變 "老字號粵菜館",廣州牡丹樓開業(yè)半天就被拆

麥當(dāng)勞變 "老字號粵菜館",廣州牡丹樓開業(yè)半天就被拆

極目新聞
2026-04-19 22:48:07
5月1日醫(yī)療新政來了!全國公立醫(yī)院改革,以后看病不用再擠破頭

5月1日醫(yī)療新政來了!全國公立醫(yī)院改革,以后看病不用再擠破頭

復(fù)轉(zhuǎn)這些年
2026-04-16 12:26:39
世錦賽中國隊2勝2負(fù)晉級16強,世界第5連丟5局遭遇冷門

世錦賽中國隊2勝2負(fù)晉級16強,世界第5連丟5局遭遇冷門

吳朑愛游泳
2026-04-20 06:36:06
附加賽首戰(zhàn)慘敗67分,MVP25分17罰,黑八僅存懸念

附加賽首戰(zhàn)慘敗67分,MVP25分17罰,黑八僅存懸念

余飩搞笑段子
2026-04-20 08:19:14
福原愛官宣三胎生子,前夫江宏杰發(fā)聲送祝福,兩人曾“對簿公堂”

福原愛官宣三胎生子,前夫江宏杰發(fā)聲送祝福,兩人曾“對簿公堂”

扒蝦侃娛
2026-04-19 13:25:12
43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

漢史趣聞
2026-04-06 19:17:12
20分鐘全華班!剛丟1球!中超問誰能做到!申花司機(jī)也敢玩大的

20分鐘全華班!剛丟1球!中超問誰能做到!申花司機(jī)也敢玩大的

80后體育大蜀黍
2026-04-19 16:31:53
陳道明:人生走到最后,子女和老伴都不是最親的,最親的只有....

陳道明:人生走到最后,子女和老伴都不是最親的,最親的只有....

喬話
2026-04-19 22:13:11
為什么很多離異的30-40歲女性很難再婚?網(wǎng)友:思想不夠不開放!

為什么很多離異的30-40歲女性很難再婚?網(wǎng)友:思想不夠不開放!

夜深愛雜談
2026-04-19 09:48:34
李小萌懷第三胎, 王雷喜笑又顏開。 摸著孕肚不見外, 樂開懷。

李小萌懷第三胎, 王雷喜笑又顏開。 摸著孕肚不見外, 樂開懷。

歲月有情1314
2026-04-19 20:06:09
2026-04-20 09:11:00
明亮Company incentive-icons
明亮Company
追蹤新商業(yè)、好公司。
643文章數(shù) 407關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

牛彈琴:美國向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

頭條要聞

牛彈琴:美國向伊朗貨輪開火并將其控制 該伊朗發(fā)飆了

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

旅游
健康
時尚
游戲
軍事航空

旅游要聞

渝見好“村”光|大足和平村:城市后花園 鄉(xiāng)村新浪潮

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

今年最流行的衣服竟然是它?高級又氣質(zhì)!

寶可夢真的能吃!寶可夢30周年 御三家變美食

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進(jìn)入關(guān)懷版