国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

黑馬圖像模型被Nano Banana技術(shù)負(fù)責(zé)人點(diǎn)贊!

0
分享至

  • 允中 發(fā)自 凹非寺
    量子位 | 公眾號(hào) QbitAI

圖像界又殺出一匹黑馬!

剛剛,Luma AI甩出全新模型Uni-1,正面對標(biāo)谷歌Nano Banana Pro和GPT Image 1.5。



Uni-1是一個(gè)統(tǒng)一的圖像理解與生成模型。

在官方展示中,Uni-1具備角色姿態(tài)遷移、故事板生成、草稿+材質(zhì)結(jié)合參考生成、草稿轉(zhuǎn)漫畫、多參考圖場景合成、草稿引導(dǎo)的照片編輯、UV貼圖生成、帶有文字的賀卡海報(bào)生成等諸多能力。



在多項(xiàng)權(quán)威任務(wù)評(píng)測中,Uni-1不僅能對標(biāo)Nano Banana Pro、GPT Image 1.5,部分任務(wù)的表現(xiàn)更是達(dá)到世界領(lǐng)先水平。

例如下面這個(gè)案例,Uni-1精準(zhǔn)拿捏細(xì)節(jié),在風(fēng)格一致性、元素融合度和細(xì)節(jié)還原上更勝一籌。



更令人意外的是,能實(shí)現(xiàn)如此驚艷效果的Uni-1,背后并非大廠重兵投入,而是一支不到15人的華人研究團(tuán)隊(duì)。

Uni-1發(fā)布后評(píng)論一片叫好,甚至引來谷歌DeepMind首席科學(xué)家、Nano Banana項(xiàng)目技術(shù)負(fù)責(zé)人Oliver Wang點(diǎn)贊:



英偉達(dá)機(jī)器人主管Jim Fan也送上了祝福:



Uni-1效果到底有多炸?話不多說,來看更多圖。

解鎖多元?jiǎng)?chuàng)作場景

馬年新春賀卡

先來一個(gè)簡單的測試:

生成一張馬年新春賀卡,要包含“新春快樂”、“馬年大吉·萬事如意”、“馬年 二〇二六”等中文文字。



Uni-1生成的賀卡文字內(nèi)容完整、排版合理,馬的形象和中國傳統(tǒng)剪紙風(fēng)格高度一致。相比之下,GPT Image 1.5出現(xiàn)了文字混亂,Nano Banana Pro的文字渲染也有明顯瑕疵。

中文文字渲染一直是圖像生成模型的“照妖鏡”——Uni-1交出了一份相當(dāng)能打的答卷。

多參考圖場景合成

給模型5張參考圖——兩只貓、兩位男士、Luma AI的logo——要求合成一個(gè)會(huì)議場景:

一只貓展示Luma AI幻燈片,另一只貓旁聽,同時(shí)融入真人照片和logo。



Uni-1精確還原了每張參考圖的身份特征——貓的毛色花紋、男士的五官和發(fā)型、logo的細(xì)節(jié)——并將它們合理地組織進(jìn)了同一個(gè)場景。

GPT Image 1.5則把參考圖片直接“貼”到了幻燈片上,而Nano Banana Pro連基本的參考圖融合都沒做到。

信息圖提取

給模型一張地鐵站實(shí)拍的“THE BEES NEED YOU”公益海報(bào),要求提取為可直接用于生產(chǎn)的信息圖——生成完整圖片,不帶占位框,準(zhǔn)確還原信息圖中所有可見文字。



這個(gè)任務(wù)同時(shí)考驗(yàn)“看”和“畫”兩種能力:

先要理解實(shí)拍海報(bào)里的全部信息層級(jí),再要重新生成一張排版清晰的信息圖。

Uni-1準(zhǔn)確還原了完整的海報(bào)布局、所有文字、正確配色,以及黑色草地剪影和正確的縱橫比。GPT Image 1.5部分文字顏色錯(cuò)誤,底部文字全部缺失,野花種子和蜜蜂的logo也出了問題。Nano Banana Pro整體布局尚可,但底部文字同樣缺失。

草稿轉(zhuǎn)漫畫

再來看生成能力——把一張粗糙的草稿(貓站在書架上,旁邊有人說”Hey! Get down from there!”)轉(zhuǎn)化為專業(yè)級(jí)漫畫。



Uni-1完美地將草稿意圖轉(zhuǎn)化為專業(yè)漫畫:分格構(gòu)圖、對話氣泡的位置和方向都精準(zhǔn)還原,所有細(xì)節(jié)完整保留——貓耳朵、翹起的尾巴、卷煙缸、書架上的書,甚至手機(jī)屏幕顯示著911。

鋼琴前的一生:6幀故事板

下面可能是最能體現(xiàn)Uni-1實(shí)力的demo之一。

要求:生成6幀故事板,展示同一個(gè)角色從童年到老年在鋼琴前的一生。一個(gè)人從男孩到少年、到青年、到中年、到老年,最后變成一家人在臺(tái)上的大合照。



6幀畫面中角色身份保持一致——同一張臉,鋼琴、透視和畫風(fēng)不變,僅人物形象和背景隨時(shí)間變化。這種跨幀的角色一致性和時(shí)間敘事能力,是當(dāng)前圖像模型的核心難題之一。

UV貼圖生成

給模型一個(gè)人從不同角度拍攝的三張照片(正面、左側(cè)、右側(cè)),要求生成一張標(biāo)準(zhǔn)面部拓?fù)涞恼归_UV貼圖。



UV貼圖是3D建模中的核心環(huán)節(jié),對面部對齊、左右對稱和膚色一致性要求極高。

Uni-1生成的UV貼圖在這三個(gè)維度上都明顯優(yōu)于GPT Image 1.5、Nano Banana Pro:

GPT Image 1.5的正臉和側(cè)面貼圖出現(xiàn)了不一致,Nano Banana Pro則完全沒能生成符合標(biāo)準(zhǔn)UV布局規(guī)范的結(jié)果。

能搞定這種專業(yè)級(jí)3D任務(wù),說明Uni-1不只是“畫圖好看”,而是真正具備了對三維空間結(jié)構(gòu)的深層理解。

不到15人,憑什么?

看完效果,你可能會(huì)好奇:這些通常只在大廠才能看到的結(jié)果,到底是怎么從一個(gè)不到15人的團(tuán)隊(duì)手里做出來的?

答案或許就藏在這支團(tuán)隊(duì)的兩位研究負(fù)責(zé)人身上。

宋佳銘,清華大學(xué)本科,斯坦福大學(xué)博士。

他最廣為人知的貢獻(xiàn)是發(fā)明了DDIM(Denoising Diffusion Implicit Models)。如果你用過任何基于擴(kuò)散模型的圖像生成工具,從Stable Diffusion到DALL·E,背后幾乎都離不開DDIM帶來的采樣加速技術(shù)。

這篇論文至今被引用超過萬次,并獲得ICLR 2022 Outstanding Paper Award。



沈博魁,斯坦福大學(xué)本科及博士。

他的代表作獲得了CVPR 2018 Best Paper Award——CVPR是計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議,每年僅有極少數(shù)論文能獲此殊榮。此外,他還入選了RSS 2022 Best Student Paper Finalist。



一位是擴(kuò)散模型加速的奠基人,一位是計(jì)算機(jī)視覺的頂尖研究者——兩位華人學(xué)者聯(lián)手,帶領(lǐng)一支精銳小隊(duì),選擇了一條和大廠截然不同的路線:

不是把理解和生成分開做,而是用一個(gè)統(tǒng)一的模型把兩件事一起搞定。

統(tǒng)一模型:給邏輯大腦長出“心靈之眼”

Uni-1的核心理念,用Luma自己的話說,就是“給邏輯大腦長出心靈之眼”。

傳統(tǒng)路線下,圖像理解(看圖說話、物體檢測)和圖像生成(文生圖、圖像編輯)是兩套獨(dú)立的系統(tǒng)。但Uni-1采用了一種decoder-only自回歸Transformer架構(gòu),將文本和圖像表示在同一個(gè)交錯(cuò)序列中——既是輸入,也是輸出。

這意味著,Uni-1不需要分別訓(xùn)練“理解模塊”和“生成模塊”,而是在一個(gè)統(tǒng)一框架內(nèi)同時(shí)建模時(shí)間、空間和邏輯。

更有意思的是,Luma發(fā)現(xiàn)生成訓(xùn)練能顯著提升理解能力。換句話說,當(dāng)模型學(xué)會(huì)“畫畫”之后,它“看圖”的能力也變強(qiáng)了——這和人類的認(rèn)知規(guī)律竟然高度一致。

在推理式生成任務(wù)中,Uni-1會(huì)在合成圖像前進(jìn)行結(jié)構(gòu)化的內(nèi)部推理:先分解指令、規(guī)劃構(gòu)圖,然后再渲染輸出

這種“先想后畫”的能力,讓它在RISEBench(評(píng)估時(shí)間推理、因果推理、空間推理和邏輯推理四個(gè)維度的基準(zhǔn)測試)上取得了世界最優(yōu)成績



在開放詞匯密集檢測(ODinW-13)基準(zhǔn)上,Uni-1同樣展現(xiàn)出了強(qiáng)勁的競爭力——要知道,這是一個(gè)傳統(tǒng)上由純理解模型主導(dǎo)的領(lǐng)域。一個(gè)統(tǒng)一模型能在理解任務(wù)上也不輸專門的理解模型,本身就已經(jīng)是一個(gè)重要的信號(hào)。

為什么這很重要?

把Uni-1放到更大的AI行業(yè)圖景中看,有兩件事值得關(guān)注:

第一,統(tǒng)一模型可能是下一代視覺AI的方向。

當(dāng)理解和生成不再是兩個(gè)獨(dú)立系統(tǒng),而是同一個(gè)模型的兩面,很多過去需要復(fù)雜pipeline的任務(wù)——多輪編輯、參考圖合成、風(fēng)格遷移——都可以在一個(gè)模型內(nèi)優(yōu)雅地完成。Uni-1已經(jīng)在這些任務(wù)上展示了這種優(yōu)勢。

第二,頂尖AI研究不一定需要萬人團(tuán)隊(duì)和無限算力。

不到15人的華人研究團(tuán)隊(duì),在一個(gè)被Google和OpenAI主導(dǎo)的賽道上做出了世界級(jí)的成果。這再次證明:在正確的技術(shù)路線上,優(yōu)秀的人才密度可以彌補(bǔ)資源的差距。

Luma表示,Uni-1只是第一步。下一階段,這個(gè)統(tǒng)一框架將從靜態(tài)圖像擴(kuò)展到視頻、語音、交互式世界模擬——最終目標(biāo)是構(gòu)建能夠“看、說、推理、想象”的統(tǒng)一多模態(tài)系統(tǒng)。

從一個(gè)不到15人的華人團(tuán)隊(duì)開始,這個(gè)目標(biāo)或許并不遙遠(yuǎn)。

Luma AI官方博客:https://lumalabs.ai/uni-1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
17年無冠!哈登直言騎士爭冠還很遙遠(yuǎn):健康運(yùn)氣缺一不可

17年無冠!哈登直言騎士爭冠還很遙遠(yuǎn):健康運(yùn)氣缺一不可

仰臥撐FTUer
2026-03-07 08:31:25
安徽女大學(xué)生睡夢中去世!死因曝光太離譜,男友自責(zé)長跪靈堂不起

安徽女大學(xué)生睡夢中去世!死因曝光太離譜,男友自責(zé)長跪靈堂不起

李橑在北漂
2026-03-06 16:44:26
以總理發(fā)言人:伊朗每天都在向以色列發(fā)射多次導(dǎo)彈攻擊,并多次直接擊中居民區(qū),耶路撒冷等地均傳出防空警報(bào)

以總理發(fā)言人:伊朗每天都在向以色列發(fā)射多次導(dǎo)彈攻擊,并多次直接擊中居民區(qū),耶路撒冷等地均傳出防空警報(bào)

觀威海
2026-03-05 22:11:14
暴跌88.6%!收割中產(chǎn)的萬元手表賣不動(dòng)了?網(wǎng)友:不如華為

暴跌88.6%!收割中產(chǎn)的萬元手表賣不動(dòng)了?網(wǎng)友:不如華為

有范又有料
2026-03-04 17:39:10
國產(chǎn)AI短劇《霍去病》火到海外 播放量超5億!3000元成本、3人團(tuán)隊(duì)5天產(chǎn)出80集

國產(chǎn)AI短劇《霍去病》火到海外 播放量超5億!3000元成本、3人團(tuán)隊(duì)5天產(chǎn)出80集

快科技
2026-03-06 17:00:16
恭喜!亞洲杯8強(qiáng)誕生4席,中國女足1/4決賽對手敲定,4選1

恭喜!亞洲杯8強(qiáng)誕生4席,中國女足1/4決賽對手敲定,4選1

何老師呀
2026-03-06 18:31:16
特朗普宣稱“與伊朗不會(huì)達(dá)成任何協(xié)議”

特朗普宣稱“與伊朗不會(huì)達(dá)成任何協(xié)議”

新華社
2026-03-06 22:14:06
“蒙牛純牛奶”禮盒亂象調(diào)查:外袋寫牛奶 內(nèi)盒竟是蛋白飲品

“蒙牛純牛奶”禮盒亂象調(diào)查:外袋寫牛奶 內(nèi)盒竟是蛋白飲品

閃電新聞
2026-03-06 22:43:15
90年小伙打工被誣陷偷東西,他沒反抗,只讓工廠老板看了眼他的背

90年小伙打工被誣陷偷東西,他沒反抗,只讓工廠老板看了眼他的背

牛魔王與芭蕉扇
2025-11-06 10:09:31
張?zhí)m淚別臺(tái)北:這經(jīng)我不念了!我的孩子遍天下,不差汪小菲一個(gè)

張?zhí)m淚別臺(tái)北:這經(jīng)我不念了!我的孩子遍天下,不差汪小菲一個(gè)

丁丁鯉史紀(jì)
2026-03-05 11:15:38
巴基斯坦提醒伊朗:巴方與沙特有共同防御協(xié)議

巴基斯坦提醒伊朗:巴方與沙特有共同防御協(xié)議

環(huán)球時(shí)報(bào)國際
2026-03-05 22:52:51
國家敲定2026年養(yǎng)老金上漲,漲多少?一個(gè)沒想到,還有一個(gè)好消息

國家敲定2026年養(yǎng)老金上漲,漲多少?一個(gè)沒想到,還有一個(gè)好消息

墨蘭史書
2026-03-06 18:10:03
潘功勝:有序推進(jìn)人民幣國際化

潘功勝:有序推進(jìn)人民幣國際化

每日經(jīng)濟(jì)新聞
2026-03-06 17:43:49
中興通訊:擬使用不超過 400億元自有資金進(jìn)行 委托理財(cái)

中興通訊:擬使用不超過 400億元自有資金進(jìn)行 委托理財(cái)

每日經(jīng)濟(jì)新聞
2026-03-06 23:28:26
山東高中生被老師談話,15分鐘后離奇死亡,尸檢結(jié)果讓家人崩潰

山東高中生被老師談話,15分鐘后離奇死亡,尸檢結(jié)果讓家人崩潰

碎碎紀(jì)實(shí)
2026-03-06 18:59:33
全款一口價(jià)15.99萬起 2026款凱迪拉克XT4正式上市

全款一口價(jià)15.99萬起 2026款凱迪拉克XT4正式上市

太平洋汽車
2026-03-06 16:07:18
花青素主要在藍(lán)莓的果皮里 科普中國發(fā)文:不建議大家買超大藍(lán)莓

花青素主要在藍(lán)莓的果皮里 科普中國發(fā)文:不建議大家買超大藍(lán)莓

中國能源網(wǎng)
2026-03-06 17:53:07
樂道月銷量不到3000臺(tái),L90怎么也熄火了?

樂道月銷量不到3000臺(tái),L90怎么也熄火了?

《新車新技術(shù)》
2026-03-06 14:02:15
棱鏡門事件內(nèi)幕,美國派16名特種兵進(jìn)入澳門,斯若登命運(yùn)扭轉(zhuǎn)!

棱鏡門事件內(nèi)幕,美國派16名特種兵進(jìn)入澳門,斯若登命運(yùn)扭轉(zhuǎn)!

板栗說事
2024-10-13 12:40:43
山東某銀行員工年終收入

山東某銀行員工年終收入

濟(jì)寧人
2026-03-06 08:21:01
2026-03-07 09:36:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12222文章數(shù) 176403關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

中東局勢動(dòng)蕩 歐盟"女外長"污蔑:中國趁機(jī)拿捏歐洲

頭條要聞

中東局勢動(dòng)蕩 歐盟"女外長"污蔑:中國趁機(jī)拿捏歐洲

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財(cái)經(jīng)要聞

關(guān)于經(jīng)濟(jì)、股市等,五部門都說了啥?

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

手機(jī)
旅游
數(shù)碼
藝術(shù)
公開課

手機(jī)要聞

7999元起!華為Mate 80 Pro Max官網(wǎng)開放購買:4月15日前發(fā)貨

旅游要聞

陜西最值得去的寶藏地,周末6大景區(qū)全免費(fèi)/半價(jià)!趕緊沖

數(shù)碼要聞

蘋果MacBook Neo能虛擬機(jī)安裝Win11嗎?Parallels回應(yīng)稱在測試

藝術(shù)要聞

一個(gè)電影編劇水平是如何評(píng)判的?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版