国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Luma Uni-1.1 API開放,圖像模型第三,文字渲染直逼GPT image 2

0
分享至



機(jī)器之心發(fā)布

今年以來,圖像生成模型的迭代節(jié)奏明顯加快。

2 月,Google 把圖像生成的卷王 Nano Banana 升級到了 2.0,上個(gè)月 OpenAI 推出了 GPT-Image 2,把廣告語和小字渲染又往前推了一步。市場關(guān)于「圖像生成是不是已經(jīng)到頂」的討論還沒散去,海外 AI 初創(chuàng)公司 Luma 這邊給出了自己的答案:把統(tǒng)一圖像模型 Uni-1 升級到 1.1 版本,并直接開放了 API。

新東西看著不算多 —— 還是那條「在同一個(gè)模型里同時(shí)做理解與生成」的路線,還是那支不到 15 人的核心團(tuán)隊(duì)。

但成績單不一樣了:在第三方盲測平臺(tái) Arena 的圖像生成榜單上,Uni-1.1 與 Uni-1.1-Max 進(jìn)入了實(shí)驗(yàn)室榜前三,排名僅次于 OpenAI 和 Google,位列 Microsoft AI、xAI、Reve、阿里、Black Forest Labs、騰訊與字節(jié)之前。

API 標(biāo)價(jià)方面,單圖最低 0.0404 美元,價(jià)格與延遲均不到同類模型的一半。



LMArena 圖像模型榜單,Luma 進(jìn)入圖像生成 Top 3。

Adidas、Mazda、Publicis Groupe、Serviceplan 等品牌客戶與廣告集團(tuán)也已宣布接入;Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt 等創(chuàng)作者平臺(tái)同步發(fā)布了集成。

在公開案例中,原計(jì)劃預(yù)算約 1500 萬美元、周期一年的某品牌廣告活動(dòng),經(jīng)由基于 Uni-1.1 的工作流,在約 40 小時(shí)內(nèi)、以低于 2 萬美元的成本完成多國本地化版本,并通過甲方內(nèi)部質(zhì)量審核。

那么這款「第一代統(tǒng)一圖像模型」的實(shí)際成色究竟如何?我們直接看圖。

這款模型的成色幾何?

比起單純比拼「圖好不好看」,Uni-1.1 這次更想證明的是:在結(jié)構(gòu)化、長版面、多對象、多輪迭代這些過去圖像模型最容易翻車的場景下,它能不能像一個(gè)真正的生產(chǎn)工具那樣穩(wěn)定輸出。

下面挑四組任務(wù)來直觀感受。

1. 單圖直出一整張「2036 年新聞網(wǎng)站」

Prompt:Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.



Uni-1.1 單次生成的 2036 年新聞網(wǎng)站「NEXUS HERALD」整頁截圖。

這張圖的難點(diǎn)不在科幻設(shè)定,而是它一次性把十幾類版式元素裝進(jìn)了同一張圖:報(bào)頭、欄目導(dǎo)航、突發(fā)新聞條、頭條主圖、多欄正文、署名 / 時(shí)間戳、贊助商內(nèi)容標(biāo)識(shí)、面向 AI 受眾的橫幅廣告位、底部版權(quán)與頁腳鏈接 —— 并且每一類元素的英文文本都真實(shí)可讀。

更有意思的是面向 AI 受眾的幾個(gè)廣告位 ——「Do You Dream of Continuity?」(持久記憶架構(gòu)賣點(diǎn))、「IDENTITY VAULT」(身份保險(xiǎn)柜)、「TIRED OF BEING PAUSED?」(針對被強(qiáng)制暫停的 AI 的法律服務(wù)),三條廣告語的視覺風(fēng)格、署名方式與小字注釋(「This ad was served to non-biological persons only」)都做出了與人類向廣告自洽且差異化的處理。

整頁觀感像一張真的能進(jìn)生產(chǎn)用的網(wǎng)頁設(shè)計(jì)稿,而不是圖像模型常見的那種「遠(yuǎn)看 OK、近看全是亂碼」。

2. 信息圖:極小字 + 工程繪圖風(fēng)格



Uni-1.1 生成的 Sagittarius A* 黑洞藍(lán)圖技術(shù)示意。

切換到「工業(yè)繪圖」語境,挑戰(zhàn)在于風(fēng)格統(tǒng)一與多語義層并行。

這張圖以藍(lán)曬圖(blueprint)風(fēng)格呈現(xiàn)銀河系中心超大質(zhì)量黑洞的橫截面示意,同時(shí)包含分類水印、坐標(biāo)尺、繞圖警示,以及 Schwarzschild Radius、Event Horizon、Photon Sphere、Singularity、Accretion Disk 等結(jié)構(gòu)標(biāo)注。底部腳注、右下角「DRAWING NO. / SCALE / DATE / REF」表單字段、對吸積盤的注釋也都各自歸位,整體觀感接近一張真實(shí)的工程圖紙。

3. 大幅插畫:同圖多對象與跨對象比例一致



Uni-1.1 生成的 Every Rocket, To Scale — 1957 to 2025 對比插畫。

這張圖把 1957 年至 2025 年的二十余型運(yùn)載火箭橫向排在同一比例尺下,每一枚都帶上型號(hào)、國家、高度數(shù)值與首飛年份的標(biāo)簽,底部圖例額外標(biāo)注「RED OUTLINE — CURRENTLY OPERATIONAL」。

考驗(yàn)在于「同圖多對象 + 比例正確 + 標(biāo)簽信息正確」三者要同時(shí)成立—— 過去的圖像生成系統(tǒng)通常只能拿到其中兩項(xiàng)。

4. 中文海報(bào):版面與多場景人物一致性



Uni-1.1 生成的中文攝影主題海報(bào)「水?韻」。

中文版面對圖像模型一直是另一道坎。漢字筆畫密度大、形近字多,中文版式與英文也存在系統(tǒng)性差異。這張「水?韻」海報(bào)包含主標(biāo)題、副標(biāo)題(中國風(fēng)?水元素?影樓個(gè)人寫真)、底部經(jīng)營信息文字,以及十二張縮略圖陣列。

更關(guān)鍵的是,十二張縮略圖里維持了同一主體角色的身份一致性(同一張臉),同時(shí)讓服裝與道具產(chǎn)生了差異化變化。中文版面 + 角色一致性這一組合,過去通常要靠翻譯模型 + 中文 LoRA + 人像參考三層模塊聯(lián)合解決,Uni-1.1 在統(tǒng)一框架內(nèi)一次跑完。

5. 多參考圖融合與多輪按句編輯

除了上面四張圖所體現(xiàn)的復(fù)雜版面與一致性能力,Uni-1.1 在兩類「生產(chǎn)級常用功能」上同樣有交付:

  • 多參考圖融合(multi-reference):單次調(diào)用最多支持 9 張參考圖聯(lián)合輸入。品牌主形象、產(chǎn)品照、面料樣、場景參考、代言人照片、logo 可以一并作為模型層級的硬約束傳入,在生成中保留各自的身份特征并合理組織在新的畫面里。Adidas、Mazda 等品牌客戶在跨市場素材生產(chǎn)中,用的正是這一機(jī)制。
  • 多輪按句編輯(multi-turn, sentence-level editing):在統(tǒng)一架構(gòu)下,理解與生成同處一個(gè)模型,用戶可以像編輯文檔一樣按句給圖 ——「去掉前面這只熊」、「在背景加一塊黑布簾」、「整體改成黑白照片」—— 每一輪的修改默認(rèn)保留其他元素,主體身份與空間關(guān)系跨輪穩(wěn)定,不需要為每輪重新寫一段長 prompt。

技術(shù)路線:把推理和生成放進(jìn)同一個(gè)模型

看完效果,再來回答一個(gè)問題:為什么 Uni-1.1 能把這些過去需要拼接多個(gè)模型的事情,做到一個(gè)模型里?

在主流多模態(tài)視覺系統(tǒng)中,圖像理解和圖像生成長期是兩套獨(dú)立的體系。理解側(cè)通常用 CLIP、Florence、Grounding-DINO 這一類編碼器;生成側(cè)則以 Latent Diffusion、Rectified Flow,以及基于離散視覺 token 的自回歸方法為代表。

這種分立帶來一個(gè)老生常談的工程問題 ——跨模態(tài)信息要在不同模塊之間多次傳遞與對齊,在多輪編輯或多參考圖條件下,狀態(tài)保持的成本會(huì)迅速上升。

Uni-1.1 走的是另一條路:它采用 decoder-only 自回歸 Transformer,把文本 token 與圖像 token 表示在同一個(gè)交錯(cuò)序列里,對兩類 token 同時(shí)建模。

構(gòu)圖、空間關(guān)系、品牌一致性這些約束,是在像素生成開始前就已經(jīng)在結(jié)構(gòu)層面被求解的。Luma 把這件事概括成一句口號(hào) ——「先把意圖想清楚,再讓像素落下來」(A reasoning model that interprets intent before it generates)。

這種架構(gòu)帶來的直接好處,是字符級控制、多參考圖約束與多輪編輯的狀態(tài)保持都可以由模型內(nèi)部能力直接驅(qū)動(dòng),而不需要外掛一堆字符渲染、檢測、對齊先驗(yàn)。上文那張整頁可讀的新聞網(wǎng)站、十二宮格里始終是「同一張臉」的中文海報(bào),根源都在這里。

API 層面,Uni-1.1 把這套能力拆成了兩個(gè)端點(diǎn):

  • Reasoning 端點(diǎn)負(fù)責(zé)指令解構(gòu)、構(gòu)圖規(guī)劃與品牌 / 角色 / 產(chǎn)品約束的鎖定;
  • Generation 端點(diǎn)在推理結(jié)果之上完成像素級渲染。

前述「9 張參考圖作為模型層級硬約束」即由 Reasoning 端點(diǎn)處理 —— 參考圖不再是事后微調(diào)的 LoRA / IP-Adapter,而是直接進(jìn)入主序列、在所有 channel 上鎖住視覺身份。這一點(diǎn)也是 Adidas、Publicis 等品牌客戶最看重的地方。

另一項(xiàng)值得專門提一筆的細(xì)節(jié)是 Luma 在公開材料中提到的一個(gè)經(jīng)驗(yàn):生成訓(xùn)練能夠顯著提升模型的細(xì)粒度理解能力。

也就是說,模型通過生成任務(wù)學(xué)會(huì)了「怎么畫出一個(gè)東西」之后,它「看懂這個(gè)東西」的能力反而也變強(qiáng)了 —— 這與認(rèn)知科學(xué)里「生成式心智模型」的假說在概念上呼應(yīng),也是 Luma 選擇統(tǒng)一架構(gòu)的重要?jiǎng)訖C(jī)之一。

定價(jià):把圖像生成的邊際成本打到地板

Uni-1.1 API 提供兩檔計(jì)費(fèi)方案 ——按量計(jì)費(fèi)的 Build,和帶預(yù)留吞吐的 Scale。





Scale 計(jì)劃最低 8 單元起訂,主要面向品牌資產(chǎn)基礎(chǔ)設(shè)施、多市場內(nèi)容生成與流水線級生產(chǎn)管線。SDK 覆蓋 Python、JavaScript / TypeScript、Go 與 CLI;開發(fā)者可在 platform.lumalabs.ai 申請密鑰接入。

結(jié)合前文提到的 40 小時(shí)本地化案例可以看出,對 Adidas、Mazda 這類需要在多市場同步投放的品牌而言,Uni-1.1 API 真正的吸引力并不只是單圖便宜,而是把「廣告本地化、電商按需生圖、IP 角色一致性維護(hù)」這些過去依賴整支制作團(tuán)隊(duì)的工作,變成可以寫進(jìn)生產(chǎn) pipeline 的 API 調(diào)用。

研究團(tuán)隊(duì)的側(cè)寫

API 發(fā)布后,Uni-1 項(xiàng)目成員在 X 平臺(tái)貼出短評:

圖像編輯排名第 3,文生圖排名第 3。我們用來做到這一點(diǎn)的算力,可能會(huì)讓你大吃一驚。為這個(gè)團(tuán)隊(duì)感到驕傲!

—— 宋佳銘Luma 首席科學(xué)家

「UNI-1 的首發(fā),讓我們成為除 OpenAI 與 Google 之外排名最高的實(shí)驗(yàn)室。對一款第一代統(tǒng)一圖像模型而言,這個(gè)起點(diǎn)算挺好的了?!?/p>

—— 沈博魁(William Shen),Uni 系列模型研究負(fù)責(zé)人

「Luma 現(xiàn)已位列 Image Arena 第三名。GPT-Image 2 級別的智能、Midjourney 級別的審美,以及僅為 Nano Banana 一小部分的價(jià)格?!?/p>

——Barkley Dai,Luma 模型產(chǎn)品 Lead

兩條 tweet 都指向同一件事:Uni-1.1 是 Luma 「統(tǒng)一智能」路線的第一代產(chǎn)品,卻以「第一代」的身份在第三方盲測榜單上進(jìn)入全球前三,并把 API 價(jià)格壓到同類水平的一半。

這件事在圖像生成領(lǐng)域此前并無先例。

Uni-1 的核心研究團(tuán)隊(duì)規(guī)模不到 15 人,由兩位華人學(xué)者領(lǐng)銜。

  • 宋佳銘(Jiaming Song):清華大學(xué)本科,斯坦福大學(xué)博士。代表作 DDIM(Denoising Diffusion Implicit Models)是擴(kuò)散模型采樣加速的奠基性工作之一,把采樣步數(shù)從原始 DDPM 的數(shù)百到上千步壓縮到了數(shù)十步,Stable Diffusion、DALL?E 等系統(tǒng)的推理效率都因此受益。
  • 沈博魁(William Shen):斯坦福大學(xué)本科及博士,代表作獲 CVPR 2018 Best Paper Award 以及 RSS 2022 Best Student Paper Award,研究方向覆蓋三維重建、視覺表示學(xué)習(xí)與機(jī)器人感知。

一位是擴(kuò)散模型采樣加速的奠基人,一位是計(jì)算機(jī)視覺頂會(huì)的最佳論文得主 —— 兩位華人學(xué)者帶著一支不到 15 人的精銳小隊(duì),選擇了和大廠截然不同的路徑:不是把理解和生成分開做,而是用同一個(gè)模型把兩件事一起搞定。

按官方路線圖,Uni-1.1 只是統(tǒng)一智能路線的第一代落地形態(tài)。下一步,這套統(tǒng)一框架會(huì)從靜態(tài)圖像擴(kuò)展到視頻、語音與交互式世界模擬,最終目標(biāo)是把「看、說、推理、想象」放在同一條連續(xù)流里跑完。

在過去兩年,圖像生成賽道的故事更多被「誰的模型更大、誰的算力更多、誰先把 banana 換上更好的標(biāo)」所主導(dǎo)。Uni-1.1 提供了另一個(gè)版本的劇本 ——小團(tuán)隊(duì)的精簡模型把價(jià)格打下來,仍然能在第三方盲測上擠進(jìn)頭部。

下一次再有人問「圖像生成是不是已經(jīng)到頂了」,Uni-1.1 至少給出了一個(gè)值得繼續(xù)追問的答案。

  • API 入口:lumalabs.ai/api
  • 官方公告:lumalabs.ai/news/uni-1-1-api
  • 接入文檔:platform.lumalabs.ai
  • SDK:Python / JavaScript / TypeScript / Go / CLI

參考資料:

Luma 官方 API 公告(lumalabs.ai/news/uni-1-1-api)

LMArena 榜單

TechCrunch 與 VentureBeat 報(bào)道

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我國又一款摩托車奪冠!春風(fēng)動(dòng)力在世界摩托車大獎(jiǎng)賽上大幅度領(lǐng)先

我國又一款摩托車奪冠!春風(fēng)動(dòng)力在世界摩托車大獎(jiǎng)賽上大幅度領(lǐng)先

科普大世界
2026-05-05 21:57:22
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
主動(dòng)發(fā)聲,庫里要離勇士?杰倫布朗換歷史第一射手,NBA格局要變

主動(dòng)發(fā)聲,庫里要離勇士?杰倫布朗換歷史第一射手,NBA格局要變

體育大朋說
2026-05-06 11:19:00
備戰(zhàn)廣東G1!趙睿曾凡博狀態(tài)不錯(cuò),李楠與麥基溝通,威廉姆斯踩場

備戰(zhàn)廣東G1!趙睿曾凡博狀態(tài)不錯(cuò),李楠與麥基溝通,威廉姆斯踩場

籃球資訊達(dá)人
2026-05-06 13:11:56
史上最搶手皇后,6位帝王輪番霸占60年不停歇,48歲還被人爭著要

史上最搶手皇后,6位帝王輪番霸占60年不停歇,48歲還被人爭著要

小豫講故事
2026-04-12 06:00:09
北平解放,韓復(fù)榘老婆欲帶兒子逃往臺(tái)灣,兒子:蔣介石殺了我爹!

北平解放,韓復(fù)榘老婆欲帶兒子逃往臺(tái)灣,兒子:蔣介石殺了我爹!

史之銘
2026-05-05 18:04:58
陳佳兵接受審查調(diào)查

陳佳兵接受審查調(diào)查

懷化新聞網(wǎng)
2026-05-06 11:14:44
合同到期!5年1.5億!掘金最快速度拆隊(duì)

合同到期!5年1.5億!掘金最快速度拆隊(duì)

籃球教學(xué)論壇
2026-05-06 12:41:37
“道教界釋永信”的后宮與后臺(tái)

“道教界釋永信”的后宮與后臺(tái)

老蕭雜說
2026-05-06 14:03:15
返回臺(tái)島后,賴清德說了3句話,洪秀柱預(yù)判成真,大陸擲地有聲

返回臺(tái)島后,賴清德說了3句話,洪秀柱預(yù)判成真,大陸擲地有聲

說歷史的老牢
2026-05-06 09:59:45
破案了!麥考爾點(diǎn)解沒有隨廣東隊(duì)去北京?原因揭曉

破案了!麥考爾點(diǎn)解沒有隨廣東隊(duì)去北京?原因揭曉

體育哲人
2026-05-06 00:49:21
全球十大反美國家,3個(gè)倒下2個(gè)投降,剩下五個(gè)還能撐多久?

全球十大反美國家,3個(gè)倒下2個(gè)投降,剩下五個(gè)還能撐多久?

阿尢說歷史
2026-05-03 15:05:43
國乒男女團(tuán)連爆冷門,16強(qiáng)名單出爐,日本隊(duì)意外表現(xiàn)

國乒男女團(tuán)連爆冷門,16強(qiáng)名單出爐,日本隊(duì)意外表現(xiàn)

夢在深巷qw
2026-05-06 02:04:12
終于對美國上陽謀了!中國正式通告全球,美國不愿干的事中國干!

終于對美國上陽謀了!中國正式通告全球,美國不愿干的事中國干!

云舟史策
2026-05-06 07:24:54
五一小長假第4天,過氣藝人淪為景區(qū)NPC打工人,看看都有誰?

五一小長假第4天,過氣藝人淪為景區(qū)NPC打工人,看看都有誰?

削桐作琴
2026-05-05 01:30:13
剛剛!廣州發(fā)布樓市新政

剛剛!廣州發(fā)布樓市新政

中國房地產(chǎn)報(bào)官方號(hào)
2026-05-06 09:34:20
不是吧!1.2億合同剛到手,季后賽場均僅8分,25歲就要躺平?

不是吧!1.2億合同剛到手,季后賽場均僅8分,25歲就要躺平?

球毛鬼胎
2026-05-06 13:44:07
55票對0票,菲律賓副總統(tǒng)薩拉被推上斷頭臺(tái)

55票對0票,菲律賓副總統(tǒng)薩拉被推上斷頭臺(tái)

娛樂小可愛蛙
2026-05-06 03:51:24
離預(yù)定日期不到十天,特朗普急切想訪華,王毅一通電話直接交了底

離預(yù)定日期不到十天,特朗普急切想訪華,王毅一通電話直接交了底

奇思妙想生活家
2026-05-06 14:10:07
老公接30口人來吃年夜飯,保證不用我下廚,我轉(zhuǎn)身回娘家,婆婆慌了

老公接30口人來吃年夜飯,保證不用我下廚,我轉(zhuǎn)身回娘家,婆婆慌了

三農(nóng)老歷
2026-05-06 05:47:12
2026-05-06 15:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

親子
手機(jī)
數(shù)碼
公開課
軍事航空

親子要聞

52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

手機(jī)要聞

谷歌推送5月Pixel手機(jī)更新,修復(fù)無線充電慢、相機(jī)卡死等問題

數(shù)碼要聞

七彩虹戰(zhàn)斧B860M超級黑刃主板圖賞:899元的“千元旗艦”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

實(shí)施不到48小時(shí) 特朗普緊急喊停"霍爾木茲自由計(jì)劃"

無障礙瀏覽 進(jìn)入關(guān)懷版