国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

ViT一作盛贊:這個中國開源“PS模型”強過Nano Banana

0
分享至

夢瑤 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

太香了太香了,妥妥完爆ChatGPT和Nano Banana!

剛剛,ViT核心作者、Meta超級智能團隊成員Lucas Beyer連發(fā)三條帖子,怒贊通義千問不久前發(fā)布的開源模型Qwen—Image—Layered。

在他看來,這才是圖像生成的正確打開方式~



他還順便自補了一句:這個模型方向自己其實也想做來著,只是太忙,一直沒來得及動手……(笑)

實話實說,Qwen—Image—Layered模型確實不一般,因為它可以讓我們真正實現(xiàn)ps級別的拆圖自由。

也就是說現(xiàn)在圖片元素也支持精細化修改了:



連網友們看了模型效果后都不禁感嘆:咋有種開源PhotoShop的感覺,amazing啊~



所以,這套讓Lucas Beyer反復點贊的模型到底強在哪兒,咱一起來看!

圖片也能像PS一樣拆拆拆了

如果說Nano Banana技能點在生圖,那Qwen—Image—Layered模型則厲害在:《拆圖》

相信大家都有過類似的經歷,我們平時用大模型生圖時總會碰的到一個抓狂問題,那就是圖片生成so easy,細節(jié)修改so抓狂!??!

AI生出來的圖片里,經常會有一些小細節(jié)不太到位,但我們又沒法只改局部,只能整張丟回模型重新生成,結果往往還不如上一版…



Qwen—Image—Layered模型的核心能力,就是專治「一圖定生死」這事兒的。

它能將一張普通圖片分解成多個包含透明度信息的RGBA分離圖層,實現(xiàn)真正意義上的圖片素材的可編輯性。

光說概念有點抽象,咱直接看例子~



在官方案例中,一張完整圖片輸入之后,模型會自動把畫面拆成6個包含不同元素的圖層,背景是背景,人物是人物,裝飾是裝飾,互不干擾。

看到這兒大家是不是突然感覺,這個非常適合用在海報制作等細節(jié)較多的圖片上??(雀實

但是Qwen—Image—Layered模型能做的還不止只是分離圖層這么簡單,我們還可以對圖層進行二次編輯修改。

比如最基礎的:改背景,不動主體。

只替換背景圖層的顏色,一張橙色背景的海報,瞬間就能換成藍色版本:



再比如,直接換主體。

保持構圖不變,把原圖里的長發(fā)女孩,換成短發(fā)女孩,幾乎看不出拼接修改痕跡:



再來看下面這個——文字編輯

我們可以只修改圖片中的局部文字,哪怕第一次生成的文字有幻覺問題也不怕了:



除了基本的替換編輯功能外,Qwen—Image—Layered模型還支持調整元素的大小、刪除不想要的元素等等。

例如像這樣,我們可以刪除掉畫面中不想要的元素對象,只保留自己想留的畫面元素:



又或者在不拉伸、不失真的前提下,輕松調整元素的大小比例,其實有點像PS里的自由縮放功能:



值得注意的是,Qwen—Image—Layered模型分層不限于固定的圖層數(shù)量,支持可變層分解,例如我們可以根據需要將圖像分解為3層或8層:



這個能力非常適合我們在不同的編輯需求場景下使用,可以根據我們想局部編輯的元素數(shù)量多或少而定。

當然,如果只是想改文字,差不多兩三層就夠了,如果修改需求比較多比較復雜,多拆幾層反而更好操作~

除了剛才說的這些,模型還支持在已分解的圖層基礎上做進一步分解,進而實現(xiàn)無限分解,聽上去很像無限套娃…



像下面這位網友,用Qwen—Image—Layered把人物元素進行一次性分層處理,最后甚至可以一路拆到只剩下一個線稿層:



再來看這位網友,原本人物和背景完全糊在一起的一張圖,被模型直接拆成了主體和背景兩個獨立元素:



簡單說就是:只要畫面里不止一個元素,它就能拆、還能一直拆……

拆圖的本事來自于擴散模型

有朋友看到這兒該問了,小小模型背后能有這PS一般的能力,用的是啥神奇魔法?

不藏著掖著,Qwen—Image—Layered的核心技術,本質上是一套端到端的「擴散模型」。

它并不是用來生成圖片的那種擴散模型,而是專門為「拆圖片」這件事設計的——

模型直接輸入一張完整的RGB照片,通過擴散過程,一步步預測出多個帶透明度信息的RGBA圖層。

這里有一個繞不開的前提是:

我們平時看到的圖片其實只有RGB三個通道,但真正的圖層編輯,離不開Alpha(透明度)通道。

為此,Qwen—Image—Layered專門設計了一套四通道的RGBA-VAE,把RGB輸入和RGBA輸出,統(tǒng)一壓縮到同一個隱藏空間中:



具體來說,當輸入是一張普通RGB圖片時,模型會自動把Alpha通道補成1(完全不透明),在初始化階段還會聰明地復用預訓練參數(shù),避免在透明度建模時出錯。

這樣一來,模型從一開始就「懂透明」,不同圖層也就不會被混在一起。

而且在結構上模型也不是死板拆層,它的核心Transformer—VLD-MMDiT會根據圖片復雜度,自動決定需要拆成多少層。

為了避免前一層把后一層蓋住的問題,模型還加了一套Layer3D RoPE(三維位置編碼),簡單說就是給不同圖層打上明確的層級標簽,讓模型在空間和順序上都分得清楚~



還不止如此,在隱藏空間里中,模型能夠被逐步「引導」去學會:哪些像素該屬于哪一層、哪些區(qū)域需要保留透明度、哪些內容應該被分離開來。

這樣一來哪怕圖層再多對模型來說也都是小case了~

并且在訓練策略上模型也不是從零教的,而是基于Qwen-Image預訓練生成模型逐步升級:

第一階段讓模型學會文本生成單RGBA圖層,第二階段讓模型學會擴展到多圖層合成,第三階段讓模型真正學會從圖片反向拆解多圖層。

每階段幾百K步訓練,加上重建損失和感知損失,確保語義分離干凈、不冗余。



這樣一來好處很直接,以前方法(如LayerD)要遞歸摳前景再補背景,容易積累錯誤,或者用分割+修復,遮擋區(qū)補不好。

Qwen—Image—Layered模型直接實現(xiàn)端到端生成完整RGBA層,避免這些問題,尤其擅長復雜遮擋、半透明和文字。

相較于Nano Banana的“一次抽圖定生死”,Qwen—Image—Layered的拆圖能力能讓Lucas Beyer這么喜歡,也就不奇怪了…

目前模型已經開源,感興趣的朋友可以試試~

github開源地址:https://github.com/QwenLM/Qwen-Image-Layered

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
丹麥態(tài)度突變內幕:忌憚的不是美國施壓,而是格陵蘭執(zhí)意“出走”

丹麥態(tài)度突變內幕:忌憚的不是美國施壓,而是格陵蘭執(zhí)意“出走”

顧史
2026-01-07 19:32:10
147:5,中俄反對無效,聯(lián)大通過決議,日本要求中國“自廢武功”

147:5,中俄反對無效,聯(lián)大通過決議,日本要求中國“自廢武功”

小小科普員
2025-12-04 20:14:22
錢再多有啥用!“展昭”何家勁的現(xiàn)狀,給所有老年男性提了個醒

錢再多有啥用!“展昭”何家勁的現(xiàn)狀,給所有老年男性提了個醒

阿笎評論哥
2026-01-08 06:40:37
千萬不要去破壞自己身上的上等風水

千萬不要去破壞自己身上的上等風水

洞讀君
2025-12-10 16:02:41
辭職24小時內火速簽約!張水華的“現(xiàn)實第一步”炸翻全網

辭職24小時內火速簽約!張水華的“現(xiàn)實第一步”炸翻全網

天天熱點見聞
2026-01-06 08:05:47
我53歲才醒悟:微信上基本不發(fā)朋友圈的人,十有八九是這3種人

我53歲才醒悟:微信上基本不發(fā)朋友圈的人,十有八九是這3種人

千秋文化
2025-12-03 09:44:05
42歲曲婉婷現(xiàn)狀曝光!從豪宅搬到普通平房,男友卷走共同賬戶資金

42歲曲婉婷現(xiàn)狀曝光!從豪宅搬到普通平房,男友卷走共同賬戶資金

小徐講八卦
2026-01-08 09:56:21
海底撈“小便門”當事人登報道歉!其父母回應:深表歉意;被判賠償220萬元

海底撈“小便門”當事人登報道歉!其父母回應:深表歉意;被判賠償220萬元

上觀新聞
2026-01-08 11:03:04
央視主持人崗位完成調整,朱迅被下放,龍洋占據門面位置

央視主持人崗位完成調整,朱迅被下放,龍洋占據門面位置

豐譚筆錄
2026-01-05 10:59:09
中國駐日大使罕見缺席日方新年問候交流會!日本政壇大佬施壓高市

中國駐日大使罕見缺席日方新年問候交流會!日本政壇大佬施壓高市

時時有聊
2026-01-08 07:45:16
深度揭秘?|?搞迷信活動,非法收受巨額財物……貴州省委原常委吳勝華的墮落軌跡

深度揭秘?|?搞迷信活動,非法收受巨額財物……貴州省委原常委吳勝華的墮落軌跡

一分為三看人生
2026-01-09 00:11:08
長城汽車正式取消“大小周”,全面落實雙休制度,員工:剛開始聽到消息,以為是謠言不敢信

長城汽車正式取消“大小周”,全面落實雙休制度,員工:剛開始聽到消息,以為是謠言不敢信

大風新聞
2026-01-06 16:58:03
WTT多哈站:一場3-0!王曼昱打敗日本大藤沙月,馬琳擔任場外指導

WTT多哈站:一場3-0!王曼昱打敗日本大藤沙月,馬琳擔任場外指導

齊帥
2026-01-08 20:08:13
明著吃軟飯?多次上春晚竟然全是老婆的功勞,結婚多年被拿捏死

明著吃軟飯?多次上春晚竟然全是老婆的功勞,結婚多年被拿捏死

小熊侃史
2025-12-13 10:14:47
西方媒體炸鍋!中國世界最強神機“壓縮時空”成真?

西方媒體炸鍋!中國世界最強神機“壓縮時空”成真?

徐德文科學頻道
2026-01-07 20:57:39
川普贏了兩次

川普贏了兩次

西樓飲月
2026-01-08 23:20:34
楊蘭蘭最新:不上課、不社交、英語差,喜歡買買買,香奈兒VVIP

楊蘭蘭最新:不上課、不社交、英語差,喜歡買買買,香奈兒VVIP

麥大人
2025-10-09 16:23:06
涉嫌嚴重違紀違法,東莞一學校黨總支原書記被查

涉嫌嚴重違紀違法,東莞一學校黨總支原書記被查

南方都市報
2026-01-08 16:42:19
2026年第一個驚喜?印媒:中國第三架殲-36出現(xiàn)后,轟-20即將首飛

2026年第一個驚喜?印媒:中國第三架殲-36出現(xiàn)后,轟-20即將首飛

軍機Talk
2026-01-08 10:24:15
18家大國企全軍覆沒!昔日世界第一的中國機床,現(xiàn)還有翻身機會嗎

18家大國企全軍覆沒!昔日世界第一的中國機床,現(xiàn)還有翻身機會嗎

牛牛叨史
2025-12-20 21:06:35
2026-01-09 04:39:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11988文章數(shù) 176356關注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內瑞拉防空體系因何失效

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內瑞拉防空體系因何失效

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

時尚
本地
親子
數(shù)碼
房產

珍珠專場|| 無論18歲還是80歲,總是會為它再一次心動

本地新聞

1986-2026,一通電話的時空旅程

親子要聞

家長注意了!這7件事別再孩子面前做!

數(shù)碼要聞

CES 2026 | TCL實業(yè)攜全球首創(chuàng)SQD-Mini LED顯示技術亮相

房產要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

無障礙瀏覽 進入關懷版