国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)標(biāo)GPT-4o和香蕉!浙大開源ContextGen:布局身份協(xié)同新SOTA

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】浙江大學(xué)ReLER團(tuán)隊(duì)開源ContextGen框架,攻克多實(shí)例圖像生成中布局與身份協(xié)同控制難題。基于Diffusion Transformer架構(gòu),通過雙重注意力機(jī)制,實(shí)現(xiàn)布局精準(zhǔn)錨定與身份高保真隔離,在基準(zhǔn)測試中超越開源SOTA模型,對(duì)標(biāo)GPT-4o等閉源系統(tǒng),為定制化AI圖像生成帶來新突破。

在定制化AI圖像生成領(lǐng)域,多實(shí)例圖像生成(MIG)面臨一個(gè)關(guān)鍵的協(xié)同控制挑戰(zhàn):精確布局控制多主體身份保真的同步實(shí)現(xiàn)。

現(xiàn)有方法往往只能達(dá)成二者之一,少數(shù)能兼顧的方法在性能上也存在顯著不足。

為解決這一布局與身份的協(xié)同控制瓶頸,浙江大學(xué)ReLER團(tuán)隊(duì)提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架構(gòu)內(nèi)部,通過雙重上下文注意力機(jī)制實(shí)現(xiàn)了架構(gòu)級(jí)的分層解耦控制。

ContextGen在基準(zhǔn)測試上,身份保持能力超越SOTA開源模型,并成功對(duì)標(biāo)了GPT-4o和Nano-Banana等強(qiáng)大的閉源系統(tǒng),實(shí)現(xiàn)了在復(fù)雜定制化控制方面實(shí)現(xiàn)了關(guān)鍵突破。


論文地址:https://arxiv.org/abs/2510.11000

代碼地址:https://github.com/nenhang/ContextGen

行業(yè)痛點(diǎn)

多實(shí)例生成中的「協(xié)同控制挑戰(zhàn)」


當(dāng)前MIG模型在實(shí)際應(yīng)用中,主要表現(xiàn)出在布局精準(zhǔn)度與身份保真度協(xié)同控制上的挑戰(zhàn):

  1. 宏觀布局難以固化即使模型顯式提供了布局控制功能,生成的多個(gè)實(shí)例也難以精確地錨定到用戶指定的空間位置,屬性泄露和實(shí)例遺失現(xiàn)象頻發(fā),導(dǎo)致生成圖像的構(gòu)圖混亂且不符合預(yù)期。

  2. 身份細(xì)節(jié)極易丟失目前很多模型都支持多主體定制化,但主體數(shù)量增加時(shí),身份細(xì)節(jié)丟失的概率會(huì)顯著上升,生成結(jié)果往往無法忠實(shí)還原每個(gè)實(shí)例的獨(dú)特身份特征。

ContextGen的核心突破在于:它利用注意力機(jī)制控制的上下文學(xué)習(xí),實(shí)現(xiàn)了對(duì)這兩個(gè)問題的協(xié)同解決,并在多個(gè)關(guān)鍵基準(zhǔn)上達(dá)到了新的SOTA水平。

核心機(jī)制

布局錨定與身份隔離


ContextGen框架基于DiT架構(gòu)構(gòu)建,將所有輸入整合成一個(gè)統(tǒng)一的Token序列T,創(chuàng)新在于在DiT模塊中嵌入了兩個(gè)功能不同的「注意力核」。

宏觀布局控制模塊

上下文布局錨定 (Contextual Layout Anchoring, CLA)機(jī)制是DiT網(wǎng)絡(luò)的「布局控制器」,負(fù)責(zé)全局結(jié)構(gòu)和構(gòu)圖:

機(jī)制:該模塊采用的注意力掩碼MCLA允許查詢Token q與所有文本、圖像和布局Token進(jìn)行廣泛通信。

效果:通過在DiT模塊的前置和后置層建立宏觀約束,確保生成的實(shí)例能夠魯棒且精確地遵循用戶指定的布局要求。這種圖像層面的宏觀布局引導(dǎo)更適配于現(xiàn)有的DiT上下文學(xué)習(xí)機(jī)制,簡單而有效地提升了布局控制的準(zhǔn)確性。

微觀身份隔離模塊

身份一致性注意力 (Instance Consistency Attention, ICA)機(jī)制是解決多主體身份混淆與丟失的「身份隔離器」:

機(jī)制:采用隔離式的注意力掩碼MICA,強(qiáng)制限制位于實(shí)例n邊界框Bn內(nèi)的查詢Token q,只能關(guān)注其自身區(qū)域Bn、文本T以及對(duì)應(yīng)的參考圖像Rn

效果:這一設(shè)計(jì)在DiT模塊的中間層,切斷了不同實(shí)例身份Token之間的交叉通信,它為每個(gè)實(shí)例創(chuàng)造了一個(gè)「注意力孤島」,從機(jī)制上保障了多主體身份信息的高保真隔離注入,這一機(jī)制在應(yīng)對(duì)實(shí)例重疊、壓縮等復(fù)雜場景時(shí),能有效緩解身份信息丟失問題,同時(shí)在上下文變長時(shí),也能維持魯棒的身份保真度。

輔助優(yōu)化與數(shù)據(jù)基石


DPO強(qiáng)化學(xué)習(xí)引入直接偏好優(yōu)化 (DPO),解決了監(jiān)督微調(diào)可能導(dǎo)致的布局僵硬復(fù)制問題,從而增強(qiáng)了生成圖像的多樣性和自然度。


IMIG-100K數(shù)據(jù)集團(tuán)隊(duì)同步發(fā)布了IMIG-100K,首個(gè)包含詳細(xì)布局與身份標(biāo)注的、含有不同難度層級(jí)的、大規(guī)模高質(zhì)量多實(shí)例合成數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果

開源SOTA,對(duì)標(biāo)閉源巨頭

ContextGen的性能突破,體現(xiàn)在布局精度和身份保持兩個(gè)維度:

布局精度提升:在COCO-MIG基準(zhǔn)上,空間準(zhǔn)確性(mIoU) 實(shí)現(xiàn)了+5.9%提升,驗(yàn)證了ContextGen在精確構(gòu)圖上的領(lǐng)先性。


身份保持的突破:在LAMICBench++身份保持測試中,ContextGen的在較多主體下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等閉源模型。這一關(guān)鍵結(jié)果證明了ContextGen在復(fù)雜多主體場景中,對(duì)細(xì)節(jié)的保真還原能力。


定性結(jié)果清晰顯示,ContextGen也能還原細(xì)粒度的面部特征,也能靈活融合不同風(fēng)格的參考圖像,同時(shí)還能遵循用戶的布局設(shè)計(jì)要求。




前端支持

用戶友好界面

團(tuán)隊(duì)還開發(fā)了一個(gè)簡單的前端界面,用戶可以上傳自己的參考圖像,方便地設(shè)計(jì)布局,從而定制化生成多實(shí)例圖像。


結(jié)語

ContextGen框架通過在DiT架構(gòu)中引入CLA和ICA雙核注意力機(jī)制,創(chuàng)新性地實(shí)現(xiàn)了宏觀布局和微觀身份信息的架構(gòu)級(jí)分層解耦。

這一工作不僅為多實(shí)例生成提供了SOTA解決方案,成功突破了布局與身份的協(xié)同控制瓶頸,也為DiT等基礎(chǔ)擴(kuò)散模型在高度定制化AIGC任務(wù)中的應(yīng)用開辟了新的技術(shù)路徑。

作者簡介

本工作由浙江大學(xué)ReLER團(tuán)隊(duì)完成,其中第一作者是浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院本科生許瑞航,通訊作者為浙江大學(xué)求是講席教授楊易老師。ReLER團(tuán)隊(duì)長期致力于人工智能領(lǐng)域的前沿研究,包括但不限于生成模型、多模態(tài)學(xué)習(xí)、AI+X等方向。

參考資料:

https://arxiv.org/abs/2510.11000

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
南博風(fēng)波越挖越深!82歲前院長揪出,左手倒右手,8800萬國寶賤賣

南博風(fēng)波越挖越深!82歲前院長揪出,左手倒右手,8800萬國寶賤賣

烏娛子醬
2025-12-22 14:51:34
火箭連遭西部墊底隊(duì)絕殺:杜蘭特兩丟絕殺 比肩喬科詹創(chuàng)兩大神跡

火箭連遭西部墊底隊(duì)絕殺:杜蘭特兩丟絕殺 比肩喬科詹創(chuàng)兩大神跡

醉臥浮生
2025-12-22 13:47:14
離譜!楊書記為何敢直接拿走博物館的瓷花瓶?

離譜!楊書記為何敢直接拿走博物館的瓷花瓶?

仕道
2025-12-22 09:20:15
北京阿姨20年守茅臺(tái)股票:90萬本金,分紅326萬,成本歸零!

北京阿姨20年守茅臺(tái)股票:90萬本金,分紅326萬,成本歸零!

趣文說娛
2025-12-20 18:29:20
可怕!僅20分鐘眼球被溶化!8歲男孩終生失明!家家都有這東西!快扔掉!

可怕!僅20分鐘眼球被溶化!8歲男孩終生失明!家家都有這東西!快扔掉!

超級(jí)數(shù)學(xué)建模
2025-12-21 22:38:35
同事辦完離職問“是不是能走了,不用等到6點(diǎn)下班吧”,引發(fā)熱議

同事辦完離職問“是不是能走了,不用等到6點(diǎn)下班吧”,引發(fā)熱議

火山詩話
2025-12-22 09:39:07
今晚首播!CCTV1又一大劇來襲!看完陣容,我敢說:這劇收視要爆

今晚首播!CCTV1又一大劇來襲!看完陣容,我敢說:這劇收視要爆

小丸子的娛樂圈
2025-12-22 12:04:29
新華社權(quán)威快報(bào)|支持個(gè)人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社權(quán)威快報(bào)|支持個(gè)人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社
2025-12-22 08:33:06
江蘇省政府:免去趙建國的省科學(xué)技術(shù)廳副廳長職務(wù)

江蘇省政府:免去趙建國的省科學(xué)技術(shù)廳副廳長職務(wù)

現(xiàn)代快報(bào)
2025-12-22 12:42:19
曾醫(yī)生號(hào)源秒空:是給網(wǎng)上那些滿嘴仁義道德的人一記響亮耳光

曾醫(yī)生號(hào)源秒空:是給網(wǎng)上那些滿嘴仁義道德的人一記響亮耳光

詩意世界
2025-12-22 11:28:27
特朗普急眼了!美軍公海劫中國11億原油,中國反制信號(hào)已亮

特朗普急眼了!美軍公海劫中國11億原油,中國反制信號(hào)已亮

陳博世財(cái)經(jīng)
2025-12-22 10:52:10
施羅德24+7+10制勝三分國王OT險(xiǎn)勝火箭,威少21+13KD24+10+8

施羅德24+7+10制勝三分國王OT險(xiǎn)勝火箭,威少21+13KD24+10+8

湖人崛起
2025-12-22 13:46:31
未來兩周46條中日航線取消全部航班

未來兩周46條中日航線取消全部航班

第一財(cái)經(jīng)資訊
2025-12-22 11:41:04
山姆爆火的400克女款羽絨服,打了多少商家的臉?

山姆爆火的400克女款羽絨服,打了多少商家的臉?

娛樂資本論
2025-12-22 11:53:59
10萬塊的金手鐲?上海一女子爽快出手,但店員突然不賣了……

10萬塊的金手鐲?上海一女子爽快出手,但店員突然不賣了……

環(huán)球網(wǎng)資訊
2025-12-22 10:03:18
蘇聯(lián)曾經(jīng)有多強(qiáng)大?看看這些圖片

蘇聯(lián)曾經(jīng)有多強(qiáng)大?看看這些圖片

航空知識(shí)
2025-12-21 23:10:41
RO凈水機(jī)在日本被禁用

RO凈水機(jī)在日本被禁用

我是健康磚家
2025-12-21 07:09:25
比“丑”更可怕的是“無效豪華”:很多農(nóng)村自建房正陷入這個(gè)怪圈

比“丑”更可怕的是“無效豪華”:很多農(nóng)村自建房正陷入這個(gè)怪圈

夢想的現(xiàn)實(shí)
2025-12-22 09:21:01
洗衣機(jī)有個(gè)“小開關(guān)”,每月要打開一次,不然衣服會(huì)越洗越臟!

洗衣機(jī)有個(gè)“小開關(guān)”,每月要打開一次,不然衣服會(huì)越洗越臟!

家居設(shè)計(jì)師蘇哥
2025-12-21 14:18:54
南博退休職工實(shí)名舉報(bào):前院長大規(guī)模盜賣南遷國寶文物

南博退休職工實(shí)名舉報(bào):前院長大規(guī)模盜賣南遷國寶文物

貼小君
2025-12-22 07:19:10
2025-12-22 16:48:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14155文章數(shù) 66394關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

海底撈小便案詳情披露:倆17歲男生玩游戲 家長賠220萬

頭條要聞

海底撈小便案詳情披露:倆17歲男生玩游戲 家長賠220萬

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

星光大賞看點(diǎn)全在臺(tái)下

財(cái)經(jīng)要聞

人民幣快漲到7了!

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

健康
數(shù)碼
家居
本地
教育

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

小米手表5正式官宣:搭載驍龍W5 支持EMG/ECG

家居要聞

現(xiàn)代手法 詮釋東方文化

本地新聞

云游安徽|走進(jìn)銅陵,照見三千年不滅的爐火

教育要聞

魚蹦豆創(chuàng)始人狄豆豆:3到12歲兒童成長規(guī)劃+入戶陪伴新賽道

無障礙瀏覽 進(jìn)入關(guān)懷版