国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

浙大提出ContextGen,實現(xiàn)布局錨定多實例生成新SOTA

0
分享至



隨著擴散模型(Diffusion Models)的迭代演進,圖像生成已經(jīng)日臻成熟。然而,在多實例圖像生成(Multi-Instance Image Generation, MIG)這一有著大量用戶場景的關(guān)鍵領(lǐng)域,現(xiàn)有的方法仍面臨核心瓶頸:如何同時實現(xiàn)對多個對象的空間布局控制(Layout Control)以及身份特征的良好保持(Identity Preservation)。

主流方法往往無法做到兩全其美:依賴文本和布局引導(dǎo)(Layout-to-Image)的模型往往難以實現(xiàn)高度的實例定制化,且實例遺漏、屬性泄露的問題時有發(fā)生;而主流的主體驅(qū)動(Subject-driven)方法在主體數(shù)量增加時,面臨著嚴重的身份混淆和細節(jié)丟失的問題。



ContextGen 與主流 SOTA 的對比示例,以及 ContextGen 的使用例

為解決這一制約高度定制化圖像生成的難題,浙江大學(xué) ReLER 團隊發(fā)布 ContextGen,一個新型的基于Diffusion Transformer (DiT)的框架,旨在通過上下文學(xué)習(xí),可靠地完成圖像引導(dǎo)的多實例生成任務(wù)!



  • 論文地址:https://arxiv.org/abs/2510.11000
  • 項目地址:https://nenhang.github.io/ContextGen
  • 開源代碼:https://github.com/nenhang/ContextGen
  • 開源模型:https://huggingface.co/ruihangxu/ContextGen

ContextGen 提出了全新的上下文生成范式,通過整合布局圖像和多張參考圖像,將布局控制與身份保持的挑戰(zhàn)轉(zhuǎn)化為統(tǒng)一的上下文建模問題。

雙核驅(qū)動:實現(xiàn)布局與身份的雙重保真

ContextGen 的雙重核心機制,共同作用于統(tǒng)一的上下文 Token 序列上:



ContextGen 框架結(jié)構(gòu)概覽

上下文布局錨定(Contextual Layout Anchoring, CLA)

CLA 機制聚焦于全局上下文的引導(dǎo),接受用戶設(shè)計(或者模型自動拼合)的布局圖像作為輸入,以提供精確的全局布局控制和初步的身份信息。它通過在 DiT 模塊的前置層和后置層部署自注意力機制,確保文本、待生成圖像和布局圖像三者進行充分注意力交互,對整體圖像結(jié)構(gòu)進行有效控制。

身份一致性注意力(Identity Consistency Attention, ICA)

ICA 機制聚焦細粒度的身份注入,利用原始高保真度的參考圖像,將身份信息注入到其對應(yīng)的目標位置,從而保障多個實例的身份一致性。它被部署到 DiT 模塊的中間層,通過一個隔離式的注意力掩碼,將參考圖像的 Token 與對應(yīng)待去噪?yún)^(qū)域的 Token 建立連接,旨在緩解重疊或者壓縮導(dǎo)致的細節(jié)丟失問題,并在圖像序列增長時保證身份信息的穩(wěn)定注入。

這種的層次化的雙重注意力策略,有效地讓框架兼具了宏觀的布局控制和精細的實例級身份保持。此外,ContextGen 還采用了增強的位置索引策略,系統(tǒng)性地區(qū)分和組織統(tǒng)一 Token 序列中多圖像之間的關(guān)系。

數(shù)據(jù)基石:大規(guī)模詳細標注的多實例數(shù)據(jù)集

針對當(dāng)前領(lǐng)域高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺的現(xiàn)狀,團隊同時推出了IMIG-100K 數(shù)據(jù)集。這是首個為圖像引導(dǎo)的多實例生成任務(wù)設(shè)計的大規(guī)模、具備不同難度層級、提供詳細布局和身份標注的合成數(shù)據(jù)集,其構(gòu)建流程代碼也已經(jīng)開源,支持用戶根據(jù)自身需求生成定制化數(shù)據(jù)集。



IMIG-100K 數(shù)據(jù)集概覽



IMIG-100K 的布局、身份標注

性能優(yōu)化:DPO 強化學(xué)習(xí)解放創(chuàng)造力

團隊在訓(xùn)練過程中發(fā)現(xiàn),僅僅使用監(jiān)督微調(diào)容易使得模型過度參考布局圖像,導(dǎo)致生成的圖像缺乏多樣性和靈活性。為此,在監(jiān)督微調(diào)之外,ContextGen 還引入了基于偏好優(yōu)化(DPO)的強化學(xué)習(xí)階段。該階段將布局圖像作為非偏好輸入,鼓勵模型不僵硬復(fù)制布局內(nèi)容,生成更具創(chuàng)意和多樣性的圖像。



DPO 微調(diào)過程示例

實驗驗證:對標閉源模型,樹立性能標桿

在廣泛的定量和定性評估中,ContextGen 展現(xiàn)出卓越的 SOTA 性能。

身份保持:比肩閉源巨頭

在LAMICBench++基準測試中,ContextGen 不僅超越了所有開源模型(平均得分提升+1.3%),更在身份一致性上比肩了一些閉源的商業(yè)巨頭,在多實例的復(fù)雜場景中,ContextGen 在人物身份保持 (IDS) 和物體特征保持 (IPS) 上甚至可以和 GPT-4o 和 Nano Banana 一較高下。



LAMICBench++ 基準的定量對比



LAMICBench++ 基準的定性對比1



LAMICBench++ 基準的定性對比2

布局與屬性控制:準確率大幅提升

在COCO-MIG上,ContextGen 在實例級成功率 (I-SR) 上提升+3.3%,空間準確性 (mIoU) 提升+5.9%。 在LayoutSAM-Eval中,ContextGen 在顏色、材質(zhì)等屬性的正確率上也超過了現(xiàn)有的模型。



COCO-MIG 和 LayoutSAM-Eval 基準的定量比較



COCO-MIG 基準的定性比較



LayoutSam-Eval 基準的定性比較

這些結(jié)果充分證明了 ContextGen 在多實例圖像生成任務(wù)中的強大能力,成功實現(xiàn)了對布局和身份的雙重精確控制。

前端支持:便捷的用戶交互

為了方便用戶體驗,在項目中團隊增加了一個簡單易用的前端界面,支持用戶上傳參考圖像、以文本的形式添加新素材、通過拖拽方便地設(shè)計布局,生成多實例圖像。



ContextGen 前端交互界面

展望與未來

ContextGen 通過帶有雙重注意力的上下文機制,為高度可控的多實例生成提供了一個強大且可行的 DiT 框架。ReLER 團隊進一步提出,如何更智能地理解用戶的文本意圖與多模態(tài)參考,仍然是一個值得深入探索的課題。未來,團隊計劃進一步優(yōu)化模型架構(gòu),提升生成效率,并探索更多樣化的用戶交互方式,以滿足更廣泛的應(yīng)用需求。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
"崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

"崩老頭"火了!年輕女性在網(wǎng)上釣中年男性,索要小額紅包節(jié)日大紅包

互聯(lián)網(wǎng)大觀
2025-12-12 15:14:03
CCTV5直播山東男籃VS廣東,高詩巖PK徐杰,邱彪引爭議,杜鋒教學(xué)

CCTV5直播山東男籃VS廣東,高詩巖PK徐杰,邱彪引爭議,杜鋒教學(xué)

體育大學(xué)僧
2025-12-23 11:40:33
羅晉帶母親去大孤山祈福,女星任素汐陪同,與唐嫣的婚姻引發(fā)猜測

羅晉帶母親去大孤山祈福,女星任素汐陪同,與唐嫣的婚姻引發(fā)猜測

蘇子Vlog一
2025-12-20 16:02:30
13000人的雜牌軍,有輕重機槍660挺,哪里來的這么多裝備?

13000人的雜牌軍,有輕重機槍660挺,哪里來的這么多裝備?

興趣知識
2025-12-23 03:09:36
不到24小時,央視2次發(fā)文宣布春晚新舉措,網(wǎng)友:終于等到這一天

不到24小時,央視2次發(fā)文宣布春晚新舉措,網(wǎng)友:終于等到這一天

陳意小可愛
2025-12-23 14:37:32
委內(nèi)瑞拉突圍成功,中國偵察船全程盯梢,美軍航母只能干瞪眼?

委內(nèi)瑞拉突圍成功,中國偵察船全程盯梢,美軍航母只能干瞪眼?

書中自有顏如玉
2025-12-23 03:48:44
不懂成都為什么不要他了?最新消息:徐正源將執(zhí)教另一中超豪門

不懂成都為什么不要他了?最新消息:徐正源將執(zhí)教另一中超豪門

茜子足球
2025-12-23 14:00:25
萬萬沒想到,46條中日航線剛?cè)咳∠驼ǔ鰜硪蝗骸把Ч砉帧?>
    </a>
        <h3>
      <a href=阿柒的訊
2025-12-23 11:19:49
醫(yī)生多次強調(diào)老人立刻停止食用4種堅果,吃得越多,肺會越差

醫(yī)生多次強調(diào)老人立刻停止食用4種堅果,吃得越多,肺會越差

健康科普365
2025-12-22 09:17:36
起底福原愛新任老公:小5歲的橫濱大谷翔平 早稻田學(xué)霸 年薪90萬

起底福原愛新任老公:小5歲的橫濱大谷翔平 早稻田學(xué)霸 年薪90萬

念洲
2025-12-23 09:19:49
冬至過后,建議少吃雞鴨,多吃下面這3種食物,營養(yǎng)健康好處多多

冬至過后,建議少吃雞鴨,多吃下面這3種食物,營養(yǎng)健康好處多多

江江食研社
2025-12-23 16:30:06
鄭麗文在東吳大學(xué),面對臺下的同學(xué)們講道,大家可以去大陸走一趟

鄭麗文在東吳大學(xué),面對臺下的同學(xué)們講道,大家可以去大陸走一趟

大江
2025-12-23 16:54:39
對臺110億軍售后,不到24小時,美國收中方通知,13萬噸訂單沒了

對臺110億軍售后,不到24小時,美國收中方通知,13萬噸訂單沒了

時時有聊
2025-12-18 20:55:37
龐叔令硬剛官方,文物真?zhèn)闻c權(quán)益引發(fā)大討論!

龐叔令硬剛官方,文物真?zhèn)闻c權(quán)益引發(fā)大討論!

眼界看視野
2025-12-23 20:30:07
拋售美債只是灑灑水,中國釜底抽薪直擊霸權(quán)根基,不怕美國印錢了

拋售美債只是灑灑水,中國釜底抽薪直擊霸權(quán)根基,不怕美國印錢了

博覽歷史
2025-12-23 18:11:26
柬埔寨指責(zé)泰國無視中美調(diào)停,繼續(xù)發(fā)動進攻和侵略

柬埔寨指責(zé)泰國無視中美調(diào)停,繼續(xù)發(fā)動進攻和侵略

環(huán)球熱點快評
2025-12-21 09:59:35
驚喜!哈里梅根全家福曝光:阿奇王子長相帥氣不輸喬治路易

驚喜!哈里梅根全家福曝光:阿奇王子長相帥氣不輸喬治路易

粵語經(jīng)典歌單
2025-12-21 14:08:09
全村移民加拿大,70多年沒回來,廣東一無人村,村民斥巨資蓋別墅

全村移民加拿大,70多年沒回來,廣東一無人村,村民斥巨資蓋別墅

凡知
2025-12-23 15:16:41
伊能靜自曝租房住上海,定居近十年心里有憾,曾和秦昊去工地看房

伊能靜自曝租房住上海,定居近十年心里有憾,曾和秦昊去工地看房

阿纂看事
2025-12-23 15:19:56
他無顯赫出身,靠4任妻子成為知名人物,活到97歲

他無顯赫出身,靠4任妻子成為知名人物,活到97歲

古書記史
2025-12-19 18:18:41
2025-12-23 21:40:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11980文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產(chǎn)攻擊

頭條要聞

媒體稱系寧波人朱光送拍8800萬的《江南春》 身份披露

頭條要聞

媒體稱系寧波人朱光送拍8800萬的《江南春》 身份披露

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應(yīng)阿信感謝,自曝沒再收到邀約

財經(jīng)要聞

祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

藝術(shù)
手機
房產(chǎn)
本地
公開課

藝術(shù)要聞

朱總理的詩句驚艷眾人,張家界竟藏有這樣的美景!

手機要聞

大疆Osmo Action 6固件升級:正式支持8K視頻

房產(chǎn)要聞

獨家猛料!16.1億,浙江老板搶下雅居樂清水灣261畝重磅宅地!

本地新聞

云游安徽|宣城何以動人心,百年塔影一城徽韻

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版