国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

跨物體融合新突破!從拼貼到創(chuàng)造:AI學(xué)會(huì)「生」出新物體

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】AI不再只是把兩個(gè)物體「放一起」,而是真正造出一個(gè)新實(shí)體。VMDiff模型通過分階段策略:先拼接保留信息,再插值融合成整體,并自動(dòng)調(diào)節(jié)平衡,讓生成結(jié)果既像兩者,又自然統(tǒng)一。

過去,很多圖像生成模型都能同時(shí)畫出兩個(gè)物體;但要讓它們真正「長(zhǎng)成一個(gè)新物體」,其實(shí)遠(yuǎn)沒有那么簡(jiǎn)單。

如果讓AI把「玻璃罐」和「貓頭鷹」結(jié)合起來,很多模型表面上看似做到了,實(shí)際上卻沒有真正融合。

有的結(jié)果只是把兩個(gè)物體放在同一張圖里,彼此靠近、重疊,但仍然是兩個(gè)分離的概念;還有的結(jié)果更直接,只保留了其中一個(gè)物體,另一個(gè)概念幾乎消失不見。

這正是跨物體融合生成長(zhǎng)期存在的兩個(gè)核心難題: 一類叫coexistent generation,也就是「共存但不融合」;另一類叫bias generation,也就是「只偏向一邊,另一邊被吞掉」。

最近,來自南京理工大學(xué)和南京大學(xué)的研究者提出了VMDiff(Visual Mixing Diffusion)。 這項(xiàng)工作的目標(biāo)不是讓兩個(gè)概念「出現(xiàn)在同一張圖里」,而是讓它們真正融合成一個(gè)結(jié)構(gòu)連貫、語義平衡、視覺統(tǒng)一的新實(shí)體。


論文鏈接:https://arxiv.org/abs/2509.23605

項(xiàng)目主頁: https://xzr52.github.io/VMDiff_index/

代碼倉庫: https://github.com/xzr52/VMDiff_code


圖 1. VMDiff能將兩個(gè)輸入物體融合為結(jié)構(gòu)統(tǒng)一的新實(shí)體。


圖 2. 現(xiàn)有方法常見的兩類失敗:共存不融合,或只偏向一邊。

VMDiff最核心的思路,不是籠統(tǒng)地說「在noise和embedding上融合」,而是更精確地把整個(gè)過程拆成兩個(gè)目標(biāo)完全不同的階段:

  • 在前一階段,目標(biāo)是盡可能完整保留兩個(gè)輸入的信息;

  • 在后一階段,目標(biāo)是把這些信息真正長(zhǎng)成一個(gè)統(tǒng)一的新物體。

這兩個(gè)階段分別對(duì)應(yīng)論文中的Hybrid Sampling Process(HSP)Efficient Adaptive Adjustment(EAA)。 而HSP里面最值得講的,就是兩個(gè)非?!阜粗庇X但很對(duì)」的設(shè)計(jì)選擇:

該保留信息的時(shí)候,不做插值,而是拼接; 該形成統(tǒng)一整體的時(shí)候,不再拼接,而是插值。


圖 3. VMDiff由HSP與EAA兩部分組成:前者負(fù)責(zé)融合生成,后者負(fù)責(zé)自適應(yīng)調(diào)參。

第一步:先別急著「混」,先保證兩個(gè)輸入都真的在場(chǎng)

很多人一看到「融合」就會(huì)想到插值。 但 VMDiff 在前面的Blending Noise(BNoise)階段并沒有這么做。

它先從高斯噪聲出發(fā),再通過引導(dǎo)去噪和反演,把噪聲逐步變成一個(gè)帶有兩個(gè)輸入概念信息的語義噪聲。 而在這個(gè)階段,VMDiff 對(duì)兩個(gè)輸入特征采用的不是插值,而是拼接(concatenate)。

為什么這里要拼接?

因?yàn)檫@一階段的目標(biāo)還不是「生成一個(gè)整體」,而是「把兩個(gè)來源的信息都盡可能保住」。 如果過早插值,兩個(gè)物體中那些不完全對(duì)齊的局部細(xì)節(jié),很容易在平均過程中被抹平;相反,拼接能先把雙方的重要特征都保留下來,再交給后續(xù)的反演過程去提煉。

換句話說,VMDiff在這一步解決的是:如何在真正開始生成之前,先把兩個(gè)概念的信息注入噪聲。


圖 4. 在 BNoise 階段,拼接比插值更有利于保留輸入細(xì)節(jié)。

第二步:真正生成時(shí),目標(biāo)變了——這時(shí)必須讓它長(zhǎng)成一個(gè)整體

前面那一步解決的是「兩個(gè)概念都在」。 但只做到這一步還不夠,因?yàn)椤付荚凇共坏扔凇溉诤虾昧恕埂?/p>

如果在最終生成階段還繼續(xù)拼接,那么模型雖然擁有兩邊的信息,但它們還是彼此分離的,最后很容易長(zhǎng)成「兩個(gè)物體擠在一起」的結(jié)果。 所以在Mixing Denoise(MDeNoise)階段,VMDiff做了第二個(gè)關(guān)鍵轉(zhuǎn)換:

它不再拼接,而是用球面插值(spherical interpolation)去混合兩組視覺表征,讓它們沿著一個(gè)更自然的潛空間路徑逐步過渡,最終形成單一、連貫、和諧的新實(shí)體。

這一點(diǎn)特別重要。 它說明 VMDiff 不是簡(jiǎn)單地「全程統(tǒng)一融合策略」,而是針對(duì)不同階段的目標(biāo),選擇了不同的操作:

  • BNoise階段,怕丟信息,所以選拼接;

  • MDeNoise階段,怕長(zhǎng)不成整體,所以選插值。

這正是VMDiff和很多「直接混一混」方法最本質(zhì)的區(qū)別。


圖 5. 在最終生成階段,插值比拼接更容易形成統(tǒng)一整體。

但「成整體」還不夠,VMDiff 還要解決另一個(gè)麻煩:別偏科

即便有了前面的兩步,模型仍然可能偏向其中一個(gè)輸入。 比如「口紅 + 鋼鐵俠手辦」,最后也許更容易只剩口紅,或者只剩鋼鐵俠風(fēng)格,而無法做到真正平衡。

所以VMDiff 又設(shè)計(jì)了一個(gè)Similarity Score(SS),專門衡量生成結(jié)果是否同時(shí):

1.既像輸入圖像 1,也像輸入圖像 2;

2.既符合類別語義 1,也符合類別語義 2;

3.而且兩邊不能差太多。

這個(gè)式子可以拆成四部分來看:

表示visual similarity,要求生成結(jié)果在視覺上都接近兩個(gè)輸入圖像;

semantic similarity,要求生成結(jié)果在語義上都符合兩個(gè)類別標(biāo)簽;

visual balance,懲罰視覺上只偏向其中一邊;

semantic balance,懲罰語義上只保留一個(gè)概念。

換句話說,VMDiff優(yōu)化的不是「像某一個(gè)輸入」,而是:既保留兩個(gè)來源的視覺與語義,又顯式壓制不平衡。

有了這個(gè)目標(biāo)之后,后面的 Efficient Adaptive Adjustment (EAA) 就有了明確的優(yōu)化方向: 先搜索控制融合比例的 ,再根據(jù)結(jié)果進(jìn)一步調(diào)整 ,必要時(shí)重采樣噪聲 ,從而自動(dòng)找到一個(gè)既自然、又平衡的融合點(diǎn)。

EAA自動(dòng)搜索「最平衡的融合點(diǎn)」

有了這個(gè)相似度與平衡聯(lián)合目標(biāo)之后,VMDiff 用Efficient Adaptive Adjustment(EAA)去自動(dòng)搜索參數(shù)。

它會(huì)分層地調(diào)整:控制融合比例的α、控制噪聲側(cè)影響的β1、β2,以及隨機(jī)噪聲?

做法并不是昂貴的梯度反向傳播,而是更輕量的層次化搜索,比如 golden section search,再結(jié)合少量重采樣。 這使得 VMDiff 不需要一個(gè)特別重的優(yōu)化過程,也能比較高效地找到「最像兩邊、又最平衡」的解。


圖 6. EAA 通過分層搜索逐步提升相似度并減小失衡。

結(jié)果上,VMDiff 做到的不是「更花哨」,而是「更像一個(gè)新物體」

為了系統(tǒng)評(píng)估這件事,作者構(gòu)建了IIOF(Image-Image Object Fusion)數(shù)據(jù)集,包含 780 個(gè)圖像對(duì),覆蓋動(dòng)物、水果、人造物體和角色手辦等類別。 實(shí)驗(yàn)表明,VMDiff 不只是主觀上更有創(chuàng)意,在客觀指標(biāo)也都表現(xiàn)突出。

在多概念生成對(duì)比中,很多基線方法仍然容易出現(xiàn)「只是疊在一起」或者「偏向其中一邊」的問題;而 VMDiff 生成的結(jié)果往往更像是一個(gè)真正統(tǒng)一的混合實(shí)體。 從表 1 可以看到,VMDiff 并不是只在單一指標(biāo)上占優(yōu),而是在語義一致性、單實(shí)體連貫性、相似度和平衡性等多個(gè)維度上都表現(xiàn)突出。


表 1. IIOF 數(shù)據(jù)集上的定量對(duì)比結(jié)果


圖 7. 與多概念生成方法相比,VMDiff 更能生成統(tǒng)一而平衡的融合體。


圖 8. 與混合和編輯方法相比,VMDiff 的結(jié)果更完整、更自然。

這篇工作的價(jià)值,不只是生成幾個(gè)新奇例子

VMDiff 真正有意思的地方,不只是做出了幾張好看的圖,而是它給「跨物體視覺融合」這件事提供了一種很清晰的方法論:

  • 先解決「信息別丟」;

  • 再解決「整體要成」;

  • 最后再解決「雙方要平衡」。

這三件事以前常常被混在一起處理,而 VMDiff 把它們拆開了,并為每一步都設(shè)計(jì)了對(duì)應(yīng)的機(jī)制。 這也是為什么它生成出來的結(jié)果,不是簡(jiǎn)單拼貼,也不是只偏向一邊,而更像一個(gè)真的被「設(shè)計(jì)出來」的新物體。

總結(jié)

很多方法能把兩個(gè)物體同時(shí)畫出來, 但VMDiff 的目標(biāo)不是「同時(shí)出現(xiàn)」,而是「真正長(zhǎng)成一個(gè)新物體」。對(duì)角色設(shè)計(jì)、潮玩設(shè)計(jì)、電影動(dòng)畫和工業(yè)外觀探索來說,這種「真正生成一個(gè)新物體」的能力,比簡(jiǎn)單拼貼更接近實(shí)際創(chuàng)作需求。 它最核心的洞察在于:

  • 在噪聲構(gòu)造階段,用拼接保住兩邊信息;

  • 在最終生成階段,用插值把兩邊長(zhǎng)成一個(gè)整體;

  • 再用聯(lián)合考慮相似度與平衡的目標(biāo)函數(shù),自動(dòng)找到最佳融合點(diǎn)。

這讓跨物體融合不再只是「把A和B放一起」, 而是真正走向「從A和B里,創(chuàng)造出一個(gè)新的C」。

參考資料:

https://arxiv.org/abs/2509.23605

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
終于和解,成龍與房祖名惠州親密同游,修復(fù)關(guān)系全靠孫子與鈔能力

終于和解,成龍與房祖名惠州親密同游,修復(fù)關(guān)系全靠孫子與鈔能力

一盅情懷
2026-04-10 15:41:48
鄭麗文返臺(tái),傅昆萁率黨團(tuán)接機(jī),民進(jìn)黨叫板大陸,國(guó)民黨反將一軍

鄭麗文返臺(tái),傅昆萁率黨團(tuán)接機(jī),民進(jìn)黨叫板大陸,國(guó)民黨反將一軍

瑛派兒老黃
2026-04-12 17:03:36
煮米飯別只加清水!酒店不外傳秘訣,粒粒蓬松超好吃

煮米飯別只加清水!酒店不外傳秘訣,粒粒蓬松超好吃

開心美食白科
2026-04-09 09:43:04
湖人最后一場(chǎng)藏了3個(gè)主力,爵士首發(fā)名單只剩5個(gè)活人

湖人最后一場(chǎng)藏了3個(gè)主力,爵士首發(fā)名單只剩5個(gè)活人

賽場(chǎng)速報(bào)局
2026-04-12 22:35:12
鹵菜店使用“四姐”二字被索賠50萬元,店主:大家都叫我四姐,為什么告我侵權(quán)

鹵菜店使用“四姐”二字被索賠50萬元,店主:大家都叫我四姐,為什么告我侵權(quán)

環(huán)球網(wǎng)資訊
2026-04-11 21:50:22
電車是未來,在美國(guó)市場(chǎng)快死了;油車日暮,中國(guó)車企卻再度加碼

電車是未來,在美國(guó)市場(chǎng)快死了;油車日暮,中國(guó)車企卻再度加碼

柏銘銳談
2026-04-12 08:46:19
西方媒體:就算中國(guó)全力以赴,也不可能按時(shí)建成如此龐大的工程

西方媒體:就算中國(guó)全力以赴,也不可能按時(shí)建成如此龐大的工程

蜉蝣說
2026-04-12 10:59:17
韓媒:一旦開戰(zhàn),將對(duì)北京發(fā)起致命打擊,大連、青島都在列!

韓媒:一旦開戰(zhàn),將對(duì)北京發(fā)起致命打擊,大連、青島都在列!

Ck的蜜糖
2026-04-12 21:15:57
記者:云南替補(bǔ)席有人對(duì)判罰不滿飛踹替補(bǔ)席座椅,被直紅罰下

記者:云南替補(bǔ)席有人對(duì)判罰不滿飛踹替補(bǔ)席座椅,被直紅罰下

懂球帝
2026-04-12 21:24:03
“談崩”了!直線跳水,超10萬人爆倉

“談崩”了!直線跳水,超10萬人爆倉

日照日?qǐng)?bào)
2026-04-12 14:21:03
以色列襲擊黎巴嫩被譴責(zé),內(nèi)塔尼亞胡:“以軍是世界上最有道德的軍隊(duì)”;此前以色列對(duì)黎巴嫩發(fā)動(dòng)襲擊,造成包括兒童在內(nèi)數(shù)百名平民死傷

以色列襲擊黎巴嫩被譴責(zé),內(nèi)塔尼亞胡:“以軍是世界上最有道德的軍隊(duì)”;此前以色列對(duì)黎巴嫩發(fā)動(dòng)襲擊,造成包括兒童在內(nèi)數(shù)百名平民死傷

揚(yáng)子晚報(bào)
2026-04-11 11:33:21
怕了!云南一灑水車雨天作業(yè),懸掛橫幅:因橋下植被無法承接雨水

怕了!云南一灑水車雨天作業(yè),懸掛橫幅:因橋下植被無法承接雨水

火山詩話
2026-04-12 09:41:00
涉嫌嚴(yán)重違紀(jì)違法,卯祥云被查

涉嫌嚴(yán)重違紀(jì)違法,卯祥云被查

吉刻新聞
2026-04-12 11:55:29
陳麗華離世僅5天,前員工公開爆料其人品,遲重瑞的評(píng)價(jià)有人信了

陳麗華離世僅5天,前員工公開爆料其人品,遲重瑞的評(píng)價(jià)有人信了

天馬幸福的人生
2026-04-12 01:18:05
83年李鵬當(dāng)上副總理,79歲的鄧穎超親自上門叮囑:切不可脫離群眾

83年李鵬當(dāng)上副總理,79歲的鄧穎超親自上門叮囑:切不可脫離群眾

我不是沃神
2026-04-12 14:35:03
損傷閨蜜6.8萬紫貂大衣女子發(fā)聲:她工作丟了,要把閨蜜送進(jìn)去

損傷閨蜜6.8萬紫貂大衣女子發(fā)聲:她工作丟了,要把閨蜜送進(jìn)去

江山揮筆
2026-04-12 09:32:03
細(xì)菌超標(biāo)!廣東多款包裝飲用水抽檢不合格

細(xì)菌超標(biāo)!廣東多款包裝飲用水抽檢不合格

新快報(bào)新聞
2026-04-11 14:32:10
劉維偉:之前兩場(chǎng)加時(shí)體能消耗很大,今晚關(guān)鍵球處理進(jìn)步很大

劉維偉:之前兩場(chǎng)加時(shí)體能消耗很大,今晚關(guān)鍵球處理進(jìn)步很大

懂球帝
2026-04-12 22:26:18
某車起火文章被投訴下架!

某車起火文章被投訴下架!

電動(dòng)知家
2026-04-12 19:53:03
石油還能用多久?人類每年消耗50億噸,按照這個(gè)速度還夠用嗎?

石油還能用多久?人類每年消耗50億噸,按照這個(gè)速度還夠用嗎?

蜉蝣說
2026-03-31 14:42:14
2026-04-12 23:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

時(shí)尚
親子
旅游
藝術(shù)
公開課

被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

親子要聞

“晚上疼得睡不著”!8歲女童雙眼、身上被灼傷!警惕這東西,不少人家里有

旅游要聞

北京:郁金香迎來盛花期

藝術(shù)要聞

山東第一高樓即將完工!濟(jì)南CBD,顏值爆表!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版