国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

任意圖像+視頻=無(wú)限創(chuàng)意!港科大BiCo:AI視頻進(jìn)入組合時(shí)代,隨意換角

車載AI要進(jìn)入實(shí)用時(shí)代了嗎

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】BiCo是一種創(chuàng)新的AI視覺(jué)內(nèi)容生成方法,能靈活組合圖像和視頻中的視覺(jué)概念,實(shí)現(xiàn)可控編輯。它通過(guò)分層綁定器、多樣化與吸收機(jī)制、時(shí)間解耦策略等技術(shù)創(chuàng)新,解決了現(xiàn)有方法在概念提取和組合上的問(wèn)題,讓AI真正理解并融合視覺(jué)元素。BiCo在概念一致性、提示忠實(shí)度等方面表現(xiàn)優(yōu)異,可應(yīng)用于視頻制作、藝術(shù)創(chuàng)作等領(lǐng)域,為創(chuàng)作者帶來(lái)強(qiáng)大助力。

在AI視覺(jué)內(nèi)容生成領(lǐng)域,如何將多種視覺(jué)概念無(wú)縫融合,一直是研究的熱點(diǎn)。

現(xiàn)有的主流方法主要存在兩大問(wèn)題:

概念提取不準(zhǔn)確:現(xiàn)有方法使用LoRA適配器或可學(xué)習(xí)嵌入來(lái)提取概念,但面對(duì)遮擋、時(shí)間變化等復(fù)雜場(chǎng)景時(shí),難以準(zhǔn)確分解概念,對(duì)于非物體概念(如風(fēng)格、光照變化)的提取能力有限。

組合方式太局限:現(xiàn)有方法主要局限于「用視頻中的動(dòng)作來(lái)驅(qū)動(dòng)圖片中的主體」,無(wú)法靈活組合圖像和視頻中的各種屬性(如視覺(jué)風(fēng)格、光照變化等),雖然圖像域已有靈活組合的探索,但任意圖像+視頻的通用組合可控的概念組合編輯仍是未解難題。

近日,來(lái)自香港科技大學(xué)、香港中文大學(xué)等機(jī)構(gòu)的研究人員提出了一種名為BiCo(Bind & Compose)的創(chuàng)新方法,能夠靈活組合任意數(shù)量的圖像和視頻,實(shí)現(xiàn)可控的對(duì)應(yīng)元素概念組合編輯,創(chuàng)造出全新的創(chuàng)意內(nèi)容,在概念一致性、提示忠實(shí)度和運(yùn)動(dòng)質(zhì)量等方面均優(yōu)于現(xiàn)有方法。


項(xiàng)目主頁(yè):https://refkxh.github.io/BiCo_Webpage/

論文鏈接:https://arxiv.org/abs/2512.09824

還記得《無(wú)間道》中那個(gè)經(jīng)典的屋頂對(duì)峙場(chǎng)景嗎?

梁朝偉和劉德華站在屋頂,背后是香港的城市天際線——這個(gè)場(chǎng)景已經(jīng)成為影史經(jīng)典。

現(xiàn)在,想象一下:如果把這個(gè)經(jīng)典場(chǎng)景中的角色換成哈士奇和杜賓犬,會(huì)是什么效果?

使用BiCo方法可以輕松實(shí)現(xiàn):

輸入:兩張狗狗的照片(哈士奇、杜賓犬)+ 《無(wú)間道》屋頂場(chǎng)景視頻

輸出:生成一段視頻——哈士奇站在屋頂,杜賓犬出現(xiàn)在身后,背景是熟悉的城市天際線

這不是簡(jiǎn)單的「換臉」,而是AI真正理解了場(chǎng)景中的空間關(guān)系、人物位置、背景環(huán)境等復(fù)雜概念,并將來(lái)自不同來(lái)源的視覺(jué)元素完美融合。


這還只是BiCo能力的冰山一角,實(shí)際上,它可以做的遠(yuǎn)不止這些。

想象一下這樣的場(chǎng)景,你有一張秋田犬的照片,還有一段人類在客廳玩游戲的視頻?,F(xiàn)在,你想讓AI幫你生成一段視頻:「一只穿著紅色格子襯衫、戴著黑色耳機(jī)的秋田犬,興奮地舉起爪子,手持游戲手柄,沉浸在游戲中?!?/p>


或者,你有兩張圖片(我的世界風(fēng)格的風(fēng)景、火山爆發(fā))和一段蝴蝶在花上扇動(dòng)翅膀的視頻,想讓AI將它們組合成一個(gè)創(chuàng)意視頻。


這些看似「不可能」的創(chuàng)意組合,現(xiàn)在都可以通過(guò)BiCo輕松實(shí)現(xiàn)。

BiCo的三大創(chuàng)新

讓AI真正「理解」視覺(jué)概念

BiCo方法的核心思想是:將視覺(jué)概念與文本提示詞綁定,然后靈活組合來(lái)自不同來(lái)源的綁定token。

具體來(lái)說(shuō),BiCo包含三大技術(shù)創(chuàng)新:

分層綁定器結(jié)構(gòu)(Hierarchical Binder Structure)

問(wèn)題如何準(zhǔn)確分解復(fù)雜的視覺(jué)概念?

在Diffusion Transformer(DiT)的交叉注意力機(jī)制中,設(shè)計(jì)分層綁定器結(jié)構(gòu);

將視覺(jué)概念編碼到對(duì)應(yīng)的文本token中;

實(shí)現(xiàn)隱式分解,無(wú)需顯式的掩碼輸入。

效果當(dāng)組合來(lái)自多個(gè)來(lái)源的概念時(shí),目標(biāo)提示中的概念token會(huì)通過(guò)對(duì)應(yīng)的綁定器傳遞,從而整合視覺(jué)特征,實(shí)現(xiàn)基于文本條件的概念組合。

多樣化與吸收機(jī)制(Diversify-and-Absorb Mechanism, DAM)

問(wèn)題如何提高concept-token綁定的準(zhǔn)確性?

多樣化:在訓(xùn)練時(shí)對(duì)單樣本提示進(jìn)行多樣化處理,同時(shí)保留關(guān)鍵概念

吸收:引入額外的吸收令牌,在訓(xùn)練過(guò)程中消除與概念無(wú)關(guān)的細(xì)節(jié)影響

效果通過(guò)這一機(jī)制,BiCo能夠更精確地綁定概念,避免無(wú)關(guān)信息的干擾。

時(shí)間解耦策略(Temporal Disentanglement Strategy, TDS)

問(wèn)題:如何增強(qiáng)圖像和視頻概念之間的兼容性?

將視頻概念的訓(xùn)練過(guò)程解耦為兩個(gè)階段

第一階段:在單個(gè)幀上訓(xùn)練綁定器,不涉及時(shí)間概念(與圖像概念訓(xùn)練設(shè)置一致)

第二階段:在視頻上訓(xùn)練綁定器,采用雙分支綁定器結(jié)構(gòu)進(jìn)行時(shí)間建模,同時(shí)繼承第一階段的知識(shí)

效果通過(guò)分階段訓(xùn)練,BiCo能夠更好地處理圖像和視頻概念的組合,提升兼容性。


BiCo模型整體架構(gòu)


BiCo分層綁定器結(jié)構(gòu)結(jié)構(gòu);BiCo多樣化與吸收機(jī)制

實(shí)驗(yàn)結(jié)果

全面超越現(xiàn)有方法

在實(shí)驗(yàn)評(píng)估中,BiCo在多個(gè)維度上均優(yōu)于現(xiàn)有方法:

定量結(jié)果

概念一致性顯著提升,提示忠實(shí)度明顯改善,運(yùn)動(dòng)質(zhì)量更加自然流暢。


定性結(jié)果

案例1:動(dòng)作遷移(圖像+視頻)

輸入:一張小猴子的圖片 + 一段松鼠在陽(yáng)光下吃東西的視頻

輸出:生成一只小猴子在陽(yáng)光下吃東西的視頻,完美結(jié)合了猴子的外觀和松鼠的動(dòng)作


可控編輯精確指定使用猴子的外觀概念和松鼠的動(dòng)作概念進(jìn)行組合

案例2:創(chuàng)意風(fēng)格遷移(圖像+視頻)

輸入:一張線條藝術(shù)風(fēng)格的大象圖片 + 一段大象行走的視頻

輸出:生成線條藝術(shù)風(fēng)格的大象行走視頻,成功融合了藝術(shù)風(fēng)格和運(yùn)動(dòng)

可控編輯精確控制風(fēng)格概念和運(yùn)動(dòng)概念的組合方式


生成線稿風(fēng)格大象視頻,BiCo與之前方法的對(duì)比結(jié)果

案例3:多概念組合(多圖像+視頻)

輸入:三張圖片(快樂(lè)的秋田犬、時(shí)尚服裝套裝藍(lán)白條紋帽子)+ 一段女子坐在木制長(zhǎng)椅上讀書的視頻

輸出:生成秋田犬穿著服裝套裝和帽子,坐在木制長(zhǎng)椅上讀書的視頻,完美融合了來(lái)自三個(gè)圖像源的不同概念元素(主體、服裝、配飾)和視頻場(chǎng)景(動(dòng)作和場(chǎng)景)

可控編輯靈活組合來(lái)自多個(gè)圖像源的不同概念元素(主體外觀、服裝、配飾)和視頻概念(動(dòng)作、場(chǎng)景),實(shí)現(xiàn)復(fù)雜的多概念編輯


案例4:多視頻組合

輸入:兩段視頻(彈吉他的男子、穿綠色西裝舉小號(hào)的男子

輸出:生成彈吉他的男子與舉小號(hào)的男子同時(shí)出現(xiàn)的視頻,將兩個(gè)視頻中的不同人物和動(dòng)作進(jìn)行組合

可控編輯用戶可以精確指定要從每個(gè)視頻中提取和組合的概念元素(人物外觀、動(dòng)作、場(chǎng)景等)


與可靈O1對(duì)比:BiCo在概念組合上的顯著優(yōu)勢(shì)

為了更直觀地展示BiCo的優(yōu)勢(shì),我們將其與業(yè)界領(lǐng)先的視頻生成模型可靈O1進(jìn)行了比較。

將《我的世界》風(fēng)格、火山爆發(fā)與蝴蝶振翅三個(gè)概念,融合成一段創(chuàng)意視頻。


輸入的視頻與圖片概念

BiCo的生成結(jié)果

可靈O1的生成結(jié)果

概念一致性:BiCo更精準(zhǔn)

BiCo:能夠保持生成結(jié)果中蝴蝶棲息在花朵上的姿勢(shì)狀態(tài)一致,花朵始終存在,蝴蝶與花朵的關(guān)系保持穩(wěn)定

可靈O1花朵直接消失了,蝴蝶變成了在空中飛行的狀態(tài),完全偏離了輸入視頻中的概念

概念泄漏控制:BiCo更嚴(yán)格

BiCo火山噴發(fā)狀態(tài)與輸入圖片完全相同,精確保持了輸入圖像中的噴發(fā)特征,沒(méi)有引入額外的無(wú)關(guān)元素

可靈O1:存在概念泄漏,火山噴發(fā)狀態(tài)與輸入圖片不一致,出現(xiàn)了輸入中不存在的元素

風(fēng)格一致性:BiCo更忠實(shí)

BiCo像素藝術(shù)風(fēng)格的流體效果(流動(dòng)的巖漿)表現(xiàn)完美,成功將像素藝術(shù)風(fēng)格應(yīng)用到動(dòng)態(tài)的巖漿流動(dòng)中,保持了整體風(fēng)格的統(tǒng)一

可靈O1巖漿沒(méi)有變成像素藝術(shù)風(fēng)格,風(fēng)格遷移失敗,導(dǎo)致生成的視頻中風(fēng)格不一致

通過(guò)這個(gè)對(duì)比案例,我們可以清晰地看到BiCo在以下三個(gè)關(guān)鍵維度上的顯著優(yōu)勢(shì):

1. 可控性更強(qiáng)BiCo能夠精確控制要組合的概念元素,實(shí)現(xiàn)保持概念高度一致性的組合,用戶可以精確指定要保留和組合的視覺(jué)特征

2. 概念一致性更高BiCo能夠準(zhǔn)確保持輸入概念的狀態(tài)和關(guān)系,避免概念丟失或改變(如蝴蝶與花朵的關(guān)系、火山噴發(fā)狀態(tài))

3. 提示詞忠實(shí)度更好BiCo能夠忠實(shí)執(zhí)行用戶的組合意圖,在復(fù)雜多概念組合場(chǎng)景中,仍然能夠準(zhǔn)確地將不同來(lái)源的概念按照提示詞要求進(jìn)行組合(如像素藝術(shù)風(fēng)格的完整應(yīng)用)

應(yīng)用場(chǎng)景

為創(chuàng)作者打開(kāi)新世界

BiCo支持任意數(shù)量的圖像和視頻輸入,實(shí)現(xiàn)可控的概念組合編輯,應(yīng)用場(chǎng)景非常廣泛:

視頻內(nèi)容創(chuàng)作

電影制作:將任意多個(gè)場(chǎng)景的元素進(jìn)行可控組合,創(chuàng)造新的視覺(jué)效果

廣告創(chuàng)意:快速組合多個(gè)創(chuàng)意素材,生成個(gè)性化廣告視頻

短視頻:為內(nèi)容創(chuàng)作者提供強(qiáng)大的多素材組合工具,實(shí)現(xiàn)精確的概念編輯

藝術(shù)創(chuàng)作

風(fēng)格遷移:將多個(gè)藝術(shù)風(fēng)格與真實(shí)場(chǎng)景進(jìn)行可控組合

概念設(shè)計(jì):快速組合多個(gè)概念元素,可視化創(chuàng)意想法

動(dòng)畫制作:靈活組合多個(gè)動(dòng)畫元素,簡(jiǎn)化動(dòng)畫制作流程

技術(shù)優(yōu)勢(shì)

為什么BiCo更強(qiáng)大?

靈活性

支持任意數(shù)量的圖像和視頻進(jìn)行組合(圖像+圖像、圖像+視頻、視頻+視頻、多圖像+多視頻等)

可以組合物體、風(fēng)格、動(dòng)作、光照等各種視覺(jué)概念

實(shí)現(xiàn)可控的對(duì)應(yīng)元素概念組合編輯,用戶可以精確指定要組合的概念元素

準(zhǔn)確性

通過(guò)分層綁定器和DAM機(jī)制,實(shí)現(xiàn)更精確的概念提取

避免概念泄漏和無(wú)關(guān)信息干擾

兼容性

通過(guò)TDS策略,增強(qiáng)圖像和視頻概念之間的兼容性

更自然的組合效果

易用性

單樣本學(xué)習(xí):只需一張圖片或一段視頻即可進(jìn)行概念綁定

無(wú)需掩碼:不需要手動(dòng)標(biāo)注,降低使用門檻

靈活組合:支持任意數(shù)量的輸入源,實(shí)現(xiàn)多概念的可控組合

結(jié)語(yǔ)

AI視覺(jué)創(chuàng)意的未來(lái)已來(lái)

BiCo方法的提出,標(biāo)志著AI視覺(jué)內(nèi)容生成領(lǐng)域的一個(gè)重要突破。它不僅解決了現(xiàn)有方法在概念提取和組合方面的局限,更為視覺(jué)內(nèi)容創(chuàng)作提供了新的工具和思路。

隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,AI將在視覺(jué)創(chuàng)意領(lǐng)域發(fā)揮越來(lái)越重要的作用,為創(chuàng)作者打開(kāi)無(wú)限可能。

參考資料:

https://refkxh.github.io/BiCo_Webpage/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
原“亞洲最大宜家門店”即將關(guān)閉!會(huì)有清倉(cāng)活動(dòng)嗎?宜家中國(guó)回應(yīng)

原“亞洲最大宜家門店”即將關(guān)閉!會(huì)有清倉(cāng)活動(dòng)嗎?宜家中國(guó)回應(yīng)

大風(fēng)新聞
2026-01-07 23:21:03
閆學(xué)晶奢侈風(fēng)波升級(jí)!官媒出手銳評(píng),韓紅卻因一特殊舉動(dòng)口碑暴增

閆學(xué)晶奢侈風(fēng)波升級(jí)!官媒出手銳評(píng),韓紅卻因一特殊舉動(dòng)口碑暴增

李健政觀察
2026-01-06 21:18:10
電詐“教父”陳志遣返中國(guó),美國(guó)扣押的12.7萬(wàn)枚比特幣應(yīng)移交中國(guó)

電詐“教父”陳志遣返中國(guó),美國(guó)扣押的12.7萬(wàn)枚比特幣應(yīng)移交中國(guó)

星空區(qū)塊鏈
2026-01-07 21:14:37
這就是NBA,特雷-楊被交易時(shí)還坐在替補(bǔ)席,隨后被叫回更衣室

這就是NBA,特雷-楊被交易時(shí)還坐在替補(bǔ)席,隨后被叫回更衣室

懂球帝
2026-01-08 10:53:12
穆雷22+8+17生涯新高掘金終結(jié)綠軍4連勝 沃特森30分布朗33分

穆雷22+8+17生涯新高掘金終結(jié)綠軍4連勝 沃特森30分布朗33分

醉臥浮生
2026-01-08 10:32:22
特斯拉突然大降價(jià)

特斯拉突然大降價(jià)

新行情
2026-01-07 14:29:08
陳志遣返!全球“殺豬盤”教父落網(wǎng)

陳志遣返!全球“殺豬盤”教父落網(wǎng)

不正確
2026-01-08 00:18:24
美媒:克林根曾被視為楊瀚森過(guò)渡替身 如今已成開(kāi)拓者建隊(duì)基石

美媒:克林根曾被視為楊瀚森過(guò)渡替身 如今已成開(kāi)拓者建隊(duì)基石

羅說(shuō)NBA
2026-01-08 06:52:21
宜家中國(guó)官宣關(guān)閉7家商場(chǎng):2月2日起停止運(yùn)營(yíng)上海寶山、廣州番禺等7家商場(chǎng)

宜家中國(guó)官宣關(guān)閉7家商場(chǎng):2月2日起停止運(yùn)營(yíng)上海寶山、廣州番禺等7家商場(chǎng)

環(huán)球網(wǎng)資訊
2026-01-07 12:33:15
部分銀行下調(diào)存款利率!

部分銀行下調(diào)存款利率!

中國(guó)經(jīng)營(yíng)報(bào)
2026-01-08 08:26:38
噩耗! 澳洲華人下海抓龍蝦, 失蹤5天后, 遺體被沖上岸, 僅剩頭顱! 海里這個(gè)巨大危險(xiǎn), 很多人都沒(méi)在意…

噩耗! 澳洲華人下海抓龍蝦, 失蹤5天后, 遺體被沖上岸, 僅剩頭顱! 海里這個(gè)巨大危險(xiǎn), 很多人都沒(méi)在意…

澳微Daily
2026-01-07 14:09:11
震撼!內(nèi)娛又一位頂流男星的剛成年嫂子被發(fā)現(xiàn)!大量爆料噴涌!

震撼!內(nèi)娛又一位頂流男星的剛成年嫂子被發(fā)現(xiàn)!大量爆料噴涌!

魔都囡
2026-01-08 09:48:47
王石田樸珺婚變風(fēng)波升級(jí),女方整容前舊照被扒,曾為王石跪式服務(wù)

王石田樸珺婚變風(fēng)波升級(jí),女方整容前舊照被扒,曾為王石跪式服務(wù)

瓜汁橘長(zhǎng)Dr
2026-01-05 16:48:07
特朗普指示美國(guó)退出“不符合該國(guó)利益”的66個(gè)國(guó)際組織

特朗普指示美國(guó)退出“不符合該國(guó)利益”的66個(gè)國(guó)際組織

環(huán)球網(wǎng)資訊
2026-01-08 06:29:06
小米深夜通報(bào)處罰,辭退涉事人員、公關(guān)總經(jīng)理徐潔云遭重罰,禍及46號(hào)員工許斐!網(wǎng)友:這才是棄輪保車

小米深夜通報(bào)處罰,辭退涉事人員、公關(guān)總經(jīng)理徐潔云遭重罰,禍及46號(hào)員工許斐!網(wǎng)友:這才是棄輪保車

大白聊IT
2026-01-07 10:25:56
閆學(xué)晶遭遇現(xiàn)世報(bào)!代言品牌疑解約,評(píng)論區(qū)淪陷,春晚節(jié)目或不保

閆學(xué)晶遭遇現(xiàn)世報(bào)!代言品牌疑解約,評(píng)論區(qū)淪陷,春晚節(jié)目或不保

銀河史記
2026-01-06 16:09:28
深圳一高速今年或?qū)⒚赓M(fèi)通行!

深圳一高速今年或?qū)⒚赓M(fèi)通行!

深圳晚報(bào)
2026-01-07 22:10:45
樊振東奪冠第3天,德國(guó)俱樂(lè)部開(kāi)出豐厚條件,給予了他極大的尊重

樊振東奪冠第3天,德國(guó)俱樂(lè)部開(kāi)出豐厚條件,給予了他極大的尊重

十點(diǎn)街球體育
2026-01-08 00:05:03
14周連跌,俄羅斯油價(jià)暴跌至36美元/桶

14周連跌,俄羅斯油價(jià)暴跌至36美元/桶

桂系007
2026-01-07 23:47:14
2026年1月,銀行存款利率又要大改!存銀行一萬(wàn)元,一年有多少利息?很多人不清楚!

2026年1月,銀行存款利率又要大改!存銀行一萬(wàn)元,一年有多少利息?很多人不清楚!

新浪財(cái)經(jīng)
2026-01-07 21:14:52
2026-01-08 11:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14279文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽(tīng)到營(yíng)銷這兩個(gè)字都有點(diǎn)惡心

頭條要聞

博主發(fā)4條微博被控?fù)p害華為商譽(yù) 二審定罪免罰

頭條要聞

博主發(fā)4條微博被控?fù)p害華為商譽(yù) 二審定罪免罰

體育要聞

賣水果、搬磚的小伙,與哈蘭德?tīng)?zhēng)英超金靴

娛樂(lè)要聞

《馬背搖籃》首播,革命的樂(lè)觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無(wú)需過(guò)度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

不談?lì)嵏才c奇跡,智駕企業(yè)還能聊點(diǎn)什么?

態(tài)度原創(chuàng)

家居
時(shí)尚
旅游
本地
軍事航空

家居要聞

理性主義 冷調(diào)自由居所

藍(lán)色+灰色、紅色+棕色,這4組配色怎么搭都好看!

旅游要聞

讓懷川文化浸潤(rùn)旅居時(shí)光

本地新聞

“閩東利劍·惠民安商”高效執(zhí)行專項(xiàng)行動(dòng)

軍事要聞

特朗普提出將美國(guó)軍費(fèi)提升至1.5萬(wàn)億美元

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版