突破場景與數(shù)據(jù)限制：Adobe提出僅需單張照片的可控動態(tài)攝影生成新范式DreamLoop

2026-03-13 08:24:41　來源: 將門創(chuàng)投

北京舉報

分享至

在動態(tài)攝影（Cinemagraph）生成領(lǐng)域，傳統(tǒng)方法主要依賴于光流預(yù)測與重復(fù)紋理假設(shè)，通常只能處理水流、煙霧等具有簡單周期性運動的場景，難以推廣至人物、動物或剛性物體所涉及的復(fù)雜非重復(fù)性運動。與此同時，盡管大規(guī)模視頻擴散模型能夠生成視覺效果出色的視頻，但它們往往無法保持靜態(tài)背景的一致性，并且在細(xì)粒度運動軌跡控制方面能力有限。

本文介紹一項Adobe Research最新發(fā)布的研究成果DreamLoop。DreamLoop是一個基于視頻擴散模型的可控動態(tài)攝影生成框架，其核心目標(biāo)是實現(xiàn)在無需專用訓(xùn)練數(shù)據(jù)的前提下，從單張靜態(tài)照片生成高質(zhì)量、用戶可控且無縫循環(huán)的動態(tài)影像。該框架以前饋推理的方式，將預(yù)訓(xùn)練的圖像到視頻擴散模型與用戶提供的邊界框序列和稀疏點軌跡相結(jié)合，并通過強化學(xué)習(xí)引導(dǎo)的微調(diào)策略，在真實視頻數(shù)據(jù)集上進(jìn)行優(yōu)化，最終輸出與用戶意圖高度匹配的電影循環(huán)序列。實驗表明，DreamLoop在通用場景下的電影循環(huán)生成任務(wù)中，其性能顯著優(yōu)于傳統(tǒng)光流方法與現(xiàn)有視頻擴散模型。

論文題目： DreamLoop: Controllable Cinemagraph Generation from a Single Photograph 文章鏈接： https://arxiv.org/abs/2601.02646 項目主頁： https://anime26398.github.io/dreamloop.github.io

一、引言

動態(tài)攝影是一種獨特而富有表現(xiàn)力的視覺媒介形式，它巧妙地融合了靜態(tài)攝影的構(gòu)圖和局部、可控的動態(tài)元素，通過無縫循環(huán)的動畫效果，營造出介于靜態(tài)圖像與視頻之間的藝術(shù)體驗。它的效果是在一張靜止的照片中引入局部反復(fù)運動的部分使整個畫面活躍起來，如下圖所示。

然而，傳統(tǒng)制作流程往往需要精心拍攝的視頻素材、嚴(yán)格的相機穩(wěn)定措施以及耗時的后期處理。因此，若能僅憑單張照片生成動態(tài)攝影，將大幅降低這一藝術(shù)形式的創(chuàng)作門檻。目前該任務(wù)面臨以下核心挑戰(zhàn)：

（1）現(xiàn)有的動態(tài)攝影生成方法大多依賴光流預(yù)測（如Animating Landscape[1]、Controllable Animation[2]），主要適用于具有重復(fù)紋理和規(guī)律運動的場景，難以刻畫人類、動物等剛性或半剛性目標(biāo)所呈現(xiàn)的復(fù)雜、非周期性運動模式。

（2）大規(guī)模視頻擴散模型（如CogVideoX[3]、Wan2.2-5B[4]）雖然在通用視頻生成方面展現(xiàn)出強大的表達(dá)能力，但缺乏對運動區(qū)域的細(xì)粒度空間定位與精確軌跡控制，難以在生成過程中同時保證背景區(qū)域的嚴(yán)格靜態(tài)性以及局部運動的可控性。

（3）目前該領(lǐng)域缺乏專門的大規(guī)模高質(zhì)量數(shù)據(jù)集，這使得直接訓(xùn)練適應(yīng)此任務(wù)的模型十分困難。

二、方法介紹

下圖展示了DreamLoop方法的整體架構(gòu)。左側(cè)展示了模型在邊界框與稀疏點軌跡控制條件下的訓(xùn)練流程，右側(cè)部分展示了DreamLoop的推理過程。

2.1 基于視頻擴散模型的基礎(chǔ)架構(gòu)

本文以預(yù)訓(xùn)練的圖像到視頻擴散模型為基礎(chǔ)，首先使用 3D-VAE 對圖像進(jìn)行時空編碼，隨后通過 DiT 處理噪聲 tokens，最后解碼生成最終視頻。訓(xùn)練目標(biāo)函數(shù)為：

其中，表示時間步的 latent 狀態(tài)，是訓(xùn)練路徑上的目標(biāo)速度，是模型學(xué)習(xí)的速度場。該目標(biāo)函數(shù)用于優(yōu)化模型對時空動態(tài)的建模能力。

2.2 時序邊界控制和運動控制

為了實現(xiàn)文本指令控制效果，本文將時間信息和運動條件注入到損失函數(shù)中。具體來說，時序邊界控制是指訓(xùn)練模型根據(jù)首幀和末幀生成中間幀，從而在推理時通過將輸入照片作為首末幀來強制生成無縫循環(huán)。運動控制是指訓(xùn)練模型根據(jù)邊界框序列和稀疏點軌跡來生成視頻，從而實現(xiàn)對物體運動的精確控制。

如上圖所示，上半部分展示了時間控制在生成運動方面的作用。以滾珠的簡諧運動為例，若沿軌跡均勻分配時間（左上圖），滾珠將呈現(xiàn)勻速運動，缺乏真實感。通過時間控制，模型可在運動極值點分配更長時間、在中間位置分配更短時間，從而準(zhǔn)確模擬物理特性。下半部分對比了完整路徑與部分路徑兩種設(shè)置。用戶既可以提供完整運動軌跡（左下圖），也可以僅給出初始軌跡（右下圖），其余運動均由模型自動生成，在降低交互成本的同時也保持了運動的連續(xù)性與合理性。

2.2.1 時序邊界控制

動態(tài)攝影與傳統(tǒng)視頻的根本區(qū)別在于運動必須實現(xiàn)無縫、連續(xù)的循環(huán)播放。這要求生成序列的第一幀與最后一幀在視覺上完全一致，從而形成無限循環(huán)的視覺效果。為了生成無縫循環(huán)，本文提出了時序邊界控制策略。

在訓(xùn)練階段，針對任意訓(xùn)練視頻片段，先利用預(yù)訓(xùn)練3D-VAE對首幀和末幀進(jìn)行編碼，得到對應(yīng)的特征tokens，再將這些tokens與擴散過程中的噪聲tokens拼接后，并送入到DiT Transformer中，使模型充分學(xué)習(xí)首末幀之間的時序規(guī)律。在推理階段，通過設(shè)置首幀和末幀均等同于輸入靜態(tài)照片，強制模型生成首末幀完全一致的視頻序列，從而滿足動態(tài)攝影所需的無縫循環(huán)特性。

2.2.2 運動控制

為實現(xiàn)精準(zhǔn)可控性，本文設(shè)計了兩種互補的運動控制條件，均通過 RGB 掩碼編碼后注入模型。

（1）邊界框序列：捕捉目標(biāo)物體的全局運動。將每幀目標(biāo)的邊界框坐標(biāo)編碼為彩色 RGB mask作為條件 tokens。

（2）稀疏點軌跡：捕捉目標(biāo)物體的局部運動及背景靜態(tài)約束。在 10×10 網(wǎng)格上采樣軌跡點，靜態(tài)區(qū)域（如背景）的軌跡點保持固定，動態(tài)區(qū)域的軌跡點按照用戶定義的路徑變化，編碼為特征。

這兩種條件 tokens 與首末幀 tokens、文本提示 tokens 一起送入到模型中，形成完整的條件化生成目標(biāo)：

2.3 細(xì)粒度控制

DreamLoop模型為用戶提供了不同層次的運動路徑控制方法。在完整路徑控制模式下，用戶可以精確指定目標(biāo)對象在整個視頻序列中的詳細(xì)運動軌跡，實現(xiàn)對運動模式的完全控制。然而，在實際創(chuàng)作過程中，用戶往往只需要輸入較為粗略的運動信息，例如對象的初始運動方向和基本速度。為適應(yīng)這一需求，DreamLoop同時也支持了局部路徑控制模式。

在該模式下，用戶僅需為視頻序列的前若干幀定義運動路徑，模型能夠基于這些有限的輸入，智能推斷并自動補全后續(xù)幀的運動軌跡。這種靈活性是通過在訓(xùn)練階段引入隨機丟棄策略實現(xiàn)的。模型會隨機丟棄邊界框或點軌跡序列中后部分的若干幀，從而學(xué)會從部分輸入中推理完整運動序列的能力。

三、實驗效果

本文在包含約800萬個視頻的大規(guī)模數(shù)據(jù)集上進(jìn)行了訓(xùn)練，其中邊界框通過DEVA方法提取，稀疏點軌跡則利用RAFT光流算法計算并保持時間循環(huán)一致性。本文在不可控生成（僅輸入圖像）和可控生成（輸入圖像與方向引導(dǎo)）兩種設(shè)置下進(jìn)行測試。評估采用FVD、DT-FVD、FID及KID四項通用視頻生成指標(biāo)，其中文本描述由GPT-5自動生成。本文重點與不可控場景和可控場景方法進(jìn)行了對比，不可控場景方法包括基于光流的Animating Landscape、Text2Cinemagraph以及通用圖像到視頻模型CogVideoX-5B、Wan2.2-5B?？煽貓鼍胺椒òˋnimating Landscape的變體、SLR-SFS及Controllable Animation等方法進(jìn)行比較。

3.1 定量實驗

下表展示了本文方法在不可控場景中相較現(xiàn)有方法的性能優(yōu)勢，DreamLoop方法在FVD、DT-FVD、KID和FID四項指標(biāo)上均超越了現(xiàn)有基線。

此外，DreamLoop在運動真實性和視覺質(zhì)量上均顯著優(yōu)于傳統(tǒng)光流方法。即使僅使用時序邊界控制的簡化版本，DreamLoop也生成了不錯的效果，這驗證了時序邊界控制策略的有效性。

上表展示了DreamLoop在單軌跡點和多軌跡點設(shè)置下與基線方法的對比情況，實驗結(jié)果表示DreamLoop超越了傳統(tǒng)光流方法，其FVD、KID等指標(biāo)具有顯著優(yōu)勢，且性能隨控制點增加持續(xù)提升。這驗證了其基于視頻擴散模型的框架能更有效地整合運動控制信號，生成更真實、連貫的動態(tài)效果。

除了常規(guī)任務(wù)，上表進(jìn)一步展示了DreamLoop方法在剛性物體循環(huán)生成任務(wù)中的效果。在VBench的六個評估指標(biāo)，特別是在運動平滑度和主體一致性上達(dá)到0.9964和0.9868，顯著優(yōu)于需要后處理的基線方法。實驗驗證了雙條件化機制在保持時間穩(wěn)定性與畫面質(zhì)量上的關(guān)鍵作用。

3.2 可視化對比

上圖的實驗結(jié)果展示了DreamLoop在流體元素與通用場景下的綜合優(yōu)勢。上半部分展示了在流體場景中，DreamLoop能夠模擬水流方向這種更真實的物理運動。下半部分展示了復(fù)雜人物場景，DreamLoop方法能精準(zhǔn)控制局部運動并保持背景靜態(tài)。上圖的可視化結(jié)果驗證了雙條件化機制在平衡運動控制精度與時間一致性方面的有效性。

上圖通過多樣化場景進(jìn)一步展示了DreamLoop在生成復(fù)雜、自然動態(tài)方面的效果。該方法不僅能模擬貓頭轉(zhuǎn)動、化妝刷掃動等生物運動，還可生成物體旋轉(zhuǎn)及精細(xì)的手物交互動畫，且僅需簡單的邊界框與軌跡點作為控制信號。

四、總結(jié)

本文提出了一種名為DreamLoop的可控動態(tài)攝影生成框架，旨在解決傳統(tǒng)可控性不足和數(shù)據(jù)依賴的核心問題。該框架基于預(yù)訓(xùn)練圖像到視頻擴散模型，通過兩大關(guān)鍵創(chuàng)新突破現(xiàn)有瓶頸。一是時序邊界控制，訓(xùn)練時讓模型學(xué)習(xí)首末幀的時空關(guān)聯(lián)，推理時將輸入照片同時作為首幀和末幀，從而保障生成結(jié)果無縫循環(huán)。二是運動控制，結(jié)合邊界框序列（捕捉全局運動）與稀疏點軌跡（捕捉局部運動及背景靜態(tài)約束），賦予用戶對運動軌跡、速度、頻率的細(xì)粒度控制。實驗表明，該方法在FVD、FID等定量指標(biāo)上超越了傳統(tǒng)光流方法與視頻擴散模型，其背景一致性、運動平滑度與可控性表現(xiàn)突出，為通用、高效的動態(tài)攝影創(chuàng)作提供了新范式。

參考

[1] Endo Y, Kanamori Y, Kuriyama S. Animating landscape: self-supervised learning of decoupled motion and appearance for single-image video synthesis[J]. arXiv preprint arXiv:1910.07192, 2019.

[2] Mahapatra A, Kulkarni K. Controllable animation of fluid elements in still images[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 3667-3676.

[3] Yang Z, Teng J, Zheng W, et al. Cogvideox: Text-to-video diffusion models with an expert transformer[J]. arXiv preprint arXiv:2408.06072, 2024.

[4] Wan T, Wang A, Ai B, et al. Wan: Open and advanced large-scale video generative models[J]. arXiv preprint arXiv:2503.20314, 2025.

llustration generated by AI.

-The End-

掃碼觀看！

本周上新！

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（www.techbeat.net）。社區(qū)上線700+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

yimingzhang@thejiangmen.com

或添加工作人員微信（aceyiming）投稿，溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務(wù)，歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.