国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DualCamCtrl:給視頻生成裝上「深度相機(jī)」,讓運(yùn)鏡更「聽話」

0
分享至



本研究的共同第一作者是來自于香港科技大學(xué)(廣州)EnVision Research 的張鴻飛(研究助理)和陳康豪(博士研究生),兩位研究者均師從陳穎聰教授。

你的生成模型真的「懂幾何」嗎?還是只是在假裝對(duì)齊相機(jī)軌跡?

當(dāng)前眾多視頻生成模型雖宣稱具備「相機(jī)運(yùn)動(dòng)控制」能力,但其控制信號(hào)通常僅依賴于相機(jī)位姿。雖近期工作通過逐像素射線方向(Ray Condition)編碼了運(yùn)動(dòng)信息,但由于模型仍需隱式推斷三維結(jié)構(gòu),本質(zhì)上仍缺乏對(duì)場(chǎng)景的顯式幾何理解。這一局限性導(dǎo)致了相機(jī)運(yùn)動(dòng)的不一致——模型受限于外觀與結(jié)構(gòu)兩種表征信息的耦合,無法充分捕捉場(chǎng)景的底層幾何特征。

鑒于上述挑戰(zhàn),來自香港科技大學(xué)、復(fù)旦大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的端到端幾何感知擴(kuò)散模型框架 DualCamCtrl。該研究針對(duì)現(xiàn)有方法在場(chǎng)景理解與幾何感知方面的不足,創(chuàng)新性地設(shè)計(jì)了一個(gè)「雙分支擴(kuò)散架構(gòu)」,能夠同步生成與鏡頭運(yùn)動(dòng)一致的 RGB 與深度序列。進(jìn)一步地,為實(shí)現(xiàn) RGB 與深度兩種模態(tài)的高效協(xié)同,DualCamCtrl 提出了語義引導(dǎo)互對(duì)齊機(jī)制(Semantic Guided Mutual Alignment),該機(jī)制以語義信息為指導(dǎo),在雙向的交互中實(shí)現(xiàn)了更好的模態(tài)融合。

這些設(shè)計(jì)使 DualCamCtrl 能夠更好地解耦外觀與幾何建模,從而生成更嚴(yán)格遵循指定相機(jī)軌跡的視頻。大量實(shí)驗(yàn)表明,DualCamCtrl 在相機(jī)運(yùn)動(dòng)一致性方面顯著優(yōu)于現(xiàn)有方法,相機(jī)運(yùn)動(dòng)誤差降低超過40%



  • 論文標(biāo)題:DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
  • 項(xiàng)目主頁:https://soyouthinkyoucantell.github.io/dualcamctrl-page/
  • 論文鏈接:https://www.arxiv.org/abs/2511.23127
  • Github 倉庫:https://github.com/EnVision-Research/DualCamCtrl
  • Huggingface 模型:https://huggingface.co/FayeHongfeiZhang/DualCamCtrl



雙分支幾何感知擴(kuò)散模型



總體而言,DualCamCtrl 巧妙地采用了雙分支視頻擴(kuò)散框架(Dual Branch Video Diffusion Framework),其中一條分支負(fù)責(zé)生成 RGB 表示,另一條分支負(fù)責(zé)生成深度表示,兩種模態(tài)通過提出的SIGMA機(jī)制進(jìn)行融合。

該設(shè)計(jì)使得模型能夠從單張輸入圖像及其對(duì)應(yīng)深度圖中,同步推斷出視頻級(jí)別的 RGB 與深度隱空間表征(Latent Representation),不僅最大限度降低了模態(tài)間的相互干擾,更使深度信息得以貫穿整個(gè)視頻生成過程,實(shí)現(xiàn)連貫的幾何引導(dǎo)。

SIGMA 機(jī)制以及雙階段訓(xùn)練

在多模態(tài)可控視頻生成任務(wù)中,訓(xùn)練與融合策略是關(guān)鍵。DualCamCtrl 的核心設(shè)計(jì)正是基于這一認(rèn)識(shí),包含兩部分:一是提出語義引導(dǎo)互對(duì)齊(SIGMA)融合機(jī)制,促進(jìn) RGB 與深度模態(tài)在生成過程中的有效協(xié)同;二是采用分階段訓(xùn)練策略——首階段學(xué)習(xí)解耦的多模態(tài)表征,次階段專注跨模態(tài)融合建模。

該設(shè)計(jì)使模型在復(fù)雜相機(jī)運(yùn)動(dòng)下,能同時(shí)保持外觀連貫與三維幾何準(zhǔn)確,實(shí)現(xiàn)幾何感知的可控生成。

語義引導(dǎo)互對(duì)齊機(jī)制



圖3. SIGMA融合策略的動(dòng)機(jī)與優(yōu)勢(shì)對(duì)比示意圖。

基于雙分支框架,RGB 分支與深度分支分別生成對(duì)應(yīng)的視頻序列和對(duì)應(yīng)深度序列。盡管兩者輸入相同,但它們獨(dú)立演化易導(dǎo)致輸出不一致,因此需要有效的融合與對(duì)齊策略(圖 3.a)。

然而該團(tuán)隊(duì)發(fā)現(xiàn):?jiǎn)蜗驅(qū)R(One-Way Alignment)易損失語義一致性,幾何引導(dǎo)對(duì)齊(Geometry-Guided Alignment)則過度強(qiáng)調(diào)幾何表征而破壞了運(yùn)動(dòng)的一致性。為此,該團(tuán)隊(duì)提出了語義引導(dǎo)互對(duì)齊機(jī)制(SIGMA)

SIGMA 采用語義引導(dǎo)的雙向設(shè)計(jì):淺層以 RGB 特征錨定語義結(jié)構(gòu),深層則引入深度反饋優(yōu)化幾何表達(dá)。該方法基于兩個(gè) key insights(圖 3.b、3.c):

  • 語義優(yōu)先的重要性:外觀特征應(yīng)在早期占主導(dǎo)地位以保持語義的穩(wěn)定,而深度信號(hào)作為后期補(bǔ)充來優(yōu)化幾何結(jié)構(gòu)。
  • 雙向交互的重要性:兩分支相互反饋可避免單向?qū)R的失衡,實(shí)現(xiàn)更穩(wěn)定的隱空間表征對(duì)齊。

分階段訓(xùn)練策略

為實(shí)現(xiàn) RGB 與深度模態(tài)穩(wěn)健生成與有效協(xié)同的目標(biāo),DualCamCtrl 采用分階段訓(xùn)練策略(Two-stage training),為每個(gè)階段的學(xué)習(xí)設(shè)置不同側(cè)重點(diǎn):

  • 解耦訓(xùn)練階段(Decoupled Stage):核心目標(biāo)是使 RGB 與深度分支分別專注學(xué)習(xí)外觀與幾何表征。為此,模型使用共享預(yù)訓(xùn)練權(quán)重初始化,并利用 state-of-the-art (SOTA) 視頻深度估計(jì)模型Video Depth Anything生成的深度特征進(jìn)行監(jiān)督。此階段禁止模態(tài)間交互,確保表征演化的獨(dú)立性。
  • 融合訓(xùn)練階段(Fusion Stage):在兩個(gè)分支具備基礎(chǔ)能力后,核心目標(biāo)轉(zhuǎn)向?qū)崿F(xiàn)外觀與幾何信息的互補(bǔ)增強(qiáng)。為此,模型引入零初始化的融合模塊,逐步建立跨模態(tài)交互,并通過聯(lián)合優(yōu)化 RGB 與深度目標(biāo)函數(shù),實(shí)現(xiàn)多模態(tài)表征的對(duì)齊與協(xié)同。



圖2:兩階段訓(xùn)練的效果:?jiǎn)坞A段模型因無法充分收斂(上圖),導(dǎo)致其相機(jī)軌跡對(duì)齊效果欠佳(下圖)。這凸顯了先解耦學(xué)習(xí)外觀與幾何表征的兩階段策略的有效性。

實(shí)驗(yàn)結(jié)果

在定量和定性比較中,DualCamCtrl 在各項(xiàng)指標(biāo)上均顯著優(yōu)于當(dāng)前的 SOTA 方法。

定性分析:



在相同輸入條件下,DualCamCtrl 在相機(jī)運(yùn)動(dòng)的對(duì)齊效果和視頻生成的視覺效果上均顯著優(yōu)于現(xiàn)有先進(jìn)方法。圖中“+”標(biāo)記為視覺對(duì)比的定位參考點(diǎn)。

定量分析:



Image to Video 定量分析結(jié)果



Text to Video 定量分析結(jié)果

總結(jié)

DualCamCtrl 提出了一種集成深度信息的雙分支視頻擴(kuò)散模型,實(shí)現(xiàn)了更精準(zhǔn)的相機(jī)控制視頻生成。通過引入語義引導(dǎo)互對(duì)齊機(jī)制(SIGMA)與兩階段訓(xùn)練策略,該模型有效同步了 RGB 序列與深度序列的生成和融合,顯著增強(qiáng)了模型的幾何感知能力。實(shí)驗(yàn)表明,該方法在相機(jī)一致性誤差上比先前方法降低超過 40%,為相機(jī)控制視頻生成提供了新的技術(shù)思路,并有望推動(dòng)其他可控視頻生成任務(wù)的發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
南博風(fēng)波越挖越深!82歲前院長(zhǎng)揪出,左手倒右手,8800萬國寶賤賣

南博風(fēng)波越挖越深!82歲前院長(zhǎng)揪出,左手倒右手,8800萬國寶賤賣

烏娛子醬
2025-12-22 14:51:34
火箭連遭西部墊底隊(duì)絕殺:杜蘭特兩丟絕殺 比肩喬科詹創(chuàng)兩大神跡

火箭連遭西部墊底隊(duì)絕殺:杜蘭特兩丟絕殺 比肩喬科詹創(chuàng)兩大神跡

醉臥浮生
2025-12-22 13:47:14
離譜!楊書記為何敢直接拿走博物館的瓷花瓶?

離譜!楊書記為何敢直接拿走博物館的瓷花瓶?

仕道
2025-12-22 09:20:15
北京阿姨20年守茅臺(tái)股票:90萬本金,分紅326萬,成本歸零!

北京阿姨20年守茅臺(tái)股票:90萬本金,分紅326萬,成本歸零!

趣文說娛
2025-12-20 18:29:20
可怕!僅20分鐘眼球被溶化!8歲男孩終生失明!家家都有這東西!快扔掉!

可怕!僅20分鐘眼球被溶化!8歲男孩終生失明!家家都有這東西!快扔掉!

超級(jí)數(shù)學(xué)建模
2025-12-21 22:38:35
同事辦完離職問“是不是能走了,不用等到6點(diǎn)下班吧”,引發(fā)熱議

同事辦完離職問“是不是能走了,不用等到6點(diǎn)下班吧”,引發(fā)熱議

火山詩話
2025-12-22 09:39:07
今晚首播!CCTV1又一大劇來襲!看完陣容,我敢說:這劇收視要爆

今晚首播!CCTV1又一大劇來襲!看完陣容,我敢說:這劇收視要爆

小丸子的娛樂圈
2025-12-22 12:04:29
新華社權(quán)威快報(bào)|支持個(gè)人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社權(quán)威快報(bào)|支持個(gè)人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社
2025-12-22 08:33:06
江蘇省政府:免去趙建國的省科學(xué)技術(shù)廳副廳長(zhǎng)職務(wù)

江蘇省政府:免去趙建國的省科學(xué)技術(shù)廳副廳長(zhǎng)職務(wù)

現(xiàn)代快報(bào)
2025-12-22 12:42:19
曾醫(yī)生號(hào)源秒空:是給網(wǎng)上那些滿嘴仁義道德的人一記響亮耳光

曾醫(yī)生號(hào)源秒空:是給網(wǎng)上那些滿嘴仁義道德的人一記響亮耳光

詩意世界
2025-12-22 11:28:27
特朗普急眼了!美軍公海劫中國11億原油,中國反制信號(hào)已亮

特朗普急眼了!美軍公海劫中國11億原油,中國反制信號(hào)已亮

陳博世財(cái)經(jīng)
2025-12-22 10:52:10
施羅德24+7+10制勝三分國王OT險(xiǎn)勝火箭,威少21+13KD24+10+8

施羅德24+7+10制勝三分國王OT險(xiǎn)勝火箭,威少21+13KD24+10+8

湖人崛起
2025-12-22 13:46:31
未來兩周46條中日航線取消全部航班

未來兩周46條中日航線取消全部航班

第一財(cái)經(jīng)資訊
2025-12-22 11:41:04
山姆爆火的400克女款羽絨服,打了多少商家的臉?

山姆爆火的400克女款羽絨服,打了多少商家的臉?

娛樂資本論
2025-12-22 11:53:59
10萬塊的金手鐲?上海一女子爽快出手,但店員突然不賣了……

10萬塊的金手鐲?上海一女子爽快出手,但店員突然不賣了……

環(huán)球網(wǎng)資訊
2025-12-22 10:03:18
蘇聯(lián)曾經(jīng)有多強(qiáng)大?看看這些圖片

蘇聯(lián)曾經(jīng)有多強(qiáng)大?看看這些圖片

航空知識(shí)
2025-12-21 23:10:41
RO凈水機(jī)在日本被禁用

RO凈水機(jī)在日本被禁用

我是健康磚家
2025-12-21 07:09:25
比“丑”更可怕的是“無效豪華”:很多農(nóng)村自建房正陷入這個(gè)怪圈

比“丑”更可怕的是“無效豪華”:很多農(nóng)村自建房正陷入這個(gè)怪圈

夢(mèng)想的現(xiàn)實(shí)
2025-12-22 09:21:01
洗衣機(jī)有個(gè)“小開關(guān)”,每月要打開一次,不然衣服會(huì)越洗越臟!

洗衣機(jī)有個(gè)“小開關(guān)”,每月要打開一次,不然衣服會(huì)越洗越臟!

家居設(shè)計(jì)師蘇哥
2025-12-21 14:18:54
南博退休職工實(shí)名舉報(bào):前院長(zhǎng)大規(guī)模盜賣南遷國寶文物

南博退休職工實(shí)名舉報(bào):前院長(zhǎng)大規(guī)模盜賣南遷國寶文物

貼小君
2025-12-22 07:19:10
2025-12-22 16:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11970文章數(shù) 142516關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場(chǎng) 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

海底撈小便案詳情披露:倆17歲男生玩游戲 家長(zhǎng)賠220萬

頭條要聞

海底撈小便案詳情披露:倆17歲男生玩游戲 家長(zhǎng)賠220萬

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

星光大賞看點(diǎn)全在臺(tái)下

財(cái)經(jīng)要聞

人民幣快漲到7了!

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

親子
教育
游戲
時(shí)尚
軍事航空

親子要聞

三位心理學(xué)家:乖孩子的盡頭就是抑郁

教育要聞

魚蹦豆創(chuàng)始人狄豆豆:3到12歲兒童成長(zhǎng)規(guī)劃+入戶陪伴新賽道

山內(nèi)一典稱《GT賽車7》月活玩家達(dá)到200萬

這是陳妍希?新劇開播后居然長(zhǎng)這樣

軍事要聞

美國在委內(nèi)瑞拉附近水域攔截第三艘油輪

無障礙瀏覽 進(jìn)入關(guān)懷版