国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

1B模型當(dāng)多鏡頭導(dǎo)演?大連理工&快手可靈開源力作MultiShotMaster

0
分享至



該論文由大連理工大學(xué)、快手可靈團(tuán)隊(duì)、香港中文大學(xué)聯(lián)合完成,第一作者王清和是大連理工大學(xué)在讀三年級(jí)博士,研究方向?yàn)橐曨l生成,師從盧湖川、賈旭教授,目前在快手可靈團(tuán)隊(duì)實(shí)習(xí)。個(gè)人主頁(yè):https://qinghew.github.io/

近期,可靈 3.0、Seedance 2.0 等產(chǎn)品的多鏡頭敘事能力相繼爆火,可支持一次生成多個(gè)導(dǎo)演級(jí)鏡頭,標(biāo)志著視頻生成領(lǐng)域已經(jīng)從傳統(tǒng)的單鏡頭生成邁入了多鏡頭視頻生成的時(shí)代。然而,對(duì)于預(yù)算有限的開發(fā)者,10B 參數(shù)量以上的大模型開發(fā)成本較高,100B 以上的大模型更令人望而卻步

近期,大連理工與快手可靈團(tuán)隊(duì)推出了MultiShotMaster——一個(gè)高度可控的多鏡頭視頻生成框架,該論文向研究社區(qū)展示了即使在 1B 左右的小參數(shù)量級(jí)模型上,也可以實(shí)現(xiàn)導(dǎo)演級(jí)的鏡頭調(diào)度和連貫敘事,且支持多圖參考、主體運(yùn)動(dòng)控制。



目前,該論文已錄用至CVPR 2026,基于 Wan 1.3B 和 14B 的多鏡頭模型的訓(xùn)練和推理代碼已開源:

  • 項(xiàng)目主頁(yè):https://qinghew.github.io/MultiShotMaster/
  • 代碼鏈接:https://github.com/KlingAIResearch/MultiShotMaster
  • 論文鏈接:https://arxiv.org/abs/2512.03041

開源版 MultiShotMaster 能力展示

MultiShotMaster-14B 720p 效果



MultiShotMaster-1.3B 480p 效果

值得一提的是,開源版 MultiShotMaster 斬獲了AAAI CVM Workshop 競(jìng)賽冠軍。該競(jìng)賽由北大等高校舉辦、華為贊助,重點(diǎn)考核世界知識(shí)一致性、相機(jī)移動(dòng)一致性、跨鏡頭 ID 一致性三個(gè)層面,充分印證了該模型在多鏡頭生成與連貫敘事方面的卓越性能。



MultiShotMaster 框架

“單鏡頭” 到 “多鏡頭” 的進(jìn)化

MultiShotMaster 首先調(diào)整了傳統(tǒng)的單鏡頭文生視頻模型架構(gòu),使之能夠生成多鏡頭視頻。

具體而言,考慮到鏡頭間的內(nèi)容突變,每個(gè)鏡頭需單獨(dú)通過 3DVAE 編碼,然后在時(shí)序上級(jí)聯(lián)起來,并在 Temporal Attention 處融合。由于鏡頭之間不僅存在內(nèi)容突變,還需保證敘事的先后順序,作者提出多鏡頭敘事 RoPE,即基于原始的 3D RoPE 在鏡頭切換處施加相位偏移:



這顯式地標(biāo)記了鏡頭邊界且維持了原鏡頭間的敘事順序,讓模型能夠精準(zhǔn)識(shí)別鏡頭邊界,從而支持用戶自由設(shè)定鏡頭的數(shù)量和時(shí)長(zhǎng)。此外,構(gòu)建了總分式提示詞結(jié)構(gòu),全局提示詞描述角色外觀、環(huán)境及風(fēng)格,鏡頭級(jí)提示詞描述角色交互、場(chǎng)景布局、相機(jī)運(yùn)鏡。在鏡頭級(jí) Cross Attention 中,每個(gè)鏡頭的視頻只與全局提示詞、對(duì)應(yīng)鏡頭的提示詞交互,從而防止跨鏡頭信息泄露。



時(shí)空位置感知的參考注入

用戶通常期望視頻生成模型具有更多的可控性,例如使用參考圖、控制主體運(yùn)動(dòng)布局等能力。為此,作者用 VAE 編碼參考圖像,使之與視頻 tokens 落入同一特征空間。

考慮到 3D-RoPE 會(huì)使時(shí)空距離更近的 tokens 在 Attention 中增強(qiáng)交互,作者設(shè)計(jì)了時(shí)空位置感知的 RoPE,將指定時(shí)空區(qū)域的 RoPE 重采樣為更細(xì)粒度的 RoPE 分配給參考 tokens。



在時(shí)序注意力中,干凈的參考 tokens 會(huì)將視覺信息傳遞給噪聲視頻 tokens 以實(shí)現(xiàn)參考圖像(主體/背景)指定時(shí)空位置的注入。當(dāng)用戶期望控制同一主體的運(yùn)動(dòng)軌跡時(shí),可以通過復(fù)制多次同一角色的 Token 并分配不同的時(shí)空 RoPE。

此外,為了管理上下文信息流,防止不必要的 token 交互,作者設(shè)計(jì)了多鏡頭-多主體 Attention Mask,允許跨鏡頭的視頻 tokens 交互,限制每個(gè)鏡頭的視頻 tokens 僅能與視頻內(nèi)的參考 tokens 交互。

值得注意的是,MultiShotMaster 沒有引入外部參數(shù),而是利用、改進(jìn)視頻生成模型原有的 3D-RoPE,從而實(shí)現(xiàn)了可控的多鏡頭視頻生成,支持文本驅(qū)動(dòng)的鏡頭間一致性、可靈活配置的鏡頭數(shù)量和時(shí)長(zhǎng)、運(yùn)動(dòng)可控的主體定制化、背景可定制的場(chǎng)景一致性。這一多功能框架為多樣化多鏡頭視頻內(nèi)容創(chuàng)作提供了新的可能性,使用戶能夠打造高度定制化的視頻敘事。

MultiShotMaster - 實(shí)驗(yàn)版 1B 模型(384×672)效果

MultiShotMaster 訓(xùn)練數(shù)據(jù)構(gòu)建流程



數(shù)據(jù)構(gòu)建流程:

  1. 采用鏡頭切換檢測(cè)模型 TransNet V2 將長(zhǎng)視頻裁切成短片段,使用場(chǎng)景分割模型 SceneSeg 將同一場(chǎng)景內(nèi)的片段聚合到一起,然后從中采樣多鏡頭視頻。
  2. 引入總分式提示詞結(jié)構(gòu),使用 Gemini-2.5-Flash 生成全局描述和每個(gè)鏡頭的描述。
  3. 整合 YOLOv11、ByteTrack 和 SAM 來檢測(cè)、追蹤和分割主體圖像,然后利用 Gemini-2.5-Flash 根據(jù)主體外觀合并跨鏡頭的跟蹤結(jié)果。
  4. 使用 OmniEraser 獲得干凈的背景參考圖。

實(shí)驗(yàn)結(jié)果

除了對(duì)比現(xiàn)有的 SOTA 多鏡頭視頻生成模型之外,由于目前沒有支持參考圖輸入的多鏡頭視頻生成模型,作者對(duì)比了支持參考圖輸入的單鏡頭模型 Phantom、VACE,拼接他們逐個(gè)生成的鏡頭用于比較。

可以看出,在定量和定性的比較中,MultiShotMaster 在鏡頭間一致性、切鏡準(zhǔn)確性、敘事連貫性、參考圖一致性上都展現(xiàn)出了卓越的性能

定性實(shí)驗(yàn)結(jié)果:



定量實(shí)驗(yàn)結(jié)果:



總結(jié)

MultiShotMaster 通過對(duì) RoPE 的創(chuàng)新性改進(jìn),實(shí)現(xiàn)了高度可控的多鏡頭視頻生成。其引入的多鏡頭敘事 RoPE 與時(shí)空位置感知 RoPE,在無需引入額外參數(shù)的情況下,實(shí)現(xiàn)了對(duì)鏡頭邊界、角色一致性及運(yùn)動(dòng)軌跡的精細(xì)化操控。在僅約 1B 參數(shù)的模型規(guī)模下即可展現(xiàn)出了卓越的敘事連貫性與跨鏡頭一致性,驗(yàn)證了其實(shí)現(xiàn)導(dǎo)演級(jí)控制的巨大潛力。

同時(shí),自動(dòng)化的多鏡頭數(shù)據(jù)標(biāo)注流程及開源模型也將為社區(qū)的研究提供強(qiáng)力支持,有望推動(dòng) AI 視頻創(chuàng)作進(jìn)入一個(gè)敘事更連貫、表達(dá)更自由的新階段。

更多細(xì)節(jié)請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三個(gè)人48小時(shí),用了3000元不到,做了部全網(wǎng)5億流量的爆款A(yù)I短劇

三個(gè)人48小時(shí),用了3000元不到,做了部全網(wǎng)5億流量的爆款A(yù)I短劇

九千光年
2026-03-06 18:58:09
難道伊朗背后真有高人指導(dǎo)?紐約時(shí)報(bào):他專挑美國(guó)弱點(diǎn)下死手!

難道伊朗背后真有高人指導(dǎo)?紐約時(shí)報(bào):他專挑美國(guó)弱點(diǎn)下死手!

青青子衿
2026-03-06 00:13:50
對(duì)漢服惡語(yǔ)相向,卻拍伊教的馬屁

對(duì)漢服惡語(yǔ)相向,卻拍伊教的馬屁

疫苗與科學(xué)
2026-03-07 07:54:54
伊朗:決不投降!想對(duì)一個(gè)擁有3000年歷史的國(guó)家發(fā)號(hào)施令絕不可能

伊朗:決不投降!想對(duì)一個(gè)擁有3000年歷史的國(guó)家發(fā)號(hào)施令絕不可能

半島晨報(bào)
2026-03-07 11:04:49
從巴拿馬到馬杜羅、哈梅內(nèi)伊,再到古巴,川普正在強(qiáng)力改變世界

從巴拿馬到馬杜羅、哈梅內(nèi)伊,再到古巴,川普正在強(qiáng)力改變世界

壹家言
2026-03-06 09:07:17
我包養(yǎng)過一個(gè)女大學(xué)生,七年花了一千多萬

我包養(yǎng)過一個(gè)女大學(xué)生,七年花了一千多萬

煙火人間故事匯
2026-03-06 23:05:03
伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

空天力量
2026-03-06 13:09:18
廣東一女子不愿上班常年坐街邊,因長(zhǎng)得好看被路人投喂:又懶又饞

廣東一女子不愿上班常年坐街邊,因長(zhǎng)得好看被路人投喂:又懶又饞

明智家庭教育
2026-03-06 17:19:16
全能發(fā)揮,楊瀚森復(fù)出后首節(jié)5中5拿下11分3板2助1帽

全能發(fā)揮,楊瀚森復(fù)出后首節(jié)5中5拿下11分3板2助1帽

懂球帝
2026-03-07 11:03:08
臉都不要了,但還是低估了他們的無恥!

臉都不要了,但還是低估了他們的無恥!

胖胖說他不胖
2026-03-07 09:00:20
安徽女大學(xué)生睡夢(mèng)中去世!死因曝光太離譜,男友自責(zé)長(zhǎng)跪靈堂不起

安徽女大學(xué)生睡夢(mèng)中去世!死因曝光太離譜,男友自責(zé)長(zhǎng)跪靈堂不起

李橑在北漂
2026-03-06 16:44:26
決勝14秒快船1失誤2犯!小卡關(guān)鍵一擊沒機(jī)會(huì) 美球迷噴泰倫盧愚蠢

決勝14秒快船1失誤2犯!小卡關(guān)鍵一擊沒機(jī)會(huì) 美球迷噴泰倫盧愚蠢

顏小白的籃球夢(mèng)
2026-03-07 13:38:30
整體漲幅8%—12% ,事業(yè)單位工作人員基本工資標(biāo)準(zhǔn)要普調(diào)了?

整體漲幅8%—12% ,事業(yè)單位工作人員基本工資標(biāo)準(zhǔn)要普調(diào)了?

教而育之
2026-03-07 11:57:42
俄羅斯被曝向伊朗提供情報(bào),包括美軍艦船和飛機(jī)的定位,白宮回應(yīng)!美國(guó)準(zhǔn)備部署第三艘航母,緊急批準(zhǔn)對(duì)以色列超1.5億美元軍售

俄羅斯被曝向伊朗提供情報(bào),包括美軍艦船和飛機(jī)的定位,白宮回應(yīng)!美國(guó)準(zhǔn)備部署第三艘航母,緊急批準(zhǔn)對(duì)以色列超1.5億美元軍售

每日經(jīng)濟(jì)新聞
2026-03-07 13:18:09
上海高工母親與未婚碩士女兒同患阿爾茨海默??!百萬房貸要還,唯一監(jiān)護(hù)人失聯(lián),保姆苦苦支撐

上海高工母親與未婚碩士女兒同患阿爾茨海默??!百萬房貸要還,唯一監(jiān)護(hù)人失聯(lián),保姆苦苦支撐

新民晚報(bào)
2026-03-07 09:38:02
一舞封神后,被東莞首富收入囊中,如今已是7歲孩子的媽媽

一舞封神后,被東莞首富收入囊中,如今已是7歲孩子的媽媽

娛說瑜悅
2026-03-06 18:13:06
特朗普:要“讓伊朗再次偉大!”伊朗大使:決不投降

特朗普:要“讓伊朗再次偉大!”伊朗大使:決不投降

上觀新聞
2026-03-07 09:17:06
寧夏大學(xué)教授:為什么哈梅內(nèi)伊不慌張?

寧夏大學(xué)教授:為什么哈梅內(nèi)伊不慌張?

必記本
2026-03-06 18:21:35
詹姆斯轉(zhuǎn)發(fā)歷史進(jìn)球榜第一海報(bào):他們說他不是一個(gè)得分手

詹姆斯轉(zhuǎn)發(fā)歷史進(jìn)球榜第一海報(bào):他們說他不是一個(gè)得分手

懂球帝
2026-03-07 07:43:10
國(guó)家衛(wèi)健委主任:已有3300萬家庭領(lǐng)到育兒補(bǔ)貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

國(guó)家衛(wèi)健委主任:已有3300萬家庭領(lǐng)到育兒補(bǔ)貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

紅星新聞
2026-03-07 12:41:11
2026-03-07 14:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12430文章數(shù) 142578關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

頭條要聞

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

體育要聞

塔圖姆歸來:凱爾特人的春之綠

娛樂要聞

周杰倫田馥甄的“JH戀” 被扒得底朝天

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
親子
旅游
房產(chǎn)

這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡(jiǎn)單舒適

數(shù)碼要聞

蘋果M5 Pro芯片GeekBench跑分曝光:多核破2.8萬

親子要聞

六個(gè)月寶寶查出散光,原因竟是父母長(zhǎng)期身旁玩手機(jī),媽媽懵了:我一直以為他閉著眼就沒事

旅游要聞

文旅部部長(zhǎng):7名外國(guó)游客到上海旅游,買了40箱貨;“成為中國(guó)人”成了熱詞

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

無障礙瀏覽 進(jìn)入關(guān)懷版