国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

CVPR 2026|AI開始會(huì)拍電影了:一分鐘十鏡頭,全程不崩劇情

0
分享至

來(lái)源:市場(chǎng)資訊


安照崇現(xiàn)為哥本哈根大學(xué)博士生,隸屬于 Pioneer Centre for Artificial Intelligence 和 ELLIS 項(xiàng)目,導(dǎo)師為 Serge Belongie 教授。他于 2023 年獲得蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)計(jì)算機(jī)科學(xué)碩士學(xué)位,導(dǎo)師為 Luc Van Gool 教授。他的研究方向主要包括三維理解、視頻生成以及多模態(tài)模型。

多鏡頭視頻生成是自然世界敘事的重要表達(dá)形式,也是視頻生成領(lǐng)域中一個(gè)挑戰(zhàn)性的研究方向。

與單鏡頭視頻不同,多鏡頭視頻并不是簡(jiǎn)單地把幾個(gè)片段拼接起來(lái),而是要求模型同時(shí)處理兩類信息:一類需要在不同鏡頭之間保持穩(wěn)定,例如人物身份、環(huán)境主體和故事主線;另一類則需要隨著敘事自然變化,例如視角切換、動(dòng)作推進(jìn)和場(chǎng)景轉(zhuǎn)場(chǎng)。

這一任務(wù)通??梢远x為:給定每個(gè) shot 的 prompt,以及一個(gè)可選的初始圖像作為首幀條件,模型需要生成多個(gè) shot,并同時(shí)維持跨 shot 的內(nèi)容一致性和對(duì)每個(gè) shot prompt 的準(zhǔn)確遵循。

這意味著,模型必須能夠持續(xù)維護(hù)長(zhǎng)程的跨鏡頭上下文。然而,現(xiàn)有方法大致存在兩類局限:一類方法依賴固定窗口,在窗口內(nèi)同時(shí)生成多個(gè) shot,但隨著窗口滑動(dòng),較早鏡頭的信息會(huì)被丟棄;另一類方法先生成各 shot 關(guān)鍵幀,再以關(guān)鍵幀為條件生成各 shot,但這樣限制了 shot 間交互,難以有效傳遞 shot 內(nèi)更復(fù)雜的敘事細(xì)節(jié)。

最近,來(lái)自 Meta 與 University of Copenhagen 的研究者提出了 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory(收錄于 CVPR 2026)。


論文地址:https://arxiv.org/pdf/2512.07802

這項(xiàng)工作聚焦于一個(gè)核心問(wèn)題:如何在生成多鏡頭視頻時(shí),有效保留長(zhǎng)程跨鏡頭上下文,從而實(shí)現(xiàn)更強(qiáng)的敘事一致性。其核心思路,是為多鏡頭視頻生成建立一種全局但緊湊的跨鏡頭記憶機(jī)制。


圖 1 OneStory 可生成分鐘級(jí)、十鏡頭的長(zhǎng)視頻故事,在復(fù)雜敘事推進(jìn)過(guò)程中保持人物與場(chǎng)景的一致性;同時(shí)統(tǒng)一支持 image-to-multi-shot 與 text-to-multi-shot 兩種生成設(shè)置,并在 out-of-domain 場(chǎng)景中展現(xiàn)出良好的泛化能力。

OneStory 做了什么?


圖 2 OneStory 的訓(xùn)練與推理流程示意圖。訓(xùn)練階段,模型以前兩個(gè) shot 為條件生成第三個(gè) shot;推理階段,模型根據(jù)輸入 caption 按 shot-by-shot 的方式逐步生成多鏡頭視頻。

OneStory 首先將多鏡頭視頻生成重新表述為一個(gè)更自然的問(wèn)題:next-shot generation。也就是說(shuō),模型不再一次性生成整段長(zhǎng)視頻,而是像講故事一樣,基于前面已經(jīng)生成的鏡頭,生成下一個(gè)鏡頭(每個(gè)鏡頭同時(shí)生成)。這樣的設(shè)定實(shí)現(xiàn)了 shot-by-shot 的自回歸式多鏡頭生成。

與此同時(shí),OneStory 以預(yù)訓(xùn)練的 image-to-video 基礎(chǔ)模型作為初始化,因此可以自然繼承基礎(chǔ)模型本身強(qiáng)大的視覺條件生成能力。通過(guò)這樣的任務(wù)重構(gòu),OneStory 的第一個(gè) shot 可以由用戶通過(guò)使用任一 text-to-video 或 image-to-video 模型得到,而后續(xù) shot 則由 onestory 根據(jù)輸入的 shot prompt 逐步生成。

也正因如此,OneStory 能夠在同一個(gè)模型中統(tǒng)一支持 text-to-multi-shot video 和 image-to-multi-shot video 兩種生成方式。


圖 3 OneStory 中 Frame Selection 和 Adaptive Conditioner 的結(jié)構(gòu)示意圖。兩者共同實(shí)現(xiàn)了自適應(yīng)記憶建模,從而支持全局但緊湊的跨鏡頭上下文表示,用于連貫的敘事生成。

在此基礎(chǔ)上,OneStory 設(shè)計(jì)了兩個(gè)關(guān)鍵模塊。

1. Frame Selection:找到真正相關(guān)的歷史 memory

并不是所有前序鏡頭對(duì)當(dāng)前鏡頭的生成都同等重要。

例如,第 1 個(gè)鏡頭中出現(xiàn)主角,第 2 個(gè)鏡頭切換到配角,第 3 個(gè)鏡頭又回到主角。那么在生成第 3 個(gè)鏡頭時(shí),第 1 個(gè)鏡頭往往比第 2 個(gè)鏡頭更關(guān)鍵?;谶@種跨鏡頭相關(guān)性不均等的現(xiàn)象,OneStory 引入了 Frame Selection 模塊,從所有歷史鏡頭中自動(dòng)挑選出與當(dāng)前鏡頭 prompt 在語(yǔ)義上最相關(guān)的一些幀,作為當(dāng)前 shot 生成時(shí)的 memory。

這一設(shè)計(jì)不僅避免了固定窗口滑動(dòng)帶來(lái)的遺忘問(wèn)題,也使模型能夠真正構(gòu)建起全局的跨鏡頭上下文。


圖 4 與以往方法按時(shí)間順序機(jī)械分配 patchifier 不同,Adaptive Conditioner 根據(jù)內(nèi)容相關(guān)性動(dòng)態(tài)分配不同粒度的 patchifier,從而更高效地利用跨鏡頭記憶。

2. Adaptive Conditioner:把 memory 壓縮成高效條件信息

僅僅 「記住」還不夠,如何高效地將這些歷史信息輸入生成器同樣關(guān)鍵。

OneStory 的 Adaptive Conditioner 會(huì)根據(jù) Frame Selection 模塊預(yù)測(cè)的重要性,對(duì)選中的歷史幀進(jìn)行自適應(yīng) patchification:更重要的信息保留更細(xì)粒度的表示,不那么關(guān)鍵的信息則被更強(qiáng)地壓縮。這樣一來(lái),模型就在計(jì)算成本可控的前提下,將歷史上下文轉(zhuǎn)化為緊湊而有效的條件信號(hào),并直接注入生成過(guò)程。


圖 5 多 shot 視頻數(shù)據(jù)收集流程

此外,論文沒(méi)有沿用「整段故事需要一個(gè)總腳本,再輔以分鏡頭定義」的數(shù)據(jù)構(gòu)建方式,而是僅保留分鏡頭 prompt,并將每個(gè)鏡頭寫成帶有前文指代關(guān)系的描述。這樣的數(shù)據(jù)形式更貼近真實(shí)的故事講述邏輯,也讓用戶的提示控制更加簡(jiǎn)化。

實(shí)驗(yàn)結(jié)果


圖 6 定性比較結(jié)果。OneStory 能夠更忠實(shí)地遵循 shot-level captions,生成在內(nèi)容和敘事上更加連貫的多鏡頭視頻。

各實(shí)驗(yàn)表明,OneStory 能夠在復(fù)雜提示不斷變化的情況下持續(xù)推進(jìn)敘事,同時(shí)保持人物和環(huán)境的一致性。論文中也提供了對(duì) OneStory 在復(fù)雜敘事場(chǎng)景中的表現(xiàn)分析,包括:

  • 外觀變化下的人物一致性保持

  • 從大全景到局部特寫時(shí)的空間定位能力

  • 人與物體交互發(fā)展過(guò)程中的敘事延續(xù)能力

這些現(xiàn)象說(shuō)明,OneStory 學(xué)到的并不只是表層的視覺連續(xù)性,而更接近于一種跨鏡頭敘事理解能力。

OneStory 的意義是什么?

如果說(shuō)單鏡頭視頻生成解決的是「把一段畫面做出來(lái)」,那么多鏡頭視頻生成真正要解決的,就是「把一個(gè)故事講下去」。

OneStory 給出的答案是:不是一味拉長(zhǎng)上下文窗口,也不是依賴單張關(guān)鍵幀,而是通過(guò)自適應(yīng)記憶建模,在全局信息建模能力和計(jì)算效率之間找到平衡。它讓模型在跨鏡頭生成時(shí),既能夠記住過(guò)去,又不會(huì)被冗余信息淹沒(méi)。

對(duì)于長(zhǎng)視頻生成和可控世界模型而言,這是一條非常值得關(guān)注的方向,因?yàn)?OneStory 為視頻模型提供了一種有效的自適應(yīng) memory 管理機(jī)制,也為更長(zhǎng)時(shí)程、更高一致性的視頻生成打開了新的可能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
41歲文章開飯店試營(yíng)業(yè),抱著嬰兒在門口和顧客留影,手上婚戒搶鏡

41歲文章開飯店試營(yíng)業(yè),抱著嬰兒在門口和顧客留影,手上婚戒搶鏡

韓小娛
2026-04-10 09:46:38
“狡黠”不讀jiǎo jié!也不讀jiǎo xié,別再錯(cuò),丟不起那人!

“狡黠”不讀jiǎo jié!也不讀jiǎo xié,別再錯(cuò),丟不起那人!

未央看點(diǎn)
2026-04-10 00:09:12
美國(guó)“第一夫人”發(fā)表聲明

美國(guó)“第一夫人”發(fā)表聲明

魯中晨報(bào)
2026-04-10 09:24:04
鄭麗文訪陸第3天,韓國(guó)瑜不裝了,侯友宜被怒懟,盧秀燕老奸巨猾

鄭麗文訪陸第3天,韓國(guó)瑜不裝了,侯友宜被怒懟,盧秀燕老奸巨猾

云景侃記
2026-04-10 09:59:21
廣東省高級(jí)人民法院刑一庭審判員、三級(jí)高級(jí)法官王一民被查

廣東省高級(jí)人民法院刑一庭審判員、三級(jí)高級(jí)法官王一民被查

南方都市報(bào)
2026-04-10 10:44:09
剛從朝鮮回來(lái),說(shuō)點(diǎn)不中聽的:朝鮮的真實(shí)面目,可能讓你很意外

剛從朝鮮回來(lái),說(shuō)點(diǎn)不中聽的:朝鮮的真實(shí)面目,可能讓你很意外

復(fù)轉(zhuǎn)這些年
2026-04-10 11:41:03
越扒瓜越大!外媒再曝全紅嬋被霸凌猛料,遠(yuǎn)不止言語(yǔ)辱罵這么簡(jiǎn)單

越扒瓜越大!外媒再曝全紅嬋被霸凌猛料,遠(yuǎn)不止言語(yǔ)辱罵這么簡(jiǎn)單

青橘罐頭
2026-04-10 07:55:57
開藥收15元掛號(hào)費(fèi)引爭(zhēng)議?衛(wèi)健委明確:?jiǎn)渭冮_藥別掛普通號(hào)!

開藥收15元掛號(hào)費(fèi)引爭(zhēng)議?衛(wèi)健委明確:?jiǎn)渭冮_藥別掛普通號(hào)!

今朝牛馬
2026-04-09 17:22:11
鎮(zhèn)嵩軍的真實(shí)面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

鎮(zhèn)嵩軍的真實(shí)面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

混沌錄
2026-04-09 14:51:04
河南35歲孕婦吃冰箱剩菜后,感染“李斯特菌”去世,醫(yī)生:孕婦等特殊人群需避免直接進(jìn)食冰箱冷藏食物,高溫加熱10分鐘后更安全

河南35歲孕婦吃冰箱剩菜后,感染“李斯特菌”去世,醫(yī)生:孕婦等特殊人群需避免直接進(jìn)食冰箱冷藏食物,高溫加熱10分鐘后更安全

大象新聞
2026-04-09 14:45:04
3-1!奪冠熱門誕生,埃梅里征服客場(chǎng),目標(biāo)直指歐戰(zhàn)冠軍

3-1!奪冠熱門誕生,埃梅里征服客場(chǎng),目標(biāo)直指歐戰(zhàn)冠軍

足球狗說(shuō)
2026-04-10 04:55:40
戴森憋了30年憋出99美元小風(fēng)扇,風(fēng)速55mph卻不敢吹臉

戴森憋了30年憋出99美元小風(fēng)扇,風(fēng)速55mph卻不敢吹臉

全棧遛狗員
2026-04-09 18:04:56
海水制氫突破:真正革命不是氫便宜,而是人類開始 “開采海洋”

海水制氫突破:真正革命不是氫便宜,而是人類開始 “開采海洋”

臨云史策
2026-04-08 15:10:20
谷愛凌備賽僅兩周,首馬324!

谷愛凌備賽僅兩周,首馬324!

馬拉松跑步健身
2026-04-10 06:30:09
科學(xué)家發(fā)現(xiàn):中年時(shí)期維生素D水平會(huì)影響你幾十年后的大腦發(fā)育

科學(xué)家發(fā)現(xiàn):中年時(shí)期維生素D水平會(huì)影響你幾十年后的大腦發(fā)育

粵語(yǔ)音樂(lè)噴泉
2026-04-09 02:42:05
凈利潤(rùn)暴跌19%!十萬(wàn)員工失業(yè)震驚全網(wǎng),電車一哥到底怎么了?

凈利潤(rùn)暴跌19%!十萬(wàn)員工失業(yè)震驚全網(wǎng),電車一哥到底怎么了?

墨史軒
2026-04-08 14:38:11
德媒:奔馳在中國(guó)銷量暴跌

德媒:奔馳在中國(guó)銷量暴跌

道德經(jīng)
2026-04-10 00:02:29
露餡了!阿奇王子奔跑在草地,兩年不長(zhǎng)高引熱議,梅根解釋不清

露餡了!阿奇王子奔跑在草地,兩年不長(zhǎng)高引熱議,梅根解釋不清

夜深愛雜談
2026-04-10 11:45:48
長(zhǎng)公主被家暴流產(chǎn)了

長(zhǎng)公主被家暴流產(chǎn)了

毒舌扒姨太
2026-04-08 22:29:19
心寒到骨子里!趙麗穎為何寧賠違約金也絕不碰《楚喬傳2》?

心寒到骨子里!趙麗穎為何寧賠違約金也絕不碰《楚喬傳2》?

陳意小可愛
2026-04-10 06:40:58
2026-04-10 14:27:00
新浪財(cái)經(jīng) incentive-icons
新浪財(cái)經(jīng)
新浪財(cái)經(jīng)是一家創(chuàng)建于1999年8月的財(cái)經(jīng)平臺(tái)
2819629文章數(shù) 6527關(guān)注度
往期回顧 全部

藝術(shù)要聞

于小冬2026年4月油畫新作《花季》

頭條要聞

牛彈琴:巴基斯坦被以色列激怒了 這是一個(gè)不祥的信號(hào)

頭條要聞

牛彈琴:巴基斯坦被以色列激怒了 這是一個(gè)不祥的信號(hào)

體育要聞

17歲賺了一百萬(wàn)美元,25歲被CBA裁員

娛樂(lè)要聞

夏克立婚內(nèi)出軌 曾參加《爸爸去哪兒》

財(cái)經(jīng)要聞

愛爾眼科一院長(zhǎng)被指猥褻 總部:已被停職

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

汽車要聞

全新一代理想 L8 五座旗艦+5C增程系統(tǒng) 三季度交付

態(tài)度原創(chuàng)

旅游
健康
教育
房產(chǎn)
軍事航空

旅游要聞

圈占百年祖墳,景區(qū)開發(fā)不能斷了后人祭祖的路丨中聽

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

筆試第一,綜合第一,她從文華學(xué)院成功考研上岸211名校!

房產(chǎn)要聞

2400畝!大三亞又一個(gè)濱海度假區(qū),規(guī)劃曝光!

軍事要聞

特朗普:對(duì)美國(guó)與伊朗達(dá)成和平協(xié)議“非常樂(lè)觀”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版