国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

CVPR 2026|AI開始會(huì)拍電影了:一分鐘十鏡頭,全程不崩劇情

0
分享至



安照崇現(xiàn)為哥本哈根大學(xué)博士生,隸屬于 Pioneer Centre for Artificial Intelligence 和 ELLIS 項(xiàng)目,導(dǎo)師為 Serge Belongie 教授。他于 2023 年獲得蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)計(jì)算機(jī)科學(xué)碩士學(xué)位,導(dǎo)師為 Luc Van Gool 教授。他的研究方向主要包括三維理解、視頻生成以及多模態(tài)模型。

多鏡頭視頻生成是自然世界敘事的重要表達(dá)形式,也是視頻生成領(lǐng)域中一個(gè)挑戰(zhàn)性的研究方向。

與單鏡頭視頻不同,多鏡頭視頻并不是簡(jiǎn)單地把幾個(gè)片段拼接起來,而是要求模型同時(shí)處理兩類信息:一類需要在不同鏡頭之間保持穩(wěn)定,例如人物身份、環(huán)境主體和故事主線;另一類則需要隨著敘事自然變化,例如視角切換、動(dòng)作推進(jìn)和場(chǎng)景轉(zhuǎn)場(chǎng)。

這一任務(wù)通常可以定義為:給定每個(gè) shot 的 prompt,以及一個(gè)可選的初始圖像作為首幀條件,模型需要生成多個(gè) shot,并同時(shí)維持跨 shot 的內(nèi)容一致性和對(duì)每個(gè) shot prompt 的準(zhǔn)確遵循。

這意味著,模型必須能夠持續(xù)維護(hù)長(zhǎng)程的跨鏡頭上下文。然而,現(xiàn)有方法大致存在兩類局限:一類方法依賴固定窗口,在窗口內(nèi)同時(shí)生成多個(gè) shot,但隨著窗口滑動(dòng),較早鏡頭的信息會(huì)被丟棄;另一類方法先生成各 shot 關(guān)鍵幀,再以關(guān)鍵幀為條件生成各 shot,但這樣限制了 shot 間交互,難以有效傳遞 shot 內(nèi)更復(fù)雜的敘事細(xì)節(jié)。

最近,來自 Meta 與 University of Copenhagen 的研究者提出了 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory(收錄于 CVPR 2026)。



論文地址:https://arxiv.org/pdf/2512.07802

這項(xiàng)工作聚焦于一個(gè)核心問題:如何在生成多鏡頭視頻時(shí),有效保留長(zhǎng)程跨鏡頭上下文,從而實(shí)現(xiàn)更強(qiáng)的敘事一致性。其核心思路,是為多鏡頭視頻生成建立一種全局但緊湊的跨鏡頭記憶機(jī)制。



圖 1 OneStory 可生成分鐘級(jí)、十鏡頭的長(zhǎng)視頻故事,在復(fù)雜敘事推進(jìn)過程中保持人物與場(chǎng)景的一致性;同時(shí)統(tǒng)一支持 image-to-multi-shot 與 text-to-multi-shot 兩種生成設(shè)置,并在 out-of-domain 場(chǎng)景中展現(xiàn)出良好的泛化能力。

OneStory 做了什么?



圖 2 OneStory 的訓(xùn)練與推理流程示意圖。訓(xùn)練階段,模型以前兩個(gè) shot 為條件生成第三個(gè) shot;推理階段,模型根據(jù)輸入 caption 按 shot-by-shot 的方式逐步生成多鏡頭視頻。

OneStory 首先將多鏡頭視頻生成重新表述為一個(gè)更自然的問題:next-shot generation。也就是說,模型不再一次性生成整段長(zhǎng)視頻,而是像講故事一樣,基于前面已經(jīng)生成的鏡頭,生成下一個(gè)鏡頭(每個(gè)鏡頭同時(shí)生成)。這樣的設(shè)定實(shí)現(xiàn)了shot-by-shot的自回歸式多鏡頭生成。

與此同時(shí),OneStory 以預(yù)訓(xùn)練的 image-to-video 基礎(chǔ)模型作為初始化,因此可以自然繼承基礎(chǔ)模型本身強(qiáng)大的視覺條件生成能力。通過這樣的任務(wù)重構(gòu),OneStory 的第一個(gè) shot 可以由用戶通過使用任一 text-to-video 或 image-to-video 模型得到,而后續(xù) shot 則由 onestory 根據(jù)輸入的shot prompt 逐步生成。

也正因如此,OneStory 能夠在同一個(gè)模型中統(tǒng)一支持text-to-multi-shot video和image-to-multi-shot video兩種生成方式。



圖 3 OneStory 中 Frame Selection 和 Adaptive Conditioner 的結(jié)構(gòu)示意圖。兩者共同實(shí)現(xiàn)了自適應(yīng)記憶建模,從而支持全局但緊湊的跨鏡頭上下文表示,用于連貫的敘事生成。

在此基礎(chǔ)上,OneStory 設(shè)計(jì)了兩個(gè)關(guān)鍵模塊。

1. Frame Selection:找到真正相關(guān)的歷史 memory

并不是所有前序鏡頭對(duì)當(dāng)前鏡頭的生成都同等重要。

例如,第 1 個(gè)鏡頭中出現(xiàn)主角,第 2 個(gè)鏡頭切換到配角,第 3 個(gè)鏡頭又回到主角。那么在生成第 3 個(gè)鏡頭時(shí),第 1 個(gè)鏡頭往往比第 2 個(gè)鏡頭更關(guān)鍵?;谶@種跨鏡頭相關(guān)性不均等的現(xiàn)象,OneStory 引入了Frame Selection模塊,從所有歷史鏡頭中自動(dòng)挑選出與當(dāng)前鏡頭 prompt 在語義上最相關(guān)的一些幀,作為當(dāng)前 shot 生成時(shí)的 memory。

這一設(shè)計(jì)不僅避免了固定窗口滑動(dòng)帶來的遺忘問題,也使模型能夠真正構(gòu)建起全局的跨鏡頭上下文。



圖 4 與以往方法按時(shí)間順序機(jī)械分配 patchifier 不同,Adaptive Conditioner 根據(jù)內(nèi)容相關(guān)性動(dòng)態(tài)分配不同粒度的 patchifier,從而更高效地利用跨鏡頭記憶。

2. Adaptive Conditioner:把 memory 壓縮成高效條件信息

僅僅 「記住」還不夠,如何高效地將這些歷史信息輸入生成器同樣關(guān)鍵。

OneStory 的Adaptive Conditioner會(huì)根據(jù) Frame Selection 模塊預(yù)測(cè)的重要性,對(duì)選中的歷史幀進(jìn)行自適應(yīng)patchification:更重要的信息保留更細(xì)粒度的表示,不那么關(guān)鍵的信息則被更強(qiáng)地壓縮。這樣一來,模型就在計(jì)算成本可控的前提下,將歷史上下文轉(zhuǎn)化為緊湊而有效的條件信號(hào),并直接注入生成過程。



圖 5 多 shot 視頻數(shù)據(jù)收集流程

此外,論文沒有沿用「整段故事需要一個(gè)總腳本,再輔以分鏡頭定義」的數(shù)據(jù)構(gòu)建方式,而是僅保留分鏡頭 prompt,并將每個(gè)鏡頭寫成帶有前文指代關(guān)系的描述。這樣的數(shù)據(jù)形式更貼近真實(shí)的故事講述邏輯,也讓用戶的提示控制更加簡(jiǎn)化。

實(shí)驗(yàn)結(jié)果



圖 6 定性比較結(jié)果。OneStory 能夠更忠實(shí)地遵循 shot-level captions,生成在內(nèi)容和敘事上更加連貫的多鏡頭視頻。

各實(shí)驗(yàn)表明,OneStory 能夠在復(fù)雜提示不斷變化的情況下持續(xù)推進(jìn)敘事,同時(shí)保持人物和環(huán)境的一致性。論文中也提供了對(duì) OneStory 在復(fù)雜敘事場(chǎng)景中的表現(xiàn)分析,包括:

  • 外觀變化下的人物一致性保持
  • 從大全景到局部特寫時(shí)的空間定位能力
  • 人與物體交互發(fā)展過程中的敘事延續(xù)能力

這些現(xiàn)象說明,OneStory 學(xué)到的并不只是表層的視覺連續(xù)性,而更接近于一種跨鏡頭敘事理解能力。

OneStory 的意義是什么?

如果說單鏡頭視頻生成解決的是「把一段畫面做出來」,那么多鏡頭視頻生成真正要解決的,就是「把一個(gè)故事講下去」。

OneStory 給出的答案是:不是一味拉長(zhǎng)上下文窗口,也不是依賴單張關(guān)鍵幀,而是通過自適應(yīng)記憶建模,在全局信息建模能力和計(jì)算效率之間找到平衡。它讓模型在跨鏡頭生成時(shí),既能夠記住過去,又不會(huì)被冗余信息淹沒。

對(duì)于長(zhǎng)視頻生成和可控世界模型而言,這是一條非常值得關(guān)注的方向,因?yàn)?OneStory 為視頻模型提供了一種有效的自適應(yīng) memory 管理機(jī)制,也為更長(zhǎng)時(shí)程、更高一致性的視頻生成打開了新的可能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
抗日神劇不可信:一個(gè)日本攝影師,1940年拍的鬼子進(jìn)村

抗日神劇不可信:一個(gè)日本攝影師,1940年拍的鬼子進(jìn)村

兵卒史
2026-04-12 03:18:32
演員袁成杰探店文章面館,當(dāng)被問為啥開店,文章:“純屬是為了自己有一口吃的”

演員袁成杰探店文章面館,當(dāng)被問為啥開店,文章:“純屬是為了自己有一口吃的”

新浪財(cái)經(jīng)
2026-04-14 13:33:43
匈牙利獲勝的馬扎爾不支持歐盟向?yàn)蹩颂m提供900億歐元貸款

匈牙利獲勝的馬扎爾不支持歐盟向?yàn)蹩颂m提供900億歐元貸款

深度Militaire
2026-04-14 10:56:51
一個(gè)產(chǎn)品經(jīng)理花46美元買了根"挖耳勺",3年后發(fā)現(xiàn)它真正的用途是修發(fā)動(dòng)機(jī)

一個(gè)產(chǎn)品經(jīng)理花46美元買了根"挖耳勺",3年后發(fā)現(xiàn)它真正的用途是修發(fā)動(dòng)機(jī)

Ping值焦慮
2026-04-14 09:29:08
十四屆全國政協(xié)原常委、經(jīng)濟(jì)委員會(huì)原副主任畢井泉被提起公訴

十四屆全國政協(xié)原常委、經(jīng)濟(jì)委員會(huì)原副主任畢井泉被提起公訴

新京報(bào)
2026-04-14 10:05:11
成年人的社交潛規(guī)則|無論誰幫了你,一定要送禮,不收也要送

成年人的社交潛規(guī)則|無論誰幫了你,一定要送禮,不收也要送

杏花煙雨江南的碧園
2026-04-11 16:15:03
實(shí)探比亞迪深圳坪山工廠:兩樓層已被大火燒得焦黑,未著火樓層仍有不少轎車停放

實(shí)探比亞迪深圳坪山工廠:兩樓層已被大火燒得焦黑,未著火樓層仍有不少轎車停放

第一財(cái)經(jīng)資訊
2026-04-14 16:51:46
美媒:沙特施壓美國放棄封鎖霍爾木茲海峽,擔(dān)心促使伊朗升級(jí)行動(dòng),超15艘美軍艦已到位

美媒:沙特施壓美國放棄封鎖霍爾木茲海峽,擔(dān)心促使伊朗升級(jí)行動(dòng),超15艘美軍艦已到位

揚(yáng)子晚報(bào)
2026-04-14 12:13:08
斯諾克最新戰(zhàn)報(bào)!周躍龍單桿制勝,高陽大逆轉(zhuǎn),泰國名將開門紅!

斯諾克最新戰(zhàn)報(bào)!周躍龍單桿制勝,高陽大逆轉(zhuǎn),泰國名將開門紅!

劉姚堯的文字城堡
2026-04-14 18:30:00
國民黨內(nèi)訌,前高層沖闖黨部斥責(zé)鄭麗文:你不配當(dāng)主席,是個(gè)卒子

國民黨內(nèi)訌,前高層沖闖黨部斥責(zé)鄭麗文:你不配當(dāng)主席,是個(gè)卒子

面包夾知識(shí)
2025-12-31 23:04:14
中方接到消息,美軍已經(jīng)動(dòng)手,特朗普宣告戰(zhàn)果,伊朗海軍損失慘重

中方接到消息,美軍已經(jīng)動(dòng)手,特朗普宣告戰(zhàn)果,伊朗海軍損失慘重

共工之錨
2026-04-15 00:17:11
美媒:中國免簽重塑全球旅游習(xí)慣

美媒:中國免簽重塑全球旅游習(xí)慣

參考消息
2026-04-14 15:10:35
靠“漢芯一號(hào)”騙取11億研究經(jīng)費(fèi),后逃到美國的陳進(jìn),結(jié)局如何?

靠“漢芯一號(hào)”騙取11億研究經(jīng)費(fèi),后逃到美國的陳進(jìn),結(jié)局如何?

阿鳧愛吐槽
2026-04-14 02:01:01
剛從蒙古國回來,說點(diǎn)不中聽的:蒙古國真實(shí)面目,可能讓你很意外

剛從蒙古國回來,說點(diǎn)不中聽的:蒙古國真實(shí)面目,可能讓你很意外

復(fù)轉(zhuǎn)這些年
2026-04-06 22:24:11
如果當(dāng)初采納梁思成先生的方案,北京將是世界上最宏偉的千年古都

如果當(dāng)初采納梁思成先生的方案,北京將是世界上最宏偉的千年古都

興趣知識(shí)
2026-03-31 14:37:40
事關(guān)伊朗,特朗普給了中國兩條路,王毅二話不說,直接邀約俄羅斯

事關(guān)伊朗,特朗普給了中國兩條路,王毅二話不說,直接邀約俄羅斯

勇敢的探索世界
2026-04-14 22:54:40
14歲男孩“蛋疼”,親媽卻迷信AI硬拖兩天!最后只能切蛋了…

14歲男孩“蛋疼”,親媽卻迷信AI硬拖兩天!最后只能切蛋了…

英國那些事兒
2026-04-13 23:15:36
連續(xù)洗盤三個(gè)月,洗干凈洗徹底,周線10連陰,等你賣出后就拉板!

連續(xù)洗盤三個(gè)月,洗干凈洗徹底,周線10連陰,等你賣出后就拉板!

丁丁鯉史紀(jì)
2026-04-14 15:42:14
向太稱被向佑虧光幾百萬,控訴兒子心態(tài)扭曲,躺平等繼承百億家產(chǎn)

向太稱被向佑虧光幾百萬,控訴兒子心態(tài)扭曲,躺平等繼承百億家產(chǎn)

開開森森
2026-04-14 08:48:27
張?zhí)m隔空安慰?jī)合?,婆媳有新?dòng)向,筱梅搬回別墅 和小菲感情穩(wěn)定

張?zhí)m隔空安慰?jī)合保畔庇行聞?dòng)向,筱梅搬回別墅 和小菲感情穩(wěn)定

以茶帶書
2026-04-14 22:13:53
2026-04-15 00:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12762文章數(shù) 142628關(guān)注度
往期回顧 全部

藝術(shù)要聞

她的水彩畫竟讓億萬男人傾倒,你絕對(duì)想不到!

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊(duì)道歉”

娛樂要聞

網(wǎng)曝鐘麗緹代孕要了個(gè)男孩 備孕近10年

財(cái)經(jīng)要聞

許家印認(rèn)罪,他和恒大還有多少欠債?

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

汽車要聞

售12.99萬起/續(xù)航2000km 風(fēng)云T9L上市

態(tài)度原創(chuàng)

手機(jī)
旅游
健康
游戲
數(shù)碼

手機(jī)要聞

三星Galaxy系列手機(jī)/平板在美國市場(chǎng)漲價(jià),最高漲幅達(dá)80美元

旅游要聞

千城百縣看中國·賞花季|北京順義:又見梨花 歲歲年年

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

系好安全帶!原作者確認(rèn)《地鐵2039》將比前作更黑暗

數(shù)碼要聞

三款小平板扎堆發(fā)布!紅魔、紅米、OPPO,誰會(huì)是大家的菜?

無障礙瀏覽 進(jìn)入關(guān)懷版