国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026|AI開始會拍電影了:一分鐘十鏡頭,全程不崩劇情

0
分享至



安照崇現為哥本哈根大學博士生,隸屬于 Pioneer Centre for Artificial Intelligence 和 ELLIS 項目,導師為 Serge Belongie 教授。他于 2023 年獲得蘇黎世聯邦理工學院(ETH Zurich)計算機科學碩士學位,導師為 Luc Van Gool 教授。他的研究方向主要包括三維理解、視頻生成以及多模態(tài)模型。

多鏡頭視頻生成是自然世界敘事的重要表達形式,也是視頻生成領域中一個挑戰(zhàn)性的研究方向。

與單鏡頭視頻不同,多鏡頭視頻并不是簡單地把幾個片段拼接起來,而是要求模型同時處理兩類信息:一類需要在不同鏡頭之間保持穩(wěn)定,例如人物身份、環(huán)境主體和故事主線;另一類則需要隨著敘事自然變化,例如視角切換、動作推進和場景轉場。

這一任務通??梢远x為:給定每個 shot 的 prompt,以及一個可選的初始圖像作為首幀條件,模型需要生成多個 shot,并同時維持跨 shot 的內容一致性和對每個 shot prompt 的準確遵循。

這意味著,模型必須能夠持續(xù)維護長程的跨鏡頭上下文。然而,現有方法大致存在兩類局限:一類方法依賴固定窗口,在窗口內同時生成多個 shot,但隨著窗口滑動,較早鏡頭的信息會被丟棄;另一類方法先生成各 shot 關鍵幀,再以關鍵幀為條件生成各 shot,但這樣限制了 shot 間交互,難以有效傳遞 shot 內更復雜的敘事細節(jié)。

最近,來自 Meta 與 University of Copenhagen 的研究者提出了 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory(收錄于 CVPR 2026)。



論文地址:https://arxiv.org/pdf/2512.07802

這項工作聚焦于一個核心問題:如何在生成多鏡頭視頻時,有效保留長程跨鏡頭上下文,從而實現更強的敘事一致性。其核心思路,是為多鏡頭視頻生成建立一種全局但緊湊的跨鏡頭記憶機制。



圖 1 OneStory 可生成分鐘級、十鏡頭的長視頻故事,在復雜敘事推進過程中保持人物與場景的一致性;同時統(tǒng)一支持 image-to-multi-shot 與 text-to-multi-shot 兩種生成設置,并在 out-of-domain 場景中展現出良好的泛化能力。

OneStory 做了什么?



圖 2 OneStory 的訓練與推理流程示意圖。訓練階段,模型以前兩個 shot 為條件生成第三個 shot;推理階段,模型根據輸入 caption 按 shot-by-shot 的方式逐步生成多鏡頭視頻。

OneStory 首先將多鏡頭視頻生成重新表述為一個更自然的問題:next-shot generation。也就是說,模型不再一次性生成整段長視頻,而是像講故事一樣,基于前面已經生成的鏡頭,生成下一個鏡頭(每個鏡頭同時生成)。這樣的設定實現了shot-by-shot的自回歸式多鏡頭生成。

與此同時,OneStory 以預訓練的 image-to-video 基礎模型作為初始化,因此可以自然繼承基礎模型本身強大的視覺條件生成能力。通過這樣的任務重構,OneStory 的第一個 shot 可以由用戶通過使用任一 text-to-video 或 image-to-video 模型得到,而后續(xù) shot 則由 onestory 根據輸入的shot prompt 逐步生成。

也正因如此,OneStory 能夠在同一個模型中統(tǒng)一支持text-to-multi-shot video和image-to-multi-shot video兩種生成方式。



圖 3 OneStory 中 Frame Selection 和 Adaptive Conditioner 的結構示意圖。兩者共同實現了自適應記憶建模,從而支持全局但緊湊的跨鏡頭上下文表示,用于連貫的敘事生成。

在此基礎上,OneStory 設計了兩個關鍵模塊。

1. Frame Selection:找到真正相關的歷史 memory

并不是所有前序鏡頭對當前鏡頭的生成都同等重要。

例如,第 1 個鏡頭中出現主角,第 2 個鏡頭切換到配角,第 3 個鏡頭又回到主角。那么在生成第 3 個鏡頭時,第 1 個鏡頭往往比第 2 個鏡頭更關鍵?;谶@種跨鏡頭相關性不均等的現象,OneStory 引入了Frame Selection模塊,從所有歷史鏡頭中自動挑選出與當前鏡頭 prompt 在語義上最相關的一些幀,作為當前 shot 生成時的 memory。

這一設計不僅避免了固定窗口滑動帶來的遺忘問題,也使模型能夠真正構建起全局的跨鏡頭上下文。



圖 4 與以往方法按時間順序機械分配 patchifier 不同,Adaptive Conditioner 根據內容相關性動態(tài)分配不同粒度的 patchifier,從而更高效地利用跨鏡頭記憶。

2. Adaptive Conditioner:把 memory 壓縮成高效條件信息

僅僅 「記住」還不夠,如何高效地將這些歷史信息輸入生成器同樣關鍵。

OneStory 的Adaptive Conditioner會根據 Frame Selection 模塊預測的重要性,對選中的歷史幀進行自適應patchification:更重要的信息保留更細粒度的表示,不那么關鍵的信息則被更強地壓縮。這樣一來,模型就在計算成本可控的前提下,將歷史上下文轉化為緊湊而有效的條件信號,并直接注入生成過程。



圖 5 多 shot 視頻數據收集流程

此外,論文沒有沿用「整段故事需要一個總腳本,再輔以分鏡頭定義」的數據構建方式,而是僅保留分鏡頭 prompt,并將每個鏡頭寫成帶有前文指代關系的描述。這樣的數據形式更貼近真實的故事講述邏輯,也讓用戶的提示控制更加簡化。

實驗結果



圖 6 定性比較結果。OneStory 能夠更忠實地遵循 shot-level captions,生成在內容和敘事上更加連貫的多鏡頭視頻。

各實驗表明,OneStory 能夠在復雜提示不斷變化的情況下持續(xù)推進敘事,同時保持人物和環(huán)境的一致性。論文中也提供了對 OneStory 在復雜敘事場景中的表現分析,包括:

  • 外觀變化下的人物一致性保持
  • 從大全景到局部特寫時的空間定位能力
  • 人與物體交互發(fā)展過程中的敘事延續(xù)能力

這些現象說明,OneStory 學到的并不只是表層的視覺連續(xù)性,而更接近于一種跨鏡頭敘事理解能力。

OneStory 的意義是什么?

如果說單鏡頭視頻生成解決的是「把一段畫面做出來」,那么多鏡頭視頻生成真正要解決的,就是「把一個故事講下去」。

OneStory 給出的答案是:不是一味拉長上下文窗口,也不是依賴單張關鍵幀,而是通過自適應記憶建模,在全局信息建模能力和計算效率之間找到平衡。它讓模型在跨鏡頭生成時,既能夠記住過去,又不會被冗余信息淹沒。

對于長視頻生成和可控世界模型而言,這是一條非常值得關注的方向,因為 OneStory 為視頻模型提供了一種有效的自適應 memory 管理機制,也為更長時程、更高一致性的視頻生成打開了新的可能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭永年:不用糾結特朗普到底什么意思,中美客觀上已經是G2了

鄭永年:不用糾結特朗普到底什么意思,中美客觀上已經是G2了

上觀新聞
2026-04-11 14:49:04
A股:不用等周一開盤了,明天(4月13日),不出意外會這么走

A股:不用等周一開盤了,明天(4月13日),不出意外會這么走

財經大拿
2026-04-12 07:10:10
上海二手房單日成交1632套:連續(xù)打破5年峰值紀錄,高端房源成交占比提升

上海二手房單日成交1632套:連續(xù)打破5年峰值紀錄,高端房源成交占比提升

澎湃新聞
2026-04-12 13:52:27
角力伊斯蘭堡,美伊都到了!宮殿風格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經驗;預計雙方各占酒店一邊,避免走廊偶遇

角力伊斯蘭堡,美伊都到了!宮殿風格酒店里,美伊或“遞紙條”談判,雙方“主將”均無外交經驗;預計雙方各占酒店一邊,避免走廊偶遇

每日經濟新聞
2026-04-11 16:34:11
明天周一A股將會怎么走?到底是漲是跌?我做了一個大膽的預判

明天周一A股將會怎么走?到底是漲是跌?我做了一個大膽的預判

股市皆大事
2026-04-12 11:30:57
馬筱梅帶汪寶回北京,張?zhí)m沒反應,汪小菲稱母親張總,關系微妙

馬筱梅帶汪寶回北京,張?zhí)m沒反應,汪小菲稱母親張總,關系微妙

楓塵余往逝
2026-04-11 23:52:17
48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

48歲拉爾薩魅力不減,17歲年齡差,讓NBA球星賭上人生與家庭

羅氏八卦
2026-04-11 18:00:03
美媒預測本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達48%

美媒預測本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達48%

你的籃球頻道
2026-04-12 12:01:46
笑噴全網!高速路上妻子數落丈夫停不下來,貓咪聽不下去直接捂嘴

笑噴全網!高速路上妻子數落丈夫停不下來,貓咪聽不下去直接捂嘴

搗蛋窩
2026-04-11 10:57:44
48 小時 2 架飛機:鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機抵臺

48 小時 2 架飛機:鄭麗文做了馬英九連戰(zhàn)沒做的事!引美專機抵臺

眼界看視野
2026-04-11 20:50:20
鎮(zhèn)嵩軍的真實面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

鎮(zhèn)嵩軍的真實面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

混沌錄
2026-04-09 14:51:04
浪姐7一公排名:蕭薔團墊底,李小冉團喜劇效果拉滿,大黑馬誕生

浪姐7一公排名:蕭薔團墊底,李小冉團喜劇效果拉滿,大黑馬誕生

娛樂圈筆娛君
2026-04-12 11:17:01
巴拿馬總統(tǒng)尋求緩和與中國關系

巴拿馬總統(tǒng)尋求緩和與中國關系

參考消息
2026-04-11 19:52:15
太復雜了!天津一司機把奔馳開進了中心路的地道…差幾步就到平地了…

太復雜了!天津一司機把奔馳開進了中心路的地道…差幾步就到平地了…

天津人
2026-04-11 15:34:18
4人輪休+2人缺陣!火箭隊超級殘陣對戰(zhàn)灰熊!預計全新首發(fā)出爐

4人輪休+2人缺陣!火箭隊超級殘陣對戰(zhàn)灰熊!預計全新首發(fā)出爐

熊哥愛籃球
2026-04-12 12:36:12
不要錯過!下周,光通信測試龍頭來了

不要錯過!下周,光通信測試龍頭來了

新浪財經
2026-04-12 13:37:47
投資群2947人,2946人是托:殺豬盤進化史,只有你一個獵物

投資群2947人,2946人是托:殺豬盤進化史,只有你一個獵物

覺叔說
2026-04-11 13:57:01
伊朗代表團離開巴基斯坦

伊朗代表團離開巴基斯坦

上觀新聞
2026-04-12 12:54:04
體檢報告出現這幾個字,距離腦梗只有一步之遙!別等嚴重了才后悔

體檢報告出現這幾個字,距離腦梗只有一步之遙!別等嚴重了才后悔

荊醫(yī)生科普
2026-04-11 14:23:04
解放軍唯一的一次烏龍,一野和二野打了一個晚上,各自傷亡多少人

解放軍唯一的一次烏龍,一野和二野打了一個晚上,各自傷亡多少人

舊史新譚
2026-04-05 17:00:22
2026-04-12 16:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12729文章數 142623關注度
往期回顧 全部

藝術要聞

日本建筑大師的中國首個住宅項目,被防盜網毀了?

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側

頭條要聞

"賭王"何鴻燊女兒何超蕸去世 臨終前家人陪伴在側

體育要聞

五大聯賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達官宣結婚!曾與殷桃談婚論嫁

財經要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

科技要聞

理想稱遭惡意拉踩,東風日產:尊重同行

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

時尚
教育
數碼
旅游
軍事航空

伊姐周六熱推:電視劇《八千里路云和月》;綜藝《乘風2026》......

教育要聞

Q開頭的單詞!

數碼要聞

榮耀YOYO Claw PC版首曝,有望隨MagicBook Pro 14一起亮相

旅游要聞

五一機票預訂量漲8%,北京位居熱門目的地榜首|提振消費看京潮

軍事要聞

美國副總統(tǒng)萬斯:美伊談判未能達成協(xié)議

無障礙瀏覽 進入關懷版