国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「視頻世界模型」新突破:AI連續(xù)生成5分鐘,畫面也不崩

0
分享至



當(dāng) Sora 讓世界看到了 AI 生成視頻的驚艷效果,一個更深層的問題浮出水面:如何讓生成的視頻不只是「看起來像」,而是真正理解并遵循物理世界的規(guī)律?這正是「視頻世界模型」(Video World Model)要解決的核心挑戰(zhàn)。當(dāng)生成時長從幾秒擴展到幾分鐘,模型不僅要畫面逼真,更要在長時間尺度上保持結(jié)構(gòu)、行為與物理規(guī)律的一致性。然而,誤差累積與語義漂移往往導(dǎo)致長視頻出現(xiàn)畫面退化與邏輯崩壞 —— 這已成為衡量世界模型能力的關(guān)鍵瓶頸。

圍繞這一挑戰(zhàn),上海人工智能實驗室聯(lián)合復(fù)旦大學(xué)、南京大學(xué)、南洋理工大學(xué) S-Lab 等單位提出了LongVie 2—— 一個能夠生成長達5 分鐘高保真、可控視頻的世界模型框架



LongVie 2 可自回歸生成 3-5 分鐘的超長可控視頻

  • 論文:https://arxiv.org/pdf/2512.13604
  • 項目主頁:https://vchitect.github.io/LongVie2-project/
  • GitHub:https://github.com/Vchitect/LongVie
  • 視頻演示:https://www.youtube.com/watch?v=ln1kMNYj50Y


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

什么是理想的視頻世界模型?

一個理想的視頻世界模型,不應(yīng)只是「生成得更久」,而應(yīng)同時具備以下三項核心能力:

  • 全面可控性(Comprehensive Controllability):能夠在長時間生成過程中穩(wěn)定響應(yīng)多種控制信號,保持場景結(jié)構(gòu)與運動意圖不漂移;
  • 長期視覺保真(Long-term Fidelity):隨著時間推進,畫面質(zhì)量不發(fā)生明顯退化,不出現(xiàn)紋理崩塌或細節(jié)丟失;
  • 長程上下文一致性(Long-context Consistency):跨片段、跨時間保持語義、身份與物理規(guī)律的一致,避免「換世界式」斷裂。

現(xiàn)有世界模型的瓶頸在哪里?

本文系統(tǒng)調(diào)研了當(dāng)前主流的視頻世界模型,發(fā)現(xiàn)一個共同問題:隨著生成時長的增加,模型的可控性、視覺保真度與時間一致性會同步下降。



現(xiàn)有模型在長時間生成時的退化問題

LongVie 2:三階段遞進式訓(xùn)練

為系統(tǒng)性解決上述挑戰(zhàn),LongVie 2 設(shè)計了一套逐層遞進的三階段訓(xùn)練策略,從控制、穩(wěn)定性到時間一致性層層強化:



LongVie 2 三階段訓(xùn)練流程

階段一:Dense & Sparse 多模態(tài)控制

通過引入稠密信號(如深度圖)與稀疏信號(如關(guān)鍵點軌跡),為模型提供穩(wěn)定且可解釋的世界約束。這使生成過程不再完全依賴隱式記憶,從源頭提升長程可控性。

階段二:退化感知訓(xùn)練(Degradation-aware Training)

長視頻生成中,質(zhì)量衰減幾乎不可避免。LongVie 2 的核心創(chuàng)新在于:在訓(xùn)練階段主動「制造困難」——



退化感知訓(xùn)練示意圖

  • 利用 VAE 的多次 encode-decode 模擬重建誤差;
  • 通過 加噪 + Diffusion 去噪 構(gòu)造退化圖像。

以此作為訓(xùn)練信號,使模型學(xué)會在不完美輸入下保持穩(wěn)定生成,顯著增強長期視覺保真度。

階段三:歷史上下文建模

在生成過程中顯式引入歷史片段信息,并通過針對性 loss 約束相鄰片段的銜接,使跨片段過渡更加自然順暢,有效緩解長視頻中的語義斷裂與邏輯跳變問題。



三階段訓(xùn)練效果對比

一圖看懂 LongVie 2 框架

通過多模態(tài)控制、退化感知訓(xùn)練與歷史上下文建模的協(xié)同設(shè)計,LongVie 2 將長視頻生成從「片段拼接」提升為持續(xù)演化的世界建模過程:



LongVie 2 整體框架

從左至右,LongVie 2 首先將跨片段的稠密(深度)與稀疏(關(guān)鍵點)控制視頻做全局歸一化,并為所有片段采用統(tǒng)一的噪聲初始化。隨后在每一片段生成時,將全局歸一化后的控制信號、上一片段的末幀與文本提示送入模型,逐步生成完整的長視頻。

LongVie 2 能力展示

該研究將LongVie 2與 Go-With-The-Flow 和 Diffusion As Shader 進行了對比。結(jié)果顯示,LongVie 2 在可控性方面表現(xiàn)顯著優(yōu)于現(xiàn)有方法:



與現(xiàn)有方法的可控性對比


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

消融實驗也充分驗證了三階段訓(xùn)練的有效性:



消融實驗結(jié)果

LongVGenBench

首個可控超長視頻評測基準

當(dāng)前缺乏面向可控長視頻生成的標準化評測。為此,本文提出LongVGenBench—— 首個專為超長視頻生成設(shè)計的基準數(shù)據(jù)集,包含100 個時長超過 1 分鐘的高分辨率視頻,覆蓋真實世界與合成環(huán)境的多樣場景,旨在推動該方向的系統(tǒng)研究與公平評測。

定量評估與用戶主觀測評結(jié)果顯示,LongVie 2 在多項指標上達到SOTA 水平,并獲得最高用戶偏好度:





定量評測結(jié)果與用戶研究

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
為什么英國仍然被認為是世界強國?

為什么英國仍然被認為是世界強國?

霹靂炮
2026-01-06 22:38:17
一口氣搞懂16種酒,吹牛更顯學(xué)問

一口氣搞懂16種酒,吹牛更顯學(xué)問

混知
2026-01-09 12:27:20
王亞平的安保:吃飯要檢測,出門配警衛(wèi),這種“副國級”待遇是不是小題大作?

王亞平的安保:吃飯要檢測,出門配警衛(wèi),這種“副國級”待遇是不是小題大作?

歷史回憶室
2026-01-06 15:54:12
網(wǎng)友希望召回雀巢奶粉,京東客服回應(yīng):小孩喝了后有問題再聯(lián)系

網(wǎng)友希望召回雀巢奶粉,京東客服回應(yīng):小孩喝了后有問題再聯(lián)系

PChome電腦之家
2026-01-09 10:52:52
立竿見影!北京晚報昨天報道,宣武醫(yī)院今天行動

立竿見影!北京晚報昨天報道,宣武醫(yī)院今天行動

今日養(yǎng)生之道
2026-01-10 01:19:31
謝賢前女友大曝戀愛私隱!三年不碰她,卻每天給她做“四哥菜芯”

謝賢前女友大曝戀愛私隱!三年不碰她,卻每天給她做“四哥菜芯”

阿纂看事
2026-01-09 10:19:00
帶孫子和不帶孫子的老人,晚年會有什么區(qū)別?一對比區(qū)別就大了

帶孫子和不帶孫子的老人,晚年會有什么區(qū)別?一對比區(qū)別就大了

人間百態(tài)大全
2025-12-29 06:50:03
買菠菜,要分清“圓葉”和“尖葉”,買錯口感差,沒營養(yǎng)

買菠菜,要分清“圓葉”和“尖葉”,買錯口感差,沒營養(yǎng)

簡食記工作號
2026-01-09 00:14:46
中國恩格爾系數(shù)接近日本!中國人的日子,過得不比日本人差

中國恩格爾系數(shù)接近日本!中國人的日子,過得不比日本人差

狐貍先森講升學(xué)規(guī)劃
2026-01-09 08:09:18
鄭州保利一小區(qū)超兩百戶精裝房成“霉菌房” ,家里一股霉味,地板下全是霉菌,最新回應(yīng)

鄭州保利一小區(qū)超兩百戶精裝房成“霉菌房” ,家里一股霉味,地板下全是霉菌,最新回應(yīng)

大風(fēng)新聞
2026-01-09 17:32:07
為什么民國時期已經(jīng)有電了,后來又點了40年煤油燈?

為什么民國時期已經(jīng)有電了,后來又點了40年煤油燈?

浩舞默畫
2026-01-08 09:37:13
索帥周六面試曼聯(lián)帥位!卡里克獲一巨頭力挺,弗萊徹或帶隊?wèi)?zhàn)曼城

索帥周六面試曼聯(lián)帥位!卡里克獲一巨頭力挺,弗萊徹或帶隊?wèi)?zhàn)曼城

羅米的曼聯(lián)博客
2026-01-10 10:01:43
周生生“黃金四葉草”項鏈一夜?jié)q了1.5萬元,國內(nèi)金飾品牌價格新年第一漲

周生生“黃金四葉草”項鏈一夜?jié)q了1.5萬元,國內(nèi)金飾品牌價格新年第一漲

界面新聞
2026-01-09 23:59:03
財政壓力的下半場:退休人員占比近四成,才是硬賬

財政壓力的下半場:退休人員占比近四成,才是硬賬

超先聲
2026-01-09 16:45:39
老婆敗光20億真相大白10個月,張學(xué)友近況引人擔(dān)憂,王晶真沒說錯

老婆敗光20億真相大白10個月,張學(xué)友近況引人擔(dān)憂,王晶真沒說錯

攬星河的筆記
2025-12-29 17:05:48
轟20只是幌子?真正的殺手锏來了!美媒看懵:這才是洲際打擊

轟20只是幌子?真正的殺手锏來了!美媒看懵:這才是洲際打擊

通鑒史智
2026-01-09 12:02:34
斬首馬杜羅的“支奴干”直升機中國也有,為什么至今沒仿制成功?

斬首馬杜羅的“支奴干”直升機中國也有,為什么至今沒仿制成功?

軍武次位面
2026-01-08 18:51:19
制造業(yè)空心化?去年F-35的交付量達到驚人的191架!

制造業(yè)空心化?去年F-35的交付量達到驚人的191架!

隨波蕩漾的漂流瓶
2026-01-08 17:13:16
冰雪旅游持續(xù)升溫 攪“熱”開年消費市場

冰雪旅游持續(xù)升溫 攪“熱”開年消費市場

新華社
2026-01-08 14:46:27
胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

飯小妹說歷史
2026-01-07 09:30:45
2026-01-10 10:40:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142533關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準備第二次震驚全世界

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應(yīng)滴水不漏

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應(yīng)滴水不漏

體育要聞

楊瀚森:上場時間要去爭取 而不是要求

娛樂要聞

曹西平遺照曝光:靈堂布置過于簡陋

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

親子
游戲
手機
旅游
房產(chǎn)

親子要聞

再生氣也不能打孩子這5個部位

美任玩具宣傳圖疑似AI生成引批判 參演演員否認

手機要聞

一加Turbo 6對比6V:除了處理器,這些細節(jié)才是關(guān)鍵

旅游要聞

最新消息!什剎海冰場計劃今日開業(yè)

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

無障礙瀏覽 進入關(guān)懷版