国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「視頻世界模型」新突破:AI連續(xù)生成5分鐘,畫面也不崩

0
分享至



當(dāng) Sora 讓世界看到了 AI 生成視頻的驚艷效果,一個更深層的問題浮出水面:如何讓生成的視頻不只是「看起來像」,而是真正理解并遵循物理世界的規(guī)律?這正是「視頻世界模型」(Video World Model)要解決的核心挑戰(zhàn)。當(dāng)生成時長從幾秒擴(kuò)展到幾分鐘,模型不僅要畫面逼真,更要在長時間尺度上保持結(jié)構(gòu)、行為與物理規(guī)律的一致性。然而,誤差累積與語義漂移往往導(dǎo)致長視頻出現(xiàn)畫面退化與邏輯崩壞 —— 這已成為衡量世界模型能力的關(guān)鍵瓶頸。

圍繞這一挑戰(zhàn),上海人工智能實驗室聯(lián)合復(fù)旦大學(xué)、南京大學(xué)、南洋理工大學(xué) S-Lab 等單位提出了LongVie 2—— 一個能夠生成長達(dá)5 分鐘高保真、可控視頻的世界模型框架



LongVie 2 可自回歸生成 3-5 分鐘的超長可控視頻

  • 論文:https://arxiv.org/pdf/2512.13604
  • 項目主頁:https://vchitect.github.io/LongVie2-project/
  • GitHub:https://github.com/Vchitect/LongVie
  • 視頻演示:https://www.youtube.com/watch?v=ln1kMNYj50Y


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

什么是理想的視頻世界模型?

一個理想的視頻世界模型,不應(yīng)只是「生成得更久」,而應(yīng)同時具備以下三項核心能力:

  • 全面可控性(Comprehensive Controllability):能夠在長時間生成過程中穩(wěn)定響應(yīng)多種控制信號,保持場景結(jié)構(gòu)與運動意圖不漂移;
  • 長期視覺保真(Long-term Fidelity):隨著時間推進(jìn),畫面質(zhì)量不發(fā)生明顯退化,不出現(xiàn)紋理崩塌或細(xì)節(jié)丟失;
  • 長程上下文一致性(Long-context Consistency):跨片段、跨時間保持語義、身份與物理規(guī)律的一致,避免「換世界式」斷裂。

現(xiàn)有世界模型的瓶頸在哪里?

本文系統(tǒng)調(diào)研了當(dāng)前主流的視頻世界模型,發(fā)現(xiàn)一個共同問題:隨著生成時長的增加,模型的可控性、視覺保真度與時間一致性會同步下降。



現(xiàn)有模型在長時間生成時的退化問題

LongVie 2:三階段遞進(jìn)式訓(xùn)練

為系統(tǒng)性解決上述挑戰(zhàn),LongVie 2 設(shè)計了一套逐層遞進(jìn)的三階段訓(xùn)練策略,從控制、穩(wěn)定性到時間一致性層層強(qiáng)化:



LongVie 2 三階段訓(xùn)練流程

階段一:Dense & Sparse 多模態(tài)控制

通過引入稠密信號(如深度圖)與稀疏信號(如關(guān)鍵點軌跡),為模型提供穩(wěn)定且可解釋的世界約束。這使生成過程不再完全依賴隱式記憶,從源頭提升長程可控性。

階段二:退化感知訓(xùn)練(Degradation-aware Training)

長視頻生成中,質(zhì)量衰減幾乎不可避免。LongVie 2 的核心創(chuàng)新在于:在訓(xùn)練階段主動「制造困難」——



退化感知訓(xùn)練示意圖

  • 利用 VAE 的多次 encode-decode 模擬重建誤差;
  • 通過 加噪 + Diffusion 去噪 構(gòu)造退化圖像。

以此作為訓(xùn)練信號,使模型學(xué)會在不完美輸入下保持穩(wěn)定生成,顯著增強(qiáng)長期視覺保真度。

階段三:歷史上下文建模

在生成過程中顯式引入歷史片段信息,并通過針對性 loss 約束相鄰片段的銜接,使跨片段過渡更加自然順暢,有效緩解長視頻中的語義斷裂與邏輯跳變問題。



三階段訓(xùn)練效果對比

一圖看懂 LongVie 2 框架

通過多模態(tài)控制、退化感知訓(xùn)練與歷史上下文建模的協(xié)同設(shè)計,LongVie 2 將長視頻生成從「片段拼接」提升為持續(xù)演化的世界建模過程:



LongVie 2 整體框架

從左至右,LongVie 2 首先將跨片段的稠密(深度)與稀疏(關(guān)鍵點)控制視頻做全局歸一化,并為所有片段采用統(tǒng)一的噪聲初始化。隨后在每一片段生成時,將全局歸一化后的控制信號、上一片段的末幀與文本提示送入模型,逐步生成完整的長視頻。

LongVie 2 能力展示

該研究將LongVie 2與 Go-With-The-Flow 和 Diffusion As Shader 進(jìn)行了對比。結(jié)果顯示,LongVie 2 在可控性方面表現(xiàn)顯著優(yōu)于現(xiàn)有方法:



與現(xiàn)有方法的可控性對比


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

消融實驗也充分驗證了三階段訓(xùn)練的有效性:



消融實驗結(jié)果

LongVGenBench

首個可控超長視頻評測基準(zhǔn)

當(dāng)前缺乏面向可控長視頻生成的標(biāo)準(zhǔn)化評測。為此,本文提出LongVGenBench—— 首個專為超長視頻生成設(shè)計的基準(zhǔn)數(shù)據(jù)集,包含100 個時長超過 1 分鐘的高分辨率視頻,覆蓋真實世界與合成環(huán)境的多樣場景,旨在推動該方向的系統(tǒng)研究與公平評測。

定量評估與用戶主觀測評結(jié)果顯示,LongVie 2 在多項指標(biāo)上達(dá)到SOTA 水平,并獲得最高用戶偏好度:





定量評測結(jié)果與用戶研究

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美軍陣亡士兵遺體繼續(xù)在中東被發(fā)現(xiàn)

美軍陣亡士兵遺體繼續(xù)在中東被發(fā)現(xiàn)

碳基生物關(guān)懷組織
2026-03-03 23:37:09
OpenClaw養(yǎng)蝦很火,但我勸普通人先別折騰

OpenClaw養(yǎng)蝦很火,但我勸普通人先別折騰

董指導(dǎo)聊科技
2026-03-07 19:48:43
我苦苦尋覓卻不知你在哪里

我苦苦尋覓卻不知你在哪里

疾跑的小蝸牛
2026-03-07 22:35:58
內(nèi)蒙古一200斤男子欠5000萬不還,被債主裝進(jìn)鐵籠沉入80米水庫,誰料,2年后才被撈出...

內(nèi)蒙古一200斤男子欠5000萬不還,被債主裝進(jìn)鐵籠沉入80米水庫,誰料,2年后才被撈出...

品讀時刻
2026-02-11 17:18:30
地主家也沒有余糧!皇馬財報:現(xiàn)金流僅剩340萬歐,負(fù)債17.8億歐

地主家也沒有余糧!皇馬財報:現(xiàn)金流僅剩340萬歐,負(fù)債17.8億歐

夏侯看英超
2026-03-08 01:07:17
CBA技巧賽預(yù)賽:衛(wèi)冕冠軍徐杰墊底出局 李悅州領(lǐng)銜4人進(jìn)決賽

CBA技巧賽預(yù)賽:衛(wèi)冕冠軍徐杰墊底出局 李悅州領(lǐng)銜4人進(jìn)決賽

醉臥浮生
2026-03-07 21:54:40
威脅中國網(wǎng)民,以色列太把自己當(dāng)回事兒了

威脅中國網(wǎng)民,以色列太把自己當(dāng)回事兒了

俠客棧
2026-03-05 14:56:27
性感女星抱怨床上生活不順利!丈夫總想和她早上開嗨

性感女星抱怨床上生活不順利!丈夫總想和她早上開嗨

鄉(xiāng)野小珥
2026-03-05 20:48:59
香港知名男星發(fā)福嚴(yán)重、肥到無頸,因稱贊周慧敏,被罵到離港發(fā)展

香港知名男星發(fā)福嚴(yán)重、肥到無頸,因稱贊周慧敏,被罵到離港發(fā)展

地理三體說
2026-03-02 23:25:42
時長超三小時的6部神作,每一部都是電影界的里程碑

時長超三小時的6部神作,每一部都是電影界的里程碑

小微看電影
2026-02-26 14:50:03
2人死亡!系母子!潮州公布古巷鎮(zhèn)“8·4”坍塌事故調(diào)查報告!

2人死亡!系母子!潮州公布古巷鎮(zhèn)“8·4”坍塌事故調(diào)查報告!

ilove汕頭
2026-03-06 15:21:31
20 歲女子與 40 歲釣魚男多次開房,兩人卻辯稱:只是師徒關(guān)系

20 歲女子與 40 歲釣魚男多次開房,兩人卻辯稱:只是師徒關(guān)系

沒有偏旁的常慶
2026-01-05 06:15:03
3月1日新規(guī):廣州外賣騎手,電動車限速15公里,沒掛這個牌要罰款

3月1日新規(guī):廣州外賣騎手,電動車限速15公里,沒掛這個牌要罰款

電動車的那些事兒
2026-03-07 15:17:07
30多歲大叔揭示撩撥年輕姑娘的秘密,網(wǎng)友驚呼:真是老狐貍!

30多歲大叔揭示撩撥年輕姑娘的秘密,網(wǎng)友驚呼:真是老狐貍!

特約前排觀眾
2026-02-18 00:15:03
世界上最燒錢的十項運動,沒錢你真玩不起!

世界上最燒錢的十項運動,沒錢你真玩不起!

馬拉松跑步健身
2026-02-28 11:37:18
被全網(wǎng)催開門的河南水煎包店老板準(zhǔn)備明天營業(yè),正在打掃衛(wèi)生、備餐:煎包還是1元2個,胡辣湯3元1碗

被全網(wǎng)催開門的河南水煎包店老板準(zhǔn)備明天營業(yè),正在打掃衛(wèi)生、備餐:煎包還是1元2個,胡辣湯3元1碗

大象新聞
2026-03-07 14:47:24
何超蓮?fù)话l(fā)住院照,眼神無奈,抱怨過程痛苦

何超蓮?fù)话l(fā)住院照,眼神無奈,抱怨過程痛苦

一窺究竟
2026-03-07 22:37:30
湖人大勝!東契奇44+9+5,最后2秒,老詹起身走入球員通道

湖人大勝!東契奇44+9+5,最后2秒,老詹起身走入球員通道

擔(dān)酒
2026-03-07 13:58:32
美軍前高官發(fā)出警告:以色列可不是中美俄,打急眼了它真敢丟核彈

美軍前高官發(fā)出警告:以色列可不是中美俄,打急眼了它真敢丟核彈

徐徐道史
2026-03-08 02:19:39
李開復(fù)談OpenClaw:“一人公司”的初步演示

李開復(fù)談OpenClaw:“一人公司”的初步演示

金融界
2026-03-07 07:53:05
2026-03-08 05:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12431文章數(shù) 142578關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

選舉24小時內(nèi)舉行 伊朗今天或選出最高領(lǐng)袖

頭條要聞

選舉24小時內(nèi)舉行 伊朗今天或選出最高領(lǐng)袖

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

汪小菲曝親媽猛料,張?zhí)m公開財產(chǎn)分配

財經(jīng)要聞

針對"不敢休、不讓休"怪圈 國家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

教育
親子
家居
旅游
公開課

教育要聞

全國政協(xié)委員劉國梁建議通過體育鍛煉加強(qiáng)挫折教育

親子要聞

長輩勸你生娃的重要性尤其是女性!網(wǎng)友:年輕不懂,老了一定懂

家居要聞

暖棕撞色 輕法奶油風(fēng)

旅游要聞

不用去荷蘭!金華這處郁金香花海,美到窒息

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版