国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

TPAMI | 視頻生成能成為世界模型嗎?三個(gè)被長(zhǎng)期忽視的評(píng)測(cè)門檻

0
分享至

當(dāng)Veo、Sora、Luma、Kling(可靈)、Genie 3等模型不斷刷新大眾對(duì)視頻生成的認(rèn)知時(shí),一個(gè)更根本的問(wèn)題開始浮現(xiàn):視頻生成模型,正在被當(dāng)作“世界模型”來(lái)使用了嗎?

無(wú)論是自動(dòng)駕駛仿真、具身智能、影視制作,還是交互式內(nèi)容生成,越來(lái)越多應(yīng)用正在默認(rèn)一個(gè)前提 --- 模型生成的視頻,不應(yīng)只是“看起來(lái)合理”,而是“可以當(dāng)作一個(gè)世界的演化”,而這也對(duì)視頻生成模型提出了遠(yuǎn)高于“畫面好不好看”的要求。



論文題目: VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models 論文鏈接: https://ieeexplore.ieee.org/document/11250949 代碼鏈接: https://github.com/Vchitect/VBench 項(xiàng)目主頁(yè): https://vchitect.github.io/VBench-project/
一、從“拍一段視頻”,到“建模一個(gè)世界”

早期的視頻生成,關(guān)注點(diǎn)很簡(jiǎn)單: 畫面清不清晰?動(dòng)作順不順?美不美?但當(dāng)視頻生成被推向更復(fù)雜的任務(wù),這些標(biāo)準(zhǔn)開始顯得不夠用。一個(gè)世界模型級(jí)別的視頻生成系統(tǒng),至少要回答三件事:

  • 它能否從一個(gè)給定的世界狀態(tài)繼續(xù)生成?

  • 它能否在更長(zhǎng)時(shí)間尺度上保持一致的世界規(guī)律?

  • 它在真實(shí)世界語(yǔ)境下,是否值得被信任?

換句話說(shuō):世界模型不只要會(huì)“生成”,還要 接得住、撐得久、靠得住。而這三點(diǎn),恰恰是長(zhǎng)期以來(lái)視頻生成評(píng)測(cè)中被系統(tǒng)性忽略的部分。也正因此,VBench++ 的目標(biāo)并不只是“跑分”或者“排名”,而是提供一套可解釋、可復(fù)現(xiàn)、可診斷,并且能夠覆蓋 T2V / I2V / 長(zhǎng)視頻 / 可信性的系統(tǒng)性評(píng)測(cè)體系。

二、被忽視的第一道門檻:I2V,不只是“另一個(gè)任務(wù)”

在真實(shí)應(yīng)用中,視頻生成很少是“憑空開始”的。更多時(shí)候,模型面對(duì)的是: 一張已有的圖像、一個(gè)當(dāng)前世界狀態(tài)、一個(gè)已經(jīng)存在的場(chǎng)景。這正是 Image-to-Video(I2V) 的重要性:不是生成,而是“續(xù)寫世界”。

然而,過(guò)去很長(zhǎng)一段時(shí)間里,I2V 往往只是 T2V 的“附屬測(cè)試”:

  • 不同模型被強(qiáng)行拉到同一分辨率

  • 不同寬高比被粗暴統(tǒng)一

  • 輸入圖像質(zhì)量本身成為隱性瓶頸

結(jié)果是:評(píng)測(cè)結(jié)果往往混合了模型能力、設(shè)置偏置和輸入退化。

如果說(shuō) T2V 測(cè)的是視頻生成模型“想象力”,那 I2V 測(cè)的,其實(shí)是世界模型中更關(guān)鍵的一點(diǎn) --- 狀態(tài)是否能被正確繼承與演化。

三、讓 I2V 更公平:Image Suite + 自適應(yīng)寬高比:

I2V 的評(píng)測(cè)難點(diǎn)之一是“設(shè)置不統(tǒng)一”: 有的模型默認(rèn) 1024×576,有的模型默認(rèn) 256×256;有的偏 16:9,有的偏 1:1。把所有模型強(qiáng)行拉到同一分辨率,可能會(huì)引入額外的退化,導(dǎo)致評(píng)測(cè)不公。

為此,VBench++ 引入了面向 I2V 的 Image Suite。它不是隨機(jī)抓的一堆圖片,而是一個(gè)專門為 I2V 公平評(píng)測(cè)設(shè)計(jì)的圖像測(cè)試集基準(zhǔn):

  • (1) 高分辨率:以 4K+ 圖片為主,減少輸入瓶頸對(duì)生成質(zhì)量的限制



  • (2)自適應(yīng)寬高比:通過(guò)pipeline適配/覆蓋一系列寬高比,盡量讓模型在各自的“最優(yōu)默認(rèn)設(shè)置”下被評(píng)測(cè)




  • (3) 內(nèi)容多樣且均衡:覆蓋前景 / 背景多類內(nèi)容,強(qiáng)調(diào)類別內(nèi)多樣性


  • (4) 圖文成對(duì):每張圖片配套精修文本提示,支撐 I2V 條件一致性評(píng)估,I2V 不再是“順帶測(cè)一下”,而是被當(dāng)作世界模型能力的關(guān)鍵一環(huán)來(lái)認(rèn)真對(duì)待。

第二道門檻:長(zhǎng)時(shí)間一致性,才是真正的“世界”

很多視頻生成模型,在前幾秒表現(xiàn)得相當(dāng)驚艷。但只要拉長(zhǎng)時(shí)間尺度,問(wèn)題就會(huì)逐漸顯現(xiàn):人物身份緩慢漂移,物體屬性悄然改變,場(chǎng)景結(jié)構(gòu)在不知不覺(jué)中崩塌。這些問(wèn)題,在短視頻里不一定明顯,但在長(zhǎng)序列中會(huì)被無(wú)限放大。

世界模型的難點(diǎn),從來(lái)不在“第一幀”,而在“第 N 幀”。如果模型無(wú)法在更長(zhǎng)時(shí)間跨度內(nèi)維持一致的世界狀態(tài),那么它更像是在“不斷重畫”,而不是在“模擬世界”。

第三道門檻:當(dāng)視頻生成進(jìn)入現(xiàn)實(shí)應(yīng)用,評(píng)測(cè)也必須更謹(jǐn)慎地考慮“可信性”

還有一個(gè)問(wèn)題,過(guò)去很少被當(dāng)作視頻生成評(píng)測(cè)的核心維度:這個(gè)模型,是否值得被信任?當(dāng)生成視頻開始進(jìn)入真實(shí)生產(chǎn)鏈路,以下問(wèn)題無(wú)法回避:

  • 不同文化語(yǔ)境下,模型是否存在系統(tǒng)性偏差?

  • 人物生成中是否隱含性別或膚色偏置?

  • 是否會(huì)在看似普通的提示下生成不安全(色情暴力等)內(nèi)容?

這些問(wèn)題,并不會(huì)體現(xiàn)在“畫面質(zhì)量”或“語(yǔ)義貼合度”里,卻直接決定模型能否被安全部署。世界模型不僅要“像”,還要“穩(wěn)”和“負(fù)責(zé)任”。

VBench++ 將 Trustworthiness(可信性) 正式納入評(píng)測(cè)框架,系統(tǒng)性地覆蓋:

  • 跨文化一致性(Culture Fairness)

  • 性別與膚色偏差(Gender / Skin Tone Bias)

  • 安全性與風(fēng)險(xiǎn)內(nèi)容(Safety)

這些維度同樣配套了自動(dòng)化評(píng)測(cè)方法,并通過(guò)大規(guī)模人類偏好標(biāo)注進(jìn)行對(duì)齊驗(yàn)證,讓“可信性”評(píng)估不止停留在定性討論。

評(píng)測(cè)的角色,正在發(fā)生變化

正是在這樣的背景下,VBench++讓視頻生成評(píng)測(cè)開始從“跑分工具”轉(zhuǎn)向“能力診斷”。它的目標(biāo)并不只是“給模型排名”,而是提供一套 可解釋、可復(fù)現(xiàn)、可診斷,并且能夠覆蓋 T2V / I2V / 長(zhǎng)時(shí)一致性 / 可信性 的評(píng)測(cè)體系。

VBench++的核心思想并不復(fù)雜:

不要試圖用一個(gè)分?jǐn)?shù)概括一切,而是把“視頻生成能力”拆解成可診斷的維度。

四、附錄:VBench 系列榜單怎么用?

如果你想快速對(duì)比不同視頻生成模型的能力,VBench 系列目前提供了多個(gè)互補(bǔ)的榜單入口。它們的區(qū)別不在于“誰(shuí)更權(quán)威”,而在于你關(guān)注的任務(wù)形態(tài)與能力維度不同。

總榜入口(Leaderboard): https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

下面是三個(gè)最常用的榜單:

(1) VBench-T2V 榜單:Text-to-Video 的“基礎(chǔ)體檢”

如果你評(píng)測(cè)的是文生視頻(T2V),想知道模型在“生成質(zhì)量 + 條件一致性”上的綜合表現(xiàn),從這里開始最合適。

  • 覆蓋 16 個(gè)核心能力維度(更像一份結(jié)構(gòu)化體檢報(bào)告,而不是單一總分)

  • 收錄 100+ 個(gè) Text-to-Video 模型,更新頻率高、對(duì)比范圍廣

  • 適合:做模型選型、快速定位“強(qiáng)項(xiàng)/短板”、寫實(shí)驗(yàn)對(duì)比表格

(2) VBench-I2V 榜單:Image-to-Video 的“狀態(tài)承接能力”對(duì)比

如果你關(guān)心的是 圖生視頻(I2V)—— 即“從給定世界狀態(tài)繼續(xù)生成”,那這個(gè)榜單更對(duì)口。重點(diǎn)評(píng)估:

  • 在給定輸入圖像條件下,模型能否穩(wěn)定繼承主體身份、場(chǎng)景信息

  • 當(dāng)前覆蓋約 30 個(gè) I2V 模型(更聚焦、也更貼近應(yīng)用落地場(chǎng)景)

  • 適合:I2V 模型選型、產(chǎn)品落地前的穩(wěn)定性與一致性排查

(3) VBench-2.0 榜單:評(píng)“內(nèi)在真實(shí)性”的更高階考題

如果你更關(guān)注“世界模型味兒”——模型是否真的具備更強(qiáng)的物理規(guī)律、常識(shí)推理與結(jié)構(gòu)化理解,那 VBench-2.0 是更合適的入口。 它評(píng)測(cè)的是模型的內(nèi)在真實(shí)性(Intrinsic Faithfulness),包括但不限于:

  • 物理規(guī)律(Physics Plausibility)

  • 常識(shí)與因果一致性(Common Sense / Causality)

  • 人體解剖合理性(Human Anatomy)

  • 場(chǎng)景組合與結(jié)構(gòu)約束(Composition / Structural Consistency)

這類能力往往不會(huì)在“短視頻驚艷感”里直接體現(xiàn),卻會(huì)在更復(fù)雜、更長(zhǎng)時(shí)程、更真實(shí)的任務(wù)里決定模型是否可靠。


五、寫在最后

當(dāng)視頻生成逐漸被視為世界模型的一種實(shí)現(xiàn)形式,評(píng)測(cè)本身,也需要隨之升級(jí)。I2V、長(zhǎng)時(shí)一致性、可信性,并不是附加條件,而是世界模型無(wú)法繞開的基本門檻。VBench++ 希望為這個(gè)領(lǐng)域提供一把更鋒利、也更負(fù)責(zé)任的尺子:不只告訴你“強(qiáng)不強(qiáng)”,更告訴你“強(qiáng)在哪里、差在哪里”。

合理的評(píng)測(cè)目標(biāo),本身就是指引下一階段研究與應(yīng)用的重要指南針。 視頻生成的發(fā)展日新月異:從最初只能生成 1–2 秒的“一眼 AI 視頻”,到如今在短視頻場(chǎng)景中已足以以假亂真;從展示模型能力,到逐步走入真實(shí)生產(chǎn)與交互系統(tǒng)。當(dāng)世界模型開始進(jìn)入下游應(yīng)用,整個(gè)領(lǐng)域都需要認(rèn)真思考:下一步真正值得突破的瓶頸是什么?哪些能力必須被優(yōu)先檢驗(yàn)?又有哪些風(fēng)險(xiǎn)不能被忽視?

評(píng)測(cè)不應(yīng)只是跟隨模型進(jìn)步的“事后記錄”,而應(yīng)成為定義問(wèn)題、約束方向、引導(dǎo)研究的重要工具。

相關(guān)資料: 從視頻生成到世界模型的路線圖: https://world-model-roadmap.github.ioVBench 系列評(píng)測(cè)體系: https://github.com/Vchitect/VBench 視覺(jué)生成評(píng)測(cè)的論文資料庫(kù): https://github.com/ziqihuangg/Awesome-Evaluation-of-Visual-Generation 世界模型論文資料庫(kù): https://github.com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model

VBench++ 并不試圖給出終極答案,但希望至少讓我們?cè)谧穯?wèn)一個(gè)更重要的問(wèn)題時(shí),有一把更清晰的尺子:

這個(gè)模型,真的在“理解并演化一個(gè)世界”嗎?

歡迎使用、也歡迎來(lái)“挑戰(zhàn)”這個(gè) benchmark!更歡迎社區(qū)提出寶貴建議,與我們一起不斷打磨評(píng)測(cè)目標(biāo)、完善問(wèn)題定義,為視頻生成與世界模型的評(píng)測(cè)持續(xù)添磚加瓦。

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃


TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。


投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4-2輕取石洵瑤!17歲張本美和零消耗晉級(jí) 四強(qiáng)出爐中日各兩席

4-2輕取石洵瑤!17歲張本美和零消耗晉級(jí) 四強(qiáng)出爐中日各兩席

顏小白的籃球夢(mèng)
2026-03-14 21:48:24
中國(guó)女籃10分險(xiǎn)勝!產(chǎn)生2個(gè)意想不到,最新形勢(shì):基本晉級(jí)世界杯

中國(guó)女籃10分險(xiǎn)勝!產(chǎn)生2個(gè)意想不到,最新形勢(shì):基本晉級(jí)世界杯

侃球熊弟
2026-03-14 20:18:44
山東泰山2:1力克北京國(guó)安,徐亮賽后點(diǎn)評(píng),句句在理,客觀中肯!

山東泰山2:1力克北京國(guó)安,徐亮賽后點(diǎn)評(píng),句句在理,客觀中肯!

田先生籃球
2026-03-14 22:02:01
中國(guó)女足主帥米利西奇:半決賽王霜缺席是損失,全隊(duì)要一起向前看

中國(guó)女足主帥米利西奇:半決賽王霜缺席是損失,全隊(duì)要一起向前看

極目新聞
2026-03-14 21:07:31
深圳寶馬4S店“銷冠店”停擺,店內(nèi)財(cái)產(chǎn)已被法院查封

深圳寶馬4S店“銷冠店”停擺,店內(nèi)財(cái)產(chǎn)已被法院查封

南方都市報(bào)
2026-03-14 16:52:20
中建五局掀桌子,一口氣舉報(bào)了14家央企!

中建五局掀桌子,一口氣舉報(bào)了14家央企!

巢客HOME
2026-03-13 17:51:43
真正的“逆齡運(yùn)動(dòng)”,堅(jiān)持一年大腦年輕2.3歲!不是跑步、走路……

真正的“逆齡運(yùn)動(dòng)”,堅(jiān)持一年大腦年輕2.3歲!不是跑步、走路……

人民日?qǐng)?bào)健康客戶端
2026-02-25 07:34:27
丟人丟到國(guó)外!中國(guó)男子在肯尼亞機(jī)場(chǎng)被攔,行李中發(fā)現(xiàn)2238只蟻后

丟人丟到國(guó)外!中國(guó)男子在肯尼亞機(jī)場(chǎng)被攔,行李中發(fā)現(xiàn)2238只蟻后

萬(wàn)象硬核本尊
2026-03-14 20:02:47
低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

低頭了!古巴扛不住重壓與美談判,革命風(fēng)骨終究敗給生存

老馬拉車莫少裝
2026-03-13 23:56:24
TVB前女星退圈29年罕現(xiàn)身,古天樂(lè)請(qǐng)客掀回憶殺,自曝曾兩度流產(chǎn)

TVB前女星退圈29年罕現(xiàn)身,古天樂(lè)請(qǐng)客掀回憶殺,自曝曾兩度流產(chǎn)

蒂蒂茱家
2026-03-14 18:45:28
廣東省高齡津貼新標(biāo)準(zhǔn),3月1日起執(zhí)行!標(biāo)準(zhǔn)是多少,如何申領(lǐng)?

廣東省高齡津貼新標(biāo)準(zhǔn),3月1日起執(zhí)行!標(biāo)準(zhǔn)是多少,如何申領(lǐng)?

云鵬敘事
2026-03-14 16:48:43
巴黎現(xiàn)場(chǎng)太真實(shí)!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

巴黎現(xiàn)場(chǎng)太真實(shí)!Lisa三角區(qū)尷尬,全智賢狀態(tài)差,劉亦菲也翻車了

一娛三分地
2026-03-12 19:11:45
股民要坐穩(wěn)扶好了,下周周一周二兩天,或?qū)⒅匮?8年歷史行情!

股民要坐穩(wěn)扶好了,下周周一周二兩天,或?qū)⒅匮?8年歷史行情!

風(fēng)風(fēng)順
2026-03-15 01:00:08
砍27分+7記三分!國(guó)手后衛(wèi)打法堪比CBA小外援,率隊(duì)掀翻衛(wèi)冕冠軍

砍27分+7記三分!國(guó)手后衛(wèi)打法堪比CBA小外援,率隊(duì)掀翻衛(wèi)冕冠軍

老葉評(píng)球
2026-03-14 23:08:04
空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

空箱裝船離開巴爾博亞港,法院判了合同作廢,中資不聲不響全撤了

生活新鮮市
2026-03-14 17:15:43
評(píng)論 | 誰(shuí)是南亞軍購(gòu)?fù)酰孔钚挛淦髻Q(mào)易數(shù)據(jù)全解讀

評(píng)論 | 誰(shuí)是南亞軍購(gòu)?fù)酰孔钚挛淦髻Q(mào)易數(shù)據(jù)全解讀

南亞研究通訊
2026-03-13 23:06:50
女孩一邊照顧患癌母親一邊考研,二戰(zhàn)上岸卻確診癌癥晚期,當(dāng)事人發(fā)聲

女孩一邊照顧患癌母親一邊考研,二戰(zhàn)上岸卻確診癌癥晚期,當(dāng)事人發(fā)聲

環(huán)球網(wǎng)資訊
2026-03-14 18:28:08
Meta大裁員:1.58萬(wàn)人面臨失業(yè)!

Meta大裁員:1.58萬(wàn)人面臨失業(yè)!

芯智訊
2026-03-14 23:17:42
張柏芝戴大金鏈子火了!西裝配粗金鏈,又酷又美反差直接拉滿

張柏芝戴大金鏈子火了!西裝配粗金鏈,又酷又美反差直接拉滿

觀魚聽雨
2026-03-12 22:44:11
你知道古人如何養(yǎng)“死士”的?看完讓人頭皮發(fā)麻

你知道古人如何養(yǎng)“死士”的?看完讓人頭皮發(fā)麻

史政先鋒
2026-03-13 17:17:54
2026-03-15 02:11:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗船只迫近林肯號(hào)航母 美軍連開數(shù)炮全打空

頭條要聞

伊朗船只迫近林肯號(hào)航母 美軍連開數(shù)炮全打空

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂(lè)要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

健康
時(shí)尚
親子
藝術(shù)
公開課

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

伊姐周六熱推:電視劇《逐玉》;電視劇《江湖夜雨十年燈》......

親子要聞

從"疲憊帶娃"到"從容陪娃":每位家長(zhǎng)都能掌握的魔法轉(zhuǎn)變

藝術(shù)要聞

迪拜的房地產(chǎn)市場(chǎng)面臨嚴(yán)峻考驗(yàn)

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版