国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別被「更像真的視頻」騙了,AI視頻生成,還遠(yuǎn)未真正學(xué)會物理世界

0
分享至



這兩年,視頻生成模型進(jìn)步很快。清晰度更高了,鏡頭更穩(wěn)了,人物和場景看上去也越來越自然。很多時候,我們判斷一個模型強(qiáng)不強(qiáng),看的就是它 “像不像真的”。但這其實(shí)只回答了一半的問題:它看起來像真的,不代表它真的符合現(xiàn)實(shí)世界的物理規(guī)律。這件事放在短視頻生成里,也許只是 “偶爾有點(diǎn)怪”;但如果視頻模型真的要往 world model、仿真系統(tǒng)、具身智能這些方向走,問題就不一樣了。一個模型如果連物體怎么接觸、狀態(tài)怎么變化、事件怎么按因果順序發(fā)生都搞不清楚,那它再像,也只是像。



現(xiàn)在的視頻評測,更像是在比 “好不好看”

目前,視頻生成領(lǐng)域常見的評測方式,要么看自動指標(biāo),要么讓人直接選 “哪個視頻更好”。這種方式當(dāng)然有意義,它能比較清晰度、流暢度、觀感這些東西,但它很難告訴你:視頻里到底有沒有違反基本物理常識

比如,一個物體是不是無緣無故消失了;兩個東西是不是明明沒接觸卻發(fā)生了交互;一個動作的結(jié)果是不是和前面的過程根本對不上。這些問題,才真正關(guān)系到模型是在 “生成一個像真的畫面”,還是在 “模擬一個可信的世界”。

Physion-Eval:從 “視覺真實(shí)” 走向 “物理真實(shí)” 的新 benchmark

這篇工作提出了Physion-Eval。它不是再做一個 “誰的視頻更好看” 的排行榜,而是想認(rèn)真回答一個更關(guān)鍵的問題:AI 生成的視頻,在物理層面到底有多真實(shí)



  • 論文標(biāo)題: Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning
  • 作者: Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, and Bing Shuai
  • 作者單位:Physion Labs,斯坦福大學(xué),MIT,哈佛大學(xué),Character AI
  • 論文鏈接: https://arxiv.org/abs/2603.19607
  • 數(shù)據(jù)集鏈接: https://huggingface.co/datasets/PhysionLabs/Physion-Eval
  • 視頻鏈接:https://www.youtube.com/watch?v=Vbn_W3WNUHw

這個 benchmark 同時覆蓋第一人稱和第三人稱場景,包含10,990 條專家推理軌跡,覆蓋22 類細(xì)粒度物理現(xiàn)象。和常見評測不太一樣的地方在于,這里的每條樣本不只是簡單打個分,而是會標(biāo)出錯誤發(fā)生在什么時候、屬于哪一類問題,以及為什么不對

數(shù)據(jù)上,第三人稱部分來自WISA-80K,第一人稱部分基于EPIC-KITCHENS構(gòu)建。為了保證標(biāo)注質(zhì)量,論文組織了90 位具有 STEM 背景并接受過本科物理訓(xùn)練的專家標(biāo)注者,采用雙人標(biāo)注和資深專家裁決的流程,最后得到的是帶時間戳、錯誤類別和文字解釋的高質(zhì)量標(biāo)注。

在這一過程中,人類智能所展現(xiàn)出的優(yōu)勢尤為明顯:人類不僅能夠識別視覺上的異常,更能夠基于物理直覺與因果理解,對復(fù)雜的動態(tài)過程進(jìn)行推理和解釋。相比之下,即使是當(dāng)前最先進(jìn)的多模態(tài)模型,在時序一致性、交互合理性以及隱含物理規(guī)律的判斷上,仍存在明顯不足。





最直接的結(jié)論:現(xiàn)在的模型,還遠(yuǎn)談不上 “物理一致”

這篇工作的主結(jié)論其實(shí)很簡單,也很扎眼:在物理過程敏感的場景里,83.3% 的第三人稱生成視頻和 93.5% 的第一人稱生成視頻,都至少包含一個人類可以明確識別的物理錯誤。這說明什么?說明今天的視頻模型確實(shí)越來越會制造 “真實(shí)感” 了,但離 “真正符合物理規(guī)律” 還有很遠(yuǎn)。



而且這些錯誤不是零零散散的小毛病,而是系統(tǒng)性的。論文里總結(jié)的典型問題包括:接觸或交互失敗、對象突然出現(xiàn)或消失、時間連貫性崩塌、因果順序錯亂、材料或狀態(tài)變化異常、幾何碰撞不合理等等。換句話說,問題不只是 “畫面有點(diǎn)假”,而是模型對物體、接觸、運(yùn)動和結(jié)果之間最基本的關(guān)系,還經(jīng)常搞錯。



很多錯誤不是粗糙,而是 “看著像,但其實(shí)完全不對”

Physion-Eval 里最有意思的地方,其實(shí)是那些具體例子。它們不是那種一眼就看出來的低級 bug,而是第一眼好像還行,仔細(xì)一想?yún)s明顯不符合常識。

比如,桌面上突然多出一把本來不存在的刀;瓶口朝下,液體卻不往下流;水直接穿過鍋底;又或者一個鍋被兩根手指以幾乎不可能的方式拎起來。它們的問題不在于 “渲染不精細(xì)”,而在于直接違背了物體守恒、重力、不可穿透性和穩(wěn)定接觸這些最基本的物理規(guī)律。

這也是為什么我們覺得,這項工作不只是 “又多了一個 benchmark”。它更像是在提醒大家:今天很多模型也許已經(jīng)很會生成 “像真的視頻”,但還遠(yuǎn)沒有學(xué)會 “世界為什么會這樣動”。





更麻煩的是,連最強(qiáng)的多模態(tài)模型也不太會看這些錯誤

論文還問了另一個很現(xiàn)實(shí)的問題:那能不能讓現(xiàn)在的大模型來當(dāng) “自動評委”,替人判斷一個視頻有沒有物理問題?

答案是,暫時還不行。

文章評估了10 個開源和閉源的 MLLM critic,結(jié)果顯示,它們和人類判斷之間還有明顯差距。以Gemini 3.0 Pro為例,它會漏掉超過74.4% 的第三人稱錯誤視頻和 90.1% 的第一人稱錯誤視頻。而且它們不只是漏檢,還會把錯誤發(fā)生的時間說錯,甚至編出根本不存在的原因。

這點(diǎn)其實(shí)很關(guān)鍵。因?yàn)槿绻院蟠蠹艺嫦肟孔詣?critic 去評估 world model 或視頻生成系統(tǒng),那 critic 本身至少得先真的看懂視頻里的物理過程。就目前來看,人類判斷依然是最可靠的標(biāo)準(zhǔn)。









越是高動態(tài)的物理過程,越容易暴露當(dāng)前模型的短板

論文進(jìn)一步從physical intensitydynamics兩個維度分析了生成模型與市面上已有的 MLLM critic 的表現(xiàn)。結(jié)果表明,相比強(qiáng)度大小,過程本身的動態(tài)性和復(fù)雜性更容易暴露視頻生成模型的物理建模缺陷。對 MLLM critic 來說也是如此:只有當(dāng)錯誤足夠明顯時,它們才會表現(xiàn)出有限的判斷能力,但整體仍明顯落后于人類。







總結(jié)

Physion-Eval 想指出的,不只是 “現(xiàn)在的視頻生成模型還不夠強(qiáng)”,而是一個更根本的問題:當(dāng)行業(yè)越來越關(guān)注視頻 “看起來有多真” 的時候,我們可能忽略了它 “實(shí)際上對不對”

對于真正想做 world model、機(jī)器人、具身智能和仿真的人來說,這個問題繞不過去。畫面更清晰、動作更順滑,當(dāng)然重要;但如果物體會無故出現(xiàn),液體不會往下流,動作結(jié)果和前因?qū)Σ簧?,那模型就還沒有真正學(xué)會世界的運(yùn)行方式。

視頻生成下一階段,也許不該只繼續(xù)卷觀感,而應(yīng)該更認(rèn)真地去解決物體持續(xù)性、接觸關(guān)系、狀態(tài)變化、時序一致性和因果結(jié)構(gòu)這些更本質(zhì)的問題。“看起來對”,從來不等于 “實(shí)際上對”

作者介紹

本文由來自美國頂級科技公司與世界一流高校的豪華作者陣容共同完成,集結(jié) Physion Labs、斯坦福大學(xué)、MIT、哈佛大學(xué)及 Character AI 的核心研究者。其中,Physion Labs 團(tuán)隊(Qin Zhang、Peiyu Jing、Bing Shuai)長期專注于生成式視頻與世界模型中的物理一致性問題,構(gòu)建了面向行業(yè)的評估基礎(chǔ)設(shè)施與數(shù)據(jù)閉環(huán),致力于成為下一代生成模型的 “物理可信層”。其余作者包括斯坦福大學(xué)的 Hong-Xing Yu、Fan Nie、James Zou、Jiajun Wu,麻省理工學(xué)院的 Fangqiang Ding,哈佛大學(xué)的 Yilun Du,以及 Character AI 的 Weimin Wang 等業(yè)內(nèi)頂尖學(xué)者。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大眾汽車官宣,停產(chǎn)純電車型!

大眾汽車官宣,停產(chǎn)純電車型!

新浪財經(jīng)
2026-04-11 15:06:14
中央定調(diào),2026年基本養(yǎng)老金調(diào)整有望,定額增長50元可行嗎?

中央定調(diào),2026年基本養(yǎng)老金調(diào)整有望,定額增長50元可行嗎?

浪子阿邴聊體育
2026-04-12 15:49:18
遲重瑞,已皈依佛門,不生孩子家族顯赫,財富差距掩蓋了他的才華

遲重瑞,已皈依佛門,不生孩子家族顯赫,財富差距掩蓋了他的才華

混沌錄
2026-04-09 18:45:25
越扒瓜越大!外媒再曝全紅嬋被霸凌猛料,遠(yuǎn)不止言語辱罵這么簡單

越扒瓜越大!外媒再曝全紅嬋被霸凌猛料,遠(yuǎn)不止言語辱罵這么簡單

社會日日鮮
2026-04-10 10:38:17
2-1!4-0!女足亞洲杯:四強(qiáng)已出其二,中國女足險勝,挑戰(zhàn)日本隊

2-1!4-0!女足亞洲杯:四強(qiáng)已出其二,中國女足險勝,挑戰(zhàn)日本隊

籃球看比賽
2026-04-12 16:26:40
王祉怡亞錦賽亞軍! 帶傷苦戰(zhàn)三局惜敗,安洗瑩奪冠達(dá)成全滿貫

王祉怡亞錦賽亞軍! 帶傷苦戰(zhàn)三局惜敗,安洗瑩奪冠達(dá)成全滿貫

天光破云來
2026-04-12 17:15:21
演員湯唯:我這輩子最正確的決定,就是在37歲高齡為大丈夫生孩子

演員湯唯:我這輩子最正確的決定,就是在37歲高齡為大丈夫生孩子

阿尢說歷史
2026-04-11 08:25:00
利潤全球第一!年賺8000億反超沙特阿美,相當(dāng)于6個阿里

利潤全球第一!年賺8000億反超沙特阿美,相當(dāng)于6個阿里

南風(fēng)不及你溫柔
2026-04-11 20:40:06
就在下周!“易中天”概念股,來了

就在下周!“易中天”概念股,來了

中國基金報
2026-04-12 17:25:11
拼多多員工:年薪快破百萬離職了。家庭貧苦,父親務(wù)農(nóng),母親偏癱

拼多多員工:年薪快破百萬離職了。家庭貧苦,父親務(wù)農(nóng),母親偏癱

螞蟻大喇叭
2026-04-11 16:25:46
5國派兵,菲幫手一次到齊,南海爆發(fā)新爭端,解放軍被逼射信號彈

5國派兵,菲幫手一次到齊,南海爆發(fā)新爭端,解放軍被逼射信號彈

閱盡天下大事
2026-04-11 14:04:28
福特CEO嘲諷中國皮卡拖不動!比亞迪新Shark 6回?fù)?:能拖拽3.5噸

福特CEO嘲諷中國皮卡拖不動!比亞迪新Shark 6回?fù)?:能拖拽3.5噸

快科技
2026-04-10 16:35:09
何超瓊妹妹何超蕸去世,原因曝光令人惋惜,留上億遺產(chǎn)無人繼承

何超瓊妹妹何超蕸去世,原因曝光令人惋惜,留上億遺產(chǎn)無人繼承

180視角
2026-04-12 17:01:10
看了大陸最新公布的十大政策,就理解鄭麗文11號為什么如此輕松了

看了大陸最新公布的十大政策,就理解鄭麗文11號為什么如此輕松了

阿龍聊軍事
2026-04-12 12:25:26
一代神車,退場了

一代神車,退場了

鳳凰網(wǎng)財經(jīng)
2026-03-26 19:58:07
劉思齊晚年曾說:毛岸英入朝之前,曾反復(fù)問過毛主席一個問題

劉思齊晚年曾說:毛岸英入朝之前,曾反復(fù)問過毛主席一個問題

老謝談史
2026-04-07 00:16:17
瞞不住了!鄭麗文訪陸,臺灣縣市長集體發(fā)聲

瞞不住了!鄭麗文訪陸,臺灣縣市長集體發(fā)聲

果媽聊娛樂
2026-04-12 10:57:11
窮人就算賺個三五百萬,本質(zhì)上還是窮人。

窮人就算賺個三五百萬,本質(zhì)上還是窮人。

流蘇晚晴
2026-04-06 17:04:22
別盯李小冉的臉了,她的背才是真正的人間清醒

別盯李小冉的臉了,她的背才是真正的人間清醒

陳意小可愛
2026-04-11 15:35:20
萬斯:美國或考慮對伊朗使用“核武器”!

萬斯:美國或考慮對伊朗使用“核武器”!

達(dá)文西看世界
2026-04-10 14:36:52
2026-04-12 17:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

伊朗不接受美"紅線" 消息人士:美在談判決策上犯了錯

頭條要聞

伊朗不接受美"紅線" 消息人士:美在談判決策上犯了錯

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

本地
房產(chǎn)
藝術(shù)
時尚
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

藝術(shù)要聞

書法“初學(xué)者”如何選帖?這3大重點(diǎn)一定要牢牢記??!

伊姐周六熱推:電視劇《八千里路云和月》;綜藝《乘風(fēng)2026》......

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版