国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

0
分享至



這兩年,視頻生成模型進步很快。清晰度更高了,鏡頭更穩(wěn)了,人物和場景看上去也越來越自然。很多時候,我們判斷一個模型強不強,看的就是它 “像不像真的”。但這其實只回答了一半的問題:它看起來像真的,不代表它真的符合現(xiàn)實世界的物理規(guī)律。這件事放在短視頻生成里,也許只是 “偶爾有點怪”;但如果視頻模型真的要往 world model、仿真系統(tǒng)、具身智能這些方向走,問題就不一樣了。一個模型如果連物體怎么接觸、狀態(tài)怎么變化、事件怎么按因果順序發(fā)生都搞不清楚,那它再像,也只是像。



現(xiàn)在的視頻評測,更像是在比 “好不好看”

目前,視頻生成領(lǐng)域常見的評測方式,要么看自動指標,要么讓人直接選 “哪個視頻更好”。這種方式當然有意義,它能比較清晰度、流暢度、觀感這些東西,但它很難告訴你:視頻里到底有沒有違反基本物理常識

比如,一個物體是不是無緣無故消失了;兩個東西是不是明明沒接觸卻發(fā)生了交互;一個動作的結(jié)果是不是和前面的過程根本對不上。這些問題,才真正關(guān)系到模型是在 “生成一個像真的畫面”,還是在 “模擬一個可信的世界”。

Physion-Eval:從 “視覺真實” 走向 “物理真實” 的新 benchmark

這篇工作提出了Physion-Eval。它不是再做一個 “誰的視頻更好看” 的排行榜,而是想認真回答一個更關(guān)鍵的問題:AI 生成的視頻,在物理層面到底有多真實



  • 論文標題: Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning
  • 作者: Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, and Bing Shuai
  • 作者單位:Physion Labs,斯坦福大學,MIT,哈佛大學,Character AI
  • 論文鏈接: https://arxiv.org/abs/2603.19607
  • 數(shù)據(jù)集鏈接: https://huggingface.co/datasets/PhysionLabs/Physion-Eval
  • 視頻鏈接:https://www.youtube.com/watch?v=Vbn_W3WNUHw

這個 benchmark 同時覆蓋第一人稱和第三人稱場景,包含10,990 條專家推理軌跡,覆蓋22 類細粒度物理現(xiàn)象。和常見評測不太一樣的地方在于,這里的每條樣本不只是簡單打個分,而是會標出錯誤發(fā)生在什么時候、屬于哪一類問題,以及為什么不對

數(shù)據(jù)上,第三人稱部分來自WISA-80K,第一人稱部分基于EPIC-KITCHENS構(gòu)建。為了保證標注質(zhì)量,論文組織了90 位具有 STEM 背景并接受過本科物理訓練的專家標注者,采用雙人標注和資深專家裁決的流程,最后得到的是帶時間戳、錯誤類別和文字解釋的高質(zhì)量標注。

在這一過程中,人類智能所展現(xiàn)出的優(yōu)勢尤為明顯:人類不僅能夠識別視覺上的異常,更能夠基于物理直覺與因果理解,對復雜的動態(tài)過程進行推理和解釋。相比之下,即使是當前最先進的多模態(tài)模型,在時序一致性、交互合理性以及隱含物理規(guī)律的判斷上,仍存在明顯不足。





最直接的結(jié)論:現(xiàn)在的模型,還遠談不上 “物理一致”

這篇工作的主結(jié)論其實很簡單,也很扎眼:在物理過程敏感的場景里,83.3% 的第三人稱生成視頻和 93.5% 的第一人稱生成視頻,都至少包含一個人類可以明確識別的物理錯誤。這說明什么?說明今天的視頻模型確實越來越會制造 “真實感” 了,但離 “真正符合物理規(guī)律” 還有很遠。



而且這些錯誤不是零零散散的小毛病,而是系統(tǒng)性的。論文里總結(jié)的典型問題包括:接觸或交互失敗、對象突然出現(xiàn)或消失、時間連貫性崩塌、因果順序錯亂、材料或狀態(tài)變化異常、幾何碰撞不合理等等。換句話說,問題不只是 “畫面有點假”,而是模型對物體、接觸、運動和結(jié)果之間最基本的關(guān)系,還經(jīng)常搞錯。



很多錯誤不是粗糙,而是 “看著像,但其實完全不對”

Physion-Eval 里最有意思的地方,其實是那些具體例子。它們不是那種一眼就看出來的低級 bug,而是第一眼好像還行,仔細一想?yún)s明顯不符合常識。

比如,桌面上突然多出一把本來不存在的刀;瓶口朝下,液體卻不往下流;水直接穿過鍋底;又或者一個鍋被兩根手指以幾乎不可能的方式拎起來。它們的問題不在于 “渲染不精細”,而在于直接違背了物體守恒、重力、不可穿透性和穩(wěn)定接觸這些最基本的物理規(guī)律。

這也是為什么我們覺得,這項工作不只是 “又多了一個 benchmark”。它更像是在提醒大家:今天很多模型也許已經(jīng)很會生成 “像真的視頻”,但還遠沒有學會 “世界為什么會這樣動”。





更麻煩的是,連最強的多模態(tài)模型也不太會看這些錯誤

論文還問了另一個很現(xiàn)實的問題:那能不能讓現(xiàn)在的大模型來當 “自動評委”,替人判斷一個視頻有沒有物理問題?

答案是,暫時還不行。

文章評估了10 個開源和閉源的 MLLM critic,結(jié)果顯示,它們和人類判斷之間還有明顯差距。以Gemini 3.0 Pro為例,它會漏掉超過74.4% 的第三人稱錯誤視頻和 90.1% 的第一人稱錯誤視頻。而且它們不只是漏檢,還會把錯誤發(fā)生的時間說錯,甚至編出根本不存在的原因。

這點其實很關(guān)鍵。因為如果以后大家真想靠自動 critic 去評估 world model 或視頻生成系統(tǒng),那 critic 本身至少得先真的看懂視頻里的物理過程。就目前來看,人類判斷依然是最可靠的標準。









越是高動態(tài)的物理過程,越容易暴露當前模型的短板

論文進一步從physical intensitydynamics兩個維度分析了生成模型與市面上已有的 MLLM critic 的表現(xiàn)。結(jié)果表明,相比強度大小,過程本身的動態(tài)性和復雜性更容易暴露視頻生成模型的物理建模缺陷。對 MLLM critic 來說也是如此:只有當錯誤足夠明顯時,它們才會表現(xiàn)出有限的判斷能力,但整體仍明顯落后于人類。







總結(jié)

Physion-Eval 想指出的,不只是 “現(xiàn)在的視頻生成模型還不夠強”,而是一個更根本的問題:當行業(yè)越來越關(guān)注視頻 “看起來有多真” 的時候,我們可能忽略了它 “實際上對不對”

對于真正想做 world model、機器人、具身智能和仿真的人來說,這個問題繞不過去。畫面更清晰、動作更順滑,當然重要;但如果物體會無故出現(xiàn),液體不會往下流,動作結(jié)果和前因?qū)Σ簧?,那模型就還沒有真正學會世界的運行方式。

視頻生成下一階段,也許不該只繼續(xù)卷觀感,而應該更認真地去解決物體持續(xù)性、接觸關(guān)系、狀態(tài)變化、時序一致性和因果結(jié)構(gòu)這些更本質(zhì)的問題。“看起來對”,從來不等于 “實際上對”

作者介紹

本文由來自美國頂級科技公司與世界一流高校的豪華作者陣容共同完成,集結(jié) Physion Labs、斯坦福大學、MIT、哈佛大學及 Character AI 的核心研究者。其中,Physion Labs 團隊(Qin Zhang、Peiyu Jing、Bing Shuai)長期專注于生成式視頻與世界模型中的物理一致性問題,構(gòu)建了面向行業(yè)的評估基礎(chǔ)設(shè)施與數(shù)據(jù)閉環(huán),致力于成為下一代生成模型的 “物理可信層”。其余作者包括斯坦福大學的 Hong-Xing Yu、Fan Nie、James Zou、Jiajun Wu,麻省理工學院的 Fangqiang Ding,哈佛大學的 Yilun Du,以及 Character AI 的 Weimin Wang 等業(yè)內(nèi)頂尖學者。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
低開高走!楊瀚森連鐵3個后,連續(xù)低位進球+扣籃,獲球權(quán)就能暴走

低開高走!楊瀚森連鐵3個后,連續(xù)低位進球+扣籃,獲球權(quán)就能暴走

籃球資訊達人
2026-04-04 10:29:46
頭部達播集體翻車“優(yōu)思益”:保健品賣100含淚抽傭50

頭部達播集體翻車“優(yōu)思益”:保健品賣100含淚抽傭50

界面新聞
2026-04-03 17:42:07
雷扎伊,身亡

雷扎伊,身亡

農(nóng)民日報
2026-04-03 19:45:39
金昊,已被執(zhí)行死刑

金昊,已被執(zhí)行死刑

中國新聞周刊
2026-04-03 23:17:17
越扒越有!優(yōu)思益澳洲公司股東是南昌人,公司注冊資金僅475元

越扒越有!優(yōu)思益澳洲公司股東是南昌人,公司注冊資金僅475元

郭蛹包工頭
2026-04-03 22:17:07
為營救2名F-15飛行員,美軍特種兵冒死突入伊朗,地面戰(zhàn)激烈交火

為營救2名F-15飛行員,美軍特種兵冒死突入伊朗,地面戰(zhàn)激烈交火

共工之錨
2026-04-04 00:05:37
廣東省政協(xié)副主席郭永航被查:權(quán)力的邊界與法治的尊嚴

廣東省政協(xié)副主席郭永航被查:權(quán)力的邊界與法治的尊嚴

飛鶴傳媒
2026-04-04 10:56:14
英烈蘇藝林歸葬天津 曾潛伏臺灣獲取大量絕密情報

英烈蘇藝林歸葬天津 曾潛伏臺灣獲取大量絕密情報

極目新聞
2026-04-04 10:39:03
一天之內(nèi),美軍兩架戰(zhàn)機被擊落,兩架直升機被擊中!特朗普:不影響談判

一天之內(nèi),美軍兩架戰(zhàn)機被擊落,兩架直升機被擊中!特朗普:不影響談判

上觀新聞
2026-04-04 08:30:10
拋棄中國,伊朗為何選擇日本作為中間調(diào)停者

拋棄中國,伊朗為何選擇日本作為中間調(diào)停者

民間胡扯老哥
2026-04-03 02:20:49
張雪因手掌太紅被網(wǎng)友提醒及時就醫(yī)!此前回應:肝沒問題!醫(yī)生提醒

張雪因手掌太紅被網(wǎng)友提醒及時就醫(yī)!此前回應:肝沒問題!醫(yī)生提醒

封面新聞
2026-04-04 00:47:37
4月7日,A股迎來史上最嚴量化新規(guī):機器收割終結(jié),市場生態(tài)重構(gòu)

4月7日,A股迎來史上最嚴量化新規(guī):機器收割終結(jié),市場生態(tài)重構(gòu)

風風順
2026-04-04 00:05:10
清明前夕發(fā)現(xiàn)姥爺墳頭被平,民政局:確實沒有通知到家屬,正在協(xié)商解決方案

清明前夕發(fā)現(xiàn)姥爺墳頭被平,民政局:確實沒有通知到家屬,正在協(xié)商解決方案

大風新聞
2026-04-03 16:02:04
假洋牌抽成80%!14萬人取關(guān)董宇輝

假洋牌抽成80%!14萬人取關(guān)董宇輝

智識漂流
2026-04-03 19:53:53
法國明確站隊?馬克龍當著高市的面承諾:邀請函不會給中國發(fā)!

法國明確站隊?馬克龍當著高市的面承諾:邀請函不會給中國發(fā)!

浪子阿邴聊體育
2026-04-03 09:49:41
拒絕伊朗地面戰(zhàn)?陸軍參謀長被解職,特朗普需要軍方的“自己人”

拒絕伊朗地面戰(zhàn)?陸軍參謀長被解職,特朗普需要軍方的“自己人”

上觀新聞
2026-04-04 05:10:15
伊朗公布擊中美軍A10攻擊機視頻!2架黑鷹直升機搜救F15時被擊中,“機身冒出黑煙”!伊朗懸賞追捕美飛行員:看到他們就開槍

伊朗公布擊中美軍A10攻擊機視頻!2架黑鷹直升機搜救F15時被擊中,“機身冒出黑煙”!伊朗懸賞追捕美飛行員:看到他們就開槍

每日經(jīng)濟新聞
2026-04-04 08:59:10
憑什么讓我滾出中國?張本智和回老家祭祖遭抵制,差點和村民動手

憑什么讓我滾出中國?張本智和回老家祭祖遭抵制,差點和村民動手

拳擊時空
2026-04-04 05:58:11
NBA MVP榜:文班亞馬仍居首,亞歷山大第二,前五名無變化

NBA MVP榜:文班亞馬仍居首,亞歷山大第二,前五名無變化

懂球帝
2026-04-04 01:28:14
年年體檢正常,突然查出肝癌晚期,醫(yī)生指著CT說:這里去年就有了

年年體檢正常,突然查出肝癌晚期,醫(yī)生指著CT說:這里去年就有了

健身狂人
2026-04-03 15:03:01
2026-04-04 12:04:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12677文章數(shù) 142612關(guān)注度
往期回顧 全部

科技要聞

內(nèi)存一年漲四倍!國產(chǎn)手機廠商集體漲價

頭條要聞

男子建了18個"5G基站"被政府叫停 發(fā)現(xiàn)紅頭文件為偽造

頭條要聞

男子建了18個"5G基站"被政府叫停 發(fā)現(xiàn)紅頭文件為偽造

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

闞清子口碑贏了!全開麥跑調(diào)拒絕重唱

財經(jīng)要聞

劉紀鵬:只盼長慢牛,鞏固4000點是關(guān)鍵

汽車要聞

17萬級海豹07EV 不僅續(xù)航長還有9分鐘滿電的快樂

態(tài)度原創(chuàng)

教育
手機
房產(chǎn)
公開課
軍事航空

教育要聞

3000余名師生凌晨出發(fā)祭英烈,5個多小時,徒步27公里步數(shù)破3萬

手機要聞

三月4K以上性價比榜,vivo成最大贏家

房產(chǎn)要聞

小陽春全面啟動!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄國防部:一架蘇-30戰(zhàn)機在克里米亞墜毀

無障礙瀏覽 進入關(guān)懷版