国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓 AI 學(xué)會(huì)“靈魂拷問(wèn)”:我們?nèi)绾谓虣C(jī)器評(píng)判生成視頻 | ICCV 2025

0
分享至


ETVA的核心思想是:像人一樣,通過(guò)“提問(wèn)-回答”來(lái)深入理解和評(píng)估視頻內(nèi)容。

作者丨關(guān)開(kāi)思、宋睿華

(作者介紹)本文第一作者是中國(guó)人民大學(xué)高瓴人工智能學(xué)院2024 級(jí)碩士生關(guān)開(kāi)思(導(dǎo)師宋睿華),他的主要研究興趣方向是多模態(tài)學(xué)習(xí)。本文通訊作者是宋睿華長(zhǎng)聘副教授,她的 AIMind 團(tuán)隊(duì)主要研究方向是多模態(tài)感知、交互與生成。

當(dāng)你輸入一句指令——“水在空間站中從玻璃杯慢慢倒出”——視頻模型立刻生成了一段流暢的動(dòng)畫(huà)??瓷先ゲ诲e(cuò):水從杯中傾瀉而出,畫(huà)面清晰,動(dòng)作逼真。

但仔細(xì)一想,哪里不對(duì)?在空間站里,水并不會(huì)向下流,而是會(huì)在失重中漂浮成一顆顆液滴。

在AI視頻生成技術(shù)井噴的今天,我們驚嘆于 Sora、Kling、Vidu 等模型創(chuàng)造出的越來(lái)越逼真、富有想象力的視頻。然而,一個(gè)核心問(wèn)題也隨之而來(lái):除了肉眼觀看,我們?nèi)绾尉_、客觀地判斷,一個(gè)AI生成的視頻是否真的“聽(tīng)懂”了我們的指令?



論文地址:
https://arxiv.org/abs/2503.16867

代碼地址:
https://github.com/guankaisi/ETVA

項(xiàng)目地址:
https://eftv-eval.github.io/etva-eval/

01

背景

長(zhǎng)久以來(lái),學(xué)術(shù)界與工業(yè)界主要依賴BLIP-BLEU、CLIPScore、VideoScore等自動(dòng)化指標(biāo)以評(píng)估生成視頻是否符合文本指令。然而,這類(lèi)指標(biāo)通常只能給出一個(gè)“大差不差”的總體分?jǐn)?shù),難以細(xì)致判斷視頻內(nèi)容是否在細(xì)節(jié)上與指令精準(zhǔn)對(duì)齊,甚至在某些情況下會(huì)得出與人類(lèi)判斷相悖的結(jié)果。

以“水在空間站中從玻璃杯慢慢倒出”這一場(chǎng)景為例(見(jiàn)下圖),傳統(tǒng)評(píng)價(jià)指標(biāo)往往只能輸出一個(gè)模糊的分?jǐn)?shù),無(wú)法有效區(qū)分視頻在物理合理性上的差異,有時(shí)甚至?xí)⒚黠@違背常識(shí)的結(jié)果評(píng)為高分。而人類(lèi)觀察者卻能輕易識(shí)別出第二個(gè)視頻更為優(yōu)秀——因?yàn)樗鼫?zhǔn)確捕捉到了微重力環(huán)境下水珠漂浮的真實(shí)狀態(tài),更符合我們對(duì)“空間站”這一場(chǎng)景的物理認(rèn)知。


為了解決這一“霧里看花”式的評(píng)估困境,來(lái)自中國(guó)人民大學(xué)的宋睿華帶領(lǐng)的AIMind團(tuán)隊(duì)提出了一種全新的文本到視頻(T2V)指令遵循的評(píng)估方法——ETVA。相關(guān)論文已被 ICCV 2025錄用。

ETVA的核心思想是:像人一樣,通過(guò)“提問(wèn)-回答”來(lái)深入理解和評(píng)估視頻內(nèi)容。它不再滿足于一個(gè)模糊的總分,而是將復(fù)雜的文本指令拆解成一系列原子化的、可被明確回答的“是/非”問(wèn)題,從而對(duì)視頻進(jìn)行細(xì)致入微的“靈魂拷問(wèn)”。

02

ETVA 如何實(shí)現(xiàn)“靈魂拷問(wèn)”?


ETVA的評(píng)估流程模擬了人類(lèi)的認(rèn)知過(guò)程,主要分為兩個(gè)關(guān)鍵階段:

第一步:多智能體協(xié)作,生成精準(zhǔn)“問(wèn)題列表”

面對(duì)一句文本指令,比如“水在空間站里從一個(gè)玻璃杯中慢慢倒出”,ETVA首先會(huì)啟動(dòng)一個(gè)由三個(gè)智能體組成的“問(wèn)題生成團(tuán)隊(duì)”:

1.元素提取器 (Element Extractor):首先識(shí)別出文本中的核心元素,如實(shí)體(杯子、水、空間站)、屬性(玻璃材質(zhì))和關(guān)系(從...倒出)。

2.圖構(gòu)建器 (Graph Builder):將這些離散的元素組織成一個(gè)結(jié)構(gòu)化的“場(chǎng)景圖”,清晰地描繪出它們之間的邏輯關(guān)系。

3.圖遍歷器 (Graph Traverser):最后,系統(tǒng)性地遍歷這張圖,將每個(gè)節(jié)點(diǎn)和連接都轉(zhuǎn)換成一個(gè)簡(jiǎn)單的是非題。

例如,針對(duì)上述指令,它會(huì)生成如下問(wèn)題列表:

  • 視頻里有杯子嗎?[是/否]

  • 視頻里有水嗎?[是/否]

  • 水是從杯子里倒出來(lái)的嗎?[是/否]

  • 水是在空間站里倒出來(lái)的嗎?[是/否]

第二步:知識(shí)增強(qiáng)+多階段推理,給出“有理有據(jù)”的答案

生成問(wèn)題后,ETVA會(huì)利用先進(jìn)的視頻大語(yǔ)言模型(Video LLM)來(lái)自動(dòng)回答。為了避免模型產(chǎn)生“幻覺(jué)”,ETVA設(shè)計(jì)了一個(gè)嚴(yán)謹(jǐn)?shù)幕卮鹂蚣埽?/p>

1.知識(shí)增強(qiáng) (Knowledge Augmentation):在回答之前,一個(gè)輔助大語(yǔ)言模型會(huì)首先“回憶”與指令相關(guān)的常識(shí)知識(shí)。例如,提到“空間站”,它會(huì)補(bǔ)充“液體在微重力環(huán)境下會(huì)呈球狀漂浮,而不是向下流動(dòng)”這一物理學(xué)常識(shí)。

2.多階段推理 (Multi-Stage Reasoning):隨后,Video LLM會(huì)進(jìn)行“三步走”式思考:首先,逐幀理解視頻的客觀內(nèi)容;接著,結(jié)合文本指令、常識(shí)知識(shí)和視頻畫(huà)面進(jìn)行綜合分析與反思;最后,給出“是”或“否”的結(jié)論,并附上推理依據(jù)。

最終,視頻的指令遵循度得分,即為其正確回答問(wèn)題的百分比。這種方法不僅使評(píng)估結(jié)果更為精準(zhǔn)可靠,其清晰的決策過(guò)程也賦予了模型出色的可解釋性。

03

ETVA-Bench:一把衡量T2V模型的“新標(biāo)尺”

基于ETVA框架,研究團(tuán)隊(duì)構(gòu)建了一個(gè)全面的文生視頻對(duì)齊度評(píng)估基準(zhǔn)——ETVABench,它包含從10個(gè)不同維度(如物體存在、動(dòng)作、物理、相機(jī)運(yùn)鏡等)精選的2000條指令及衍生的12000個(gè)原子問(wèn)題。并分別提供了面向開(kāi)源模型的ETVABench-2000與面向閉源模型的ETVABench-105兩個(gè)評(píng)測(cè)集合。


上圖是ETVABench 每個(gè)類(lèi)別的問(wèn)題示例和 Prompt 示例。


上圖是ETVABench-2K 以及 ETVABench-105 在各個(gè)類(lèi)別上的數(shù)量分布。

在與人類(lèi)偏好一致性上,實(shí)驗(yàn)結(jié)果令人振奮:ETVA與人類(lèi)裁判的判斷相關(guān)性達(dá)到了58.47,遠(yuǎn)超以往最優(yōu)方法(僅為31.0),證明了其作為新一代評(píng)估工具的卓越性能 。


以下表格展示了15個(gè)不同的文生視頻(T2V)模型在ETVABench-105基準(zhǔn)測(cè)試上的詳細(xì)評(píng)估結(jié)果。這些模型被分為兩組:10個(gè)開(kāi)源模型和5個(gè)閉源模型。

評(píng)估維度涵蓋了10個(gè)細(xì)分領(lǐng)域,包括物體的存在性(Existence)、動(dòng)作(Action)、材質(zhì)(Material)、空間關(guān)系(Spatial)、數(shù)量(Number)、形狀(Shape)、顏色(Color)、相機(jī)運(yùn)鏡(Camera)、物理規(guī)律(Physics)和其他(Other),并計(jì)算了每個(gè)模型的平均分(Avg)。

從最終的平均分來(lái)看:

  • 在所有參與評(píng)測(cè)的模型中,閉源模型Vidu-1.5的綜合表現(xiàn)最好,平均分達(dá)到了0.761。

  • 在開(kāi)源模型中,Hunyuan-Video表現(xiàn)最佳,平均分為0.686。

總體而言,閉源模型的平均分普遍高于開(kāi)源模型,尤其在空間關(guān)系(Sora得分0.870)和材質(zhì)(Vidu-1.5得分0.854)等維度上展現(xiàn)出顯著優(yōu)勢(shì)。


通過(guò)對(duì)15個(gè)主流T2V模型(包括Sora、Kling等5個(gè)閉源模型和Hunyuan-Video等10個(gè)開(kāi)源模型)的系統(tǒng)性評(píng)測(cè),ETVA揭示了當(dāng)前模型普遍存在的短板,尤其是在物理規(guī)律模擬相機(jī)運(yùn)動(dòng)控制方面能力不足,以下是四個(gè)例子。

  • 物理現(xiàn)象:在“空間站倒水”測(cè)試中,Sora準(zhǔn)確還原了微重力,得分100;而Kling則表現(xiàn)為普通重力,得分僅37.5 。

  • 顏色變化:在“葉子由綠變紅”測(cè)試中,Pika 沒(méi)有表現(xiàn)出葉子顏色變化的過(guò)程得分 50,而 Vidu 準(zhǔn)確的表現(xiàn)了出來(lái),得分 100。

  • 數(shù)量準(zhǔn)確性:在生成“三只貓頭鷹”時(shí),Kling精準(zhǔn)無(wú)誤(100分),Sora卻多畫(huà)了一只(88.3分)。

  • 手勢(shì)語(yǔ)義:Hunyuan準(zhǔn)確執(zhí)行了“拇指向下”的指令(100分),而Kling則將其誤解為“豎起大拇指”,語(yǔ)義錯(cuò)誤(40分)。


04

未來(lái)展望

ETVA不僅為我們提供了一個(gè)更可靠、更精細(xì)的T2V模型評(píng)估工具,更重要的是,它通過(guò)精準(zhǔn)定位現(xiàn)有模型的弱點(diǎn),為下一代文生視頻技術(shù)的發(fā)展指明了方向。未來(lái),研究團(tuán)隊(duì)將把ETVA框架拓展至更復(fù)雜、多元的視頻場(chǎng)景中,為構(gòu)建真正“理解”用戶意圖的智能生成模型鋪平道路。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
如何看待發(fā)送淫穢信息違法?再也看不到院長(zhǎng)、主任們的桃色新聞了

如何看待發(fā)送淫穢信息違法?再也看不到院長(zhǎng)、主任們的桃色新聞了

爆角追蹤
2025-12-24 12:37:06
遼寧給農(nóng)民評(píng)職稱:擬設(shè)初、中、副高、正高四個(gè)級(jí)別

遼寧給農(nóng)民評(píng)職稱:擬設(shè)初、中、副高、正高四個(gè)級(jí)別

新京報(bào)政事兒
2025-12-23 22:40:00
在超市制止插隊(duì),被黑人當(dāng)眾毆打身亡,妻子目睹全程,結(jié)果兇手只判了5年?!

在超市制止插隊(duì),被黑人當(dāng)眾毆打身亡,妻子目睹全程,結(jié)果兇手只判了5年?!

新歐洲
2025-12-23 20:57:43
房子70年滿期后歸誰(shuí)?國(guó)家已給出回應(yīng),專(zhuān)家:最好不要寫(xiě)夫妻名字

房子70年滿期后歸誰(shuí)?國(guó)家已給出回應(yīng),專(zhuān)家:最好不要寫(xiě)夫妻名字

boss外傳
2025-12-23 18:00:05
1909年,64的趙爾豐帶著2萬(wàn)清軍,冰天雪地,力保西南百萬(wàn)國(guó)土

1909年,64的趙爾豐帶著2萬(wàn)清軍,冰天雪地,力保西南百萬(wàn)國(guó)土

云霄紀(jì)史觀
2025-12-23 17:59:09
女子獨(dú)自遠(yuǎn)嫁江蘇,公婆卻不露面,家里冷鍋冷灶全是灰,網(wǎng)友炸鍋

女子獨(dú)自遠(yuǎn)嫁江蘇,公婆卻不露面,家里冷鍋冷灶全是灰,網(wǎng)友炸鍋

另子維愛(ài)讀史
2025-12-24 17:09:25
曝徐湖平已被帶走,前一天晚開(kāi)了一夜燈,更多謊言被戳穿

曝徐湖平已被帶走,前一天晚開(kāi)了一夜燈,更多謊言被戳穿

古希臘掌管松餅的神
2025-12-24 13:29:23
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽(yáng)
2025-12-23 18:33:38
85后韓國(guó)財(cái)閥千金,在柬埔寨被捕!她被曝為電詐園區(qū)洗錢(qián)、招攬性交易和販毒,曾多次因吸毒被判刑

85后韓國(guó)財(cái)閥千金,在柬埔寨被捕!她被曝為電詐園區(qū)洗錢(qián)、招攬性交易和販毒,曾多次因吸毒被判刑

每日經(jīng)濟(jì)新聞
2025-12-24 17:22:08
堅(jiān)守陣地130天,兩名烏軍終于撤了下來(lái),還帶回個(gè)并肩作戰(zhàn)的俄軍

堅(jiān)守陣地130天,兩名烏軍終于撤了下來(lái),還帶回個(gè)并肩作戰(zhàn)的俄軍

鷹眼Defence
2025-12-24 16:23:37
8人死亡,接送幼兒車(chē)輛墜入池塘

8人死亡,接送幼兒車(chē)輛墜入池塘

中國(guó)新聞周刊
2025-12-24 18:14:25
勝率跌破5成!阿不都兩雙新疆慘負(fù)青島 齊麟16分段昂君18+5三分

勝率跌破5成!阿不都兩雙新疆慘負(fù)青島 齊麟16分段昂君18+5三分

醉臥浮生
2025-12-24 21:27:49
南博事件升級(jí)!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長(zhǎng)真攤上事了

南博事件升級(jí)!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長(zhǎng)真攤上事了

火山詩(shī)話
2025-12-24 14:29:42
20歲小伙王帥去世!凌晨5點(diǎn)跳湖,父親公布其最后影像:兒子解脫了

20歲小伙王帥去世!凌晨5點(diǎn)跳湖,父親公布其最后影像:兒子解脫了

社會(huì)日日鮮
2025-12-24 05:45:22
無(wú)恥下作還不夠,還要明目張膽地硬搶?zhuān)?>
    </a>
        <h3>
      <a href=胖胖說(shuō)他不胖
2025-12-24 14:47:25
利比亞總參謀長(zhǎng)土耳其墜機(jī)身亡,其被認(rèn)為是“結(jié)束國(guó)家分裂”的希望

利比亞總參謀長(zhǎng)土耳其墜機(jī)身亡,其被認(rèn)為是“結(jié)束國(guó)家分裂”的希望

紅星新聞
2025-12-24 15:22:18
800萬(wàn)人要求彈劾賴清德,陳水扁打破沉默,鄭麗文呼吁兩岸避戰(zhàn)!

800萬(wàn)人要求彈劾賴清德,陳水扁打破沉默,鄭麗文呼吁兩岸避戰(zhàn)!

博覽歷史
2025-12-24 19:46:52
太諷刺!龐家無(wú)償捐4700平米祖宅,院長(zhǎng)雙謊被戳穿,省多部門(mén)介入

太諷刺!龐家無(wú)償捐4700平米祖宅,院長(zhǎng)雙謊被戳穿,省多部門(mén)介入

好賢觀史記
2025-12-23 18:14:27
澎湃新聞?dòng)浾叩恼{(diào)查補(bǔ)齊了徐湖平犯罪證據(jù)鏈,江南春已經(jīng)實(shí)際成交5000萬(wàn)元,拍賣(mài)行的畫(huà)作就是龐家的

澎湃新聞?dòng)浾叩恼{(diào)查補(bǔ)齊了徐湖平犯罪證據(jù)鏈,江南春已經(jīng)實(shí)際成交5000萬(wàn)元,拍賣(mài)行的畫(huà)作就是龐家的

互聯(lián)網(wǎng)大觀
2025-12-24 17:03:44
南京博物院文物盜竊事件讓很多人不再罵把文物捐給美國(guó)的翁萬(wàn)戈

南京博物院文物盜竊事件讓很多人不再罵把文物捐給美國(guó)的翁萬(wàn)戈

名人茍或
2025-12-24 06:02:23
2025-12-24 22:35:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

韓國(guó)財(cái)閥千金在柬埔寨被捕 被指涉嫌參與性交易和販毒

頭條要聞

韓國(guó)財(cái)閥千金在柬埔寨被捕 被指涉嫌參與性交易和販毒

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂(lè)要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購(gòu) 滬深是否會(huì)跟進(jìn)?

汽車(chē)要聞

“運(yùn)動(dòng)版庫(kù)里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

家居
教育
數(shù)碼
公開(kāi)課
軍事航空

家居要聞

法式大平層 智能家居添彩

教育要聞

你今天對(duì)女兒的支持,孩子將來(lái)會(huì)懂得!

數(shù)碼要聞

手機(jī)太小,平板太大?華為MatePad Mini給出年終出行最優(yōu)解

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

"九三"受閱女民兵:96米需踢出128個(gè)正步 每步75厘米

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版