国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓 AI 學(xué)會(huì)“靈魂拷問(wèn)”:我們?nèi)绾谓虣C(jī)器評(píng)判生成視頻 | ICCV 2025

0
分享至


ETVA的核心思想是:像人一樣,通過(guò)“提問(wèn)-回答”來(lái)深入理解和評(píng)估視頻內(nèi)容。

作者丨關(guān)開(kāi)思、宋睿華

(作者介紹)本文第一作者是中國(guó)人民大學(xué)高瓴人工智能學(xué)院2024 級(jí)碩士生關(guān)開(kāi)思(導(dǎo)師宋睿華),他的主要研究興趣方向是多模態(tài)學(xué)習(xí)。本文通訊作者是宋睿華長(zhǎng)聘副教授,她的 AIMind 團(tuán)隊(duì)主要研究方向是多模態(tài)感知、交互與生成。

當(dāng)你輸入一句指令——“水在空間站中從玻璃杯慢慢倒出”——視頻模型立刻生成了一段流暢的動(dòng)畫(huà)?瓷先ゲ诲e(cuò):水從杯中傾瀉而出,畫(huà)面清晰,動(dòng)作逼真。

但仔細(xì)一想,哪里不對(duì)?在空間站里,水并不會(huì)向下流,而是會(huì)在失重中漂浮成一顆顆液滴。

在AI視頻生成技術(shù)井噴的今天,我們驚嘆于 Sora、Kling、Vidu 等模型創(chuàng)造出的越來(lái)越逼真、富有想象力的視頻。然而,一個(gè)核心問(wèn)題也隨之而來(lái):除了肉眼觀看,我們?nèi)绾尉_、客觀地判斷,一個(gè)AI生成的視頻是否真的“聽(tīng)懂”了我們的指令?



論文地址:
https://arxiv.org/abs/2503.16867

代碼地址:
https://github.com/guankaisi/ETVA

項(xiàng)目地址:
https://eftv-eval.github.io/etva-eval/

01

背景

長(zhǎng)久以來(lái),學(xué)術(shù)界與工業(yè)界主要依賴BLIP-BLEU、CLIPScore、VideoScore等自動(dòng)化指標(biāo)以評(píng)估生成視頻是否符合文本指令。然而,這類指標(biāo)通常只能給出一個(gè)“大差不差”的總體分?jǐn)?shù),難以細(xì)致判斷視頻內(nèi)容是否在細(xì)節(jié)上與指令精準(zhǔn)對(duì)齊,甚至在某些情況下會(huì)得出與人類判斷相悖的結(jié)果。

以“水在空間站中從玻璃杯慢慢倒出”這一場(chǎng)景為例(見(jiàn)下圖),傳統(tǒng)評(píng)價(jià)指標(biāo)往往只能輸出一個(gè)模糊的分?jǐn)?shù),無(wú)法有效區(qū)分視頻在物理合理性上的差異,有時(shí)甚至?xí)䦟⒚黠@違背常識(shí)的結(jié)果評(píng)為高分。而人類觀察者卻能輕易識(shí)別出第二個(gè)視頻更為優(yōu)秀——因?yàn)樗鼫?zhǔn)確捕捉到了微重力環(huán)境下水珠漂浮的真實(shí)狀態(tài),更符合我們對(duì)“空間站”這一場(chǎng)景的物理認(rèn)知。


為了解決這一“霧里看花”式的評(píng)估困境,來(lái)自中國(guó)人民大學(xué)的宋睿華帶領(lǐng)的AIMind團(tuán)隊(duì)提出了一種全新的文本到視頻(T2V)指令遵循的評(píng)估方法——ETVA。相關(guān)論文已被 ICCV 2025錄用。

ETVA的核心思想是:像人一樣,通過(guò)“提問(wèn)-回答”來(lái)深入理解和評(píng)估視頻內(nèi)容。它不再滿足于一個(gè)模糊的總分,而是將復(fù)雜的文本指令拆解成一系列原子化的、可被明確回答的“是/非”問(wèn)題,從而對(duì)視頻進(jìn)行細(xì)致入微的“靈魂拷問(wèn)”。

02

ETVA 如何實(shí)現(xiàn)“靈魂拷問(wèn)”?


ETVA的評(píng)估流程模擬了人類的認(rèn)知過(guò)程,主要分為兩個(gè)關(guān)鍵階段:

第一步:多智能體協(xié)作,生成精準(zhǔn)“問(wèn)題列表”

面對(duì)一句文本指令,比如“水在空間站里從一個(gè)玻璃杯中慢慢倒出”,ETVA首先會(huì)啟動(dòng)一個(gè)由三個(gè)智能體組成的“問(wèn)題生成團(tuán)隊(duì)”:

1.元素提取器 (Element Extractor):首先識(shí)別出文本中的核心元素,如實(shí)體(杯子、水、空間站)、屬性(玻璃材質(zhì))和關(guān)系(從...倒出)。

2.圖構(gòu)建器 (Graph Builder):將這些離散的元素組織成一個(gè)結(jié)構(gòu)化的“場(chǎng)景圖”,清晰地描繪出它們之間的邏輯關(guān)系。

3.圖遍歷器 (Graph Traverser):最后,系統(tǒng)性地遍歷這張圖,將每個(gè)節(jié)點(diǎn)和連接都轉(zhuǎn)換成一個(gè)簡(jiǎn)單的是非題。

例如,針對(duì)上述指令,它會(huì)生成如下問(wèn)題列表:

  • 視頻里有杯子嗎?[是/否]

  • 視頻里有水嗎?[是/否]

  • 水是從杯子里倒出來(lái)的嗎?[是/否]

  • 水是在空間站里倒出來(lái)的嗎?[是/否]

第二步:知識(shí)增強(qiáng)+多階段推理,給出“有理有據(jù)”的答案

生成問(wèn)題后,ETVA會(huì)利用先進(jìn)的視頻大語(yǔ)言模型(Video LLM)來(lái)自動(dòng)回答。為了避免模型產(chǎn)生“幻覺(jué)”,ETVA設(shè)計(jì)了一個(gè)嚴(yán)謹(jǐn)?shù)幕卮鹂蚣埽?/p>

1.知識(shí)增強(qiáng) (Knowledge Augmentation):在回答之前,一個(gè)輔助大語(yǔ)言模型會(huì)首先“回憶”與指令相關(guān)的常識(shí)知識(shí)。例如,提到“空間站”,它會(huì)補(bǔ)充“液體在微重力環(huán)境下會(huì)呈球狀漂浮,而不是向下流動(dòng)”這一物理學(xué)常識(shí)。

2.多階段推理 (Multi-Stage Reasoning):隨后,Video LLM會(huì)進(jìn)行“三步走”式思考:首先,逐幀理解視頻的客觀內(nèi)容;接著,結(jié)合文本指令、常識(shí)知識(shí)和視頻畫(huà)面進(jìn)行綜合分析與反思;最后,給出“是”或“否”的結(jié)論,并附上推理依據(jù)。

最終,視頻的指令遵循度得分,即為其正確回答問(wèn)題的百分比。這種方法不僅使評(píng)估結(jié)果更為精準(zhǔn)可靠,其清晰的決策過(guò)程也賦予了模型出色的可解釋性。

03

ETVA-Bench:一把衡量T2V模型的“新標(biāo)尺”

基于ETVA框架,研究團(tuán)隊(duì)構(gòu)建了一個(gè)全面的文生視頻對(duì)齊度評(píng)估基準(zhǔn)——ETVABench,它包含從10個(gè)不同維度(如物體存在、動(dòng)作、物理、相機(jī)運(yùn)鏡等)精選的2000條指令及衍生的12000個(gè)原子問(wèn)題。并分別提供了面向開(kāi)源模型的ETVABench-2000與面向閉源模型的ETVABench-105兩個(gè)評(píng)測(cè)集合。


上圖是ETVABench 每個(gè)類別的問(wèn)題示例和 Prompt 示例。


上圖是ETVABench-2K 以及 ETVABench-105 在各個(gè)類別上的數(shù)量分布。

在與人類偏好一致性上,實(shí)驗(yàn)結(jié)果令人振奮:ETVA與人類裁判的判斷相關(guān)性達(dá)到了58.47,遠(yuǎn)超以往最優(yōu)方法(僅為31.0),證明了其作為新一代評(píng)估工具的卓越性能 。


以下表格展示了15個(gè)不同的文生視頻(T2V)模型在ETVABench-105基準(zhǔn)測(cè)試上的詳細(xì)評(píng)估結(jié)果。這些模型被分為兩組:10個(gè)開(kāi)源模型和5個(gè)閉源模型。

評(píng)估維度涵蓋了10個(gè)細(xì)分領(lǐng)域,包括物體的存在性(Existence)、動(dòng)作(Action)、材質(zhì)(Material)、空間關(guān)系(Spatial)、數(shù)量(Number)、形狀(Shape)、顏色(Color)、相機(jī)運(yùn)鏡(Camera)、物理規(guī)律(Physics)和其他(Other),并計(jì)算了每個(gè)模型的平均分(Avg)。

從最終的平均分來(lái)看:

  • 在所有參與評(píng)測(cè)的模型中,閉源模型Vidu-1.5的綜合表現(xiàn)最好,平均分達(dá)到了0.761。

  • 在開(kāi)源模型中,Hunyuan-Video表現(xiàn)最佳,平均分為0.686。

總體而言,閉源模型的平均分普遍高于開(kāi)源模型,尤其在空間關(guān)系(Sora得分0.870)和材質(zhì)(Vidu-1.5得分0.854)等維度上展現(xiàn)出顯著優(yōu)勢(shì)。


通過(guò)對(duì)15個(gè)主流T2V模型(包括Sora、Kling等5個(gè)閉源模型和Hunyuan-Video等10個(gè)開(kāi)源模型)的系統(tǒng)性評(píng)測(cè),ETVA揭示了當(dāng)前模型普遍存在的短板,尤其是在物理規(guī)律模擬相機(jī)運(yùn)動(dòng)控制方面能力不足,以下是四個(gè)例子。

  • 物理現(xiàn)象:在“空間站倒水”測(cè)試中,Sora準(zhǔn)確還原了微重力,得分100;而Kling則表現(xiàn)為普通重力,得分僅37.5 。

  • 顏色變化:在“葉子由綠變紅”測(cè)試中,Pika 沒(méi)有表現(xiàn)出葉子顏色變化的過(guò)程得分 50,而 Vidu 準(zhǔn)確的表現(xiàn)了出來(lái),得分 100。

  • 數(shù)量準(zhǔn)確性:在生成“三只貓頭鷹”時(shí),Kling精準(zhǔn)無(wú)誤(100分),Sora卻多畫(huà)了一只(88.3分)。

  • 手勢(shì)語(yǔ)義:Hunyuan準(zhǔn)確執(zhí)行了“拇指向下”的指令(100分),而Kling則將其誤解為“豎起大拇指”,語(yǔ)義錯(cuò)誤(40分)。


04

未來(lái)展望

ETVA不僅為我們提供了一個(gè)更可靠、更精細(xì)的T2V模型評(píng)估工具,更重要的是,它通過(guò)精準(zhǔn)定位現(xiàn)有模型的弱點(diǎn),為下一代文生視頻技術(shù)的發(fā)展指明了方向。未來(lái),研究團(tuán)隊(duì)將把ETVA框架拓展至更復(fù)雜、多元的視頻場(chǎng)景中,為構(gòu)建真正“理解”用戶意圖的智能生成模型鋪平道路。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我們熟悉的她早已離世,29歲與男友墜機(jī)而亡,雙雙殞命大海之中

我們熟悉的她早已離世,29歲與男友墜機(jī)而亡,雙雙殞命大海之中

往史過(guò)眼云煙
2026-02-15 17:28:03
英媒:澳女超球隊(duì)邀請(qǐng)伊朗女足球員訓(xùn)練 她們有望留在澳洲踢球

英媒:澳女超球隊(duì)邀請(qǐng)伊朗女足球員訓(xùn)練 她們有望留在澳洲踢球

勁爆體壇
2026-03-10 22:38:10
2艘過(guò)氣055官宣,外媒反應(yīng)冷淡:20000噸新驅(qū)逐艦都要開(kāi)工了?

2艘過(guò)氣055官宣,外媒反應(yīng)冷淡:20000噸新驅(qū)逐艦都要開(kāi)工了?

策略述
2026-03-10 13:14:48
大眾汽車集團(tuán)2025年?duì)I業(yè)利潤(rùn)腰斬 CEO:到2030年,在德國(guó)將削減約5萬(wàn)個(gè)崗位

大眾汽車集團(tuán)2025年?duì)I業(yè)利潤(rùn)腰斬 CEO:到2030年,在德國(guó)將削減約5萬(wàn)個(gè)崗位

紅星新聞
2026-03-10 21:26:29
別了,沒(méi)熬過(guò)7年的保時(shí)捷 Taycan!

別了,沒(méi)熬過(guò)7年的保時(shí)捷 Taycan!

電科技網(wǎng)
2026-03-10 17:42:11
風(fēng)波升級(jí)!馬筱梅攤牌了,直播曝汪家猛料 難怪大S孩子有心理陰影

風(fēng)波升級(jí)!馬筱梅攤牌了,直播曝汪家猛料 難怪大S孩子有心理陰影

臨云史策
2026-03-10 12:08:49
小廠電腦被曝CPU造假,根源卻是巨頭的貪婪

小廠電腦被曝CPU造假,根源卻是巨頭的貪婪

三易生活
2026-03-09 19:47:38
暴漲的中歐機(jī)票,正在逼瘋中國(guó)差旅黨

暴漲的中歐機(jī)票,正在逼瘋中國(guó)差旅黨

勁旅網(wǎng)
2026-03-10 15:40:40
40歲保姆:拿著雇主的高工資提供特殊服務(wù),老公得知后和我離婚了

40歲保姆:拿著雇主的高工資提供特殊服務(wù),老公得知后和我離婚了

孢木情感
2026-03-10 18:38:23
王曼昱被大藤沙月橫掃,對(duì)抽簽無(wú)聲抗議,蒯曼和周啟豪取得開(kāi)門紅

王曼昱被大藤沙月橫掃,對(duì)抽簽無(wú)聲抗議,蒯曼和周啟豪取得開(kāi)門紅

子水體娛
2026-03-10 14:42:34
臨床已見(jiàn)成效!Cell重磅:中國(guó)團(tuán)隊(duì)開(kāi)發(fā)口服新藥,成功逆轉(zhuǎn)肝纖維化

臨床已見(jiàn)成效!Cell重磅:中國(guó)團(tuán)隊(duì)開(kāi)發(fā)口服新藥,成功逆轉(zhuǎn)肝纖維化

醫(yī)諾維
2026-03-09 17:06:16
正式解禁!轟動(dòng)整個(gè)NBA!文班讓聯(lián)盟第一人想退役了!

正式解禁!轟動(dòng)整個(gè)NBA!文班讓聯(lián)盟第一人想退役了!

晚霧空青
2026-03-10 11:22:09
唐嫣彭冠英官宣后,惡心的一幕出現(xiàn)了,婚變傳聞終于真相大白

唐嫣彭冠英官宣后,惡心的一幕出現(xiàn)了,婚變傳聞終于真相大白

艷姐的搞笑視頻
2026-01-16 13:24:42
55歲廣東名醫(yī)歐陽(yáng)衛(wèi)權(quán)突然離世,同學(xué)曝出死因,有患者哭了半小時(shí)

55歲廣東名醫(yī)歐陽(yáng)衛(wèi)權(quán)突然離世,同學(xué)曝出死因,有患者哭了半小時(shí)

社會(huì)日日鮮
2026-03-10 03:14:31
人有三不爭(zhēng):跟父母不爭(zhēng)口舌,跟朋友不爭(zhēng)面子,跟領(lǐng)導(dǎo)不爭(zhēng)高低

人有三不爭(zhēng):跟父母不爭(zhēng)口舌,跟朋友不爭(zhēng)面子,跟領(lǐng)導(dǎo)不爭(zhēng)高低

洞讀君
2026-03-10 10:53:01
終于有人管管美國(guó)了!美國(guó)遇到大麻煩,美國(guó):中美兩國(guó)需要攜手

終于有人管管美國(guó)了!美國(guó)遇到大麻煩,美國(guó):中美兩國(guó)需要攜手

福建平子
2026-01-28 10:52:25
你最爽的經(jīng)歷是什么?網(wǎng)友:約過(guò)一個(gè)比我大好幾歲的姐姐

你最爽的經(jīng)歷是什么?網(wǎng)友:約過(guò)一個(gè)比我大好幾歲的姐姐

帶你感受人間冷暖
2026-02-16 01:10:39
78歲連路都走不穩(wěn)還開(kāi)演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

78歲連路都走不穩(wěn)還開(kāi)演唱會(huì),全網(wǎng)罵聲一片,她卻揚(yáng)言回饋粉絲

洲洲影視娛評(píng)
2026-01-28 12:23:18
不靠美國(guó)市場(chǎng)!中國(guó)出口年初猛漲21.8%

不靠美國(guó)市場(chǎng)!中國(guó)出口年初猛漲21.8%

金投網(wǎng)
2026-03-10 20:38:43
全網(wǎng)售罄、價(jià)格暴漲!老板:以前堆成山都賣不掉!

全網(wǎng)售罄、價(jià)格暴漲!老板:以前堆成山都賣不掉!

珠海發(fā)布
2026-03-10 23:11:48
2026-03-11 04:15:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒(méi)那么差,但鱸魚(yú)會(huì)用嗎?

娛樂(lè)要聞

《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
公開(kāi)課
軍事航空

房產(chǎn)要聞

信號(hào)!千億巨頭入局,三亞開(kāi)啟新一輪大征拆!

親子要聞

家長(zhǎng)和同學(xué)們都應(yīng)該知道的20英里法則

藝術(shù)要聞

震撼!美國(guó)油畫(huà)家約書(shū)亞·拉洛克的作品讓人驚嘆不已!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

剛說(shuō)完戰(zhàn)爭(zhēng)很快結(jié)束 特朗普改口

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版