国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南京大學(xué)團(tuán)隊(duì)推出T2AV-Compass評(píng)測(cè)基準(zhǔn)

0
分享至


當(dāng)我們談?wù)撊斯ぶ悄苌梢曨l時(shí),大部分人首先想到的可能是那些炫酷的視覺(jué)效果。但你有沒(méi)有想過(guò),一個(gè)真正優(yōu)秀的AI視頻生成模型不僅要"看起來(lái)"逼真,更要"聽(tīng)起來(lái)"真實(shí)?南京大學(xué)NJU-LINK團(tuán)隊(duì)聯(lián)合快手科技Kling團(tuán)隊(duì)以及中科院自動(dòng)化研究所的研究人員,在2024年12月發(fā)布了一項(xiàng)開(kāi)創(chuàng)性研究成果——T2AV-Compass,這是全球首個(gè)專門(mén)針對(duì)文本生成音視頻同步內(nèi)容的綜合評(píng)測(cè)基準(zhǔn)。這項(xiàng)研究發(fā)表于最新的學(xué)術(shù)預(yù)印本論文中,編號(hào)為arXiv:2512.21094v1,為整個(gè)AI視頻生成領(lǐng)域建立了全新的評(píng)價(jià)標(biāo)準(zhǔn)。

要理解這項(xiàng)研究的重要性,我們可以把現(xiàn)有的AI視頻評(píng)測(cè)想象成一場(chǎng)只考"美術(shù)"的藝術(shù)考試。以往的評(píng)測(cè)系統(tǒng)主要關(guān)注視頻畫(huà)面是否清晰、動(dòng)作是否流暢,就像只看一幅畫(huà)是否畫(huà)得好看。但真實(shí)的世界是有聲音的——鳥(niǎo)兒啁啾、汽車(chē)轟鳴、人們交談,所有這些聲音都應(yīng)該與畫(huà)面完美同步。T2AV-Compass的出現(xiàn),就像是為這場(chǎng)藝術(shù)考試增加了"音樂(lè)"和"表演"科目,讓評(píng)測(cè)變得更加全面和真實(shí)。

現(xiàn)在的AI模型在生成文本到音視頻內(nèi)容時(shí)面臨著巨大挑戰(zhàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),市面上現(xiàn)有的評(píng)測(cè)基準(zhǔn)要么只關(guān)注視頻質(zhì)量,要么只關(guān)注音頻效果,很少有工具能夠綜合評(píng)估音頻和視頻是否真正匹配。這就像是分別考察一位歌手的歌聲和舞蹈技巧,卻從不看他們能否在舞臺(tái)上完美配合一樣。更關(guān)鍵的是,現(xiàn)有的評(píng)測(cè)往往使用相對(duì)簡(jiǎn)單的提示詞,無(wú)法真正測(cè)試AI模型在復(fù)雜場(chǎng)景下的表現(xiàn)能力。

一、構(gòu)建全新的評(píng)測(cè)"試題庫(kù)":500個(gè)精心設(shè)計(jì)的復(fù)雜場(chǎng)景

研究團(tuán)隊(duì)首先面臨的挑戰(zhàn)是如何設(shè)計(jì)一套真正能考驗(yàn)AI模型能力的"試題"。他們不滿足于簡(jiǎn)單的描述如"一只貓?jiān)谂懿?,而是要構(gòu)建那種能夠真正挑戰(zhàn)AI模型理解力和生成能力的復(fù)雜場(chǎng)景。

為了實(shí)現(xiàn)這個(gè)目標(biāo),研究人員采用了一種類似于教育專家設(shè)計(jì)高考試卷的方法。他們首先從多個(gè)高質(zhì)量來(lái)源收集了大量的原始提示詞,包括VidProM數(shù)據(jù)集、Kling AI社區(qū)、LMArena平臺(tái)以及Shot2Story數(shù)據(jù)集。但收集只是第一步,真正的挑戰(zhàn)在于如何從這些原始素材中篩選和構(gòu)造出真正有價(jià)值的測(cè)試場(chǎng)景。

研究團(tuán)隊(duì)使用了一種被稱為"語(yǔ)義聚類"的技術(shù)來(lái)處理這些原始數(shù)據(jù)??梢园堰@個(gè)過(guò)程想象成整理一個(gè)巨大的圖書(shū)館。他們使用all-mpnet-base-v2編碼器將所有的文本描述轉(zhuǎn)換成數(shù)字形式的"指紋",然后通過(guò)計(jì)算這些指紋的相似度來(lái)識(shí)別重復(fù)或近似的內(nèi)容。當(dāng)兩個(gè)描述的相似度超過(guò)0.8時(shí),系統(tǒng)就會(huì)認(rèn)為它們基本相同,從而避免重復(fù)。

更巧妙的是,研究團(tuán)隊(duì)采用了"平方根采樣"策略來(lái)確保測(cè)試場(chǎng)景的多樣性。這種方法的核心思想是讓那些常見(jiàn)的、簡(jiǎn)單的場(chǎng)景不要過(guò)度占據(jù)試題庫(kù),而要給那些罕見(jiàn)但重要的復(fù)雜場(chǎng)景更多的機(jī)會(huì)。具體來(lái)說(shuō),如果某類場(chǎng)景出現(xiàn)得很頻繁,系統(tǒng)會(huì)降低選擇它的概率;而那些出現(xiàn)較少但語(yǔ)義獨(dú)特的場(chǎng)景,則有更高的被選中概率。

在初步篩選后,研究團(tuán)隊(duì)并沒(méi)有滿足于機(jī)器處理的結(jié)果。他們使用Gemini-2.5-Pro這樣的先進(jìn)語(yǔ)言模型來(lái)重新改寫(xiě)和豐富這些提示詞。這個(gè)過(guò)程就像請(qǐng)一位經(jīng)驗(yàn)豐富的編劇來(lái)潤(rùn)色劇本一樣。AI助手會(huì)增強(qiáng)對(duì)視覺(jué)主體、動(dòng)作動(dòng)態(tài)和聲音事件的描述,同時(shí)確保嚴(yán)格的電影攝影約束條件。比如,一個(gè)簡(jiǎn)單的"女孩走路"可能被擴(kuò)展為"一個(gè)穿著復(fù)雜民族服裝的黑發(fā)苗族女孩,在陽(yáng)光灑向石板路的古鎮(zhèn)廣場(chǎng)上優(yōu)雅地行走,腳步聲與周?chē)沫h(huán)境音形成和諧的節(jié)奏"。

最終的精煉過(guò)程包括了嚴(yán)格的人工審查。研究人員會(huì)過(guò)濾掉那些包含靜態(tài)場(chǎng)景或邏輯不一致的提示詞,確保每個(gè)測(cè)試場(chǎng)景都足夠動(dòng)態(tài)和合理。經(jīng)過(guò)這個(gè)多輪篩選過(guò)程,研究團(tuán)隊(duì)獲得了400個(gè)復(fù)雜的、經(jīng)過(guò)精心設(shè)計(jì)的測(cè)試提示詞。

但研究團(tuán)隊(duì)還不滿足于此。他們意識(shí)到,僅僅依靠文本生成的場(chǎng)景可能會(huì)存在一些脫離現(xiàn)實(shí)的問(wèn)題。為了確保測(cè)試的真實(shí)性和物理合理性,研究團(tuán)隊(duì)添加了一個(gè)"現(xiàn)實(shí)世界視頻反推"的環(huán)節(jié)。他們從YouTube精選了100個(gè)高質(zhì)量的4-10秒視頻片段,這些視頻必須滿足嚴(yán)格的標(biāo)準(zhǔn):16:9的寬高比、最低720p的分辨率、豐富的聲音層次以及復(fù)雜的視覺(jué)內(nèi)容。然后,他們使用Gemini-2.5-Pro對(duì)這些真實(shí)視頻進(jìn)行密集的、時(shí)間對(duì)齊的文字描述。這樣產(chǎn)生的100個(gè)提示詞具有無(wú)可爭(zhēng)議的物理合理性,因?yàn)樗鼈冎苯觼?lái)源于真實(shí)世界的場(chǎng)景。

這500個(gè)最終的測(cè)試場(chǎng)景覆蓋了極其廣泛的復(fù)雜度范圍。從統(tǒng)計(jì)數(shù)據(jù)來(lái)看,這些場(chǎng)景的平均詞匯長(zhǎng)度達(dá)到了154個(gè)token,遠(yuǎn)遠(yuǎn)超過(guò)了現(xiàn)有基準(zhǔn)測(cè)試的長(zhǎng)度。更重要的是,35.8%的場(chǎng)景包含了4個(gè)或更多的視覺(jué)主體,55.6%的場(chǎng)景涉及混合的屏內(nèi)外音源,28.2%包含了4個(gè)或更多事件單元的長(zhǎng)敘述鏈,72.8%包含了同時(shí)發(fā)生或重疊的音頻事件。這些數(shù)字表明,T2AV-Compass確實(shí)成功構(gòu)建了一個(gè)能夠充分挑戰(zhàn)AI模型能力的高難度測(cè)試環(huán)境。

二、雙重評(píng)估體系:客觀指標(biāo)與主觀判斷的完美結(jié)合

僅僅有好的測(cè)試題目還不夠,還需要有公正準(zhǔn)確的"閱卷"方法。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)雙重評(píng)估框架,這個(gè)框架就像是結(jié)合了標(biāo)準(zhǔn)化考試的客觀評(píng)分和藝術(shù)評(píng)審的主觀判斷。

客觀評(píng)估部分就像是用精密儀器來(lái)測(cè)量各種技術(shù)指標(biāo)。在視頻質(zhì)量方面,研究團(tuán)隊(duì)使用了兩個(gè)互補(bǔ)的指標(biāo)。視頻技術(shù)分?jǐn)?shù)(VT)主要關(guān)注低層次的視覺(jué)完整性,使用DOVER++工具來(lái)評(píng)估代表性幀,專門(mén)檢測(cè)噪點(diǎn)、模糊和壓縮失真等技術(shù)缺陷??梢园堰@個(gè)指標(biāo)想象成顯微鏡檢查,專門(mén)尋找那些可能影響觀感的細(xì)微瑕疵。而視頻美學(xué)分?jǐn)?shù)(VA)則關(guān)注高層次的感知屬性,使用LAION美學(xué)預(yù)測(cè)器V2.5來(lái)評(píng)估構(gòu)圖、光照和色彩和諧等藝術(shù)元素。這就像是請(qǐng)一位藝術(shù)批評(píng)家來(lái)評(píng)判畫(huà)面的美感。

音頻質(zhì)量的評(píng)估同樣采用了雙重標(biāo)準(zhǔn)。感知質(zhì)量(PQ)測(cè)量信號(hào)保真度和聲學(xué)真實(shí)性,對(duì)背景噪聲、帶寬限制和不自然音色等問(wèn)題特別敏感。內(nèi)容有用性(CU)則量化語(yǔ)義有效性和信息密度,評(píng)估生成的音頻是否包含可識(shí)別的、有意義的聽(tīng)覺(jué)事件,而不是泛泛的質(zhì)感或模糊的噪聲。

跨模態(tài)對(duì)齊的評(píng)估可能是整個(gè)框架中最具創(chuàng)新性的部分。研究團(tuán)隊(duì)設(shè)計(jì)了四個(gè)不同的維度來(lái)全面評(píng)估音頻、視頻和文本之間的協(xié)調(diào)性。文本-音頻對(duì)齊使用CLAP模型來(lái)計(jì)算文本和音頻嵌入之間的余弦相似度。文本-視頻對(duì)齊通過(guò)VideoCLIP-XL-V2來(lái)測(cè)量文本和視頻特征嵌入之間的高級(jí)語(yǔ)義一致性。音頻-視頻對(duì)齊使用ImageBind來(lái)評(píng)估生成的音頻事件是否在語(yǔ)義上與視覺(jué)內(nèi)容對(duì)齊,而不依賴于文本提示。最后,時(shí)間同步評(píng)估使用Synchformer計(jì)算的DeSync(DS)來(lái)測(cè)量音頻和視覺(jué)事件發(fā)生時(shí)間之間的絕對(duì)偏移,還包括針對(duì)說(shuō)話場(chǎng)景的LatentSync(LS),這是一個(gè)基于SyncNet的唇音同步指標(biāo)。

主觀評(píng)估部分則體現(xiàn)了研究團(tuán)隊(duì)的另一個(gè)重要?jiǎng)?chuàng)新——"MLLM-as-a-Judge"協(xié)議。這個(gè)方法的核心思想是利用多模態(tài)大語(yǔ)言模型的強(qiáng)大理解能力來(lái)模擬人類評(píng)審。但與簡(jiǎn)單地讓AI"打分"不同,這個(gè)框架強(qiáng)制要求模型必須首先提供詳細(xì)的推理過(guò)程,然后才能給出評(píng)分。這就像是要求評(píng)審員不僅要說(shuō)出分?jǐn)?shù),還要詳細(xì)解釋為什么給出這個(gè)分?jǐn)?shù)。

指令跟隨能力的評(píng)估采用了一種分解式策略。研究團(tuán)隊(duì)首先從每個(gè)提示詞中提取可驗(yàn)證的問(wèn)答檢查清單,將抽象的指令轉(zhuǎn)化為具體可測(cè)量的約束條件。這個(gè)分類體系包含7個(gè)主要維度,細(xì)分為17個(gè)子維度。比如,"屬性"維度關(guān)注視覺(jué)準(zhǔn)確性,包括外觀和數(shù)量?jī)蓚€(gè)子方面。"動(dòng)態(tài)"維度評(píng)估動(dòng)態(tài)行為,包括運(yùn)動(dòng)、交互、變換和攝像機(jī)運(yùn)動(dòng)四個(gè)子方面。每個(gè)維度都有詳細(xì)的定義和評(píng)估標(biāo)準(zhǔn),確保評(píng)估的一致性和可重復(fù)性。

真實(shí)感評(píng)估則專注于物理和感知的真實(shí)性,獨(dú)立于文本提示的要求。這個(gè)評(píng)估分為視頻真實(shí)感和音頻真實(shí)感兩個(gè)部分。視頻真實(shí)感通過(guò)三個(gè)互補(bǔ)指標(biāo)來(lái)評(píng)估:動(dòng)作流暢度分?jǐn)?shù)(MSS)懲罰不自然的抖動(dòng)和不連續(xù)性,對(duì)象完整性分?jǐn)?shù)(OIS)檢測(cè)解剖學(xué)失真和偽影,時(shí)間連貫性分?jǐn)?shù)(TCS)評(píng)估對(duì)象持久性和合理的遮擋處理。音頻真實(shí)感通過(guò)聲學(xué)偽影分?jǐn)?shù)(AAS)來(lái)檢測(cè)噪聲和不自然的機(jī)械聲音,以及材質(zhì)-音色一致性(MTC)來(lái)驗(yàn)證聲音音色是否正確匹配視覺(jué)材料的物理屬性。

這種雙重評(píng)估體系的設(shè)計(jì)理念是讓客觀指標(biāo)提供穩(wěn)定可比的技術(shù)基礎(chǔ),而主觀評(píng)估則捕捉那些自動(dòng)化指標(biāo)難以量化的細(xì)微語(yǔ)義細(xì)節(jié)和復(fù)雜跨模態(tài)動(dòng)態(tài)。通過(guò)這種組合,T2AV-Compass能夠提供全面而準(zhǔn)確的模型性能評(píng)估。

三、"音頻真實(shí)感瓶頸"的重要發(fā)現(xiàn):當(dāng)前AI模型的關(guān)鍵弱點(diǎn)

研究團(tuán)隊(duì)使用T2AV-Compass對(duì)11個(gè)代表性的文本到音視頻生成系統(tǒng)進(jìn)行了全面評(píng)估,這些系統(tǒng)包括7個(gè)閉源端到端模型、2個(gè)開(kāi)源端到端模型以及2個(gè)組合生成管道。評(píng)估結(jié)果揭示了一個(gè)令人意外但又發(fā)人深省的現(xiàn)象——"音頻真實(shí)感瓶頸"。

在詳細(xì)分析各個(gè)模型的表現(xiàn)時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)清晰的性能分層。在閉源模型中,Veo-3.1表現(xiàn)最為突出,在綜合平均分上達(dá)到了70.29分,顯示出相對(duì)均衡的能力。Sora-2和Kling-2.6緊隨其后,分別獲得69.83分和68.16分。這些頂級(jí)模型在視頻生成方面都表現(xiàn)出色,但它們的音頻表現(xiàn)卻令人擔(dān)憂。

最引人注目的發(fā)現(xiàn)是所有模型在音頻真實(shí)感方面的普遍弱勢(shì)。即使是表現(xiàn)最好的Seedance-1.5,在音頻真實(shí)感維度上也只獲得了53.84分,而大多數(shù)模型在這個(gè)維度上的得分都徘徊在30-50分之間。相比之下,這些相同的模型在視頻相關(guān)任務(wù)上的表現(xiàn)要好得多,比如Veo-3.1在視頻真實(shí)感方面獲得了87.14分。

這種巨大的性能差距暴露了當(dāng)前AI技術(shù)發(fā)展的一個(gè)重要不平衡現(xiàn)象??梢园熏F(xiàn)在的AI視頻生成模型想象成一位技藝精湛的畫(huà)家,能夠創(chuàng)作出視覺(jué)上令人驚嘆的作品,但在處理聲音時(shí)卻像是一個(gè)剛學(xué)會(huì)使用錄音設(shè)備的新手。這種不平衡不僅影響了生成內(nèi)容的整體質(zhì)量,也限制了這些模型在實(shí)際應(yīng)用中的效果。

通過(guò)深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)音頻真實(shí)感問(wèn)題主要集中在幾個(gè)關(guān)鍵方面。首先是材質(zhì)-音色一致性(MTC)得分普遍較低,這意味著模型很難準(zhǔn)確地根據(jù)視覺(jué)材料生成相應(yīng)的聲音質(zhì)感。比如,當(dāng)畫(huà)面中顯示金屬物體碰撞時(shí),生成的聲音可能聽(tīng)起來(lái)更像是塑料或木材的碰撞聲。其次是聲學(xué)偽影分?jǐn)?shù)(AAS)表現(xiàn)不佳,表明生成的音頻經(jīng)常包含不自然的電子音色、金屬質(zhì)感或其他明顯的人工痕跡。

在跨模態(tài)對(duì)齊方面,研究結(jié)果同樣令人關(guān)注。大多數(shù)模型在音視頻對(duì)齊(A-V)上的表現(xiàn)相對(duì)較弱,這表明生成的音頻事件往往無(wú)法與視覺(jué)內(nèi)容在語(yǔ)義上保持一致。更困難的是時(shí)間同步,DeSync分?jǐn)?shù)顯示許多模型在確保音頻和視覺(jué)事件精確同步方面還有很大改進(jìn)空間。

有趣的是,研究還發(fā)現(xiàn)了組合管道方法的一些優(yōu)勢(shì)。比如,Wan-2.2與HunyuanFoley的組合在視頻真實(shí)感方面獲得了89.63分,超過(guò)了所有端到端模型。這表明將專門(mén)的專家模型串聯(lián)起來(lái)可以在特定指標(biāo)上保持更好的單模態(tài)保真度,產(chǎn)生優(yōu)越的感知質(zhì)量。

研究團(tuán)隊(duì)還進(jìn)行了更細(xì)粒度的分析,發(fā)現(xiàn)不同模型在各個(gè)子維度上的表現(xiàn)存在顯著差異。在視頻指令跟隨的六個(gè)主要維度中,Veo-3.1和Wan-2.5始終構(gòu)成第一梯隊(duì),在美學(xué)、屬性和電影攝影等維度上表現(xiàn)出強(qiáng)大而平衡的性能。Sora-2在靜態(tài)為中心的維度(如屬性和世界知識(shí))上保持高度競(jìng)爭(zhēng)力,甚至在后者上超過(guò)了其他領(lǐng)先者,這表明它在事實(shí)和自然主義基礎(chǔ)方面有著強(qiáng)大的先驗(yàn)知識(shí)。

然而,動(dòng)態(tài)維度對(duì)所有系統(tǒng)來(lái)說(shuō)都是最具挑戰(zhàn)性和區(qū)分性的。這個(gè)維度要求模型不僅要生成靜態(tài)的高質(zhì)量畫(huà)面,還要維持復(fù)雜的時(shí)間連貫性和交互作用。Wan-2.5在動(dòng)態(tài)維度上達(dá)到了峰值分?jǐn)?shù),Veo-3.1緊隨其后,這突出了它們?cè)趫?zhí)行以運(yùn)動(dòng)為中心的指令方面的相對(duì)優(yōu)勢(shì)。相比之下,Sora-2在這個(gè)類別中表現(xiàn)出明顯的下降,暗示在維持復(fù)雜時(shí)間連貫性和交互作用方面存在潛在瓶頸。

四、技術(shù)創(chuàng)新與方法學(xué)貢獻(xiàn):重新定義評(píng)估標(biāo)準(zhǔn)

T2AV-Compass的技術(shù)創(chuàng)新不僅體現(xiàn)在評(píng)估結(jié)果上,更重要的是它在方法學(xué)上的突破。這項(xiàng)研究從根本上重新思考了如何評(píng)估多模態(tài)生成模型的問(wèn)題。

首先是分類驅(qū)動(dòng)的數(shù)據(jù)構(gòu)建方法的創(chuàng)新。傳統(tǒng)的評(píng)估基準(zhǔn)往往依賴于隨機(jī)采樣或簡(jiǎn)單的人工構(gòu)造,這樣得到的測(cè)試集可能無(wú)法充分覆蓋模型能力的各個(gè)方面。研究團(tuán)隊(duì)采用的分類驅(qū)動(dòng)方法確保了測(cè)試場(chǎng)景的系統(tǒng)性和完整性。他們構(gòu)建了一個(gè)詳細(xì)的分類體系,涵蓋了內(nèi)容類型、主要主體、事件場(chǎng)景、聲音類別和攝像機(jī)運(yùn)動(dòng)等多個(gè)維度,然后確保最終的測(cè)試集在所有這些維度上都有充分的代表性。

特別值得注意的是,研究團(tuán)隊(duì)在構(gòu)建測(cè)試場(chǎng)景時(shí)特別關(guān)注了那些容易被忽視但實(shí)際上非常重要的復(fù)雜現(xiàn)象。比如,55.6%的測(cè)試場(chǎng)景包含了混合的屏內(nèi)外音源,這種設(shè)計(jì)專門(mén)測(cè)試模型是否能夠正確處理那些在畫(huà)面中看不到但應(yīng)該能聽(tīng)到的聲音源。28.2%的場(chǎng)景包含了長(zhǎng)敘述鏈,測(cè)試模型維持長(zhǎng)期連貫性的能力。72.8%的場(chǎng)景包含了同時(shí)或重疊的音頻事件,這對(duì)模型的多音軌處理能力提出了更高要求。

推理優(yōu)先的MLLM評(píng)估協(xié)議是另一個(gè)重要的方法學(xué)創(chuàng)新。傳統(tǒng)的自動(dòng)化評(píng)估往往直接給出分?jǐn)?shù),而沒(méi)有解釋評(píng)分的理由,這使得評(píng)估結(jié)果難以解釋和改進(jìn)。T2AV-Compass強(qiáng)制要求評(píng)估模型在給出分?jǐn)?shù)之前必須提供詳細(xì)的推理過(guò)程。這種設(shè)計(jì)不僅提高了評(píng)估的可解釋性,也提高了評(píng)估的準(zhǔn)確性,因?yàn)樗仁乖u(píng)估模型更仔細(xì)地分析內(nèi)容。

研究團(tuán)隊(duì)還開(kāi)發(fā)了一套詳細(xì)的檢查清單生成方法。對(duì)于每個(gè)測(cè)試提示詞,系統(tǒng)會(huì)自動(dòng)生成一系列具體的二元問(wèn)題,這些問(wèn)題涵蓋了指令的所有重要方面。比如,對(duì)于一個(gè)描述"女孩在雨中奔跑"的場(chǎng)景,系統(tǒng)可能會(huì)生成諸如"視頻中是否顯示了雨滴"、"女孩是否表現(xiàn)出奔跑的動(dòng)作"、"是否能聽(tīng)到腳步聲和雨聲"等具體問(wèn)題。這種方法將抽象的評(píng)估任務(wù)轉(zhuǎn)化為具體的、可操作的檢查項(xiàng)目。

在真實(shí)感評(píng)估方面,研究團(tuán)隊(duì)的創(chuàng)新在于將評(píng)估完全獨(dú)立于文本提示。傳統(tǒng)的評(píng)估往往混合了"是否跟隨指令"和"是否真實(shí)合理"這兩個(gè)不同的問(wèn)題。T2AV-Compass明確區(qū)分了這兩個(gè)方面,真實(shí)感評(píng)估專門(mén)關(guān)注生成內(nèi)容的物理合理性和感知質(zhì)量,不管它是否完全符合原始指令。這種設(shè)計(jì)使得評(píng)估結(jié)果更加精確和有針對(duì)性。

研究還在跨模態(tài)對(duì)齊評(píng)估方面做出了重要貢獻(xiàn)?,F(xiàn)有的大多數(shù)評(píng)估要么只關(guān)注單一模態(tài),要么使用簡(jiǎn)單的相似度計(jì)算。T2AV-Compass設(shè)計(jì)了一套多層次的對(duì)齊評(píng)估體系,不僅評(píng)估語(yǔ)義對(duì)齊,還評(píng)估時(shí)間同步。特別是DeSync和LatentSync指標(biāo)的引入,為精確測(cè)量音視頻時(shí)間對(duì)齊提供了量化工具。

五、實(shí)踐意義與未來(lái)展望:為AI發(fā)展指明方向

T2AV-Compass的發(fā)布不僅僅是一個(gè)新評(píng)估工具的出現(xiàn),更代表了AI視頻生成領(lǐng)域發(fā)展方向的重要轉(zhuǎn)折點(diǎn)。這個(gè)基準(zhǔn)的實(shí)踐意義體現(xiàn)在多個(gè)層面。

對(duì)于AI研究人員和開(kāi)發(fā)者來(lái)說(shuō),T2AV-Compass提供了一個(gè)統(tǒng)一的評(píng)估標(biāo)準(zhǔn),使得不同模型之間的比較變得可能和有意義。在此之前,各個(gè)研究團(tuán)隊(duì)往往使用自己的評(píng)估方法,這使得很難判斷哪種方法真正更有效?,F(xiàn)在,研究人員可以使用T2AV-Compass來(lái)客觀評(píng)估他們的模型性能,識(shí)別具體的改進(jìn)方向。

"音頻真實(shí)感瓶頸"的發(fā)現(xiàn)為整個(gè)行業(yè)指出了一個(gè)關(guān)鍵的發(fā)展方向。研究結(jié)果表明,當(dāng)前的AI模型在音頻生成方面存在系統(tǒng)性的不足,這為未來(lái)的研究和開(kāi)發(fā)提供了明確的目標(biāo)。可以預(yù)見(jiàn),接下來(lái)的AI模型發(fā)展將更多地關(guān)注音頻質(zhì)量的提升,特別是在材質(zhì)-音色一致性和時(shí)間同步方面。

對(duì)于實(shí)際應(yīng)用而言,T2AV-Compass的發(fā)現(xiàn)有助于用戶更好地理解當(dāng)前AI視頻生成技術(shù)的局限性和適用范圍。比如,對(duì)于那些對(duì)音頻質(zhì)量要求較高的應(yīng)用(如影視制作、音樂(lè)視頻等),用戶可能需要結(jié)合專業(yè)的音頻后期處理工具來(lái)彌補(bǔ)AI模型的不足。而對(duì)于那些主要關(guān)注視覺(jué)效果的應(yīng)用,當(dāng)前的技術(shù)已經(jīng)能夠提供相當(dāng)不錯(cuò)的效果。

研究團(tuán)隊(duì)還在論文中提出了幾個(gè)重要的未來(lái)研究方向。首先是開(kāi)發(fā)原生的音視頻聯(lián)合擴(kuò)散架構(gòu),而不是簡(jiǎn)單地將音頻和視頻生成模型組合在一起。當(dāng)前許多系統(tǒng)采用的組合方法雖然在某些指標(biāo)上表現(xiàn)良好,但在跨模態(tài)物理關(guān)聯(lián)的捕捉方面仍有不足。原生的聯(lián)合架構(gòu)可能能夠更好地學(xué)習(xí)音視頻之間的內(nèi)在關(guān)聯(lián)。

其次是擴(kuò)展到長(zhǎng)時(shí)長(zhǎng)視頻評(píng)估的需要。當(dāng)前的T2AV-Compass主要針對(duì)較短的視頻片段(通常在10秒以內(nèi)),但實(shí)際應(yīng)用中往往需要生成更長(zhǎng)的內(nèi)容。長(zhǎng)視頻的評(píng)估面臨著更大的挑戰(zhàn),包括如何維持長(zhǎng)期連貫性、如何處理更復(fù)雜的敘事結(jié)構(gòu)等。

還有一個(gè)重要的發(fā)展方向是開(kāi)發(fā)輕量化的評(píng)估器。當(dāng)前的評(píng)估過(guò)程需要大量的計(jì)算資源,特別是MLLM-as-a-Judge協(xié)議。開(kāi)發(fā)更高效的評(píng)估方法將使T2AV-Compass能夠更廣泛地應(yīng)用于模型開(kāi)發(fā)和優(yōu)化過(guò)程中。

人機(jī)協(xié)作評(píng)估也是一個(gè)值得探索的方向。雖然自動(dòng)化評(píng)估提供了客觀性和可重復(fù)性,但人類評(píng)估在捕捉細(xì)微的感知差異和美學(xué)判斷方面仍有獨(dú)特優(yōu)勢(shì)。將人類反饋整合到評(píng)估框架中,可能會(huì)進(jìn)一步提高評(píng)估的準(zhǔn)確性和實(shí)用性。

從更廣泛的角度來(lái)看,T2AV-Compass的成功為其他多模態(tài)AI任務(wù)的評(píng)估提供了有價(jià)值的參考。隨著AI技術(shù)向更復(fù)雜的多模態(tài)交互方向發(fā)展,我們需要更多像T2AV-Compass這樣的綜合評(píng)估工具來(lái)確保技術(shù)發(fā)展的方向正確和質(zhì)量可控。

說(shuō)到底,T2AV-Compass的真正價(jià)值不僅在于它提供了一個(gè)評(píng)估工具,更在于它為整個(gè)AI視頻生成領(lǐng)域建立了一個(gè)新的質(zhì)量標(biāo)準(zhǔn)和發(fā)展目標(biāo)。通過(guò)明確指出當(dāng)前技術(shù)的優(yōu)勢(shì)和不足,它為未來(lái)的研究提供了清晰的路線圖。隨著更多研究團(tuán)隊(duì)采用這個(gè)基準(zhǔn),我們可以期待看到AI視頻生成技術(shù)在音視頻同步、真實(shí)感和指令跟隨等關(guān)鍵方面的顯著改進(jìn)。最終,這將使AI生成的視頻內(nèi)容能夠真正達(dá)到人類創(chuàng)作的質(zhì)量水準(zhǔn),為各種創(chuàng)意應(yīng)用開(kāi)辟新的可能性。

Q&A

Q1:T2AV-Compass是什么?

A:T2AV-Compass是由南京大學(xué)NJU-LINK團(tuán)隊(duì)聯(lián)合快手科技等機(jī)構(gòu)開(kāi)發(fā)的全球首個(gè)文本到音視頻生成模型綜合評(píng)測(cè)基準(zhǔn)。它包含500個(gè)復(fù)雜場(chǎng)景測(cè)試題和雙重評(píng)估體系,專門(mén)用來(lái)測(cè)試AI模型能否根據(jù)文字描述生成音畫(huà)同步、真實(shí)自然的視頻內(nèi)容。

Q2:什么是"音頻真實(shí)感瓶頸"問(wèn)題?

A:"音頻真實(shí)感瓶頸"是研究團(tuán)隊(duì)發(fā)現(xiàn)的當(dāng)前AI視頻模型的主要弱點(diǎn)。即使是最好的模型,在音頻真實(shí)感方面的得分也只有50分左右,遠(yuǎn)低于視頻質(zhì)量的80-90分。這意味著AI模型雖然能生成漂亮的畫(huà)面,但生成的聲音往往聽(tīng)起來(lái)不夠自然或與畫(huà)面不匹配。

Q3:T2AV-Compass如何評(píng)估AI模型的表現(xiàn)?

A:T2AV-Compass采用雙重評(píng)估體系。客觀評(píng)估使用技術(shù)指標(biāo)測(cè)量視頻質(zhì)量、音頻質(zhì)量和音視頻同步程度。主觀評(píng)估則讓AI充當(dāng)"評(píng)委",先分析推理再打分,重點(diǎn)檢查模型是否準(zhǔn)確跟隨文字指令以及生成內(nèi)容是否真實(shí)合理。這種組合確保了評(píng)估的全面性和準(zhǔn)確性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
財(cái)政部部長(zhǎng)藍(lán)佛安:明年繼續(xù)“國(guó)補(bǔ)”,支持消費(fèi)品以舊換新

財(cái)政部部長(zhǎng)藍(lán)佛安:明年繼續(xù)“國(guó)補(bǔ)”,支持消費(fèi)品以舊換新

極目新聞
2025-12-28 15:45:56
成都豐田爆炸原因曝光,現(xiàn)場(chǎng)一片狼藉損失慘重

成都豐田爆炸原因曝光,現(xiàn)場(chǎng)一片狼藉損失慘重

映射生活的身影
2025-12-28 19:35:49
外國(guó)人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國(guó)人吃

外國(guó)人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國(guó)人吃

帶你感受人間冷暖
2025-12-26 00:05:14
火藥味,越來(lái)越濃了!

火藥味,越來(lái)越濃了!

子說(shuō)一點(diǎn)
2025-12-27 18:36:54
俄絕不答應(yīng)!剛拿到中方48億投資,轉(zhuǎn)頭就給美國(guó)送去“大禮”?

俄絕不答應(yīng)!剛拿到中方48億投資,轉(zhuǎn)頭就給美國(guó)送去“大禮”?

花花娛界
2025-12-28 20:28:50
毛新宇攜家人祭奠爺爺:17歲漂亮女兒正面照流出,一畫(huà)面信息量大

毛新宇攜家人祭奠爺爺:17歲漂亮女兒正面照流出,一畫(huà)面信息量大

博士觀察
2025-12-27 10:54:27
剛剛,20家公司出現(xiàn)重大利好和利空公告,有沒(méi)有與你相關(guān)的個(gè)股?

剛剛,20家公司出現(xiàn)重大利好和利空公告,有沒(méi)有與你相關(guān)的個(gè)股?

股市皆大事
2025-12-28 09:50:10
當(dāng)下,請(qǐng)你做好隨時(shí)失去一切的準(zhǔn)備。

當(dāng)下,請(qǐng)你做好隨時(shí)失去一切的準(zhǔn)備。

詩(shī)詞中國(guó)
2025-12-28 17:43:04
大量海外版回音壁流入閑魚(yú)!100W大功率帶低音炮,低至288元

大量海外版回音壁流入閑魚(yú)!100W大功率帶低音炮,低至288元

閑搞機(jī)
2025-12-28 11:06:20
美國(guó)國(guó)務(wù)院發(fā)火,要求中國(guó)大陸“必須停止”,島內(nèi)一個(gè)時(shí)代或終結(jié)

美國(guó)國(guó)務(wù)院發(fā)火,要求中國(guó)大陸“必須停止”,島內(nèi)一個(gè)時(shí)代或終結(jié)

三石記
2025-12-27 15:03:24
這家浙江工廠訂單多到做不完,老板:春節(jié)先放20天假,再發(fā)2000元

這家浙江工廠訂單多到做不完,老板:春節(jié)先放20天假,再發(fā)2000元

搗蛋窩
2025-12-28 15:40:13
54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門(mén)+阿森納顫抖

54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門(mén)+阿森納顫抖

我愛(ài)英超
2025-12-28 03:55:16
洪都拉斯準(zhǔn)總統(tǒng)公開(kāi)喊話:與臺(tái)灣合作,要比與大陸合作好100倍

洪都拉斯準(zhǔn)總統(tǒng)公開(kāi)喊話:與臺(tái)灣合作,要比與大陸合作好100倍

策略述
2025-12-28 14:25:37
闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門(mén)夢(mèng)破碎

闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門(mén)夢(mèng)破碎

花哥扒娛樂(lè)
2025-12-28 19:49:42
連續(xù)下跌10年的“中字頭”,有的橫盤(pán)8年,有的已跌85%!

連續(xù)下跌10年的“中字頭”,有的橫盤(pán)8年,有的已跌85%!

財(cái)經(jīng)智多星
2025-12-28 13:25:52
天山勝利隧道通車(chē)!其意義不亞于中國(guó)建造航母,對(duì)新疆意味什么?

天山勝利隧道通車(chē)!其意義不亞于中國(guó)建造航母,對(duì)新疆意味什么?

特特農(nóng)村生活
2025-12-28 01:00:36
比液冷還猛?英偉達(dá)Rubin引爆HVLP4銅箔   國(guó)產(chǎn)9龍頭迎接海外訂單

比液冷還猛?英偉達(dá)Rubin引爆HVLP4銅箔 國(guó)產(chǎn)9龍頭迎接海外訂單

元芳說(shuō)投資
2025-12-28 06:00:11
日本選手在南京奪冠!頒獎(jiǎng)靠邊站,蒯曼想讓她捧杯,秦志戩沒(méi)同意

日本選手在南京奪冠!頒獎(jiǎng)靠邊站,蒯曼想讓她捧杯,秦志戩沒(méi)同意

三十年萊斯特城球迷
2025-12-28 17:22:15
曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

裕豐娛間說(shuō)
2025-12-28 00:07:11
貝克漢姆26歲長(zhǎng)子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯(lián)

貝克漢姆26歲長(zhǎng)子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯(lián)

譯言
2025-12-27 09:33:47
2025-12-28 21:16:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
數(shù)碼
本地
公開(kāi)課

藝術(shù)要聞

驚艷!陳紅20年前沙發(fā)照曝光,宛如人間尤物!

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

數(shù)碼要聞

AM4老兵不死:銳龍7 5800X登上銷量榜首!前十有4款是AM4

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版