網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓AI看懂長(zhǎng)視頻：MBZUAI突破多模態(tài)視頻理解瓶頸

2025-12-24 16:40:21　來(lái)源: 科技行者

北京舉報(bào)

分享至

在人工智能快速發(fā)展的今天，教會(huì)機(jī)器理解視頻內(nèi)容變得越來(lái)越重要。然而，現(xiàn)有的AI系統(tǒng)在面對(duì)長(zhǎng)視頻時(shí)往往力不從心，就像讓一個(gè)只會(huì)看圖畫書的孩子突然去理解一部?jī)尚r(shí)的電影一樣困難。來(lái)自阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)（MBZUAI）的研究團(tuán)隊(duì)最近發(fā)表了一項(xiàng)突破性研究，為這個(gè)難題提供了全新的解決方案。

這項(xiàng)由Mohammed Irfan Kurpath領(lǐng)導(dǎo)的國(guó)際研究團(tuán)隊(duì)于2025年12月發(fā)表的研究論文，題為"A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos"。研究團(tuán)隊(duì)來(lái)自多個(gè)知名機(jī)構(gòu)，包括MBZUAI、貝魯特美國(guó)大學(xué)和瑞典林雪平大學(xué)。這篇論文首次提出了一個(gè)全面的長(zhǎng)視頻多模態(tài)理解基準(zhǔn)測(cè)試LongShOTBench，以及一個(gè)智能代理系統(tǒng)LongShOTAgent。

當(dāng)前的AI視頻理解技術(shù)面臨著一個(gè)根本性的矛盾：現(xiàn)有的評(píng)測(cè)方法要么專注于長(zhǎng)時(shí)間但忽略音頻信息，要么關(guān)注多模態(tài)但局限于短片段。這就好比讓一個(gè)人要么只用眼睛看一部無(wú)聲電影，要么只聽?zhēng)追昼姷钠闻湟?，然后要求他們完全理解整部電影的?nèi)容。研究團(tuán)隊(duì)意識(shí)到，真正的視頻理解需要同時(shí)處理視覺、語(yǔ)音和環(huán)境音頻信息，并且要在長(zhǎng)時(shí)間跨度內(nèi)保持連貫的推理能力。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)開發(fā)了LongShOTBench這一全新的評(píng)測(cè)基準(zhǔn)。這個(gè)基準(zhǔn)包含157個(gè)長(zhǎng)視頻，平均時(shí)長(zhǎng)達(dá)到45分鐘，總計(jì)超過(guò)117小時(shí)的視頻內(nèi)容。這些視頻不是簡(jiǎn)單的片段拼接，而是完整的連續(xù)內(nèi)容，涵蓋從烹飪教程到技術(shù)演示的各種場(chǎng)景。每個(gè)視頻都經(jīng)過(guò)精心的多模態(tài)標(biāo)注，確保視覺、音頻和語(yǔ)言信息的完整性。

LongShOTBench的創(chuàng)新之處在于它的評(píng)估方式。傳統(tǒng)的AI評(píng)測(cè)通常采用選擇題格式，這種方式就像只讓學(xué)生做填空題而不允許他們寫作文一樣，無(wú)法真正測(cè)試深層理解能力。相反，LongShOTBench采用開放式問(wèn)答和多輪對(duì)話的形式，更接近真實(shí)的人機(jī)交互場(chǎng)景。更重要的是，它還引入了工具使用能力的測(cè)試，允許AI系統(tǒng)調(diào)用外部工具來(lái)輔助理解，這就像給學(xué)生提供計(jì)算器、詞典等工具來(lái)完成復(fù)雜任務(wù)。

研究團(tuán)隊(duì)還開發(fā)了一套獨(dú)特的評(píng)分機(jī)制，稱為分級(jí)評(píng)價(jià)標(biāo)準(zhǔn)。這種評(píng)分方式不再是簡(jiǎn)單的對(duì)錯(cuò)判斷，而是像老師批改作文一樣，從多個(gè)維度進(jìn)行細(xì)致評(píng)估。每個(gè)問(wèn)題都配有詳細(xì)的評(píng)分標(biāo)準(zhǔn)，包括事實(shí)準(zhǔn)確性、時(shí)間定位能力、多模態(tài)信息整合等方面。這種評(píng)分方式能夠提供更加精確和可解釋的評(píng)估結(jié)果。

在技術(shù)架構(gòu)方面，研究團(tuán)隊(duì)提出了LongShOTAgent智能代理系統(tǒng)。這個(gè)系統(tǒng)采用模塊化設(shè)計(jì)，就像一個(gè)配備了各種專業(yè)工具的多面手技師。它的核心是一個(gè)輕量級(jí)的協(xié)調(diào)器，負(fù)責(zé)統(tǒng)籌調(diào)配各種專業(yè)模塊，包括視覺理解模塊、語(yǔ)音識(shí)別模塊和音頻分析模塊。當(dāng)面對(duì)復(fù)雜的視頻理解任務(wù)時(shí)，協(xié)調(diào)器會(huì)根據(jù)需要?jiǎng)討B(tài)選擇合適的工具組合。

LongShOTAgent的工作流程分為三個(gè)階段。首先是預(yù)處理和索引階段，系統(tǒng)會(huì)對(duì)輸入的長(zhǎng)視頻進(jìn)行分段處理，提取各種模態(tài)的特征信息，并建立多模態(tài)向量數(shù)據(jù)庫(kù)。這個(gè)過(guò)程類似于圖書管理員為新到的書籍編目和分類，為后續(xù)的快速檢索做好準(zhǔn)備。接下來(lái)是自適應(yīng)檢索階段，系統(tǒng)會(huì)根據(jù)用戶的查詢需求，智能地定位到最相關(guān)的視頻片段，避免在整個(gè)長(zhǎng)視頻中進(jìn)行低效搜索。最后是迭代優(yōu)化和綜合階段，系統(tǒng)會(huì)調(diào)用各種專業(yè)模塊對(duì)檢索到的片段進(jìn)行深入分析，并將結(jié)果整合成連貫的回答。

在實(shí)驗(yàn)評(píng)估中，研究團(tuán)隊(duì)測(cè)試了包括Gemini-2.5-Flash、Qwen2.5-Omni等在內(nèi)的多個(gè)先進(jìn)AI模型。結(jié)果顯示，即使是最強(qiáng)的商業(yè)模型Gemini-2.5-Flash也只達(dá)到了52.95%的整體準(zhǔn)確率，而開源模型的表現(xiàn)更是普遍低于30%。這個(gè)結(jié)果令人清醒地認(rèn)識(shí)到，當(dāng)前的AI技術(shù)在長(zhǎng)視頻理解方面仍有很大的提升空間。

有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)模型在處理不同長(zhǎng)度視頻時(shí)的表現(xiàn)存在明顯差異。在處理30分鐘以內(nèi)的短視頻時(shí)，模型表現(xiàn)相對(duì)較好，但隨著視頻長(zhǎng)度增加到60分鐘以上，性能明顯下降。這種現(xiàn)象類似于人類在長(zhǎng)時(shí)間專注時(shí)容易出現(xiàn)注意力分散，反映了當(dāng)前AI系統(tǒng)在長(zhǎng)時(shí)間記憶和推理方面的局限性。

LongShOTAgent在這次測(cè)試中表現(xiàn)出色，達(dá)到了44.66%的整體準(zhǔn)確率，雖然仍低于Gemini，但顯著超越了所有開源模型。這證明了通過(guò)合理的模塊化設(shè)計(jì)和智能協(xié)調(diào)，可以在不增加訓(xùn)練數(shù)據(jù)的情況下顯著提升系統(tǒng)性能。

研究團(tuán)隊(duì)還特別關(guān)注了工具使用能力的評(píng)估，這是傳統(tǒng)視頻理解基準(zhǔn)中缺失的重要能力。在現(xiàn)實(shí)應(yīng)用中，AI系統(tǒng)往往需要調(diào)用各種外部工具來(lái)完成復(fù)雜任務(wù)，比如進(jìn)行數(shù)學(xué)計(jì)算、查詢外部知識(shí)庫(kù)或執(zhí)行代碼。LongShOTBench包含了16種不同類型的工具，涵蓋語(yǔ)音處理、視覺理解、翻譯服務(wù)、計(jì)算工具和信息檢索等多個(gè)方面。

從數(shù)據(jù)構(gòu)建的角度來(lái)看，LongShOTBench的制作過(guò)程體現(xiàn)了嚴(yán)格的質(zhì)量控制標(biāo)準(zhǔn)。研究團(tuán)隊(duì)采用了五階段的自動(dòng)化流程，包括多模態(tài)標(biāo)注生成、問(wèn)題設(shè)計(jì)、答案生成、分級(jí)標(biāo)準(zhǔn)制定和人工驗(yàn)證。所有的問(wèn)題和答案都經(jīng)過(guò)了人工專家的審核和修正，確保了基準(zhǔn)測(cè)試的可靠性和有效性。

特別值得一提的是，研究團(tuán)隊(duì)在問(wèn)題設(shè)計(jì)時(shí)引入了情境框架的概念。他們沒(méi)有直接讓AI模型生成問(wèn)題，而是首先分析視頻內(nèi)容，識(shí)別出不同的觀看情境，然后基于這些情境設(shè)計(jì)相應(yīng)的問(wèn)題。這種方法更貼近真實(shí)的人類視頻觀看體驗(yàn)，能夠更好地評(píng)估AI系統(tǒng)的實(shí)用價(jià)值。

在多輪對(duì)話評(píng)估中，LongShOTBench采用了理想軌跡設(shè)置來(lái)避免錯(cuò)誤累積。這意味著在對(duì)話的每一輪中，系統(tǒng)都會(huì)基于標(biāo)準(zhǔn)答案而不是前一輪的錯(cuò)誤回答來(lái)繼續(xù)對(duì)話。這種設(shè)計(jì)確保了每一輪對(duì)話都能得到公平的評(píng)估，不會(huì)因?yàn)榍懊娴腻e(cuò)誤而影響后續(xù)表現(xiàn)。

從技術(shù)實(shí)現(xiàn)的角度看，LongShOTBench支持原生視頻輸入?yún)f(xié)議，避免了因?yàn)椴煌膸蓸硬呗远鴰?lái)的評(píng)估偏差。研究團(tuán)隊(duì)讓每個(gè)模型使用自己的默認(rèn)視頻處理方式，這樣的設(shè)計(jì)更加公平，也更接近實(shí)際應(yīng)用場(chǎng)景。

研究結(jié)果揭示了當(dāng)前AI系統(tǒng)在長(zhǎng)視頻理解方面的幾個(gè)關(guān)鍵瓶頸。首先是長(zhǎng)時(shí)間記憶問(wèn)題，現(xiàn)有模型難以在長(zhǎng)時(shí)間跨度內(nèi)維持一致的理解狀態(tài)。其次是多模態(tài)信息整合能力不足，許多模型雖然能夠處理視覺或音頻信息，但難以有效地將它們結(jié)合起來(lái)進(jìn)行推理。最后是工具使用能力的缺失，大多數(shù)模型缺乏調(diào)用外部工具來(lái)解決復(fù)雜問(wèn)題的能力。

這項(xiàng)研究的影響不僅僅局限于學(xué)術(shù)界。隨著視頻內(nèi)容在日常生活中的重要性不斷增加，從在線教育到娛樂(lè)媒體，從安防監(jiān)控到醫(yī)療診斷，長(zhǎng)視頻理解技術(shù)的應(yīng)用前景極其廣闊。LongShOTBench為這些應(yīng)用提供了標(biāo)準(zhǔn)化的評(píng)估框架，有助于推動(dòng)相關(guān)技術(shù)的發(fā)展和落地。

研究團(tuán)隊(duì)也坦率地討論了當(dāng)前研究的局限性。由于計(jì)算資源的限制，他們主要關(guān)注了參數(shù)量在10億以下的模型，并且視頻內(nèi)容主要來(lái)源于公開平臺(tái)，可能在多樣性方面存在一定局限。然而，他們承諾將逐步擴(kuò)大基準(zhǔn)測(cè)試的規(guī)模，并持續(xù)更新和完善評(píng)估框架。

從方法論的角度來(lái)看，這項(xiàng)研究展示了如何通過(guò)合理的任務(wù)分解和模塊化設(shè)計(jì)來(lái)解決復(fù)雜的AI問(wèn)題。LongShOTAgent的成功證明了，并不總是需要更大的模型和更多的訓(xùn)練數(shù)據(jù)，有時(shí)候智能的系統(tǒng)設(shè)計(jì)和有效的模塊協(xié)調(diào)同樣能夠帶來(lái)顯著的性能提升。

研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了可復(fù)現(xiàn)性的重要性。他們承諾將公開所有的代碼、數(shù)據(jù)和評(píng)估框架，使其他研究者能夠基于這個(gè)基礎(chǔ)進(jìn)行進(jìn)一步的研究和改進(jìn)。這種開放的研究態(tài)度對(duì)于推動(dòng)整個(gè)領(lǐng)域的發(fā)展具有重要意義。

展望未來(lái)，這項(xiàng)研究為長(zhǎng)視頻理解技術(shù)的發(fā)展指明了方向。隨著更強(qiáng)大的基礎(chǔ)模型和更高效的訓(xùn)練方法的出現(xiàn)，結(jié)合LongShOTBench提供的標(biāo)準(zhǔn)化評(píng)估框架，我們有理由相信AI系統(tǒng)在長(zhǎng)視頻理解方面將會(huì)取得更大的突破。同時(shí)，工具增強(qiáng)的AI代理系統(tǒng)也將在更多實(shí)際應(yīng)用中發(fā)揮重要作用。

Q&A

Q1：LongShOTBench相比其他視頻理解測(cè)試有什么特別之處？

A：LongShOTBench是首個(gè)同時(shí)關(guān)注長(zhǎng)時(shí)間跨度和多模態(tài)信息的綜合基準(zhǔn)。它包含平均45分鐘的長(zhǎng)視頻，同時(shí)整合視覺、語(yǔ)音和環(huán)境音頻信息，還引入了工具使用能力測(cè)試。傳統(tǒng)測(cè)試要么只看短片段，要么忽略音頻，LongShOTBench更接近真實(shí)的視頻理解需求。

Q2：為什么當(dāng)前最強(qiáng)的AI模型在LongShOTBench上表現(xiàn)不理想？

A：即使是Gemini-2.5-Flash這樣的頂級(jí)模型也只達(dá)到52.95%的準(zhǔn)確率，主要原因是長(zhǎng)視頻理解涉及多個(gè)技術(shù)難點(diǎn)：長(zhǎng)時(shí)間記憶維持困難、多模態(tài)信息整合復(fù)雜、工具使用能力不足。隨著視頻長(zhǎng)度增加，所有模型的表現(xiàn)都會(huì)顯著下降，這反映了當(dāng)前技術(shù)的局限性。

Q3：LongShOTAgent是如何工作的？

A：LongShOTAgent采用模塊化設(shè)計(jì)，包含一個(gè)輕量級(jí)協(xié)調(diào)器和多個(gè)專業(yè)模塊。它先對(duì)長(zhǎng)視頻進(jìn)行預(yù)處理和索引，建立多模態(tài)數(shù)據(jù)庫(kù)，然后根據(jù)查詢需求智能檢索相關(guān)片段，最后調(diào)用合適的專業(yè)模塊進(jìn)行分析并整合結(jié)果。這種設(shè)計(jì)在不增加訓(xùn)練的情況下顯著提升了性能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.