国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓AI看懂長(zhǎng)視頻:MBZUAI突破多模態(tài)視頻理解瓶頸

0
分享至


在人工智能快速發(fā)展的今天,教會(huì)機(jī)器理解視頻內(nèi)容變得越來(lái)越重要。然而,現(xiàn)有的AI系統(tǒng)在面對(duì)長(zhǎng)視頻時(shí)往往力不從心,就像讓一個(gè)只會(huì)看圖畫書的孩子突然去理解一部?jī)尚r(shí)的電影一樣困難。來(lái)自阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)的研究團(tuán)隊(duì)最近發(fā)表了一項(xiàng)突破性研究,為這個(gè)難題提供了全新的解決方案。

這項(xiàng)由Mohammed Irfan Kurpath領(lǐng)導(dǎo)的國(guó)際研究團(tuán)隊(duì)于2025年12月發(fā)表的研究論文,題為"A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos"。研究團(tuán)隊(duì)來(lái)自多個(gè)知名機(jī)構(gòu),包括MBZUAI、貝魯特美國(guó)大學(xué)和瑞典林雪平大學(xué)。這篇論文首次提出了一個(gè)全面的長(zhǎng)視頻多模態(tài)理解基準(zhǔn)測(cè)試LongShOTBench,以及一個(gè)智能代理系統(tǒng)LongShOTAgent。

當(dāng)前的AI視頻理解技術(shù)面臨著一個(gè)根本性的矛盾:現(xiàn)有的評(píng)測(cè)方法要么專注于長(zhǎng)時(shí)間但忽略音頻信息,要么關(guān)注多模態(tài)但局限于短片段。這就好比讓一個(gè)人要么只用眼睛看一部無(wú)聲電影,要么只聽?zhēng)追昼姷钠闻湟?,然后要求他們完全理解整部電影的?nèi)容。研究團(tuán)隊(duì)意識(shí)到,真正的視頻理解需要同時(shí)處理視覺、語(yǔ)音和環(huán)境音頻信息,并且要在長(zhǎng)時(shí)間跨度內(nèi)保持連貫的推理能力。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了LongShOTBench這一全新的評(píng)測(cè)基準(zhǔn)。這個(gè)基準(zhǔn)包含157個(gè)長(zhǎng)視頻,平均時(shí)長(zhǎng)達(dá)到45分鐘,總計(jì)超過(guò)117小時(shí)的視頻內(nèi)容。這些視頻不是簡(jiǎn)單的片段拼接,而是完整的連續(xù)內(nèi)容,涵蓋從烹飪教程到技術(shù)演示的各種場(chǎng)景。每個(gè)視頻都經(jīng)過(guò)精心的多模態(tài)標(biāo)注,確保視覺、音頻和語(yǔ)言信息的完整性。

LongShOTBench的創(chuàng)新之處在于它的評(píng)估方式。傳統(tǒng)的AI評(píng)測(cè)通常采用選擇題格式,這種方式就像只讓學(xué)生做填空題而不允許他們寫作文一樣,無(wú)法真正測(cè)試深層理解能力。相反,LongShOTBench采用開放式問(wèn)答和多輪對(duì)話的形式,更接近真實(shí)的人機(jī)交互場(chǎng)景。更重要的是,它還引入了工具使用能力的測(cè)試,允許AI系統(tǒng)調(diào)用外部工具來(lái)輔助理解,這就像給學(xué)生提供計(jì)算器、詞典等工具來(lái)完成復(fù)雜任務(wù)。

研究團(tuán)隊(duì)還開發(fā)了一套獨(dú)特的評(píng)分機(jī)制,稱為分級(jí)評(píng)價(jià)標(biāo)準(zhǔn)。這種評(píng)分方式不再是簡(jiǎn)單的對(duì)錯(cuò)判斷,而是像老師批改作文一樣,從多個(gè)維度進(jìn)行細(xì)致評(píng)估。每個(gè)問(wèn)題都配有詳細(xì)的評(píng)分標(biāo)準(zhǔn),包括事實(shí)準(zhǔn)確性、時(shí)間定位能力、多模態(tài)信息整合等方面。這種評(píng)分方式能夠提供更加精確和可解釋的評(píng)估結(jié)果。

在技術(shù)架構(gòu)方面,研究團(tuán)隊(duì)提出了LongShOTAgent智能代理系統(tǒng)。這個(gè)系統(tǒng)采用模塊化設(shè)計(jì),就像一個(gè)配備了各種專業(yè)工具的多面手技師。它的核心是一個(gè)輕量級(jí)的協(xié)調(diào)器,負(fù)責(zé)統(tǒng)籌調(diào)配各種專業(yè)模塊,包括視覺理解模塊、語(yǔ)音識(shí)別模塊和音頻分析模塊。當(dāng)面對(duì)復(fù)雜的視頻理解任務(wù)時(shí),協(xié)調(diào)器會(huì)根據(jù)需要?jiǎng)討B(tài)選擇合適的工具組合。

LongShOTAgent的工作流程分為三個(gè)階段。首先是預(yù)處理和索引階段,系統(tǒng)會(huì)對(duì)輸入的長(zhǎng)視頻進(jìn)行分段處理,提取各種模態(tài)的特征信息,并建立多模態(tài)向量數(shù)據(jù)庫(kù)。這個(gè)過(guò)程類似于圖書管理員為新到的書籍編目和分類,為后續(xù)的快速檢索做好準(zhǔn)備。接下來(lái)是自適應(yīng)檢索階段,系統(tǒng)會(huì)根據(jù)用戶的查詢需求,智能地定位到最相關(guān)的視頻片段,避免在整個(gè)長(zhǎng)視頻中進(jìn)行低效搜索。最后是迭代優(yōu)化和綜合階段,系統(tǒng)會(huì)調(diào)用各種專業(yè)模塊對(duì)檢索到的片段進(jìn)行深入分析,并將結(jié)果整合成連貫的回答。

在實(shí)驗(yàn)評(píng)估中,研究團(tuán)隊(duì)測(cè)試了包括Gemini-2.5-Flash、Qwen2.5-Omni等在內(nèi)的多個(gè)先進(jìn)AI模型。結(jié)果顯示,即使是最強(qiáng)的商業(yè)模型Gemini-2.5-Flash也只達(dá)到了52.95%的整體準(zhǔn)確率,而開源模型的表現(xiàn)更是普遍低于30%。這個(gè)結(jié)果令人清醒地認(rèn)識(shí)到,當(dāng)前的AI技術(shù)在長(zhǎng)視頻理解方面仍有很大的提升空間。

有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)模型在處理不同長(zhǎng)度視頻時(shí)的表現(xiàn)存在明顯差異。在處理30分鐘以內(nèi)的短視頻時(shí),模型表現(xiàn)相對(duì)較好,但隨著視頻長(zhǎng)度增加到60分鐘以上,性能明顯下降。這種現(xiàn)象類似于人類在長(zhǎng)時(shí)間專注時(shí)容易出現(xiàn)注意力分散,反映了當(dāng)前AI系統(tǒng)在長(zhǎng)時(shí)間記憶和推理方面的局限性。

LongShOTAgent在這次測(cè)試中表現(xiàn)出色,達(dá)到了44.66%的整體準(zhǔn)確率,雖然仍低于Gemini,但顯著超越了所有開源模型。這證明了通過(guò)合理的模塊化設(shè)計(jì)和智能協(xié)調(diào),可以在不增加訓(xùn)練數(shù)據(jù)的情況下顯著提升系統(tǒng)性能。

研究團(tuán)隊(duì)還特別關(guān)注了工具使用能力的評(píng)估,這是傳統(tǒng)視頻理解基準(zhǔn)中缺失的重要能力。在現(xiàn)實(shí)應(yīng)用中,AI系統(tǒng)往往需要調(diào)用各種外部工具來(lái)完成復(fù)雜任務(wù),比如進(jìn)行數(shù)學(xué)計(jì)算、查詢外部知識(shí)庫(kù)或執(zhí)行代碼。LongShOTBench包含了16種不同類型的工具,涵蓋語(yǔ)音處理、視覺理解、翻譯服務(wù)、計(jì)算工具和信息檢索等多個(gè)方面。

從數(shù)據(jù)構(gòu)建的角度來(lái)看,LongShOTBench的制作過(guò)程體現(xiàn)了嚴(yán)格的質(zhì)量控制標(biāo)準(zhǔn)。研究團(tuán)隊(duì)采用了五階段的自動(dòng)化流程,包括多模態(tài)標(biāo)注生成、問(wèn)題設(shè)計(jì)、答案生成、分級(jí)標(biāo)準(zhǔn)制定和人工驗(yàn)證。所有的問(wèn)題和答案都經(jīng)過(guò)了人工專家的審核和修正,確保了基準(zhǔn)測(cè)試的可靠性和有效性。

特別值得一提的是,研究團(tuán)隊(duì)在問(wèn)題設(shè)計(jì)時(shí)引入了情境框架的概念。他們沒(méi)有直接讓AI模型生成問(wèn)題,而是首先分析視頻內(nèi)容,識(shí)別出不同的觀看情境,然后基于這些情境設(shè)計(jì)相應(yīng)的問(wèn)題。這種方法更貼近真實(shí)的人類視頻觀看體驗(yàn),能夠更好地評(píng)估AI系統(tǒng)的實(shí)用價(jià)值。

在多輪對(duì)話評(píng)估中,LongShOTBench采用了理想軌跡設(shè)置來(lái)避免錯(cuò)誤累積。這意味著在對(duì)話的每一輪中,系統(tǒng)都會(huì)基于標(biāo)準(zhǔn)答案而不是前一輪的錯(cuò)誤回答來(lái)繼續(xù)對(duì)話。這種設(shè)計(jì)確保了每一輪對(duì)話都能得到公平的評(píng)估,不會(huì)因?yàn)榍懊娴腻e(cuò)誤而影響后續(xù)表現(xiàn)。

從技術(shù)實(shí)現(xiàn)的角度看,LongShOTBench支持原生視頻輸入?yún)f(xié)議,避免了因?yàn)椴煌膸蓸硬呗远鴰?lái)的評(píng)估偏差。研究團(tuán)隊(duì)讓每個(gè)模型使用自己的默認(rèn)視頻處理方式,這樣的設(shè)計(jì)更加公平,也更接近實(shí)際應(yīng)用場(chǎng)景。

研究結(jié)果揭示了當(dāng)前AI系統(tǒng)在長(zhǎng)視頻理解方面的幾個(gè)關(guān)鍵瓶頸。首先是長(zhǎng)時(shí)間記憶問(wèn)題,現(xiàn)有模型難以在長(zhǎng)時(shí)間跨度內(nèi)維持一致的理解狀態(tài)。其次是多模態(tài)信息整合能力不足,許多模型雖然能夠處理視覺或音頻信息,但難以有效地將它們結(jié)合起來(lái)進(jìn)行推理。最后是工具使用能力的缺失,大多數(shù)模型缺乏調(diào)用外部工具來(lái)解決復(fù)雜問(wèn)題的能力。

這項(xiàng)研究的影響不僅僅局限于學(xué)術(shù)界。隨著視頻內(nèi)容在日常生活中的重要性不斷增加,從在線教育到娛樂(lè)媒體,從安防監(jiān)控到醫(yī)療診斷,長(zhǎng)視頻理解技術(shù)的應(yīng)用前景極其廣闊。LongShOTBench為這些應(yīng)用提供了標(biāo)準(zhǔn)化的評(píng)估框架,有助于推動(dòng)相關(guān)技術(shù)的發(fā)展和落地。

研究團(tuán)隊(duì)也坦率地討論了當(dāng)前研究的局限性。由于計(jì)算資源的限制,他們主要關(guān)注了參數(shù)量在10億以下的模型,并且視頻內(nèi)容主要來(lái)源于公開平臺(tái),可能在多樣性方面存在一定局限。然而,他們承諾將逐步擴(kuò)大基準(zhǔn)測(cè)試的規(guī)模,并持續(xù)更新和完善評(píng)估框架。

從方法論的角度來(lái)看,這項(xiàng)研究展示了如何通過(guò)合理的任務(wù)分解和模塊化設(shè)計(jì)來(lái)解決復(fù)雜的AI問(wèn)題。LongShOTAgent的成功證明了,并不總是需要更大的模型和更多的訓(xùn)練數(shù)據(jù),有時(shí)候智能的系統(tǒng)設(shè)計(jì)和有效的模塊協(xié)調(diào)同樣能夠帶來(lái)顯著的性能提升。

研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了可復(fù)現(xiàn)性的重要性。他們承諾將公開所有的代碼、數(shù)據(jù)和評(píng)估框架,使其他研究者能夠基于這個(gè)基礎(chǔ)進(jìn)行進(jìn)一步的研究和改進(jìn)。這種開放的研究態(tài)度對(duì)于推動(dòng)整個(gè)領(lǐng)域的發(fā)展具有重要意義。

展望未來(lái),這項(xiàng)研究為長(zhǎng)視頻理解技術(shù)的發(fā)展指明了方向。隨著更強(qiáng)大的基礎(chǔ)模型和更高效的訓(xùn)練方法的出現(xiàn),結(jié)合LongShOTBench提供的標(biāo)準(zhǔn)化評(píng)估框架,我們有理由相信AI系統(tǒng)在長(zhǎng)視頻理解方面將會(huì)取得更大的突破。同時(shí),工具增強(qiáng)的AI代理系統(tǒng)也將在更多實(shí)際應(yīng)用中發(fā)揮重要作用。

Q&A

Q1:LongShOTBench相比其他視頻理解測(cè)試有什么特別之處?

A:LongShOTBench是首個(gè)同時(shí)關(guān)注長(zhǎng)時(shí)間跨度和多模態(tài)信息的綜合基準(zhǔn)。它包含平均45分鐘的長(zhǎng)視頻,同時(shí)整合視覺、語(yǔ)音和環(huán)境音頻信息,還引入了工具使用能力測(cè)試。傳統(tǒng)測(cè)試要么只看短片段,要么忽略音頻,LongShOTBench更接近真實(shí)的視頻理解需求。

Q2:為什么當(dāng)前最強(qiáng)的AI模型在LongShOTBench上表現(xiàn)不理想?

A:即使是Gemini-2.5-Flash這樣的頂級(jí)模型也只達(dá)到52.95%的準(zhǔn)確率,主要原因是長(zhǎng)視頻理解涉及多個(gè)技術(shù)難點(diǎn):長(zhǎng)時(shí)間記憶維持困難、多模態(tài)信息整合復(fù)雜、工具使用能力不足。隨著視頻長(zhǎng)度增加,所有模型的表現(xiàn)都會(huì)顯著下降,這反映了當(dāng)前技術(shù)的局限性。

Q3:LongShOTAgent是如何工作的?

A:LongShOTAgent采用模塊化設(shè)計(jì),包含一個(gè)輕量級(jí)協(xié)調(diào)器和多個(gè)專業(yè)模塊。它先對(duì)長(zhǎng)視頻進(jìn)行預(yù)處理和索引,建立多模態(tài)數(shù)據(jù)庫(kù),然后根據(jù)查詢需求智能檢索相關(guān)片段,最后調(diào)用合適的專業(yè)模塊進(jìn)行分析并整合結(jié)果。這種設(shè)計(jì)在不增加訓(xùn)練的情況下顯著提升了性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
攤牌了!72歲唐國(guó)強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場(chǎng)傻眼

攤牌了!72歲唐國(guó)強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場(chǎng)傻眼

觀察鑒娛
2025-12-28 09:51:57
俄強(qiáng)力部門:烏軍第155旅士兵集體叛逃

俄強(qiáng)力部門:烏軍第155旅士兵集體叛逃

俄羅斯衛(wèi)星通訊社
2025-12-27 16:06:54
12月28日,券商給予評(píng)級(jí)并且給出目標(biāo)價(jià)的公司一覽

12月28日,券商給予評(píng)級(jí)并且給出目標(biāo)價(jià)的公司一覽

A股數(shù)據(jù)表
2025-12-28 06:55:03
從利物浦真核到安菲爾德棄將,只用了4年時(shí)間,金左腳被性格耽誤

從利物浦真核到安菲爾德棄將,只用了4年時(shí)間,金左腳被性格耽誤

足籃大世界
2025-12-28 17:47:01
蒙古煤炭停供中國(guó),轉(zhuǎn)向日韓,正中美國(guó)下懷?不!蒙古已經(jīng)反悔了

蒙古煤炭停供中國(guó),轉(zhuǎn)向日韓,正中美國(guó)下懷?不!蒙古已經(jīng)反悔了

混沌錄
2025-12-15 18:12:04
失業(yè)游民的戾氣越來(lái)越重了

失業(yè)游民的戾氣越來(lái)越重了

經(jīng)濟(jì)學(xué)教授V
2025-11-12 18:49:14
劉伯承曾3次擔(dān)任紅軍總參謀長(zhǎng),卻因?yàn)榈米锪?個(gè)人,2次被撤職

劉伯承曾3次擔(dān)任紅軍總參謀長(zhǎng),卻因?yàn)榈米锪?個(gè)人,2次被撤職

舊書卷里的長(zhǎng)安
2025-12-25 21:57:38
陳道明:老了就會(huì)明白,即使優(yōu)秀孩子,也很可能不能給你帶來(lái)幸福

陳道明:老了就會(huì)明白,即使優(yōu)秀孩子,也很可能不能給你帶來(lái)幸福

扶蘇聊歷史
2025-12-27 16:46:21
熊掌“成名”記:熊身上那么多能吃的肉,為啥唯獨(dú)熊掌出了大名?

熊掌“成名”記:熊身上那么多能吃的肉,為啥唯獨(dú)熊掌出了大名?

向航說(shuō)
2025-12-24 00:55:03
72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長(zhǎng)相遭吐槽:太丑了

72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長(zhǎng)相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
廣東一家5口墜江身亡!駕車出游闖施工地,村委曝內(nèi)情,官方通報(bào)

廣東一家5口墜江身亡!駕車出游闖施工地,村委曝內(nèi)情,官方通報(bào)

千言?shī)蕵?lè)記
2025-12-27 18:51:39
輪船拉導(dǎo)彈!美國(guó)萬(wàn)萬(wàn)沒(méi)有想到東大的反擊計(jì)劃會(huì)如此極端!

輪船拉導(dǎo)彈!美國(guó)萬(wàn)萬(wàn)沒(méi)有想到東大的反擊計(jì)劃會(huì)如此極端!

阿龍聊軍事
2025-12-27 22:07:28
3大國(guó)家保密中成藥:中風(fēng)急救、心??祻?fù),心血管的護(hù)身符!

3大國(guó)家保密中成藥:中風(fēng)急救、心??祻?fù),心血管的護(hù)身符!

展望云霄
2025-12-25 21:39:14
對(duì)等攔截!報(bào)仇不隔夜!1000萬(wàn)升走私燃料被截,背后竟是美國(guó)人?

對(duì)等攔截!報(bào)仇不隔夜!1000萬(wàn)升走私燃料被截,背后竟是美國(guó)人?

現(xiàn)代小青青慕慕
2025-12-27 13:39:34
山西省司法廳原一級(jí)巡視員周濤接受審查調(diào)查

山西省司法廳原一級(jí)巡視員周濤接受審查調(diào)查

界面新聞
2025-12-28 11:31:42
女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來(lái)了解

女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來(lái)了解

醫(yī)者榮耀
2025-12-25 12:05:06
若沒(méi)有朝鮮戰(zhàn)爭(zhēng),粟裕60萬(wàn)大軍能拿下臺(tái)灣嗎?

若沒(méi)有朝鮮戰(zhàn)爭(zhēng),粟裕60萬(wàn)大軍能拿下臺(tái)灣嗎?

何氽簡(jiǎn)史
2025-12-28 16:58:50
顧客稱在店內(nèi)飲用星巴克競(jìng)品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)→

顧客稱在店內(nèi)飲用星巴克競(jìng)品,被工作人員提醒“盡快喝完”或“套上星巴克杯套”,星巴克回應(yīng)→

930老友記
2025-12-27 22:15:37
他們吸過(guò)毒,曾經(jīng)是“爛人”,想要個(gè)機(jī)會(huì)

他們吸過(guò)毒,曾經(jīng)是“爛人”,想要個(gè)機(jī)會(huì)

大風(fēng)新聞
2025-12-27 15:04:03
姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時(shí)間是2025年12月19日

姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時(shí)間是2025年12月19日

阿纂看事
2025-12-27 09:55:58
2025-12-28 21:19:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢(shì)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

健康
旅游
數(shù)碼
房產(chǎn)
公開課

這些新療法,讓化療不再那么痛苦

旅游要聞

大理的櫻花之美一如杭州的桂花之香,滿城皆是,隨處可聞

數(shù)碼要聞

AM4老兵不死:銳龍7 5800X登上銷量榜首!前十有4款是AM4

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版