国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NeurIPS 2025 | Video-RAG:革新長(zhǎng)視頻理解,開源視頻理解模型也能媲美GPT-4o

0
分享至

面對(duì)時(shí)長(zhǎng)從幾分鐘到數(shù)小時(shí)的長(zhǎng)視頻,現(xiàn)有多模態(tài)視頻語言模型(Large Video-Language Models, LVLMs)卻因上下文窗口有限、視覺-文本對(duì)齊不足等問題屢屢 “失靈”,要么需海量數(shù)據(jù)與 GPU 資源進(jìn)行微調(diào),要么依賴 GPT-4o 等閉源模型導(dǎo)致成本難以承擔(dān)。為打破這一困境,廈門大學(xué)聯(lián)合南京大學(xué)、羅切斯特大學(xué)提出Video-RAG,一種無需訓(xùn)練、低成本的長(zhǎng)視頻理解范式。它通過提取視頻中與視覺對(duì)齊的輔助文本(如音頻轉(zhuǎn)錄、文字識(shí)別、目標(biāo)檢測(cè)結(jié)果),結(jié)合檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)技術(shù),為任意多模態(tài)視頻語言模型注入長(zhǎng)視頻理解能力。


論文題目: Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension 論文鏈接: https://arxiv.org/abs/2411.13093 代碼鏈接: https://github.com/Leon1207/Video-RAG-master 項(xiàng)目主頁: https://video-rag.github.io/
一、研究背景

長(zhǎng)視頻(如紀(jì)錄片、監(jiān)控錄像、在線課程)包含豐富的時(shí)空信息,是具身智能、視頻分析等領(lǐng)域的關(guān)鍵數(shù)據(jù)來源。但現(xiàn)有多模態(tài)視頻語言模型在處理長(zhǎng)視頻時(shí),面臨三大難以突破的瓶頸(圖1所示):

1、上下文窗口受限:傳統(tǒng)依賴采樣視頻幀提取視覺特征,但幀數(shù)量增多會(huì)導(dǎo)致信息冗余,甚至引發(fā)性能下降。例如 LongVA[1]模型在幀采樣率從 128 提升至 384 時(shí),Video-MME [2] 測(cè)試基準(zhǔn)上得分反而從 52.6% 降至 51.8%。

2、微調(diào)成本高昂:為擴(kuò)展 LVLM 的上下文長(zhǎng)度,現(xiàn)有方法需在大規(guī)模文本上預(yù)訓(xùn)練,再遷移到視頻任務(wù),不僅需要TB級(jí)數(shù)據(jù),還需數(shù)十張 A100 GPU 支持,普通研究者難以企及。

3、閉源模型依賴:GPT-4o、Gemini 1.5-Pro等閉源模型雖能處理長(zhǎng)視頻,但調(diào)用 API 成本極高(如VideoAgent [3]處理完整Video-MME數(shù)據(jù)集需消耗約2000美元API費(fèi)用,耗時(shí)超 20 天),且靈活性受限。更關(guān)鍵的是,多數(shù)方法將視頻轉(zhuǎn)化為純文本后再用 RAG 檢索,丟失了關(guān)鍵視覺信息;而多輪交互式處理又進(jìn)一步增加了計(jì)算開銷,導(dǎo)致 “性能” 與 “效率” 難以兼得。


圖1 不同主流長(zhǎng)視頻理解方案對(duì)比。

為了推動(dòng)這一問題的解決,我們提出了Video-RAG算法,旨在通過引入視覺對(duì)齊的輔助文本輸入,以無需訓(xùn)練的方式無縫集成到任何已有的LVLM中提升其處理長(zhǎng)視頻的能力。

二、Video-RAG 算法介紹

如圖2所示,Video-RAG的核心思路是:用開源工具提取視頻中的視覺對(duì)齊輔助文本,通過 RAG 篩選出與查詢相關(guān)的信息,再輸入任意 LVLM 生成答案。整個(gè)流程無需訓(xùn)練,可即插即用,具體分為三個(gè)階段。


圖2 Video-RAG 整體框架示意圖。

圖3 Video-RAG 示例。 2.1 第一步:查詢解耦

如圖3例子所示,用戶輸入關(guān)于長(zhǎng)視頻的查詢(如 “當(dāng)介紹“德國(guó)現(xiàn)代圣誕樹最初會(huì)用蘋果、蠟燭和漿果來裝飾”時(shí),數(shù)量最多的是哪一種裝飾?”)后,Video-RAG 會(huì)先讓 LVLM 生成結(jié)構(gòu)化檢索請(qǐng)求(JSON 格式),明確需要提取的信息類型:

  1. ASR 請(qǐng)求:需從音頻中獲取的信息(如 “null”);

  2. DET 請(qǐng)求:需檢測(cè)的物理實(shí)體(如 “apples、candles、berries”);

  3. TYPE 請(qǐng)求:需補(bǔ)充的實(shí)體屬性(如 “number”)。

這一步僅處理文本,無需訪問視頻幀,確保檢索目標(biāo)精準(zhǔn),避免后續(xù)信息冗余。

2.2 第二步:輔助文本生成與檢索

基于檢索請(qǐng)求,Video-RAG 調(diào)用開源工具從視頻中提取三類核心輔助文本,并構(gòu)建數(shù)據(jù)庫進(jìn)行高效檢索:

  1. OCR 文本庫:用 EasyOCR 提取每幀中的文字(如屏幕字幕、標(biāo)識(shí)牌),再用 Contriever [4]編碼為向量,存入 FAISS 索引庫;

  2. ASR 文本庫:用 Whisper 將視頻音頻轉(zhuǎn)錄為文字(如人物對(duì)話、旁白),同樣編碼后存入數(shù)據(jù)庫;

  3. 目標(biāo)檢測(cè)(DET)庫:先通過 CLIP 篩選與查詢相關(guān)的關(guān)鍵幀(排除無關(guān)幀減少計(jì)算),再用 APE(開源開放詞匯目標(biāo)檢測(cè)模型)識(shí)別實(shí)體類別與位置,從而形成結(jié)構(gòu)化的場(chǎng)景圖,最后用場(chǎng)景圖將原始檢測(cè)結(jié)果轉(zhuǎn)化為 LVLM 易理解的文本(如 “物體 1 是蘋果,位于坐標(biāo) [x,y],尺寸為長(zhǎng) × 寬;物體 2 是蠟燭,位于坐標(biāo) [a,b]”)。

隨后,Video-RAG 繼續(xù)使用Contriever編碼用戶查詢與檢索請(qǐng)求,通過 FAISS 計(jì)算向量相似度,篩選出相似度高于閾值(默認(rèn)0.3)的輔助文本,用以確保僅保留與查詢強(qiáng)相關(guān)的信息,避免上下文窗口溢出。

2.3 第三步:整合與生成

將篩選后的 OCR、ASR、DET 輔助文本按時(shí)間順序合并,與原始查詢、視頻采樣幀的視覺特征一起輸入 LVLM,最終生成精準(zhǔn)答案。例如上述查詢中,Video-RAG 會(huì)提取到 ASR 文本和 DET 文本(“5個(gè)蘋果,5個(gè)蠟燭和7個(gè)漿果”),輔助 LVLM 準(zhǔn)確回答 “C:漿果”。

值得注意的是,檢索過程是并行單輪執(zhí)行的,無需多輪交互,計(jì)算開銷極低;且所有工具均為開源(EasyOCR、Whisper、APE、FAISS 等),無需依賴任何閉源 API。

三、實(shí)驗(yàn)與分析
表1 主流LVLM接入Video-RAG在Video-MME上的性能表現(xiàn)。

研究團(tuán)隊(duì)在三大主流長(zhǎng)視頻基準(zhǔn)(Video-MME、MLVU、LongVideoBench)上,對(duì)6個(gè)常見的開源 LVLM(從 7B 到 72B 參數(shù))進(jìn)行了全面測(cè)試,結(jié)果表明 Video-RAG 的性能與效率優(yōu)勢(shì)顯著。

3.1 性能:72B 模型媲美 GPT-4o

如表1所示,在 Video-MME 數(shù)據(jù)集上,72B 參數(shù)的 LLaVA-Video [5] 結(jié)合 Video-RAG 后,整體得分達(dá) 77.4%,超過 GPT-4o 的 77.2%;在 LongVideoBench 數(shù)據(jù)集上,該組合得分 65.4%,超越 Gemini 1.5-Pro(64.0%),僅比 GPT-4o 低 1.3 個(gè)百分點(diǎn),成為開源模型中的頂尖水平。

即使是 7B 小模型,Video-RAG 也能帶來平均 3.2% 的性能提升。例如 LongVA-7B 在添加輔助文本后,長(zhǎng)視頻任務(wù)得分從 52.9% 升至 59.4%,且僅需額外 8GB GPU 顯存、5 秒推理時(shí)間。

3.2 效率:資源消耗遠(yuǎn)低于現(xiàn)有方法

如圖4所示,與長(zhǎng)上下文微調(diào)模型(如 LongVA-128fs)相比,Video-RAG 在 16 幀采樣下即可實(shí)現(xiàn)更高性能,且 GPU 顯存消耗減少 150GB 以上;與 GPT-based Agent(如 VideoAgent)相比,處理相同數(shù)據(jù)集的成本從 2000 美元降至 “零 API 費(fèi)用”,推理時(shí)間從 20 天縮短至小時(shí)級(jí)。


圖4 不同方案資源消耗對(duì)比圖。 3.3 魯棒性:適配不同幀采樣率與任務(wù)類型

消融實(shí)驗(yàn)顯示,Video-RAG 在 8~256 幀采樣率下均能穩(wěn)定提升性能,尤其在低幀采樣(8 幀)時(shí)增益更明顯,適合資源受限場(chǎng)景;而拆分輔助文本組件后發(fā)現(xiàn),ASR 對(duì)長(zhǎng)視頻推理幫助最大,DET能顯著提升目標(biāo)計(jì)數(shù)與空間關(guān)系判斷精度,OCR 則優(yōu)化文字相關(guān)任務(wù),通過三者結(jié)合可實(shí)現(xiàn)最優(yōu)長(zhǎng)視頻效果。

如圖5所示,借助檢索增強(qiáng)機(jī)制,Video-RAG能夠精準(zhǔn)篩選出與當(dāng)前查詢高度相關(guān)的信息片段,并將其注入到模型輸入中。這些檢索到的文本不僅引導(dǎo)LVLM更聚焦于與問題相關(guān)的關(guān)鍵幀,還起到了“橋梁”作用,強(qiáng)化了問題與視覺內(nèi)容之間的語義對(duì)齊,從而提升模型在長(zhǎng)視頻理解任務(wù)中的準(zhǔn)確性和魯棒性。


圖5 Video-RAG檢索并注入相關(guān)文本,促使LVLM聚焦關(guān)鍵幀、強(qiáng)化文-視語義對(duì)齊。 四、總結(jié)

Video-RAG 的突破在于,它沒有陷入 “增大模型上下文” 或 “依賴閉源 API” 的傳統(tǒng)路徑,而是通過 “視覺對(duì)齊輔助文本 + 檢索增強(qiáng)生成” 的輕量設(shè)計(jì),讓任意開源 LVLM 都能高效處理長(zhǎng)視頻。其價(jià)值不僅體現(xiàn)在技術(shù)層面:

  1. 對(duì)研究者:提供無需訓(xùn)練、低成本的長(zhǎng)視頻理解工具,代碼開源可復(fù)現(xiàn);

  2. 對(duì)工業(yè)界:可快速集成到監(jiān)控分析、視頻內(nèi)容檢索、在線教育等場(chǎng)景,降低部署成本;

  3. 對(duì)領(lǐng)域發(fā)展:為 LVLM 的跨模態(tài)對(duì)齊提供新思路,后續(xù)可進(jìn)一步優(yōu)化輔助文本與視覺特征的融合方式。

目前,Video-RAG 的代碼已開源,研究者可直接基于現(xiàn)有 LVLM(如LLaVA-Video、Qwen2-VL [6])進(jìn)行拓展。未來團(tuán)隊(duì)計(jì)劃探索自適應(yīng)幀選擇策略,進(jìn)一步提升長(zhǎng)視頻理解的效率與精度,推動(dòng)開源生態(tài)在多模態(tài)領(lǐng)域的發(fā)展。

主要引用文獻(xiàn)

[1] Zhang, Peiyuan, et al. "Long context transfer from language to vision." arXiv preprint arXiv:2406.16852 (2024).

[2] Fu, Chaoyou, et al. "Video-mme: The first-ever comprehensive evaluation benchmark of multi-modal llms in video analysis." CVPR. 2025.

[3] Fan, Yue, et al. "Videoagent: A memory-augmented multimodal agent for video understanding." ECCV, 2024.

[4] Izacard, Gautier, et al. "Unsupervised dense information retrieval with contrastive learning." arXiv preprint arXiv:2112.09118 (2021).

[5] Yuanhan Zhang, et al. "Video instruction tuning with synthetic data." arXiv preprint arXiv:2410.02713 (2024).

[6] Wang, Peng, et al. "Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution." arXiv preprint arXiv:2409.12191 (2024).

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗對(duì)美以發(fā)動(dòng)47波攻擊

伊朗對(duì)美以發(fā)動(dòng)47波攻擊

界面新聞
2026-03-14 07:13:39
美國(guó)海軍陸戰(zhàn)隊(duì)遠(yuǎn)征波斯灣,有三個(gè)可能的目標(biāo) | 京釀館

美國(guó)海軍陸戰(zhàn)隊(duì)遠(yuǎn)征波斯灣,有三個(gè)可能的目標(biāo) | 京釀館

新京報(bào)評(píng)論
2026-03-14 15:49:35
馬云也搞不懂了:為什么老百姓偏愛微信支付,而不是支付寶?

馬云也搞不懂了:為什么老百姓偏愛微信支付,而不是支付寶?

閱微札記
2026-03-13 22:08:30
“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

紅星新聞
2026-03-14 15:58:37
中國(guó)臺(tái)北女足日程表上寫著:打倒中國(guó)隊(duì),前進(jìn)世界杯

中國(guó)臺(tái)北女足日程表上寫著:打倒中國(guó)隊(duì),前進(jìn)世界杯

懂球帝
2026-03-14 12:25:09
今年的315,草莓第一個(gè)翻車,重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

今年的315,草莓第一個(gè)翻車,重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

Mr王的飯后茶
2026-03-14 13:15:36
本田汽車暴虧1000億,徹底賣不動(dòng)了

本田汽車暴虧1000億,徹底賣不動(dòng)了

新浪財(cái)經(jīng)
2026-03-13 20:37:07
武大楊景媛上岸公務(wù)員,上萬人點(diǎn)贊

武大楊景媛上岸公務(wù)員,上萬人點(diǎn)贊

關(guān)爾東
2026-03-14 16:52:01
伊朗深夜發(fā)動(dòng)2波打擊!美方:已有13名美軍陣亡!駐日美軍“準(zhǔn)航母”及海軍陸戰(zhàn)隊(duì)被調(diào)往中東,特朗普:只要有需要,戰(zhàn)爭(zhēng)將持續(xù)

伊朗深夜發(fā)動(dòng)2波打擊!美方:已有13名美軍陣亡!駐日美軍“準(zhǔn)航母”及海軍陸戰(zhàn)隊(duì)被調(diào)往中東,特朗普:只要有需要,戰(zhàn)爭(zhēng)將持續(xù)

每日經(jīng)濟(jì)新聞
2026-03-14 09:27:04
不要捏!不要踩!上海街頭小區(qū)正大量出現(xiàn)!不少人吐槽:苦不堪言!

不要捏!不要踩!上海街頭小區(qū)正大量出現(xiàn)!不少人吐槽:苦不堪言!

上觀新聞
2026-03-14 18:26:20
古巴總統(tǒng)宣布:與美國(guó)達(dá)成協(xié)議

古巴總統(tǒng)宣布:與美國(guó)達(dá)成協(xié)議

跟著老李看世界
2026-03-14 09:15:36
鎮(zhèn)江市委常委會(huì)召開會(huì)議 堅(jiān)決擁護(hù)省委對(duì)許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

鎮(zhèn)江市委常委會(huì)召開會(huì)議 堅(jiān)決擁護(hù)省委對(duì)許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

環(huán)球網(wǎng)資訊
2026-03-14 13:18:09
七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

大風(fēng)新聞
2026-03-14 10:10:23
600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

澎湃新聞
2026-03-14 20:02:09
美軍猛炸伊朗地下導(dǎo)彈長(zhǎng)城,疑似十萬伊軍被埋地下?

美軍猛炸伊朗地下導(dǎo)彈長(zhǎng)城,疑似十萬伊軍被埋地下?

高博新視野
2026-03-14 07:45:10
網(wǎng)貸行業(yè),天塌了!

網(wǎng)貸行業(yè),天塌了!

首席品牌評(píng)論
2026-03-13 23:02:51
最新!伊朗:襲擊美軍中東三大軍事基地,“愛國(guó)者”反導(dǎo)系統(tǒng)雷達(dá)、機(jī)庫、燃料庫被擊中起火!伊朗提出停戰(zhàn)條件:收回?fù)p失、美國(guó)離開波斯灣

最新!伊朗:襲擊美軍中東三大軍事基地,“愛國(guó)者”反導(dǎo)系統(tǒng)雷達(dá)、機(jī)庫、燃料庫被擊中起火!伊朗提出停戰(zhàn)條件:收回?fù)p失、美國(guó)離開波斯灣

每日經(jīng)濟(jì)新聞
2026-03-14 19:22:19
國(guó)家曝光云南毒草莓!商戶主動(dòng)投毒,流竄至全國(guó)多地,利益鏈被扒

國(guó)家曝光云南毒草莓!商戶主動(dòng)投毒,流竄至全國(guó)多地,利益鏈被扒

離離言幾許
2026-03-14 14:28:01
悲催了!24歲青年猝死:殺死他的不是手機(jī),是讓人上癮的“舒服”

悲催了!24歲青年猝死:殺死他的不是手機(jī),是讓人上癮的“舒服”

魔都姐姐雜談
2026-03-14 12:46:16
新鵬城1-0獲中超首勝!韋斯利絕殺 送津門虎2輪不勝+積負(fù)9分墊底

新鵬城1-0獲中超首勝!韋斯利絕殺 送津門虎2輪不勝+積負(fù)9分墊底

我愛英超
2026-03-14 22:04:46
2026-03-14 23:11:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

藝術(shù)
本地
親子
公開課
軍事航空

藝術(shù)要聞

??诮瓥|第一高樓,中國(guó)石化打造,形如“鉆石”!

本地新聞

坐標(biāo)北京,過敏季反向遷徒

親子要聞

小龍寶為啥不跟爺爺奶奶玩了?婆婆買蝦怪兒媳婦愛吃,兒子氣跑了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進(jìn)入關(guān)懷版