国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

輕量高效,即插即用:Video-RAG為長視頻理解帶來新范式

0
分享至



盡管視覺語言模型(LVLMs)在圖像與短視頻理解中已取得顯著進(jìn)展,但在處理長時(shí)序、復(fù)雜語義的視頻內(nèi)容時(shí)仍面臨巨大挑戰(zhàn) —— 上下文長度限制、跨模態(tài)對(duì)齊困難、計(jì)算成本高昂等問題制約著其實(shí)際應(yīng)用。針對(duì)這一難題,廈門大學(xué)、羅切斯特大學(xué)與南京大學(xué)聯(lián)合提出了一種輕量高效、無需微調(diào)的創(chuàng)新框架 ——Video-RAG。該研究已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 NeurIPS 2025 接收,為長視頻理解任務(wù)提供了全新的解決思路。



  • 項(xiàng)目主頁:https://video-rag.github.io/
  • 論文鏈接:https://arxiv.org/abs/2411.13093
  • 開源代碼:https://github.com/Leon1207/Video-RAG-master

挑戰(zhàn):現(xiàn)有方法為何難以勝任?

當(dāng)前主流方案主要分為兩類:

  • 擴(kuò)展上下文法(如 LongVA):依賴大規(guī)模長視頻 - 文本配對(duì)數(shù)據(jù)進(jìn)行微調(diào),訓(xùn)練成本高且數(shù)據(jù)稀缺;
  • 智能體驅(qū)動(dòng)法(如 VideoAgent):通過任務(wù)分解與外部代理決策增強(qiáng)推理,但頻繁調(diào)用 GPT-4o 等商業(yè) API 導(dǎo)致開銷巨大。

更重要的是,兩種方法在長時(shí)間跨度下的視覺 - 語義對(duì)齊上表現(xiàn)有限,往往犧牲效率換取精度,難以兼顧實(shí)用性與可擴(kuò)展性。



創(chuàng)新:用 “檢索” 打通視覺與語言的橋梁

Video-RAG 提出一種低資源消耗、高語義對(duì)齊的新路徑 —— 多模態(tài)輔助文本檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG),不依賴模型微調(diào),也不需昂貴的商業(yè)大模型支持。其核心思想是:從視頻中提取與視覺內(nèi)容強(qiáng)對(duì)齊的文本線索,按需檢索并注入現(xiàn)有 LVLM 輸入流中,實(shí)現(xiàn)精準(zhǔn)引導(dǎo)與語義增強(qiáng)。

具體流程如下:

1. 查詢解耦(Query Decoupling)

將用戶問題自動(dòng)拆解為多個(gè)檢索請(qǐng)求(JSON 格式),指導(dǎo)系統(tǒng)從不同模態(tài)數(shù)據(jù)庫中查找相關(guān)信息,LVLM 此階段僅處理文本,不接觸視頻幀,大幅降低初期計(jì)算負(fù)擔(dān)。

2. 多模態(tài)輔助文本構(gòu)建與檢索

利用開源工具構(gòu)建三大語義對(duì)齊數(shù)據(jù)庫:

  • OCR 文本庫:使用 EasyOCR 提取幀內(nèi)文字,結(jié)合 Contriever 編碼 + FAISS 向量索引,支持快速檢索;
  • 語音轉(zhuǎn)錄庫(ASR):通過 Whisper 模型提取音頻內(nèi)容并嵌入存儲(chǔ);
  • 對(duì)象語義庫(DET):采用 APE 模型檢測關(guān)鍵幀中的物體及其空間關(guān)系,經(jīng)場景圖預(yù)處理生成結(jié)構(gòu)化描述文本。

這些文本不僅與畫面同步,還具備明確語義標(biāo)簽,有效緩解傳統(tǒng)采樣幀缺乏上下文關(guān)聯(lián)的問題。

3. 信息融合與響應(yīng)生成

將檢索到的相關(guān)文本片段、原始問題與少量關(guān)鍵視頻幀共同輸入現(xiàn)有的 LVLM(如 LLaMA-VID、Qwen-VL 等),由模型完成最終推理輸出。整個(gè)過程無需微調(diào)、即插即用,顯著降低部署門檻與計(jì)算開銷。



可以發(fā)現(xiàn),在經(jīng)過檢索之后,LVLM 可以將更多的注意力集中到對(duì)應(yīng)的關(guān)鍵視覺信息上,減少模態(tài)鴻溝:



優(yōu)勢:輕量、高效、性能卓越

  • 即插即用:兼容任意開源 LVLM,無需修改模型架構(gòu)或重新訓(xùn)練。
  • 資源友好:在 Video-MME 基準(zhǔn)測試中,平均每問僅增加約 2000 token,遠(yuǎn)低于主流 Agent 方法的通信與計(jì)算開銷。
  • 性能領(lǐng)先:當(dāng)與一個(gè) 72B 參數(shù)規(guī)模的開源 LVLM 結(jié)合時(shí),Video-RAG 在多個(gè)長視頻理解基準(zhǔn)上超越 GPT-4o 和 Gemini 1.5 等商業(yè)閉源模型,展現(xiàn)出驚人的競爭力。





成果與意義

Video-RAG 的成功驗(yàn)證了一個(gè)重要方向:通過高質(zhì)量、視覺對(duì)齊的輔助文本引入外部知識(shí),可以在不改變模型的前提下,突破上下文窗口瓶頸,顯著提升跨模態(tài)理解能力。它不僅解決了長視頻理解中的 “幻覺” 與 “注意力分散” 問題,更構(gòu)建了一套低成本、高可擴(kuò)展的技術(shù)范式,適用于教育、安防、醫(yī)療影像分析等多種現(xiàn)實(shí)場景。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
名記:戴琳已將欠的錢還給已故球迷的父母 并且多給了5000多元

名記:戴琳已將欠的錢還給已故球迷的父母 并且多給了5000多元

818體育
2025-12-20 22:49:43
從墳?zāi)估锷斐龅闹缚卦俅沃赶虬驳卖斖踝樱蚱薇鲂乱徊ǔ舐劊?>
    </a>
        <h3>
      <a href=新民晚報(bào)
2025-10-26 13:39:36
勞軍是備戰(zhàn)的前兆

勞軍是備戰(zhàn)的前兆

求實(shí)處
2025-12-19 23:13:48
張慶鵬:鄒雨宸吃了止痛藥就繼續(xù)上場,我們跟不上山東高強(qiáng)度對(duì)抗

張慶鵬:鄒雨宸吃了止痛藥就繼續(xù)上場,我們跟不上山東高強(qiáng)度對(duì)抗

狼叔評(píng)論
2025-12-20 23:06:22
61歲許亞軍近況曝光,缺席何晴葬禮,曝許何與后媽張澍真實(shí)關(guān)系

61歲許亞軍近況曝光,缺席何晴葬禮,曝許何與后媽張澍真實(shí)關(guān)系

大齡女一曉彤
2025-12-20 16:03:05
大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

另子維愛讀史
2025-11-29 07:53:16
紐卡斯?fàn)柭?lián)2-2切爾西,賽后評(píng)分:切爾西24號(hào)排第一

紐卡斯?fàn)柭?lián)2-2切爾西,賽后評(píng)分:切爾西24號(hào)排第一

側(cè)身凌空斬
2025-12-20 22:29:07
國乒教練組巨震,林詩棟新教練讓人意外,王曼昱主管教練情理之中

國乒教練組巨震,林詩棟新教練讓人意外,王曼昱主管教練情理之中

月亮的麥片
2025-12-20 21:18:01
中亞人看不起中國人?中亞地區(qū)民族遺留問題嚴(yán)重的超乎你的想象!

中亞人看不起中國人?中亞地區(qū)民族遺留問題嚴(yán)重的超乎你的想象!

阿泠你好
2025-12-09 16:02:58
夫妻性生活:女人最討厭的5種“床上行為”,男人千萬別犯!

夫妻性生活:女人最討厭的5種“床上行為”,男人千萬別犯!

精彩分享快樂
2025-11-25 00:05:03
越扒越驚人,南京博物院有兩任院長輕生,其中一位與曾國藩有淵源

越扒越驚人,南京博物院有兩任院長輕生,其中一位與曾國藩有淵源

知法而形
2025-12-20 11:15:29
收官之戰(zhàn)定乾坤,丁浩加冕十二冠,中國圍棋迎來“浩”時(shí)代

收官之戰(zhàn)定乾坤,丁浩加冕十二冠,中國圍棋迎來“浩”時(shí)代

王老師聊圍棋
2025-12-20 16:11:44
“中國保險(xiǎn)經(jīng)紀(jì)第一人”、江泰保險(xiǎn)經(jīng)紀(jì)董事長沈開濤疑似失聯(lián),此前公司有多人被帶走協(xié)查

“中國保險(xiǎn)經(jīng)紀(jì)第一人”、江泰保險(xiǎn)經(jīng)紀(jì)董事長沈開濤疑似失聯(lián),此前公司有多人被帶走協(xié)查

紅星新聞
2025-12-19 20:27:12
惡心!北京女子帶狗吃涮肉舔遍盤子,餐廳追責(zé):北京一套房不夠賠

惡心!北京女子帶狗吃涮肉舔遍盤子,餐廳追責(zé):北京一套房不夠賠

派大星紀(jì)錄片
2025-12-19 14:17:34
2-0!日本2連勝領(lǐng)跑,U15東亞杯最新形勢:國足輸給韓國=無緣冠軍

2-0!日本2連勝領(lǐng)跑,U15東亞杯最新形勢:國足輸給韓國=無緣冠軍

侃球熊弟
2025-12-20 12:41:02
中小學(xué)將改“522學(xué)制”?官方最新回應(yīng)來了,落地時(shí)間表明確

中小學(xué)將改“522學(xué)制”?官方最新回應(yīng)來了,落地時(shí)間表明確

慧眼看世界哈哈
2025-12-19 11:50:03
盒馬在上海成立盒馬數(shù)科技術(shù)公司

盒馬在上海成立盒馬數(shù)科技術(shù)公司

每日經(jīng)濟(jì)新聞
2025-12-19 10:46:09
看完林徽因的國徽方案后,網(wǎng)友感嘆:審美一絕,落選也是意料之中

看完林徽因的國徽方案后,網(wǎng)友感嘆:審美一絕,落選也是意料之中

抽象派大師
2025-11-22 16:24:30
場均21+3!火箭棄將或變?nèi)餍??斯通失算了!休賽期不該放走?>
    </a>
        <h3>
      <a href=熊哥愛籃球
2025-12-20 20:46:39
加倉255%!北向資金重倉押注人形機(jī)器人獨(dú)角獸,低空經(jīng)濟(jì)隱形王炸

加倉255%!北向資金重倉押注人形機(jī)器人獨(dú)角獸,低空經(jīng)濟(jì)隱形王炸

財(cái)報(bào)翻譯官
2025-12-20 21:28:31
2025-12-21 00:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

印度官員:若"臺(tái)灣有事" 印度不太可能像西方那樣回應(yīng)

頭條要聞

印度官員:若"臺(tái)灣有事" 印度不太可能像西方那樣回應(yīng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

家居
房產(chǎn)
時(shí)尚
旅游
藝術(shù)

家居要聞

高端私宅 理想隱居圣地

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

最顯腿細(xì)的騎士靴,誰穿誰是腿精

旅游要聞

虹口新春“五必”榜單來啦!一季度“樂購樂游”攻略輕松拿捏!

藝術(shù)要聞

驚!肢體語言竟如此迷人,讓人無法抗拒!

無障礙瀏覽 進(jìn)入關(guān)懷版