国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

輕量高效,即插即用:Video-RAG為長(zhǎng)視頻理解帶來新范式

0
分享至



盡管視覺語言模型(LVLMs)在圖像與短視頻理解中已取得顯著進(jìn)展,但在處理長(zhǎng)時(shí)序、復(fù)雜語義的視頻內(nèi)容時(shí)仍面臨巨大挑戰(zhàn) —— 上下文長(zhǎng)度限制、跨模態(tài)對(duì)齊困難、計(jì)算成本高昂等問題制約著其實(shí)際應(yīng)用。針對(duì)這一難題,廈門大學(xué)、羅切斯特大學(xué)與南京大學(xué)聯(lián)合提出了一種輕量高效、無需微調(diào)的創(chuàng)新框架 ——Video-RAG。該研究已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 NeurIPS 2025 接收,為長(zhǎng)視頻理解任務(wù)提供了全新的解決思路。



  • 項(xiàng)目主頁:https://video-rag.github.io/
  • 論文鏈接:https://arxiv.org/abs/2411.13093
  • 開源代碼:https://github.com/Leon1207/Video-RAG-master

挑戰(zhàn):現(xiàn)有方法為何難以勝任?

當(dāng)前主流方案主要分為兩類:

  • 擴(kuò)展上下文法(如 LongVA):依賴大規(guī)模長(zhǎng)視頻 - 文本配對(duì)數(shù)據(jù)進(jìn)行微調(diào),訓(xùn)練成本高且數(shù)據(jù)稀缺;
  • 智能體驅(qū)動(dòng)法(如 VideoAgent):通過任務(wù)分解與外部代理決策增強(qiáng)推理,但頻繁調(diào)用 GPT-4o 等商業(yè) API 導(dǎo)致開銷巨大。

更重要的是,兩種方法在長(zhǎng)時(shí)間跨度下的視覺 - 語義對(duì)齊上表現(xiàn)有限,往往犧牲效率換取精度,難以兼顧實(shí)用性與可擴(kuò)展性。



創(chuàng)新:用 “檢索” 打通視覺與語言的橋梁

Video-RAG 提出一種低資源消耗、高語義對(duì)齊的新路徑 —— 多模態(tài)輔助文本檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG),不依賴模型微調(diào),也不需昂貴的商業(yè)大模型支持。其核心思想是:從視頻中提取與視覺內(nèi)容強(qiáng)對(duì)齊的文本線索,按需檢索并注入現(xiàn)有 LVLM 輸入流中,實(shí)現(xiàn)精準(zhǔn)引導(dǎo)與語義增強(qiáng)。

具體流程如下:

1. 查詢解耦(Query Decoupling)

將用戶問題自動(dòng)拆解為多個(gè)檢索請(qǐng)求(JSON 格式),指導(dǎo)系統(tǒng)從不同模態(tài)數(shù)據(jù)庫中查找相關(guān)信息,LVLM 此階段僅處理文本,不接觸視頻幀,大幅降低初期計(jì)算負(fù)擔(dān)。

2. 多模態(tài)輔助文本構(gòu)建與檢索

利用開源工具構(gòu)建三大語義對(duì)齊數(shù)據(jù)庫:

  • OCR 文本庫:使用 EasyOCR 提取幀內(nèi)文字,結(jié)合 Contriever 編碼 + FAISS 向量索引,支持快速檢索;
  • 語音轉(zhuǎn)錄庫(ASR):通過 Whisper 模型提取音頻內(nèi)容并嵌入存儲(chǔ);
  • 對(duì)象語義庫(DET):采用 APE 模型檢測(cè)關(guān)鍵幀中的物體及其空間關(guān)系,經(jīng)場(chǎng)景圖預(yù)處理生成結(jié)構(gòu)化描述文本。

這些文本不僅與畫面同步,還具備明確語義標(biāo)簽,有效緩解傳統(tǒng)采樣幀缺乏上下文關(guān)聯(lián)的問題。

3. 信息融合與響應(yīng)生成

將檢索到的相關(guān)文本片段、原始問題與少量關(guān)鍵視頻幀共同輸入現(xiàn)有的 LVLM(如 LLaMA-VID、Qwen-VL 等),由模型完成最終推理輸出。整個(gè)過程無需微調(diào)、即插即用,顯著降低部署門檻與計(jì)算開銷。



可以發(fā)現(xiàn),在經(jīng)過檢索之后,LVLM 可以將更多的注意力集中到對(duì)應(yīng)的關(guān)鍵視覺信息上,減少模態(tài)鴻溝:



優(yōu)勢(shì):輕量、高效、性能卓越

  • 即插即用:兼容任意開源 LVLM,無需修改模型架構(gòu)或重新訓(xùn)練。
  • 資源友好:在 Video-MME 基準(zhǔn)測(cè)試中,平均每問僅增加約 2000 token,遠(yuǎn)低于主流 Agent 方法的通信與計(jì)算開銷。
  • 性能領(lǐng)先:當(dāng)與一個(gè) 72B 參數(shù)規(guī)模的開源 LVLM 結(jié)合時(shí),Video-RAG 在多個(gè)長(zhǎng)視頻理解基準(zhǔn)上超越 GPT-4o 和 Gemini 1.5 等商業(yè)閉源模型,展現(xiàn)出驚人的競(jìng)爭(zhēng)力。





成果與意義

Video-RAG 的成功驗(yàn)證了一個(gè)重要方向:通過高質(zhì)量、視覺對(duì)齊的輔助文本引入外部知識(shí),可以在不改變模型的前提下,突破上下文窗口瓶頸,顯著提升跨模態(tài)理解能力。它不僅解決了長(zhǎng)視頻理解中的 “幻覺” 與 “注意力分散” 問題,更構(gòu)建了一套低成本、高可擴(kuò)展的技術(shù)范式,適用于教育、安防、醫(yī)療影像分析等多種現(xiàn)實(shí)場(chǎng)景。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李莉評(píng)論區(qū)被沖,過往言論被反復(fù)吐槽,伊朗半小時(shí)滅以,回旋鏢!

李莉評(píng)論區(qū)被沖,過往言論被反復(fù)吐槽,伊朗半小時(shí)滅以,回旋鏢!

眼光很亮
2026-03-01 15:39:43
復(fù)旦神級(jí)教授“預(yù)言”:美國不敢打伊朗,國力嚴(yán)重下降難支撐全球霸權(quán)

復(fù)旦神級(jí)教授“預(yù)言”:美國不敢打伊朗,國力嚴(yán)重下降難支撐全球霸權(quán)

回旋鏢
2026-03-01 21:20:11
交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

阿離家居
2026-03-01 16:53:47
1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

爆角追蹤
2026-03-01 15:28:53
上海旅客講述迪拜驚魂夜:百余人手機(jī)同時(shí)響警報(bào),航班再延期

上海旅客講述迪拜驚魂夜:百余人手機(jī)同時(shí)響警報(bào),航班再延期

南方都市報(bào)
2026-03-02 09:25:52
李嘉誠原則:不要把錢,放在注定“左轉(zhuǎn)”的地方

李嘉誠原則:不要把錢,放在注定“左轉(zhuǎn)”的地方

世界靈敏度趙靈敏
2026-03-01 21:07:16
美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

夢(mèng)史
2026-03-01 11:22:23
美國精英想不通:為什么每次要打壓中國時(shí),總有意外發(fā)生?

美國精英想不通:為什么每次要打壓中國時(shí),總有意外發(fā)生?

聚焦真實(shí)瞬間
2026-01-26 10:19:09
美以軍事行動(dòng)引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時(shí)一文速覽

美以軍事行動(dòng)引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時(shí)一文速覽

極目新聞
2026-03-02 06:57:53
56歲許晴,無美顏無濾鏡素顏亮相,狀態(tài)好到讓人不敢相信

56歲許晴,無美顏無濾鏡素顏亮相,狀態(tài)好到讓人不敢相信

復(fù)轉(zhuǎn)小能手
2026-03-01 22:15:02
伊朗新任最高領(lǐng)袖被炸身亡

伊朗新任最高領(lǐng)袖被炸身亡

桂系007
2026-03-02 08:41:31
副教授曬出神仙躺平生活,惹爭(zhēng)議!

副教授曬出神仙躺平生活,惹爭(zhēng)議!

黯泉
2026-03-01 21:23:04
“人壽盡,屋先知”!家里出現(xiàn)這3種“怪象”,別迷信但要多留心

“人壽盡,屋先知”!家里出現(xiàn)這3種“怪象”,別迷信但要多留心

三農(nóng)老歷
2026-03-02 11:00:07
新華時(shí)評(píng):當(dāng)炸彈落在校園,文明底線何在

新華時(shí)評(píng):當(dāng)炸彈落在校園,文明底線何在

澎湃新聞
2026-03-01 22:32:48
外媒:就哈梅內(nèi)伊遇害,伊朗外長(zhǎng)致信聯(lián)合國呼吁追究美以責(zé)任

外媒:就哈梅內(nèi)伊遇害,伊朗外長(zhǎng)致信聯(lián)合國呼吁追究美以責(zé)任

環(huán)球網(wǎng)資訊
2026-03-02 13:11:34
哈梅內(nèi)伊被“斬首”,更大黑洞來了?

哈梅內(nèi)伊被“斬首”,更大黑洞來了?

中國新聞周刊
2026-03-01 23:26:00
國際油價(jià)跳漲,黃金、白銀直線拉升!伊朗:反擊已造成560名美軍傷亡,3艘違規(guī)美英油輪遭導(dǎo)彈擊中!特朗普稱美方“基本摧毀”伊朗海軍總部

國際油價(jià)跳漲,黃金、白銀直線拉升!伊朗:反擊已造成560名美軍傷亡,3艘違規(guī)美英油輪遭導(dǎo)彈擊中!特朗普稱美方“基本摧毀”伊朗海軍總部

每日經(jīng)濟(jì)新聞
2026-03-02 08:14:14
浙江省地震局:成都高新減災(zāi)研究所未經(jīng)授權(quán)同意,非法發(fā)布預(yù)警信息,稱浙江泰順發(fā)生4.2級(jí)地震

浙江省地震局:成都高新減災(zāi)研究所未經(jīng)授權(quán)同意,非法發(fā)布預(yù)警信息,稱浙江泰順發(fā)生4.2級(jí)地震

閃電新聞
2026-03-02 11:03:08
尷尬!扣12分,春節(jié)最冤種司機(jī)出現(xiàn)!一粵s車牌兩次駛?cè)霊?yīng)急車道

尷尬!扣12分,春節(jié)最冤種司機(jī)出現(xiàn)!一粵s車牌兩次駛?cè)霊?yīng)急車道

火山詩話
2026-03-02 10:11:01
英國、法國和德國聯(lián)合聲明

英國、法國和德國聯(lián)合聲明

澎湃新聞
2026-03-02 10:11:31
2026-03-02 14:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12388文章數(shù) 142574關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過最大考驗(yàn)

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來了

汽車要聞

預(yù)售11.28萬起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

數(shù)碼
家居
本地
旅游
游戲

數(shù)碼要聞

聯(lián)想公布ThinkBook Modular AI PC Concept模塊化雙屏概念機(jī)

家居要聞

萬物互聯(lián) 享科技福祉

本地新聞

津南好·四時(shí)總相宜

旅游要聞

【花Young貴陽】南明區(qū)永樂鄉(xiāng)萬畝桃花競(jìng)相綻放

voice38回應(yīng)攻破D加密游戲順序 工具齊備就會(huì)攻破!

無障礙瀏覽 進(jìn)入關(guān)懷版