国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

FOCUS 關(guān)鍵幀提。洪L視頻理解能力提升11.9%,只需采樣<2% 幀

0
分享至



本文第一作者朱子瑞為新加坡國立大學(xué)四年級博士生,本科畢業(yè)于清華大學(xué),研究方向為多模態(tài)大模型和后訓(xùn)練優(yōu)化。通訊作者為 TikTok 內(nèi)容智能負責(zé)人 Kanchan Sarkar、Meta楊振恒博士(相關(guān)工作完成于其在 TikTok 任職期間)以及新加坡國立大學(xué)校長青年教授尤洋老師。

文章速覽

長視頻會使 MLLM 的視覺 token 規(guī)模快速增長,但推理階段的計算與上下文預(yù)算有限,難以對全量幀進行處理。

現(xiàn)有關(guān)鍵幀方案通常還需先用 CLIP/BLIP 等視覺編碼器全視頻逐幀預(yù)掃描,即使最終只保留少量幀,前置計算成本依然很高。

本文提出FOCUS:將關(guān)鍵幀選擇建模為組合純探索(CPE)多臂賭博機,以自適應(yīng)的 “探索 — 利用” 策略在無需遍歷全幀的前提下先鎖定高價值時間段,再在段內(nèi)精挑關(guān)鍵幀。

  • 無需訓(xùn)練、即插即用:可直接接入現(xiàn)有 MLLM(如 GPT-4o 或 Qwen)的推理流程,不依賴特定模型結(jié)構(gòu)與訓(xùn)練方式。

  • 效果更強:在>20 分鐘的長視頻 VQA benchmark 設(shè)定下,F(xiàn)OCUS 選幀相較均勻抽幀可帶來11.9%的性能提升。

  • 成本更低:不依賴降采樣等預(yù)過濾手段,平均只需觀察 <2% 的幀即可達到上述收益,顯著降低推理計算開銷。



  • 論文標(biāo)題:FOCUS: Efficient Keyframe Selection for Long Video Understanding
  • 論文鏈接:https://arxiv.org/abs/2510.27280
  • 代碼倉庫:https://github.com/NUS-HPC-AI-Lab/FOCUS

背景:長視頻理解為什么難?

長視頻理解是多模態(tài)大模型(MLLM)中最為困難的問題之一。一段小時級、30fps 的標(biāo)準(zhǔn)視頻往往包含十萬量級以上的幀數(shù)。

對于主流 MLLM 而言,無論是先將視頻幀編碼為視覺 token、還是進一步進行跨模態(tài)交互建模,計算與上下文開銷都會隨幀數(shù)快速增長:“全量幀輸入” 在絕大多數(shù)真實推理場景中并不現(xiàn)實。

因此,“挑選關(guān)鍵幀” 幾乎是所有長視頻系統(tǒng)的必經(jīng)步驟。最常見的均勻抽幀(降采樣)雖然能控成本,卻容易錯過集中在短片段中的決定性證據(jù),導(dǎo)致模型在核心信息缺失的情況下 “盲答”。

現(xiàn)有關(guān)鍵幀方法大致分為兩類:一類是training-based,訓(xùn)練輕量選擇器從全量幀中挑子集,但面臨標(biāo)注困難、組合爆炸帶來的訓(xùn)練與工程成本,以及對下游模型結(jié)構(gòu) / 訓(xùn)練方式的依賴;另一類是training-free的檢索式方案,用 CLIP、BLIP 等編碼器計算 “幀 — 文本” 相關(guān)性再選幀。

后者雖免訓(xùn)練,卻往往需要先對全視頻逐幀預(yù)編碼,面對小時級視頻時單視頻計算開銷仍可能達到約FLOPs 量級,難以部署。

因此,我們需要一種更高效的選幀方式:在不犧牲準(zhǔn)確性的前提下,避免對全視頻逐幀預(yù)掃,降低推理代價,用盡可能少的觀測幀數(shù)快速定位與 query 相關(guān)的高價值片段,真正滿足現(xiàn)實系統(tǒng)的效率與可用性要求。

方法:FOCUS 的兩階段探索 - 利用

基于上述動機,本文提出FOCUS,一個無需訓(xùn)練、可即插即用的關(guān)鍵幀選擇算法。FOCUS 的核心思想是:將 “在預(yù)算內(nèi)找到最有用的幀” 視為一個組合探索問題 ——算法不必先看完整視頻再做選擇,而是可以通過少量試探性采樣(探索)逐步縮小候選范圍,再將預(yù)算集中到最有價值的區(qū)域(利用)。



具體而言,F(xiàn)OCUS 將關(guān)鍵幀選擇建模為組合純探索(CPE)的多臂賭博機問題,并采用兩階段的 coarse-to-fine 策略:

第一階段:定位高價值時間段(粗粒度探索)。

我們把長視頻切分為若干時間段,將每個時間段視作一個 “臂”。FOCUS 在有限預(yù)算下,對不同時間段進行自適應(yīng)抽樣:對 “可能與 query 更相關(guān)” 的時間段分配更多采樣,對明顯無關(guān)的時間段快速減少采樣。通過維護每個時間段的估計收益與不確定性(置信界),算法可以在不遍歷全視頻的情況下,把注意力收斂到少量候選高價值時間段。

第二階段:在段內(nèi)精挑關(guān)鍵幀(細粒度利用)。

當(dāng)候選時間段被鎖定后,F(xiàn)OCUS 在這些時間段內(nèi)部進一步選擇幀:同樣通過 “少量試探 + 置信驅(qū)動” 的方式,把幀預(yù)算集中到最相關(guān)的畫面上,輸出最終關(guān)鍵幀集合供下游 MLLM 推理。



FOCUS 的效率優(yōu)勢使其可以作為一個前置模塊,直接插入現(xiàn)有 MLLM 推理 pipeline,在不同模型、不同任務(wù)上復(fù)用。

實驗:即插即用的長視頻理解利器

為了驗證 FOCUS 的通用性與有效性,作者在四個公開視頻問答(Video QA)基準(zhǔn)上進行了評測,并選擇了四種常用的 MLLM 作為下游推理模型,包括GPT-4o、Qwen2-VL、LLaVA-OV、LLaVA-Video等。





作者進一步地將 FOCUS 與目前最有代表性的關(guān)鍵幀選擇方法進行了對比。



結(jié)果表明:在長視頻場景(例如>20 分鐘的設(shè)定)下,F(xiàn)OCUS 相比均勻抽幀帶來最高 11.9%的性能提升。同時,F(xiàn)OCUS 在不依賴降采樣等預(yù)過濾手段的情況下,平均僅需觀察<2%的幀即可達到上述收益,顯著降低了關(guān)鍵幀選擇與推理階段的總體計算開銷。

分析:高效定位視頻關(guān)鍵信息

1. 可視化:FOCUS 能更精準(zhǔn)地找到與 query 相關(guān)的證據(jù)片段

作者對若干典型樣例進行可視化分析:在長視頻中,F(xiàn)OCUS 通過兩階段探索快速將注意力收斂到少量高價值片段,再在片段內(nèi)部挑出證據(jù)幀,使得輸入給 MLLM 的幀更 “信息密集”,從而提升回答質(zhì)量。



2. 效率提升:相比全幀預(yù)掃的選幀范式,F(xiàn)OCUS 的端到端開銷更可控

FOCUS 的效率優(yōu)勢在于:它的選擇過程本身就是省幀的,能夠在探索階段動態(tài)跳過大量無關(guān)區(qū)域,避免將計算預(yù)算花在 “無用的全量預(yù)掃” 上,相對于基線方法大大降低推理開銷。



同時 FOCUS 提供了清晰的預(yù)算控制接口:當(dāng)系統(tǒng)更關(guān)注性能時,可以適當(dāng)增加探索預(yù)算;當(dāng)系統(tǒng)更關(guān)注吞吐 / 延遲時,可以通過調(diào)整超參數(shù)收緊預(yù)算。



總結(jié)

長視頻理解的核心難點在于:視覺 token 隨幀數(shù)快速膨脹,均勻抽幀又容易漏掉關(guān)鍵證據(jù);而現(xiàn)有關(guān)鍵幀方法存在著訓(xùn)練代價高、依賴模型結(jié)構(gòu)的問題,或者雖免訓(xùn)練仍需全幀預(yù)編碼,難以滿足真實系統(tǒng)的效率要求。

FOCUS 將選幀建模為組合純探索,通過兩階段 “探索 — 利用” 在不遍歷全幀的情況下定位與 query 相關(guān)的高價值片段;平均僅觀察 <2% 幀即可在長視頻設(shè)定下帶來最高 +11.9% 的準(zhǔn)確率提升。它可作為即插即用的推理組件,為 MLLM 長視頻應(yīng)用提供更可控的成本與表現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
從端屎端尿到?jīng)Q絕分手,瞿穎用半年看透他,原來患難不一定見真情

從端屎端尿到?jīng)Q絕分手,瞿穎用半年看透他,原來患難不一定見真情

觀察者海風(fēng)
2026-02-28 19:30:08
新iPhone 正式官宣:3 月 2 日,即將發(fā)布!

新iPhone 正式官宣:3 月 2 日,即將發(fā)布!

科技堡壘
2026-02-28 11:22:07
WTT大滿貫:王曼昱9-2險翻車!首局轟15-13,對手連得8分逆轉(zhuǎn)失敗

WTT大滿貫:王曼昱9-2險翻車!首局轟15-13,對手連得8分逆轉(zhuǎn)失敗

劉姚堯的文字城堡
2026-03-01 12:21:22
震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

震撼!曾精確預(yù)言911的盲眼神婆預(yù)測今年8大事件,有一條暗指中國

刀刃故事
2024-11-22 01:55:03
結(jié)婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉(zhuǎn)了

結(jié)婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉(zhuǎn)了

蕭鑟科普解說
2026-02-26 06:07:11
為什么說豐田混動是普通人的優(yōu)選車

為什么說豐田混動是普通人的優(yōu)選車

侃故事的阿慶
2026-03-01 18:03:42
戰(zhàn)斧導(dǎo)彈為啥要超低空飛行?

戰(zhàn)斧導(dǎo)彈為啥要超低空飛行?

52赫茲實驗室
2026-03-01 09:49:41
央媒怒批、坑害老百姓!臭名昭著的四大相聲演員,各個難以原諒

央媒怒批、坑害老百姓!臭名昭著的四大相聲演員,各個難以原諒

青橘罐頭
2026-02-18 07:08:27
五角大樓稱美軍12小時內(nèi)對伊朗發(fā)動900次空襲

五角大樓稱美軍12小時內(nèi)對伊朗發(fā)動900次空襲

財聯(lián)社
2026-03-01 10:57:04
德國總理訪華回國后發(fā)表演講: 從中國回去就能深刻感受到 德國目前的狀況 無法維持德國的長久繁榮

德國總理訪華回國后發(fā)表演講: 從中國回去就能深刻感受到 德國目前的狀況 無法維持德國的長久繁榮

閃電新聞
2026-02-28 15:46:30
讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

陌上桃花開的
2026-02-28 16:16:42
八路軍有條奇怪的戰(zhàn)場紀(jì)律:可以不要沖鋒槍,但必須拿走三八大蓋

八路軍有條奇怪的戰(zhàn)場紀(jì)律:可以不要沖鋒槍,但必須拿走三八大蓋

飯小妹說歷史
2026-03-01 10:53:31
杜聿明晚年回憶:要是聽了郭汝瑰的話,我真有可能從淮海戰(zhàn)場逃走

杜聿明晚年回憶:要是聽了郭汝瑰的話,我真有可能從淮海戰(zhàn)場逃走

掠影后有感
2026-03-01 10:05:58
比熬夜可怕十倍的10個壞習(xí)慣,一定要拋棄!

比熬夜可怕十倍的10個壞習(xí)慣,一定要拋棄!

深度知局
2026-02-26 21:39:44
連續(xù)6年數(shù)據(jù)為零!馬斯克畫餅被監(jiān)管揭穿:特斯拉從未在加州推進Robotaxi無人駕駛測試

連續(xù)6年數(shù)據(jù)為零!馬斯克畫餅被監(jiān)管揭穿:特斯拉從未在加州推進Robotaxi無人駕駛測試

快科技
2026-02-27 16:09:08
錢楓近照曝光,肥頭大耳認(rèn)不出,天天兄弟物是人非:還好退圈了

錢楓近照曝光,肥頭大耳認(rèn)不出,天天兄弟物是人非:還好退圈了

娛說瑜悅
2026-02-27 17:37:41
10點睡覺是錯誤的?醫(yī)生建議:過了63歲,睡覺盡量要做到這5點!

10點睡覺是錯誤的?醫(yī)生建議:過了63歲,睡覺盡量要做到這5點!

小胡軍事愛好
2026-03-01 18:50:10
4000萬港元成本,《夜王》口碑票房爆棚,江志強助港片大賺一筆

4000萬港元成本,《夜王》口碑票房爆棚,江志強助港片大賺一筆

電影票房預(yù)告片
2026-02-28 00:18:13
大S兩娃去醫(yī)院探望后媽馬筱梅照片曝光,網(wǎng)友感嘆滿屏討好的客氣

大S兩娃去醫(yī)院探望后媽馬筱梅照片曝光,網(wǎng)友感嘆滿屏討好的客氣

安寧007
2026-02-28 21:48:25
臉在江山在?事實證明,失去黃曉明的楊穎,又回到了她的“怪圈”

臉在江山在?事實證明,失去黃曉明的楊穎,又回到了她的“怪圈”

觀察鑒娛
2026-02-28 10:07:44
2026-03-01 21:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

伊朗代表在安理會會議上直接警告美方:建議你保持禮貌

頭條要聞

伊朗代表在安理會會議上直接警告美方:建議你保持禮貌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

時尚
數(shù)碼
藝術(shù)
房產(chǎn)
旅游

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

數(shù)碼要聞

小米Vision Gran Turismo超跑設(shè)計細節(jié)首曝

藝術(shù)要聞

2025年第二屆少兒美術(shù)教師作品展 | 油畫選刊

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

旅游要聞

去年秋天至今“沒睡過覺”,河津櫻早開刷新15年紀(jì)錄

無障礙瀏覽 進入關(guān)懷版