国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

記得住、答得快、用得?。篐ERMES 流式視頻理解實時響應(yīng)提速10倍

0
分享至



復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院與新加坡國立大學(xué)聯(lián)合提出HERMES,一個面向流式視頻理解的免訓(xùn)練 (training-free)框架。它將 KV Cache 重新建模為層次化記憶系統(tǒng),在用戶提問到來時無需額外檢索或輔助計算,就能直接復(fù)用緩存進行回答。

在多項流式與離線視頻基準上的實驗表明,HERMES 在相較均勻采樣減少 68% 視頻 token的情況下,仍能取得可比甚至更優(yōu)的理解性能;在流式數(shù)據(jù)集上最高帶來11.4%的增益, 并實現(xiàn)最高10倍 (10×)的首個 token 生成時間 (TTFT) 加速。

在現(xiàn)實世界中,人類理解視頻流并不是把所有畫面一股腦 “存下來” 再慢慢分析??匆粓鲋辈?、盯一段監(jiān)控、觀察一臺正在運轉(zhuǎn)的機器人時,我們會自然地把剛發(fā)生的內(nèi)容保留在注意力前沿,同時把更早但更關(guān)鍵的線索壓縮進長期記憶里。等到有人發(fā)問時,我們往往可以立刻回答,而不需要重新把整段過程回放一遍。

然而,現(xiàn)有多模態(tài)大語言模型在離線視頻理解上已經(jīng)取得了顯著進展,一旦進入流式視頻場景,卻常常陷入三難困境:既要保持理解性能穩(wěn)定,又要做到實時響應(yīng),還要把 GPU 顯存開銷壓在可部署范圍內(nèi)。已有方法中,一部分會把歷史視頻內(nèi)容轉(zhuǎn)存到外部 CPU、磁盤或數(shù)據(jù)庫中,等用戶提問時再額外檢索和重建上下文;另一部分雖然嘗試直接壓縮緩存,卻往往缺乏細粒度管理和可解釋性。

現(xiàn)在,這個問題有了一個更優(yōu)雅的答案。研究團隊提出HERMES(KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding,ACL-2026),不再把 KV Cache 視作一個被動的中間產(chǎn)物,而是把它看作視頻流理解中的層次化記憶系統(tǒng)。在這一視角下,緩存不僅可以被壓縮,更可以被 “管理”。目前,該工作已被 ACL 2026 主會錄用。



  • 論文標題:HERMES:KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding
  • 論文地址: https://arxiv.org/pdf/2601.14724
  • 代碼地址: https://github.com/haowei-freesky/HERMES
  • 項目主頁: https://hermes-streaming.github.io/

從離線理解到流式理解:

為什么這個問題這么難?

傳統(tǒng)離線視頻理解默認 “視頻已經(jīng)完整給出”,模型可以在統(tǒng)一采樣后一次性編碼、一次性回答。但流式視頻完全不同:未來幀未知,用戶問題未知,視頻時長也可能持續(xù)增長。這意味著模型無法提前知道哪些片段最重要,也不能把每一幀都永遠保存在 GPU 中。

過去的方法大多在兩條路之間搖擺:

依賴外部記憶。把歷史視頻內(nèi)容以文本描述 (caption)、視覺特征塊 (patch) 或 KV 狀態(tài)形式轉(zhuǎn)移到 CPU、磁盤或數(shù)據(jù)庫里,等提問時再檢索回來。這類方法的主要問題是延遲高,而且會引入額外計算鏈路。

直接復(fù)用內(nèi)部緩存。把 KV Cache 當作模型內(nèi)部記憶來使用,理論上更適合低延遲場景;但如果沒有精細的保留與淘汰機制,緩存很快就會被不斷增長的視頻流擠爆,或者在壓縮過程中丟失真正關(guān)鍵的信息。

換句話說,流式視頻理解真正缺的,不只是 “更小的緩存”,而是一套更接近人類記憶組織方式的緩存管理機制。



圖 1:HERMES 概念圖。左側(cè)展示了其將 KV Cache 視作層次化記憶系統(tǒng)的整體框架;右側(cè)則展示了不同層的注意力偏好與效率測試結(jié)果。

HERMES:把 KV Cache 變成分層視頻記憶

HERMES 最有啟發(fā)性的地方,在于它不是從工程經(jīng)驗出發(fā)硬做壓縮,而是先通過注意力機制分析,去觀察不同解碼層到底更偏好什么樣的視頻信息。研究團隊發(fā)現(xiàn),在流式輸入下,不同層實際上天然呈現(xiàn)出不同的 “記憶分工”。

一個關(guān)鍵洞察:不同層,關(guān)注的是不同粒度的信息

研究發(fā)現(xiàn),淺層、中層和深層對視頻 token 的偏好并不相同:

淺層像感官記憶。它們對最新到來的幀有明顯的近期偏好 (recency bias),更關(guān)心 “剛剛發(fā)生了什么”。

中層像工作記憶。它們會在近期信息和更早的語義信息之間做平衡,承擔承上啟下的過渡作用。

深層像長期記憶。它們不再單純偏向最近幀,而是會周期性地鎖定一些幀級 “錨點” token,用來保留更長時間跨度上的關(guān)鍵語義。



圖 2:不同層對流式視頻 token 的注意力偏好。淺層更關(guān)注最近 token,深層更傾向于捕捉具有節(jié)奏性的幀級錨點,中層則承擔過渡作用。

這意味著,KV Cache 并不是一個 “各層同質(zhì)” 的存儲池,而天然更像一個由感官記憶、工作記憶和長期記憶組成的層次化系統(tǒng)。HERMES 正是基于這一點,重新設(shè)計了流式視頻緩存的保留策略。

方法三件套:分層管理、跨層平滑、位置重索引



圖 3:HERMES 方法總覽圖。包括 “分層 KV Cache 管理”、“跨層記憶平滑” 和 “位置重索引” 三大關(guān)鍵組件。

圍繞 “KV Cache 是層次化記憶” 這一核心認識,HERMES 構(gòu)建了三大關(guān)鍵組件:

1. 分層 KV Cache 管理(Hierarchical KV Cache Management)

HERMES 不再對所有層采用統(tǒng)一的淘汰策略,而是按層分配不同保留邏輯。淺層主要按時間新近性保留 token;深層則更多依據(jù)對用戶查詢的注意力重要性來保留幀級錨點;中層通過對 “新近性” 和 “注意力分數(shù)” 做插值,在二者之間取得平衡。

2. 跨層記憶平滑(Cross-Layer Memory Smoothing)

如果每一層都獨立淘汰 token,就容易出現(xiàn)不同層在同一緩存位置上 “記的不是同一個東西” 的問題。HERMES 通過從深層向淺層傳播重要性信號,對跨層記憶進行平滑,讓多層緩存之間保持更一致的視覺記憶結(jié)構(gòu)。

3. 位置重索引(Position Re-Indexing)

隨著流式輸入不斷累積,token 的位置索引會越來越大,最終逼近模型支持的上限,影響生成質(zhì)量。HERMES 通過位置重索引,把保留下來的 token 重新映射到連續(xù)位置區(qū)間中;在流式任務(wù)上使用更省算力的惰性重索引 (lazy re-indexing),在離線長視頻評測上則使用更穩(wěn)定的即時重索引 (eager re-indexing)。

這三步結(jié)合起來,讓 HERMES 能在不依賴額外訓(xùn)練、不需要查詢時外部檢索的前提下,直接復(fù)用一份緊湊而有效的緩存,支撐實時視頻問答。

實驗結(jié)果:HERMES 不只是更快,

還在多個基準上更穩(wěn)更準

主結(jié)果:在流式視頻基準上顯著領(lǐng)先 training-free 基線

研究團隊在StreamingBench、OVO-Bench、RVS-Ego、RVS-Movie等多個流式視頻任務(wù)上進行了系統(tǒng)評估。結(jié)果顯示,HERMES 不僅超過了對應(yīng)的基礎(chǔ)模型,也普遍優(yōu)于現(xiàn)有 training-free 的 offline-to-online 方法。

以Qwen2.5-VL-7B為例,在僅使用4K video tokens的情況下,HERMES 在 StreamingBench 上達到79.44%,相較基座模型的73.31%提升6.13個點;在綜合平均指標上達到59.21%,相比基座模型的52.28%提升6.93個點?;赒wen2.5-VL-32B的 HERMES 版本則進一步將綜合平均表現(xiàn)提升到64.82%。



圖 4:StreamingBench 與 OVO-Bench 上的主結(jié)果。HERMES 在眾多 offline-to-online 方案中表現(xiàn)突出,并在不同底座模型上均能穩(wěn)定提升。

在開放式流式問答任務(wù)上,HERMES 同樣展現(xiàn)出更細粒度的時序與空間理解能力,在RVS-Ego和RVS-Movie上相較基礎(chǔ)模型最高可提升11.4%,說明其優(yōu)勢不僅體現(xiàn)在多選題上,也體現(xiàn)在更接近真實使用場景的開放問答中。

效率優(yōu)勢:查詢到來時 “實時開口”

如果說準確率證明了 HERMES “記得住”,那么效率實驗證明了它 “答得快”。由于 HERMES 在用戶提問到來時不需要額外檢索或輔助計算,它可以直接在現(xiàn)有緩存上完成回答,這一點對流式交互尤為關(guān)鍵。

在基于LLaVA-OV-7B、4K-token memory budget的測試中,HERMES 在不同輸入幀數(shù)下都保持了穩(wěn)定的顯存占用與極低的 TTFT。論文顯示,在16、64、256幀輸入下,其 TTFT 分別約為27 ms、29 ms、28 ms;在256 幀設(shè)置下,相比此前的 SOTA 方法StreamingTOM,HERMES 實現(xiàn)了約10×的 TTFT 加速。



圖 5:效率對比結(jié)果。隨著輸入幀數(shù)增加,HERMES 仍能保持穩(wěn)定的 GPU 顯存占用和極低的 Time To First Token (TTFT)。

更重要的是,這種速度優(yōu)勢不是靠犧牲緩存上限換來的。HERMES 在固定緊湊顯存預(yù)算下持續(xù)工作,避免了隨視頻流增長而不斷抬升的顯存壓力,更適合真實部署中的長期在線場景。

更少 token,不代表更差理解

HERMES 的另一個重要意義在于,它證明了流式視頻理解并不一定依賴 “保存盡可能多的幀”。論文指出,相比均勻采樣方案,HERMES 最多可減少68%的視頻 token,但依然能在多個流式和離線基準上保持競爭力。

在離線視頻任務(wù)上,HERMES 并沒有因為面向流式場景設(shè)計而犧牲泛化性。以LLaVA-OV-7B為基座時,HERMES 在Egoschema和VideoMME上分別達到 60.29% 和 49.22%,高于基座模型;在MVBench上則取得與基座相當?shù)慕Y(jié)果。這說明它不僅適用于持續(xù)在線的視頻流,也具備向更廣泛長視頻理解任務(wù)遷移的能力。



圖 6:不同 memory budget 下的性能變化。實驗表明,HERMES 在約 4K memory budget 左右已經(jīng)能在流式與離線任務(wù)間取得較好平衡。

從消融實驗可以看到,HERMES 的提升并非來自單一技巧,而是來自一整套協(xié)同設(shè)計:分層緩存管理決定 “留什么”,跨層記憶平滑解決 “不同層是否記一致”,位置重索引保證 “長流式輸入下還能穩(wěn)定生成”。這些模塊共同構(gòu)成了它的性能與效率優(yōu)勢。


為什么 HERMES 值得關(guān)注?

HERMES 的價值,不只是又一個在榜單上更高分的方法,更在于它為流式視頻理解提供了一種更自然的系統(tǒng)設(shè)計思路。

它更接近真實部署需求。對于視頻助手、機器人、智能安防、車載系統(tǒng)等場景來說,用戶不會等待模型重新檢索長上下文再開始作答。HERMES 把 “實時響應(yīng)” 放在架構(gòu)設(shè)計的中心位置,這一點非常關(guān)鍵。

它給出了更有解釋性的緩存視角。很多緩存壓縮方法是經(jīng)驗性的,而 HERMES 先做機制分析,再據(jù)此設(shè)計記憶管理規(guī)則,使 “為什么保留這些 token” 這件事變得更清楚。

它是training-free、plug-and-play的。 論文在 LLaVA-OV 與 Qwen2.5-VL 等不同基礎(chǔ)模型上驗證了 HERMES 的通用性,說明它不是與某個單獨模型強綁定的工程 patch,而更像一種可遷移的流式理解范式。

未來展望:讓視頻大模型真正走向持續(xù)在線

HERMES 所回答的,不只是 “如何壓縮 KV Cache”,而是 “如何讓視頻大模型以更像記憶系統(tǒng)的方式持續(xù)工作”。從這個角度看,它為下一代流式多模態(tài)智能體提供了一個很重要的方向:模型不必在每次回答前重新回看全部歷史,而是應(yīng)該學(xué)會像人一樣,保留最新感知、提煉關(guān)鍵錨點、壓縮長期經(jīng)驗,并在需要時迅速調(diào)用。

我們可以預(yù)期,這種思路會在更多實時視頻場景中釋放價值,例如長時監(jiān)控理解、第一視角視頻助手、機器人持續(xù)感知、在線教育分析以及人機實時協(xié)作等。隨著流式視頻應(yīng)用不斷增多,像 HERMES 這樣兼顧準確性、低延遲與低顯存開銷的方法,很可能成為視頻大模型從 “能看視頻” 邁向 “能持續(xù)在線理解視頻” 的關(guān)鍵一步。

作者簡介:

第一作者為復(fù)旦大學(xué)一年級博士生張浩威和南京大學(xué)本科生楊樞棟;合作者包括新加坡國立大學(xué) See-Kiong Ng 教授;通訊作者為復(fù)旦大學(xué)計算與智能創(chuàng)新學(xué)院青年研究員傅金蘭與邱錫鵬教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

懂球帝
2026-04-23 08:32:10
mod終于觸碰逆鱗,卡普空這次是真的怒了

mod終于觸碰逆鱗,卡普空這次是真的怒了

街機時代
2026-04-23 18:00:03
中國開始殺雞儆猴!對2大公司下達逐客令,巴拿馬反應(yīng)出乎意料

中國開始殺雞儆猴!對2大公司下達逐客令,巴拿馬反應(yīng)出乎意料

琨玉秋霜
2026-04-24 03:04:07
杜蘭特歷史地位遭質(zhì)疑!與詹姆斯差距明顯 離開庫里就無法奪冠?

杜蘭特歷史地位遭質(zhì)疑!與詹姆斯差距明顯 離開庫里就無法奪冠?

羅說NBA
2026-04-24 06:21:35
1951年,112歲虛云和尚在云門寺被打斷肋骨,五竅流血,驚動北京

1951年,112歲虛云和尚在云門寺被打斷肋骨,五竅流血,驚動北京

興趣知識
2026-04-23 03:24:33
局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰(zhàn)區(qū)行動了

局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰(zhàn)區(qū)行動了

云舟史策
2026-04-23 07:32:35
美媒稱,革命衛(wèi)隊總司令瓦希迪成為美軍最新打擊目標

美媒稱,革命衛(wèi)隊總司令瓦希迪成為美軍最新打擊目標

山河路口
2026-04-24 13:23:02
巴拿馬運河通行費創(chuàng)新高 美國石油運輸激增推高擁堵與成本

巴拿馬運河通行費創(chuàng)新高 美國石油運輸激增推高擁堵與成本

財聯(lián)社
2026-04-23 16:58:05
詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個舉動

詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個舉動

游古史
2026-04-07 17:52:48
佩通坦帶孫輩孩再探他信,他信進入十人假釋名單,孩子們來歡迎了

佩通坦帶孫輩孩再探他信,他信進入十人假釋名單,孩子們來歡迎了

夢史
2026-04-24 16:20:07
事態(tài)升級,中方開打第二波反擊,高市或突然辭職,石破茂已扛旗

事態(tài)升級,中方開打第二波反擊,高市或突然辭職,石破茂已扛旗

林子說事
2026-04-24 16:28:00
央視標王爆料:我早知許家印要倒 他進去因有人要背鍋 犯了一大忌

央視標王爆料:我早知許家印要倒 他進去因有人要背鍋 犯了一大忌

風過鄉(xiāng)
2026-04-24 12:03:53
美司令已有預(yù)感,中美一旦開戰(zhàn),擺在美軍面前只有兩個選擇

美司令已有預(yù)感,中美一旦開戰(zhàn),擺在美軍面前只有兩個選擇

混沌錄
2026-03-12 19:40:12
港股大模型概念股智譜、Minimax在Deepseek V4發(fā)布后擴大跌勢,分別一度跌6.3%和3.9%

港股大模型概念股智譜、Minimax在Deepseek V4發(fā)布后擴大跌勢,分別一度跌6.3%和3.9%

每日經(jīng)濟新聞
2026-04-24 11:36:09
俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

律法刑道
2026-04-22 08:53:34
三屆MVP就這?戈貝爾扮演約基奇最大克星

三屆MVP就這?戈貝爾扮演約基奇最大克星

體壇周報
2026-04-24 14:36:13
黨員干部嚴禁觸碰!這 6 類違紀違法行為,一律雙開,從嚴處理!

黨員干部嚴禁觸碰!這 6 類違紀違法行為,一律雙開,從嚴處理!

細說職場
2026-04-24 13:57:45
老兵借廁所被拒后續(xù)!殘疾原因曝光,老兵發(fā)聲,官方建議辭退保安

老兵借廁所被拒后續(xù)!殘疾原因曝光,老兵發(fā)聲,官方建議辭退保安

離離言幾許
2026-04-21 21:41:39
奧黛麗赫本人生最后30年:在瑞士小鎮(zhèn)一座帶花園的漂亮房子里度過

奧黛麗赫本人生最后30年:在瑞士小鎮(zhèn)一座帶花園的漂亮房子里度過

毒舌小紅帽
2026-04-17 18:24:06
美國留學(xué)徹底變天!10年前被藤校搶著要,現(xiàn)在Top30都夠不到……

美國留學(xué)徹底變天!10年前被藤校搶著要,現(xiàn)在Top30都夠不到……

愛下廚的阿椅
2026-04-24 18:10:03
2026-04-24 20:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12851文章數(shù) 142635關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

男子撫養(yǎng)14年兒子非親生 妻子結(jié)婚擺酒前跟別人在一起

頭條要聞

男子撫養(yǎng)14年兒子非親生 妻子結(jié)婚擺酒前跟別人在一起

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經(jīng)要聞

LG財閥內(nèi)斗:百億美元商業(yè)帝國爭奪戰(zhàn)

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態(tài)度原創(chuàng)

數(shù)碼
教育
藝術(shù)
時尚
家居

數(shù)碼要聞

浩鑫推出新款迷你準系統(tǒng),可裝酷睿Ultra和獨顯

教育要聞

尊敬不是優(yōu)越感

藝術(shù)要聞

2025最繪畫--第四屆中國青年油畫作品展 | 油畫選刊(三)

水晶專場 || 一眼就淪陷的絕美水晶,百元級的快樂

家居要聞

自然肌理 溫潤美學(xué)

無障礙瀏覽 進入關(guān)懷版