国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

CVPR2026 | Streamo:讓大模型變成實(shí)時(shí)流式交互助手

0
分享至



當(dāng)視頻大模型在 MVBench、VideoMME 等離線基準(zhǔn)上越跑越高分,真實(shí)交互場(chǎng)景卻卡在兩個(gè)硬問(wèn)題:如何處理無(wú)界的視頻流、如何讓模型在動(dòng)態(tài)的視頻流中決定回答時(shí)機(jī)。

近期,香港浸會(huì)大學(xué)聯(lián)合騰訊優(yōu)圖實(shí)驗(yàn)室提出Streamo,其核心創(chuàng)新在于:將‘何時(shí)回答’變成模型要預(yù)測(cè)的 token,通過(guò)端到端訓(xùn)練框架把離線視頻模型直接轉(zhuǎn)化為實(shí)時(shí)流視頻助手。Streamo 能夠處理真實(shí)場(chǎng)景的視頻流,支持實(shí)時(shí)的多指令交互,實(shí)現(xiàn)實(shí)時(shí)解說(shuō)、動(dòng)作理解、事件定位、實(shí)時(shí)問(wèn)答等不同任務(wù),讓 streaming video assistant 真正走向可用。



  • 論文標(biāo)題:Streaming Video Instruction Tuning
  • 論文主頁(yè):https://jiaerxia.github.io/Streamo/
  • 論文鏈接:https://github.com/maifoundations/Streamo

1. 問(wèn)題分析

為什么視頻大模型目前還無(wú)法成為一個(gè)實(shí)時(shí)的交互助手?雖然視頻大語(yǔ)言模型近年來(lái)取得了令人矚目的進(jìn)展 ——Qwen2-VL、LLaVA-Video 等模型在視頻理解、問(wèn)答、描述等任務(wù)上屢創(chuàng)新高。然而,關(guān)鍵的卡點(diǎn)在于這些模型是基于完整視頻片段的離線場(chǎng)景設(shè)計(jì)的,而真實(shí)世界的交互需求往往是 "邊看邊說(shuō)" 的實(shí)時(shí)流式場(chǎng)景。

離線視頻理解范式假設(shè)在推理前可以獲取完整視頻,模型由此能在全局審視后再輸出答案,因此在視頻描述、視頻問(wèn)答等任務(wù)中表現(xiàn)突出。然而,真實(shí)世界的流式場(chǎng)景并不滿足這一前提。

視頻流本質(zhì)上是無(wú)界的,模型無(wú)法 “看到未來(lái)”,只能基于當(dāng)前幀及時(shí)做出判斷;又因?qū)崟r(shí)性要求,不能等視頻播放結(jié)束才給出結(jié)果,必須在關(guān)鍵事件發(fā)生的當(dāng)下響應(yīng)。同時(shí),用戶指令可能隨時(shí)到來(lái),模型需要持續(xù)監(jiān)聽(tīng)并在合適的時(shí)機(jī)觸發(fā)響應(yīng)。更復(fù)雜的是,不同應(yīng)用對(duì)響應(yīng)粒度的要求并不一致:有的任務(wù)需要幀級(jí)的即時(shí)敘述,有的則更適合在完整事件結(jié)束后再做總結(jié)與描述。

現(xiàn)有方法通常通過(guò)拆分決策模塊來(lái)適配流式場(chǎng)景:先由一個(gè)模塊判斷 “是否應(yīng)該響應(yīng)”,再調(diào)用離線模型生成內(nèi)容。但這種方案存在明顯缺陷:決策模塊如果過(guò)于輕量,就難以理解復(fù)雜指令和跨時(shí)間的上下文依賴;如果設(shè)計(jì)得過(guò)于龐大,又會(huì)拉高推理延遲,削弱流式交互所需的實(shí)時(shí)性。更關(guān)鍵的是,決策與生成彼此分離,使模型很難在持續(xù)變化的輸入中形成連貫、及時(shí)的響應(yīng)。

Streamo 的核心洞察在于:決策與生成不應(yīng)被拆開(kāi),而應(yīng)統(tǒng)一到同一個(gè)端到端框架中,讓模型直接學(xué)會(huì)“什么時(shí)候該說(shuō)話,以及該說(shuō)什么”。

2. Streamo:

端到端的決策響應(yīng)統(tǒng)一架構(gòu)





通過(guò)這種方式,Streamo 將“是否響應(yīng)”與“生成什么內(nèi)容”統(tǒng)一到同一個(gè) next-token prediction 過(guò)程中。也就是說(shuō),模型在預(yù)測(cè)下一個(gè) token 時(shí),不再只是生成文本內(nèi)容,同時(shí)也在完成響應(yīng)時(shí)機(jī)的判斷。這樣一來(lái),決策和生成共享同一語(yǔ)義空間,模型能夠在連續(xù)變化的視頻內(nèi)容中聯(lián)合建模時(shí)序線索、任務(wù)目標(biāo)與語(yǔ)言輸出,從而更自然地學(xué)習(xí) “何時(shí)該立即回應(yīng)、何時(shí)應(yīng)繼續(xù)等待”。

同時(shí),這一設(shè)計(jì)并不需要額外引入獨(dú)立的決策頭或外部控制器,而是直接將三種狀態(tài) token 融入標(biāo)準(zhǔn)的自回歸訓(xùn)練框架中。這樣既保留了與現(xiàn)有監(jiān)督微調(diào)范式的兼容性,也使訓(xùn)練和推理流程更加簡(jiǎn)潔高效,便于直接復(fù)用現(xiàn)有基礎(chǔ)設(shè)施進(jìn)行并行訓(xùn)練和部署。

3. Streamo-Instruct-465K

訓(xùn)練流式助手的核心挑戰(zhàn)在于:不同任務(wù)對(duì)應(yīng)不同的響應(yīng)節(jié)奏—— 有的需要秒級(jí)實(shí)時(shí)輸出,有的則應(yīng)等待事件結(jié)束后再總結(jié)。這意味著訓(xùn)練數(shù)據(jù)不僅要提供內(nèi)容監(jiān)督,還要給出清晰、一致的時(shí)間邊界,告訴模型什么時(shí)候該沉默、什么時(shí)候該等待、什么時(shí)候該回答。

為此,研究者構(gòu)建了Streamo-Instruct-465K。該數(shù)據(jù)集包含約 46.5 萬(wàn)條指令樣本,來(lái)源于 135,875 段視頻,整合了 ActivityNet、YouCook2、QVHighlight 等多個(gè)公開(kāi)數(shù)據(jù)源,并在統(tǒng)一協(xié)議下重新標(biāo)注。標(biāo)注過(guò)程采用多階段自動(dòng)化流程,結(jié)合 Qwen2.5-VL-72B、GLM-4.5 等大模型生成候選描述,再通過(guò)一致性過(guò)濾與后處理,盡可能保證時(shí)間邊界準(zhǔn)確、文本表達(dá)連貫。

在任務(wù)設(shè)置上,Streamo-Instruct-465K 具有多任務(wù)、多粒度的特點(diǎn)。同一段視頻可以被標(biāo)注為不同形式的流式任務(wù),包括實(shí)時(shí)旁白(Real-time Narration)、事件字幕(Event Caption)、動(dòng)作字幕(Action Caption)、事件時(shí)序定位(Event Grounding)以及時(shí)變問(wèn)答(Time-sensitive QA)。這些任務(wù)覆蓋了從連續(xù)解說(shuō)到事件總結(jié)、從動(dòng)作級(jí)描述到在線定位和動(dòng)態(tài)問(wèn)答等不同場(chǎng)景。

更重要的是,所有任務(wù)都被統(tǒng)一到同一種時(shí)間監(jiān)督框架中:每一輪標(biāo)注不僅包含文本輸出,還明確對(duì)應(yīng)模型當(dāng)下應(yīng)處于沉默、等待還是回答狀態(tài)。這樣一來(lái),模型學(xué)習(xí)的就不只是 “說(shuō)什么”,還包括 “何時(shí)說(shuō)”,從而具備適應(yīng)不同流式任務(wù)的響應(yīng)能力。

多任務(wù)數(shù)據(jù)標(biāo)注演示:

對(duì)于同一段視頻,標(biāo)注可以隨任務(wù)目標(biāo)呈現(xiàn)不同形式:在實(shí)時(shí)旁白中,模型需要跟隨畫(huà)面持續(xù)輸出;在事件字幕中,則只在關(guān)鍵事件結(jié)束后給出總結(jié);在時(shí)變問(wèn)答中,答案會(huì)隨著視頻進(jìn)展不斷更新。對(duì)應(yīng)地,每個(gè)時(shí)間點(diǎn)都會(huì)標(biāo)注模型應(yīng)保持沉默、繼續(xù)等待,還是立即響應(yīng)。

4. 實(shí)驗(yàn)結(jié)果

在 OVO-Bench 上,Streamo-7B (2fps) 以57.86%的平均性能超越 Dispider13.83個(gè)百分點(diǎn)。在三大能力維度上全面領(lǐng)先:實(shí)時(shí)感知能力達(dá)到67.44%(相對(duì) Dispider 的 54.55% 提升+12.89%);回溯追蹤能力達(dá)到49.18%(相對(duì) Dispider 的 36.06% 提升+13.12%);前向響應(yīng)能力達(dá)到56.96%(相對(duì) Dispider 的 34.72% 提升+22.24%)。同時(shí),Streamo 在1fps 訓(xùn)練的模型可直接在 2fps 下評(píng)估,性能提升4.66%, 展現(xiàn)出強(qiáng)大的泛化能力。



Streamo-Instruct vs 現(xiàn)有數(shù)據(jù)

Streamo 的性能提升不僅來(lái)自訓(xùn)練框架,也高度依賴于高質(zhì)量的訓(xùn)練數(shù)據(jù)。與廣泛使用的 ET-Instruct-164K 相比,Streamo-Instruct在 OVO-Bench 上的整體性能提升了11.79%,在關(guān)鍵的前向主動(dòng)響應(yīng)任務(wù)上提升了7.1%,并且避免了混合離線數(shù)據(jù)(如 LLaVA-Video)所帶來(lái)的 “在線能力退化” 問(wèn)題。

實(shí)驗(yàn)進(jìn)一步揭示了一個(gè)重要現(xiàn)象:直接混合離線數(shù)據(jù)可能會(huì)削弱模型的在線能力。例如,ET-Instruct 與 LLaVA-Video 結(jié)合后,雖然實(shí)時(shí)感知能力有所提升,但前向響應(yīng)表現(xiàn)反而下降。這表明,離線監(jiān)督范式與流式學(xué)習(xí)目標(biāo)之間存在一定沖突。相比之下,Streamo-Instruct 通過(guò)專門設(shè)計(jì)的流式標(biāo)注與統(tǒng)一的時(shí)間監(jiān)督,有效避免了這一問(wèn)題。

5. 結(jié)論

實(shí)現(xiàn)真正的實(shí)時(shí)多模態(tài)助手(直播理解、智能駕駛提醒、安防巡檢、運(yùn)動(dòng)教學(xué)等),最難的往往不是 "答對(duì)",而是在合適的時(shí)間點(diǎn)做合適的輸出。Streamo 不僅解決了當(dāng)前視頻大模型的關(guān)鍵瓶頸,提供了一個(gè)可復(fù)用的技術(shù)路線來(lái)將靜態(tài)感知模型轉(zhuǎn)換為動(dòng)態(tài)交互智能體,同時(shí)提供了一個(gè)統(tǒng)一時(shí)間標(biāo)注的大規(guī)模流視頻指令數(shù)據(jù),推動(dòng)流視頻理解的發(fā)展。

6. Demo


https://mp.weixin.qq.com/s/Q28azqwk-PtsXoep2i0_0Q

該 demo 展示了流視頻模型在連續(xù)視頻輸入下的實(shí)時(shí)理解與響應(yīng)能力。模型能夠隨畫(huà)面進(jìn)展動(dòng)態(tài)決定何時(shí)沉默、何時(shí)等待、何時(shí)回答,在保證時(shí)效性的同時(shí)提升響應(yīng)的準(zhǔn)確性與連貫性。對(duì)于尚無(wú)明確答案的問(wèn)題,模型會(huì)等待更多信息后再作答;對(duì)于答案隨時(shí)間變化的問(wèn)題,模型能夠持續(xù)更新輸出;同時(shí),它還支持基于歷史視頻內(nèi)容的回溯式問(wèn)答。

作者介紹:

本文第一作者為香港浸會(huì)大學(xué)計(jì)算機(jī)系博士生夏佳爾,主要研究方向?yàn)槎嗄B(tài)大模型,包括多模態(tài)思考,流視頻理解與交互,以第一作者在CVPR,ICCV,AAAI等頂級(jí)會(huì)議發(fā)表多篇文章。導(dǎo)師為香港浸會(huì)大學(xué)計(jì)算機(jī)系周鍇陽(yáng)助理教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
四川3名干部職務(wù)明確,涉廳級(jí)干部

四川3名干部職務(wù)明確,涉廳級(jí)干部

微甘孜
2026-03-26 16:26:53
張雪峰追悼會(huì)周六將在蘇州殯儀館舉行

張雪峰追悼會(huì)周六將在蘇州殯儀館舉行

界面新聞
2026-03-26 07:04:27
【財(cái)富晚茶】漲停龍頭股:03.26機(jī)構(gòu)主力;連續(xù)搶購(gòu)20股票

【財(cái)富晚茶】漲停龍頭股:03.26機(jī)構(gòu)主力;連續(xù)搶購(gòu)20股票

優(yōu)雅端莊晚風(fēng)
2026-03-26 23:53:09
尼日爾撕毀4億美元合同,并驅(qū)逐中方高管,我方暗藏后手漂亮反擊

尼日爾撕毀4億美元合同,并驅(qū)逐中方高管,我方暗藏后手漂亮反擊

詭譎怪談
2025-04-30 22:17:42
家長(zhǎng)違停孩子開(kāi)門殺撞人后逃逸?交警回應(yīng)

家長(zhǎng)違停孩子開(kāi)門殺撞人后逃逸?交警回應(yīng)

中國(guó)新聞周刊
2026-03-26 14:46:51
伊朗創(chuàng)造歷史,美國(guó)難以置信!而一位神秘老人不得不提了!

伊朗創(chuàng)造歷史,美國(guó)難以置信!而一位神秘老人不得不提了!

華人星光
2026-03-25 11:24:58
寶馬X5全新?lián)Q代:砍掉大鼻孔這才是豪車標(biāo)桿!

寶馬X5全新?lián)Q代:砍掉大鼻孔這才是豪車標(biāo)桿!

沙雕小琳琳
2026-03-25 12:19:25
中國(guó)禁止AI公司Manus兩名高管離境?外交部回應(yīng)

中國(guó)禁止AI公司Manus兩名高管離境?外交部回應(yīng)

澎湃新聞
2026-03-26 15:36:31
張雪峰生前推薦的6所高校,性價(jià)比極高,記得默默收藏!

張雪峰生前推薦的6所高校,性價(jià)比極高,記得默默收藏!

教育導(dǎo)向分享
2026-03-25 22:32:02
華潤(rùn)置地24.8億拿下成都青羊蔡橋152畝商住地?將落地萬(wàn)象系商業(yè)

華潤(rùn)置地24.8億拿下成都青羊蔡橋152畝商住地?將落地萬(wàn)象系商業(yè)

觀點(diǎn)機(jī)構(gòu)
2026-03-26 15:33:09
為什么一定要多接高中孩子放學(xué)?這5個(gè)答案點(diǎn)醒無(wú)數(shù)家長(zhǎng)

為什么一定要多接高中孩子放學(xué)?這5個(gè)答案點(diǎn)醒無(wú)數(shù)家長(zhǎng)

戶外阿毽
2026-03-26 12:33:16
黃凱墮落:境外滲透的冰山一角

黃凱墮落:境外滲透的冰山一角

烽火瞭望者
2026-03-26 06:21:44
國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

零度眼看球
2026-03-26 07:23:48
港圈傳奇落幕,79歲鄭少秋生日當(dāng)天宣布退休

港圈傳奇落幕,79歲鄭少秋生日當(dāng)天宣布退休

大象新聞
2026-03-25 20:09:04
坑慘國(guó)人的四個(gè)“偽豪車”,國(guó)外當(dāng)草國(guó)人當(dāng)寶,二手車販避之不及

坑慘國(guó)人的四個(gè)“偽豪車”,國(guó)外當(dāng)草國(guó)人當(dāng)寶,二手車販避之不及

番外行
2026-03-10 08:08:05
很多中字頭工程局都發(fā)不出工資了!

很多中字頭工程局都發(fā)不出工資了!

黯泉
2026-03-25 21:14:53
面對(duì)湖人刷出生涯新高19助攻,步行者后場(chǎng)大將的進(jìn)步非常明顯?

面對(duì)湖人刷出生涯新高19助攻,步行者后場(chǎng)大將的進(jìn)步非常明顯?

稻谷與小麥
2026-03-26 22:23:57
日本不再歡迎中國(guó)人?3月起日本簽證“一刀切”,華人進(jìn)退兩難!

日本不再歡迎中國(guó)人?3月起日本簽證“一刀切”,華人進(jìn)退兩難!

介知
2026-03-24 23:19:18
一位32歲健身女教練,自述感染艾滋病經(jīng)歷:太痛心,真的悔不當(dāng)初

一位32歲健身女教練,自述感染艾滋病經(jīng)歷:太痛心,真的悔不當(dāng)初

千秋文化
2026-03-23 20:23:11
天??!看到陳紅1996年新婚的閨房照,才懂陳凱歌為啥說(shuō)一見(jiàn)鐘情

天啊!看到陳紅1996年新婚的閨房照,才懂陳凱歌為啥說(shuō)一見(jiàn)鐘情

好賢觀史記
2026-03-02 16:47:20
2026-03-27 02:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

時(shí)尚
親子
健康
房產(chǎn)
軍事航空

400萬(wàn)人愛(ài)過(guò)的女孩,被黃謠網(wǎng)暴180天后

親子要聞

看看把孩子嚇得哈哈哈

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版