国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

音頻-視覺(jué)全模態(tài)的未來(lái)預(yù)測(cè),F(xiàn)utureOmni給出了首份答卷

0
分享至



復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院與新加坡國(guó)立大學(xué)聯(lián)合推出首個(gè)全模態(tài)未來(lái)預(yù)測(cè)評(píng)測(cè)基準(zhǔn) FutureOmni,要求模型從音頻 - 視覺(jué)線索中預(yù)測(cè)未來(lái)事件,實(shí)現(xiàn)跨模態(tài)因果和時(shí)間推理。包含919個(gè)視頻和1,034個(gè)多選題問(wèn)答對(duì),在13 個(gè)全模態(tài)模型和7 個(gè)純視頻模型上的評(píng)估顯示,當(dāng)前系統(tǒng)在預(yù)測(cè)未來(lái)事件方面存在顯著困難,最佳準(zhǔn)確率僅為 64.8%。

在日常生活中,人類不僅能理解「發(fā)生了什么」,更重要的是能夠預(yù)測(cè)「將會(huì)發(fā)生什么」。看到烏云密布、聽(tīng)到雷聲漸近,我們會(huì)主動(dòng)關(guān)窗收衣;看到老師眉頭緊皺,反復(fù)強(qiáng)調(diào)某個(gè)知識(shí)點(diǎn)(聽(tīng)),我們知道接下來(lái)可能會(huì)有提問(wèn);看到球員起跳的動(dòng)作和聽(tīng)到觀眾的驚呼,我們能夠預(yù)判這是一個(gè)精彩的扣籃。

然而,現(xiàn)有的多模態(tài)大語(yǔ)言模型(MLLMs)雖然在全方位感知方面展現(xiàn)出強(qiáng)大的能力,但它們從音頻 - 視覺(jué)線索中預(yù)測(cè)未來(lái)事件的能力仍然很大程度上未被探索。現(xiàn)有的音視頻模態(tài)基準(zhǔn)主要關(guān)注回顧性理解 ? 「視頻中發(fā)生了什么」,而非前瞻性預(yù)測(cè) ? 「接下來(lái)會(huì)發(fā)生什么」。

現(xiàn)在,這一空白終于被填補(bǔ)了!復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院與新加坡國(guó)立大學(xué)聯(lián)合發(fā)布FutureOmni,不僅重新定義了多模態(tài)模型的「未來(lái)預(yù)測(cè)」評(píng)測(cè)范式,更通過(guò)精心設(shè)計(jì)的全模態(tài)因果推理任務(wù),首次系統(tǒng)評(píng)估模型通過(guò)「融合視覺(jué)觀察與聽(tīng)覺(jué)線索」來(lái)「預(yù)測(cè)未來(lái)」的能力。



  • 論文標(biāo)題:FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
  • 論文地址: https://arxiv.org/pdf/2601.13836
  • 代碼地址: https://github.com/OpenMOSS/FutureOmni
  • 數(shù)據(jù)集地址: https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni
  • 項(xiàng)目主頁(yè): https://openmoss.github.io/FutureOmni

評(píng)測(cè)范式革命:從回顧理解到未來(lái)預(yù)測(cè)



圖 1:FutureOmni 數(shù)據(jù)示例。模型需要基于給定的前提事件(premise event),從多個(gè)選項(xiàng)中選擇最可能的未來(lái)事件(future event)。

當(dāng)前主流的 MLLMs 評(píng)測(cè)基準(zhǔn)存在兩大局限:(1)現(xiàn)有基準(zhǔn)大多關(guān)注「發(fā)生了什么」,要求模型描述、理解或分析已經(jīng)發(fā)生的事件,無(wú)法評(píng)估模型預(yù)測(cè)未來(lái)事件的能力。(2)現(xiàn)有方法嚴(yán)重依賴于視覺(jué)信息,即便使用音頻,也往往作為輔助信息,未能充分挖掘音頻 - 視覺(jué)之間的因果關(guān)系對(duì)預(yù)測(cè)未來(lái)事件的關(guān)鍵作用。

這意味著,過(guò)去的多模態(tài)模型是一個(gè)擅長(zhǎng)「事后分析」的觀察者,而非一個(gè)能未卜先知的智能伙伴。

FutureOmni 提出的全模態(tài)未來(lái)預(yù)測(cè)(omni-modal future forecasting)新范式,旨在徹底改變這一現(xiàn)狀。它要求模型能像人類一樣,主動(dòng)融合音頻對(duì)話、環(huán)境聲音和視覺(jué)觀察,從多模態(tài)上下文中推斷出未來(lái)最可能發(fā)生的事件。

從回顧到預(yù)測(cè): 不再是回答「視頻中發(fā)生了什么」,而是預(yù)測(cè)「接下來(lái)最可能發(fā)生什么」。

從單模態(tài)到全模態(tài): 同時(shí)理解音頻中的語(yǔ)義信息(如語(yǔ)音內(nèi)容、說(shuō)話人身份、情感傾向)、環(huán)境聲音(如門鈴、警報(bào)、音樂(lè))以及視覺(jué)觀察(畫面中的物體狀態(tài)和人物關(guān)系)的因果關(guān)系。

這不再是簡(jiǎn)單的視頻理解,而是讓模型具備了真正的未來(lái)預(yù)測(cè)能力。它就像一個(gè)貼心的智能助手,能夠從一段對(duì)話、一個(gè)動(dòng)作和周圍的環(huán)境中讀懂「潛臺(tái)詞」,預(yù)測(cè)未來(lái)最可能的發(fā)展。

FutureOmni 數(shù)據(jù)集:為「未來(lái)預(yù)測(cè)認(rèn)知」量身打造的大規(guī)模評(píng)測(cè)基準(zhǔn)



圖 2:FutureOmni 評(píng)測(cè)結(jié)果。評(píng)估了 13 個(gè)全模態(tài)模型和 7 個(gè)視頻模型。

研究團(tuán)隊(duì)構(gòu)建了FutureOmni? 首個(gè)大規(guī)模全模態(tài)未來(lái)預(yù)測(cè)評(píng)測(cè)基準(zhǔn),包含基于音頻 - 視覺(jué)因果關(guān)系、日常序列、主題蒙太奇的未來(lái)事件預(yù)測(cè)任務(wù)。

海量規(guī)模與豐富多樣性



圖 3:FutureOmni 數(shù)據(jù)統(tǒng)計(jì)分布。

  • 919個(gè)視頻,1,034個(gè)多選題問(wèn)答對(duì)
  • 8個(gè)主要領(lǐng)域:教育、緊急情況、監(jiān)控、日常生活、紀(jì)錄片、電影、游戲、卡通
  • 100% 原創(chuàng)視頻率,確保零污染,所有視頻均為首次收集
  • 3 種音頻類型:語(yǔ)音(Speech)、聲音(Sound)、音樂(lè)(Music)

八大視頻領(lǐng)域:精心設(shè)計(jì)的「預(yù)測(cè)考題」



圖 4:FutureOmni 數(shù)據(jù)構(gòu)建流程。

為確保數(shù)據(jù)的真實(shí)性與高質(zhì)量,研究團(tuán)隊(duì)采用三階段流程:

  • 階段一:視頻收集與篩選。從多個(gè)來(lái)源收集原始視頻,確保 100% 原創(chuàng),避免數(shù)據(jù)污染。
  • 階段二:因果對(duì)構(gòu)建。使用 LLM 輔助識(shí)別具有明確因果關(guān)系的視頻片段,生成高質(zhì)量的前提 - 結(jié)論對(duì)。
  • 階段三:?jiǎn)栴}生成與審核。人工和大模型審核質(zhì)量,確保每個(gè)問(wèn)題都測(cè)試模型的未來(lái)預(yù)測(cè)能力。

實(shí)驗(yàn)結(jié)果:當(dāng)前模型在「預(yù)測(cè)未來(lái)」上仍面臨巨大挑戰(zhàn)

研究團(tuán)隊(duì)在13 個(gè)全模態(tài)模型和7 個(gè)視頻模型上進(jìn)行了廣泛評(píng)估,揭示了當(dāng)前系統(tǒng)在未來(lái)預(yù)測(cè)任務(wù)上的顯著不足。

整體性能:SOTA 模型依然不合格



圖 5:FutureOmni 評(píng)測(cè)結(jié)果。

結(jié)論:即便是最強(qiáng)的 Gemini 3 Flash,準(zhǔn)確率也僅為64.8%。開源最強(qiáng)模型 Qwen3-Omni 表現(xiàn)不及格,僅為53.05%。視覺(jué)大模型 GPT-4o 也只達(dá)到49.70%。這表明,現(xiàn)有的多模態(tài)大模型在面對(duì)復(fù)雜的全模態(tài)未來(lái)預(yù)測(cè)任務(wù)時(shí),距離人類水平仍有不小差距。

細(xì)粒度分析:語(yǔ)音場(chǎng)景最具挑戰(zhàn)性



圖 6:不同音頻類型(語(yǔ)音、聲音、音樂(lè))對(duì)模型性能的影響。

結(jié)果顯示: -語(yǔ)音場(chǎng)景最具挑戰(zhàn)性,模型表現(xiàn)普遍較低(最佳模型 Gemini 3 Flash 僅 60.52%) -音樂(lè)場(chǎng)景相對(duì)容易,模型表現(xiàn)較好(Gemini 3 Flash 達(dá)到 68.31%) -聲音場(chǎng)景處于中等難度(Gemini 3 Flash 達(dá)到 67.13%)



圖 7:不同視頻時(shí)長(zhǎng)對(duì)模型性能的影響。

模態(tài)消融研究:音頻信息至關(guān)重要



圖 8:模態(tài)消融實(shí)驗(yàn)結(jié)果。評(píng)估不同模態(tài)組合對(duì)性能的影響。

關(guān)鍵發(fā)現(xiàn):

  • 音頻 + 視頻的組合顯著優(yōu)于單獨(dú)使用視頻。
  • 音頻信息對(duì)于未來(lái)預(yù)測(cè)至關(guān)重要,缺失音頻會(huì)導(dǎo)致性能大幅下降。
  • 跨模態(tài)融合能力是成功預(yù)測(cè)未來(lái)的關(guān)鍵。

這證明了 FutureOmni 設(shè)計(jì)的合理性:未來(lái)預(yù)測(cè)需要同時(shí)理解音頻和視覺(jué)信息之間的因果關(guān)系。

OFF 訓(xùn)練策略:讓模型真正「學(xué)會(huì)預(yù)測(cè)未來(lái)」

為了緩解當(dāng)前模型的局限性,研究團(tuán)隊(duì)提出了全模態(tài)未來(lái)預(yù)測(cè)(OFF)策略,并精心策劃了一個(gè)7K 樣本的指令微調(diào)數(shù)據(jù)集。

核心思想

OFF 策略的核心在于:通過(guò)專門的未來(lái)預(yù)測(cè)訓(xùn)練,讓模型不僅提升未來(lái)預(yù)測(cè)能力,還增強(qiáng)通用感知能力。這與傳統(tǒng)的視頻理解訓(xùn)練不同,它要求模型學(xué)習(xí)音頻 - 視覺(jué)之間的因果關(guān)系,并利用這些關(guān)系預(yù)測(cè)未來(lái)事件。

訓(xùn)練效果:顯著提升未來(lái)預(yù)測(cè)和通用能力



圖 9:使用 OFF 策略訓(xùn)練后,模型在不同音頻類型上的性能提升。



圖 10:使用 OFF 策略訓(xùn)練后,模型在不同視頻類別上的性能提升。



圖 11: OFF 策略在通用能力基準(zhǔn)上的泛化效果。證明未來(lái)預(yù)測(cè)訓(xùn)練不僅提升了預(yù)測(cè)能力,還增強(qiáng)了模型的通用感知能力。

關(guān)鍵發(fā)現(xiàn):在FutureOmni和流行的音頻 - 視覺(jué)(如 WorldSense、DailyOmni)以及純視頻(如 Video-MME)基準(zhǔn)上的評(píng)估表明,OFF策略顯著提升了未來(lái)預(yù)測(cè)和通用感知能力。

關(guān)鍵幀差異分析



圖 12: 關(guān)鍵幀選擇對(duì)未來(lái)預(yù)測(cè)的影響分析。

研究團(tuán)隊(duì)利用注意力可視化技術(shù)進(jìn)一步分析OFF泛化的原因,發(fā)現(xiàn)該策略顯著增強(qiáng)了模型在深層網(wǎng)絡(luò)中對(duì)關(guān)鍵關(guān)鍵幀的聚焦能力。 如圖所示,與基線相比,OFF 模型(藍(lán)線)在網(wǎng)絡(luò)的深層表現(xiàn)出大幅提升的注意力分?jǐn)?shù)差值。這意味著模型學(xué)會(huì)鎖定包含未來(lái)事件線索的關(guān)鍵時(shí)刻,即使在最終輸出層之前仍能保持對(duì)關(guān)鍵信息的高度關(guān)注。

未來(lái)展望:讓 AI 真正「未卜先知」

FutureOmni 為多模態(tài)大語(yǔ)言模型的未來(lái)預(yù)測(cè)能力提供了首個(gè)系統(tǒng)性評(píng)估基準(zhǔn)。我們期待:

  1. 更多模型參與,希望更多研究團(tuán)隊(duì)在 FutureOmni 上評(píng)估他們的模型,共同推動(dòng)多模態(tài)場(chǎng)景下未來(lái)預(yù)測(cè)能力的發(fā)展。
  2. 方法改進(jìn),基于研究團(tuán)隊(duì)的發(fā)現(xiàn),開發(fā)更強(qiáng)大的未來(lái)預(yù)測(cè)方法,特別是針對(duì)語(yǔ)音場(chǎng)景和跨模態(tài)因果推理的改進(jìn)。
  3. 應(yīng)用拓展,將未來(lái)預(yù)測(cè)能力應(yīng)用到實(shí)際場(chǎng)景中,如智能助手、自動(dòng)駕駛、機(jī)器人等,讓 AI 真正具備「未卜先知」的能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
突然暴跌!北京降了!價(jià)格再次大跳水!

突然暴跌!北京降了!價(jià)格再次大跳水!

美麗大北京
2026-01-26 11:59:12
“家里東西被移動(dòng)過(guò)!”女子查看路由器記錄發(fā)現(xiàn)……真相令人毛骨悚然!

“家里東西被移動(dòng)過(guò)!”女子查看路由器記錄發(fā)現(xiàn)……真相令人毛骨悚然!

深圳晚報(bào)
2026-01-26 12:16:04
無(wú)人機(jī)吊豬下山掛電線上致村莊停電10小時(shí),知情人:本有十余頭,第一頭就掛上了

無(wú)人機(jī)吊豬下山掛電線上致村莊停電10小時(shí),知情人:本有十余頭,第一頭就掛上了

瀟湘晨報(bào)
2026-01-25 11:50:16
團(tuán)長(zhǎng)決意與敵人同歸于盡,十七歲號(hào)兵高聲呼喊:讓我指揮!日后竟成開國(guó)少將

團(tuán)長(zhǎng)決意與敵人同歸于盡,十七歲號(hào)兵高聲呼喊:讓我指揮!日后竟成開國(guó)少將

老杉說(shuō)歷史
2026-01-25 21:26:16
新華社記者直擊伊朗最新局勢(shì)

新華社記者直擊伊朗最新局勢(shì)

新華社
2026-01-24 17:45:55
父死女償!一銀行放貸30萬(wàn),獨(dú)生女破釜沉舟,徹底給銀行整不會(huì)了

父死女償!一銀行放貸30萬(wàn),獨(dú)生女破釜沉舟,徹底給銀行整不會(huì)了

火山詩(shī)話
2026-01-25 12:21:40
委內(nèi)瑞拉代總統(tǒng):我“受夠了”來(lái)自華盛頓的命令

委內(nèi)瑞拉代總統(tǒng):我“受夠了”來(lái)自華盛頓的命令

揚(yáng)子晚報(bào)
2026-01-26 12:40:21
A股:今天,放量并未大漲,跡象已明確,做好準(zhǔn)備,很可能這樣走

A股:今天,放量并未大漲,跡象已明確,做好準(zhǔn)備,很可能這樣走

丁丁鯉史紀(jì)
2026-01-26 12:16:17
“戲混子”沒(méi)走,比資本家丑孩子更可怕的是“星二代”開始世襲了

“戲混子”沒(méi)走,比資本家丑孩子更可怕的是“星二代”開始世襲了

流史歲月
2026-01-26 10:58:30
致死率最高達(dá)75%!印度尼帕病毒疫情多名醫(yī)護(hù)中招:可通過(guò)飛沫傳播,感染源或是患者

致死率最高達(dá)75%!印度尼帕病毒疫情多名醫(yī)護(hù)中招:可通過(guò)飛沫傳播,感染源或是患者

紅星新聞
2026-01-26 11:29:16
當(dāng)當(dāng)網(wǎng)一公司因員工超長(zhǎng)加班被罰款:27名員工違反規(guī)定延長(zhǎng)勞動(dòng)者工作時(shí)間,人均月延長(zhǎng)工時(shí)為149.39小時(shí)

當(dāng)當(dāng)網(wǎng)一公司因員工超長(zhǎng)加班被罰款:27名員工違反規(guī)定延長(zhǎng)勞動(dòng)者工作時(shí)間,人均月延長(zhǎng)工時(shí)為149.39小時(shí)

揚(yáng)子晚報(bào)
2026-01-26 12:31:32
徒手獨(dú)攀臺(tái)北101,是人類對(duì)AI模擬一切的最有力反擊

徒手獨(dú)攀臺(tái)北101,是人類對(duì)AI模擬一切的最有力反擊

不懂經(jīng)1人獨(dú)角獸
2026-01-25 22:38:44
大冷!雷霆惜敗猛龍無(wú)緣追平宇宙勇73勝 亞歷山大24+6奎克利23+11

大冷!雷霆惜敗猛龍無(wú)緣追平宇宙勇73勝 亞歷山大24+6奎克利23+11

醉臥浮生
2026-01-26 10:34:52
美國(guó)正式退出世界衛(wèi)生組織,外交部回應(yīng)

美國(guó)正式退出世界衛(wèi)生組織,外交部回應(yīng)

環(huán)球網(wǎng)資訊
2026-01-26 15:43:50
江蘇一市紀(jì)委監(jiān)委通報(bào):徐永華被查,涉嫌嚴(yán)重違法

江蘇一市紀(jì)委監(jiān)委通報(bào):徐永華被查,涉嫌嚴(yán)重違法

中國(guó)能源網(wǎng)
2026-01-26 15:07:13
美國(guó)移民執(zhí)法行動(dòng)導(dǎo)致2名美公民死亡后,克林頓、奧巴馬發(fā)聲

美國(guó)移民執(zhí)法行動(dòng)導(dǎo)致2名美公民死亡后,克林頓、奧巴馬發(fā)聲

環(huán)球網(wǎng)資訊
2026-01-26 09:51:41
女明星被實(shí)名舉報(bào)“插足婚姻”!

女明星被實(shí)名舉報(bào)“插足婚姻”!

新動(dòng)察
2026-01-26 10:45:00
收評(píng):創(chuàng)業(yè)板指高開低走跌近1% 貴金屬、油氣概念逆勢(shì)爆發(fā)

收評(píng):創(chuàng)業(yè)板指高開低走跌近1% 貴金屬、油氣概念逆勢(shì)爆發(fā)

財(cái)聯(lián)社
2026-01-26 15:04:21
取消中考選拔功能、普通高中全員直升,浙江嵊泗教改細(xì)節(jié)披露

取消中考選拔功能、普通高中全員直升,浙江嵊泗教改細(xì)節(jié)披露

澎湃新聞
2026-01-25 19:33:20
外媒:伊朗最高領(lǐng)袖哈梅內(nèi)伊轉(zhuǎn)入地堡,日常事務(wù)已交由兒子接管

外媒:伊朗最高領(lǐng)袖哈梅內(nèi)伊轉(zhuǎn)入地堡,日常事務(wù)已交由兒子接管

極目新聞
2026-01-26 13:47:08
2026-01-26 16:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12192文章數(shù) 142549關(guān)注度
往期回顧 全部

科技要聞

印奇再上牌桌,階躍融資50億

頭條要聞

高市早苗:若執(zhí)政黨陣營(yíng)在選舉中未過(guò)半數(shù) 將即刻辭職

頭條要聞

高市早苗:若執(zhí)政黨陣營(yíng)在選舉中未過(guò)半數(shù) 將即刻辭職

體育要聞

叛逆的大公子,要砸了貝克漢姆這塊招牌

娛樂(lè)要聞

張雨綺被實(shí)名舉報(bào)代孕、插足婚姻

財(cái)經(jīng)要聞

從美式斬殺線看中國(guó)社會(huì)的制度韌性構(gòu)建

汽車要聞

賓利第四臺(tái)Batur敞篷版發(fā)布 解鎖四項(xiàng)定制創(chuàng)新

態(tài)度原創(chuàng)

家居
親子
時(shí)尚
數(shù)碼
教育

家居要聞

流韻雅居,讓復(fù)雜變純粹

親子要聞

你們聽(tīng),287天,9個(gè)多月的昂薩梅朵是開口喊爸爸媽媽嗎?

伊姐周日熱推:電視劇《太平年》;電視劇《暗戀者的救贖》......

數(shù)碼要聞

探索非顯示業(yè)務(wù):消息稱LG Display正開發(fā)半導(dǎo)體玻璃中介層

教育要聞

a+b=5,ab=3,求3次方

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版