網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

音頻-視覺(jué)全模態(tài)的未來(lái)預(yù)測(cè)，F(xiàn)utureOmni給出了首份答卷

2026-01-26 13:43:34　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院與新加坡國(guó)立大學(xué)聯(lián)合推出首個(gè)全模態(tài)未來(lái)預(yù)測(cè)評(píng)測(cè)基準(zhǔn) FutureOmni，要求模型從音頻 - 視覺(jué)線索中預(yù)測(cè)未來(lái)事件，實(shí)現(xiàn)跨模態(tài)因果和時(shí)間推理。包含919個(gè)視頻和1,034個(gè)多選題問(wèn)答對(duì)，在13 個(gè)全模態(tài)模型和7 個(gè)純視頻模型上的評(píng)估顯示，當(dāng)前系統(tǒng)在預(yù)測(cè)未來(lái)事件方面存在顯著困難，最佳準(zhǔn)確率僅為 64.8%。

在日常生活中，人類不僅能理解「發(fā)生了什么」，更重要的是能夠預(yù)測(cè)「將會(huì)發(fā)生什么」。看到烏云密布、聽(tīng)到雷聲漸近，我們會(huì)主動(dòng)關(guān)窗收衣；看到老師眉頭緊皺，反復(fù)強(qiáng)調(diào)某個(gè)知識(shí)點(diǎn)（聽(tīng)），我們知道接下來(lái)可能會(huì)有提問(wèn)；看到球員起跳的動(dòng)作和聽(tīng)到觀眾的驚呼，我們能夠預(yù)判這是一個(gè)精彩的扣籃。

然而，現(xiàn)有的多模態(tài)大語(yǔ)言模型（MLLMs）雖然在全方位感知方面展現(xiàn)出強(qiáng)大的能力，但它們從音頻 - 視覺(jué)線索中預(yù)測(cè)未來(lái)事件的能力仍然很大程度上未被探索。現(xiàn)有的音視頻模態(tài)基準(zhǔn)主要關(guān)注回顧性理解 ? 「視頻中發(fā)生了什么」，而非前瞻性預(yù)測(cè) ? 「接下來(lái)會(huì)發(fā)生什么」。

現(xiàn)在，這一空白終于被填補(bǔ)了！復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院與新加坡國(guó)立大學(xué)聯(lián)合發(fā)布FutureOmni，不僅重新定義了多模態(tài)模型的「未來(lái)預(yù)測(cè)」評(píng)測(cè)范式，更通過(guò)精心設(shè)計(jì)的全模態(tài)因果推理任務(wù)，首次系統(tǒng)評(píng)估模型通過(guò)「融合視覺(jué)觀察與聽(tīng)覺(jué)線索」來(lái)「預(yù)測(cè)未來(lái)」的能力。

論文標(biāo)題：FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
論文地址： https://arxiv.org/pdf/2601.13836
代碼地址： https://github.com/OpenMOSS/FutureOmni
數(shù)據(jù)集地址： https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni
項(xiàng)目主頁(yè)： https://openmoss.github.io/FutureOmni

評(píng)測(cè)范式革命：從回顧理解到未來(lái)預(yù)測(cè)

圖 1：FutureOmni 數(shù)據(jù)示例。模型需要基于給定的前提事件（premise event），從多個(gè)選項(xiàng)中選擇最可能的未來(lái)事件（future event）。

當(dāng)前主流的 MLLMs 評(píng)測(cè)基準(zhǔn)存在兩大局限：（1）現(xiàn)有基準(zhǔn)大多關(guān)注「發(fā)生了什么」，要求模型描述、理解或分析已經(jīng)發(fā)生的事件，無(wú)法評(píng)估模型預(yù)測(cè)未來(lái)事件的能力。（2）現(xiàn)有方法嚴(yán)重依賴于視覺(jué)信息，即便使用音頻，也往往作為輔助信息，未能充分挖掘音頻 - 視覺(jué)之間的因果關(guān)系對(duì)預(yù)測(cè)未來(lái)事件的關(guān)鍵作用。

這意味著，過(guò)去的多模態(tài)模型是一個(gè)擅長(zhǎng)「事后分析」的觀察者，而非一個(gè)能未卜先知的智能伙伴。

FutureOmni 提出的全模態(tài)未來(lái)預(yù)測(cè)（omni-modal future forecasting）新范式，旨在徹底改變這一現(xiàn)狀。它要求模型能像人類一樣，主動(dòng)融合音頻對(duì)話、環(huán)境聲音和視覺(jué)觀察，從多模態(tài)上下文中推斷出未來(lái)最可能發(fā)生的事件。

從回顧到預(yù)測(cè)：不再是回答「視頻中發(fā)生了什么」，而是預(yù)測(cè)「接下來(lái)最可能發(fā)生什么」。

從單模態(tài)到全模態(tài)：同時(shí)理解音頻中的語(yǔ)義信息（如語(yǔ)音內(nèi)容、說(shuō)話人身份、情感傾向）、環(huán)境聲音（如門鈴、警報(bào)、音樂(lè)）以及視覺(jué)觀察（畫面中的物體狀態(tài)和人物關(guān)系）的因果關(guān)系。

這不再是簡(jiǎn)單的視頻理解，而是讓模型具備了真正的未來(lái)預(yù)測(cè)能力。它就像一個(gè)貼心的智能助手，能夠從一段對(duì)話、一個(gè)動(dòng)作和周圍的環(huán)境中讀懂「潛臺(tái)詞」，預(yù)測(cè)未來(lái)最可能的發(fā)展。

FutureOmni 數(shù)據(jù)集：為「未來(lái)預(yù)測(cè)認(rèn)知」量身打造的大規(guī)模評(píng)測(cè)基準(zhǔn)

圖 2：FutureOmni 評(píng)測(cè)結(jié)果。評(píng)估了 13 個(gè)全模態(tài)模型和 7 個(gè)視頻模型。

研究團(tuán)隊(duì)構(gòu)建了FutureOmni? 首個(gè)大規(guī)模全模態(tài)未來(lái)預(yù)測(cè)評(píng)測(cè)基準(zhǔn)，包含基于音頻 - 視覺(jué)因果關(guān)系、日常序列、主題蒙太奇的未來(lái)事件預(yù)測(cè)任務(wù)。

海量規(guī)模與豐富多樣性

圖 3：FutureOmni 數(shù)據(jù)統(tǒng)計(jì)分布。

919個(gè)視頻，1,034個(gè)多選題問(wèn)答對(duì)
8個(gè)主要領(lǐng)域：教育、緊急情況、監(jiān)控、日常生活、紀(jì)錄片、電影、游戲、卡通
100% 原創(chuàng)視頻率，確保零污染，所有視頻均為首次收集
3 種音頻類型：語(yǔ)音（Speech）、聲音（Sound）、音樂(lè)（Music）

八大視頻領(lǐng)域：精心設(shè)計(jì)的「預(yù)測(cè)考題」

圖 4：FutureOmni 數(shù)據(jù)構(gòu)建流程。

為確保數(shù)據(jù)的真實(shí)性與高質(zhì)量，研究團(tuán)隊(duì)采用三階段流程：

階段一：視頻收集與篩選。從多個(gè)來(lái)源收集原始視頻，確保 100% 原創(chuàng)，避免數(shù)據(jù)污染。
階段二：因果對(duì)構(gòu)建。使用 LLM 輔助識(shí)別具有明確因果關(guān)系的視頻片段，生成高質(zhì)量的前提 - 結(jié)論對(duì)。
階段三：?jiǎn)栴}生成與審核。人工和大模型審核質(zhì)量，確保每個(gè)問(wèn)題都測(cè)試模型的未來(lái)預(yù)測(cè)能力。

實(shí)驗(yàn)結(jié)果：當(dāng)前模型在「預(yù)測(cè)未來(lái)」上仍面臨巨大挑戰(zhàn)

研究團(tuán)隊(duì)在13 個(gè)全模態(tài)模型和7 個(gè)視頻模型上進(jìn)行了廣泛評(píng)估，揭示了當(dāng)前系統(tǒng)在未來(lái)預(yù)測(cè)任務(wù)上的顯著不足。

整體性能：SOTA 模型依然不合格

圖 5：FutureOmni 評(píng)測(cè)結(jié)果。

結(jié)論：即便是最強(qiáng)的 Gemini 3 Flash，準(zhǔn)確率也僅為64.8%。開源最強(qiáng)模型 Qwen3-Omni 表現(xiàn)不及格，僅為53.05%。視覺(jué)大模型 GPT-4o 也只達(dá)到49.70%。這表明，現(xiàn)有的多模態(tài)大模型在面對(duì)復(fù)雜的全模態(tài)未來(lái)預(yù)測(cè)任務(wù)時(shí)，距離人類水平仍有不小差距。

細(xì)粒度分析：語(yǔ)音場(chǎng)景最具挑戰(zhàn)性

圖 6：不同音頻類型（語(yǔ)音、聲音、音樂(lè)）對(duì)模型性能的影響。

結(jié)果顯示： -語(yǔ)音場(chǎng)景最具挑戰(zhàn)性，模型表現(xiàn)普遍較低（最佳模型 Gemini 3 Flash 僅 60.52%） -音樂(lè)場(chǎng)景相對(duì)容易，模型表現(xiàn)較好（Gemini 3 Flash 達(dá)到 68.31%） -聲音場(chǎng)景處于中等難度（Gemini 3 Flash 達(dá)到 67.13%）

圖 7：不同視頻時(shí)長(zhǎng)對(duì)模型性能的影響。

模態(tài)消融研究：音頻信息至關(guān)重要

圖 8：模態(tài)消融實(shí)驗(yàn)結(jié)果。評(píng)估不同模態(tài)組合對(duì)性能的影響。

關(guān)鍵發(fā)現(xiàn)：

音頻 + 視頻的組合顯著優(yōu)于單獨(dú)使用視頻。
音頻信息對(duì)于未來(lái)預(yù)測(cè)至關(guān)重要，缺失音頻會(huì)導(dǎo)致性能大幅下降。
跨模態(tài)融合能力是成功預(yù)測(cè)未來(lái)的關(guān)鍵。

這證明了 FutureOmni 設(shè)計(jì)的合理性：未來(lái)預(yù)測(cè)需要同時(shí)理解音頻和視覺(jué)信息之間的因果關(guān)系。

OFF 訓(xùn)練策略：讓模型真正「學(xué)會(huì)預(yù)測(cè)未來(lái)」

為了緩解當(dāng)前模型的局限性，研究團(tuán)隊(duì)提出了全模態(tài)未來(lái)預(yù)測(cè)（OFF）策略，并精心策劃了一個(gè)7K 樣本的指令微調(diào)數(shù)據(jù)集。

核心思想

OFF 策略的核心在于：通過(guò)專門的未來(lái)預(yù)測(cè)訓(xùn)練，讓模型不僅提升未來(lái)預(yù)測(cè)能力，還增強(qiáng)通用感知能力。這與傳統(tǒng)的視頻理解訓(xùn)練不同，它要求模型學(xué)習(xí)音頻 - 視覺(jué)之間的因果關(guān)系，并利用這些關(guān)系預(yù)測(cè)未來(lái)事件。

訓(xùn)練效果：顯著提升未來(lái)預(yù)測(cè)和通用能力

圖 9：使用 OFF 策略訓(xùn)練后，模型在不同音頻類型上的性能提升。

圖 10：使用 OFF 策略訓(xùn)練后，模型在不同視頻類別上的性能提升。

圖 11： OFF 策略在通用能力基準(zhǔn)上的泛化效果。證明未來(lái)預(yù)測(cè)訓(xùn)練不僅提升了預(yù)測(cè)能力，還增強(qiáng)了模型的通用感知能力。

關(guān)鍵發(fā)現(xiàn)：在FutureOmni和流行的音頻 - 視覺(jué)（如 WorldSense、DailyOmni）以及純視頻（如 Video-MME）基準(zhǔn)上的評(píng)估表明，OFF策略顯著提升了未來(lái)預(yù)測(cè)和通用感知能力。

關(guān)鍵幀差異分析

圖 12：關(guān)鍵幀選擇對(duì)未來(lái)預(yù)測(cè)的影響分析。

研究團(tuán)隊(duì)利用注意力可視化技術(shù)進(jìn)一步分析OFF泛化的原因，發(fā)現(xiàn)該策略顯著增強(qiáng)了模型在深層網(wǎng)絡(luò)中對(duì)關(guān)鍵關(guān)鍵幀的聚焦能力。如圖所示，與基線相比，OFF 模型（藍(lán)線）在網(wǎng)絡(luò)的深層表現(xiàn)出大幅提升的注意力分?jǐn)?shù)差值。這意味著模型學(xué)會(huì)鎖定包含未來(lái)事件線索的關(guān)鍵時(shí)刻，即使在最終輸出層之前仍能保持對(duì)關(guān)鍵信息的高度關(guān)注。

未來(lái)展望：讓 AI 真正「未卜先知」

FutureOmni 為多模態(tài)大語(yǔ)言模型的未來(lái)預(yù)測(cè)能力提供了首個(gè)系統(tǒng)性評(píng)估基準(zhǔn)。我們期待：

更多模型參與，希望更多研究團(tuán)隊(duì)在 FutureOmni 上評(píng)估他們的模型，共同推動(dòng)多模態(tài)場(chǎng)景下未來(lái)預(yù)測(cè)能力的發(fā)展。
方法改進(jìn)，基于研究團(tuán)隊(duì)的發(fā)現(xiàn)，開發(fā)更強(qiáng)大的未來(lái)預(yù)測(cè)方法，特別是針對(duì)語(yǔ)音場(chǎng)景和跨模態(tài)因果推理的改進(jìn)。
應(yīng)用拓展，將未來(lái)預(yù)測(cè)能力應(yīng)用到實(shí)際場(chǎng)景中，如智能助手、自動(dòng)駕駛、機(jī)器人等，讓 AI 真正具備「未卜先知」的能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.