空間智能終極挑戰(zhàn)MMSI-Video-Bench來了，頂級大模型全軍覆沒

2026-01-05 17:21:42　來源: 機器之心Pro

河北舉報

分享至

空間理解能力是多模態(tài)大語言模型（MLLMs）走向真實物理世界，成為 “通用型智能助手” 的關(guān)鍵基礎(chǔ)。但現(xiàn)有的空間智能評測基準往往有兩類問題：一類高度依賴模板生成，限制了問題的多樣性；另一類僅聚焦于某一種空間任務(wù)與受限場景，因此很難全面檢驗?zāi)Ｐ驮谡鎸嵤澜缰袑臻g的理解與推理能力。

要真正走入現(xiàn)實世界，模型不僅需要看得見，更要看得懂空間：它需要在復(fù)雜、多變的真實場景中理解空間布局、感知運動變化、進行時空推理，并基于這些信息做出合理決策，與環(huán)境產(chǎn)生有效交互。

為此，上海人工智能實驗室 InternRobotics 團隊近日推出了一套全面而硬核的空間智能視頻基準 —— MMSI-Video-Bench，對當前主流多模態(tài)大模型精心打造了一場挑戰(zhàn)系數(shù)極高的 “空間智能大考”。

本工作由上海人工智能實驗室、上海交通大學(xué)、香港中文大學(xué)、浙江大學(xué)、香港大學(xué)、北京航空航天大學(xué)、西安交通大學(xué)、復(fù)旦大學(xué)、加州大學(xué)洛杉機分校的研究者們共同完成。

項目主頁： https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
ArXiv 論文： https://arxiv.org/abs/2512.10863
Hugging Face 數(shù)據(jù)集： https://huggingface.co/datasets/rbler/MMSI-Video-Bench
GitHub 代碼庫： https://github.com/InternRobotics/MMSI-Video-Bench

該基準具有以下顯著特點：

（1）全面且系統(tǒng)的題型設(shè)計

MMSI-Video-Bench 首先從視頻本身的時空信息理解出發(fā)，對模型的基礎(chǔ)空間感知能力進行系統(tǒng)考察，主要包括：

空間構(gòu)建（Spatial Construction）：聚焦于對全局空間布局的理解，涵蓋實體與場景的空間狀態(tài)屬性，以及相機、實體與場景之間的兩兩空間位置關(guān)系。
運動理解（Motion Understanding）：考察模型對長時運動過程的感知與理解能力，包括實體運動、相機運動，以及多實體之間的交互運動。

在此基礎(chǔ)上，MMSI-Video-Bench 進一步評測模型基于時空信息進行高層決策的能力，具體包括：

基于視頻信息進行推理與行動的規(guī)劃能力（Planning）
對未來狀態(tài)進行推斷與想象的預(yù)測想象能力（Prediction）

由于真實世界的觀測在時間上不一定是連續(xù)的，在空間上單一視角的信息不一定是完備的，MMSI-Video-Bench 進一步擴展了任務(wù)范疇，以更真實地覆蓋現(xiàn)實場景中的復(fù)雜情形，考察模型跨視頻的推理能力，這包含了跨時間的記憶更新能力（Memory Update）；多視角信息的整合能力（Multi-View Integration）。

通過上述多層次、多維度的題型設(shè)計，MMSI-Video-Bench 構(gòu)建了一個覆蓋感知、推理與決策全過程的空間智能評測體系

MMSI-Video-Bench 由五大任務(wù)類型，13 個子類問題構(gòu)成

（2）極具挑戰(zhàn)性的問題設(shè)計

MMSI-Video-Bench 基準的所有問題由11 位平均研究年限超過 2.5 年的 3D 視覺研究員親自把關(guān)精細設(shè)計，嚴格驗收打磨，確保了基準每一個問題清晰準確，具有挑戰(zhàn)性。所有模型均表現(xiàn)吃力，即便是最表現(xiàn)最好的 Gemini 3 Pro，也只有 38% 的準確率，相比其它的空間智能基準，具有目前最高的人類–AI 性能差距 (約 60%)。

(3) 豐富多樣的視頻數(shù)據(jù)來源

基準的視頻數(shù)據(jù)來源于 25 個公開數(shù)據(jù)集以及 1 個自建數(shù)據(jù)集，包含了機器人操作、從單房間到多層樓宇的室內(nèi)場景、室外建筑與街景、自然風(fēng)光、體育活動以及電影片段等多種拍攝類型，全面反映了真實世界中復(fù)雜多樣、多尺度的空間場景

(4) 特定領(lǐng)域針對性的能力測評

此外，受益于場景類型的豐富以及任務(wù)類型的全面性，MMSI-Video-Bench 可以劃分出室內(nèi)場景感知(Indoor Scene Perception)/機器人(Robot) /定位(Grounding) 三大子基準，方便針對性測評模型特定能力。

MMSI-Video-Bench 的標注流程和比例 / 視頻時長 / 詞云分布

空間智能大考：揭示模型能力邊界與瓶頸

（1）空間智能大考模型成績單

研究團隊對 25 個主流多模態(tài)模型進行了評測，整體得分普遍偏低。即便是表現(xiàn)最優(yōu)的 Gemini 3 Pro（38.0），與人類水平（96.4）之間仍存在接近 60%的顯著差距。

與已有空間智能基準的結(jié)論一致，實驗結(jié)果再次暴露了當前模型在空間構(gòu)建能力上的不足。更為關(guān)鍵的是，得益于 MMSI-Video-Bench 在任務(wù)設(shè)計上的全面性，研究團隊進一步發(fā)現(xiàn)：模型在運動理解、規(guī)劃、預(yù)測以及跨視頻推理等能力上同樣存在明顯瓶頸。

在所有任務(wù)類型中，預(yù)測（Prediction）是最具挑戰(zhàn)性的主任務(wù)，相機–實體之間的空間關(guān)系建模是難度最高的細分類別。此外，研究團隊發(fā)現(xiàn)，即便是經(jīng)過專門空間任務(wù)微調(diào)的模型，其能力也未能有效泛化到 MMSI-Video-Bench。

不同模型在 MMSI-Video-Bench 上的表現(xiàn)

（2）錯誤分析揭示模型瓶頸

為進一步定位模型性能受限的關(guān)鍵原因，研究團隊對模型的推理結(jié)果進行了系統(tǒng)化復(fù)盤，并將錯誤歸納為五大類型:

細致定位錯誤 (Detailed Grounding Error)：模型在精細視覺感知層面出現(xiàn)失效，常見表現(xiàn)包括目標遺漏混淆，或 “時間點 - 事件” 對應(yīng)關(guān)系感知錯誤。
ID 匹配錯誤 (ID Mapping Error)：模型在跨幀過程中難以保持一致的實體身份跟蹤。
潛在邏輯推斷錯誤 (Latent Logical Inference Error)：模型在需要依賴隱含線索或常識知識的推理任務(wù)中失敗。
提示輸入對齊錯誤 (Prompt Alignment Error)：模型未能將提示信息（如背景假設(shè)、新增條件或輔助圖像）與視頻信息正確結(jié)合進行推理。
幾何推理錯誤 (Geometric Reasoning Error)：模型在空間幾何關(guān)系理解上存在偏差，對于相對位置或距離關(guān)系（如前后左右、遠近）出現(xiàn)錯誤推斷。

MMSI-Video-Bench 的五種錯誤類型示例

研究團隊選取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四個具有代表性的模型進行了系統(tǒng)的錯誤分析和統(tǒng)計，結(jié)果如圖所示。幾何推理錯誤是最為普遍、影響最大的錯誤類型，而進一步的細分分析表明：

空間構(gòu)建任務(wù) 的低表現(xiàn)主要源于幾何推理能力不足；
運動理解任務(wù) 中，模型難以在快速、細微或長時間跨度的運動中保持精確定位；
在規(guī)劃與預(yù)測任務(wù) 中，除幾何推理錯誤外，模型往往無法有效理解提示輸入，并將其與視頻信息進行聯(lián)合推理；
跨視頻推理任務(wù) 的失敗主要源于多目標跨視頻定位的復(fù)雜性，以及模型難以利用潛在線索（如持續(xù)鎖定同一目標）完成推理。

MMSI-Video-Bench 的五種錯誤類型分布

（3）空間線索與推理提示難以彌補核心能力不足

研究團隊進一步探索了兩種提升模型性能的策略：

引入3D 空間線索以輔助模型理解，如圖所示，通過使用高性能的 3D 重建模型從視頻幀重建 3D 場景，并多視角渲染生成 2D 全局圖像作為額外輸入，給予模型 3D 空間線索輔助模型的理解推理；

3D 空間線索輔助方法

采用思維鏈（Chain-of-Thought）技術(shù)，提示引導(dǎo)模型進行更規(guī)范的推理過程。上述方法均未能帶來顯著的性能提升，這些結(jié)果進一步揭示了兩個關(guān)鍵事實：
如何設(shè)計模型真正 “可理解、可利用” 的空間線索，仍是一個開放且極具挑戰(zhàn)性的問題；
當前模型的失敗并非由于缺乏顯式推理步驟，而是受限于底層推理能力本身仍然不足。

3D 空間線索輔助與思維鏈提示下的模型性能變化

結(jié)語

MMSI-Video-Bench 是一個高質(zhì)量、高挑戰(zhàn)性且系統(tǒng)全面的視頻空間智能評測基準，系統(tǒng)性地評估了多模態(tài)大模型在視頻理解中的空間認知、推理與決策能力，評測結(jié)果清晰揭示了當前模型在多項核心任務(wù)上與人類表現(xiàn)之間仍存在顯著差距?；谏钊攵氈碌膶嶒灧治?，研究進一步明確了現(xiàn)階段模型的關(guān)鍵能力瓶頸，并為未來空間智能模型的技術(shù)演進指明了研究方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.