国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

空間智能終極挑戰(zhàn)MMSI-Video-Bench來了,頂級大模型全軍覆沒

0
分享至



空間理解能力是多模態(tài)大語言模型(MLLMs)走向真實物理世界,成為 “通用型智能助手” 的關(guān)鍵基礎(chǔ)。但現(xiàn)有的空間智能評測基準往往有兩類問題:一類高度依賴模板生成,限制了問題的多樣性;另一類僅聚焦于某一種空間任務(wù)與受限場景,因此很難全面檢驗?zāi)P驮谡鎸嵤澜缰袑臻g的理解與推理能力。

要真正走入現(xiàn)實世界,模型不僅需要看得見,更要看得懂空間: 它需要在復(fù)雜、多變的真實場景中理解空間布局、感知運動變化、進行時空推理,并基于這些信息做出合理決策,與環(huán)境產(chǎn)生有效交互。

為此,上海人工智能實驗室 InternRobotics 團隊近日推出了一套全面而硬核的空間智能視頻基準 —— MMSI-Video-Bench,對當前主流多模態(tài)大模型精心打造了一場挑戰(zhàn)系數(shù)極高的 “空間智能大考”。

本工作由上海人工智能實驗室、上海交通大學(xué)、香港中文大學(xué)、浙江大學(xué)、香港大學(xué)、北京航空航天大學(xué)、西安交通大學(xué)、復(fù)旦大學(xué)、加州大學(xué)洛杉機分校 的研究者們共同完成。



  • 項目主頁: https://rbler1234.github.io/MMSI-VIdeo-Bench.github.io/
  • ArXiv 論文: https://arxiv.org/abs/2512.10863
  • Hugging Face 數(shù)據(jù)集: https://huggingface.co/datasets/rbler/MMSI-Video-Bench
  • GitHub 代碼庫: https://github.com/InternRobotics/MMSI-Video-Bench

該基準具有以下顯著特點:

(1)全面且系統(tǒng)的題型設(shè)計

MMSI-Video-Bench 首先從視頻本身的時空信息理解出發(fā),對模型的基礎(chǔ)空間感知能力進行系統(tǒng)考察,主要包括:

  • 空間構(gòu)建(Spatial Construction):聚焦于對全局空間布局的理解,涵蓋實體與場景的空間狀態(tài)屬性,以及 相機、實體與場景之間的兩兩空間位置關(guān)系。
  • 運動理解(Motion Understanding):考察模型對長時運動過程的感知與理解能力,包括實體運動、相機運動,以及多實體之間的交互運動。

在此基礎(chǔ)上,MMSI-Video-Bench 進一步評測模型基于時空信息進行高層決策的能力,具體包括:

  • 基于視頻信息進行推理與行動的規(guī)劃能力(Planning)
  • 對未來狀態(tài)進行推斷與想象的預(yù)測想象能力(Prediction)

由于真實世界的觀測在時間上不一定是連續(xù)的,在空間上單一視角的信息不一定是完備的,MMSI-Video-Bench 進一步擴展了任務(wù)范疇,以更真實地覆蓋現(xiàn)實場景中的復(fù)雜情形,考察模型跨視頻的推理能力,這包含了跨時間的記憶更新能力(Memory Update);多視角信息的整合能力(Multi-View Integration)。

通過上述多層次、多維度的題型設(shè)計,MMSI-Video-Bench 構(gòu)建了一個覆蓋感知、推理與決策全過程的空間智能評測體系



MMSI-Video-Bench 由五大任務(wù)類型,13 個子類問題構(gòu)成

(2)極具挑戰(zhàn)性的問題設(shè)計

MMSI-Video-Bench 基準的所有問題由11 位平均研究年限超過 2.5 年的 3D 視覺研究員親自把關(guān)精細設(shè)計,嚴格驗收打磨,確保了基準每一個問題清晰準確,具有挑戰(zhàn)性。所有模型均表現(xiàn)吃力,即便是最表現(xiàn)最好的 Gemini 3 Pro,也只有 38% 的準確率,相比其它的空間智能基準,具有目前最高的人類–AI 性能差距 (約 60%)。

(3) 豐富多樣的視頻數(shù)據(jù)來源

基準的視頻數(shù)據(jù)來源于 25 個公開數(shù)據(jù)集 以及 1 個自建數(shù)據(jù)集,包含了機器人操作、從單房間到多層樓宇的室內(nèi)場景、室外建筑與街景、自然風(fēng)光、體育活動以及電影片段等多種拍攝類型,全面反映了真實世界中復(fù)雜多樣、多尺度的空間場景

(4) 特定領(lǐng)域針對性的能力測評

此外,受益于場景類型的豐富以及任務(wù)類型的全面性,MMSI-Video-Bench 可以劃分出室內(nèi)場景感知(Indoor Scene Perception)/機器人(Robot) /定位(Grounding) 三大子基準,方便針對性測評模型特定能力。



MMSI-Video-Bench 的標注流程 和 比例 / 視頻時長 / 詞云分布

空間智能大考:揭示模型能力邊界與瓶頸

(1)空間智能大考模型成績單

研究團隊對 25 個主流多模態(tài)模型 進行了評測,整體得分普遍偏低。即便是表現(xiàn)最優(yōu)的 Gemini 3 Pro(38.0),與人類水平 (96.4) 之間仍存在接近 60%的顯著差距。

與已有空間智能基準的結(jié)論一致,實驗結(jié)果再次暴露了當前模型在空間構(gòu)建能力上的不足。更為關(guān)鍵的是,得益于 MMSI-Video-Bench 在任務(wù)設(shè)計上的全面性,研究團隊進一步發(fā)現(xiàn):模型在 運動理解、規(guī)劃、預(yù)測以及跨視頻推理 等能力上同樣存在明顯瓶頸。

在所有任務(wù)類型中,預(yù)測(Prediction) 是最具挑戰(zhàn)性的主任務(wù), 相機–實體之間的空間關(guān)系建模 是難度最高的細分類別。此外,研究團隊發(fā)現(xiàn),即便是經(jīng)過專門空間任務(wù)微調(diào)的模型,其能力也未能有效泛化到 MMSI-Video-Bench。



不同模型在 MMSI-Video-Bench 上的表現(xiàn)

(2)錯誤分析揭示模型瓶頸

為進一步定位模型性能受限的關(guān)鍵原因,研究團隊對模型的推理結(jié)果進行了系統(tǒng)化復(fù)盤,并將錯誤歸納為五大類型:

  • 細致定位錯誤 (Detailed Grounding Error):模型在精細視覺感知層面出現(xiàn)失效,常見表現(xiàn)包括目標遺漏混淆,或 “時間點 - 事件” 對應(yīng)關(guān)系感知錯誤。
  • ID 匹配錯誤 (ID Mapping Error):模型在跨幀過程中難以保持一致的實體身份跟蹤。
  • 潛在邏輯推斷錯誤 (Latent Logical Inference Error):模型在需要依賴隱含線索或常識知識的推理任務(wù)中失敗。
  • 提示輸入對齊錯誤 (Prompt Alignment Error):模型未能將提示信息(如背景假設(shè)、新增條件或輔助圖像)與視頻信息正確結(jié)合進行推理。
  • 幾何推理錯誤 (Geometric Reasoning Error):模型在空間幾何關(guān)系理解上存在偏差,對于相對位置或距離關(guān)系(如前后左右、遠近)出現(xiàn)錯誤推斷。



MMSI-Video-Bench 的五種錯誤類型示例

研究團隊選取 Gemini-2.5-Flash、GPT-4o、O3、QwenVL2.5-72B 四個具有代表性的模型進行了系統(tǒng)的錯誤分析和統(tǒng)計,結(jié)果如圖所示。幾何推理錯誤是最為普遍、影響最大的錯誤類型,而進一步的細分分析表明:

  • 空間構(gòu)建任務(wù) 的低表現(xiàn)主要源于幾何推理能力不足;
  • 運動理解任務(wù) 中,模型難以在 快速、細微或長時間跨度的運動 中保持精確定位;
  • 在 規(guī)劃與預(yù)測任務(wù) 中,除幾何推理錯誤外,模型往往無法有效理解提示輸入,并將其與視頻信息進行聯(lián)合推理;
  • 跨視頻推理任務(wù) 的失敗主要源于 多目標跨視頻定位的復(fù)雜性,以及模型難以利用潛在線索(如持續(xù)鎖定同一目標)完成推理。



MMSI-Video-Bench 的五種錯誤類型分布

(3)空間線索與推理提示難以彌補核心能力不足

研究團隊進一步探索了兩種提升模型性能的策略:

  • 引入3D 空間線索以輔助模型理解,如圖所示,通過使用高性能的 3D 重建模型從視頻幀重建 3D 場景,并多視角渲染生成 2D 全局圖像作為額外輸入,給予模型 3D 空間線索輔助模型的理解推理;



3D 空間線索輔助方法

  • 采用思維鏈(Chain-of-Thought)技術(shù),提示引導(dǎo)模型進行更規(guī)范的推理過程。上述方法均 未能帶來顯著的性能提升,這些結(jié)果進一步揭示了兩個關(guān)鍵事實:
  • 如何設(shè)計模型真正 “可理解、可利用” 的空間線索,仍是一個開放且極具挑戰(zhàn)性的問題;
  • 當前模型的失敗 并非由于缺乏顯式推理步驟,而是受限于 底層推理能力本身仍然不足。



3D 空間線索輔助與思維鏈提示下的模型性能變化

結(jié)語

MMSI-Video-Bench 是一個高質(zhì)量、高挑戰(zhàn)性且系統(tǒng)全面的視頻空間智能評測基準,系統(tǒng)性地評估了多模態(tài)大模型在視頻理解中的空間認知、推理與決策能力,評測結(jié)果清晰揭示了當前模型在多項核心任務(wù)上與人類表現(xiàn)之間仍存在顯著差距?;谏钊攵氈碌膶嶒灧治?,研究進一步明確了現(xiàn)階段模型的關(guān)鍵能力瓶頸,并為未來空間智能模型的技術(shù)演進指明了研究方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
突發(fā)公告炸場!12家A股上市公司發(fā)布重大利空消息,看看都有哪些?

突發(fā)公告炸場!12家A股上市公司發(fā)布重大利空消息,看看都有哪些?

股市皆大事
2026-01-10 09:12:39
沒文化,真可怕!笑死了,因為沒文化鬧出了太多笑話

沒文化,真可怕!笑死了,因為沒文化鬧出了太多笑話

夜深愛雜談
2026-01-08 21:58:41
2026開年最旺3生肖!1月吉星高照,貴人送單,兩年賺夠一輩子錢

2026開年最旺3生肖!1月吉星高照,貴人送單,兩年賺夠一輩子錢

毅談生肖
2026-01-10 11:16:34
艾迪為何離開申花之后,他只能去中甲球隊效力,背后原因找到了

艾迪為何離開申花之后,他只能去中甲球隊效力,背后原因找到了

振剛說足球
2026-01-10 18:18:18
時隔25天,亞運會三金得主再曝訓(xùn)練基地主任猥褻女隊員:15日前已向調(diào)查組當面提交材料

時隔25天,亞運會三金得主再曝訓(xùn)練基地主任猥褻女隊員:15日前已向調(diào)查組當面提交材料

大風(fēng)新聞
2026-01-10 09:32:09
宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

雍親王府
2026-01-09 15:20:02
深夜利空,8個龍頭年報業(yè)績暴雷,5股陷入虧損,千萬別踩雷

深夜利空,8個龍頭年報業(yè)績暴雷,5股陷入虧損,千萬別踩雷

風(fēng)風(fēng)順
2026-01-10 00:57:49
一旦開戰(zhàn)中國必???我國著名院士批主戰(zhàn)派,要懂得甲午戰(zhàn)爭的慘敗

一旦開戰(zhàn)中國必?。课覈菏颗鲬?zhàn)派,要懂得甲午戰(zhàn)爭的慘敗

文史旺旺旺
2025-11-14 20:30:09
歐盟與南美共同市場或達成歷史最大自貿(mào)協(xié)定,但法匈奧等仍反對!

歐盟與南美共同市場或達成歷史最大自貿(mào)協(xié)定,但法匈奧等仍反對!

聞號說經(jīng)濟
2026-01-10 18:29:36
笑死!人一旦沾上沖鋒衣就完了,就會一直穿沖鋒衣,評論區(qū)太真實

笑死!人一旦沾上沖鋒衣就完了,就會一直穿沖鋒衣,評論區(qū)太真實

有趣的火烈鳥
2025-12-03 20:53:04
日本大阪、京都百年老店接連倒閉!外國游客爆滿,中國游客卻已經(jīng)開始寫差評…

日本大阪、京都百年老店接連倒閉!外國游客爆滿,中國游客卻已經(jīng)開始寫差評…

東京新青年
2026-01-10 18:06:35
20萬顆衛(wèi)星,中國要all in!我們要見證歷史

20萬顆衛(wèi)星,中國要all in!我們要見證歷史

販財局
2026-01-10 18:43:06
周生生“黃金四葉草”項鏈一夜?jié)q了1.5萬元,國內(nèi)金飾品牌價格新年第一漲

周生生“黃金四葉草”項鏈一夜?jié)q了1.5萬元,國內(nèi)金飾品牌價格新年第一漲

界面新聞
2026-01-09 23:59:03
1月開始轉(zhuǎn)運,霉運逐漸散去,運勢穩(wěn)步走高的三個星座

1月開始轉(zhuǎn)運,霉運逐漸散去,運勢穩(wěn)步走高的三個星座

小晴星座說
2026-01-10 18:49:41
1996年,姚文元出獄后,向中央提兩個請求,第二個被一口回絕

1996年,姚文元出獄后,向中央提兩個請求,第二個被一口回絕

雍親王府
2025-11-15 21:50:03
2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

2026年春節(jié),要暖到離譜?大年初一撞上七九,老輩人:60年頭回見

叮當當科技
2026-01-07 13:58:49
重慶市九龍坡區(qū)委原副書記羅林泉接受審查調(diào)查

重慶市九龍坡區(qū)委原副書記羅林泉接受審查調(diào)查

界面新聞
2026-01-10 19:03:01
戰(zhàn)前國家棟梁,戰(zhàn)后禍國豺狼

戰(zhàn)前國家棟梁,戰(zhàn)后禍國豺狼

我是歷史其實挺有趣
2026-01-08 20:08:25
日方召見中國大使抗議,吳江浩大使當場駁回:中方意志不會改變

日方召見中國大使抗議,吳江浩大使當場駁回:中方意志不會改變

博覽歷史
2026-01-09 17:58:48
潮汕出了個“喬布斯”,干出年入120億小電驢!擬2026年赴港上市

潮汕出了個“喬布斯”,干出年入120億小電驢!擬2026年赴港上市

文史旺旺旺
2026-01-03 19:08:03
2026-01-10 19:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準備第二次震驚全世界

頭條要聞

白人女子被執(zhí)法隊員當街射殺 死前對峙說"我不生你氣"

頭條要聞

白人女子被執(zhí)法隊員當街射殺 死前對峙說"我不生你氣"

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
手機
健康
家居

藝術(shù)要聞

董其昌超過10厘米的大字,噴子看完都沉默了

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

手機要聞

魅族Flyme AIOS 2新春特別版即將發(fā)布,Aicy識屏支持提取視頻

這些新療法,讓化療不再那么痛苦

家居要聞

木色留白 演繹現(xiàn)代自由

無障礙瀏覽 進入關(guān)懷版