国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別被室內(nèi)基準(zhǔn)高分騙了:大模型是在推理空間,還是在「背答案」?

0
分享至



2025 年,隨著李飛飛等學(xué)者將 “空間智能”(Spatial Intelligence)推向聚光燈下,這一領(lǐng)域迅速成為了大模型競逐的新高地。通用大模型和各類專家模型紛紛在諸多室內(nèi)空間推理基準(zhǔn)上刷新 SOTA,似乎 AI 在訓(xùn)練中已經(jīng)更好地讀懂了三維空間。

然而,這背后存在著隱憂:由于帶有準(zhǔn)確 3D 標(biāo)注數(shù)據(jù)的稀缺,模型訓(xùn)練所用數(shù)據(jù)(如 ScanNet++、ARKitScenes)往往與測試基準(zhǔn)高度同源。這種數(shù)據(jù)的 “近親繁殖” 讓我們不得不擔(dān)憂:近期模型分?jǐn)?shù)的飆升,究竟是真正習(xí)得了空間幾何推理能力,還是僅僅因?yàn)?“看多了” 類似的室內(nèi)數(shù)據(jù)分布,從而學(xué)會了 “背答案”?

為了回答這個問題,中國科學(xué)院大學(xué)機(jī)器學(xué)習(xí)與感知實(shí)驗(yàn)室聯(lián)合微軟亞洲研究院以及蘇黎世聯(lián)邦理工大學(xué)共同發(fā)布了全新空間智能基準(zhǔn)OSI-Bench,從數(shù)據(jù)源頭出發(fā),基于自采開放世界中帶有準(zhǔn)確 3D 標(biāo)注的視頻數(shù)據(jù),提供了對空間智能真正診斷的能力。由此出發(fā),該工作重新審視了當(dāng)前大模型的空間能力是否得到了發(fā)展。真正的空間智能鴻溝,或許無法在現(xiàn)有數(shù)據(jù)范式下僅靠簡單的微調(diào)來填平。



  • 論文標(biāo)題:From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
  • 作者:Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang, Jiaolong Yang, Marc Pollefeys, Tong Zhang
  • 論文地址:https://arxiv.org/abs/2512.19683
  • 項(xiàng)目主頁:https://mingrui-wu.github.io/osi-bench

室內(nèi)場景的局限

近年來,空間智能的研究大多聚焦于室內(nèi)場景。這很大程度上受限于源數(shù)據(jù)集的匱乏 —— 少數(shù)可用的室外數(shù)據(jù)集往往基于自動駕駛視角,與第一人稱的行人視角存在本質(zhì)差異。

這種對室內(nèi)數(shù)據(jù)的過度依賴,不僅導(dǎo)致了訓(xùn)練集與測試集的高度同源,更因室內(nèi)場景過強(qiáng)的語義先驗(yàn)難以公平評估模型的空間感知和推理能力。



當(dāng)我們在室內(nèi)場景提問時(例如:“浴缸和馬桶之間相距多遠(yuǎn)?”),模型往往能基于 “典型浴室布局” 的先驗(yàn)知識做出合理推測。即便關(guān)閉視覺輸入,模型也能僅從語言信息 “盲猜” 對部分此類問題。

OSI-Bench選擇的室外開放世界的一個核心優(yōu)勢在于其復(fù)雜性與隨機(jī)性。在這種環(huán)境下,語義先驗(yàn)變得微弱。面對 “告示牌和遮陽篷之間的距離是多遠(yuǎn)” 這樣的問題,模型無法再僅憑語義關(guān)聯(lián)獲得正確答案,被迫回歸到真正的視覺空間推理上來。這種對先驗(yàn)知識與視覺空間智能的解耦,使得OSI-Bench可以評估模型的真實(shí)空間能力。

從數(shù)據(jù)到問答

OSI-Bench摒棄了從現(xiàn)有數(shù)據(jù)集二次提取的路徑,完全基于由多傳感器平臺(雙目相機(jī)、LiDAR、IMU/GPS)采集的原始視頻流。這些數(shù)據(jù)自帶精確的 3D 信息,覆蓋了公園、步行街、古建筑、校園等豐富多樣的開放世界場景。



我們的 Human-in-the-loop 流程從 20 小時的視頻素材中生成約 9000 條高質(zhì)量問答,涵蓋 9 種任務(wù)。為了系統(tǒng)性評估模型能力,我們將這些任務(wù)劃分為空間智能的三個層級:

1.相對關(guān)系:針對空間位置的定性判斷

2.靜態(tài)尺度:針對靜態(tài)空間物理量的定量估算

3.動態(tài)尺度:引入時間維度的動態(tài)物理量估計(jì)

評測結(jié)果:我們離空間智能還有多遙遠(yuǎn)?

在OSI-Bench上的評測結(jié)果表明,當(dāng)下的開源與閉源 SOTA 多模態(tài)大語言模型普遍在這些任務(wù)上失敗了。



盡管 Gemini-2.5-Pro 在一眾模型中取得了相對顯著的優(yōu)勢,但整體表現(xiàn)仍遠(yuǎn)低于人類水平。然而,比低分更令人擔(dān)憂的是,我們目前看到的所謂 “空間智能提升”,可能只是一場虛假的繁榮。



我們?yōu)榇搜芯苛嗽?2025 年發(fā)布新版本并報(bào)告在 VSI-Bench(室內(nèi)基準(zhǔn))上取得巨大提升的兩個模型家族:Qwen-VL 與 InternVL 系列。

這兩個系列在加入更多空間數(shù)據(jù)訓(xùn)練后,其同尺寸新舊版本在 VSI-Bench 上的得分顯著上升了約24.1 分,性能幾乎翻倍。然而,這種驚人的增長并未出現(xiàn)在同樣考察空間推理的OSI-Bench上。

另外,結(jié)果顯示,在絕對距離任務(wù)上,更新后的各尺寸模型在 VSI-Bench 上一致漲點(diǎn),卻在OSI-Bench上一致退步。由于兩個基準(zhǔn)在這一任務(wù)上采用的提問模版完全相同(僅場景不同),這提供了直接的證據(jù):模型在室內(nèi)基準(zhǔn)上的分?jǐn)?shù)提升,本質(zhì)上是對特定場景分布的過擬合,而非真正習(xí)得了可泛化的空間智能。

我們正在經(jīng)歷的這場 “空間智能刷點(diǎn)狂潮”,或許只是空中樓閣。

語言先驗(yàn):模型的捷徑

當(dāng)面對空間任務(wù)時,相比于費(fèi)力地進(jìn)行視覺幾何推理,模型更傾向于走 “捷徑”—— 利用語言先驗(yàn)知識,基于平均值進(jìn)行猜測。



為了量化這一現(xiàn)象,我們設(shè)計(jì)了兩組實(shí)驗(yàn)。

盲測實(shí)驗(yàn)結(jié)果顯示,模型在有 / 無視覺輸入的情況下的得分差距極小,視覺輸入并沒有被有效地在推理中使用。



我們構(gòu)建了一組包含 “正常場景” 與 “反常場景”(物體尺寸被特意調(diào)整至違背常理)的合成數(shù)據(jù)。人類在面對反常場景時,空間判斷力并未受太大影響;而模型在語言先驗(yàn)失效、常理不再適用的情況下,性能出現(xiàn)了斷崖式下跌。



總結(jié)與展望

OSI-Bench暴露了現(xiàn)有大模型在空間智能層面與實(shí)際應(yīng)用需求之間的巨大鴻溝,更讓我們對當(dāng)前模型是否真正具備可泛化的空間能力提出了質(zhì)疑。

我們呼喚一種全新的空間智能范式,相較于 data-driven 的分布擬合,我們需要真正賦予模型在空間中感知、在空間中思考的工具與能力。

OSI-Bench的基準(zhǔn)與評測代碼已全部開源。未來,我們將持續(xù)開源更多帶有高精度 3D 信息的開放世界視頻數(shù)據(jù),推動空間智能從室內(nèi)場景走向復(fù)雜的開放世界。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
河南新鄉(xiāng)通報(bào)一村民被“頂包”成“村支書”:對11名責(zé)任人嚴(yán)肅追責(zé)問責(zé)

河南新鄉(xiāng)通報(bào)一村民被“頂包”成“村支書”:對11名責(zé)任人嚴(yán)肅追責(zé)問責(zé)

界面新聞
2026-01-07 20:51:53
美國經(jīng)濟(jì)專家:每當(dāng)中國開始量產(chǎn)某產(chǎn)品,美國的同行就面臨著衰敗

美國經(jīng)濟(jì)專家:每當(dāng)中國開始量產(chǎn)某產(chǎn)品,美國的同行就面臨著衰敗

為了更好
2026-01-06 22:09:27
荷蘭宣布:減少參與美軍緝毒行動

荷蘭宣布:減少參與美軍緝毒行動

財(cái)聯(lián)社
2026-01-07 15:23:26
不裝了,梅西霸氣發(fā)言引爭議!與C羅對比鮮明,球迷:這才是球王

不裝了,梅西霸氣發(fā)言引爭議!與C羅對比鮮明,球迷:這才是球王

阿泰希特
2026-01-07 09:10:56
在農(nóng)村見過最離譜的事情是什么?男女關(guān)系的開放程度讓人目瞪口呆

在農(nóng)村見過最離譜的事情是什么?男女關(guān)系的開放程度讓人目瞪口呆

夜深愛雜談
2026-01-06 20:51:44
歐文:南門不配曼聯(lián),球迷反對保守

歐文:南門不配曼聯(lián),球迷反對保守

體壇周報(bào)
2026-01-07 19:38:42
深圳一高速今年或?qū)⒚赓M(fèi)通行!

深圳一高速今年或?qū)⒚赓M(fèi)通行!

深圳晚報(bào)
2026-01-07 22:10:45
0:3慘敗薛飛!張本智和囂張?jiān)獯蚰?,多哈賽沖冠蒙陰影

0:3慘敗薛飛!張本智和囂張?jiān)獯蚰?,多哈賽沖冠蒙陰影

阿晞體育
2026-01-07 11:19:11
美國在約半小時內(nèi)宣稱扣押兩艘油輪

美國在約半小時內(nèi)宣稱扣押兩艘油輪

新京報(bào)
2026-01-07 23:00:06
“美國斬殺線”:一則都市傳說如何被包裝成“真實(shí)美國”敘事

“美國斬殺線”:一則都市傳說如何被包裝成“真實(shí)美國”敘事

美國華人雜談
2026-01-07 08:04:45
看了6集長河落日,我不禁感嘆:國產(chǎn)諜戰(zhàn)劇,還真得看柳云龍

看了6集長河落日,我不禁感嘆:國產(chǎn)諜戰(zhàn)劇,還真得看柳云龍

手工制作阿殲
2026-01-08 01:36:43
38歲技術(shù)總監(jiān)被辭僅得7萬,秒退所有工作群,次日231個未接來電

38歲技術(shù)總監(jiān)被辭僅得7萬,秒退所有工作群,次日231個未接來電

磊子講史
2025-06-21 14:14:16
朝鮮的鐵礦石儲量第一,為何至今不見對外開放?僅中國可以開采!

朝鮮的鐵礦石儲量第一,為何至今不見對外開放?僅中國可以開采!

豐譚筆錄
2026-01-08 00:09:39
中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

愛吃醋的貓咪
2025-12-27 16:24:13
依木蘭落選原因曝光!名記:對抗無優(yōu)勢,未來大有用武之地

依木蘭落選原因曝光!名記:對抗無優(yōu)勢,未來大有用武之地

奧拜爾
2026-01-07 15:03:33
妻子拿著28克金手鐲去金店,回來后丈夫覺得不對勁……他:妻子當(dāng)時喝了酒

妻子拿著28克金手鐲去金店,回來后丈夫覺得不對勁……他:妻子當(dāng)時喝了酒

北青網(wǎng)-北京青年報(bào)
2026-01-06 13:50:08
曼聯(lián)主帥候選鎖定三大傳奇!索爾斯克亞成頭號候選,拉什福德力挺

曼聯(lián)主帥候選鎖定三大傳奇!索爾斯克亞成頭號候選,拉什福德力挺

夜白侃球
2026-01-07 21:09:41
最近,美國連續(xù)扣押多艘中國商船,中國是如何反擊的?

最近,美國連續(xù)扣押多艘中國商船,中國是如何反擊的?

阿胡
2025-12-23 17:56:32
泰國軍方:柬方違反?;鹇暶?>
    </a>
        <h3>
      <a href=每日經(jīng)濟(jì)新聞
2026-01-06 12:19:40
飼料大王劉永好坦言:我們吃的豬肉90%是“三元豬”,所以不香了

飼料大王劉永好坦言:我們吃的豬肉90%是“三元豬”,所以不香了

丁丁鯉史紀(jì)
2025-12-23 16:14:18
2026-01-08 02:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12075文章數(shù) 142531關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會:揭秘新款大殺器

頭條要聞

美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

頭條要聞

美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

家居
時尚
房產(chǎn)
教育
藝術(shù)

家居要聞

寧靜不單調(diào) 恰到好處的美

李夢系穿搭,就這么養(yǎng)成了

房產(chǎn)要聞

最新!??诙址浚瑵q價房源突然猛增30%

教育要聞

在AI時代,教育有三個基本原理不會變

藝術(shù)要聞

24位國畫大師聯(lián)手,震撼美學(xué)體驗(yàn)等你來!

無障礙瀏覽 進(jìn)入關(guān)懷版