国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

別被室內(nèi)基準(zhǔn)高分騙了:大模型是在推理空間,還是在「背答案」?

0
分享至



2025 年,隨著李飛飛等學(xué)者將 “空間智能”(Spatial Intelligence)推向聚光燈下,這一領(lǐng)域迅速成為了大模型競(jìng)逐的新高地。通用大模型和各類專家模型紛紛在諸多室內(nèi)空間推理基準(zhǔn)上刷新 SOTA,似乎 AI 在訓(xùn)練中已經(jīng)更好地讀懂了三維空間。

然而,這背后存在著隱憂:由于帶有準(zhǔn)確 3D 標(biāo)注數(shù)據(jù)的稀缺,模型訓(xùn)練所用數(shù)據(jù)(如 ScanNet++、ARKitScenes)往往與測(cè)試基準(zhǔn)高度同源。這種數(shù)據(jù)的 “近親繁殖” 讓我們不得不擔(dān)憂:近期模型分?jǐn)?shù)的飆升,究竟是真正習(xí)得了空間幾何推理能力,還是僅僅因?yàn)?“看多了” 類似的室內(nèi)數(shù)據(jù)分布,從而學(xué)會(huì)了 “背答案”?

為了回答這個(gè)問(wèn)題,中國(guó)科學(xué)院大學(xué)機(jī)器學(xué)習(xí)與感知實(shí)驗(yàn)室聯(lián)合微軟亞洲研究院以及蘇黎世聯(lián)邦理工大學(xué)共同發(fā)布了全新空間智能基準(zhǔn)OSI-Bench,從數(shù)據(jù)源頭出發(fā),基于自采開(kāi)放世界中帶有準(zhǔn)確 3D 標(biāo)注的視頻數(shù)據(jù),提供了對(duì)空間智能真正診斷的能力。由此出發(fā),該工作重新審視了當(dāng)前大模型的空間能力是否得到了發(fā)展。真正的空間智能鴻溝,或許無(wú)法在現(xiàn)有數(shù)據(jù)范式下僅靠簡(jiǎn)單的微調(diào)來(lái)填平。



  • 論文標(biāo)題:From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
  • 作者:Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang, Jiaolong Yang, Marc Pollefeys, Tong Zhang
  • 論文地址:https://arxiv.org/abs/2512.19683
  • 項(xiàng)目主頁(yè):https://mingrui-wu.github.io/osi-bench

室內(nèi)場(chǎng)景的局限

近年來(lái),空間智能的研究大多聚焦于室內(nèi)場(chǎng)景。這很大程度上受限于源數(shù)據(jù)集的匱乏 —— 少數(shù)可用的室外數(shù)據(jù)集往往基于自動(dòng)駕駛視角,與第一人稱的行人視角存在本質(zhì)差異。

這種對(duì)室內(nèi)數(shù)據(jù)的過(guò)度依賴,不僅導(dǎo)致了訓(xùn)練集與測(cè)試集的高度同源,更因室內(nèi)場(chǎng)景過(guò)強(qiáng)的語(yǔ)義先驗(yàn)難以公平評(píng)估模型的空間感知和推理能力。



當(dāng)我們?cè)谑覂?nèi)場(chǎng)景提問(wèn)時(shí)(例如:“浴缸和馬桶之間相距多遠(yuǎn)?”),模型往往能基于 “典型浴室布局” 的先驗(yàn)知識(shí)做出合理推測(cè)。即便關(guān)閉視覺(jué)輸入,模型也能僅從語(yǔ)言信息 “盲猜” 對(duì)部分此類問(wèn)題。

OSI-Bench選擇的室外開(kāi)放世界的一個(gè)核心優(yōu)勢(shì)在于其復(fù)雜性與隨機(jī)性。在這種環(huán)境下,語(yǔ)義先驗(yàn)變得微弱。面對(duì) “告示牌和遮陽(yáng)篷之間的距離是多遠(yuǎn)” 這樣的問(wèn)題,模型無(wú)法再僅憑語(yǔ)義關(guān)聯(lián)獲得正確答案,被迫回歸到真正的視覺(jué)空間推理上來(lái)。這種對(duì)先驗(yàn)知識(shí)與視覺(jué)空間智能的解耦,使得OSI-Bench可以評(píng)估模型的真實(shí)空間能力。

從數(shù)據(jù)到問(wèn)答

OSI-Bench摒棄了從現(xiàn)有數(shù)據(jù)集二次提取的路徑,完全基于由多傳感器平臺(tái)(雙目相機(jī)、LiDAR、IMU/GPS)采集的原始視頻流。這些數(shù)據(jù)自帶精確的 3D 信息,覆蓋了公園、步行街、古建筑、校園等豐富多樣的開(kāi)放世界場(chǎng)景。



我們的 Human-in-the-loop 流程從 20 小時(shí)的視頻素材中生成約 9000 條高質(zhì)量問(wèn)答,涵蓋 9 種任務(wù)。為了系統(tǒng)性評(píng)估模型能力,我們將這些任務(wù)劃分為空間智能的三個(gè)層級(jí):

1.相對(duì)關(guān)系:針對(duì)空間位置的定性判斷

2.靜態(tài)尺度:針對(duì)靜態(tài)空間物理量的定量估算

3.動(dòng)態(tài)尺度:引入時(shí)間維度的動(dòng)態(tài)物理量估計(jì)

評(píng)測(cè)結(jié)果:我們離空間智能還有多遙遠(yuǎn)?

在OSI-Bench上的評(píng)測(cè)結(jié)果表明,當(dāng)下的開(kāi)源與閉源 SOTA 多模態(tài)大語(yǔ)言模型普遍在這些任務(wù)上失敗了。



盡管 Gemini-2.5-Pro 在一眾模型中取得了相對(duì)顯著的優(yōu)勢(shì),但整體表現(xiàn)仍遠(yuǎn)低于人類水平。然而,比低分更令人擔(dān)憂的是,我們目前看到的所謂 “空間智能提升”,可能只是一場(chǎng)虛假的繁榮。



我們?yōu)榇搜芯苛嗽?2025 年發(fā)布新版本并報(bào)告在 VSI-Bench(室內(nèi)基準(zhǔn))上取得巨大提升的兩個(gè)模型家族:Qwen-VL 與 InternVL 系列。

這兩個(gè)系列在加入更多空間數(shù)據(jù)訓(xùn)練后,其同尺寸新舊版本在 VSI-Bench 上的得分顯著上升了約24.1 分,性能幾乎翻倍。然而,這種驚人的增長(zhǎng)并未出現(xiàn)在同樣考察空間推理的OSI-Bench上。

另外,結(jié)果顯示,在絕對(duì)距離任務(wù)上,更新后的各尺寸模型在 VSI-Bench 上一致漲點(diǎn),卻在OSI-Bench上一致退步。由于兩個(gè)基準(zhǔn)在這一任務(wù)上采用的提問(wèn)模版完全相同(僅場(chǎng)景不同),這提供了直接的證據(jù):模型在室內(nèi)基準(zhǔn)上的分?jǐn)?shù)提升,本質(zhì)上是對(duì)特定場(chǎng)景分布的過(guò)擬合,而非真正習(xí)得了可泛化的空間智能。

我們正在經(jīng)歷的這場(chǎng) “空間智能刷點(diǎn)狂潮”,或許只是空中樓閣。

語(yǔ)言先驗(yàn):模型的捷徑

當(dāng)面對(duì)空間任務(wù)時(shí),相比于費(fèi)力地進(jìn)行視覺(jué)幾何推理,模型更傾向于走 “捷徑”—— 利用語(yǔ)言先驗(yàn)知識(shí),基于平均值進(jìn)行猜測(cè)。



為了量化這一現(xiàn)象,我們?cè)O(shè)計(jì)了兩組實(shí)驗(yàn)。

盲測(cè)實(shí)驗(yàn)結(jié)果顯示,模型在有 / 無(wú)視覺(jué)輸入的情況下的得分差距極小,視覺(jué)輸入并沒(méi)有被有效地在推理中使用。



我們構(gòu)建了一組包含 “正常場(chǎng)景” 與 “反常場(chǎng)景”(物體尺寸被特意調(diào)整至違背常理)的合成數(shù)據(jù)。人類在面對(duì)反常場(chǎng)景時(shí),空間判斷力并未受太大影響;而模型在語(yǔ)言先驗(yàn)失效、常理不再適用的情況下,性能出現(xiàn)了斷崖式下跌。



總結(jié)與展望

OSI-Bench暴露了現(xiàn)有大模型在空間智能層面與實(shí)際應(yīng)用需求之間的巨大鴻溝,更讓我們對(duì)當(dāng)前模型是否真正具備可泛化的空間能力提出了質(zhì)疑。

我們呼喚一種全新的空間智能范式,相較于 data-driven 的分布擬合,我們需要真正賦予模型在空間中感知、在空間中思考的工具與能力。

OSI-Bench的基準(zhǔn)與評(píng)測(cè)代碼已全部開(kāi)源。未來(lái),我們將持續(xù)開(kāi)源更多帶有高精度 3D 信息的開(kāi)放世界視頻數(shù)據(jù),推動(dòng)空間智能從室內(nèi)場(chǎng)景走向復(fù)雜的開(kāi)放世界。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中航官宣殲10CE無(wú)傷擊落多架戰(zhàn)機(jī),印度無(wú)從狡辯,歐美俄哀嚎一片

中航官宣殲10CE無(wú)傷擊落多架戰(zhàn)機(jī),印度無(wú)從狡辯,歐美俄哀嚎一片

嘯鷹評(píng)
2026-01-11 12:48:25
499隔衣服摸胸!私人影院暗藏涉黃:299元起步撕絲襪,還有更過(guò)火

499隔衣服摸胸!私人影院暗藏涉黃:299元起步撕絲襪,還有更過(guò)火

沒(méi)有偏旁的常慶
2025-12-31 02:25:28
天助國(guó)際米蘭:1-1,意甲第2遭意甲第18阻擊,先賽一場(chǎng)落后領(lǐng)頭羊2分

天助國(guó)際米蘭:1-1,意甲第2遭意甲第18阻擊,先賽一場(chǎng)落后領(lǐng)頭羊2分

側(cè)身凌空斬
2026-01-12 00:07:43
船員柬埔寨轉(zhuǎn)機(jī)后失聯(lián)超十天,與妻子通話中疑似暗示報(bào)警

船員柬埔寨轉(zhuǎn)機(jī)后失聯(lián)超十天,與妻子通話中疑似暗示報(bào)警

大象新聞
2026-01-11 10:01:13
中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒(méi)辦法保護(hù)他們

中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒(méi)辦法保護(hù)他們

肖茲探秘說(shuō)
2026-01-01 20:16:34
英國(guó)夫妻圣誕節(jié)收留流浪漢,結(jié)果對(duì)方直接留下住了45年?

英國(guó)夫妻圣誕節(jié)收留流浪漢,結(jié)果對(duì)方直接留下住了45年?

英國(guó)報(bào)姐
2026-01-10 21:08:50
CCTV5直播女單決賽!決賽出爐,大黑馬淘汰,陳幸同零封蒯曼 與朱雨玲爭(zhēng)冠

CCTV5直播女單決賽!決賽出爐,大黑馬淘汰,陳幸同零封蒯曼 與朱雨玲爭(zhēng)冠

好乒乓
2026-01-11 20:11:03
西部最新排名:快船創(chuàng)NBA奇跡,掘金收大禮,獨(dú)行俠提前擺爛

西部最新排名:快船創(chuàng)NBA奇跡,掘金收大禮,獨(dú)行俠提前擺爛

籃球大視野
2026-01-11 15:40:11
問(wèn)題到底出在哪里?為什么那么多人不信官方說(shuō)法…

問(wèn)題到底出在哪里?為什么那么多人不信官方說(shuō)法…

慧翔百科
2026-01-10 13:44:32
李凱馨泳裝好肥嫩

李凱馨泳裝好肥嫩

小椰的奶奶
2026-01-12 00:58:55
特朗普顧問(wèn)攤牌:美國(guó)在用時(shí)間換稀土,目的是廢除中國(guó)稀土王牌

特朗普顧問(wèn)攤牌:美國(guó)在用時(shí)間換稀土,目的是廢除中國(guó)稀土王牌

老稝科普君
2026-01-12 00:00:36
個(gè)人所得稅減半征收政策!延續(xù)至2027年12月31日!

個(gè)人所得稅減半征收政策!延續(xù)至2027年12月31日!

審計(jì)之家
2026-01-11 09:03:14
吃中國(guó)飯,砸中國(guó)鍋!央視出手全程打碼,這位700萬(wàn)網(wǎng)紅徹底崩塌

吃中國(guó)飯,砸中國(guó)鍋!央視出手全程打碼,這位700萬(wàn)網(wǎng)紅徹底崩塌

小熊侃史
2025-12-27 12:00:29
特斯拉 Model Y 黑標(biāo)版,要來(lái)了!

特斯拉 Model Y 黑標(biāo)版,要來(lái)了!

花果科技
2026-01-11 22:24:35
廣東30分大勝遼籃!徐杰破紀(jì)錄,三外援合砍71分,胡明軒僅得3分

廣東30分大勝遼籃!徐杰破紀(jì)錄,三外援合砍71分,胡明軒僅得3分

多特體育說(shuō)
2026-01-11 21:32:39
回國(guó)了我才敢說(shuō):委內(nèi)瑞拉,是我去過(guò)的所有國(guó)家中,最被低估的!

回國(guó)了我才敢說(shuō):委內(nèi)瑞拉,是我去過(guò)的所有國(guó)家中,最被低估的!

另子維愛(ài)讀史
2026-01-09 21:09:05
Switch 2為何賣(mài)不動(dòng)?老任員工說(shuō)出真相

Switch 2為何賣(mài)不動(dòng)?老任員工說(shuō)出真相

IT之家
2026-01-11 10:31:31
這個(gè)曾經(jīng)臭名昭著的地點(diǎn),今天終于被徹底物理消滅

這個(gè)曾經(jīng)臭名昭著的地點(diǎn),今天終于被徹底物理消滅

緬甸中文網(wǎng)
2026-01-10 14:43:26
人回來(lái)教練沒(méi)了,科特迪瓦淘汰阿馬德回歸曼聯(lián),阿莫林已下課

人回來(lái)教練沒(méi)了,科特迪瓦淘汰阿馬德回歸曼聯(lián),阿莫林已下課

懂球帝
2026-01-11 18:01:02
越來(lái)越多孩子得白血?。酷t(yī)生坦言:家里4樣?xùn)|西是禍根,趁早扔了

越來(lái)越多孩子得白血?。酷t(yī)生坦言:家里4樣?xùn)|西是禍根,趁早扔了

DrX說(shuō)
2025-11-19 14:42:09
2026-01-12 02:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

體育要聞

U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保晉級(jí)

娛樂(lè)要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣(mài)平臺(tái)"燒錢(qián)搶存量市場(chǎng)"迎來(lái)終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
家居
公開(kāi)課
軍事航空

房產(chǎn)要聞

66萬(wàn)方!4755套!三亞巨量房源正瘋狂砸出!

數(shù)碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

家居要聞

木色留白 演繹現(xiàn)代自由

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒(méi)人

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版