国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別被室內(nèi)基準(zhǔn)高分騙了:大模型是在推理空間,還是在「背答案」?

0
分享至



2025 年,隨著李飛飛等學(xué)者將 “空間智能”(Spatial Intelligence)推向聚光燈下,這一領(lǐng)域迅速成為了大模型競逐的新高地。通用大模型和各類專家模型紛紛在諸多室內(nèi)空間推理基準(zhǔn)上刷新 SOTA,似乎 AI 在訓(xùn)練中已經(jīng)更好地讀懂了三維空間。

然而,這背后存在著隱憂:由于帶有準(zhǔn)確 3D 標(biāo)注數(shù)據(jù)的稀缺,模型訓(xùn)練所用數(shù)據(jù)(如 ScanNet++、ARKitScenes)往往與測試基準(zhǔn)高度同源。這種數(shù)據(jù)的 “近親繁殖” 讓我們不得不擔(dān)憂:近期模型分?jǐn)?shù)的飆升,究竟是真正習(xí)得了空間幾何推理能力,還是僅僅因?yàn)?“看多了” 類似的室內(nèi)數(shù)據(jù)分布,從而學(xué)會了 “背答案”?

為了回答這個(gè)問題,中國科學(xué)院大學(xué)機(jī)器學(xué)習(xí)與感知實(shí)驗(yàn)室聯(lián)合微軟亞洲研究院以及蘇黎世聯(lián)邦理工大學(xué)共同發(fā)布了全新空間智能基準(zhǔn)OSI-Bench,從數(shù)據(jù)源頭出發(fā),基于自采開放世界中帶有準(zhǔn)確 3D 標(biāo)注的視頻數(shù)據(jù),提供了對空間智能真正診斷的能力。由此出發(fā),該工作重新審視了當(dāng)前大模型的空間能力是否得到了發(fā)展。真正的空間智能鴻溝,或許無法在現(xiàn)有數(shù)據(jù)范式下僅靠簡單的微調(diào)來填平。



  • 論文標(biāo)題:From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
  • 作者:Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang, Jiaolong Yang, Marc Pollefeys, Tong Zhang
  • 論文地址:https://arxiv.org/abs/2512.19683
  • 項(xiàng)目主頁:https://mingrui-wu.github.io/osi-bench

室內(nèi)場景的局限

近年來,空間智能的研究大多聚焦于室內(nèi)場景。這很大程度上受限于源數(shù)據(jù)集的匱乏 —— 少數(shù)可用的室外數(shù)據(jù)集往往基于自動駕駛視角,與第一人稱的行人視角存在本質(zhì)差異。

這種對室內(nèi)數(shù)據(jù)的過度依賴,不僅導(dǎo)致了訓(xùn)練集與測試集的高度同源,更因室內(nèi)場景過強(qiáng)的語義先驗(yàn)難以公平評估模型的空間感知和推理能力。



當(dāng)我們在室內(nèi)場景提問時(shí)(例如:“浴缸和馬桶之間相距多遠(yuǎn)?”),模型往往能基于 “典型浴室布局” 的先驗(yàn)知識做出合理推測。即便關(guān)閉視覺輸入,模型也能僅從語言信息 “盲猜” 對部分此類問題。

OSI-Bench選擇的室外開放世界的一個(gè)核心優(yōu)勢在于其復(fù)雜性與隨機(jī)性。在這種環(huán)境下,語義先驗(yàn)變得微弱。面對 “告示牌和遮陽篷之間的距離是多遠(yuǎn)” 這樣的問題,模型無法再僅憑語義關(guān)聯(lián)獲得正確答案,被迫回歸到真正的視覺空間推理上來。這種對先驗(yàn)知識與視覺空間智能的解耦,使得OSI-Bench可以評估模型的真實(shí)空間能力。

從數(shù)據(jù)到問答

OSI-Bench摒棄了從現(xiàn)有數(shù)據(jù)集二次提取的路徑,完全基于由多傳感器平臺(雙目相機(jī)、LiDAR、IMU/GPS)采集的原始視頻流。這些數(shù)據(jù)自帶精確的 3D 信息,覆蓋了公園、步行街、古建筑、校園等豐富多樣的開放世界場景。



我們的 Human-in-the-loop 流程從 20 小時(shí)的視頻素材中生成約 9000 條高質(zhì)量問答,涵蓋 9 種任務(wù)。為了系統(tǒng)性評估模型能力,我們將這些任務(wù)劃分為空間智能的三個(gè)層級:

1.相對關(guān)系:針對空間位置的定性判斷

2.靜態(tài)尺度:針對靜態(tài)空間物理量的定量估算

3.動態(tài)尺度:引入時(shí)間維度的動態(tài)物理量估計(jì)

評測結(jié)果:我們離空間智能還有多遙遠(yuǎn)?

在OSI-Bench上的評測結(jié)果表明,當(dāng)下的開源與閉源 SOTA 多模態(tài)大語言模型普遍在這些任務(wù)上失敗了。



盡管 Gemini-2.5-Pro 在一眾模型中取得了相對顯著的優(yōu)勢,但整體表現(xiàn)仍遠(yuǎn)低于人類水平。然而,比低分更令人擔(dān)憂的是,我們目前看到的所謂 “空間智能提升”,可能只是一場虛假的繁榮。



我們?yōu)榇搜芯苛嗽?2025 年發(fā)布新版本并報(bào)告在 VSI-Bench(室內(nèi)基準(zhǔn))上取得巨大提升的兩個(gè)模型家族:Qwen-VL 與 InternVL 系列。

這兩個(gè)系列在加入更多空間數(shù)據(jù)訓(xùn)練后,其同尺寸新舊版本在 VSI-Bench 上的得分顯著上升了約24.1 分,性能幾乎翻倍。然而,這種驚人的增長并未出現(xiàn)在同樣考察空間推理的OSI-Bench上。

另外,結(jié)果顯示,在絕對距離任務(wù)上,更新后的各尺寸模型在 VSI-Bench 上一致漲點(diǎn),卻在OSI-Bench上一致退步。由于兩個(gè)基準(zhǔn)在這一任務(wù)上采用的提問模版完全相同(僅場景不同),這提供了直接的證據(jù):模型在室內(nèi)基準(zhǔn)上的分?jǐn)?shù)提升,本質(zhì)上是對特定場景分布的過擬合,而非真正習(xí)得了可泛化的空間智能。

我們正在經(jīng)歷的這場 “空間智能刷點(diǎn)狂潮”,或許只是空中樓閣。

語言先驗(yàn):模型的捷徑

當(dāng)面對空間任務(wù)時(shí),相比于費(fèi)力地進(jìn)行視覺幾何推理,模型更傾向于走 “捷徑”—— 利用語言先驗(yàn)知識,基于平均值進(jìn)行猜測。



為了量化這一現(xiàn)象,我們設(shè)計(jì)了兩組實(shí)驗(yàn)。

盲測實(shí)驗(yàn)結(jié)果顯示,模型在有 / 無視覺輸入的情況下的得分差距極小,視覺輸入并沒有被有效地在推理中使用。



我們構(gòu)建了一組包含 “正常場景” 與 “反常場景”(物體尺寸被特意調(diào)整至違背常理)的合成數(shù)據(jù)。人類在面對反常場景時(shí),空間判斷力并未受太大影響;而模型在語言先驗(yàn)失效、常理不再適用的情況下,性能出現(xiàn)了斷崖式下跌。



總結(jié)與展望

OSI-Bench暴露了現(xiàn)有大模型在空間智能層面與實(shí)際應(yīng)用需求之間的巨大鴻溝,更讓我們對當(dāng)前模型是否真正具備可泛化的空間能力提出了質(zhì)疑。

我們呼喚一種全新的空間智能范式,相較于 data-driven 的分布擬合,我們需要真正賦予模型在空間中感知、在空間中思考的工具與能力。

OSI-Bench的基準(zhǔn)與評測代碼已全部開源。未來,我們將持續(xù)開源更多帶有高精度 3D 信息的開放世界視頻數(shù)據(jù),推動空間智能從室內(nèi)場景走向復(fù)雜的開放世界。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一年狂賺2500億,潛伏中國34年,被誤認(rèn)國產(chǎn),竟是洋貨!

一年狂賺2500億,潛伏中國34年,被誤認(rèn)國產(chǎn),竟是洋貨!

仙味少女心
2025-11-27 23:38:57
51年,彭老總下狠心槍決周總理女婿,總理急電:罪不致死押回國內(nèi)

51年,彭老總下狠心槍決周總理女婿,總理急電:罪不致死押回國內(nèi)

談古論今歷史有道
2026-01-09 09:30:03
閆學(xué)晶事件再升級!官媒下場發(fā)文銳評,言辭犀利,句句直戳她心窩

閆學(xué)晶事件再升級!官媒下場發(fā)文銳評,言辭犀利,句句直戳她心窩

攬星河的筆記
2026-01-07 16:04:46
日本拉面店禁止中國人入內(nèi)!韓國網(wǎng)友揭露內(nèi)幕并呼吁:我們也不能去!

日本拉面店禁止中國人入內(nèi)!韓國網(wǎng)友揭露內(nèi)幕并呼吁:我們也不能去!

奮斗在韓國
2026-01-10 14:03:22
《尋秦記》票房破2億,男演員演技排名:古天樂第4,第1難超越

《尋秦記》票房破2億,男演員演技排名:古天樂第4,第1難超越

飄逸語人
2026-01-10 06:07:54
中國小伙在澳失聯(lián)最新!遺體已找到,只剩下頭顱,警方定性引爭議

中國小伙在澳失聯(lián)最新!遺體已找到,只剩下頭顱,警方定性引爭議

李健政觀察
2026-01-09 12:08:28
殺進(jìn)2026WTT多哈冠軍賽8強(qiáng)的長崎美柚獲喝彩:“預(yù)感她將嶄露頭角”

殺進(jìn)2026WTT多哈冠軍賽8強(qiáng)的長崎美柚獲喝彩:“預(yù)感她將嶄露頭角”

隱于山海
2026-01-10 14:27:56
五十六歲的鐘麗緹更加油膩了,從機(jī)場出來,150斤的體重驚呆眾人

五十六歲的鐘麗緹更加油膩了,從機(jī)場出來,150斤的體重驚呆眾人

可樂談情感
2026-01-08 06:28:33
高中生扶老人被訛50萬,15年后老人孫子考上清華,在校門口跪下求饒

高中生扶老人被訛50萬,15年后老人孫子考上清華,在校門口跪下求饒

紅豆講堂
2025-07-14 17:21:43
36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
最討厭的演員排名,潘長江僅第五,閆學(xué)晶第二,第一毋庸置疑

最討厭的演員排名,潘長江僅第五,閆學(xué)晶第二,第一毋庸置疑

林雁飛
2026-01-04 19:29:51
批美!法德領(lǐng)導(dǎo)人措辭罕見嚴(yán)厲

批美!法德領(lǐng)導(dǎo)人措辭罕見嚴(yán)厲

大象新聞
2026-01-09 16:53:02
脆弱的頭號種子:林詩棟險(xiǎn)勝,是懸崖邊的救贖還是光環(huán)下的裂痕?

脆弱的頭號種子:林詩棟險(xiǎn)勝,是懸崖邊的救贖還是光環(huán)下的裂痕?

曹老師評球
2026-01-09 17:24:09
40歲威姆斯現(xiàn)狀:留中國發(fā)展,生活滋潤,當(dāng)網(wǎng)紅身邊美女環(huán)繞

40歲威姆斯現(xiàn)狀:留中國發(fā)展,生活滋潤,當(dāng)網(wǎng)紅身邊美女環(huán)繞

大西體育
2026-01-10 15:31:20
尺寸超越勞斯萊斯庫里南!全新ES9申報(bào):蔚來迄今最大新車

尺寸超越勞斯萊斯庫里南!全新ES9申報(bào):蔚來迄今最大新車

快科技
2026-01-08 23:34:07
官宣!宜家,1月15日起大清倉!

官宣!宜家,1月15日起大清倉!

尚虹橋
2026-01-09 21:16:49
90后女教師深夜空教室講課上熱搜!校長:已不是第一次

90后女教師深夜空教室講課上熱搜!校長:已不是第一次

譚老師地理大課堂
2026-01-08 21:47:05
日本5歲男童卷入扶梯中被活活勒死!滑雪場卻甩鍋扶梯是中國制造,結(jié)果被日本網(wǎng)友罵了!

日本5歲男童卷入扶梯中被活活勒死!滑雪場卻甩鍋扶梯是中國制造,結(jié)果被日本網(wǎng)友罵了!

東京新青年
2026-01-09 18:55:29
“這就是補(bǔ)課的下場”,家長曬學(xué)霸女兒高一成績,網(wǎng)友卻看清現(xiàn)實(shí)

“這就是補(bǔ)課的下場”,家長曬學(xué)霸女兒高一成績,網(wǎng)友卻看清現(xiàn)實(shí)

妍妍教育日記
2026-01-10 12:59:38
倒計(jì)時(shí)一個(gè)月,人類即將再次飛向月球

倒計(jì)時(shí)一個(gè)月,人類即將再次飛向月球

NASA航天愛好者
2026-01-09 08:53:57
2026-01-10 16:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

特朗普為何如此想要格陵蘭島 美聯(lián)社用同個(gè)詞解釋3次

頭條要聞

特朗普為何如此想要格陵蘭島 美聯(lián)社用同個(gè)詞解釋3次

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

趙櫻子稱和蔣毅試婚三天:像試面膜

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

藝術(shù)
親子
數(shù)碼
時(shí)尚
公開課

藝術(shù)要聞

你能認(rèn)出毛主席手書的全部嗎?揭秘其中隱藏的秘密!

親子要聞

幼兒園元旦晚會 男子看見落單的,小男孩一臉失落主動將其抱起

數(shù)碼要聞

AI助眠燈、木板智能開關(guān)……CES2026上的智能家居太野了

專欄 |?做“主語”的體驗(yàn)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版