国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini 3僅得33.6分!清華發(fā)布首個「約束流形」空間智能基準

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】SSI-Bench是首個在約束流形中評估模型空間推理能力的基準,強調(diào)真實結(jié)構(gòu)與約束條件,通過排序任務(wù)考察模型是否能準確理解三維結(jié)構(gòu)的幾何與拓撲關(guān)系,揭示當前大模型在空間智能上嚴重依賴2D信息,實際表現(xiàn)遠低于人類。研究指出,模型需提升三維構(gòu)型識別和約束推理能力,才能真正理解空間問題。

如果你把一個在空間理解榜單上刷分很高的多模態(tài)大模型,直接丟進真實世界,它很可能會在看起來很簡單的問題上翻車。

不是因為它不會「看」,而是因為它從來沒有被迫真正尊重三維結(jié)構(gòu)的可行性——它可以靠2D相關(guān)性、外觀先驗、數(shù)據(jù)集套路,走捷徑拿分。

而現(xiàn)實世界里,很多空間問題的本質(zhì)恰恰相反:能怎么擺、怎么連、怎么受力,不是隨意的;可行解往往只存在于一個被幾何、拓撲、物理強約束「壓扁」的空間里。

為此,清華大學(xué)的研究團隊推出SSI-Bench,從AI與結(jié)構(gòu)工程的交叉視角出發(fā),為空間智能評估提供了一種新的場景化思路——將評測置于復(fù)雜三維結(jié)構(gòu)的約束流形中,系統(tǒng)檢驗多模態(tài)大模型的空間智能表現(xiàn)。


項目主頁:https://ssi-bench.github.io/

Arxiv論文:https://arxiv.org/abs/2602.07864

Hugging Face數(shù)據(jù)集:https://huggingface.co/datasets/cyang203912/SSI-Bench

Github代碼庫:https://github.com/ccyydd/SSI-Bench

論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning(CMSR,約束流形空間推理):

在此類任務(wù)中,潛在三維狀態(tài)并非可被任意「臆測」,而是受到顯式約束的限定,僅能落在一個可行解集合內(nèi)——既需要滿足等式約束(如幾何一致性、連接關(guān)系等),也需要滿足不等式約束(如非相交條件、支撐條件與物理可行性等)。

更重要的是,強約束會顯著收縮可行三維配置空間,使「高度、距離、最短路徑」等空間關(guān)系在不同合理解釋下更具穩(wěn)定性,從而使評測結(jié)果具備更好的可量化性與可比性

SSI-Bench正是在這一背景下提出:它不再將模型置于約束較弱、可自由組合的日常場景中,而是面向復(fù)雜真實工程結(jié)構(gòu)構(gòu)建評測環(huán)境,要求模型形成約束一致的三維結(jié)構(gòu)假設(shè),并在此基礎(chǔ)上完成空間推理。


聚焦復(fù)雜三維結(jié)構(gòu)

純?nèi)斯び埠舜蛟?/strong>

任務(wù)形式:用排序題「逼出」真3D

SSI-Bench不再讓模型做選擇題,而是統(tǒng)一成排序任務(wù):每題給出3或4個候選「構(gòu)件/構(gòu)件組」,要求在指定幾何/拓撲準則下輸出正確的全排列順序。

覆蓋能力:幾何+拓撲+多視角一致性

全基準共1,000道排序題,任務(wù)分兩大類:

  • 幾何類(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;

  • 拓撲類(Topological):Hop Distance / Cycle Length等圖結(jié)構(gòu)關(guān)系;

并額外引入多視角題目:以兩張圖配合,一張?zhí)峁﹨⒖紭?gòu)件,一張給出待比較目標,重點考察跨視角構(gòu)件對應(yīng)與整體結(jié)構(gòu)一致性。


構(gòu)建過程:十位研究者耗費400+小時純?nèi)斯ご蚰?/strong>

為了保證數(shù)據(jù)集的質(zhì)量與多樣性,同時也由于缺乏真實結(jié)構(gòu)構(gòu)件的標注數(shù)據(jù),SSI-Bench的構(gòu)建流程非?!赣埠恕埂?0位研究者投入超過400小時,從大量真實結(jié)構(gòu)圖片中進行人工篩選與題目設(shè)計:

  • 數(shù)據(jù)收集:研究中共計審閱約20,000張結(jié)構(gòu)相關(guān)圖片,結(jié)構(gòu)形式包括空間網(wǎng)架、鐵塔、斜拉橋、木竹結(jié)構(gòu)、鋼筋籠、管道等,最終保留2,000+候選;主要來自免版稅來源(Unsplash / Pexels / Pixabay),多視角部分還補充了自采圖像。

  • 任務(wù)設(shè)計:結(jié)合空間智能需求與結(jié)構(gòu)工程專業(yè)知識,共精心設(shè)計2大類、10小類任務(wù)。

  • 元數(shù)據(jù)標注:判斷每張圖片適用的任務(wù)類型,使用Label Studio提供構(gòu)件定位標注;

  • 問題生成:依據(jù)圖片色彩自動選取標注顏色,并按構(gòu)件位置自動布局標注文本;問題生成后,由人工復(fù)核清晰度與遮擋情況。

  • 質(zhì)量檢驗:每題均由獨立檢查者復(fù)核,若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。


模型仍在起跑線

人類領(lǐng)先近六成

SSI-Bench系統(tǒng)評測了31個主流VLM,結(jié)論非常直接:人類幾乎「碾壓式領(lǐng)先」。

人類平均91.6%,最強閉源33.6%(Gemini-3-Flash),最強開源22.2%(GLM-4.6V),隨機猜測基線12.85%

也就是說,哪怕拿到當下最強大模型,人類仍然領(lǐng)先58個百分點(91.6 ? 33.6)。


更為關(guān)鍵的是,即使鼓勵模型生成更長的推理過程,整體提升也多停留在邊際層面,難以觸及問題的核心瓶頸。并且在部分高度依賴全局三維一致性的任務(wù)(如Multi-View、Volume)中,過度推理反而可能在錯誤的結(jié)構(gòu)假設(shè)上持續(xù)累積偏差,使結(jié)果進一步偏離正確答案。


從結(jié)果到機制

關(guān)鍵瓶頸在哪里?

論文對代表模型做了人工復(fù)盤,歸納出四類高頻錯誤:

  • 構(gòu)件范圍誤判:僅觀察到局部便誤認為整體,或?qū)Χ它c位置產(chǎn)生錯誤「補全」;遮擋越多,問題越突出。

  • 構(gòu)件/節(jié)點識別錯誤:混淆不同部件,方向判斷失準(例如將傾斜構(gòu)件誤判為水平或垂直)。

  • 計算與比較邏輯錯誤:在Area/Volume等任務(wù)中計算方式錯誤(例如以2D投影替代3D體積),或采用不成立的簡化假設(shè)。

  • 3D空間邏輯錯誤:深度關(guān)系混亂、跨視角對應(yīng)失敗、關(guān)系組合不穩(wěn)定,進而導(dǎo)致整體結(jié)構(gòu)假設(shè)不一致。

這也解釋了SSI-Bench的「硬核」并不在于題目刻意刁鉆,而在于它迫使模型直面并補齊兩項關(guān)鍵短板:三維結(jié)構(gòu)構(gòu)型識別約束一致的空間推理。


結(jié)語

SSI-Bench的價值,并不是再造一個「更難的VQA」,而是把空間智能評估拉回一個更接近現(xiàn)實的坐標系:

當場景是復(fù)雜真實結(jié)構(gòu)、當可行解被強約束收縮、當2D捷徑不再可靠——模型是否還能穩(wěn)定地構(gòu)建約束一致的3D結(jié)構(gòu)假設(shè)并完成推理?

從目前結(jié)果看,答案仍然很殘酷:模型還在起跑線,人類已在終點線附近。

但也正因如此,SSI-Bench給出了一個非常明確的研究方向:

讓空間智能體從「會看圖說話」,走向「會在結(jié)構(gòu)里思考」。

參考資料:

https://ssi-bench.github.io/

Yang, C. (楊晨), Lin, G., He, Y., Chen, P., Liu, G., Mo, Y., Xu, Z., Wang, L., Zhang, G., Zhang, Z., Zeng, S., Wang, C. (王琛), & Fan, J. (樊健生) (2026). Thinking in structures: Evaluating spatial intelligence through reasoning on constrained manifolds. arXiv. https://arxiv.org/abs/2602.07864.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中領(lǐng)館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

中領(lǐng)館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

閃電新聞
2026-02-26 12:46:48
輸球又輸人!隨著日本男籃慘遭中國逆轉(zhuǎn),不得不承認的四大事實!

輸球又輸人!隨著日本男籃慘遭中國逆轉(zhuǎn),不得不承認的四大事實!

田先生籃球
2026-02-26 21:51:17
洛克希德·馬丁的生產(chǎn)線突然停了,中國凍結(jié)了他們在華的全部資產(chǎn)

洛克希德·馬丁的生產(chǎn)線突然停了,中國凍結(jié)了他們在華的全部資產(chǎn)

百態(tài)人間
2026-02-25 15:33:21
正式簽約!40歲重返NBA!聯(lián)盟第二老比肩詹姆斯

正式簽約!40歲重返NBA!聯(lián)盟第二老比肩詹姆斯

籃球教學(xué)論壇
2026-02-27 10:42:34
徒弟武功高強,釋永信被帶走時為何不敢反抗?老警察透露原因

徒弟武功高強,釋永信被帶走時為何不敢反抗?老警察透露原因

小莜讀史
2026-02-26 21:36:58
兩會前夕,9名解放軍將領(lǐng)全國人大代表資格被罷免(附完整名單)

兩會前夕,9名解放軍將領(lǐng)全國人大代表資格被罷免(附完整名單)

翻譯大傻
2026-02-26 22:35:34
奔馳、寶馬、奧迪開年集體降價,銷售員:是否考慮新能源?

奔馳、寶馬、奧迪開年集體降價,銷售員:是否考慮新能源?

華夏時報
2026-02-26 16:28:14
男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

大象新聞
2026-02-27 09:57:17
語音控制“關(guān)掉閱讀燈”卻關(guān)掉大燈,命令開燈系統(tǒng)回復(fù)“暫時還不會”,車主凌晨高速上撞護欄!領(lǐng)克致歉:已推優(yōu)化方案

語音控制“關(guān)掉閱讀燈”卻關(guān)掉大燈,命令開燈系統(tǒng)回復(fù)“暫時還不會”,車主凌晨高速上撞護欄!領(lǐng)克致歉:已推優(yōu)化方案

每日經(jīng)濟新聞
2026-02-26 23:53:07
英國女婿瘋狂愛上貴州砂糖橘,春節(jié)期間幾乎一日三餐當飯吃,一個月后把自己吃成“小黃人”

英國女婿瘋狂愛上貴州砂糖橘,春節(jié)期間幾乎一日三餐當飯吃,一個月后把自己吃成“小黃人”

觀威海
2026-02-26 10:26:04
誰搶走了訂單?外企扎堆越南后才明白,“世界工廠”只是一場美夢

誰搶走了訂單?外企扎堆越南后才明白,“世界工廠”只是一場美夢

百科密碼
2026-02-25 15:17:32
砍掉核心部件,效率竟然暴漲30%?燃氣輪機迎來百年最大革命!

砍掉核心部件,效率竟然暴漲30%?燃氣輪機迎來百年最大革命!

科學(xué)火箭叔
2026-02-26 20:14:28
不裝了?FIBA官方竟稱中國隊偷走一場勝利 媒體人怒斥:無法無天

不裝了?FIBA官方竟稱中國隊偷走一場勝利 媒體人怒斥:無法無天

念洲
2026-02-27 07:49:08
工信部新規(guī):嚴禁屏幕換擋,網(wǎng)友拍手叫好

工信部新規(guī):嚴禁屏幕換擋,網(wǎng)友拍手叫好

創(chuàng)作者_1470992743975
2026-02-26 17:34:46
抵達中國不到24小時,默茨拿下大單,還沒啟程的特朗普,只能眼紅

抵達中國不到24小時,默茨拿下大單,還沒啟程的特朗普,只能眼紅

欽點歷史
2026-02-27 09:21:08
高市早苗有麻煩了

高市早苗有麻煩了

第一財經(jīng)資訊
2026-02-26 21:47:44
請假2小時被開除后續(xù):店主真容曝光社死,黑歷史被扒,已找律師

請假2小時被開除后續(xù):店主真容曝光社死,黑歷史被扒,已找律師

離離言幾許
2026-02-26 16:16:45
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強多了

通文知史
2026-02-26 22:00:04
遼寧、甘肅等地接連發(fā)生路口多人死傷道路交通事故,公安部交管局提醒

遼寧、甘肅等地接連發(fā)生路口多人死傷道路交通事故,公安部交管局提醒

界面新聞
2026-02-27 09:23:31
FIBA官方社媒稱“中國男籃偷走勝利”!評論區(qū)翻車

FIBA官方社媒稱“中國男籃偷走勝利”!評論區(qū)翻車

體壇周報
2026-02-27 09:11:45
2026-02-27 10:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14598文章數(shù) 66644關(guān)注度
往期回顧 全部

數(shù)碼要聞

輕薄本的最優(yōu)解?榮耀MagicBook Art 14 2025初體驗

頭條要聞

媒體:驕傲十年后 德國不得不正視中國

頭條要聞

媒體:驕傲十年后 德國不得不正視中國

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

財經(jīng)要聞

魅族手機,終成棄子?

科技要聞

英偉達業(yè)績亮眼仍跌5% 兩大因素成核心隱憂

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

教育
藝術(shù)
家居
游戲
公開課

教育要聞

湖南省教育考試院:致2026高職單招考生、家長的一封公開信

藝術(shù)要聞

紫氣東來,好運一整年!

家居要聞

素色肌理 品意式格調(diào)

絕美容顏!疑似《生化危機:安魂曲》雪莉新面模曝光

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版