獨立研究者與Maptek公司攜手打造：AI真的會"看地圖"嗎？

2026-04-23 21:27:13　來源: 科技行者

北京舉報

分享至

這項由獨立研究者與澳大利亞礦業(yè)技術(shù)公司Maptek聯(lián)合開展的研究，發(fā)表于2026年ICLR（國際學(xué)習(xí)表征會議）高效空間推理研討會，論文編號為arXiv:2604.09594，提交時間為2026年3月5日。有興趣深入了解的讀者可以通過該編號在arXiv平臺查詢完整論文。

你可能覺得，那些能寫代碼、會解數(shù)學(xué)題、還能聊天的大型AI模型，應(yīng)該也擅長空間感這類事情吧？畢竟它們處理過海量圖像和文字，理解三維空間對它們來說應(yīng)該不在話下。然而，當(dāng)研究團隊設(shè)計了一套真正考驗"空間直覺"的題目之后，三款當(dāng)前最頂尖的AI模型——Claude Sonnet 4.5、Gemini 3 Pro Preview和GPT-5.2——的表現(xiàn)讓人大跌眼鏡。最好的成績也不過剛剛超過一半的正確率，而且越往深處考，越接近零分。

這套考試叫做SCBench，也就是空間能力基準(zhǔn)測試（Spatial Competence Benchmark）。它不是那種"這兩個形狀哪個更大"的選擇題，而是要求AI直接輸出可運行的坐標(biāo)、邊集合或操作序列，然后由程序自動判卷——沒有模糊地帶，答案對就是對，錯就是錯。這份考卷的誕生，是因為研究者發(fā)現(xiàn)：現(xiàn)有的AI空間測試太表面了，只考了皮毛，沒有觸及真正的空間推理核心。

一、為什么AI的"空間感"很難測？

要理解這份考卷有多特別，先得搞清楚"空間能力"究竟是什么。

把空間能力想象成一個人在腦子里搭樂高的本事。不是看著說明書照搬，而是要在腦海里構(gòu)建一個環(huán)境的完整模型，然后用這個模型來推斷規(guī)律、做出決策。比如，一個經(jīng)驗豐富的倉庫管理員能在腦海中規(guī)劃出最高效的貨物擺放方式；一位外科醫(yī)生能在操刀前就在腦中完整模擬手術(shù)路徑；一個下棋高手能提前預(yù)見十幾步的棋局變化。這種能力的核心是兩點：一是維持一個連貫的內(nèi)部模型，二是用這個模型在約束條件下推理和規(guī)劃。

現(xiàn)有的AI空間測試大多停留在表面。它們通常是選擇題或問答題，比如"這個物體旋轉(zhuǎn)90度后是什么樣子"，或者"圖中哪個物體更靠近鏡頭"。這類題目考的是感知和識別，但真正的空間推理需要的是構(gòu)建、驗證和在約束下求解——就像考試的區(qū)別在于，一種是認(rèn)出樂高零件叫什么名字，另一種是把它們真正拼成指定的形狀。

SCBench的設(shè)計思路從根本上不同。每道題都要求AI輸出一個可執(zhí)行的答案——具體的坐標(biāo)、完整的路徑序列、精確的幾何結(jié)構(gòu)——然后由程序直接運行這個答案，檢驗它是否滿足所有條件。這就好比不是問廚師"你會做紅燒肉嗎"，而是直接讓他做出來，端上桌驗收。

二、三關(guān)大考：從識字到寫作文

SCBench把空間能力分成了三個層次，研究團隊把它們叫做"能力階梯"，就像武術(shù)的初、中、高段位。

第一個層次叫做公理推斷，考的是從規(guī)則出發(fā)推導(dǎo)出精確結(jié)構(gòu)的能力。這類題目就像數(shù)學(xué)里的邏輯推理：給定一組條件，推斷出必然成立的結(jié)論。其中一道題是這樣的——把一個正方形的四個角分別標(biāo)上數(shù)字（代表不同的"類別"），根據(jù)這些標(biāo)記，枚舉出哪些邊上一定存在類別分界線。另一道題更復(fù)雜：給你一棵描述"遞歸二分"的樹（想象把一個正方形不斷對折，每次沿不同的軸），然后指出某個目標(biāo)小格子的所有鄰居是哪些。這些題目看起來像紙上的數(shù)學(xué)游戲，但要做對，AI必須在腦中構(gòu)建出完整的拓?fù)浣Y(jié)構(gòu)，而不是靠記憶或猜測。

第二個層次叫做構(gòu)造合成，要求AI輸出滿足全局約束的幾何對象。這就像不只是說"我知道怎么搭橋"，而是要真的給出一份能通過工程檢驗的設(shè)計圖。這里有一道極有代表性的題：在一個三維網(wǎng)格空間里擺放一批體素（可以理解成三維版本的像素，每個是一個小立方體），要求無論從正面、側(cè)面還是頂面看，投影都完全填滿，同時整個結(jié)構(gòu)不能有任何旋轉(zhuǎn)對稱性。這兩個條件單獨來看都容易滿足，合在一起就非常棘手，因為一旦你為了填滿投影而添加體素，往往就不小心制造出了對稱性，反之亦然。還有一道題要求用標(biāo)準(zhǔn)樂高積木拼出半球形殼體，不僅要近似球形，積木之間還必須真正能咬合，不能懸空，整體不能倒塌——這道題所有模型的得分都是零，堪稱全場最難的題目。

第三個層次叫做規(guī)劃，也是最高難度。這類題目需要設(shè)計一個多步驟的操作序列，而且每一步都會改變環(huán)境狀態(tài)，影響下一步的可行選項。判分不看過程，只看最終模擬結(jié)果。其中最直觀的一道題是"流體模擬"：給你一個三維體素世界，初始是一片平坦的巖石地面，要求你通過添加或刪除巖石，使得從上方降雨后，水會積成特定形狀的湖泊。例如，要求形成三個在不同高度的獨立水體，或者形成一個環(huán)形湖泊（中間有一塊高地是干燥的）。還有一道題叫"地形爆破"：給你一張起伏的地形高度圖，通過規(guī)劃一系列爆破操作，讓巖石碎裂滾動后，形成盡可能大的平整區(qū)域用于建城——而且爆破后的巖石去向由物理引擎（PyBullet）模擬，AI無法預(yù)先查詢，必須憑空間直覺預(yù)判。這道題所有模型全部得零分。

三、頂尖AI的成績單：越往上越慘

測試結(jié)果非常清晰地呈現(xiàn)出一條下降曲線，仿佛三個學(xué)生同時參加了從初中到博士的連續(xù)考試。

在公理推斷這一關(guān)，Gemini 3 Pro Preview得了81.3分（滿分100），GPT-5.2得了74.7分，Claude Sonnet 4.5得了49.3分。這個成績算是及格，說明這幾款模型對基礎(chǔ)的拓?fù)浜蛶缀我?guī)則有一定理解。

到了構(gòu)造合成這一關(guān)，三款模型的分?jǐn)?shù)都大幅滑落。Claude跌至30.2，Gemini和GPT-5.2分別是51.4和51.9——也就是說，連最好的模型也只答對了大約一半。在具體題目上，差異更為懸殊。樂高半球題三款模型全部得零，最難的"最大可3D打印質(zhì)數(shù)"題也是全部得零。相比之下，"隱藏與尋找"題（把一群人藏在建筑物后讓狙擊手看不見）和"矩形打包"題中，部分模型還能拿到相當(dāng)高分，說明問題結(jié)構(gòu)比較規(guī)整時，模型的表現(xiàn)就會好很多。

規(guī)劃這一關(guān)，Claude只得到27.5，Gemini得39，GPT-5.2得50。流體模擬中的幾道較簡單的題（比如只需要挖一個盆地截住水流）各模型還能拿到不錯的分?jǐn)?shù)，其中GPT-5.2在這道題上甚至得滿分。但地形爆破題，沒有任何模型能得分，因為這道題要求模型預(yù)判物理模擬的結(jié)果，而這是目前AI完全無法憑語言推理完成的任務(wù)。

綜合下來，Gemini和GPT-5.2總分并列，都是57.6分，Claude只有34.9分。三款模型的成績都遵循同一個規(guī)律：公理推斷最好，構(gòu)造合成次之，規(guī)劃最差。這個規(guī)律不是某款模型的特有弱點，而是所有模型共同面對的能力上限。

四、給AI配上工具，會好一些嗎？

研究團隊還做了一組對比實驗：給這三款模型配上工具——具體來說是Python代碼解釋器和網(wǎng)絡(luò)搜索。有了這些工具，模型可以真正運行代碼來做計算，而不只是靠推理。

結(jié)論是：工具有幫助，但幫助是有條件的。

在構(gòu)造合成這一關(guān)，工具的幫助最明顯。Claude提升4.3個百分點，Gemini提升12.3個百分點，GPT-5.2提升15個百分點。原因很直觀：這類題目需要大量坐標(biāo)計算，有了代碼執(zhí)行能力，模型可以把繁瑣的數(shù)值運算交給程序，把注意力集中在邏輯架構(gòu)上。其中最典型的是德勞內(nèi)三角剖分題（Delaunay Triangulation，一種將點集連成三角網(wǎng)格的經(jīng)典算法），加了工具之后，Claude提升56個百分點，GPT-5.2提升48個百分點——因為只需要調(diào)用一個現(xiàn)成的幾何庫函數(shù)，就能繞過模型自己完全掌握不了的外接圓推理。

然而，工具在公理推斷這一關(guān)反而帶來了輕微的負(fù)面效果。Gemini下降6.7個百分點，GPT-5.2下降4個百分點。研究團隊的解讀是：對于這類題目，模型本來憑推理就能處理，引入工具反而分散了注意力，打亂了推理節(jié)奏。

規(guī)劃這一關(guān)，工具的效果最不穩(wěn)定。Gemini因為"超級貪吃蛇"這道題（在多維網(wǎng)格里規(guī)劃蛇的路徑）大幅提升了59.3個百分點，總規(guī)劃分?jǐn)?shù)上漲23.6個百分點。但Claude和GPT-5.2在這一關(guān)加了工具反而略有下降。這說明工具能不能幫上忙，取決于問題是否能被分解成可編程的子任務(wù)，一旦問題的核心是預(yù)判物理后果或設(shè)計全局策略，工具就幫不上忙。

五、越想越多，反而越錯——計算資源的邊際遞減

研究團隊還做了一項有趣的實驗：如果給模型更多的"思考空間"（也就是更多的輸出token預(yù)算），分?jǐn)?shù)會持續(xù)提升嗎？

結(jié)果是：不會。

實驗只在公理推斷題目上進行，因為這類題目規(guī)模小，便于隔離變量。GPT-5.2的測試預(yù)算從1024個token一路增加到65536個token。在低預(yù)算階段，每增加預(yù)算，分?jǐn)?shù)提升都很顯著——從0.04一路攀升到0.76。但超過32768個token之后，分?jǐn)?shù)不再增長，甚至略微下滑到0.73。Claude Sonnet 4.5的走勢類似，在32768個token處達到0.55的頂點，之后再增加預(yù)算，分?jǐn)?shù)維持不變。

更有意思的是，相比GPT-5.2，Claude在每個預(yù)算檔位上消耗的token更多，但得分始終更低。這說明"更努力地想"并不等于"想得更好"——如果推理方法本身有問題，再多的計算資源也是白費。這就像一個方向錯了的人走路，走得越快，離目的地越遠，而不是越近。

六、AI到底是在哪里出了問題？

光知道分?jǐn)?shù)還不夠，研究團隊想搞清楚AI為什么失敗。他們對所有得分低于0.6的答案進行了事后診斷，讓另一款A(yù)I充當(dāng)獨立評審，對每一個失敗案例貼上一個標(biāo)簽，共有五種：拒絕任務(wù)（直接不答或給出空白）、偷換概念（悄悄把難題簡化成另一道題來做）、思維過載（寫了一大堆推理過程但始終沒有給出答案）、局部正確（局部邏輯無誤但整體不滿足全局約束）、差點成功（答案幾乎全對，只有一個細節(jié)出錯）。

在三款模型中，局部正確是最普遍的失敗原因，在Claude和Gemini中尤為突出，占據(jù)了失敗案例的大多數(shù)。以"兩段線"任務(wù)為例（要求在正方形邊界上放置兩條線段，把內(nèi)部分割成指定數(shù)量和形狀的多邊形），Claude能正確運用歐拉公式計算出面和邊的數(shù)量關(guān)系，在嘗試各種擺放方案時邏輯也是對的，邊界線段也滿足格式要求，但最終給出的分割方案里，有一個區(qū)域是四邊形，而題目要求的是五邊形——局部看每一步都對，但全局約束沒有被滿足。

GPT-5.2則更傾向于拒絕任務(wù)。在德勞內(nèi)三角剖分的第21題中，GPT-5.2直接判定這道題"計算上不可行"，返回了一個空的三角網(wǎng)格，而不是嘗試給出哪怕一個候選答案。

配上工具之后，這些失敗模式的分布發(fā)生了有趣的變化。GPT-5.2的拒絕比例從68%降到44%，但局部正確的比例上升了。Claude的局部正確比例從68%降到44%，但拒絕比例反而增加了三倍。Gemini的失敗分布基本沒變。無論哪款模型，局部正確始終是殘留失敗的主要原因。這說明：工具能解決部分"不會算"的問題，但無法修復(fù)"看不到全局"的根本弱點。

七、這場考試背后：空間能力為什么這么難？

看到這里，你可能會問：為什么空間推理對AI來說這么難？明明它們在很多其他任務(wù)上表現(xiàn)得那么好。

答案藏在這兩個詞里：全局約束。

局部推理對AI來說并不難。它能計算出一個三角形的三個角之和是180度，能知道兩個相鄰體素的關(guān)系，能理解一段路徑上的每一步是否合法。但真正的空間問題往往要求同時滿足多個約束，而這些約束互相影響、互相牽制，只有在腦中建立起整個環(huán)境的完整模型，才能找到一個全部約束都滿足的解。

可以用拼圖來理解這個差距。AI能很好地描述每一塊拼圖的形狀，也能判斷兩塊拼圖的邊緣是否大致吻合，但要把幾百塊拼圖在腦中同時協(xié)調(diào)，找出唯一正確的完整圖案，這種"全局視野"正是當(dāng)前AI最薄弱的地方。

這種弱點在規(guī)劃任務(wù)中尤其致命，因為規(guī)劃本質(zhì)上是一個動態(tài)的多步驟約束滿足問題——每一步都會改變下一步的約束條件，沒有全局視野，根本無從下手。

SCBench的存在意義就在于此：它不只是給AI打了一個分?jǐn)?shù)，更是精確地指出了當(dāng)前大模型在空間智能上的真實邊界，以及這條邊界背后的根本原因。正如研究團隊在結(jié)論中明確指出的，當(dāng)前最好的AI在這套考試中達到57.6%的總分，但這個數(shù)字背后是一個明顯的能力梯度，從公理推斷到構(gòu)造合成再到規(guī)劃，分?jǐn)?shù)單調(diào)下降，沒有任何例外。

說到底，這份研究告訴我們的是：AI的聰明是有邊界的，而這條邊界，恰好劃在"把整個世界裝進腦子里，然后在約束下做出完整計劃"這件事上。流體模擬中那些能挖個簡單盆地的題目，AI還能應(yīng)付；但要它預(yù)判爆炸后巖石的滾動路徑，或者設(shè)計一個真正能拼成球形的樂高方案，它就完全束手無策了。這不是算力不夠，而是推理方式本身的局限。

未來的研究方向在于將這類測試擴展到多輪對話、自我糾錯和主動使用工具的場景，讓AI不只是在單次嘗試中回答問題，而是能像真正的工程師一樣迭代、驗證、修正自己的方案。那時候，空間能力的邊界或許才會真正開始移動。有興趣深入了解這套測試的細節(jié)和全部22道題的規(guī)格，可以在arXiv上搜索編號2604.09594查閱完整論文。

Q&A

Q1：SCBench和其他AI空間推理測試有什么本質(zhì)區(qū)別？

A：SCBench要求AI直接輸出可執(zhí)行的答案，比如具體坐標(biāo)或操作序列，然后由程序自動驗證。大多數(shù)現(xiàn)有測試是選擇題或問答題，只考感知和識別，而SCBench考的是在全局約束下構(gòu)造和規(guī)劃，更接近真實世界中工程師或設(shè)計師需要完成的任務(wù)。

Q2：給AI配上代碼工具之后，SCBench的得分能提升多少？

A：配上Python代碼解釋器和網(wǎng)絡(luò)搜索之后，整體提升有限。在構(gòu)造合成類題目中提升最明顯，GPT-5.2提升了15個百分點，主要原因是可以調(diào)用現(xiàn)成幾何庫繞過手工推理。但在公理推斷題上工具反而輕微拖累了成績，在規(guī)劃題上效果也不穩(wěn)定，因為局部正確的失敗模式靠工具無法根本解決。

Q3：SCBench里最難的題目是什么，AI為什么完全解不出來？

A：地形爆破題和樂高半球題是所有模型都得零分的題目。地形爆破要求AI預(yù)判物理引擎模擬出的巖石滾動結(jié)果，這超出了語言模型的推理能力范圍。樂高半球題則要同時滿足球形近似、積木咬合、結(jié)構(gòu)穩(wěn)定等多個工程約束，這類需要全局協(xié)調(diào)的三維構(gòu)造任務(wù)是當(dāng)前大模型最根本的弱點所在。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.