国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

獨立研究者與Maptek公司攜手打造:AI真的會"看地圖"嗎?

0
分享至


這項由獨立研究者與澳大利亞礦業(yè)技術(shù)公司Maptek聯(lián)合開展的研究,發(fā)表于2026年ICLR(國際學(xué)習(xí)表征會議)高效空間推理研討會,論文編號為arXiv:2604.09594,提交時間為2026年3月5日。有興趣深入了解的讀者可以通過該編號在arXiv平臺查詢完整論文。

你可能覺得,那些能寫代碼、會解數(shù)學(xué)題、還能聊天的大型AI模型,應(yīng)該也擅長空間感這類事情吧?畢竟它們處理過海量圖像和文字,理解三維空間對它們來說應(yīng)該不在話下。然而,當(dāng)研究團隊設(shè)計了一套真正考驗"空間直覺"的題目之后,三款當(dāng)前最頂尖的AI模型——Claude Sonnet 4.5、Gemini 3 Pro Preview和GPT-5.2——的表現(xiàn)讓人大跌眼鏡。最好的成績也不過剛剛超過一半的正確率,而且越往深處考,越接近零分。

這套考試叫做SCBench,也就是空間能力基準(zhǔn)測試(Spatial Competence Benchmark)。它不是那種"這兩個形狀哪個更大"的選擇題,而是要求AI直接輸出可運行的坐標(biāo)、邊集合或操作序列,然后由程序自動判卷——沒有模糊地帶,答案對就是對,錯就是錯。這份考卷的誕生,是因為研究者發(fā)現(xiàn):現(xiàn)有的AI空間測試太表面了,只考了皮毛,沒有觸及真正的空間推理核心。

一、為什么AI的"空間感"很難測?

要理解這份考卷有多特別,先得搞清楚"空間能力"究竟是什么。

把空間能力想象成一個人在腦子里搭樂高的本事。不是看著說明書照搬,而是要在腦海里構(gòu)建一個環(huán)境的完整模型,然后用這個模型來推斷規(guī)律、做出決策。比如,一個經(jīng)驗豐富的倉庫管理員能在腦海中規(guī)劃出最高效的貨物擺放方式;一位外科醫(yī)生能在操刀前就在腦中完整模擬手術(shù)路徑;一個下棋高手能提前預(yù)見十幾步的棋局變化。這種能力的核心是兩點:一是維持一個連貫的內(nèi)部模型,二是用這個模型在約束條件下推理和規(guī)劃。

現(xiàn)有的AI空間測試大多停留在表面。它們通常是選擇題或問答題,比如"這個物體旋轉(zhuǎn)90度后是什么樣子",或者"圖中哪個物體更靠近鏡頭"。這類題目考的是感知和識別,但真正的空間推理需要的是構(gòu)建、驗證和在約束下求解——就像考試的區(qū)別在于,一種是認(rèn)出樂高零件叫什么名字,另一種是把它們真正拼成指定的形狀。

SCBench的設(shè)計思路從根本上不同。每道題都要求AI輸出一個可執(zhí)行的答案——具體的坐標(biāo)、完整的路徑序列、精確的幾何結(jié)構(gòu)——然后由程序直接運行這個答案,檢驗它是否滿足所有條件。這就好比不是問廚師"你會做紅燒肉嗎",而是直接讓他做出來,端上桌驗收。

二、三關(guān)大考:從識字到寫作文

SCBench把空間能力分成了三個層次,研究團隊把它們叫做"能力階梯",就像武術(shù)的初、中、高段位。

第一個層次叫做公理推斷,考的是從規(guī)則出發(fā)推導(dǎo)出精確結(jié)構(gòu)的能力。這類題目就像數(shù)學(xué)里的邏輯推理:給定一組條件,推斷出必然成立的結(jié)論。其中一道題是這樣的——把一個正方形的四個角分別標(biāo)上數(shù)字(代表不同的"類別"),根據(jù)這些標(biāo)記,枚舉出哪些邊上一定存在類別分界線。另一道題更復(fù)雜:給你一棵描述"遞歸二分"的樹(想象把一個正方形不斷對折,每次沿不同的軸),然后指出某個目標(biāo)小格子的所有鄰居是哪些。這些題目看起來像紙上的數(shù)學(xué)游戲,但要做對,AI必須在腦中構(gòu)建出完整的拓?fù)浣Y(jié)構(gòu),而不是靠記憶或猜測。

第二個層次叫做構(gòu)造合成,要求AI輸出滿足全局約束的幾何對象。這就像不只是說"我知道怎么搭橋",而是要真的給出一份能通過工程檢驗的設(shè)計圖。這里有一道極有代表性的題:在一個三維網(wǎng)格空間里擺放一批體素(可以理解成三維版本的像素,每個是一個小立方體),要求無論從正面、側(cè)面還是頂面看,投影都完全填滿,同時整個結(jié)構(gòu)不能有任何旋轉(zhuǎn)對稱性。這兩個條件單獨來看都容易滿足,合在一起就非常棘手,因為一旦你為了填滿投影而添加體素,往往就不小心制造出了對稱性,反之亦然。還有一道題要求用標(biāo)準(zhǔn)樂高積木拼出半球形殼體,不僅要近似球形,積木之間還必須真正能咬合,不能懸空,整體不能倒塌——這道題所有模型的得分都是零,堪稱全場最難的題目。

第三個層次叫做規(guī)劃,也是最高難度。這類題目需要設(shè)計一個多步驟的操作序列,而且每一步都會改變環(huán)境狀態(tài),影響下一步的可行選項。判分不看過程,只看最終模擬結(jié)果。其中最直觀的一道題是"流體模擬":給你一個三維體素世界,初始是一片平坦的巖石地面,要求你通過添加或刪除巖石,使得從上方降雨后,水會積成特定形狀的湖泊。例如,要求形成三個在不同高度的獨立水體,或者形成一個環(huán)形湖泊(中間有一塊高地是干燥的)。還有一道題叫"地形爆破":給你一張起伏的地形高度圖,通過規(guī)劃一系列爆破操作,讓巖石碎裂滾動后,形成盡可能大的平整區(qū)域用于建城——而且爆破后的巖石去向由物理引擎(PyBullet)模擬,AI無法預(yù)先查詢,必須憑空間直覺預(yù)判。這道題所有模型全部得零分。

三、頂尖AI的成績單:越往上越慘

測試結(jié)果非常清晰地呈現(xiàn)出一條下降曲線,仿佛三個學(xué)生同時參加了從初中到博士的連續(xù)考試。

在公理推斷這一關(guān),Gemini 3 Pro Preview得了81.3分(滿分100),GPT-5.2得了74.7分,Claude Sonnet 4.5得了49.3分。這個成績算是及格,說明這幾款模型對基礎(chǔ)的拓?fù)浜蛶缀我?guī)則有一定理解。

到了構(gòu)造合成這一關(guān),三款模型的分?jǐn)?shù)都大幅滑落。Claude跌至30.2,Gemini和GPT-5.2分別是51.4和51.9——也就是說,連最好的模型也只答對了大約一半。在具體題目上,差異更為懸殊。樂高半球題三款模型全部得零,最難的"最大可3D打印質(zhì)數(shù)"題也是全部得零。相比之下,"隱藏與尋找"題(把一群人藏在建筑物后讓狙擊手看不見)和"矩形打包"題中,部分模型還能拿到相當(dāng)高分,說明問題結(jié)構(gòu)比較規(guī)整時,模型的表現(xiàn)就會好很多。

規(guī)劃這一關(guān),Claude只得到27.5,Gemini得39,GPT-5.2得50。流體模擬中的幾道較簡單的題(比如只需要挖一個盆地截住水流)各模型還能拿到不錯的分?jǐn)?shù),其中GPT-5.2在這道題上甚至得滿分。但地形爆破題,沒有任何模型能得分,因為這道題要求模型預(yù)判物理模擬的結(jié)果,而這是目前AI完全無法憑語言推理完成的任務(wù)。

綜合下來,Gemini和GPT-5.2總分并列,都是57.6分,Claude只有34.9分。三款模型的成績都遵循同一個規(guī)律:公理推斷最好,構(gòu)造合成次之,規(guī)劃最差。這個規(guī)律不是某款模型的特有弱點,而是所有模型共同面對的能力上限。

四、給AI配上工具,會好一些嗎?

研究團隊還做了一組對比實驗:給這三款模型配上工具——具體來說是Python代碼解釋器和網(wǎng)絡(luò)搜索。有了這些工具,模型可以真正運行代碼來做計算,而不只是靠推理。

結(jié)論是:工具有幫助,但幫助是有條件的。

在構(gòu)造合成這一關(guān),工具的幫助最明顯。Claude提升4.3個百分點,Gemini提升12.3個百分點,GPT-5.2提升15個百分點。原因很直觀:這類題目需要大量坐標(biāo)計算,有了代碼執(zhí)行能力,模型可以把繁瑣的數(shù)值運算交給程序,把注意力集中在邏輯架構(gòu)上。其中最典型的是德勞內(nèi)三角剖分題(Delaunay Triangulation,一種將點集連成三角網(wǎng)格的經(jīng)典算法),加了工具之后,Claude提升56個百分點,GPT-5.2提升48個百分點——因為只需要調(diào)用一個現(xiàn)成的幾何庫函數(shù),就能繞過模型自己完全掌握不了的外接圓推理。

然而,工具在公理推斷這一關(guān)反而帶來了輕微的負(fù)面效果。Gemini下降6.7個百分點,GPT-5.2下降4個百分點。研究團隊的解讀是:對于這類題目,模型本來憑推理就能處理,引入工具反而分散了注意力,打亂了推理節(jié)奏。

規(guī)劃這一關(guān),工具的效果最不穩(wěn)定。Gemini因為"超級貪吃蛇"這道題(在多維網(wǎng)格里規(guī)劃蛇的路徑)大幅提升了59.3個百分點,總規(guī)劃分?jǐn)?shù)上漲23.6個百分點。但Claude和GPT-5.2在這一關(guān)加了工具反而略有下降。這說明工具能不能幫上忙,取決于問題是否能被分解成可編程的子任務(wù),一旦問題的核心是預(yù)判物理后果或設(shè)計全局策略,工具就幫不上忙。

五、越想越多,反而越錯——計算資源的邊際遞減

研究團隊還做了一項有趣的實驗:如果給模型更多的"思考空間"(也就是更多的輸出token預(yù)算),分?jǐn)?shù)會持續(xù)提升嗎?

結(jié)果是:不會。

實驗只在公理推斷題目上進行,因為這類題目規(guī)模小,便于隔離變量。GPT-5.2的測試預(yù)算從1024個token一路增加到65536個token。在低預(yù)算階段,每增加預(yù)算,分?jǐn)?shù)提升都很顯著——從0.04一路攀升到0.76。但超過32768個token之后,分?jǐn)?shù)不再增長,甚至略微下滑到0.73。Claude Sonnet 4.5的走勢類似,在32768個token處達到0.55的頂點,之后再增加預(yù)算,分?jǐn)?shù)維持不變。

更有意思的是,相比GPT-5.2,Claude在每個預(yù)算檔位上消耗的token更多,但得分始終更低。這說明"更努力地想"并不等于"想得更好"——如果推理方法本身有問題,再多的計算資源也是白費。這就像一個方向錯了的人走路,走得越快,離目的地越遠,而不是越近。

六、AI到底是在哪里出了問題?

光知道分?jǐn)?shù)還不夠,研究團隊想搞清楚AI為什么失敗。他們對所有得分低于0.6的答案進行了事后診斷,讓另一款A(yù)I充當(dāng)獨立評審,對每一個失敗案例貼上一個標(biāo)簽,共有五種:拒絕任務(wù)(直接不答或給出空白)、偷換概念(悄悄把難題簡化成另一道題來做)、思維過載(寫了一大堆推理過程但始終沒有給出答案)、局部正確(局部邏輯無誤但整體不滿足全局約束)、差點成功(答案幾乎全對,只有一個細節(jié)出錯)。

在三款模型中,局部正確是最普遍的失敗原因,在Claude和Gemini中尤為突出,占據(jù)了失敗案例的大多數(shù)。以"兩段線"任務(wù)為例(要求在正方形邊界上放置兩條線段,把內(nèi)部分割成指定數(shù)量和形狀的多邊形),Claude能正確運用歐拉公式計算出面和邊的數(shù)量關(guān)系,在嘗試各種擺放方案時邏輯也是對的,邊界線段也滿足格式要求,但最終給出的分割方案里,有一個區(qū)域是四邊形,而題目要求的是五邊形——局部看每一步都對,但全局約束沒有被滿足。

GPT-5.2則更傾向于拒絕任務(wù)。在德勞內(nèi)三角剖分的第21題中,GPT-5.2直接判定這道題"計算上不可行",返回了一個空的三角網(wǎng)格,而不是嘗試給出哪怕一個候選答案。

配上工具之后,這些失敗模式的分布發(fā)生了有趣的變化。GPT-5.2的拒絕比例從68%降到44%,但局部正確的比例上升了。Claude的局部正確比例從68%降到44%,但拒絕比例反而增加了三倍。Gemini的失敗分布基本沒變。無論哪款模型,局部正確始終是殘留失敗的主要原因。這說明:工具能解決部分"不會算"的問題,但無法修復(fù)"看不到全局"的根本弱點。

七、這場考試背后:空間能力為什么這么難?

看到這里,你可能會問:為什么空間推理對AI來說這么難?明明它們在很多其他任務(wù)上表現(xiàn)得那么好。

答案藏在這兩個詞里:全局約束。

局部推理對AI來說并不難。它能計算出一個三角形的三個角之和是180度,能知道兩個相鄰體素的關(guān)系,能理解一段路徑上的每一步是否合法。但真正的空間問題往往要求同時滿足多個約束,而這些約束互相影響、互相牽制,只有在腦中建立起整個環(huán)境的完整模型,才能找到一個全部約束都滿足的解。

可以用拼圖來理解這個差距。AI能很好地描述每一塊拼圖的形狀,也能判斷兩塊拼圖的邊緣是否大致吻合,但要把幾百塊拼圖在腦中同時協(xié)調(diào),找出唯一正確的完整圖案,這種"全局視野"正是當(dāng)前AI最薄弱的地方。

這種弱點在規(guī)劃任務(wù)中尤其致命,因為規(guī)劃本質(zhì)上是一個動態(tài)的多步驟約束滿足問題——每一步都會改變下一步的約束條件,沒有全局視野,根本無從下手。

SCBench的存在意義就在于此:它不只是給AI打了一個分?jǐn)?shù),更是精確地指出了當(dāng)前大模型在空間智能上的真實邊界,以及這條邊界背后的根本原因。正如研究團隊在結(jié)論中明確指出的,當(dāng)前最好的AI在這套考試中達到57.6%的總分,但這個數(shù)字背后是一個明顯的能力梯度,從公理推斷到構(gòu)造合成再到規(guī)劃,分?jǐn)?shù)單調(diào)下降,沒有任何例外。

說到底,這份研究告訴我們的是:AI的聰明是有邊界的,而這條邊界,恰好劃在"把整個世界裝進腦子里,然后在約束下做出完整計劃"這件事上。流體模擬中那些能挖個簡單盆地的題目,AI還能應(yīng)付;但要它預(yù)判爆炸后巖石的滾動路徑,或者設(shè)計一個真正能拼成球形的樂高方案,它就完全束手無策了。這不是算力不夠,而是推理方式本身的局限。

未來的研究方向在于將這類測試擴展到多輪對話、自我糾錯和主動使用工具的場景,讓AI不只是在單次嘗試中回答問題,而是能像真正的工程師一樣迭代、驗證、修正自己的方案。那時候,空間能力的邊界或許才會真正開始移動。有興趣深入了解這套測試的細節(jié)和全部22道題的規(guī)格,可以在arXiv上搜索編號2604.09594查閱完整論文。

Q&A

Q1:SCBench和其他AI空間推理測試有什么本質(zhì)區(qū)別?

A:SCBench要求AI直接輸出可執(zhí)行的答案,比如具體坐標(biāo)或操作序列,然后由程序自動驗證。大多數(shù)現(xiàn)有測試是選擇題或問答題,只考感知和識別,而SCBench考的是在全局約束下構(gòu)造和規(guī)劃,更接近真實世界中工程師或設(shè)計師需要完成的任務(wù)。

Q2:給AI配上代碼工具之后,SCBench的得分能提升多少?

A:配上Python代碼解釋器和網(wǎng)絡(luò)搜索之后,整體提升有限。在構(gòu)造合成類題目中提升最明顯,GPT-5.2提升了15個百分點,主要原因是可以調(diào)用現(xiàn)成幾何庫繞過手工推理。但在公理推斷題上工具反而輕微拖累了成績,在規(guī)劃題上效果也不穩(wěn)定,因為局部正確的失敗模式靠工具無法根本解決。

Q3:SCBench里最難的題目是什么,AI為什么完全解不出來?

A:地形爆破題和樂高半球題是所有模型都得零分的題目。地形爆破要求AI預(yù)判物理引擎模擬出的巖石滾動結(jié)果,這超出了語言模型的推理能力范圍。樂高半球題則要同時滿足球形近似、積木咬合、結(jié)構(gòu)穩(wěn)定等多個工程約束,這類需要全局協(xié)調(diào)的三維構(gòu)造任務(wù)是當(dāng)前大模型最根本的弱點所在。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個錯誤

50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個錯誤

垚垚分享健康
2026-04-28 11:15:14
隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強對陣出爐

隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強對陣出爐

側(cè)身凌空斬
2026-04-28 05:28:25
中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

海洋知圈
2026-04-27 21:39:53
警惕經(jīng)濟的“無就業(yè)增長”

警惕經(jīng)濟的“無就業(yè)增長”

沈素明
2026-04-28 07:23:38
《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個好老婆很重要

魯中晨報
2026-04-28 09:53:07
伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

桂系007
2026-04-27 23:59:53
名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

懂球帝
2026-04-28 09:32:05
戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

東方不敗然多多
2026-04-23 10:37:33
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆??!

互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆??!

BenSir本色說
2026-04-15 22:38:07
放棄克洛普!皇馬換帥突生變數(shù),伯納烏或?qū)⒂瓉怼白约胰?>
    </a>
        <h3>
      <a href=奶蓋熊本熊
2026-04-29 00:05:53
600678,將被“ST”!

600678,將被“ST”!

中國基金報
2026-04-28 23:15:48
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達跌超1%。

財聯(lián)社
2026-04-29 04:08:08
新娘確實漂亮,但我更喜歡戴眼鏡那個。

新娘確實漂亮,但我更喜歡戴眼鏡那個。

動物奇奇怪怪
2026-04-12 12:44:36
三連鞭后五連鞭,趙心童3:5墨菲暫時落后

三連鞭后五連鞭,趙心童3:5墨菲暫時落后

佳佳說奇事故事
2026-04-29 03:43:45
林志玲自曝和公婆住一起:換了一個比較大的房子,老公每天傍晚準(zhǔn)時回家,陪兒子一起吃飯

林志玲自曝和公婆住一起:換了一個比較大的房子,老公每天傍晚準(zhǔn)時回家,陪兒子一起吃飯

臺州交通廣播
2026-04-28 13:46:36
鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

21世紀(jì)經(jīng)濟報道
2026-04-28 22:55:26
動真格了,國安部出手,揪出鼓吹躺平的境外勢力,評論區(qū)意味深長

動真格了,國安部出手,揪出鼓吹躺平的境外勢力,評論區(qū)意味深長

譚談社會
2026-04-28 15:10:51
7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

矚望云霄
2026-04-28 13:04:41
廣東男籃主場17分負(fù)廣州,杜鋒難受,正義必勝!

廣東男籃主場17分負(fù)廣州,杜鋒難受,正義必勝!

二爺臺球解說
2026-04-29 03:36:39
跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

馬拉松跑步健身
2026-04-26 21:41:40
2026-04-29 04:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財經(jīng)要聞

中央政治局會議定調(diào),八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

家居
數(shù)碼
藝術(shù)
房產(chǎn)
親子

家居要聞

江景風(fēng)格 流動的秩序

數(shù)碼要聞

機械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預(yù)約

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國第一民企落子民營大??!

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4??!

親子要聞

拍這期視頻時眼淚止不住地流

無障礙瀏覽 進入關(guān)懷版