国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李曼玲、李飛飛團隊頂會新作:給大模型測「空間智商」

0
分享至



1. 真正的高級智能,在于認知自己的 “無知”

如果把當下最強的大模型(如 GPT-5.2、Gemini-3 Pro)丟進一個從未去過的虛擬房間,讓它自己探索并構建地圖,它能做到嗎?

一直以來,我們評估多模態(tài)大模型的標準就像是 “開卷考試”:給一張靜態(tài)圖片,問圖里有什么。在這樣的標尺下,AI 似乎已經(jīng)無所不能。然而,在真實的物理世界中,無論是家庭服務機器人還是自動駕駛汽車,面臨的都是部分可觀測(Partial Observability)的未知環(huán)境。

人類在探索未知時,展現(xiàn)出了極高的 “空間智商”:當你發(fā)現(xiàn)視野有盲區(qū)時,你的大腦會自動預測背后的 “不確定性(Uncertainty)”,并驅(qū)使你走上前去一探究竟,從而高效地獲取信息(Information Gain)。

為了探究 AI 是否具備這種人類級別的高階能力,西北大學李曼玲團隊、斯坦福大學李飛飛與吳佳俊團隊,以及華盛頓大學 Ranjay Krishna 團隊,共同提出了一項針對基礎模型的“空間智商測試”—— 空間理論 (Theory of Space)



Theory of Space:主動探索,信念探測以及任務評估。左側展示智能體在多房間局部觀測下的軌跡俯視圖;中間呈現(xiàn)其在文本或視覺環(huán)境中的 “移動 - 旋轉 - 觀測” 閉環(huán),通過第一人稱觀測實時更新內(nèi)部信念;右側則通過空間任務及認知地圖探測,對信念的利用與表征進行深度評估。

該研究指出,衡量具身大模型的真正試金石,不在于它能否機械地回答 “看到” 了什么,而在于它能否主動預測并消除環(huán)境中的 “不確定性”。這才是通向通用人工智能(AGI)的必經(jīng)之路。



  • 論文標題:Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
  • 論文鏈接: https://arxiv.org/abs/2602.07055
  • 代碼: https://github.com/mll-lab-nu/Theory-of-Space
  • 項目主頁: https://theory-of-space.github.io/
  • 數(shù)據(jù)集: https://huggingface.co/datasets/MLL-Lab/tos-data

2. 一場史無前例的 “空間 IQ 大考”

為了全方位、無死角地測量大模型的空間智商,研究團隊精心打造了一個基于程序的 “多模態(tài)平行測試宇宙”。這個宇宙同時包含了象征純粹邏輯推理的純文本房間,以及基于 ThreeDWorld 引擎渲染的視覺房間。

模型只被賦予了幾項最基礎的本能動作:“移動”、“多角度旋轉” 和 “就地觀察”。它必須像一個真正的勘探者一樣,在有限的試錯成本下,自主規(guī)劃探測路徑,并判斷何時已經(jīng)獲取了足夠的信息來終止探索。

為了層層剝開 AI 空間認知的底色,這一測試系統(tǒng)從三大核心維度對其展開了步步緊逼的 “拷問”:

  • 尋找未知(Construct): 面對 “盲人摸象” 般的局部碎片視野和極具挑戰(zhàn)的 3D 渲染光影,模型能否克服感知迷霧,主動、高效地搜集信息,在腦海里無縫連結出一張全局的 “認知地圖”?
  • 敏銳糾錯(Revise): 如果視線之外的房間格局被暗中調(diào)換(這對動態(tài)物理世界再常見不過),模型在重新路過時能否立刻警覺,并果斷修改大腦里的舊數(shù)據(jù)?
  • 高階推演(Exploit): 建好地圖不是終點,關鍵在于能否經(jīng)受住應用層面的極致考驗。研究團隊精心設計了 9 大核心空間推理任務,既有考察第一人稱代入感的 “路線級推理(Route-level)”(如視角轉換、根據(jù)連續(xù)動作推演最終視野),也有高度抽象的 “全局級推理(Survey-level)”(如挑戰(zhàn)腦海里的 360 度動態(tài)心智旋轉、構建上帝視角的絕對坐標構圖)。



任務套件總覽圖

給大腦做 “X 光透視”:認知地圖顯探測

過去的研究往往只能通過動作對錯來猜測 AI 的思路。而在 Theory of Space 中,研究團隊創(chuàng)造性地引入了 “認知地圖顯式探測(Cognitive Map Probing)” 機制

在模型每走一步時,都強制要求它以 JSON 格式默寫出腦海中的虛擬地圖分布,甚至直接在地圖上選出 “尚未探索過的盲區(qū)”。這使得 AI 對不確定性的建模過程徹底透明化!



3. 成績單出爐:面對不確定性,基礎模型四大底層缺陷盡顯

研究團隊將 GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet, GLM-4.6V, Qwen3-VL 等主流大模型送入考場。結果令人震撼:當 AI 面臨 “自主求解不確定性” 的任務時,看似強大的它們集體迷失,暴露出令人擔憂的四大深層病理。

缺陷一:毫無章法的試錯陷阱,主動探索得分暴跌

為了設立標尺,研究者先用了一個 “策略腳本代理(Proxy Agent)” 去執(zhí)行探索,也就是被動探索模式,發(fā)現(xiàn)只需平均約 9 步就能完全掌控整個房間結構;而大模型自主行動時,卻往往耗費 14 到 20 步以上,并且不停地在已安全觀測的區(qū)域里打轉。



這種 “無頭蒼蠅” 式的探索,導致最終構建的地圖質(zhì)量嚴重受損。例如,面對同樣的視覺宇宙,GPT-5.2 的動作準確率從被動接收信息的 57.1% 大幅下滑至主動探索的僅 46.0%。

癥結在于:大模型無法形成一種高效、有條理的探索策略,并且不能很好地感知自身知識的邊界,無法非常有效地標出哪些區(qū)域是未知的。



任務準確率 vs. 主動探索開銷,灰圖標代表被動探索模式



視覺模態(tài)下,主動探索與被動探索存在鴻溝

缺陷二:脆弱的記憶與 “信念漂移”

通過給大模型做 “認知透視”,研究者發(fā)現(xiàn)其內(nèi)部的空間信念呈現(xiàn)出極強的脆弱性。模型可能在第一眼準確記住了一個沙發(fā)的坐標,但隨著它轉身去探索另一側的門,先前對沙發(fā)的 “信念” 就會迅速退化模糊,甚至被稍后收到的無關信息無端覆蓋。這種無法維持長效、穩(wěn)定認知地圖的缺陷,被稱為極其致命的“信念漂移”。

缺陷三:細思極恐的 “信念慣性(Belief Inertia)”

在 “糾錯” 能力的測試中,研究人員復刻了心理學著名的 “錯誤信念” 實驗:等模型探索完一圈后,悄悄挪動了幾個關鍵物體的位置或朝向。

極其具有戲劇性的一幕出現(xiàn)了:當大模型再次路過并親眼看到物體已經(jīng)不在原地時,它對物體位置的預測,居然仍固執(zhí)地偏向了老地方!數(shù)據(jù)顯示,GPT-5.2 在視覺模型中的 “信念慣性” 高達 68.9%。這說明當前的 AI 缺乏認知可塑性,極難用眼前的視覺新證據(jù)去推翻腦海中陳舊的語言先驗。



缺陷四:難以跨越的 “模態(tài)鴻溝(Modality Gap)”

最終的統(tǒng)計數(shù)據(jù)指出了一條鴻溝:模型雖然在純文本構建的虛擬房間中表現(xiàn)尚可(得益于長文本里強大的符號與語言邏輯),但一旦進入基于 3D 渲染的視覺世界(Vision World),面對必須依靠像素感知來推斷深度的雙重壓力,得分直線下滑。

形成鮮明對比的是,人類在相同的視覺測試中,即使面對復雜布局,借助簡單的工具也能輕松達到 99.0% 的超高準確率??傮w來看,AI 在這方面仍與人類存在明顯差距。



主動探索下視覺與文本存在巨大性能落差

4. 邁向下一代具身智能:從 “死記硬背” 到構建 “世界模型”

Theory of Space 這場大考絕不只是單純的找茬挑刺,它更像是一份詳盡的診斷書,指出了當下大模型在走向真實場景(如家用機器人、自動駕駛)時,亟待填補的能力空白。要孕育出真正能在復雜現(xiàn)實中自如穿梭的通用人工智能(AGI),未來的研究必須在以下方向?qū)で蟾拘酝黄疲?/p>

突破一:培育具有強可塑性的 “空間長時記憶”

現(xiàn)有的多模態(tài)模型一旦轉移視線,記憶往往如流沙般流失(信念漂移);亦或是對陳舊的先驗固執(zhí)己見(信念慣性)。未來的 AI 需要構建類似人類海馬體般靈活的回溯機制,既能穩(wěn)固地鎖定絕對空間結構,又能根據(jù)即時的視覺線索精準剔除 “過期報廢” 的錯誤記憶。

突破二:引入內(nèi)在 “好奇心” 驅(qū)動的強化探索

當前的 AI 大部分仍處于 “你提問、我回答” 的被動反應模式中。而破局的關鍵,在于引入對 “不確定性” 的感知與博弈(Uncertainty-Awareness)。智能體應當能夠主動評估哪些區(qū)域存在信息盲區(qū),在內(nèi)在 “好奇心” 的獎勵驅(qū)動下,規(guī)劃出信息增益最大化的探測軌跡。

突破三:真正擁抱 3D 物理法則的 “世界模型(World Models)”

如今的視覺語言模型依舊停留在 2D 像素層面的表面模式匹配,并未真正理解真實三維空間中的幾何剛體法則。一個強大的 “世界模型” 不僅僅是一張扁平的數(shù)據(jù)表,它應該天然內(nèi)蘊了物體的恒存性特征、視角變換間的物理恒等式。只有當大模型能夠閉上眼睛,在腦海里無縫推演 “我向前走兩步再右轉最終會看到什么” 時,它才算真正獲得了通關物理世界的通行證。

學會認知自身盲區(qū),并主動向不確定性出擊。這場以 “空間 IQ” 為坐標的試煉,徹底穿透了常規(guī)刷題基準下大模型虛增的表面分數(shù)。預測未知,擁抱未知,這不僅是具身大模型打破瓶頸的起點,更是未來 AGI 構筑真實物理世界閉環(huán)的必由之路。

(本研究已被 ICLR 2026 接收為錄用論文,歡迎訪問項目主頁獲取完整的論文、代碼與數(shù)據(jù)集。)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這些“不吉祥花”,養(yǎng)在家里“花旺人不旺”,別再把它們當作寶了

這些“不吉祥花”,養(yǎng)在家里“花旺人不旺”,別再把它們當作寶了

三農(nóng)老歷
2026-02-22 19:23:10
江西母女喝了3瓶牛奶,被老公數(shù)落2小時,眼神太嚇人,網(wǎng)友炸鍋

江西母女喝了3瓶牛奶,被老公數(shù)落2小時,眼神太嚇人,網(wǎng)友炸鍋

青梅侃史啊
2026-03-08 07:18:01
就在今晚,即將大漲!!

就在今晚,即將大漲?。?/a>

錫城頭條
2026-03-09 17:16:59
伊朗導彈擊中以色列中部致2人死

伊朗導彈擊中以色列中部致2人死

財聯(lián)社
2026-03-09 19:23:08
總進球數(shù)占優(yōu),烏茲別克斯坦女足壓過菲律賓率先出線

總進球數(shù)占優(yōu),烏茲別克斯坦女足壓過菲律賓率先出線

懂球帝
2026-03-09 19:54:04
業(yè)主狂喜!昆明這個小區(qū)物業(yè)直接給業(yè)主發(fā)42萬!還“曬”出了收益賬單!

業(yè)主狂喜!昆明這個小區(qū)物業(yè)直接給業(yè)主發(fā)42萬!還“曬”出了收益賬單!

都市條形碼
2026-03-09 14:01:05
女子談釋永信過往,她們姐妹住少林寺3天2夜,爭著往釋永信房間跑

女子談釋永信過往,她們姐妹住少林寺3天2夜,爭著往釋永信房間跑

江山揮筆
2025-07-29 16:50:59
昨日因果昨日了!這次潘粵明和董潔聯(lián)手,給離異夫妻上了生動一課

昨日因果昨日了!這次潘粵明和董潔聯(lián)手,給離異夫妻上了生動一課

八斗小先生
2026-03-09 11:51:27
湯鎮(zhèn)業(yè)現(xiàn)狀:住青島20年,直言比香港好太多,如今一家8口很幸福

湯鎮(zhèn)業(yè)現(xiàn)狀:住青島20年,直言比香港好太多,如今一家8口很幸福

白面書誏
2026-03-09 15:16:43
韓國隊贏球做局,送中國女足進死亡半?yún)^(qū),進決賽須碰3次亞洲前5

韓國隊贏球做局,送中國女足進死亡半?yún)^(qū),進決賽須碰3次亞洲前5

阿釗是個小小評論員
2026-03-09 11:12:01
Hims & Hers Health美股盤前一度漲逾55%

Hims & Hers Health美股盤前一度漲逾55%

每日經(jīng)濟新聞
2026-03-09 19:18:05
基因、權力、藥物:特朗普80歲的身體,咋就這么能折騰?

基因、權力、藥物:特朗普80歲的身體,咋就這么能折騰?

熱辣茉莉說
2026-03-09 15:17:48
董璇在北京豪宅待客,滿墻泡泡瑪特、超大客廳!小酒窩親手備禮物

董璇在北京豪宅待客,滿墻泡泡瑪特、超大客廳!小酒窩親手備禮物

TVB的四小花
2026-03-09 11:45:41
訂單數(shù)十萬輛震驚世界,如今銷量暴跌,原形畢露了!

訂單數(shù)十萬輛震驚世界,如今銷量暴跌,原形畢露了!

柏銘銳談
2026-03-08 23:28:38
再恩愛也沒用!上海38歲陳成去世,煙酒不沾,死因曝光,妻兒悲痛

再恩愛也沒用!上海38歲陳成去世,煙酒不沾,死因曝光,妻兒悲痛

八斗小先生
2026-03-09 15:16:02
A股:收盤后,傳來一個消息,明天,周二或要這樣走了!

A股:收盤后,傳來一個消息,明天,周二或要這樣走了!

明心
2026-03-09 16:36:34
伊朗戰(zhàn)術奏效了,再對林肯號航母發(fā)射導彈,這個武器成美軍數(shù)學題

伊朗戰(zhàn)術奏效了,再對林肯號航母發(fā)射導彈,這個武器成美軍數(shù)學題

書紀文譚
2026-03-07 15:19:19
巴甲隊火爆群毆!海港舊將遭飛踹后揮拳反擊 中斷10分鐘+無人染紅

巴甲隊火爆群毆!海港舊將遭飛踹后揮拳反擊 中斷10分鐘+無人染紅

我愛英超
2026-03-09 09:31:04
別再造謠封鎖了!霍爾木茲停擺,真兇是七家保險公司的一紙函

別再造謠封鎖了!霍爾木茲停擺,真兇是七家保險公司的一紙函

老馬拉車莫少裝
2026-03-09 19:19:45
娶個外國媳婦是種什么樣的體驗?網(wǎng)友:體味比較重

娶個外國媳婦是種什么樣的體驗?網(wǎng)友:體味比較重

夜深愛雜談
2026-03-09 20:51:20
2026-03-09 21:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12451文章數(shù) 142579關注度
往期回顧 全部

科技要聞

OpenClaw更新,"養(yǎng)蝦"再也不會犯健忘癥了

頭條要聞

媒體:特朗普失算了 接班的穆杰塔巴比父親更強硬

頭條要聞

媒體:特朗普失算了 接班的穆杰塔巴比父親更強硬

體育要聞

36連勝終結!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認!與26歲新歡共度良宵

財經(jīng)要聞

油價破100美元年內(nèi)漲80% 全球市場劇震

汽車要聞

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

本地
數(shù)碼
時尚
健康
軍事航空

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

數(shù)碼要聞

長虹首款金標電視來了:電視歷史上最昂貴的標牌

春天穿夾克,短一些的更帥氣!

轉頭就暈的耳石癥,能開車上班嗎?

軍事要聞

伊媒發(fā)布小學被炸瞬間 戰(zhàn)斧導彈從天而降

無障礙瀏覽 進入關懷版