国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛李曼玲團隊發(fā)布空間理論:AI的空間智能還在三歲小孩階段

0
分享至

1983 年,心理學家設計了一個簡單實驗:Sally 把彈珠放進籃子然后離開,Anne 趁她不注意把彈珠挪到盒子里。問題是,Sally 回來后,會去哪里找彈珠?

四歲孩子能答對:去籃子,因為 Sally 不知道彈珠被移走了。三歲以下的孩子會答錯,他們分不清“自己知道”和“別人知道”的區(qū)別。這就是發(fā)展心理學里著名的 Sally-Anne 測試,它標定了人類認知發(fā)展的一道重要分水嶺。這種能力被稱為“心智理論”(Theory of Mind)。


(動圖來源:受訪者)

四十多年后,美國斯坦福大學李飛飛教授和美國西北大學李曼玲教授團隊把這個實驗搬到了 AI 面前,只不過這次考察的是物理世界。他們設計了一套叫“空間理論”(Theory of Space)的評估框架,目的是想弄清楚一件事:當大模型必須自己去探索、去發(fā)現(xiàn)、去拼湊信息時,它的空間智能究竟進化到了哪一級?


圖 | 從左到右:李飛飛、李曼玲(來源:資料圖)

從被動答題到主動探索,AI 掉了好幾個臺階

傳統(tǒng)測試 AI 空間能力的方式,有點像開卷考試。給一張圖,問里面物體的位置關系,模型答對了就算過關。前沿模型在這種測試里得分都不錯,讓人以為它們已經(jīng)挺懂空間了。

但李飛飛和李曼玲團隊覺得這還不夠。真實世界不是開卷考,沒有人會把所有信息一次性擺在你面前。你推開一扇門只看到客廳一角,走過走廊瞥見臥室一角,要理解整個房子的布局,你得把這些碎片拼起來,還得知道自己還有什么沒看到,下一步該往哪看。

研究中,他們設計了一套測試環(huán)境,有文本版和視覺版兩種,讓模型在多個房間里主動探索,收集信息,構建腦海中的認知地圖。過去評估只看最終答對答錯,這篇工作第一次能給 AI 大腦拍 X 光,他們讓模型顯式探測這張認知地圖,在每個時間步輸出自己認為物體都在什么位置。


(動圖來源:受訪者)

結果發(fā)現(xiàn),模型在被動模式下表現(xiàn)尚可,一旦切換到主動探索模式,性能應聲而落。以視覺世界為例,GPT-5.2 從 57.1% 掉到 46.0%,Gemini-3 Pro 從 60.5% 掉到 57.3%,而這就是他們所說的主動被動差距。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

差距從哪來?他們用一套精細的診斷工具來逐層拆解模型的認知過程。

第一個問題是效率低。規(guī)則代理平均 9 步就能覆蓋整個環(huán)境,基礎模型往往需要 14 步以上,而且覆蓋率更低。GPT-5.2 有個毛病,一看到門就沖過去,經(jīng)常忘了把當前房間看完。Gemini-3 Pro 好一些,會先原地旋轉(zhuǎn)觀察再移動,但也沒有規(guī)則代理高效。

第二個問題更致命。他們設計了一個錯誤信念測試,在模型完成初次探索后,悄悄移動或旋轉(zhuǎn)幾個物體。當模型再次經(jīng)過并直接觀察到新布局時,一個令人不安的現(xiàn)象出現(xiàn)了:GPT-5.2 在視覺世界中的朝向慣性高達 68.9%,即近七成的情況下仍然堅持報告物體的舊朝向。同一模型在文本世界中慣性只有 5.5%。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

其實這就是信念慣性,模型親眼看到變化,但內(nèi)部表征缺乏足夠的可塑性來完成舊信念到新信念的覆寫,也就是它無法更新自己的認知。這和 Sally-Anne 測試里三歲幼兒的失敗何其相似,只不過幼兒失敗是因為認知能力尚未發(fā)育,模型失敗是因為內(nèi)部機制存在缺陷。

認知地圖會漂移,視覺世界更高難

他們還發(fā)現(xiàn)一個叫信念漂移的現(xiàn)象。那就是模型在初次觀察物體時的感知誤差雖然存在,不過還沒嚴重到影響整體判斷。真正的問題是,這份初始保真度無法在后續(xù)步驟中維持。隨著探索推進、信息增多,那些早先正確的記憶開始悄然退化,被后續(xù)步驟的錯誤更新覆蓋,或者在拼接不同房間的信息時產(chǎn)生內(nèi)部矛盾。


(動圖來源:受訪者)

最終認知地圖的低準確率,在很大程度上來自拼不住。模型缺乏穩(wěn)定維護長程空間信息的機制,新的觀察不僅沒有鞏固已有認知,反而在不斷侵蝕它。這個特點可能人類也存在,比如筆者曾去參觀故宮,一個宮殿接一個地觀看,而這些宮殿又很相似,那么就很有可能看了下一個、忘記了上一個。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

但是,這些問題在視覺世界中會被放大。人類被試在視覺世界中的準確率高達 96.4%(使用簡單工具后達 99.0%),在文本世界中是 86.7%。模型卻正好相反,文本表現(xiàn)遠好于視覺。視覺信息對人類而言是天然、直覺的空間認知通道,而當前多模態(tài)模型尚未學會從像素中高效提取空間結構。

尤其是物體朝向識別,模型幾乎接近隨機猜測。這解釋了為什么它們在視角推理任務(如 Perspective Taking)上得分慘淡,大約只有 36% 的準確率。

而這套評估框架的價值,在于它把空間智能從會不會答這道題的二元判定,變成了一個可以逐級診斷的連續(xù)過程。它告訴我們的不只是模型還差多遠,更是它具體在哪一級開始失靈。

如果模型連“記住剛才看到的沙發(fā)在哪”都做不到,那指望它在一個真實環(huán)境里主動導航,比如在災區(qū)搜救中定位幸存者,還有很長的路要走。


(來源:https://theory-of-space.github.io/paper/Theory_of_S)

目前,相關論文已被機器學習頂級會議 ICLR 2026 接收。論文、代碼和數(shù)據(jù)集都已開源。該研究由西北大學、斯坦福大學、華盛頓大學與康奈爾大學聯(lián)合完成。研究團隊里集齊了多位《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”的入選者,李曼玲教授是 2025 年全球入選者,美國斯坦福大學的吳佳俊教授和美國華盛頓大學的 Ranjay Krishna 教授分別入選了 2024 與 2025 年度亞太區(qū)名單。

參考資料:

相關論文 https://theory-of-space.github.io/paper/Theory_of_Space.pdf

https://limanling.github.io/

https://profiles.stanford.edu/fei-fei-li

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普剛說的這句話,石破天驚!說出了大國博弈的真相!

特朗普剛說的這句話,石破天驚!說出了大國博弈的真相!

一個壞土豆
2026-04-12 19:21:01
男子半年花300萬,嫖了160個小姐,2015年小姐:最高一次收費15萬

男子半年花300萬,嫖了160個小姐,2015年小姐:最高一次收費15萬

漢史趣聞
2026-04-11 15:02:54
才播4集,就穩(wěn)居全國收視第一,央視這回又押對寶了!

才播4集,就穩(wěn)居全國收視第一,央視這回又押對寶了!

觀察鑒娛
2026-04-10 09:38:16
日偶像女團辦活動「0人到場」! 5成員低頭畫面瘋傳

日偶像女團辦活動「0人到場」! 5成員低頭畫面瘋傳

ETtoday星光云
2026-04-13 12:40:07
吉林省市場監(jiān)督管理廳原副廳長張恒被“雙開”

吉林省市場監(jiān)督管理廳原副廳長張恒被“雙開”

界面新聞
2026-04-13 19:03:51
2.5億化成灰!俄最強戰(zhàn)艦未戰(zhàn)先沉,390架廉價無人機捅穿防空神話

2.5億化成灰!俄最強戰(zhàn)艦未戰(zhàn)先沉,390架廉價無人機捅穿防空神話

杰絲聊古今
2026-03-28 01:03:36
確認了!廣東隊被迫裁掉薩姆納,朱芳雨將簽下第五名大外援?

確認了!廣東隊被迫裁掉薩姆納,朱芳雨將簽下第五名大外援?

緋雨兒
2026-04-13 09:21:08
鎖定第八!楊瀚森0分1籃板開拓者橫掃國王 附加賽將戰(zhàn)太陽

鎖定第八!楊瀚森0分1籃板開拓者橫掃國王 附加賽將戰(zhàn)太陽

醉臥浮生
2026-04-13 10:51:45
直到看完火箭132:101大勝灰熊的比賽,我明白了三個無爭的事實!

直到看完火箭132:101大勝灰熊的比賽,我明白了三個無爭的事實!

田先生籃球
2026-04-13 11:46:35
國內(nèi)套現(xiàn)7個億后,她露出了身后的美國國旗,整個家族共套現(xiàn)20億

國內(nèi)套現(xiàn)7個億后,她露出了身后的美國國旗,整個家族共套現(xiàn)20億

云舟史策
2026-04-11 07:54:43
杜月笙在茶館喝茶,三個地痞問他要保護費,杜月笙:嫌命長嗎?

杜月笙在茶館喝茶,三個地痞問他要保護費,杜月笙:嫌命長嗎?

千秋文化
2026-04-10 20:14:28
歷史重演?登貝萊再玩“自由身博弈”,巴薩舊劇本或在巴黎重現(xiàn)!

歷史重演?登貝萊再玩“自由身博弈”,巴薩舊劇本或在巴黎重現(xiàn)!

體育閑話說
2026-04-13 17:46:01
何超蕸因病離世,舊照長發(fā)飄飄顏值不輸姐姐,為人太過低調(diào)

何超蕸因病離世,舊照長發(fā)飄飄顏值不輸姐姐,為人太過低調(diào)

往史過眼云煙
2026-04-13 19:36:52
美伊談崩不到24小時,以色列迎來6個噩耗,內(nèi)塔尼亞胡或?qū)⑾屡_

美伊談崩不到24小時,以色列迎來6個噩耗,內(nèi)塔尼亞胡或?qū)⑾屡_

黑鷹觀軍事
2026-04-13 18:13:13
溫瑞博擊敗吉村奪冠,沒想到對手當場下跪,溫瑞博的反應居然這樣

溫瑞博擊敗吉村奪冠,沒想到對手當場下跪,溫瑞博的反應居然這樣

阿錯田間生活
2026-04-13 11:12:46
開國上將鬧離婚:結發(fā)40年竟遭發(fā)妻死命舉報,六名子女為何如釋重負

開國上將鬧離婚:結發(fā)40年竟遭發(fā)妻死命舉報,六名子女為何如釋重負

睡前講故事
2026-04-07 14:43:34
運-30成功首飛,全球市場被壟斷,目標是美國,成為全球最優(yōu)秀!

運-30成功首飛,全球市場被壟斷,目標是美國,成為全球最優(yōu)秀!

林子說事
2026-04-13 14:40:26
1976年,河南一墓葬出土,證明她不是神話人物,而是真實存在的

1976年,河南一墓葬出土,證明她不是神話人物,而是真實存在的

抽象派大師
2026-04-13 14:58:08
14公斤火藥被引爆,炸掉7米高內(nèi)塔尼亞胡塑像,人群爆發(fā)出歡呼聲!以方譴責西班牙:展現(xiàn)出駭人的反猶仇恨

14公斤火藥被引爆,炸掉7米高內(nèi)塔尼亞胡塑像,人群爆發(fā)出歡呼聲!以方譴責西班牙:展現(xiàn)出駭人的反猶仇恨

每日經(jīng)濟新聞
2026-04-12 20:30:04
伊朗軍方:敵方船只現(xiàn)在和將來都無權通過霍爾木茲海峽

伊朗軍方:敵方船只現(xiàn)在和將來都無權通過霍爾木茲海峽

財聯(lián)社
2026-04-13 15:22:07
2026-04-13 20:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16573文章數(shù) 514868關注度
往期回顧 全部

科技要聞

"抄作業(yè)"近四年,馬斯克版微信周五上線

頭條要聞

媒體:歐爾班敗選不僅是一國之事 牽扯到與中國的關系

頭條要聞

媒體:歐爾班敗選不僅是一國之事 牽扯到與中國的關系

體育要聞

一支球隊不夠爛,也是一種悲哀

娛樂要聞

賈玲減重后現(xiàn)身馮鞏生日宴 身材未反彈

財經(jīng)要聞

起底AI"造黃"灰產(chǎn):19.9元"一鍵脫衣"

汽車要聞

不止命名更純粹 領克10/10+要做純電操控新王

態(tài)度原創(chuàng)

藝術
家居
房產(chǎn)
健康
教育

藝術要聞

22位中國當代名家油畫作品

家居要聞

復古風格 自然簡約

房產(chǎn)要聞

6000億投資盛宴,全球巨頭齊聚,海南又要干件大事!

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

6000余份offer!鄭州健康學院舉行2026屆畢業(yè)生春季線下雙選會

無障礙瀏覽 進入關懷版