国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

李曼玲、李飛飛、吳佳俊等聯(lián)手:評(píng)估具身大模型的新范式!

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】全新的具身模型空間能力評(píng)估范式 Theory of Space 突破了傳統(tǒng)靜態(tài)圖文問答的局限,系統(tǒng)性地考察基礎(chǔ)模型能否像人一樣,在部分可觀測(cè)的動(dòng)態(tài)環(huán)境中,通過自主探索來構(gòu)建、修正和利用空間信念。該論文已被 ICLR 2026 接收。

當(dāng)今的多模態(tài)大模型(如 GPT-5.2, Gemini-3 Pro)在各類視覺問答榜單上屢破紀(jì)錄。然而,如果希望將這些能力延伸到更真實(shí)的物理場(chǎng)景中,模型在空間理解上可能會(huì)面臨不小的挑戰(zhàn)。為什么會(huì)這樣?

想象你走進(jìn)一棟從未去過的公寓。你推開門看到沙發(fā),走進(jìn)走廊瞥見臥室的床,再往前發(fā)現(xiàn)廚房的冰箱?,F(xiàn)在問你:「沙發(fā)在冰箱的哪個(gè)方向?」你通常能回答,因?yàn)槟阍谀X海中悄悄地構(gòu)建了一幅「心理地圖」。

人類大多能不假思索地做到這一點(diǎn)。但對(duì)當(dāng)前的基礎(chǔ)模型而言,情況可能會(huì)有所不同,研究人員發(fā)現(xiàn),現(xiàn)有的評(píng)估范式與真實(shí)物理世界的需求相比,可能存在一些差異:

  1. 從「上帝視角」到「部分可觀測(cè)」:傳統(tǒng)基準(zhǔn)測(cè)試往往提供涵蓋全局的靜態(tài)圖片。但在真實(shí)的物理空間中,智能體的視野大多是局部的。它們往往需要通過主動(dòng)探索,把零散的第一人稱視覺線索拼接成全局的「認(rèn)知地圖」。

  2. 從「被動(dòng)回答」到「主動(dòng)決策」:現(xiàn)有的空間評(píng)測(cè)通常是向模型提供固定的觀察數(shù)據(jù)。但在更開放的環(huán)境中,可能需要系統(tǒng)自主決定探索的方向與目標(biāo),以更高效的方式獲取環(huán)境信息。

  3. 從「靜態(tài)常識(shí)」到「動(dòng)態(tài)修正」:物理環(huán)境是會(huì)發(fā)生動(dòng)態(tài)變化的(例如物品位置的變動(dòng))。除了構(gòu)建地圖,智能體也許還需要在發(fā)現(xiàn)環(huán)境變化時(shí)適時(shí)更新舊的空間記憶。

西北大學(xué)李曼玲團(tuán)隊(duì)、斯坦福大學(xué)李飛飛與吳佳俊團(tuán)隊(duì),以及華盛頓大學(xué)Ranjay Krishna團(tuán)隊(duì)共同牽頭提出了Theory of Space(空間理論),探討了:當(dāng)減少對(duì)完整給定信息的依賴,要求基礎(chǔ)模型通過主動(dòng)探索來認(rèn)識(shí)環(huán)境時(shí),其空間認(rèn)知能力會(huì)有怎樣的表現(xiàn)?


論文鏈接:https://arxiv.org/abs/2602.07055

代碼:https://github.com/mll-lab-nu/Theory-of-Space

項(xiàng)目主頁(yè):https://theory-of-space.github.io/

數(shù)據(jù)集:https://huggingface.co/datasets/MLL-Lab/tos-data


Theory of Space:主動(dòng)探索、信念探測(cè)和任務(wù)評(píng)估。左側(cè)用俯視圖展示智能體在多房間局部觀測(cè)條件下的行動(dòng)軌跡;中間展示其在文本或視覺環(huán)境中通過「移動(dòng)—轉(zhuǎn)向—觀察」的循環(huán),并根據(jù)第一人稱觀測(cè)持續(xù)更新內(nèi)部信念;右側(cè)通過空間任務(wù)與認(rèn)知地圖探針,評(píng)估這些信念的表征及其使用方式。

空間智能中的「心智理論」

在認(rèn)知科學(xué)中,Theory of Mind(心智理論)考察的是一個(gè)智能體能否推測(cè)他人隱藏的心理狀態(tài):「他在想什么?他知不知道這件事?」它關(guān)注的是對(duì)不可見的心智世界的建模。

Theory of Space(空間理論)作為它在物理世界中的對(duì)稱概念:考察的是一個(gè)智能體能否推測(cè)環(huán)境中尚未觀測(cè)到的空間結(jié)構(gòu):「這個(gè)世界長(zhǎng)什么樣?門后面還有什么?」它關(guān)注的是對(duì)不可見的物理世界的建模。

兩者的共同本質(zhì)在于:智能體需要基于有限的線索,去推斷隱藏的結(jié)構(gòu),并隨著新信息不斷地修正自己的信念。

研究人員將 Theory of Space 定義為三個(gè)緊密耦合的核心能力:

  • 構(gòu)建(Construct)在部分可觀測(cè)的迷霧中主動(dòng)邁出腳步,收集局部觀察,并在內(nèi)部表征中拼湊出一張全局一致的「認(rèn)知地圖」。

  • 修正(Revise)面對(duì)動(dòng)態(tài)環(huán)境(如物品被悄悄移位),敏銳察覺「舊記憶」與「新證據(jù)」的沖突,打破信念的慣性,完成知識(shí)的更新(Belief Revision)。

  • 利用(Exploit)將維護(hù)好的認(rèn)知地圖,作為應(yīng)對(duì)復(fù)雜下游空間推理任務(wù)(如空間導(dǎo)航、視角推演)的最強(qiáng)武器。


Theory of Space的核心:在部分可觀測(cè)環(huán)境中,智能體圍繞空間信念的構(gòu)建、動(dòng)態(tài)修正與利用,完成空間推理與決策。

從構(gòu)建、修正到利用

對(duì)齊三大能力

研究人員圍繞Theory of Space的三大核心能力(構(gòu)建Construct、修正Revise、利用Exploit)設(shè)計(jì)了一整套評(píng)測(cè)體系,并引入認(rèn)知地圖顯式探測(cè)作為核心貢獻(xiàn),實(shí)現(xiàn)對(duì)模型內(nèi)部空間信念的直接診斷。

構(gòu)建(Construct):主動(dòng)探索建圖

研究人員在程序化生成的多房間室內(nèi)布局中,提供文本世界(符號(hào)化方向/距離)和視覺世界(ThreeDWorld 渲染的第一人稱 RGB 圖像)兩種平行環(huán)境。智能體必須自主決定移動(dòng)、旋轉(zhuǎn)、觀察的策略,高效構(gòu)建空間信念。直覺上你可能會(huì)以為這類任務(wù)就是「多看看」。但更關(guān)鍵的是,智能體需要用不確定性來驅(qū)動(dòng)行動(dòng),去做高效的信息獲取。

修正(Revise):在動(dòng)態(tài)環(huán)境中更新過時(shí)信念

借鑒發(fā)展心理學(xué)中經(jīng)典的「錯(cuò)誤信念(False Belief)」范式:在智能體完成初次探索后,偷偷將若干物體移位或旋轉(zhuǎn),制造「舊信念」與「新現(xiàn)實(shí)」的沖突。智能體能否發(fā)現(xiàn)變化、推翻舊記憶、建立新信念?


利用(Exploit):九類空間推理任務(wù)

覆蓋路徑級(jí)(Route)(路徑推理)和全局級(jí)(Survey)(鳥瞰視角地圖推理)兩個(gè)層次,全面評(píng)估空間信念的利用價(jià)值。


下游空間任務(wù)總覽

核心貢獻(xiàn):顯式認(rèn)知地圖探測(cè)

以往評(píng)估只看最終對(duì)錯(cuò),內(nèi)部信念是黑箱。研究人員引入顯式認(rèn)知地圖探測(cè)(Explicit Cognitive Map Probing):每一步都要求模型以JSON格式外化其空間信念,度量準(zhǔn)確性、感知質(zhì)量、穩(wěn)定性和不確定性建模。不僅知道模型答得對(duì)不對(duì),更知道它為什么答對(duì)、為什么答錯(cuò)


大模型對(duì)空間的理解

究竟卡在了哪里?

研究人員在包括GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet等在內(nèi)的六個(gè)前沿多模態(tài)大模型上進(jìn)行了大規(guī)模的深度評(píng)測(cè)。通過白盒探測(cè),深刻揭開了當(dāng)前大模型在空間認(rèn)知上的能力邊界:

洞察一:主動(dòng)信息獲取是具身智能的阿喀琉斯之踵

讓模型自己決定「看什么」,性能大幅下降。

為了區(qū)分「探索能力」和「推理能力」,研究人員設(shè)計(jì)了腳本化的規(guī)則代理(Proxy Agent)作為探索基準(zhǔn):視覺世界中的代理在每個(gè)位置進(jìn)行360°掃描以保證完整覆蓋,文本世界中的代理則采用信念驅(qū)動(dòng)的策略來最大化消除歧義。模型在被動(dòng)模式下接收這些代理收集的觀測(cè)日志進(jìn)行推理,在主動(dòng)模式下則需自主規(guī)劃探索。


結(jié)果令人震驚:GPT-5.2從被動(dòng)57.1降到主動(dòng)46.0(視覺世界),Gemini-3 Pro從60.5降到57.3,在效率方面,規(guī)則代理僅需約9步即可達(dá)到目標(biāo)覆蓋,而基礎(chǔ)模型常常需要 14 步以上且信念質(zhì)量并未提升。模型「探索得多」但「探索得差」,高冗余、低效率。隨著環(huán)境復(fù)雜度增加,這種差距進(jìn)一步擴(kuò)大。


任務(wù)準(zhǔn)確率 vs. 主動(dòng)探索開銷,灰色圖標(biāo)代表被動(dòng)模式。智能體在主動(dòng)探索模式下的探索效率以及任務(wù)準(zhǔn)確率都低于被動(dòng)模式



文本與視覺模態(tài)下,主動(dòng)探索與被動(dòng)探索都存在鴻溝

發(fā)現(xiàn)二:模態(tài)鴻溝

文本推理遠(yuǎn)強(qiáng)于視覺推理,所有模型無一例外。

無論在被動(dòng)還是主動(dòng)設(shè)定下,模型在文本環(huán)境中的表現(xiàn)均一致且顯著地優(yōu)于視覺環(huán)境。這揭示了當(dāng)前多模態(tài)模型在空間感知方面存在的根本局限:模型難以有效地從視覺觀察中提取空間信息,而高度依賴于符號(hào)化表征來進(jìn)行關(guān)鍵關(guān)系的邏輯推理。



被動(dòng)模式與主動(dòng)探索下,視覺與文本都存在巨大性能落差

發(fā)現(xiàn)三:認(rèn)知地圖的三重危機(jī)

通過認(rèn)知地圖探測(cè),研究人員進(jìn)一步發(fā)現(xiàn):朝向感知是瓶頸(視覺世界中物體朝向判斷接近隨機(jī));信念不穩(wěn)定(正確感知的信息隨時(shí)間退化);信念漂移(新的錯(cuò)誤更新覆蓋先前正確的感知)。換句話說,模型不是「看不見」,而是「記不住」「記錯(cuò)了」。

發(fā)現(xiàn)四:認(rèn)知地圖是有效的診斷工具

研究人員通過消融實(shí)驗(yàn)驗(yàn)證了認(rèn)知地圖作為診斷工具的有效性:

  • 充分性驗(yàn)證:給模型提供真實(shí)的認(rèn)知地圖后,下游任務(wù)準(zhǔn)確率飆升至 ~95%,證明 JSON 地圖格式捕獲了完成任務(wù)所需的全部信息。

  • 相關(guān)性驗(yàn)證:認(rèn)知地圖準(zhǔn)確度與下游任務(wù)表現(xiàn)呈顯著正相關(guān)(Pearson r = 0.42~0.65,p < 0.001)。

雖然外化的地圖是模型內(nèi)部信念的有損壓縮,但它仍是強(qiáng)有力的診斷信號(hào)。

發(fā)現(xiàn)五:信念慣性(Belief Inertia)

即使親眼看到了變化,模型仍然「固執(zhí)己見」。

當(dāng)環(huán)境變化后,模型即便直接觀察到新布局,仍傾向于舊的空間坐標(biāo)。視覺模型的方向慣性高達(dá) 68.9%(GPT-5.2),而文本模型僅為 5.5%。當(dāng)前基礎(chǔ)模型缺乏足夠的認(rèn)知可塑性來修正其空間記憶。

人類 vs. AI

人類在視覺世界中達(dá)到96.4%準(zhǔn)確率(使用工具后99.0%),而最佳AI(Gemini-3 Pro)僅57.3%

有趣的是,人類在視覺世界反而優(yōu)于文本世界,因?yàn)橐曈X信息對(duì)人類更易處理,這與AI表現(xiàn)恰好相反。簡(jiǎn)言之,人類具有直觀理解視覺空間的天然優(yōu)勢(shì),而當(dāng)前的 AI 架構(gòu)則更傾向于依賴文本符號(hào)來進(jìn)行邏輯推演。

總結(jié)與展望

Theory of Space將空間評(píng)估從「模型能否回答對(duì)?」重新定義為一個(gè)更根本的問題:模型能否通過高效的信息獲取,構(gòu)建并維護(hù)一個(gè)連貫的、可修正的空間世界模型?

論文的發(fā)現(xiàn)指向三個(gè)關(guān)鍵方向:

  1. 不確定性感知的高效探索策略;

  2. 魯棒的長(zhǎng)時(shí)空間記憶維護(hù),解決信念漂移問題;

  3. 可靠的信念修正機(jī)制,克服信念慣性。

這些挑戰(zhàn)不僅關(guān)乎學(xué)術(shù)評(píng)測(cè),更直接影響著具身智能的實(shí)際落地。無論是家庭機(jī)器人、自動(dòng)駕駛還是搜救機(jī)器人,主動(dòng)空間理解都是不可或缺的基礎(chǔ)能力

該研究由Northwestern University, Stanford University, University of Washington, Cornell University聯(lián)合完成。項(xiàng)目現(xiàn)已開源,可訪問主頁(yè)獲取完整論文、測(cè)試套件代碼與數(shù)據(jù)集。

參考資料:

https://arxiv.org/abs/2602.07055

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
油價(jià)調(diào)整:注意,預(yù)計(jì)上調(diào)285元/噸,油價(jià)大漲!

油價(jià)調(diào)整:注意,預(yù)計(jì)上調(diào)285元/噸,油價(jià)大漲!

金投網(wǎng)
2026-03-04 10:55:53
婁勤儉,擔(dān)任大會(huì)發(fā)言人

婁勤儉,擔(dān)任大會(huì)發(fā)言人

極目新聞
2026-03-04 13:25:49
7年2000萬!太扎心!張本智和的吼聲為何越來越小?

7年2000萬!太扎心!張本智和的吼聲為何越來越???

卿子書
2026-02-23 11:23:42
魯比奧承認(rèn)是以色列將美國(guó)拖入與伊朗的戰(zhàn)爭(zhēng),美國(guó)兩黨人員怒?

魯比奧承認(rèn)是以色列將美國(guó)拖入與伊朗的戰(zhàn)爭(zhēng),美國(guó)兩黨人員怒?

小久解說
2026-03-04 19:08:50
豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

蜉蝣說
2026-02-23 21:23:05
為什么住在大房子的老人,普遍活得更好?原因很簡(jiǎn)單,看完你就明白了

為什么住在大房子的老人,普遍活得更好?原因很簡(jiǎn)單,看完你就明白了

LULU生活家
2026-03-04 14:30:02
戰(zhàn)爭(zhēng)進(jìn)入第5天 美以稱已發(fā)動(dòng)超1700次打擊 伊朗展開第16輪反擊行動(dòng) 最新情況一文梳理

戰(zhàn)爭(zhēng)進(jìn)入第5天 美以稱已發(fā)動(dòng)超1700次打擊 伊朗展開第16輪反擊行動(dòng) 最新情況一文梳理

極目新聞
2026-03-04 07:25:55
臺(tái)灣終極解決方案:土地回歸中國(guó),人員往來自由,逃走不是中國(guó)人

臺(tái)灣終極解決方案:土地回歸中國(guó),人員往來自由,逃走不是中國(guó)人

晨光蘇醒a(bǔ)
2026-02-13 09:16:50
放進(jìn)冰箱變毒藥,這7種食物千萬不能放在冰箱里!尤其是第六種!

放進(jìn)冰箱變毒藥,這7種食物千萬不能放在冰箱里!尤其是第六種!

路醫(yī)生健康科普
2026-02-06 16:16:28
豆包推薦:人生回報(bào)率最高的8件事,盡早“焊死”在孩子身上

豆包推薦:人生回報(bào)率最高的8件事,盡早“焊死”在孩子身上

十點(diǎn)讀書
2026-02-20 18:37:13
3月1日,嚴(yán)查開始!在職退休,一查到底,無一幸免

3月1日,嚴(yán)查開始!在職退休,一查到底,無一幸免

混沌錄
2026-03-03 21:17:12
風(fēng)流的西哈努克:娶了6個(gè)妻子其中有2個(gè)姨媽1個(gè)表妹,兒子卻單身

風(fēng)流的西哈努克:娶了6個(gè)妻子其中有2個(gè)姨媽1個(gè)表妹,兒子卻單身

糖逗在娛樂
2026-03-03 15:53:37
新型電車癡漢,根本不需要觸碰到你

新型電車癡漢,根本不需要觸碰到你

日本通
2026-03-03 15:07:10
胡春華發(fā)表署名文章

胡春華發(fā)表署名文章

社評(píng)
2025-10-31 10:11:37
谷愛凌低調(diào)現(xiàn)身德云社,與母親一同聽相聲,郭德綱表態(tài)太圈粉

谷愛凌低調(diào)現(xiàn)身德云社,與母親一同聽相聲,郭德綱表態(tài)太圈粉

手工制作阿殲
2026-03-04 09:41:58
沙特阿美探索經(jīng)由紅海出口石油以避開霍爾木茲海峽的 計(jì)劃

沙特阿美探索經(jīng)由紅海出口石油以避開霍爾木茲海峽的 計(jì)劃

每日經(jīng)濟(jì)新聞
2026-03-03 21:52:41
特朗普急了,美俄伊都喊話中國(guó)!世界看清了,特朗普真正怕的是啥

特朗普急了,美俄伊都喊話中國(guó)!世界看清了,特朗普真正怕的是啥

聞香閣
2026-03-04 18:05:11
西貝被曝降薪緩發(fā)、裁員賠償分期1年,員工拒后被通知待崗

西貝被曝降薪緩發(fā)、裁員賠償分期1年,員工拒后被通知待崗

三言科技
2026-03-04 11:13:06
范戴克對(duì)利物浦隊(duì)友暴怒!歐冠資格錯(cuò)失,94分鐘被絕殺引爆內(nèi)訌?

范戴克對(duì)利物浦隊(duì)友暴怒!歐冠資格錯(cuò)失,94分鐘被絕殺引爆內(nèi)訌?

夜白侃球
2026-03-04 19:33:26
“貧民窟太子爺?shù)臉?biāo)配”,家長(zhǎng)給兒子留小辮子,被全網(wǎng)嘲笑認(rèn)知低

“貧民窟太子爺?shù)臉?biāo)配”,家長(zhǎng)給兒子留小辮子,被全網(wǎng)嘲笑認(rèn)知低

妍妍教育日記
2026-03-03 19:25:45
2026-03-04 20:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14638文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

多位核心離職,阿里親手廢掉最強(qiáng)AI天團(tuán)?

頭條要聞

特朗普政府在眾院通報(bào)伊朗簡(jiǎn)報(bào) 多議員憤怒:純屬胡扯

頭條要聞

特朗普政府在眾院通報(bào)伊朗簡(jiǎn)報(bào) 多議員憤怒:純屬胡扯

體育要聞

2026年中超,為什么值得你多看一眼?

娛樂要聞

迪麗熱巴轉(zhuǎn)機(jī)滯留迪拜 錯(cuò)過巴黎時(shí)裝周

財(cái)經(jīng)要聞

談擴(kuò)內(nèi)需等 人大新聞發(fā)布會(huì)回應(yīng)這些熱點(diǎn)

汽車要聞

鴻蒙智行首款獵裝車 尚界Z7/Z7T首發(fā)

態(tài)度原創(chuàng)

健康
教育
家居
數(shù)碼
藝術(shù)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

重磅!2026年綿陽(yáng)中考時(shí)間確定

家居要聞

極簡(jiǎn)無界 靜居自安然

數(shù)碼要聞

GPU性能暴漲200%,高通PC芯片超越蘋果M4?

藝術(shù)要聞

2025“情系塔里木”美術(shù)作品展

無障礙瀏覽 進(jìn)入關(guān)懷版