国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從有限視角構(gòu)建空間心理模型

0
分享至

Spatial Mental Modeling from Limited Views

從有限視角構(gòu)建空間心理模型

https://arxiv.org/pdf/2506.21458

重點概述

本文探討了視覺-語言模型(Vision-Language Models, VLMs)如何從有限的視覺輸入中構(gòu)建空間心理模型(Spatial Mental Models),以實現(xiàn)對不可見空間、視角轉(zhuǎn)換和動態(tài)模擬的推理。論文受認知科學啟發(fā),認為人類通過整合碎片化觀察形成靈活的“認知拼貼”(cognitive collages)而非精確地圖,從而在不完整信息下進行空間推理。VLMs 在此類任務上表現(xiàn)極差(接近隨機),本文通過引入新基準和認知啟發(fā)式支架(scaffolds)來診斷問題并提出改進方案。

主要貢獻

  1. 提出 MINDCUBE 基準

    :一個專門評估 VLMs 在有限視圖下空間心理建模能力的基準數(shù)據(jù)集。

  • 位置認知映射

    (cognitive mapping):推理不可見物體位置。

  • 朝向與視角采取

    (perspective-taking):從自身或其他視角描述場景。

  • 動態(tài)心理模擬

    (mental simulation):“what-if”場景,如代理旋轉(zhuǎn)或移動后可見物體變化。

  • 包含976 個多視圖組、3,268 張圖像、21,154 個問答題。

  • 數(shù)據(jù)來源:ArkitsScenes、DL3DV-10K 和自采集數(shù)據(jù)。

  • 問題類型覆蓋:

  • 相機運動類型:ROTATION(原地旋轉(zhuǎn))、AMONG(在物體間環(huán)繞)、AROUND(圍繞物體環(huán)繞)。

  • 問題涉及遮擋、復雜關系(agent-agent、agent-object、object-object)、序列動態(tài)等。

  • 提供 MINDCUBE-TINY 子集(1,050 個問題)用于快速實驗。

  • 資源公開:網(wǎng)站、代碼、數(shù)據(jù)集(Hugging Face)、模型檢查點。

  • 評估現(xiàn)有 VLMs 的表現(xiàn)

  • 測試了 17 個主流 VLMs(包括開源如 DeepSeek-VL2-Small,閉源如 GPT-4o,專用空間模型如 SpaceMantis)。

  • 最佳模型準確率僅47.62%(DeepSeek-VL2-Small),多數(shù)接近隨機水平。

  • 人類表現(xiàn):94.55%

  • 分析發(fā)現(xiàn):遮擋、非線性相機運動、高角度視圖等顯著降低性能;純文本描述輸入進一步惡化結(jié)果;VLMs 在屬性一致性、數(shù)量推理上不穩(wěn)定。

  • 提出三種認知啟發(fā)式支架(Scaffolds)

,模擬人類空間認知過程:

  • 增強版(Augmented CGMap)

    :包含相機位置和朝向。

  • 簡版(Plain CGMap)

    :僅物體位置和朝向。

  • 視圖插值(View Interpolation)

    :在輸入視圖間插入合成中間幀(使用 Stable Virtual Camera 等工具),試圖動態(tài)更新心理模型。實驗證明幾乎無幫助。

  • 自由形式推理(Free-Form Reasoning, Chain-of-Thought)

    :讓模型逐步推理(先單視圖觀察 → 跨視圖整合 → 問題引導推理)。輕微提升(+2.7%)。

  • 認知地圖(Cognitive Maps)

    :讓模型生成結(jié)構(gòu)化 2D 鳥瞰圖(10x10 網(wǎng)格,JSON 格式),記錄物體位置和朝向。

  • 關鍵發(fā)現(xiàn):單純輸入預計算地圖無效;“先地圖后推理”(map-then-reason)組合最有效——模型先生成地圖,再基于地圖進行自由推理。

  • 模型訓練與優(yōu)化

  • 獎勵設計:地圖有效 +1 分,答案正確 +5 分。

  • 從 SFT 檢查點啟動,進一步提升到70.67%(總提升 +32.9% 從基線)。

  • 從零開始 RL 效果有限,說明 SFT 初始化至關重要。

  • 使用 10,000 條模板生成的認知地圖和 10,000 條推理鏈進行訓練。

  • 單獨訓練地圖或推理效果有限;聯(lián)合“map-then-reason”提升顯著(從 52.28% 到60.76%,+8.48%)。

  • 生成地圖質(zhì)量高(相似度 >90%,同構(gòu)率 >89%)。

  • 基模型

    :Qwen2.5-VL-3B-Instruct。

  • 監(jiān)督微調(diào)(SFT)

  • 強化學習(RL,使用 VAGEN + GRPO)

  • 瓶頸分析:語言模型部分是主要限制,視覺編碼器微調(diào)無額外增益。

關鍵實驗結(jié)果與洞見
  • 凍結(jié)模型下:外部支架(如插值)無效,內(nèi)部生成+推理組合最佳(+3.62%)。

  • 訓練后:內(nèi)部結(jié)構(gòu)化表示(認知地圖)+靈活推理協(xié)同作用遠超單一方法。

  • 地圖評估指標:有效性(Valid Rate)、方向相似度、朝向相似度、整體相似度、同構(gòu)率(Isomorphic Rate)。

  • 失敗案例:模型常在復雜遮擋、旋轉(zhuǎn)敏感性、關系推理上出錯。

  • 核心洞見:

    • VLMs 缺乏內(nèi)在空間模型,過度依賴直接視覺輸入。

    • 內(nèi)部自生成表示 + 主動推理

      是提升不可見空間理解的關鍵。

    • 外部輔助(如插值幀或預計算地圖)不如讓模型主動構(gòu)建內(nèi)部表示有效。

    • 強化學習可進一步精煉 SFT 學到的支架。

討論與結(jié)論

論文強調(diào),VLMs 當前的空間推理仍遠低于人類,MINDCUBE 基準暴露了這一差距。通過讓模型學習生成并利用認知地圖進行推理,可以顯著逼近人類式的空間心理建模。未來方向包括:更大規(guī)模高質(zhì)量地圖/推理數(shù)據(jù)、更好 RL 策略、引入幾何先驗等新型范式,實現(xiàn)“1+1>2”的空間智能涌現(xiàn)。

總體而言,本文將認知科學中的空間心理模型理論成功遷移到 VLMs,提供了診斷工具(基準)、解釋性分析和實用改進路徑(map-then-reason + SFT/RL),對多視圖理解、具身智能、3D 推理等領域具有重要參考價值。



視覺語言模型(VLMs)能否僅從幾個視角就想象出完整的場景,就像人類一樣?人類會形成空間心理模型,即對未見空間的內(nèi)部表征,用于推理布局、視角和運動。我們的新基準測試M I N D C U B E包含3,268張圖像上的21,154個問題,揭示了現(xiàn)有VLMs在這方面的關鍵差距,其表現(xiàn)近乎隨機。通過M I N D C U B E,我們系統(tǒng)地評估了VLMs在構(gòu)建穩(wěn)健空間心理模型方面的能力,包括表示位置(認知制圖)、方向(視角轉(zhuǎn)換)和動態(tài)(用于“假設”運動的心理模擬)。我們還探索了三種方法來幫助VLMs近似空間心理模型,包括未見中間視角、自然語言推理鏈和認知地圖。最大的改進來自一種協(xié)同方法“先制圖后推理”,該方法聯(lián)合訓練模型首先生成認知地圖,然后在此基礎上進行推理。通過訓練模型在這些內(nèi)部地圖上進行推理,我們將準確率從37.8%提高到60.8%(+23.0%)。加入強化學習后,性能進一步提升至70.7%(+32.9%)。我們的關鍵見解是,通過積極構(gòu)建和利用內(nèi)部結(jié)構(gòu)化空間表征,并結(jié)合靈活的推理過程來構(gòu)建空間心理模型,可以顯著提高對不可觀測空間的理解。


1. 引言

為了讓視覺語言模型(VLMs)[1, 2, 3, 4] 超越被動感知 [5, 6, 7],能夠在部分可觀測的環(huán)境中進行交互 [8, 9, 10],從有限視角推斷未見空間關系是至關重要的。想想人類是如何輕松地通過幾次以自我為中心的觀察來推斷房間的布局或家具后面的隱藏物體的。例如,如圖1中的第二個視角所示,人類可以輕松推斷出“植物”后面的未見物體是“紙巾盒”和“洗手液”,包括它們的位置、姿態(tài)以及與不可同時看見的物體之間的關系。我們?nèi)祟悤䴓?gòu)建并更新周圍環(huán)境的心理模型,即使物體不在視野內(nèi)。這得益于一種核心認知功能,稱為空間心理模型 [11, 12]:一種內(nèi)部環(huán)境表征,允許對空間進行連貫的理解和推理,而與當前視角無關。


盡管視覺語言模型取得了令人印象深刻的進展,但它們在從有限視角綜合空間信息、跨視角保持空間一致性以及推理未直接可見的物體方面仍存在困難 [13, 14, 15, 16]。

這一差距需要專門的評估設置,必須包括:(a)使用部分觀測進行推理,其中物體被遮擋或不在視野內(nèi)(例如圖1中第二個視角中的“洗手液”);(b)在變化的視角之間保持跨視角一致性(例如通過錨點物體“植物”);(c)心理模擬以推斷隱藏的空間關系(例如“如果向左轉(zhuǎn)并向前移動”)。為了填補這一空白,我們引入了M I N D C U B E,它包含21,154個問題和3,268張圖像,通過各種類型的視角變換(即圖2中的R O T A T I O N、A M O N G、A R O U N D)組織成976個多視角組。我們專注于在當前查詢視角中不可見的物體來標注問題。


如圖2所示,我們系統(tǒng)地設計了需要從給定視角進行“假設”心理模擬的問題類型(例如“如果向左轉(zhuǎn)”)、視角轉(zhuǎn)換(例如“如果從沙發(fā)的視角看”)以及復雜關系推理查詢(涉及代理或其它物體)。


我們對17種最先進的視覺語言模型(VLMs)在M I N D C U B E上的廣泛評估揭示了一個事實:無論是開放權(quán)重模型還是閉源模型,其表現(xiàn)僅略好于隨機猜測。這種糟糕的表現(xiàn)激發(fā)了一個核心問題:我們?nèi)绾螏椭鶹LMs從部分觀測中進行推理?

受空間認知的啟發(fā),空間認知通過視覺圖像、語言推理或明確的認知地圖來構(gòu)建不同視角下連貫的空間意識,我們研究了三種方法,以確定中間表征是否可以幫助VLMs近似心理模型。視圖插值通過記錄的視頻在給定觀測之間生成中間視圖,但出乎意料的是,這種方法并無幫助,這凸顯了直接從有限視角進行推理的重要性。自由形式的自然語言推理將心理模擬過程轉(zhuǎn)化為語言表達,實現(xiàn)了性能提升(+2.7%)。結(jié)構(gòu)化的認知地圖從一個以自我為中心(鳥瞰)的角度模擬全局空間記憶,并帶有方向和視角增強。有趣的是,直接向模型提供用于回答問題的真實認知地圖并不能帶來顯著改進(-5.81%),只有積極地利用地圖進行推理才能實現(xiàn)顯著改進(+3.62%)。盡管在地圖上的推理是有效的,但VLMs在準確構(gòu)建心理模型的內(nèi)在能力上存在顯著瓶頸,這從生成過程中與真實地圖的同構(gòu)率低(<10%)中得到了證實。

鑒于這一限制,我們通過構(gòu)建10,000條推理鏈和10,000張真實認知地圖來訓練VLMs,研究如何通過注入這些訓練信號來有效地引導它們的思維過程。在認知地圖上的自監(jiān)督微調(diào)(SFT)顯著提高了同構(gòu)相似性,從增強設置的0.1%提升到46.0%,從普通設置的7.4%提升到73.8%。盡管在自由形式的推理鏈上進行SFT被證明更有效,提升了1.2%,但引導模型首先構(gòu)建認知地圖,然后在它們之上進行自由形式推理,實現(xiàn)了顯著更好的性能,總提升達到+8.5%,這證明了通過積極構(gòu)建和利用內(nèi)部結(jié)構(gòu)化空間表征,并結(jié)合靈活的推理過程來構(gòu)建空間心理模型是非常有效的。

我們使用強化學習(RL)進一步提升SFT后的性能,通過在RL訓練之前注入結(jié)構(gòu)化思維來引導模型構(gòu)建和推理認知地圖,使用我們的SFT模型。這種方法帶來了顯著的改進,將任務準確率從37.8%的基礎水平提升到70.7%。我們的實證證據(jù)證實了一個關鍵發(fā)現(xiàn):與傳統(tǒng)的視圖插值或外部提供的地圖等方法相比,VLMs在空間推理任務中表現(xiàn)出色,當它們自主生成并利用內(nèi)部心理表征時。

2. M I N D C U B E基準測試與評估 2.1. M I N D C U B E基準測試

概述
我們介紹了M I N D C U B E,這是一個用于評估視覺語言模型(VLMs)在部分觀測和動態(tài)視角下的空間推理能力的基準測試。M I N D C U B E包含多視角圖像組和空間推理問題,能夠?qū)臻g建模性能進行細致分析。它針對的關鍵挑戰(zhàn)包括在不同視角下保持物體一致性以及對被遮擋或不可見元素進行推理。表1(左側(cè))總結(jié)了基準測試的整體數(shù)據(jù)分布;鶞蕼y試的設計、分類和策劃的詳細信息在附錄A和B中提供。


分類
為了對VLM的空間推理能力進行細致分析,我們引入了一個分類體系,系統(tǒng)地對M I N D C U B E中的挑戰(zhàn)進行分類(如圖2所示)。該分類體系涵蓋五個關鍵維度:1)相機運動:我們主要收集了三種類型的相機運動:R O T A T I O N(保持原位但旋轉(zhuǎn)以環(huán)顧四周)、A R O U N D(圍繞被評估物體做圓形運動)和A M O N G(在被評估物體之間做圓形運動)。2)視覺模式:這描述了物體的空間配置,包括空間線性或非線性排列。3)“假設”動態(tài):對代理視角應用的假設性變換,例如平移、旋轉(zhuǎn)或它們的組合(同時和順序)。4)關系查詢:被查詢的空間關系類型,包括代理-物體、代理-代理或物體-物體。5)視角轉(zhuǎn)換:空間推理是否基于感知者自身的視角(自我)或涉及采用另一個實體的視角(其他)。詳細定義可在附錄A中找到。

2.2. 數(shù)據(jù)集策劃

M I N D C U B E數(shù)據(jù)集是通過一個流程創(chuàng)建的:我們首先選擇了符合我們分類體系的運動模式(圖2)和空間標準的多視角圖像組。然后,我們對這些圖像組進行了關鍵空間信息的標注。最后,我們通過算法生成了與分類體系對齊的問題,并加入了針對性的干擾項。詳細信息包含在附錄A.1中。

3. 哪種框架最適合指導未改變的VLMs進行空間思考?

為解決已識別的差距,我們首先評估了在有限視角下,通過近似空間心理模型,結(jié)構(gòu)化數(shù)據(jù)形式是否可以作為未改變的VLMs進行空間推理的框架。

3.1. 數(shù)據(jù)結(jié)構(gòu)作為空間心理模型的認知框架

我們研究了某些數(shù)據(jù)結(jié)構(gòu)是否可以作為認知框架,幫助VLMs從有限的視覺觀察中形成空間心理模型。在認知科學中,空間心理模型是內(nèi)部表征,編碼物體和視角的相對配置。它們并非精確的度量地圖,而是示意性的、可操作的構(gòu)建,支持跨越碎片化觀察和未見視角的推理 [12, 31, 32, 33]。例如,人類可以心理模擬轉(zhuǎn)動或推斷背后的東西,這表明這種表征是靈活的、不完整的,但功能上是有效的。借鑒這些文獻,我們在下面定義了三種數(shù)據(jù)結(jié)構(gòu)(詳細介紹可在附錄C.1中找到),每種結(jié)構(gòu)針對空間心理模型的不同認知屬性(整合、轉(zhuǎn)換、推理),并在圖3中提供了具體示例:


  1. 視圖插值。在稀疏的相機視圖之間進行插值,引入了感知連續(xù)性,呼應了心理動畫的過程 [34],并支持內(nèi)部轉(zhuǎn)換,例如想象中的旋轉(zhuǎn)。這種結(jié)構(gòu)支撐了空間心理模型的動態(tài)更新能力。圖3展示了一個單幀插入的示例,用以替換原始問題圖像。

  2. 增強型認知地圖。認知地圖是空間中物體布局的二維示意性表征。這種地圖類似于Tversky的認知拼貼 [31],它們捕捉局部連貫但碎片化的結(jié)構(gòu)。最近關于基于VLM的空間智能的研究 [8, 35] 通常采用一種僅在俯視圖中編碼物體位置的普通形式。我們提出了一個增強型變體,它結(jié)合了離散視圖,物體和視圖都通過位置和方向進行標注,從而接近空間心理模型的關系一致性。

  3. 自由形式推理。開放式的、逐步的自然語言推理提供了空間模型構(gòu)建和查詢的過程性近似。與地圖式結(jié)構(gòu)相比,這種推理較為靈活,但它反映了空間心理模型的推理功能,尤其是在模糊或不完整的觀察下 [32]。

3.2. 實驗設置

我們進行控制實驗,使用固定的輸入格式來測試結(jié)構(gòu)化框架是否可以在不重新訓練的情況下提供幫助。每種條件引入不同的結(jié)構(gòu),以支持在有限視角下的內(nèi)部建模。

模型和評估數(shù)據(jù)
我們使用Qwen2.5-VL-3B-Instruct [3] 進行所有實驗。我們的評估在M I N D C U B E - T I N Y上進行,這是從M I N D C U B E中抽樣的一個診斷子集,總共包含1,050個問題。詳細統(tǒng)計數(shù)據(jù)如下:600個來自A M O N G,250個來自A R O U N D,200個來自R O T A T I O N。

配置
每個實驗由兩個正交軸定義:輸入結(jié)構(gòu)(VLMs接收到的空間證據(jù))和輸出格式(所需響應類型)。作為本文的實驗基礎,我們從表2中列出的十種可能配置開始,從中調(diào)查一個代表性子集。具體來說,我們的增強型認知地圖是使用第2.1節(jié)中描述的物體排列注釋生成的,所有配置的示例均在附錄C.3中提供。在未改變的VLMs評估設置中,我們排除了Aug-CGMap-Out和Plain-CGMap-Out設置,因為即使被指示不要混淆,VLMs也傾向于將地圖生成與推理混為一談。

評估指標
我們使用問答準確率來評估任務表現(xiàn)。對于生成的認知地圖,我們引入了一套明確定義的圖指標:(1)有效認知地圖率,表明輸出是否符合預期的模式;(2)總體相似度,一個結(jié)合方向一致性和朝向一致性的加權(quán)分數(shù);(3)同構(gòu)率,衡量在最優(yōu)對齊下,所有成對物體關系是否與真實值匹配。完整定義在附錄C.2中提供。

3.3. 框架能否在無需訓練的情況下改善空間推理?

我們在表2中定義的七種輸入配置下,評估了這些配置在有限視角下對VLMs空間推理的支持效果,且不進行任何模型更新。結(jié)果如表3(左側(cè))所示。



僅靠結(jié)構(gòu)能走多遠?我們從基線開始:原始輸入視圖和直接回答(Raw-QA),其準確率為37.81%。加入插值視圖,我們希望借此模擬更平滑的感知過渡,但并沒有帶來實質(zhì)性的提升(↑0.09%)。同樣,將預先計算好的增強型認知地圖作為直接輸入(Aug-CGMap-In)會嚴重降低性能,降至32.00%。相比之下,僅啟用自由形式推理(FF-Rsn)或與其他設置結(jié)合(Aug-CGMap-FFR-Out、Plain-CGMap-FFR-Out、CGMap-In-FFR-Out)則顯著提升了準確率,達到41.33%。這些結(jié)果表明:僅靠結(jié)構(gòu)本身,無論是視覺結(jié)構(gòu)還是空間結(jié)構(gòu),都是不夠的。如果不進行推理,VLMs很難利用即使是良好構(gòu)建的空間線索。

我們能否引導模型進行空間思考?答案似乎是肯定的。提示模型在回答之前生成認知地圖(Aug-CGMap-FFR-Out、Plain-CGMap-FFR-Out),相較于僅進行自由形式推理(FF-Rsn),準確率從40.48%提升至41.43%。這表明生成地圖可能會促使模型首先形成對場景的全局理解,從而支持更結(jié)構(gòu)化的推理。兩種地圖形式都具有很強的格式遵循能力,但在生成準確地圖方面卻表現(xiàn)不佳。總體而言,增強型地圖表現(xiàn)更差。在表3(右側(cè)),盡管兩種格式的地圖在語法上都是有效的,但與真實地圖的相似度很低(<50%),反映出有限的地圖生成能力。值得注意的是,增強型地圖和平面地圖的同構(gòu)率都很低(0.10%、7.43%)。增強型地圖設置的同構(gòu)率近乎為零,可能是因為添加的視圖級細節(jié)增加了生成錯誤。詳細的案例示例可在附錄D中找到。


4. 我們能否教會VLMs構(gòu)建和利用空間表征?

到目前為止,通過外部框架(如插值視圖或認知地圖)提示凍結(jié)的VLMs只取得了有限的收益。這些技術未能解決核心限制:VLMs無法有效形成內(nèi)部空間表征或通過空間進行推理。為了更進一步,我們想知道:監(jiān)督式微調(diào)(SFT)能否教會VLMs從內(nèi)部構(gòu)建和利用空間模型?

4.1. 設計一個穩(wěn)健的實驗框架

為了確保一致性和可比性,我們繼承了第3.1節(jié)和第3.2節(jié)中詳細描述的實驗配置。具體來說,我們保留了:(1)兩種有效的數(shù)據(jù)結(jié)構(gòu)——認知地圖(僅物體 / 物體 + 相機)和自由形式推理,(2)基礎模型Qwen2.5-VL-3B-Instruct,(3)評估基準M I N D C U B E - T I N Y,以及(4)所有既定的評估指標。由于在早期驗證中表現(xiàn)有限,視圖插值被排除在我們的微調(diào)實驗之外。在這一SFT階段的主要修改包括調(diào)整了訓練超參數(shù)(詳細信息見附錄E.2)和輸入輸出配置。

SFT任務配置
借鑒第3.3節(jié)的見解,我們使用表2中選定的配置來評估認知地圖生成和自由形式推理在SFT中的增量影響。這些配置包括沒有明確推理的基線問答(Raw-QA)、僅由生成的地圖引導的推理(Plain-CGMap-Out、Aug-CGMap-Out)、推理增強提示(FF-Rsn)以及一個完全集成的設置,要求VLMs同時生成地圖和推理(Aug-CGMap-FFR-Out和Plain-CGMap-FFR-Out)。

基于真實數(shù)據(jù)的認知地圖生成
基于真實數(shù)據(jù)的認知地圖不僅在第3.2節(jié)中作為凍結(jié)VLMs的Aug-CGMap-In和CGMap-In-FFR-Out設置的輸入,而且在SFT中也作為訓練和比較數(shù)據(jù)。我們通過基于模板的方法策劃這些基于真實數(shù)據(jù)的認知地圖,始終選擇我們注釋中的前視圖作為“上方”方向。詳細的注釋算法可在附錄E.1.1中找到。

基于真實數(shù)據(jù)的自由形式推理鏈生成
我們使用詳細的圖像注釋和結(jié)構(gòu)化的問題模板設計基于真實數(shù)據(jù)的推理鏈。這些鏈通過基于模板的方法手動構(gòu)建,確保邏輯連貫并清晰地基于可觀察的空間關系(見圖3中的示例)。這產(chǎn)生了精確且可解釋的監(jiān)督信號,幫助VLMs學習穩(wěn)健的空間推理表征。詳細的基于真實數(shù)據(jù)的推理數(shù)據(jù)生成流程在附錄E.1.2中展示。

4.2. VLMs是否真正從空間推理的顯式訓練中受益?

我們探索了幾種監(jiān)督式微調(diào)(SFT)配置(結(jié)果見表4),這些問題由一系列核心問題指導。直接在原始問答對上進行微調(diào),而沒有空間監(jiān)督,準確率從37.81%提升到52.28%。這表明VLMs可以從問答數(shù)據(jù)本身吸收一些空間線索。我們使用這種設置作為評估顯式引入空間結(jié)構(gòu)方法的基線。

僅靠心智模型的結(jié)構(gòu)化近似能否顯著提升性能?如表2所示,對明確的認知地圖(無論是增強型還是普通型)進行監(jiān)督式微調(diào),可以顯著提升圖結(jié)構(gòu)的質(zhì)量,在總體相似度和同構(gòu)率方面都有超過30%的提升。然而,對最終任務準確率的影響仍然有限。增強型地圖(54.19%)和平面地圖(54.38%)相比微調(diào)后的原始問答(52.28%)只有小幅提升。同樣,直接進行自由形式推理(FF-Rsn)也只帶來了微小的提升(51.09%)。這意味著僅靠框架本身不足以自動轉(zhuǎn)化為性能提升。

生成認知地圖和自由形式推理是最有效的近似方法。

在所有配置中,生成普通地圖然后進行推理的組合(Plain-CGMap-FFR-Out)取得了突出的性能提升(60.76%,相比Raw QA-SFT提升了8.48%),超過了僅依賴地圖生成或單獨推理的模型。這表明結(jié)構(gòu)化的空間建模與自然語言推理之間存在強大的協(xié)同作用。為什么這種組合效果如此之好?首先,任務準確率的提升伴隨著高質(zhì)量的空間表征。例如,表現(xiàn)最佳的Plain-CGMap-FFR-Out模型實現(xiàn)了出色的地圖質(zhì)量(88.79%的相似度和73.81%的同構(gòu)率),顯示出其增強的準確率與其內(nèi)部空間模型之間的強關聯(lián)。此外,訓練動態(tài)揭示了一個關鍵的權(quán)衡,解釋了這種協(xié)同作用。如圖4(b、c)所示,僅在地圖生成上訓練的模型(Plain-CGMap-Out)非常迅速地學會了目標結(jié)構(gòu),迅速達到近乎完美的相似度和同構(gòu)率。然而,它們的問答準確率很快趨于平穩(wěn)(圖4a),這表明模型學會了結(jié)構(gòu),但沒有完全掌握其功能用途。相比之下,表現(xiàn)最佳的Plain-CGMap-FFR-Out模型學習地圖結(jié)構(gòu)的速度更慢,且從未達到相同的結(jié)構(gòu)完美程度。然而,其問答準確率持續(xù)上升,最終超過了所有其他配置。這表明推理任務的聯(lián)合壓力迫使模型不僅僅復制一個結(jié)構(gòu),而是構(gòu)建一個功能有效的空間表征,這種表征是為了下游推理而優(yōu)化的。



關鍵要點:教會視覺語言模型(VLMs)進行空間推理

  • 聯(lián)合認知地圖和推理設置通過協(xié)同效應產(chǎn)生最佳性能。

  • 推理塑造了空間表征的功能實用性,而不僅僅是結(jié)構(gòu)上的完美。

  • 無論是地圖生成還是推理單獨進行,都未能大幅超越監(jiān)督式微調(diào)問答(SFT QA)的基線。

5. 強化學習能否進一步優(yōu)化空間思維過程?

雖然監(jiān)督式微調(diào)(SFT)為空間推理建立了強大的基線,但像DeepSeek R1 [36, 37]這樣的模型的新興證據(jù)表明,強化學習(RL)可以通過結(jié)果驅(qū)動的反饋優(yōu)化行為,從而提供額外的收益。我們提出問題:獎勵引導的精細化能否幫助視覺語言模型(VLMs)構(gòu)建更精確的空間模型并更有效地進行推理?

5.1. 實驗設置

我們采用VAGEN框架[38]進行視覺語言模型策略優(yōu)化,使用組相對策略優(yōu)化(GRPO)[39]作為核心算法。為了管理計算成本,我們每個配置只訓練0.5個周期。為了公平比較,RL設置保留了SFT階段的所有關鍵組件,包括基礎模型、空間輸入格式、基準數(shù)據(jù)集(M I N D C U B E - T I N Y)和評估指標,詳見第3.1節(jié)和第3.2節(jié)。更多細節(jié)見附錄F.1。

任務配置和獎勵設計
我們評估了三種RL變體:(1)RL-FF-Rsn(從頭開始),訓練Qwen2.5-VL-3B-Instruct生成自由形式推理鏈;(2)RL-Aug-CGMap-FFR-Out(從頭開始),訓練模型聯(lián)合生成認知地圖和推理;(3)RL-Aug-CGMap-FFR-Out(從SFT開始),從最強的SFT檢查點初始化。獎勵函數(shù)是稀疏但有針對性的:結(jié)構(gòu)有效輸出+1分,正確答案+5分。

5.2. 強化學習能否釋放近似空間心理建模的力量?

強化學習(RL)讓模型通過獎勵感受到其空間思維的后果,但僅憑這種反饋是否足以鍛造出真正的“心理地圖”,還是我們必須首先教會模型地圖的樣子?表5總結(jié)了三個關鍵設置,并分兩部分回答了這個問題。


在真空中進行RL是不夠的。從零開始訓練,使用稀疏獎勵,對于構(gòu)建穩(wěn)健的空間表征提供的指導不足。當要求模型產(chǎn)生自由形式推理(從零開始的RL-FF-Rsn)時,模型的整體準確率僅為50.57%。雖然這個結(jié)果比初始基線有所提高,但證實了僅靠任務級別的獎勵本身過于無結(jié)構(gòu),無法有效地教授空間抽象。

從頭開始學習時,結(jié)構(gòu)化輸出提供了適度的好處。引入認知地圖結(jié)構(gòu)供策略生成,為其推理提供了框架。從頭開始時,更簡單的RL-Plain-CGMap-FFR-Out配置(53.71%)在問答準確率上略勝其增強型對應配置(52.19%)。然而,在這兩種情況下,模型都無法學習到有意義的幾何結(jié)構(gòu),相似度得分低,同構(gòu)率接近零。這表明,如果沒有“好”地圖的先驗概念,RL很難利用所提供的結(jié)構(gòu)格式,即使它能學會有效地填充它。

當站在SFT構(gòu)建的框架上時,RL大放異彩。最顯著的改進發(fā)生在從最優(yōu)SFT檢查點熱啟動RL時。RL-Plain-CGMap-FFR-Out(從SFT開始)及其增強版本都達到了相同的、令人印象深刻的70.67%整體問答準確率。這代表了比最佳SFT模型絕對提高了9.91%,比最佳從零開始的RL方法提高了16.96%。至關重要的是,盡管兩個模型都達到了相同的峰值準確率,但它們潛在的空間表征卻有所不同。Plain-CGMap變體產(chǎn)生了幾何上更優(yōu)越的地圖,具有更高的整體相似度(85.79%)和高得多的同構(gòu)率(71.52%對比58.86%)。這表明,盡管RL微調(diào)可以引導不同的初始模型達到相同的推理熟練度,但從更干凈、更簡單的SFT框架(Plain)開始,可以讓RL更好地保留和完善幾何上合理的內(nèi)部地圖。

這些結(jié)果強烈表明,RL在這里的主要作用是(1)打磨和完善在SFT期間學到的強先驗,以及(2)提高SFT的性能上限,使模型能夠突破以前的瓶頸,達到接近神諭級別的性能。


關鍵要點:空間推理的強化學習

  • 結(jié)合認知地圖與推理始終能一致性地改善所有學習成果。

  • 從頭開始,強化學習(RL)對空間推理僅提供邊際增益;當建立在強大的監(jiān)督式微調(diào)(SFT)基礎上時,其真正力量才會被釋放。

6. 相關工作

空間認知
空間認知包括心理旋轉(zhuǎn)、空間可視化和物體組裝等技能,對于在二維和三維環(huán)境中感知和操作空間關系至關重要 [40, 19, 41]。這些能力的核心是空間心理模型(SMMs)[11, 12],它們是內(nèi)部表征,允許對空間有一致的理解。最近,許多努力致力于評估VLMs中的空間認知 [42, 13, 18, 43]。此外,一些方法被提出以增強空間理解,如坐標感知提示 [44]、思維鏈(CoT)推理 [10, 45]、顯式空間表征對齊 [46, 29] 和基于RL的方法 [47]。然而,現(xiàn)有的基準測試 [18, 42, 48, 49, 43, 13, 17, 50, 51, 8, 52] 和方法往往忽視了支撐人類認知的心理層面的空間推理,留下了機器與人類能力之間的差距。為了彌合這一差距,需要一種新的方法,訓練VLMs不僅通過視覺數(shù)據(jù),而且通過心理層面的空間推理來推理空間,更緊密地與人類空間認知對齊。

多視角理解
多視角空間理解利用多個視角重建三維結(jié)構(gòu),克服單視角限制。高效的技術優(yōu)化視角處理,而重建方法[53, 54, 55, 56]、視角合成方法[57, 58, 59]和多視角等變學習[60]增強幾何一致性。拓撲表示如[61]編碼對象關系以進行整體推理,而框架如[62]通過神經(jīng)場和視覺語言融合,從多視角數(shù)據(jù)中推進開放詞匯概念學習。增強了多視角輸入的LMMs[63, 30, 64, 65, 18, 66, 67]在空間任務如幾何理解和視角轉(zhuǎn)換方面表現(xiàn)出顯著的改進,但它們?nèi)匀辉诙嘁暯且恢滦岳斫夥矫鎾暝捎谒槠评砗投S到三維投影的歧義,留下了穩(wěn)健空間AI的關鍵差距。

7. 結(jié)論和未來影響

我們引入了M I N D C U B E來研究VLMs如何從有限視角近似空間心理模型,這是在部分可觀測環(huán)境中推理的核心認知能力。超越基準測試,我們探索了如何通過結(jié)構(gòu)化數(shù)據(jù)和推理來支撐內(nèi)部表征。我們的關鍵發(fā)現(xiàn)是,構(gòu)建和推理自生成的認知地圖,而不是依賴視圖插值或外部提供地圖,是在所有引導方法(輸入輸出配置、監(jiān)督式微調(diào)和強化學習)中對空間心理模型最有效的近似。

從一個訓練有素的SFT檢查點初始化RL進一步優(yōu)化了這一過程,將空間推理性能推向了新的極限。

未來影響
我們的工作確立了結(jié)合認知地圖生成與推理來模擬空間信息是最有效的。我們相信,一旦為認知地圖生成和推理建立了高質(zhì)量的SFT數(shù)據(jù)集,就可以利用RL進一步推動性能邊界。我們期待探索旨在釋放更大協(xié)同效應的新型訓練范式,從而在空間智能上實現(xiàn)“1+1>2”的影響。

原文鏈接:https://arxiv.org/pdf/2506.21458

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中央定調(diào)!收入分配大洗牌!全民增收,怎么才算贏,誰替我們贏?

中央定調(diào)!收入分配大洗牌!全民增收,怎么才算贏,誰替我們贏?

明天見灌裝冰塊
2026-01-22 19:36:29
開國上將許世友之孫:中國首位火箭軍女博士,長相俊美,為人低調(diào)

開國上將許世友之孫:中國首位火箭軍女博士,長相俊美,為人低調(diào)

文史達觀
2026-01-15 14:50:48
策略:明天1月28日的預判出來了,全面減倉之前,我要說兩句!

策略:明天1月28日的預判出來了,全面減倉之前,我要說兩句!

一擔金
2026-01-27 13:09:20
3分鐘爆砍11分新星閃耀,老將零分難堪

3分鐘爆砍11分新星閃耀,老將零分難堪

曦言說
2026-01-28 00:48:44
黃仁勛逛過的上海菜市場水果店火了 老板要做條幅:能見到大腕是緣分

黃仁勛逛過的上海菜市場水果店火了 老板要做條幅:能見到大腕是緣分

快科技
2026-01-27 18:38:07
你被中國保護得太好了,所以很傻很天真

你被中國保護得太好了,所以很傻很天真

一個壞土豆
2026-01-27 19:51:27
貝克漢姆堅持兒子離婚,16億婚前協(xié)議導致和解困難

貝克漢姆堅持兒子離婚,16億婚前協(xié)議導致和解困難

君笙的拂兮
2026-01-26 15:51:34
毛澤連家境困難,建國后進京拜訪三哥,毛澤東:我不是毛家的主席

毛澤連家境困難,建國后進京拜訪三哥,毛澤東:我不是毛家的主席

大運河時空
2026-01-26 17:40:02
沉默24小時,中方一錘定音,高市公布戰(zhàn)爭方案,日本要求漁民撤離

沉默24小時,中方一錘定音,高市公布戰(zhàn)爭方案,日本要求漁民撤離

影孖看世界
2026-01-27 21:06:03
41歲"舅媽"火遍全國!央媒揭開15年無人問津真相,郭京飛早已看穿

41歲"舅媽"火遍全國!央媒揭開15年無人問津真相,郭京飛早已看穿

白面書誏
2025-12-30 16:19:03
鄰居天天撮合我和她女兒,我果斷拒絕,沒想到一個月后她來找我

鄰居天天撮合我和她女兒,我果斷拒絕,沒想到一個月后她來找我

白云故事
2026-01-27 13:50:03
男子網(wǎng)戀二次奔現(xiàn)32歲少婦,網(wǎng)友秒懂:一看就是別人老婆!

男子網(wǎng)戀二次奔現(xiàn)32歲少婦,網(wǎng)友秒懂:一看就是別人老婆!

農(nóng)村情感故事
2026-01-23 12:31:47
人民日報怒批!炫富、偷稅749萬、跑國外,現(xiàn)又來“割內(nèi)地韭菜”

人民日報怒批!炫富、偷稅749萬、跑國外,現(xiàn)又來“割內(nèi)地韭菜”

小熊侃史
2026-01-18 07:20:09
網(wǎng)友投訴富國基金贖回7天不到賬,真相是……

網(wǎng)友投訴富國基金贖回7天不到賬,真相是……

鳳凰網(wǎng)財經(jīng)
2026-01-27 21:04:24
中方再出手,高市的報應來得太快,日本人這個年過不好了

中方再出手,高市的報應來得太快,日本人這個年過不好了

阿褲趣聞君
2026-01-28 03:05:51
拒絕回歸曼城!除非瓜帥下課!英超mvp太高調(diào),還在記恨當年替補

拒絕回歸曼城!除非瓜帥下課!英超mvp太高調(diào),還在記恨當年替補

阿泰希特
2026-01-27 12:24:53
特朗普暴跳如雷!英國專家:一種情況下,美國將立即對華發(fā)動核戰(zhàn)

特朗普暴跳如雷!英國專家:一種情況下,美國將立即對華發(fā)動核戰(zhàn)

面包夾知識
2026-01-27 18:08:25
寧波律師葉子民涉嫌違紀違規(guī)被立案調(diào)查

寧波律師葉子民涉嫌違紀違規(guī)被立案調(diào)查

潮評社
2026-01-27 10:21:21
美國趕走大批中國科學家后,聘用了印度專家,結(jié)果如何?

美國趕走大批中國科學家后,聘用了印度專家,結(jié)果如何?

素年文史
2026-01-26 19:11:06
罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發(fā)生了

罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發(fā)生了

來科點譜
2026-01-23 11:08:02
2026-01-28 05:08:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關鍵信息

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

手機
教育
本地
親子
數(shù)碼

手機要聞

蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

教育要聞

對話陳妤頡:閃閃發(fā)光的賽道,追逐夢想

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

親子要聞

雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

無障礙瀏覽 進入關懷版