經(jīng)驗快速遷移與額葉抽象編碼

2026-03-03 20:14:42　來源: CreateAMind

上海舉報

分享至

Schema-based active inference supports rapid generalization ofexperience and frontal cortical coding of abstract structure

圖式主動推理：經(jīng)驗快速遷移與額葉抽象編碼

https://arxiv.org/pdf/2601.18946

https://github.com/toonvdm/grounding-schemas

摘要

圖式——捕捉經(jīng)驗間共性的抽象關(guān)系結(jié)構(gòu)——被認為是人類和動物能夠快速泛化知識、將新經(jīng)驗重新綁定到現(xiàn)有結(jié)構(gòu)以及在不同情境下靈活適應(yīng)行為的基礎(chǔ)。盡管它們在認知中處于核心地位，但支持圖式形成和使用的計算原理和神經(jīng)機制仍然難以捉摸。在此，我們介紹了基于圖式的層級主動推理（S-HAI），這是一個將預測處理和主動推理與基于圖式的機制相結(jié)合的新型計算框架。在 S-HAI 中，高層生成模型編碼抽象任務(wù)結(jié)構(gòu)，而低層模型編碼空間導航，兩個層級通過一個將抽象目標映射到物理位置的接地似然相連接。通過一系列模擬，我們表明 S-HAI 復現(xiàn)了空間導航任務(wù)中快速基于圖式泛化的關(guān)鍵行為特征，包括將抽象圖式靈活重映射到新情境的能力、解決目標歧義以及平衡新穎映射的復用與順應(yīng)。關(guān)鍵的是，S-HAI 還復現(xiàn)了在依賴圖式的導航和決策任務(wù)期間嚙齒動物內(nèi)側(cè)前額葉皮層中報道的顯著神經(jīng)編碼，包括任務(wù)不變的目標進展細胞、目標身份細胞和目標與空間聯(lián)合細胞，以及低層的類位置編碼。綜上所述，這些結(jié)果提供了基于圖式的學習和推理的機制性解釋，連接了行為、神經(jīng)數(shù)據(jù)和理論。更廣泛地說，我們的發(fā)現(xiàn)表明，圖式形成和泛化可能源于跨皮層和海馬回路層級實施的預測處理原則，從而實現(xiàn)經(jīng)驗的泛化。

關(guān)鍵詞：圖式；層級主動推理；預測處理；前額葉皮層；海馬

1 引言

人類和其他動物展現(xiàn)出非凡的能力，能夠憑借極少的新經(jīng)驗將其知識快速泛化至新穎環(huán)境。這種能力仍是當前人工系統(tǒng)和人工智能系統(tǒng)無法比擬的，后者通常需要大量針對特定問題的數(shù)據(jù)集。

在認知科學中，長期以來人們假設(shè)一種特定的認知結(jié)構(gòu)——圖式（schemas）——可能支持將現(xiàn)有知識與技能泛化至新情境。圖式通常被定義為關(guān)系性知識結(jié)構(gòu)，用于捕捉多次經(jīng)驗中抽象出的共性。它們使個體能夠在記憶中組織和解釋經(jīng)驗，并泛化至具有潛在結(jié)構(gòu)相似性但感官細節(jié)不同的新情境（Piaget, 1952; Bartlett, 1932）。關(guān)鍵洞見在于：圖式通過經(jīng)驗形成，編碼所推斷的關(guān)系性任務(wù)結(jié)構(gòu)，同時抽象掉低層（感官）細節(jié)。圖式不僅將經(jīng)驗組織成豐富的關(guān)系集合，還作為模板，使新經(jīng)驗得以快速同化。此類學習——或稱同化（assimilation）——僅需將新經(jīng)驗的低層感官細節(jié)映射到現(xiàn)有圖式的抽象關(guān)系結(jié)構(gòu)上，從而實現(xiàn)知識在新情境中的快速（理想情況下為單次）復用與泛化。因此，其速度顯著快于經(jīng)典試錯或聯(lián)想學習理論所強調(diào)的漸進式知識積累。此外，除了同化——將新信息納入現(xiàn)有圖式——還存在第二種過程，稱為順應(yīng)（accommodation），即當新信息無法契合現(xiàn)有圖式時，創(chuàng)建新圖式或修改既有圖式。Piaget（1952） famously 指出，同化與順應(yīng)的雙重過程是學習與發(fā)展的基礎(chǔ)。

這些源于認知科學的思想自人工智能早期便頗具影響力，激發(fā)了大量理論構(gòu)建與實現(xiàn)圖式（或相關(guān)結(jié)構(gòu)，如框架或腳本）的努力，尤其在但不局限于符號人工智能傳統(tǒng)中（Minsky, 1986; Schank and Abelson, 2013; Hummel and Holyoak, 1997）。多年來，多種理論觀點認為，將現(xiàn)有圖式與任務(wù)表征重映射至新任務(wù)，是抽象、結(jié)構(gòu)推斷與類比推理的核心，這一機制見于多個認知領(lǐng)域，從目標導向?qū)Ш降揭?guī)則學習與敘事理解（Chollet, 2019; Mitchell, 2021; Hofstadter, 1999; Tenenbaum et al., 2011; Roy, 2005; Pezzulo, 2009; Niv, 2019; Schuck et al., 2016; Bein and Niv, 2025; B?hner et al., 2025; Collin et al., 2025; Goudar et al., 2023; Beukers et al., 2024; Yang et al., 2019; Sandbrink and Summerfield, 2024）。

然而，設(shè)計能夠有效學習圖式并將其泛化至新經(jīng)驗的計算模型仍是一項重大挑戰(zhàn)。關(guān)鍵難點包括：識別用于形成圖式的底層關(guān)系結(jié)構(gòu)、以支持快速重綁定至新情境的形式對其進行編碼，以及設(shè)計 enabling 現(xiàn)有圖式與新問題之間快速映射的機制。盡管已有進展，但關(guān)于基于圖式的學習與推理——尤其在復雜動態(tài)環(huán)境中——的全面計算解釋仍難以捉摸。盡管如此，神經(jīng)科學已開始為這些挑戰(zhàn)提供寶貴洞見。

在神經(jīng)科學領(lǐng)域，多項研究探討了圖式在嚙齒類與靈長類動物中的作用。這些研究揭示，三個相互連接的腦結(jié)構(gòu)——海馬、內(nèi)嗅皮層與前額葉皮層——可能在基于圖式的快速學習與系統(tǒng)鞏固中發(fā)揮關(guān)鍵作用（Farzanfar et al., 2023）。例如，Tse 等人（2007）表明，大鼠僅需單次學習 episode 即可將新信息整合進現(xiàn)有聯(lián)想圖式，并觀察到海馬活動的相應(yīng)變化。這支持了如下觀點：當新信息與先前獲得的關(guān)系結(jié)構(gòu)一致時，圖式可促進快速學習。其他研究顯示，隨著圖式習得，海馬表征變得更為抽象與有組織，這體現(xiàn)在靜息與睡眠期間的海馬重放與再激活模式中（McKenzie et al., 2014）。除海馬之外，內(nèi)嗅皮層的網(wǎng)格細胞也被認為參與認知地圖形成與圖式學習（Neupane et al., 2024）。在空間導航過程中，網(wǎng)格細胞提供空間的周期性、低維表征，被認為支持路徑積分與類地圖計算（Hafting et al., 2005）。近期研究提示，網(wǎng)格樣編碼可能超越物理空間，支持抽象認知地圖，包括任務(wù)空間與關(guān)系結(jié)構(gòu)（Buzsáki and Moser, 2013; Bellmund et al., 2018; Viganò et al., 2023; Bottini and Doeller, 2020; Dong and Fiete, 2024）。這些研究表明，內(nèi)嗅皮層的網(wǎng)格細胞可能作為穩(wěn)定、可復用的坐標系統(tǒng)，將由海馬介導的任務(wù)特異性細節(jié)錨定于抽象關(guān)系支架之上，以組織圖式知識。

最后，多項研究指出，前額葉皮層——可能通過與海馬的交互——在形成認知地圖與圖式聯(lián)想、將新信息整合入現(xiàn)有圖式，以及判斷啟用同化或順應(yīng)過程方面發(fā)揮關(guān)鍵作用（Gilboa and Marlatte, 2017; Zeithamova et al., 2012; Van Kesteren et al., 2012; Giuliano et al., 2021; Bonasia et al., 2018; Baldassano et al., 2018; Basu et al., 2021; Manakov et al., 2025; Schuck et al., 2016; Wang and Hayden, 2021; Vaidya and Badre, 2022; Tang et al., 2023）。El-Gaby 等人（2024）提供了一個尤為突出的圖式學習與泛化實例：他們證明嚙齒類動物內(nèi)側(cè)前額葉皮層參與學習序列任務(wù)（ABCD 任務(wù)，要求按正確順序到達四個目標位置）的抽象結(jié)構(gòu)，并在目標位置變化但序列保持不變的新環(huán)境中復用該結(jié)構(gòu)?；趫D式的快速學習的一個關(guān)鍵行為指標是：大鼠在發(fā)現(xiàn)位置 D 后迅速移向位置 A。在神經(jīng)元層面，這種能力由多種細胞類型支持，這些細胞對抽象目標、物理位置及其他任務(wù)相關(guān)信息的不同組合敏感。

這些及其他研究促成了一個趨同的計算視角，其核心洞見是：在圖式形成過程中，關(guān)系結(jié)構(gòu)獨立于感官細節(jié)被表征；關(guān)系結(jié)構(gòu)中的每個狀態(tài)隨后通過可快速學習的聯(lián)想鏈接綁定至特定經(jīng)驗。這一觀點已在一系列聚焦海馬與內(nèi)嗅皮層的計算模型中提出（Whittington et al., 2020, 2018, 2025; Chandra et al., 2025）。在此視角下，內(nèi)嗅皮層的網(wǎng)格細胞系統(tǒng)提供關(guān)系支架，而個體經(jīng)驗在海馬中編碼；內(nèi)嗅網(wǎng)格系統(tǒng)與海馬位置細胞及聯(lián)合細胞的交互，可能允許在結(jié)構(gòu)化表征空間內(nèi)快速編碼新經(jīng)驗，從而促進同化與順應(yīng)過程。另一種基于克隆結(jié)構(gòu)因果圖（CSCG）的相關(guān)計算解釋已在海馬的圖式與重綁定研究中發(fā)展起來（George et al., 2021; Guntupalli et al., 2023; Swaminathan et al., 2023; Raju et al., 2024）。在此視角下，迷宮認知地圖的潛在結(jié)構(gòu)可通過與特定觀測解耦而被抽象，并作為圖式復用以加速其他迷宮中的學習。相同機制也可用于學習算法的抽象結(jié)構(gòu)與語言的模板結(jié)構(gòu)（Swaminathan et al., 2023），其中推理時可塑性解決了在動態(tài)綁定潛在結(jié)構(gòu)至新輸入的同時召回適當圖式的問題。近期建模工作將這些思想擴展至前額葉皮層的神經(jīng)活動，但未探討圖式如何在空間導航過程中被學習與部署（El-Gaby et al., 2024）。

盡管具有價值，這些研究仍遺留若干重要問題未解，包括：抽象圖式如何在目標導向?qū)Ш脚c規(guī)劃過程中形成并利用；它們?nèi)绾螖U展至更具挑戰(zhàn)性的情境——其中需從頭創(chuàng)建多個圖式或現(xiàn)有圖式與新問題間的多種映射，以捕捉 Piaget（1952）所稱同化與順應(yīng)的動態(tài)過程；以及它們?nèi)绾闻c前額葉皮層的神經(jīng)處理相關(guān)聯(lián)，如 ABCD 任務(wù)中所見（El-Gaby et al., 2024）。

盡管先前關(guān)于 CSCG 的工作已探討從部分可觀測感官輸入中學習空間作為潛在結(jié)構(gòu)的問題（Raju et al., 2024），且 CSCG 圖式（Guntupalli et al., 2023; Swaminathan et al., 2023）解決了利用圖式遷移已習得的空間或算法結(jié)構(gòu)的問題，但它們未解決在同一空間環(huán)境中遷移多個已習得任務(wù)結(jié)構(gòu)的問題。要在部分可觀測設(shè)定下實現(xiàn)這一點，需學習新的任務(wù)結(jié)構(gòu)圖式，該圖式利用先前已習得的空間結(jié)構(gòu)的潛在狀態(tài)。

在本研究中，我們開發(fā)并驗證了一種新型基于圖式的層級主動推理（S-HAI）模型，以應(yīng)對這些挑戰(zhàn)。下一節(jié)中，我們首先介紹實驗任務(wù)（ABCD 與 ABCB，第 2.1 節(jié)）及解決這些任務(wù)的基于圖式的層級主動推理（S-HAI）智能體（第 2.2 節(jié)）。隨后，我們呈現(xiàn)四項模擬，評估 S-HAI 智能體是否展現(xiàn)出經(jīng)驗報道的基于圖式的推理與學習的行為及神經(jīng)（前額葉）特征。第一項模擬表明，S-HAI 智能體中的基于圖式推理使其能在 El-Gaby 等人（2024）的 ABCD 任務(wù)中實現(xiàn)快速泛化（第 2.3 節(jié)）。第二項模擬展示了基于圖式推理在更具挑戰(zhàn)性的 ABCB 任務(wù)中的有效性，該任務(wù)中兩個目標可占據(jù)同一位置，類似于空間交替任務(wù)（Jadhav et al., 2012）（第 2.4 節(jié)）。第三項模擬表明，S-HAI 智能體具備增量式在線學習能力，并能在關(guān)于如何將抽象圖式映射至當前迷宮的多種假設(shè)間進行選擇（第 2.5 節(jié)）。最后，第四項模擬表明，S-HAI 智能體在學習 ABCD 任務(wù)過程中涌現(xiàn)的神經(jīng)表征，展現(xiàn)了嚙齒類動物內(nèi)側(cè)前額葉皮層（mFC）中圖式處理的關(guān)鍵神經(jīng)特征（El-Gaby et al., 2024）。

2 結(jié)果

2.1 實驗任務(wù)：ABCD 和 ABCB 任務(wù)

我們采用來評估模型的主要實驗任務(wù)是 El-Gaby 等人（2024）的 ABCD 任務(wù)。在此任務(wù)中，嚙齒動物（或人工智能體）通過在迷宮上按正確順序訪問四個目標位置來獲取獎勵（圖 1b）。迷宮由排列成 3 × 3 網(wǎng)格的九個井（wells）組成，每個井由九個瓦片（tiles）組成，這些瓦片通過單瓦片走廊連接。智能體獲得獎勵后，新獎勵被放置在序列中下一個井的中心。四個目標位置在不同塊（blocks）之間有所不同，每個塊包含多次試驗。例如，在塊 1 中，四個目標位于迷宮位置：“左上”、“上中”、“下中”和“中左”，而在塊 2 中，它們位于位置：“上中”、“左下”、“左上”和“右上”。關(guān)鍵在于，底層（ABCD）結(jié)構(gòu)在整個實驗過程中保持不變：嚙齒動物必須始終按正確順序循環(huán)遍歷四個目標位置（例如，A, B, C, D, A, ...）。可變感官細節(jié)與穩(wěn)定關(guān)系結(jié)構(gòu)之間的區(qū)別使得 ABCD 任務(wù)成為基于圖式推理的自然試驗臺。

我們還解決了一個更具挑戰(zhàn)性的變體，即 ABCB 任務(wù)，其中兩個目標（B 目標）占據(jù)相同的空間位置（圖 1c）。此設(shè)置類似于嚙齒動物中常用的空間交替任務(wù)（Jadhav 等人，2012），并且比 ABCD 任務(wù)要求更高，因為在 B 處，動物必須記住它們是從 A 還是從 C 到達的，以便正確選擇下一個目標，C 或 A。

2.2 基于圖式的層級主動推理（S-HAI）

我們使用一種新型基于圖式的層級主動推理（S-HAI）智能體來解決 ABCD 和 ABCB 任務(wù)，該智能體包含兩個層級，實現(xiàn)為兩個相互連接的部分可觀測馬爾可夫決策過程（POMDPs）。圖 1a 提供了 S-HAI 及其三個組成部分的示意圖：處理空間導航的第 1 層；處理基于圖式推理的第 2 層；以及接地似然（grounding likelihood），它指定了編碼在圖式中的抽象目標與迷宮中特定位置之間的概率映射。參見第 4 節(jié)了解 S-HAI 智能體的形式化規(guī)范。

在較低層級（第 1 層），S-HAI 智能體處理“導航空間”中的空間導航，即圖 1b 中描繪的網(wǎng)格世界。在此層級，智能體觀察其當前訪問的瓦片顏色，并可以使用四種動作（“上”、“下”、“左”和“右”）導航網(wǎng)格。用于導航的轉(zhuǎn)移模型參數(shù)是通過離線訓練獲得的，模擬了在相應(yīng)的嚙齒動物研究中，動物在圖式學習之前已經(jīng)了解環(huán)境的事實（參見第 4 節(jié)）。預覽我們的模擬結(jié)果，我們發(fā)現(xiàn)訓練后，模型正確恢復了 105 個位置之間的轉(zhuǎn)移動態(tài)（圖 1d，圖 1a 中的插圖“第 1 層”）。

在較高層級（第 2 層），智能體在“任務(wù)空間”中執(zhí)行基于圖式的學習和推理。ABCD 任務(wù)中的基于圖式學習等同于學習目標之間的抽象轉(zhuǎn)移模型，代表通過依次訪問四個抽象目標 A、B、C 和 D，然后再次 A ，來獲得獎勵的事實?；趫D式的推理等同于基于第 1 層潛在狀態(tài)的觀察以及獎勵的有無來推斷智能體在任務(wù)空間中的當前位置（例如，當前目標是否已實現(xiàn)），然后——如果當前目標已實現(xiàn)——為第 1 層選擇下一個導航目標。第 1 層目標被指定為對未來狀態(tài)的意圖，這觸發(fā)模型將每個狀態(tài)與歸納成本（inductive cost）相關(guān)聯(lián)（Friston 等人，2023）。根據(jù)潛在動態(tài)，該成本與相對于預期目標狀態(tài)的距離成正比（參見第 4 節(jié)公式 (5)）。在我們的模擬中，我們實現(xiàn)在線和離線圖式學習。預覽我們的結(jié)果，我們發(fā)現(xiàn)在兩種情況下，S-HAI 智能體都正確學習了一個獨特的可泛化圖式，捕捉四個目標之間的循環(huán)轉(zhuǎn)移，適用于塊 1 和塊 2（圖 1e，圖 1a 中的插圖“第 2 層”）。相比之下，未經(jīng)圖式學習的替代智能體（HAI）捕獲了兩個塊的不同轉(zhuǎn)移（圖 1f）。最后，我們發(fā)現(xiàn)增強了區(qū)分具有相同位置目標能力的 S-HAI 智能體（S-HAI-2C）正確推斷了 ABCB 任務(wù)的可泛化圖式（圖 1f）。

關(guān)鍵在于，S-HAI 智能體還包括一個接地似然：任務(wù)空間中代表目標之間轉(zhuǎn)移的抽象圖式（即 A、B、C 和 D）與導航空間中目標的具體位置（即迷宮中可以找到獎勵的位置）之間的概率映射。學習接地似然是實現(xiàn)基于圖式泛化的關(guān)鍵：它使智能體能夠?qū)⑵?strong>抽象圖式（例如 ABCD）快速映射到每個新穎的目標空間配置（即每個塊），而不是在每次試驗中從頭重新學習正確的動作和目標序列。在我們的模擬中，我們實現(xiàn)了接地似然的在線學習，以及第 2 層圖式的在線和離線變體。此外，我們引入了一個接地似然的混合模型，允許 S-HAI 智能體靈活推斷其現(xiàn)有接地似然中哪一個在當前迷宮中最有用，或在需要時創(chuàng)建一個新的。預覽我們的結(jié)果，我們發(fā)現(xiàn)在所有情況下（在線或離線，有或無混合），接地似然允許 S-HAI 智能體優(yōu)于在相同甚至更大數(shù)據(jù)集上訓練但沒有圖式學習的替代模型。學習接地似然類似于學習圖式的發(fā)射矩陣，如（Guntupalli 等人，2023）和（Swaminathan 等人，2023）中所述。

2.3 ABCD 任務(wù)：基于圖式的層級主動推理允許快速泛化到具有相同抽象結(jié)構(gòu)的新問題

在此模擬中，我們測試圖式學習是否使 S-HAI 智能體能夠?qū)?ABCD 任務(wù)泛化到具有相同序列結(jié)構(gòu)但特定目標位置不同的試驗塊。遵循 El-Gaby 等人（2024）的實驗設(shè)置，每個塊運行直到智能體在環(huán)境中完成 10,000 步。包含四次連續(xù)獎勵的試驗平均可在 32 ± 7.15 步（μ ± σ）內(nèi)完成，這是跨越 40 個塊計算得出的。

我們比較了 S-HAI 智能體的兩種變體——一種離線學習圖式（S-HAI K），一種在線學習圖式（S-HAI L）——以及一個沒有圖式的標準層級主動推理（HAI）智能體和一個隨機選擇目標的基線智能體（Random）。為了保持一致性，在此及后續(xù)模擬中，所有智能體共享相同的層級架構(gòu)。此外，負責空間導航的第 1 層模型（圖 1d）是離線學習的，且在所有智能體中相同。智能體之間的唯一差異出現(xiàn)在第 2 層。

在離線基于圖式的智能體（S-HAI K）中，第 2 層圖式使用僅從第一個塊收集的通過隨機游走生成的數(shù)據(jù)（50,000 步）進行離線訓練（"K"表示圖式是已知的）。圖 1e 可視化了第 2 層學習到的圖式，它代表了四個目標 A、B、C 和 D 之間的循環(huán)。接地似然在每個塊開始時隨機初始化，并在任務(wù)期間在線學習。相比之下，在在線基于圖式的智能體（S-HAI L）中，第 2 層圖式和接地似然都在線訓練（"L"表示圖式是在線學習的）。參數(shù)隨機初始化并使用共軛更新進行更新，接地似然在每個塊后重置。

在沒有圖式的層級主動推理（HAI）智能體中，第 2 層使用克隆結(jié)構(gòu)圖（CSCG）（George 等人，2021）實現(xiàn)，接地似然是單位矩陣。智能體表示為 HAI-i，索引 i 表示智能體接受訓練的任務(wù)數(shù)量；訓練在第一個 i 任務(wù)的序列上離線進行，每個任務(wù) 10,000 交互步。參見圖 1f 了解 HAI-2 智能體（在兩個塊上訓練）在第 2 層學習到的目標之間的轉(zhuǎn)移動態(tài)。注意，與學習獨特序列圖式的 S-HAI 智能體不同，HAI-2 智能體為每個塊學習獨特的子循環(huán)。當 HAI-i 智能體在更多塊上訓練時，它傾向于學習多個特定于塊的子循環(huán)（此處未顯示，但類似于（Van de Maele 等人，2024）中報告的內(nèi)容）。

最后，在基線（隨機）層級主動推理模型中，第 2 層隨機選擇一個子目標供智能體導航。參見第 4 節(jié)了解本模擬中使用的智能體的形式化解釋。

圖 2a 顯示了 ABCD 任務(wù)的模擬結(jié)果，報告了跨越 40 個塊的平均獎勵率（在 250 步上平滑），相對于最優(yōu)性能歸一化。實線表示跨塊的平均值，陰影區(qū)域表示標準誤。每個塊在智能體達到 10,000 次與環(huán)境交互時結(jié)束。正如預期，沒有圖式的 HAI 智能體（在一半（20）或所有（40）塊上離線訓練；HAI-20 和 HAI-40）優(yōu)于隨機基線，性能隨著訓練塊數(shù)量的增加而提高。然而，在一半塊上訓練的 HAI-20 智能體顯示出對訓練集之外的新塊的泛化能力有限。

相比之下，基于圖式的 S-HAI 智能體穩(wěn)健地泛化到未見過的任務(wù)。離線智能體（S-HAI K）迅速收斂到接近最優(yōu)的獎勵水平，表明從單個訓練塊學習的圖式可以泛化到 39 個新塊。在線智能體（S-HAI L）也達到了接近最優(yōu)的性能，表明可泛化的圖式可以有效地在線學習，無需先前的離線訓練。此外，兩個 S-HAI 智能體每次試驗所需的步數(shù)更少（圖 2c），并且比 HAI-20 智能體和隨機基線積累了更多獎勵（圖 2d）。此外，S-HAI 智能體比訓練更廣泛的 HAI-40 智能體更快達到最大歸一化獎勵（圖 2a）。為了確保觀察到的行為不反映較低層的不完美學習，我們還在簡化環(huán)境中復制了我們的結(jié)果（3 × 3 網(wǎng)格，具有獨特觀察；見附錄 A.3）。

基于圖式泛化的一個關(guān)鍵驅(qū)動因素是，S-HAI K 和 S-HAI L 都在每個塊中在線學習新的接地似然，將抽象圖式觀察（o2t）映射到具體空間狀態(tài)（s1t）。圖 2b 顯示了兩個接地似然的示例，為了清晰起見，僅顯示了對應(yīng)于獎勵位置的高級狀態(tài)（完整的接地似然包括 210 個高級狀態(tài)：105 個位置與獎勵存在狀態(tài)的組合）。圖式和接地似然在塊內(nèi)被快速獲取，如 S-HAI L 性能隨經(jīng)驗快速改進所示，反映在到子目標的相對距離減少上（圖 2e）。

綜上所述，我們發(fā)現(xiàn)基于圖式的 S-HAI 智能體通過在物理位置快速接地抽象的、圖式編碼的目標，成功解決了諸如 ABCD 之類的結(jié)構(gòu)化任務(wù)，這些物理位置跨塊變化。值得注意的是，這些基于圖式的智能體比僅在一半塊上訓練的 HAI-20 智能體表現(xiàn)效率高得多，并且比 HAI-40 智能體更快達到最大獎勵，盡管后者在所有塊配置上進行了廣泛的離線訓練。

2.4 ABCB 任務(wù)：增強克隆圖的基于圖式層級主動推理可解決目標混疊問題

在此模擬中，我們考慮 ABCD 任務(wù)的一個更具挑戰(zhàn)性的變體，其中包含目標之間的交替模式（Jadhav 等人，2012）。在此，第二個和第四個目標（均表示為 B）占據(jù)相同的空間位置；這就是該任務(wù)被稱為 ABCB 的原因。

使此任務(wù)更困難的是它需要空間記憶：當智能體在位置 B 觀察到獎勵時，它必須決定是移向 C 目標還是 A 目標。標準類 HMM 架構(gòu)（如第一次模擬中 HAI 智能體所使用的）難以應(yīng)對此任務(wù)，因為它們混淆了 B 目標的兩個實例。為解決這一限制，我們賦予 HAI 智能體的第 2 層一個更具表達力的克隆結(jié)構(gòu)認知圖（CSCG）機制（George 等人，2021），該機制通過允許每個狀態(tài)有多個克隆來擴展 HMM。我們將結(jié)果智能體稱為 S-HAI-2C K。此處，"2C K"表示第 2 層是一個具有兩個克隆的 CSCG，使用來自第一個塊的隨機游走（10,000 步）離線訓練，我們發(fā)現(xiàn)這足以學習 ABCB 圖式（圖 1g）。此外，我們包含一個在線學習克隆結(jié)構(gòu)第 1 層參數(shù)的變體，稱為 S-HAI-2C L。

與第一次模擬一樣，接地似然在每個任務(wù)開始時隨機初始化，并在任務(wù)期間在線學習。參見第 4 節(jié)了解 S-HAI-2C K 智能體的形式化規(guī)范。

圖 2f 顯示了 ABCB 任務(wù) 40 個塊中隨時間獲得的平均獎勵。結(jié)果顯示，帶有克隆的基于圖式智能體（S-HAI-2C K, S-HAI-2C L）達到了接近最優(yōu)的性能，優(yōu)于沒有克隆的兩個智能體（S-HAI K, S-HAI L），后者在 B 目標的歧義上表現(xiàn)掙扎。

同樣值得注意的是，對于 ABCB 任務(wù)，在最初的塊中，每次試驗的相對距離（圖 2j）比后期試驗下降得更慢，表明在后期階段，智能體已經(jīng)學習了圖式中的抽象任務(wù)結(jié)構(gòu)，只需推斷接地似然。

圖 2g 顯示了 S-HAI-2C K 智能體學習的兩個塊的接地似然。在第 2 層，接地似然 P (s1t |o2t ) 與觀察似然 P (o2t |s1t ) 相結(jié)合。與圖 2b 不同，兩個不同的任務(wù)狀態(tài)（對應(yīng)于目標 B 的第一次和第二次出現(xiàn)）映射到相同的空間位置（塊 1 中的位置 2 和塊 2 中的位置 7）。最后，如圖 2h 和 2f 所示，S-HAI-2C K 智能體每次試驗所需的步數(shù)更少，并比其非克隆對應(yīng)物獲得更高的獎勵。

綜上所述，這些發(fā)現(xiàn)表明，用基于克隆的機制（George 等人，2021）增強 S-HAI 模型，使其能夠?qū)W習在具有混疊目標的任務(wù)中有效泛化的圖式。

2.5 帶有混合模型的基于圖式推理支持接地似然的增量學習與復用

在之前的模擬中，我們考察了智能體如何使用單個接地似然將空間狀態(tài)重新映射到任務(wù)狀態(tài)，該似然在每個塊重新訓練。然而，在現(xiàn)實場景中，動物（和人工智能體）可能需要自主識別問題塊何時發(fā)生變化（Behrens 等人，2007; Friston 等人，2016b; Proietti 等人，2025）。此外，它們可能多次遇到相同的塊，在這種情況下從頭重新學習將是低效的。

為解決這一挑戰(zhàn)，我們實現(xiàn)了 S-HAI 智能體的非參數(shù)擴展，稱為 S-HAI MoGL 智能體，它維護接地似然的混合，該混合使用截斷狄利克雷過程隨時間擴展（第 4 節(jié)）。S-HAI MoGL 智能體維護對混合的信念，該信念在每個塊開始時重置為均勻先驗，并為每次試驗選擇最可能的接地似然。這種非參數(shù)方法允許智能體在遇到新問題時靈活創(chuàng)建新的接地似然，同時在遇到以前見過的問題時復用現(xiàn)有的接地似然。與之前的模擬一樣，非參數(shù)智能體實現(xiàn)在線學習（S-HAI L MoGL）和離線學習（S-HAI K MoGL）。參見第 4 節(jié)了解 S-HAI MoGL 智能體的形式化解釋。

為了測試接地似然的混合，我們在第一次模擬中使用的 ABCD 任務(wù)中測試了 S-HAI L MoGL 和 S-HAI K MoGL 智能體，其中智能體面對 40 個不同的問題塊。我們的結(jié)果顯示，在完成第一個塊后，S-HAI MoGL 智能體學習單個接地似然，顯示在圖 3a 左側(cè)。隨著智能體遇到新塊，混合模型擴展，導致針對不同塊產(chǎn)生多個不同的接地似然；例如，圖 3a 右側(cè)顯示了五個塊后學習到的混合組件。

圖 3b 比較了 ABCD 任務(wù)中帶有（S-HAI MoGL K 和 S-HAI MoGL L）和不帶有（S-HAI K 和 S-HAI L）接地似然混合的基于圖式智能體的性能。沒有混合的 S-HAI K 和 S-HAI L 智能體的結(jié)果與圖 2a 所示相同。我們的結(jié)果顯示，引入接地似然的混合影響了 S-HAI MoGL 智能體學習每個任務(wù)的速度。最初，S-HAI MoGL 智能體——必須推斷哪個接地似然適用于當前問題，并在某些情況下創(chuàng)建一個新的——比在每個新塊重新訓練單個似然的基于圖式智能體學習得更慢。然而，這種較慢的起步隨時間得到補償：隨著 S-HAI MoGL 智能體在塊內(nèi)積累關(guān)于接地似然的知識，它可以跨問題復用該知識，最終達到無混合智能體的性能。

最后，為了進一步考察接地似然混合的好處，我們考慮了 ABCD 任務(wù)的一個變體，其中智能體可以多次遇到相同的塊。在此變體中，組成實驗的 40 個塊僅是之前模擬中使用的最初 20 個塊的隨機樣本，因此某些塊可能重復兩次或更多。圖 3c 顯示了結(jié)果。帶有接地似然混合的基于圖式智能體（S-HAI MoGL）和帶有單個接地似然的智能體（S-HAI）最終都達到了相同的最優(yōu)性能。然而，配備混合模型的智能體學習得更快，因為它可以立即將先前獲得的組件應(yīng)用于它已經(jīng)遇到的任務(wù)。此模擬表明，在圖式與其可應(yīng)用的問題之間維護多個顯式映射，在可以復用先前知識的任務(wù)中提供了明顯優(yōu)勢。

圖 3d 提供了更詳細的視圖，展示 S-HAI MoGL 智能體如何在具有重復環(huán)境的 ABCD 任務(wù)期間積累和組織接地似然的混合。該面板顯示了智能體隨時間對所選混合組件（即接地似然）的信念。在大多數(shù)情況下，智能體為每個塊分配唯一的接地似然，反映了對塊的成功區(qū)分。底部面板顯示了混合模型下觀察的期望對數(shù)似然（公式 (13) 中的第一個因子）。當此量低于閾值（顯示為虛線紅線）時，新的接地似然被添加到混合中。這通常發(fā)生在新塊的開始，當觀察令人驚訝且與先前期望不一致時——這與經(jīng)驗發(fā)現(xiàn)一致，即片段（episode）之間的邊界通常對應(yīng)于高驚喜時刻（Zacks, 2020）。當遇到智能體先前觀察過的塊時，這種情況不會發(fā)生。在沒有重復環(huán)境的 ABCD 任務(wù)中，智能體一致地為每個遇到的塊創(chuàng)建新的混合組件（見補充材料）。

2.6 基于圖式的層級主動推理復現(xiàn)了嚙齒動物內(nèi)側(cè)前額葉皮層中的“目標進展細胞”及其他圖式關(guān)鍵特征

在此模擬中，我們旨在評估基于圖式的（S-HAI）智能體在圖式學習期間涌現(xiàn)了何種內(nèi)部表征，以及它們?nèi)绾闻c執(zhí)行 ABCD 任務(wù)的嚙齒動物內(nèi)側(cè)前額葉皮層（mPFC）中報道的神經(jīng)編碼相關(guān)聯(lián)（El-Gaby 等人，2024）。根據(jù)貝葉斯腦假說，神經(jīng)元不僅僅是對刺激做出反應(yīng)而放電；相反，它們的激活編碼了關(guān)于環(huán)境中相關(guān)數(shù)量的概率信念（Doya, 2007; Parr 等人，2022）。為了模擬神經(jīng)活動，我們將神經(jīng)元解釋為代表關(guān)于特定狀態(tài)、目標或轉(zhuǎn)移的信念。我們將模擬聚焦于圖 4a 中描繪的四個 ABCD 問題。這使我們能夠觀察哪些神經(jīng)信念隨著智能體執(zhí)行問題而演變，哪些保持不變或跨問題實例變化，以及它們?nèi)绾斡成涞絿X動物 mPFC 中報道的神經(jīng)激活。

ABCD 研究（El-Gaby 等人，2024）的一個關(guān)鍵發(fā)現(xiàn)是，嚙齒動物 mPFC 編碼了大量細胞群，這些細胞 tuned 于目標相關(guān)、空間及其他類型任務(wù)相關(guān)信息的各種組合。其中，最頻繁的是“目標進展細胞”，即主要 tuned 于朝向抽象目標的進展（例如，早期、中期和晚期階段）的細胞，獨立于目標身份或物理距離。這由以下事實證明：這些細胞的放電發(fā)生在接近任何目標時，并根據(jù)目標位置的空間分布而拉伸或收縮；參見（El-Gaby 等人，2024）中的圖 2c。

在我們的模型中，當考慮智能體在其當前位置期望下的歸納成本信念時，追蹤朝向目標進展的神經(jīng)激活自然涌現(xiàn)。在規(guī)劃期間，與每個狀態(tài)相關(guān)的歸納成本反映了該狀態(tài)距離偏好狀態(tài)有多遠（詳見方法）。圖 4b 顯示了我們模型中的模擬神經(jīng)活動，其中期望歸納成本在連續(xù)步驟上歸一化，揭示該值隨著智能體接近目標而增加。值得注意的是，無論目標是哪個，智能體的目標期望在接近下一個目標時一致攀升。例如，在序列開始時，其期望歸納成本最初很高（早期進展，紫色節(jié)點），然后隨著其移向目標 C 而增加，經(jīng)過中期期望（綠色節(jié)點），然后達到高期望（黃色節(jié)點）。這種模式對應(yīng)于不同“目標進展細胞”群體的參與，這些群體 tuned 于朝向任何目標的進展的早期、中期或晚期階段。

圖 4c 進一步說明了模擬的“目標進展細胞”群體，其中它們的激活繪制在塊 1 期間的迷宮布局之上。智能體的軌跡顯示為彩色點（添加少量噪聲以避免點重疊）。在第三個面板中，可以觀察到 C 和 D 之間的兩條不同軌跡。點像以前一樣顏色編碼，表明沿著每條軌跡（例如，第一個面板中從 A 到 B），不同的“目標進展細胞”群體依次激活：首先是 tuned 于中期目標期望的細胞（綠色），然后是 tuned 于高目標期望的細胞（黃色），最后是在目標位置收集獎勵后 tuned 于低目標期望的細胞（紫色）。重要的是，這種攀升模式跨不同軌跡一致涌現(xiàn)，獨立于特定目標目的地，而這些細胞的放電野根據(jù)目標之間的物理距離靈活地拉伸或收縮。

（El-Gaby 等人，2024）報道的第二類顯著細胞編碼對特定抽象目標（A、B、C 或 D）的追求，獨立于其在迷宮中的物理位置（參見（El-Gaby 等人，2024）中的圖 2d）。在我們的模型中，具有此屬性的神經(jīng)激活在考慮智能體第 2 層關(guān)于當前任務(wù)階段（即，移向 A、B、C 或 D）的（先驗）信念時自然涌現(xiàn)，這反映了智能體關(guān)于下一個獎勵將在何處獲得的期望。圖 4d 通過繪制四個塊期間智能體的軌跡說明了這一點，顏色指示當前關(guān)于任務(wù)階段的信念。對應(yīng)于每個階段的激活（例如，從 A 移向 B 時為藍色，從 B 移向 C 時為橙色，從 C 移向 D 時為綠色，從 D 移向 A 時為紫色）沿軌跡保持恒定，直到達到目標，無論采取何種路徑。關(guān)鍵在于，即使目標占據(jù)不同的空間位置，這種編碼模式也跨塊泛化，從而證明了目標選擇性但空間不變的表征——鏡像了實證發(fā)現(xiàn)。

（El-Gaby 等人，2024）識別的第三類顯著細胞編碼關(guān)于特定抽象目標（A、B、C 或 D）及其在迷宮中空間位置的聯(lián)合信息。在我們的模型中，這種目標和位置調(diào)諧的激活在接地似然內(nèi)自然涌現(xiàn)。這在圖 4e 中說明，其中每組彩色點對應(yīng)于接地似然的一個條目，該條目將給定空間位置映射到任務(wù)狀態(tài)。這種機制產(chǎn)生獨特的激活模式：僅當空間位置和任務(wù)狀態(tài)都重合時，激活才相同（或高度相似），否則它們不同。例如，任務(wù) 1 和 4 中位置 A 的激活模式是相同的，而任務(wù) 1 和 2 中位置 A 的模式是不同的——鏡像了實證發(fā)現(xiàn)。

最后，除了支持第 2 層任務(wù)空間導航的神經(jīng)編碼——可能與前額葉皮層機制相關(guān)——我們的模型還解釋了支持第 1 層物理空間導航的神經(jīng)編碼，可能與海馬結(jié)構(gòu)中的空間映射和導航相關(guān)（Nyberg 等人，2022）。圖 4f 顯示了第 1 層空間激活，其編碼智能體在環(huán)境中的位置。無論任務(wù)實例如何，每個空間位置對應(yīng)一個獨特的激活模式。例如，右下角位置一致激活相同的神經(jīng)元，類似于海馬位置細胞（O'Keefe 和 Dostrovsky, 1971）。這表明第 1 層神經(jīng)元提供了獨立于當前任務(wù)的穩(wěn)定空間表征，使模型能夠保持一致的位置信息，而第 2 層表征捕捉任務(wù)特定和導向目標的信息。

3 討論

心理學、神經(jīng)科學和人工智能中傳統(tǒng)的 learning 觀點強調(diào)經(jīng)驗的漸進積累。與經(jīng)典學習理論并存的是，長期以來人們假設(shè)人類和其他動物能夠形成圖式——即編碼事件間結(jié)構(gòu)關(guān)系同時抽象掉感官細節(jié)的數(shù)據(jù)結(jié)構(gòu)——并通過快速將新經(jīng)驗重新綁定到現(xiàn)有圖式來快速復用它們，從而將知識泛化到新情境（Piaget, 1952; Bartlett, 1932）。越來越多的文獻（最近在 Farzanfar 等人，2023 中綜述）支持這一觀點：高級認知能力，如快速泛化和跨情境的知識抽象，依賴于基于圖式的機制，可能涉及海馬、內(nèi)嗅皮層和前額葉皮層。

本研究介紹了一種新穎的計算方法——基于圖式的層級主動推理（S-HAI）——解決了從經(jīng)驗形成圖式及其快速泛化到新情境的問題。該模型建立在層級預測處理和主動推理理論之上（Parr 等人，2022; Van de Maele 等人，2024; Pezzulo 等人，2018; Butz 等人，2025; Pezzulo 等人，2018; Smith 等人，2022; Lanillos 等人，2021; Matsumoto 和 Tani, 2020; Friston 等人，2021; Taniguchi 等人，2022; Isomura 和 Friston, 2018），并用基于圖式的機制擴展了它們。S-HAI 是層級組織的：高層（第 2 層）負責抽象任務(wù)空間中的圖式學習和導航，而低層（第 1 層）編碼空間信息并支持物理空間中的導航。關(guān)鍵在于，兩個層級通過我們模型獨特的機制連接，即接地似然，它將圖式中的抽象目標代碼映射到物理位置。此映射的快速學習使智能體能夠靈活地將同一圖式泛化到新穎的目標配置。

通過一系列模擬，我們驗證了基于圖式的 S-HAI 智能體復現(xiàn)需要快速泛化任務(wù)中的行為發(fā)現(xiàn)的能力，以及執(zhí)行此類任務(wù)的嚙齒動物內(nèi)側(cè)前額葉皮層中報道的神經(jīng)發(fā)現(xiàn)。我們的結(jié)果顯示，在學習了一類具有相同結(jié)構(gòu)的導航問題的圖式后——即需要循環(huán)訪問四個目標位置以獲得獎勵的問題，如 ABCD 任務(wù)（El-Gaby 等人，2024）——S-HAI 智能體表現(xiàn)出對新穎問題的快速在線泛化，其中關(guān)系結(jié)構(gòu)保持不變但四個目標的空間位置發(fā)生變化。值得注意的是，基于圖式的智能體優(yōu)于在所有問題上離線訓練的智能體，展示了基于圖式的學習在新情境中的優(yōu)勢。我們的模擬還表明，相同方法可以泛化到更具挑戰(zhàn)性的任務(wù)，其中多個目標可以共享同一位置（ABCB 任務(wù)），類似于空間交替任務(wù)（Jadhav 等人，2012），并且 S-HAI 智能體可以在線學習并在抽象圖式與具體問題之間的似然映射混合中進行選擇，展示了決定何時復用現(xiàn)有映射或創(chuàng)建新映射的能力——捕捉了至少由（Piaget, 1952）構(gòu)想的同化（將新經(jīng)驗納入現(xiàn)有關(guān)系結(jié)構(gòu)）和順應(yīng)（新關(guān)系結(jié)構(gòu)）過程的基本特征。最后且重要的是，S-HAI 模型復現(xiàn)了在執(zhí)行 ABCD 任務(wù)的嚙齒動物內(nèi)側(cè)前額葉皮層中識別出的圖式關(guān)鍵神經(jīng)特征（El-Gaby 等人，2024），最顯著地捕捉了目標進展細胞的活動，同時也反映了其他對目標、空間和任務(wù)相關(guān)信息組合敏感的細胞的異質(zhì)編碼。

綜上所述，這些結(jié)果確立了 S-HAI 作為一個全面的計算框架，證明了基于圖式的學習和推理的有效性，捕捉了快速泛化、靈活問題解決以及新經(jīng)驗同化和順應(yīng)的行為和神經(jīng)特征。重要的是，S-HAI 提供了關(guān)于抽象關(guān)系知識如何被表征、映射到特定情境并增量更新的機制性解釋，基于預測處理和層級主動推理的原則（Parr 等人，2022）。這表明，在建模感知、行動和決策方面成功的相同預測處理原則，也可能 underlying 大腦中的圖式形成、關(guān)系知識的靈活復用和泛化。

通過提供基于圖式的學習和推理的機制模型，我們的框架也產(chǎn)生了可以在未來實驗中測試的新穎實證預測。其中一個預測涉及在執(zhí)行 ABCB 任務(wù)的動物中可能觀察到的行為和神經(jīng)表征（圖 2f）。我們的模擬表明，正確解決此任務(wù)需要一種機制（基于克隆或類似機制），能夠區(qū)分同一目標的不同實例（例如，目標 B）。這反過來應(yīng)該產(chǎn)生特定的行為模式和第 2 層神經(jīng)表征，包括當同一目標被遇到兩次時的單獨表征（參見圖 1g）。另一個關(guān)鍵預測涉及在 ABCD 任務(wù)期間嚙齒動物內(nèi)側(cè)前額葉皮層中報道的神經(jīng)活動模式的功能角色（El-Gaby 等人，2024）。我們的模型將不同的神經(jīng)元群體——tuned 于目標進展、目標身份以及目標身份與空間位置結(jié)合——映射到不同的計算過程，即：目標期望、關(guān)于當前任務(wù)階段的信念以及接地似然。因此，擾動這些神經(jīng)元應(yīng)該產(chǎn)生可解離的效果。例如，破壞編碼關(guān)于當前任務(wù)階段信念的神經(jīng)元應(yīng)損害動物正確推斷其下一個目標的能力，而破壞編碼接地似然的神經(jīng)元應(yīng)損害動物將任務(wù)階段靈活鏈接到空間表征的能力。這些預測仍有待在未來實驗中測試。

當前的 S-HAI 智能體有幾個局限性，可以在未來研究中解決。首先，雖然我們的模型考慮了多個接地似然，但它目前只實現(xiàn)了一個圖式。S-HAI 框架允許從維護接地似然混合直接擴展到也維護多個圖式的混合，從而提供對（Piaget, 1952）設(shè)想的同化和順應(yīng)過程更全面的解釋。其次，模型主要關(guān)注基于擴展隱馬爾可夫模型（HMMs）的概率生成模型的前額葉皮層中的圖式學習和推理。這種方法允許復現(xiàn)前額葉皮層中圖式神經(jīng)編碼的一些關(guān)鍵方面，但不能捕捉其全部復雜性。未來研究可以探索 HMMs 的生物學現(xiàn)實實現(xiàn)（Kappel 等人，2014）并更系統(tǒng)地調(diào)查這些模型與前額葉皮層神經(jīng)計算之間的映射。此外，未來工作可能擴展 S-HAI 以提供系統(tǒng)級模型，解決前額葉皮層之外的基于圖式的過程，涵蓋其他相關(guān)腦區(qū)如海馬和內(nèi)嗅皮層。最后，未來工作可以調(diào)查基于圖式的機制如何被復用以支持抽象概念空間中的導航。近期研究表明，大腦可能依賴共享的計算機制進行物理和概念領(lǐng)域的映射和導航，海馬 - 內(nèi)嗅系統(tǒng)發(fā)揮核心作用（Buzsáki 和 Moser, 2013; Bellmund 等人，2018; Viganò 等人，2023; Bottini 和 Doeller, 2020; Dong 和 Fiete, 2024）。理解圖式形成和基于圖式的推理如何有助于構(gòu)建和導航此類抽象認知地圖，可以為解釋跨空間和非空間領(lǐng)域的靈活認知提供統(tǒng)一框架。

4 方法

我們的方法建立在主動推理之上，這是一個框架，其中智能體通過更新信念（感知）、選擇動作（策略評估）和適應(yīng)模型參數(shù)（學習）來最小化變分自由能（Parr 等人，2022; Smith 等人，2022）。我們通過引入一個生成模型來擴展該范式，該模型能夠表示并在多個環(huán)境中復用抽象圖式——即任務(wù)動態(tài)的結(jié)構(gòu)化、可泛化表征。該圖式捕捉的是任務(wù)的抽象結(jié)構(gòu)，例如存在四個不同位置的獎勵（如（El-Gaby 等人，2024）的 ABCD 任務(wù)）或交替位置的三個獎勵（如（Jadhav 等人，2012）的空間交替任務(wù)），而不是學習任務(wù)中獎勵位置的具體序列（Van de Maele 等人，2024）。在各種任務(wù)實例中，該圖式隨后可以概率性地映射到特定于環(huán)境的狀態(tài)。這對應(yīng)于一個非?？焖俚膶W習過程，因為智能體只需要學習一個新的映射（我們稱之為接地似然），從抽象圖式狀態(tài)到特定于環(huán)境的位置。因此，圖式的使用允許智能體在不同任務(wù)實例之間快速泛化和轉(zhuǎn)移高層知識。

在本節(jié)中，我們首先簡要回顧主動推理的功能，然后說明新型基于圖式的（S-HAI）智能體的結(jié)構(gòu)。

4.1 主動推理

主動推理是一個框架，它根據(jù)信息論泛函的最小化來描述生物體中的認知過程和大腦動態(tài)：變分自由能（Parr 等人，2022）。主動推理智能體被賦予一個生成模型：一個概率模型，編碼關(guān)于隱藏狀態(tài)、動作和隨后觀察結(jié)果之間因果關(guān)系的內(nèi)部信念。注意，這不同于世界中產(chǎn)生結(jié)果的真實物理過程（稱為生成過程）。由于智能體受計算限制，對于大狀態(tài)空間，后驗推斷變得難以處理。因此，智能體使用近似（變分）推斷，通過最小化其變分自由能，即驚喜的上界，定義為：

4.2 基于圖式的層級主動推理智能體的形式化描述

主動推理智能體被賦予一個生成模型，該模型本質(zhì)上定義并約束了其知識和能力。在本研究中，我們提出了一種新型的層級生成模型，允許智能體進行基于圖式的學習和推理，例如在 (El-Gaby 等人，2024) 的 ABCD 任務(wù)中所見，其中智能體在空間中導航以到達四個目標的序列。

圖 5a 展示了基于圖式的層級主動推理（S-HAI）的生成模型，使用了貝葉斯網(wǎng)絡(luò)的形式化方法（另見圖 1a 了解更非形式化的示意圖）。它包含兩個層級。底層（第 1 層）在最精細的時間尺度上運行，處理智能體的空間定位和導航。在此層級，智能體接收其位置的直接觀察并通過移動行動。自上而下的目標被設(shè)定為對智能體需要到達的底層未來狀態(tài)的偏好。

高層（第 2 層）實施基于圖式的推理和學習。與第 1 層相比，圖式在較慢的時間尺度上運行，并捕捉抽象任務(wù)結(jié)構(gòu)，整合關(guān)于獎勵的信息以及包含底層推斷狀態(tài)的自下而上消息。該層的動態(tài)建模了提供獎勵觀察的目標狀態(tài)之間的狀態(tài)轉(zhuǎn)移 (Friston 等人，2024)。例如，在 ABCD 任務(wù)中，圖式捕捉了一個抽象的動作序列以循環(huán)移動到下一個目標（從 A 到 B，C，D，然后再回到 A，等等）。

該層級生成模型包含兩個耦合的部分可觀測馬爾可夫決策過程（POMDPs），每層一個，它們通過自上而下和自下而上的消息傳遞進行交互 (Van de Maele 等人，2024; Catal 等人，2021)。每一層都維護其生成模型，對于通用層 i ，聯(lián)合分布分解為：

通過這種層級耦合，接地似然介導了第 2 層的抽象圖式如何指定第 1 層的具體目標，從而使智能體能夠跨環(huán)境泛化任務(wù)結(jié)構(gòu)。

4.2.2 接地似然混合

當存在多個任務(wù)或環(huán)境時，單個接地似然可能會顯得脆弱。為了支持更豐富的泛化和知識保留，我們引入了接地似然混合（Mixture of Grounding Likelihoods, MoGL），其中智能體維護一組接地似然，并推斷在每一個時間步哪一個是激活的。

形式上，低層狀態(tài)是從接地似然的混合中采樣的：

關(guān)鍵在于，我們將此混合模型建模為一個非參數(shù)模型，該模型可以通過添加聚類（Stoianov 等人，2022; Heins 等人，2025）來擴展混合，即針對觀察到的地圖的特定接地似然。形式上，這被建模為一個截斷的棍棒折斷先驗（truncated stick-breaking prior），如果所選地圖的期望對數(shù)似然（公式 (13) 中標記）低于預選閾值，則該先驗會擴展混合模型（Heins 等人，2025），這意味著當前正在使用的接地似然中沒有一個能很好地解釋數(shù)據(jù)。

4.2.3 克隆結(jié)構(gòu)因果圖

克隆結(jié)構(gòu)因果圖（Clone-structured causal graphs, CSCG）（George 等人，2021）是隱馬爾可夫模型（HMM）的一個特例，其中觀察似然將觀察確定性地映射到大量稱為“克隆”的狀態(tài)；相反，狀態(tài)推斷完全由模型的動態(tài)驅(qū)動。克隆圖的優(yōu)勢在于，即使觀察可能是相同的，該模型也能將它們消歧為不同的狀態(tài)。這種方法已在具有混疊觀察的導航（George 等人，2021）和交替任務(wù)的層級模型（Van de Maele 等人，2024）中被證明是有效的；此外，CSCG 與海馬體中認知地圖形成的神經(jīng)數(shù)據(jù)高度一致（Sun 等人，2025）。注意，具有單個克隆的克隆圖會簡化為標準的（動作增強的）HMM。

CSCG 使用 HMM 的期望最大化（EM）算法（Baum-Welch 算法）進行學習，該算法最大化證據(jù)下界（ELBO）（George 等人，2021）。在 E 步中，通過平滑（即前向 - 后向算法）估計狀態(tài)上的后驗。然后，M 步根據(jù)這個訪問狀態(tài)序列選擇轉(zhuǎn)移模型的最優(yōu)參數(shù)。訓練后，使用 Viterbi 解碼對模型進行剪枝。此處，對于每個時間步，選擇最大似然狀態(tài)，并使用這些最大似然狀態(tài)估計轉(zhuǎn)移模型參數(shù)。

我們還在第 2.4 節(jié)中實現(xiàn)了一種在線學習 CSCG 的機制。與主動推理中的標準參數(shù)學習（其中隨著動作的執(zhí)行和觀察的到來，對狀態(tài)的信念被濾波）不同，克隆圖對狀態(tài)上的信念進行平滑，并將消歧信息傳播回其他“克隆”狀態(tài)。這提供了對各個狀態(tài)的更好估計，然后可用于更新轉(zhuǎn)移參數(shù)上的狄利克雷分布。對于學習圖式（即第 2 層轉(zhuǎn)移），我們使用 10 個觀察的滑動窗口，并在每個觀察到來時更新參數(shù)。

我們在本研究的三個部分使用了 CSCG 框架。首先，我們使用它來學習環(huán)境中空間位置的認知地圖?？寺〗Y(jié)構(gòu)允許在高度模糊的觀察中（105 個不同位置中的 6 種瓷磚顏色）發(fā)現(xiàn)結(jié)構(gòu)。其次，我們在模擬 1 中使用它來開發(fā)沒有圖式的 HAI-i 智能體的第 2 層，以解決 ABCD 任務(wù)。在這種情況下，CSCG 初始化的克隆數(shù)量 i 等于要學習的塊的數(shù)量（20 或 40），以確保智能體有足夠的容量學習所有這些塊。最后，我們在模擬 2 中使用 CSCG 框架來開發(fā)解決 ABCB 任務(wù)的基于圖式的 S-HAI-2C 智能體的第 2 層。在這種情況下，CSCG 用 2 個克隆初始化。為了在離散時間主動推理中使用它們，我們需要按照 Van de Maele 等人（2023）中所述將 CSCG 映射到 POMDP。

https://github.com/toonvdm/grounding-schemas

原文鏈接：https://arxiv.org/pdf/2601.18946

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.