網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

反事實(shí)推理：模型規(guī)劃的主動(dòng)學(xué)習(xí)

2026-03-06 19:01:41　來源: CreateAMind

上海舉報(bào)

分享至

SophisticatedLearning: A novel algorithm for active learning duringmodel-based planning

精妙學(xué)習(xí)：面向基于模型規(guī)劃的主動(dòng)學(xué)習(xí)新算法

https://arxiv.org/pdf/2308.08029

https://github.com/sgrimbly/Sophisticated-Learning

摘要

我們引入了復(fù)雜學(xué)習(xí)（SL），這是一種“規(guī)劃以學(xué)習(xí)”算法，它將主動(dòng)參數(shù)學(xué)習(xí)嵌入到主動(dòng)推理的復(fù)雜推理（SI）樹搜索框架內(nèi)部。與優(yōu)化關(guān)于隱藏狀態(tài)信念的 SI 不同，SL 還在每個(gè)模擬分支內(nèi)更新關(guān)于模型參數(shù)的信念，從而能夠進(jìn)行反事實(shí)推理，即關(guān)于未來觀測(cè)將如何改善后續(xù)規(guī)劃的推理。我們將 SL 與貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)（BARL）智能體以及其父算法 SI 進(jìn)行了比較。利用一個(gè)生物啟發(fā)的季節(jié)性覓食任務(wù)（其中資源在 10×10 網(wǎng)格上概率性地發(fā)生轉(zhuǎn)移），我們?cè)O(shè)計(jì)了實(shí)驗(yàn)，迫使智能體在概率性獎(jiǎng)勵(lì)獲取與信息收集之間取得平衡。在快速學(xué)習(xí)至關(guān)重要的早期試驗(yàn)中，SL 智能體的平均生存時(shí)間比 SI 長 8.2%，比貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)長 35%。雖然 SL 和 SI 表現(xiàn)出相當(dāng)?shù)氖諗啃阅埽?SL 達(dá)到收斂的速度比 SI 快 40%。此外，在改變的環(huán)境配置中，SL 表現(xiàn)出優(yōu)于其他算法的穩(wěn)健性能。我們的結(jié)果表明，將主動(dòng)學(xué)習(xí)納入多步規(guī)劃實(shí)質(zhì)性地改善了根本不確定性下的決策，并加強(qiáng)了主動(dòng)推理在建模生物相關(guān)行為方面更廣泛的效用。

引言
在生物和人工系統(tǒng)中，決策都涉及一個(gè)基本的權(quán)衡：是利用當(dāng)前的行為策略，還是探索更好策略的可能性。這一困境通過動(dòng)物覓食范式得以說明，其中利用當(dāng)前食物來源與探索潛在更豐富替代品之間的選擇，關(guān)鍵性地基于環(huán)境線索和過往經(jīng)驗(yàn)（Charnov, 1976, Stephens and Krebs, 1986, Webb et al., 2025）。在此背景下，尋求信息以優(yōu)化行為策略是適應(yīng)性智能的重要組成部分，使生物體和人工智能代理都能夠減少關(guān)于其環(huán)境的不確定性。對(duì)這種尋求信息驅(qū)動(dòng)力的系統(tǒng)研究可追溯到早期關(guān)于好奇心的心理學(xué)研究。例如，Berlyne (1966) 引入了不同形式好奇心之間的區(qū)別，并將這一更廣泛的概念確立為知識(shí)獲取的基本動(dòng)機(jī)。他的工作表明，生物體表現(xiàn)出解決不確定性和收集信息的先天驅(qū)動(dòng)力，在某些情況下獨(dú)立于初級(jí)獎(jiǎng)勵(lì)。

現(xiàn)在關(guān)于這一普遍主題有許多研究線索。例如，新興的一系列工作已開始揭示與探索行為相關(guān)的神經(jīng)機(jī)制，展示了大腦如何賦予信息價(jià)值并據(jù)此指導(dǎo)動(dòng)作選擇（Gottlieb et al., 2013, Zajkowski et al., 2017, Chakroun et al., 2020, Tomov et al., 2020, Chou et al., 2024）。當(dāng)前關(guān)于強(qiáng)化學(xué)習(xí)（RL）算法的工作也調(diào)查了幾種鼓勵(lì)信息尋求的方法，從簡(jiǎn)單的啟發(fā)式方法（例如，將未訪問狀態(tài)初始化為高值）到基于置信上限（UCB）、Thompson 采樣和其他貝葉斯原理的更復(fù)雜方法（Jaksch et al., 2010, Houthooft et al., 2016, Bellemare et al., 2016, Pathak et al., 2017, Russo et al., 2018）。在此基礎(chǔ)上，內(nèi)在動(dòng)機(jī)系統(tǒng)已被證明能成功指導(dǎo)人工和生物代理的探索和學(xué)習(xí)，特別是在發(fā)育期間（Oudeyer and Smith, 2009）。其他主動(dòng)學(xué)習(xí)方法已在別處被綜述（Settles, 2009），每種方法都表明代理最優(yōu)地應(yīng)被驅(qū)動(dòng)去推斷和采樣自那些能最有效解決不確定性的數(shù)據(jù)源。這與關(guān)于最優(yōu)實(shí)驗(yàn)設(shè)計(jì)的工作密切相關(guān)（MacKay, 1992），后者借鑒信息論原理以獲得信息量最大的觀測(cè)。

主動(dòng)推理（ActInf）是一個(gè)最近提出的用于建模不確定性下決策的框架。該框架的一個(gè)區(qū)分特征是，解決不確定性的驅(qū)動(dòng)力作為其價(jià)值函數(shù)的內(nèi)在特征出現(xiàn)，而這又是從一組生物啟發(fā)的第一原理推導(dǎo)出來的。 ActInf 與其他著名框架（如 RL）共享許多關(guān)鍵特征，但在重要方面也有所不同。首先，它在馬爾可夫決策過程中內(nèi)在假設(shè)部分可觀測(cè)性，并通過變分自由能最小化采用變分推斷方法來近似狀態(tài)推斷中的貝葉斯最優(yōu)性。其次，其目標(biāo)函數(shù)，期望自由能（EFE；在數(shù)學(xué)形式體系中表示為 G），本身源自變分原理，并自然導(dǎo)致尋求獎(jiǎng)勵(lì)的行為和定向探索（例如，偏好具有最大結(jié)果不確定性的選擇）。概念上，EFE 量化了與未來狀態(tài)和觀測(cè)相關(guān)的預(yù)期“驚喜”或不確定性，條件是偏好和特定的行動(dòng)過程。因此，最小化 EFE 驅(qū)動(dòng)代理選擇預(yù)期能減少關(guān)于世界的不確定性（即產(chǎn)生信息）的動(dòng)作，同時(shí)也將代理移動(dòng)到與其偏好一致的狀態(tài)（在 2.1 節(jié)中更正式地定義）。如前所述，這一公式的一個(gè)關(guān)鍵優(yōu)勢(shì)是，探索自然地從底層的推斷過程中出現(xiàn)，而不是需要對(duì)價(jià)值函數(shù)進(jìn)行進(jìn)一步添加。這使得 ActInf 代理能夠通過優(yōu)先處理既最大化未來目標(biāo)達(dá)成（與偏好一致）又最小化關(guān)于狀態(tài)和模型參數(shù)不確定性的動(dòng)作，從而有效地導(dǎo)航不確定環(huán)境。

近年來，ActInf 已在基準(zhǔn)機(jī)器學(xué)習(xí)環(huán)境中與傳統(tǒng)決策模型進(jìn)行了比較（Friston, 2009, Sajid et al., 2021, Fountas et al., 2020a, Tschantz et al., 2020, Millidge, 2021）。盡管其在這些環(huán)境中的表現(xiàn)依賴于上下文，但總體上與其他算法大致相當(dāng)。這種重疊部分產(chǎn)生是因?yàn)?ActInf 背后的核心動(dòng)機(jī)——最大化獎(jiǎng)勵(lì)和最小化不確定性——在概念上與其他基于代理的機(jī)器學(xué)習(xí)框架中發(fā)現(xiàn)的動(dòng)機(jī)相似。換句話說，雖然實(shí)現(xiàn)方式不同，特別是在如何在單一目標(biāo)函數(shù)內(nèi)統(tǒng)一認(rèn)知和工具性指令方面，但底層的驅(qū)動(dòng)力并非獨(dú)一無二。與此一致，Sajid 等人（2021）表明，當(dāng)移除探索驅(qū)動(dòng)力時(shí)，ActInf 與貝葉斯 RL 一致。更一般地說，當(dāng)置于受益于認(rèn)知驅(qū)動(dòng)力和基于模型的規(guī)劃相結(jié)合的部分可觀測(cè)環(huán)境中時(shí)，RL 和其他基于代理的方法傾向于收斂到相似的解決方案。沿著這些思路，Chou 等人（2025）最近表明，復(fù)雜度匹配的 RL 和 ActInf 模型以相似的準(zhǔn)確性解釋了 3 臂老虎機(jī)任務(wù)上的實(shí)證選擇行為。然而，貝葉斯模型選擇一致地偏愛 ActInf 作為行為提供最多證據(jù)的模型。

雖然很有前景，但當(dāng)前 ActInf 實(shí)現(xiàn)中的某些局限性激發(fā)了努力提高其性能和可擴(kuò)展性的工作。特別是，與其當(dāng)前變分推斷（即消息傳遞）和策略選擇方法相關(guān)的計(jì)算成本在大多數(shù)現(xiàn)實(shí)世界應(yīng)用中將是難以承受的。這導(dǎo)致了將 ActInf 與其他方法整合的努力，包括深度學(xué)習(xí)架構(gòu)（?atal et al., 2020）、蒙特卡洛樹搜索（MCTS）（Fountas et al., 2020a）和策略梯度方法（Millidge, 2021）。

另一個(gè)局限性是標(biāo)準(zhǔn) ActInf 對(duì)于大于一的策略深度無法實(shí)現(xiàn)貝爾曼最優(yōu)性（Da Costa et al., 2023）2。為了解決這個(gè)問題，最近開發(fā)了一種“復(fù)雜推理”（SI）算法。該算法是貝爾曼最優(yōu)的，并通過遞歸樹搜索解決多步規(guī)劃任務(wù)（Da Costa et al., 2023）2。然而，SI 尚未與其他算法進(jìn)行嚴(yán)格比較，并且有明確的進(jìn)一步發(fā)展方向，特別是關(guān)于作為更廣泛框架核心的主動(dòng)學(xué)習(xí)驅(qū)動(dòng)力。

在本文中，我們基于先前工作以實(shí)現(xiàn)兩個(gè)主要目標(biāo)。首先，我們將 SI 與其他旨在解決類似問題的領(lǐng)先算法進(jìn)行比較，包括貝葉斯自適應(yīng) RL（BARL）和代表性的置信上限（UCB）啟發(fā)式方法（Agrawal, 1995）。其次，我們引入并評(píng)估了 SI 的一個(gè)擴(kuò)展，該擴(kuò)展結(jié)合了主動(dòng)學(xué)習(xí)，我們稱之為復(fù)雜學(xué)習(xí)（SL）。

為了展示 SL 提供的獨(dú)特規(guī)劃過程和優(yōu)勢(shì)，我們?cè)谝粋€(gè)新穎的、生物啟發(fā)的環(huán)境中將其性能與上述算法進(jìn)行比較，該環(huán)境旨在支持多種定向探索策略。結(jié)果通過突出每種算法的優(yōu)勢(shì)和弱點(diǎn)提供了新穎的見解。如第 4 節(jié)所示，SL 顯著優(yōu)于所有其他測(cè)試算法，并且無論是否添加 UCB，SL 和 SI 都比 BARL 取得更好的結(jié)果。

背景
在本節(jié)中，我們將更徹底地將我們的方法置于先前工作的更廣闊背景中。我們首先考察主動(dòng)推理（ActInf）模型的理論基礎(chǔ)，重點(diǎn)關(guān)注它們與既定決策框架的關(guān)系。隨后，我們探討復(fù)雜推理（SI）作為標(biāo)準(zhǔn) ActInf 的關(guān)鍵擴(kuò)展，并討論其與主動(dòng)學(xué)習(xí)和貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)（BARL）的關(guān)系。這為我們提出的新算法（SL）奠定了基礎(chǔ)，該算法結(jié)合了上述每種先前方法的見解。

2.1. 形式體系與符號(hào)

我們首先建立 ActInf 和 BARL 共同的基礎(chǔ)形式體系。每個(gè)框架都在部分可觀測(cè)馬爾可夫決策過程（POMDPs）內(nèi)運(yùn)作，其中智能體必須推斷隱藏狀態(tài)，更新其信念，并選擇動(dòng)作以優(yōu)化其目標(biāo)。雖然這些方法在幾個(gè)方面有所不同，但它們都依賴于代表環(huán)境動(dòng)態(tài)的生成模型。

POMDP 與生成模型結(jié)構(gòu)。在強(qiáng)化學(xué)習(xí)（RL）中，POMDP 為不確定性下的決策提供了一個(gè)形式框架，其中智能體必須通過觀測(cè)來推斷和推理隱藏狀態(tài)。該框架傳統(tǒng)上被定義為一個(gè)元組：

該生成模型的結(jié)構(gòu)導(dǎo)出了以下的聯(lián)合概率：

其中模型參數(shù)和初始狀態(tài)的先驗(yàn)被顯式表示，且智能體關(guān)于動(dòng)作的先驗(yàn)被編碼為 p(E)。

信念更新與參數(shù)學(xué)習(xí)。鑒于此結(jié)構(gòu)，智能體維護(hù)一個(gè)關(guān)于狀態(tài)的信念分布，該分布隨著新觀測(cè)的接收而遞歸更新。直觀上講，此更新結(jié)合了當(dāng)前觀測(cè)的似然與基于前一狀態(tài)估計(jì)的預(yù)測(cè)。在貝葉斯框架下，此信念更新遵循：

這種關(guān)于狀態(tài)的近似后驗(yàn)分布 q(st) 代表了智能體基于其過往經(jīng)驗(yàn)對(duì)隱藏狀態(tài)的最佳估計(jì)。在平均場(chǎng)近似下，這些關(guān)于狀態(tài)的后驗(yàn)信念遵循一種計(jì)算上更易處理的形式：

其中 σ 表示 softmax 函數(shù)。

除了狀態(tài)推斷之外，智能體可能還需要學(xué)習(xí)轉(zhuǎn)移模型 B 和/或觀測(cè)模型 A，它們通常被視為潛在變量。為此，智能體維持并更新兩種類型的信念：關(guān)于隱藏狀態(tài)的信念和關(guān)于模型參數(shù)的信念。關(guān)于狀態(tài)的信念使用形式為 q(st) = Cat(st) 的分類分布來表示，而關(guān)于觀測(cè)和轉(zhuǎn)移模型參數(shù)的信念則使用狄利克雷分布來表示，

上述形式體系確立了智能體如何維持和更新關(guān)于其環(huán)境的結(jié)構(gòu)化信念。該框架中的貝葉斯更新既是 ActInf 也是 BARL 的基礎(chǔ)。然而，這兩個(gè)框架在如何利用這些信念來指導(dǎo)行為方面存在分歧。

ActInf 將決策構(gòu)建為自由能最小化，即選擇能夠最小化期望自由能（EFE）的動(dòng)作。這一目標(biāo)內(nèi)在地平衡了目標(biāo)導(dǎo)向行為與信息尋求，在單一的變分原理內(nèi)統(tǒng)一了探索與利用。

相比之下，BARL 將規(guī)劃構(gòu)建為信念 MDP（belief-MDP）中的推斷，其中智能體對(duì)環(huán)境的不確定性被視為增強(qiáng)狀態(tài)空間的一部分。探索通常通過顯式機(jī)制（例如 UCB 方法）來實(shí)現(xiàn)，以平衡探索與利用之間的權(quán)衡。

在接下來的章節(jié)中，我們將詳細(xì)考察這些方法。我們首先探討 ActInf 如何擴(kuò)展變分推斷以納入未來觀測(cè)和策略選擇。隨后，我們將討論 BARL 如何構(gòu)建和求解信念空間 MDP，以處理環(huán)境動(dòng)態(tài)中的認(rèn)知不確定性。

2.2. 主動(dòng)推理與期望自由能

主動(dòng)推理（ActInf），在文獻(xiàn)中有時(shí)被稱為標(biāo)準(zhǔn)或普通主動(dòng)推理，提出具有概率狀態(tài) - 觀測(cè)映射環(huán)境中的智能體通過最小化兩個(gè)相關(guān)量來完成感知、學(xué)習(xí)和動(dòng)作選擇：變分自由能（F）和期望自由能（G）（Friston et al., 2011, 2012）。變分自由能（VFE）等價(jià)于變分推斷中的負(fù)證據(jù)下界（ELBO）：

直觀上講，這一公式平衡了兩個(gè)關(guān)鍵因素：(i) 減少關(guān)于狀態(tài)的不確定性（認(rèn)知價(jià)值）和 (ii) 尋求偏好的觀測(cè)（實(shí)用價(jià)值，以關(guān)于觀測(cè)的固定先驗(yàn)形式編碼；見下文）。需要注意的是，存在替代公式，例如預(yù)期未來的自由能（Free Energy of the Expected Future）（Millidge et al., 2021），其在信息尋求行為的具體含義上有所不同。這強(qiáng)調(diào)了 EFE 并非一個(gè)唯一定義的目標(biāo)，而是一族具有不同解釋和計(jì)算性質(zhì)的泛函。最近的工作也表明，這些公式不一定等價(jià)（Champion et al., 2024）。我們將回顧重點(diǎn)放在 EFE 的標(biāo)準(zhǔn)公式上。

重要的是要注意，公式 10 的第一行幾乎等同于公式 9 中的 F。區(qū)別在于觀測(cè)已被包含在期望之內(nèi)。因此，G 計(jì)算的是預(yù)期未來觀測(cè)的變分自由能。在 POMDP 中，這些預(yù)期觀測(cè)依賴于未來狀態(tài)，而狀態(tài)之間的轉(zhuǎn)移依賴于所選策略。因此，智能體選擇那些預(yù)期能將環(huán)境轉(zhuǎn)移到會(huì)產(chǎn)生最小化 G 的觀測(cè)的狀態(tài)的動(dòng)作。

公式 10 中的分解明確了 EFE 如何驅(qū)動(dòng)動(dòng)作選擇。為了便于闡述，我們將首先解析公式 10 第二行中的第二項(xiàng)，該項(xiàng)通常被稱為實(shí)用項(xiàng)（Smith et al., 2022）。如上所述，該項(xiàng)驅(qū)動(dòng)智能體去尋找它偏好的或發(fā)現(xiàn)最有獎(jiǎng)勵(lì)的觀測(cè)。這源于 ActInf 內(nèi)一種獨(dú)特的目標(biāo)導(dǎo)向選擇方法，其中先驗(yàn) ln p(o) 被用來編碼相對(duì)偏好（即，具有更高“概率”的觀測(cè)被視為更有獎(jiǎng)勵(lì)）。為了使這一點(diǎn)更明確，它有時(shí)被顯示為 ln p(o|C)，其中 C 對(duì)這一固定偏好集進(jìn)行參數(shù)化，并且明顯區(qū)別于策略下的預(yù)期觀測(cè) p(o|π)。在其他條件相同的情況下，智能體因此可以被認(rèn)為是在尋找一個(gè)策略，該策略預(yù)期能最小化其目標(biāo)（靶標(biāo)）分布與給定其策略的狀態(tài) - 觀測(cè)對(duì)預(yù)測(cè)之間的差異。這可以被視為智能體在考慮：“這個(gè)策略會(huì)帶我進(jìn)入最有可能產(chǎn)生我想接收的觀測(cè)的狀態(tài)嗎？”

公式 10 第二行中的第一項(xiàng)，即認(rèn)知價(jià)值，反而量化了智能體在給定策略下預(yù)期能關(guān)于狀態(tài)學(xué)習(xí)多少。更高的認(rèn)知價(jià)值對(duì)應(yīng)于預(yù)期會(huì)導(dǎo)致更大不確定性減少的策略，自然導(dǎo)致探索。ActInf 的一個(gè)有趣特征是，該項(xiàng)自然地從自由能公式中推導(dǎo)出來。雖然這類似于 RL 中的定向探索項(xiàng)（Mann and Choe, 2013），但它不需要作為標(biāo)準(zhǔn)價(jià)值函數(shù)之外的單獨(dú)添加項(xiàng)。還要注意，這更具體地說是一種狀態(tài)探索形式（Schwartenbeck et al., 2019）。換句話說，它驅(qū)動(dòng)智能體減少關(guān)于狀態(tài)的不確定性。這與主動(dòng)學(xué)習(xí)不同，后者反而驅(qū)動(dòng)智能體更新關(guān)于模型參數(shù)的信念（有時(shí)稱為參數(shù)探索；下文將進(jìn)一步討論）。后一種探索形式更類似于標(biāo)準(zhǔn) RL 中使用的形式（例如，采取動(dòng)作來學(xué)習(xí)獎(jiǎng)勵(lì)概率），主要是因?yàn)?RL 更常用于完全可觀測(cè)的環(huán)境（即 MDP 而不是 POMDP）。

為了支持主動(dòng)學(xué)習(xí)和參數(shù)探索（當(dāng)生成模型參數(shù)未知時(shí)），EFE 也可以擴(kuò)展為考慮關(guān)于參數(shù)的信念。例如，當(dāng)應(yīng)用于定義似然函數(shù)的參數(shù) θ 時(shí)，這將產(chǎn)生：

在此，出現(xiàn)了一個(gè)新項(xiàng)，通常被稱為新穎性（novelty），它衡量了在策略下由預(yù)期觀測(cè)導(dǎo)致的關(guān)于模型參數(shù)信念的變化。高新穎性表明，預(yù)期觀測(cè)將顯著修正智能體關(guān)于其環(huán)境中隱藏狀態(tài)如何生成觀測(cè)的信念，從而驅(qū)動(dòng)參數(shù)探索。在實(shí)踐中，這鼓勵(lì)智能體從環(huán)境中未被充分探索的部分進(jìn)行采樣，使其在功能上類似于強(qiáng)化學(xué)習(xí)（RL）中鼓勵(lì)多樣化經(jīng)驗(yàn)采樣的內(nèi)在動(dòng)機(jī)機(jī)制。

如上所述，離散設(shè)置中關(guān)于參數(shù)的信念通常由狄利克雷分布（Dirichlet distributions）表示，允許智能體通過濃度參數(shù)計(jì)數(shù) α 來編碼不確定性。該分布由下式給出：

總之，EFE 泛函通過偏好那些預(yù)期能同時(shí)最大化獎(jiǎng)勵(lì)（偏好觀測(cè)）并增加對(duì)狀態(tài)和模型參數(shù)置信度的策略，來驅(qū)動(dòng)適應(yīng)性行為。這些驅(qū)動(dòng)力中的每一個(gè)都由預(yù)期獎(jiǎng)勵(lì)的大小以及關(guān)于當(dāng)前狀態(tài)和環(huán)境統(tǒng)計(jì)量的相對(duì)不確定性自然且動(dòng)態(tài)地加權(quán)。在實(shí)踐中，這些分量也可以通過單獨(dú)的常數(shù)獨(dú)立加權(quán)，以提供行為上的額外靈活性，或更好地解釋人類或其他動(dòng)物研究中個(gè)體差異的來源（Chou et al., 2025）。

雖然 ActInf 為適應(yīng)性行為提供了一個(gè)原則性框架，但實(shí)際實(shí)現(xiàn)面臨顯著的計(jì)算挑戰(zhàn)。如上所述，一個(gè)關(guān)鍵問題是需要提前評(píng)估整個(gè)預(yù)定義的動(dòng)作序列（策略），隨著規(guī)劃視界的增加和可能決策序列的增長，由于可能策略的組合爆炸，這變得不可行。在復(fù)雜環(huán)境中更新狀態(tài)信念時(shí)，變分消息傳遞的高計(jì)算成本，以及對(duì)手工構(gòu)建的生成模型的依賴（這對(duì)現(xiàn)實(shí)世界任務(wù)來說可能很難指定），進(jìn)一步加劇了這一問題。這些可擴(kuò)展性問題激發(fā)了對(duì) ActInf 的各種擴(kuò)展，包括基于深度學(xué)習(xí)的近似（Catal et al., 2020）、蒙特卡洛方法（Fountas et al., 2020b）和策略梯度技術(shù)（Millidge, 2019）。一個(gè)特別相關(guān)的擴(kuò)展是上述的 SI 算法（Friston et al., 2021），它使用遞歸樹搜索重新構(gòu)建了 EFE 目標(biāo)，以消除對(duì)窮舉策略枚舉的需求。SI 通過將未來信息反向傳播通過分層規(guī)劃結(jié)構(gòu)來動(dòng)態(tài)優(yōu)化策略，使其成為在實(shí)時(shí)決策中擴(kuò)展 ActInf 的一種有前途的方法。我們現(xiàn)在更深入地探討 SI。

2.3. 復(fù)雜推理

SI 算法擴(kuò)展了 ActInf，通過將預(yù)定義的可能策略集替換為遞歸信念傳播，來解決規(guī)劃中的關(guān)鍵可擴(kuò)展性挑戰(zhàn)。換句話說，與預(yù)先評(píng)估所有可能動(dòng)作序列的標(biāo)準(zhǔn) ActInf 不同，SI 通過樹搜索過程動(dòng)態(tài)構(gòu)建策略，該過程增量地傳播和評(píng)估關(guān)于未來狀態(tài)和觀測(cè)的信念。這種遞歸方法將 EFE 最小化問題重新構(gòu)建為類貝爾曼方程（Bellman, 1958），明確地將狀態(tài)推斷以動(dòng)作和觀測(cè)為條件，而不是整個(gè)策略。給定時(shí)間步 t 的動(dòng)作 u t
（為清晰起見省略模型參數(shù)推斷），EFE 的遞歸公式則為：

這種分解揭示了 SI 的兩個(gè)關(guān)鍵方面。前三項(xiàng)捕捉了動(dòng)作的局部認(rèn)知價(jià)值和實(shí)用價(jià)值，量化了當(dāng)前時(shí)間步的預(yù)期信息增益和預(yù)期獎(jiǎng)勵(lì)。相比之下，第四項(xiàng)遞歸地在隨后的時(shí)間步傳播未來的 EFE，使智能體能夠評(píng)估其動(dòng)作的長期后果。由于 SI 通過擴(kuò)展高概率信念軌跡來迭代構(gòu)建搜索樹，這可以與特定的剪枝機(jī)制相結(jié)合，在保持標(biāo)準(zhǔn) ActInf 中的主要目標(biāo)函數(shù)的同時(shí)，使深度規(guī)劃在計(jì)算上變得可行。

為了管理計(jì)算復(fù)雜性，SI 應(yīng)用了兩個(gè)關(guān)鍵的剪枝機(jī)制。首先，如果轉(zhuǎn)移到未來信念狀態(tài)的先驗(yàn)概率低于預(yù)定義的閾值（例如，原始公式中 p = 0.16
），則對(duì)該分支進(jìn)行剪枝，確保低概率軌跡不消耗資源。其次，那些 EFE 高于替代方案（即相對(duì)價(jià)值較低）超過預(yù)定義閾值的分支會(huì)在搜索過程的早期被丟棄，減少了完全評(píng)估次優(yōu)路徑的需求。通過以這種方式迭代剪枝無信息或次優(yōu)的動(dòng)作序列，SI 避免了窮舉的策略枚舉，同時(shí)仍然捕捉長程依賴性。這允許智能體選擇性地探索那些可能產(chǎn)生高認(rèn)知或?qū)嵱脙r(jià)值的策略。這些剪枝機(jī)制并非 SI 獨(dú)有，已被作為解決方案應(yīng)用于標(biāo)準(zhǔn) ActInf 和其他算法中。然而，與遞歸樹搜索方法相結(jié)合，它們提供了優(yōu)于原始 ActInf 公式的有用優(yōu)勢(shì)。目前，這種方法在很大程度上尚未針對(duì)其他類似算法進(jìn)行測(cè)試。

從心理學(xué)角度解讀，SI 使智能體能夠參與關(guān)于未來信念和觀測(cè)的分層反事實(shí)推理。智能體隱式地考慮以下序列：

這種迭代的信念更新過程似乎捕捉到了心理模擬和前瞻性規(guī)劃的現(xiàn)象學(xué)，其中決策是基于未來不同時(shí)間點(diǎn)的想象后果進(jìn)行評(píng)估的。

圖 1 說明了這一過程：每個(gè)分支對(duì)應(yīng)一個(gè)候選動(dòng)作序列，而信念傳播則完善了智能體關(guān)于未來狀態(tài)和觀測(cè)的預(yù)期。

2.4. 其他擴(kuò)展

值得注意的是，最近的研究也探索了對(duì)標(biāo)準(zhǔn) ActInf 和 SI 的各種擴(kuò)展。例如，Paul 等人（2023）提出將動(dòng)態(tài)規(guī)劃技術(shù)應(yīng)用于 EFE 泛函，以提高計(jì)算效率。他們還研究了智能體如何通過對(duì)稀疏目標(biāo)分布應(yīng)用 Z-learning（Todorov, 2006）來學(xué)習(xí)關(guān)于狀態(tài)的密集偏好——代表合意性。這種方法使智能體能夠開發(fā)超出預(yù)定義獎(jiǎng)勵(lì)結(jié)構(gòu)的適應(yīng)性目標(biāo)表示。它還允許智能體采用分層規(guī)劃視角，其中狀態(tài)偏好動(dòng)態(tài)出現(xiàn)，而不是被明確分配。概念上，這與直觀的啟發(fā)式方法一致，例如： “這個(gè)狀態(tài)將使我更接近我的目標(biāo)；因此，我通常偏好這個(gè)狀態(tài)勝過前一個(gè)狀態(tài)。” 然而，學(xué)習(xí)偏好（相對(duì)于基于動(dòng)作的價(jià)值函數(shù)）仍然是 ActInf 中一個(gè)未被充分探索的領(lǐng)域，為適應(yīng)性和高效決策提供了新的可能性。

2.5. 貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)

雖然 ActInf 通過 EFE 最小化的視角構(gòu)建決策，但在 RL 內(nèi)已經(jīng)描述了一種處理 POMDP 中不確定性的替代貝葉斯方法。具體而言，貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)（BARL）框架通過結(jié)合關(guān)于模型不確定性的顯式貝葉斯推理，直接擴(kuò)展了經(jīng)典的 RL 方法，將智能體關(guān)于環(huán)境動(dòng)態(tài)的信念視為增強(qiáng)狀態(tài)空間的一部分。基于第 2.1 節(jié)建立的形式體系，BARL 還通過維持和更新關(guān)于模型參數(shù)的信念，提供了一種原則性的探索方法。與從 EFE 最小化推導(dǎo)信息尋求行為的 ActInf 不同，BARL 在信念空間構(gòu)建了一個(gè)擴(kuò)展的 MDP，允許標(biāo)準(zhǔn)優(yōu)化技術(shù)自然地平衡探索和利用。這種方法已被證明在智能體必須在最大化預(yù)期獎(jiǎng)勵(lì)的同時(shí)學(xué)習(xí)環(huán)境動(dòng)態(tài)的場(chǎng)景中特別有效（Ross et al., 2007）。

理論基礎(chǔ)。BARL 方法位于更廣泛的貝葉斯機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)。迄今為止，該領(lǐng)域已開展了大量工作，產(chǎn)生了多種在執(zhí)行未知變量推斷時(shí)結(jié)合先驗(yàn)信息的有效方法（Ghavamzadeh et al., 2015）。這些方法通常應(yīng)用于涉及不確定性的問題，其中新信息與先驗(yàn)信念相結(jié)合，以形成關(guān)于一個(gè)或多個(gè)未知因素的后驗(yàn)信念。與此特別相關(guān)的是，這些方法在導(dǎo)航與 ActInf 假設(shè)的相同形式的 POMDP 方面已被證明是有效的（Poupart and Vlassis, 2008）。

BARL 要么針對(duì)解空間的不確定性（無模型），要么針對(duì)參數(shù)空間的不確定性（基于模型）來構(gòu)建 POMDP。在貝葉斯框架內(nèi)構(gòu)建此類問題的一個(gè)顯著優(yōu)勢(shì)是，它有效地規(guī)避了探索與利用之間的權(quán)衡問題。這是由于貝葉斯方法具有將關(guān)于狀態(tài)/參數(shù)/解的不確定性表示為信念狀態(tài)的能力，而這些信念狀態(tài)隨后可用于識(shí)別最優(yōu)解（Ghavamzadeh et al., 2015）。然而，這種方法的一個(gè)缺點(diǎn)是其對(duì)初始先驗(yàn)的敏感性，這些先驗(yàn)完全決定了任務(wù)開始時(shí)的信念狀態(tài)（Guez et al., 2012）。因此，BARL 的一個(gè)integral（不可或缺的）且通常困難的方面是有效先驗(yàn)信息的設(shè)計(jì)和整合。

在此，已經(jīng)求取了關(guān)于信念 b 的 θ 的期望（即，對(duì)其進(jìn)行了邊緣化），因此 θ 不會(huì)出現(xiàn)在結(jié)果概率密度中。因此，相對(duì)于信念 b ，模型實(shí)際上是已知的，并且不需要對(duì) θ 進(jìn)行探索。信念本身在接收到數(shù)據(jù)（在本例中，是關(guān)于轉(zhuǎn)移的數(shù)據(jù)）時(shí)進(jìn)行更新：

隨著模型隨后被構(gòu)建為已知的（關(guān)于 b ），該問題可以被公式化為一個(gè)馬爾可夫決策過程（MDP），并且可以使用貝爾曼方程來確定每個(gè)狀態(tài) - 信念對(duì)的最優(yōu)價(jià)值函數(shù)。

值得注意的是，雖然這在數(shù)學(xué)上精確地表示了 POMDP 內(nèi)的信念狀態(tài)，但收斂性僅相對(duì)于智能體的初始先驗(yàn)得到保證（Katt et al., 2018）。然而，盡管存在這一局限性，該框架在實(shí)踐中已顯示出良好的收斂特性（Ross et al., 2007, Vargo and Cogill, 2015, Katt et al., 2018）。

實(shí)現(xiàn)考量。雖然存在多種選擇，但我們?cè)谙挛哪M中考慮的特定 BARL 算法使用了在線更新，這與 Paquet 等人（2005）的方法一致。具體而言，該版本的算法按順序處理數(shù)據(jù)，隨著新信息的出現(xiàn)增量地更新其信念并調(diào)整其策略，而不是要求一次性提供整個(gè)數(shù)據(jù)集。規(guī)劃結(jié)構(gòu)（搜索算法）與 SI 算法中使用的完全相同，區(qū)別僅在于獎(jiǎng)勵(lì)函數(shù)的構(gòu)建方式。一般來說，對(duì)于這些遞歸算法，搜索完全等同于對(duì)從初始信念狀態(tài)可達(dá)的狀態(tài)子集進(jìn)行的定向價(jià)值迭代方法。

在算法上，此處考慮的 BARL 方法也模擬了對(duì)上述超狀態(tài)的搜索，這些超狀態(tài)隱式地包含了智能體關(guān)于模型參數(shù)的不確定性。這意味著濃度參數(shù)更新是在前向樹搜索（規(guī)劃器）的每個(gè)遞歸步驟執(zhí)行的，而不是僅在每個(gè)真實(shí)時(shí)間步之后執(zhí)行。有關(guān)更詳細(xì)的偽代碼，請(qǐng)參閱附錄中的算法 3。重要的是，前向樹搜索期間的濃度參數(shù)更新不會(huì)延續(xù)到下一個(gè)真實(shí)時(shí)間步——它們僅存在于遞歸規(guī)劃的上下文中。與 SI 一樣，貝葉斯自適應(yīng)方法也對(duì)狀態(tài)和動(dòng)作實(shí)施剪枝。

探索動(dòng)機(jī)的可比性。如上所述，BARL 中的信息尋求隱式地源于最大化獎(jiǎng)勵(lì)的驅(qū)動(dòng)力。雖然這種效應(yīng)也存在于 SI 中，但 ActInf 內(nèi)的 EFE 目標(biāo)還包含新穎性項(xiàng)，這提供了一個(gè)獨(dú)立于預(yù)期獎(jiǎng)勵(lì)的進(jìn)一步探索驅(qū)動(dòng)力（即一種內(nèi)在好奇心）。為了與 SI 具有更大的可比性，BARL 也可以補(bǔ)充一個(gè)顯式的定向探索項(xiàng)。為此，我們?cè)谙挛恼故镜囊恍┠M中，向 BARL 添加了一個(gè)常用的定向探索項(xiàng)——置信上限（UCB）。在此，UCB 采取一種算法啟發(fā)式的形式，該啟發(fā)式編碼了智能體直到當(dāng)前時(shí)間點(diǎn)已經(jīng)轉(zhuǎn)移到的狀態(tài)的計(jì)數(shù)。這可以通過添加到獎(jiǎng)勵(lì)函數(shù)中的一個(gè)表達(dá)式來表示，如下所示：

方法
3.1. 復(fù)雜學(xué)習(xí)
我們現(xiàn)在詳細(xì)說明 SL 算法的構(gòu)建，該算法將 SI 與來自主動(dòng)學(xué)習(xí)和貝葉斯自適應(yīng) RL 的見解相結(jié)合。回想一下，SI 在其遞歸樹搜索中包含了第 2.3 節(jié)所示 EFE 分解中的前兩項(xiàng)（即，分別驅(qū)動(dòng)狀態(tài)探索和獎(jiǎng)勵(lì)尋求），但它沒有包含第三項(xiàng)（新穎性）項(xiàng)，該項(xiàng)用于激勵(lì)參數(shù)探索。 SL 算法是專門構(gòu)建的，旨在通過結(jié)合這一額外功能建立在 SI 之上，允許智能體參與潛在參數(shù)更新的模擬。這具體允許智能體前瞻性地推理不同的未來動(dòng)作預(yù)期將如何完善其模型參數(shù)——從而提高其在動(dòng)態(tài)環(huán)境中學(xué)習(xí)的能力。

SL 統(tǒng)一了 SI 和貝葉斯自適應(yīng)方法，利用了它們各自的優(yōu)勢(shì)。如下所示（第 4 節(jié)），SI 和 BARL 在需要復(fù)雜適應(yīng)性學(xué)習(xí)的場(chǎng)景中都表現(xiàn)出相對(duì)較差的性能。雖然 SI 尚未在此類環(huán)境中得到廣泛測(cè)試（Friston et al., 2021），但有充分文獻(xiàn)記載，針對(duì) POMDP 的 BARL 方法高度依賴于明確指定的先驗(yàn)信念以促進(jìn)有效學(xué)習(xí)（Ross et al., 2007, Katt et al., 2018）。這一局限性通常限制了它們?cè)诟叨炔淮_定、非平穩(wěn)設(shè)置中的適用性，這與此處呈現(xiàn)的結(jié)果一致。

通過在遞歸樹搜索本身內(nèi)傳播參數(shù)更新，類似于貝葉斯自適應(yīng)方法，SL 使智能體能夠預(yù)測(cè)其信念將如何隨時(shí)間演變，而不是將它們視為靜態(tài)的。這允許智能體選擇動(dòng)作不僅是為了即時(shí)目標(biāo)優(yōu)化，也是為了最大化其未來學(xué)習(xí)潛力。實(shí)際上，SL 賦予智能體對(duì)其自身認(rèn)知進(jìn)步進(jìn)行反事實(shí)推理的能力，從而做出主動(dòng)自我改進(jìn)的決策，加速模型收斂和適應(yīng)性。

更詳細(xì)地說，SL 算法在每個(gè)模擬時(shí)間步后更新濃度參數(shù)計(jì)數(shù)，方式與 BARL 中相同。這些更新后的濃度參數(shù)隨后被向前傳播，并用于構(gòu)建（通過歸一化）轉(zhuǎn)移和/或似然函數(shù)，這些函數(shù)用于遞歸搜索的后續(xù)步驟。因此，SL 算法可以考慮如果采取一個(gè)動(dòng)作序列而不是另一個(gè)動(dòng)作序列，模型參數(shù)將如何沿著其前向樹搜索發(fā)生變化。這很重要，因?yàn)樗浞值卮砹艘环N模擬，即如果智能體采取一組特定的動(dòng)作，并在這樣做之后在每個(gè)真實(shí)時(shí)間步更新其模型參數(shù)，實(shí)際實(shí)時(shí)軌跡將如何展開。請(qǐng)注意，以這種方式模擬狀態(tài)和模型參數(shù)如何變化必然基于智能體關(guān)于狀態(tài)和模型參數(shù)的先驗(yàn)信念，這可能導(dǎo)致關(guān)于環(huán)境的錯(cuò)誤和有偏假設(shè)。然而，盡管如此，此類技術(shù)已顯示出良好的收斂特性（Ross et al., 2007）。

除了這種反事實(shí)搜索方法外，SL 還實(shí)現(xiàn)了一個(gè)“后向平滑”功能——這一特征之前在 SI 的原始展示中（在更有限的范圍內(nèi)）曾被提出（Friston et al., 2021）。該后向平滑功能從當(dāng)前評(píng)估的時(shí)間步回溯，以調(diào)整其在先前時(shí)間步上關(guān)于狀態(tài)的后驗(yàn)信念。這在學(xué)習(xí)情況下特別有用，因?yàn)樗试S將觀測(cè)回顧性地分配給狀態(tài)的后驗(yàn)，從而可能導(dǎo)致對(duì)相關(guān)狄利克雷濃度參數(shù)計(jì)數(shù)的更準(zhǔn)確更新。重要的是，該后向平滑功能在智能體規(guī)劃視界內(nèi)的每個(gè)評(píng)估的未來時(shí)間步以及每個(gè)真實(shí)時(shí)間步均被實(shí)施。

總之，SL 與原始 SI 方案之間有兩個(gè)關(guān)鍵區(qū)別。第一個(gè)是通過前瞻性模擬傳播參數(shù)學(xué)習(xí)的加入。第二個(gè)是在此前向搜索的每一步對(duì)參數(shù)學(xué)習(xí)進(jìn)行的模擬后向平滑。從心理學(xué)角度來看，因此可以將 SL 智能體的推理視為如下：

如果我采取一個(gè)動(dòng)作，接收一個(gè)觀測(cè)，并轉(zhuǎn)移到一個(gè)新狀態(tài)，那么我將如何更新我關(guān)于此時(shí)間步及先前時(shí)間步的狀態(tài)的后驗(yàn)信念？基于這些后驗(yàn)更新，那么我將如何改變我當(dāng)前的模型？

這種多層次反事實(shí)思維的方法被證明特別有益，尤其是在智能體需要學(xué)習(xí)似然函數(shù)而狀態(tài)轉(zhuǎn)移函數(shù)已知的情況下，如下文我們的主要算法比較中所描述（第 3.3.2 節(jié)）。

雖然通過向后平滑來細(xì)化過去狀態(tài)后驗(yàn)的原則存在于其他推斷方案中，但 SL 的獨(dú)特優(yōu)勢(shì)在于其在前向規(guī)劃內(nèi)對(duì)此過程的主動(dòng)整合。具體而言，SL 內(nèi)的搜索機(jī)制評(píng)估和優(yōu)先選擇動(dòng)作不僅基于即時(shí)結(jié)果，還基于將通過后續(xù)后向平滑實(shí)現(xiàn)的關(guān)于參數(shù)的預(yù)期信息增益。因此，它更高度重視那些導(dǎo)向特定狀態(tài)的軌跡，從這些狀態(tài)進(jìn)行的向后推斷將對(duì)過去信念產(chǎn)生更精確且信息量更大的更新，進(jìn)而更新模型參數(shù)本身。如下文我們將展示的，這種通過對(duì)后向平滑實(shí)現(xiàn)的未來認(rèn)知細(xì)化的戰(zhàn)略強(qiáng)調(diào)，有助于更準(zhǔn)確地修正歷史信念，進(jìn)而支持穩(wěn)健的未來決策并加速不確定環(huán)境中的學(xué)習(xí)。

3.2. 覓食網(wǎng)格世界環(huán)境

為了評(píng)估 SL、SI 和 BARL 的相對(duì)性能，我們?cè)O(shè)計(jì)了一個(gè)具有挑戰(zhàn)性的網(wǎng)格世界環(huán)境，以測(cè)試多步規(guī)劃，其中戰(zhàn)略探索對(duì)于最大化長期獎(jiǎng)勵(lì)至關(guān)重要。雖然其他環(huán)境也曾被用于比較 ActInf 與不同的機(jī)器學(xué)習(xí)算法（Sajid et al., 2021, Millidge, 2021），但它們通常將探索或模型學(xué)習(xí)等特定行為孤立開來。我們的環(huán)境整合了這些需求，要求智能體在預(yù)測(cè)世界的概率性變化的同時(shí)，動(dòng)態(tài)地平衡探索、參數(shù)學(xué)習(xí)和獎(jiǎng)勵(lì)優(yōu)化。這一設(shè)計(jì)的動(dòng)機(jī)源于常見的生物學(xué)挑戰(zhàn)：管理不同且不斷增長的需求（例如，饑餓、口渴），避免關(guān)鍵的生存閾值，以及定位那些可用性隨時(shí)間變化的資源，這需要認(rèn)知性覓食。

3.2.1. 環(huán)境細(xì)節(jié)與智能體模型

該環(huán)境是一個(gè) 10×10 的網(wǎng)格，包含三種非消耗性資源，名義上標(biāo)記為食物、水和睡眠（見圖 3）。在每個(gè)時(shí)間步，智能體可以向上、向下、向左、向右移動(dòng)，或留在原地。位置轉(zhuǎn)移是確定性的，且為智能體所知。

這個(gè)環(huán)境帶來的核心挑戰(zhàn)在于其部分可觀測(cè)的性質(zhì)。資源的位置依賴于隱藏的背景狀態(tài)，這些狀態(tài)隨時(shí)間概率性地變化。出于概念目的，我們將這些背景狀態(tài)標(biāo)記為季節(jié)（即春、夏、秋、冬）。智能體無法直接觀測(cè)季節(jié)狀態(tài)。然而，它可以通過訪問一個(gè)特定的線索位置（我們稱之為 Hill 狀態(tài)）來暫時(shí)揭示當(dāng)前季節(jié)（即，仿佛提供了環(huán)境的概覽）。然而，訪問 Hill 狀態(tài)本身并不揭示資源位置。因此，智能體仍然需要通過探索來學(xué)習(xí)季節(jié)與資源位置之間的映射。這種設(shè)置創(chuàng)造了一個(gè)明確的探索 - 利用困境，其中智能體需要在以下之間進(jìn)行選擇：1) 探索新位置以尋找資源，2) 訪問 Hill 以減少關(guān)于當(dāng)前季節(jié)的不確定性，或 3) 利用當(dāng)前信念并移向之前觀測(cè)到資源的位置。智能體的狀態(tài)空間被正式定義為：

在此，
是內(nèi)部狀態(tài)，用于追蹤自上次獲取每種資源以來經(jīng)過的時(shí)間步。這些充當(dāng)了隨時(shí)間增長的穩(wěn)態(tài)需求，其中每種資源水平都被智能體確切地知曉 3 3。形式上，智能體擁有兩種觀測(cè)模態(tài)。第一種涉及網(wǎng)格狀態(tài)內(nèi)的資源，有四種可能的結(jié)果：空（Empty）、食物（Food）、水（Water）或睡眠（Sleep）。第二種模態(tài)提供關(guān)于背景（context）的信息。也就是說，如果在 Hill 狀態(tài)，智能體觀測(cè)到當(dāng)前的背景（例如，Winter），而所有其他網(wǎng)格位置則提供無信息的“無背景”（No Context）觀測(cè)。

3.2.2. 動(dòng)態(tài)多目標(biāo)偏好

如上所述，該環(huán)境中的偏好不是靜態(tài)的；它們由一個(gè)動(dòng)態(tài)的、多目標(biāo)的獎(jiǎng)勵(lì)函數(shù)決定，該函數(shù)反映了智能體當(dāng)前的內(nèi)部資源需求（算法 1）。對(duì)給定資源的偏好隨著自上次獲取以來時(shí)間的增長而增加。如果任何資源計(jì)時(shí)器超過了預(yù)定義的限制，智能體將遭受巨大的懲罰，且該回合（trial）結(jié)束。在某種程度上，這一結(jié)果可以被視為智能體的“死亡”（盡管，如下所述，為了評(píng)估目的，學(xué)習(xí)被允許在回合之間延續(xù)）。這種受穩(wěn)態(tài)調(diào)節(jié)啟發(fā)的結(jié)構(gòu)，迫使智能體平衡多個(gè)相互競(jìng)爭(zhēng)的目標(biāo)以確保生存，這一設(shè)計(jì)遵循了強(qiáng)化學(xué)習(xí)中的經(jīng)典方法（Sutton and Barto, 2018）。

智能體的動(dòng)態(tài)偏好結(jié)構(gòu)是本任務(wù)的一個(gè)關(guān)鍵特征。與具有靜態(tài)或僅時(shí)間依賴偏好的典型 ActInf 實(shí)現(xiàn)不同（Tschantz et al., 2020, Sajid et al., 2021, Friston et al., 2021, Smith et al., 2022），在此處，智能體的偏好是其自身策略的函數(shù)。即，智能體采取的動(dòng)作決定了其未來的內(nèi)部狀態(tài)，而這些狀態(tài)反過來定義了其未來的偏好。這產(chǎn)生了一種循環(huán)依賴，其中智能體需要識(shí)別出一個(gè)策略，該策略能最好地滿足由該策略本身所引發(fā)的偏好。

3.2.3. 說明性任務(wù)示例

該環(huán)境的設(shè)計(jì)使得減少不確定性的策略具有細(xì)微差別且非平凡。雖然現(xiàn)有關(guān)于認(rèn)知行為的大部分工作都集中在老虎機(jī)任務(wù)上（Averbeck, 2015, Markovi? et al., 2021），但我們的環(huán)境反而允許長期序列規(guī)劃。例如，智能體可以通過兩種不同的方式推斷當(dāng)前背景：直接方式，即訪問 Hill；或間接方式，即訪問一個(gè)在特定背景下已知存在資源的位置。觀測(cè)到該資源證實(shí)了背景，而其缺失則暗示背景已經(jīng)改變。舉例說明，考慮圖 5 中的場(chǎng)景。在此示例中，季節(jié)之間的轉(zhuǎn)移概率是已知的，但每個(gè)季節(jié)中網(wǎng)格位置與資源之間的映射（即似然函數(shù)）需要被學(xué)習(xí)。在 t = 0 時(shí)，此模擬假設(shè)智能體位于 Hill 狀態(tài)并觀測(cè)到背景是 Winter。它還假設(shè)智能體此前已通過經(jīng)驗(yàn)學(xué)習(xí)到 Food 在 Winter 時(shí)很可能位于網(wǎng)格位置 2。

因此，智能體移動(dòng)兩個(gè)時(shí)間步以到達(dá)位置 2。如果每個(gè)時(shí)間步季節(jié)保持為 Winter 的概率是 0.95，那么到達(dá)時(shí)它仍然是 Winter 的概率將是 0.95 × 0.95 = 0.9025 。因此，智能體相當(dāng)確信季節(jié)保持穩(wěn)定。然而，當(dāng)智能體到達(dá)位置 2 時(shí)，它發(fā)現(xiàn)食物缺席。這使得智能體能夠確信地推斷季節(jié)已經(jīng)改變。由于智能體知道季節(jié)之間的轉(zhuǎn)移概率，它在更新信念時(shí)也可以推理最可能的背景轉(zhuǎn)移（例如，單次轉(zhuǎn)移到 Spring 與雙重轉(zhuǎn)移到 Summer）。此示例強(qiáng)調(diào)了最優(yōu)行為如何要求智能體依賴其世界模型來指導(dǎo)信念更新，并引導(dǎo)動(dòng)作選擇朝向探索或?qū)で螵?jiǎng)勵(lì)的選擇。

3.3. 實(shí)驗(yàn)設(shè)置與細(xì)節(jié)

對(duì)于我們下面的主要模擬，Hill 狀態(tài)被設(shè)置在位置 55（網(wǎng)格中心），以確保從網(wǎng)格中的所有點(diǎn)來看，它通常都在智能體的規(guī)劃視界（搜索深度）內(nèi)。資源位置也是啟發(fā)式選擇的，在每個(gè)季節(jié)內(nèi)固定，以確保興趣點(diǎn)大多在彼此合理的搜索深度內(nèi)，并能有效地促進(jìn)學(xué)習(xí)。具體而言，取決于季節(jié)，食物、水和睡眠分別被放置在以下位置：春 = 71, 73, 64；夏 = 43, 33, 44；秋 = 57, 48, 49；冬 = 78, 67, 59。季節(jié)背景轉(zhuǎn)移保持穩(wěn)定的概率為 0.95，或以 0.05 的概率轉(zhuǎn)移到相鄰背景。初始背景在每次試驗(yàn)開始時(shí)被均勻采樣，智能體在第一個(gè)時(shí)間步對(duì)背景具有均勻信念。需要注意的是，雖然我們專注于此處描述的具體配置以進(jìn)行詳細(xì)說明，但每種算法也在其他幾種配置（即資源位置的選擇）上進(jìn)行了測(cè)試，以確保我們結(jié)果的泛化性。這些進(jìn)一步驗(yàn)證性分析的結(jié)果提供在附錄第 6.3 節(jié)。

每次試驗(yàn)開始時(shí)，智能體位于固定的初始位置（狀態(tài) 51）。食物、水和睡眠的生存閾值分別設(shè)置為 22、20 和 25 個(gè)時(shí)間步，低于此值智能體將死亡（結(jié)束試驗(yàn)）。這些時(shí)間步限制是啟發(fā)式選擇的，以允許智能體有足夠的時(shí)間學(xué)習(xí)模型，同時(shí)也模仿了不同資源在真實(shí)生物體中以不同速率消耗的事實(shí)。這些限制也防止了選擇那些雖然智能但對(duì)我們旨在回答的問題有問題的行為（例如，如果時(shí)間太長，智能體將簡(jiǎn)單地在一個(gè)位置等待整個(gè)時(shí)間，直到季節(jié)返回到已知資源存在的地方）。偏好結(jié)構(gòu)根據(jù)這些資源計(jì)時(shí)器為觀測(cè)分配值，將空狀態(tài)評(píng)分為 -1，并根據(jù)經(jīng)過的消耗時(shí)間對(duì)資源狀態(tài)進(jìn)行正面評(píng)分。一旦超過任何資源閾值，所有觀測(cè)的偏好統(tǒng)一轉(zhuǎn)變?yōu)榫薮蟮呢?fù)懲罰（-500）。

我們將一次試驗(yàn)定義為智能體在環(huán)境中的一次單次“運(yùn)行”。每次試驗(yàn)要么在資源耗盡（智能體死亡）時(shí)終止，要么在指定的最大時(shí)間步數(shù)（在我們的實(shí)驗(yàn)中為 100）時(shí)終止。多次試驗(yàn)依次進(jìn)行，其中給定試驗(yàn)中的任何學(xué)習(xí)都被延續(xù)到下一次試驗(yàn)的開始。我們將這些試驗(yàn)序列中的每一個(gè)稱為一次評(píng)估。與通常在每次完整試驗(yàn)后更新參數(shù)值的實(shí)現(xiàn)不同（Friston et al., 2021），我們的實(shí)現(xiàn)在每個(gè)時(shí)間步后執(zhí)行這些更新。這對(duì)于智能體解決此環(huán)境提出的問題來說是必要的。因此，此處所有算法都以動(dòng)態(tài)的、“在線”方式運(yùn)行。

3.3.1. 搜索啟發(fā)式與視界深度分析

作為性能的基線表征，我們首先在一個(gè)環(huán)境所有元素均已知的設(shè)置中分析了 SI 和 BARL——即，模型具備關(guān)于季節(jié)之間轉(zhuǎn)移概率、資源位置以及每個(gè)季節(jié)中每個(gè)資源位置的完整知識(shí)。需要注意的是，由于在此設(shè)置中模型參數(shù)是固定的且不需要學(xué)習(xí)，SL 退化為 SI，如果在此設(shè)置中測(cè)試將不會(huì)提供額外的見解。 BARL 也退化為標(biāo)準(zhǔn)貝葉斯 RL。為了獲得進(jìn)一步的見解，在已知環(huán)境內(nèi)的模擬也在不同的規(guī)劃視界（從 1 到 9 步）下以及使用三種不同的樹搜索啟發(fā)式方法進(jìn)行。這使我們能夠在不需要模型學(xué)習(xí)時(shí)識(shí)別理論上最優(yōu)的深度和搜索策略。具體而言，我們?cè)谝韵聴l件下評(píng)估了 SI：(i) 帶有記憶化的深度限制遞歸搜索，(ii) 蒙特卡洛 rollout（帶有隨機(jī)動(dòng)作選擇），以及 (iii) 一種混合方案，該方案對(duì)前 h 步應(yīng)用帶有記憶化的遞歸樹搜索，對(duì)剩余 m 步應(yīng)用蒙特卡洛 rollout（其中 h + m = 6）。雖然記憶化通過緩存先前訪問過的狀態(tài)配置的估計(jì)值來加速推斷，但它有時(shí)也可能引入不準(zhǔn)確的緩存值。蒙特卡洛方法通過從每個(gè)葉節(jié)點(diǎn)抽取獨(dú)立的 rollout（在這些評(píng)估中為 100 次）來幫助避免這種偏差，但代價(jià)是更大的計(jì)算成本。混合方法通過權(quán)衡這些屬性，在搜索早期重用精確的子樹，同時(shí)在視界深處依賴無偏的 rollout。需要注意的是，這種混合方法類似于部分可觀測(cè)蒙特卡洛規(guī)劃方法（Silver and Veness, 2010）。

3.3.2. 主要算法比較

在完成上述基線性能表征后，我們的主要分析將 SL 與 SI 和 BARL（包括有和沒有 UCB 的情況）進(jìn)行了比較。在此，我們專注于似然（即每個(gè)背景內(nèi)的資源位置）需要被學(xué)習(xí)且季節(jié)之間的轉(zhuǎn)移概率已知的情況。智能體在每次試驗(yàn)中生存的時(shí)間步數(shù)，以及這在每次評(píng)估中的試驗(yàn)之間如何變化，被作為我們的主要性能指標(biāo)。性能比較最初是在每次評(píng)估 200 次連續(xù)試驗(yàn)下進(jìn)行的。選擇這個(gè)長度是作為一個(gè)計(jì)算上合理的上限，允許足夠的探索。這些模擬是使用固定的 9 步視界和帶有記憶化的全深度樹搜索進(jìn)行的。這一選擇部分基于前一節(jié)描述的分析的初步結(jié)果（結(jié)果見 4.1），結(jié)果表明性能直到這個(gè)視界都在持續(xù)改善。我們也主要感興趣于在搜索策略選擇的限制最小化的情況下算法之間的比較。

為了提供性能的可泛化表征，我們對(duì)這些試驗(yàn)序列進(jìn)行了 500 次評(píng)估（帶有 500 個(gè)隨機(jī)種子）。跟隨收斂分析之后，這表明平均性能結(jié)果通常在 100 次試驗(yàn)左右穩(wěn)定，評(píng)估被減少到 120 次試驗(yàn)。選擇這個(gè)較短的試驗(yàn)數(shù)量是因?yàn)樗匀徊蹲降搅耸諗亢蟮暮诵膶W(xué)習(xí)動(dòng)態(tài)，同時(shí)顯著減少了模擬的計(jì)算需求。這允許將這些更廣泛分析的種子增加到 2000 個(gè)，以確保更大的統(tǒng)計(jì)置信度并對(duì)每種算法顯示的行為模式進(jìn)行徹底探索。

為了更好地量化算法性能，我們擬合了線性混合效應(yīng)模型（LMEs），使用試驗(yàn)、算法及其交互作用作為生存時(shí)間的預(yù)測(cè)因子： Survival ～ T rial + Algorithm + T rial × Algorithm + (1|Id) 為了評(píng)估早期學(xué)習(xí)動(dòng)態(tài)，我們分別為兩個(gè)關(guān)鍵試驗(yàn)區(qū)間運(yùn)行了這些 LME：一個(gè)爬坡階段（試驗(yàn) 1–20）和一個(gè)主動(dòng)學(xué)習(xí)階段（試驗(yàn) 21–60）。這些模型允許我們估計(jì)學(xué)習(xí)率（斜率）和性能水平（基于估計(jì)邊際均值 [EMMs]）。作為一個(gè)輔助特征，為了更好地理解學(xué)習(xí)如何在實(shí)驗(yàn)期間被塑造，我們通過 KL 散度分析測(cè)量了 SL 的模型偏離或符合真實(shí)環(huán)境的程度。

隨后在不同網(wǎng)格配置上進(jìn)行了額外的實(shí)驗(yàn)（附錄第 6.3 節(jié)），以更徹底地比較四種算法中的每一種（SL, SI, 以及有和沒有 UCB 的 BARL）。這些評(píng)估每次都在 200 次試驗(yàn)上進(jìn)行，以保持與我們主要模擬中初始較長運(yùn)行的一致性，并為評(píng)估不同算法方法的性能提供可比較的基礎(chǔ)。對(duì)于這些多算法比較，每種條件使用了 200 個(gè)種子，被選為計(jì)算資源與在不同配置（即按季節(jié)變化的資源位置）之間需要可靠比較數(shù)據(jù)之間的實(shí)際平衡。

結(jié)果
下文我們將展示兩個(gè)主要實(shí)驗(yàn)的結(jié)果，以及對(duì)主要行為模式和底層機(jī)制的分析。

4.1. 搜索啟發(fā)式與視界深度分析

圖 6 展示了在似然和轉(zhuǎn)移概率均已知的情況下（即，作為對(duì)每種算法最大性能水平的評(píng)估），不同規(guī)劃視界和搜索啟發(fā)式方法下的模擬結(jié)果。研究結(jié)果表明，在視界為 5 及以上時(shí)，非記憶化方法優(yōu)于記憶化方法，因?yàn)樗苊饬耸褂每赡懿粶?zhǔn)確的緩存值，盡管其計(jì)算成本顯著更高（在視界為 5 時(shí)，大約是記憶化條件的 28 倍）。混合搜索方法在較短視域下表現(xiàn)出更好的性能。然而，其相對(duì)低效的樣本使用使其在計(jì)算上可行性較低。

一個(gè)有趣的觀察是，BARL 表現(xiàn)出比 SI 更好的性能，最顯著的差異出現(xiàn)在早期試驗(yàn)中。這最可能是由 SI 在 EFE 內(nèi)使用認(rèn)知價(jià)值項(xiàng)驅(qū)動(dòng)的，該項(xiàng)鼓勵(lì)更頻繁地移動(dòng)到 Hill。雖然這在學(xué)習(xí)期間可能是有益的，但當(dāng)環(huán)境完全已知時(shí)（如在這些模擬中），它可能會(huì)削弱獎(jiǎng)勵(lì)最大化行為。

4.2. 模型不確定性下的相對(duì)性能

圖 7 展示了在我們需要學(xué)習(xí)似然模型的主要模擬中，120 次試驗(yàn)的平均生存曲線。這些結(jié)果突顯了算法之間學(xué)習(xí)軌跡的明顯差異。最值得注意的是，SL 的性能提升速度比其他每種算法都快，并在后期試驗(yàn)中保持了輕微但一致的優(yōu)勢(shì)。

4.3. 其他行為模式

對(duì)兩種 ActInf 算法（SI 和 SL）的單次試驗(yàn)?zāi)M也揭示了有趣的行為模式以及對(duì)偏好精度選擇的依賴性。由于這種精度有效地降低了 EFE 中的探索驅(qū)動(dòng)力，我們發(fā)現(xiàn)它控制了智能體在 Hill 狀態(tài)花費(fèi)的總時(shí)間步數(shù)（即，解決不確定性）。對(duì)于這些單次試驗(yàn)?zāi)M，我們還檢查了資源位置已知但季節(jié)轉(zhuǎn)移未知的情況，因?yàn)槲覀儼l(fā)現(xiàn)它們提供了關(guān)于參數(shù)依賴性的額外見解。例如，圖 13 (C) 展示了一個(gè)偏好精度較高 ( c = 1 )、似然函數(shù)已知但轉(zhuǎn)移函數(shù)未知的情況。在這種情況下，SI 和 SL 智能體盡管缺乏關(guān)于當(dāng)前背景的信息，最初都忽略了 Hill，并試圖通過訪問它們知道與特定背景相關(guān)聯(lián)的資源位置來推斷當(dāng)前季節(jié)（因?yàn)閾碛芯_的似然模型）。這是因?yàn)榕c智能體的偏好相比，認(rèn)知項(xiàng)具有比例上較低的影響。因此，這些智能體的行為是由滿足其多目標(biāo)偏好的驅(qū)動(dòng)力驅(qū)動(dòng)的，而不是以對(duì)其關(guān)于隱藏狀態(tài)的信念進(jìn)行大幅后驗(yàn)更新的形式尋求信息。這與 ActInf 文獻(xiàn)中先前描述的經(jīng)典風(fēng)險(xiǎn)尋求行為一致（Smith et al., 2022）。對(duì)于 SI 算法，無論偏好精度如何，當(dāng)省略認(rèn)知項(xiàng)時(shí)，都觀察到了類似的行為。

回想一下，當(dāng)環(huán)境的完整知識(shí)（轉(zhuǎn)移和似然函數(shù)）可用時(shí)，所有算法都表現(xiàn)出更大的性能相似性。在單次試驗(yàn)水平上分析時(shí)，每個(gè)算法通常最初會(huì)移動(dòng)到 Hill，然后再前往資源位置（如前所述，SL 這樣做更頻繁，因?yàn)樗蓄~外的認(rèn)知驅(qū)動(dòng)力）。這突顯了 ActInf 和 BARL 之間的核心相似性。也就是說，這兩種方法相對(duì)于其先驗(yàn)信念都是貝葉斯最優(yōu)的，這意味著，給定一個(gè)初始信念狀態(tài)和一種計(jì)算額外信念狀態(tài)子集價(jià)值的機(jī)制（例如，在這些實(shí)現(xiàn)中，從初始信念狀態(tài)可達(dá)直到某個(gè)視界的所有信念狀態(tài)），每個(gè)智能體都將最優(yōu)地計(jì)算這些信念狀態(tài)中每一個(gè)的價(jià)值。給定一個(gè)確定性的和貪婪的策略構(gòu)建過程，隨后將選擇一個(gè)最大化期望值的最優(yōu)策略。主要的區(qū)別隨后出現(xiàn)在需要主動(dòng)學(xué)習(xí)來解決環(huán)境內(nèi)偶然事件的不確定性時(shí)。

另一個(gè)重要的考慮因素是，每種算法計(jì)算信念狀態(tài)價(jià)值的準(zhǔn)確性完全取決于初始信念狀態(tài)。因此，如果初始信念狀態(tài)不準(zhǔn)確，后續(xù)信念狀態(tài)的計(jì)算和評(píng)估也將不準(zhǔn)確。因此，在轉(zhuǎn)移模型已知但初始背景未知的模擬中，智能體知道轉(zhuǎn)移是相對(duì)靜態(tài)的（95% 的機(jī)會(huì)保持在同一背景，5% 的機(jī)會(huì)轉(zhuǎn)移到下一個(gè)背景），因此通常將訪問 Hill 視為最優(yōu)——因?yàn)樗悄茏罹_地更新其關(guān)于當(dāng)前季節(jié)信念的狀態(tài)。由于這些智能體實(shí)施的反事實(shí)軌跡規(guī)劃的性質(zhì)，它們搜索直到設(shè)定的規(guī)劃視界的所有可能信念軌跡，從而提前計(jì)算出對(duì)于 Hill 狀態(tài)提供的任何觀測(cè)的最優(yōu)后續(xù)動(dòng)作集。規(guī)劃軌跡隨后計(jì)算出 Hill 將提供精確的背景信息，并且對(duì)于 Hill 可能提供的每個(gè)觀測(cè)，計(jì)算出從該時(shí)間點(diǎn)開始的最優(yōu)軌跡。因此，與那些不包含 Hill 的信念軌跡相比，這些信念軌跡具有高精度。

如上簡(jiǎn)要所述，一些初步的探索性分析也顯示了行為模式受到達(dá)每種資源的時(shí)間限制影響的有趣方式。例如，如果與上述主要模擬相比增加這些時(shí)間限制（即，30 個(gè)時(shí)間步未到達(dá)資源），所有智能體最初都會(huì)忽略 Hill 并簡(jiǎn)單地猜測(cè)背景。這是因?yàn)橹悄荏w不相信它會(huì)遭受達(dá)到時(shí)間限制的懲罰。因此，通過猜測(cè)背景，它損失很小，即使其猜測(cè)是錯(cuò)誤的。在這些場(chǎng)景中，智能體通常最初會(huì)根據(jù)對(duì)背景的猜測(cè)向資源移動(dòng)，只有當(dāng)它認(rèn)為后續(xù)猜測(cè)會(huì)有更高幾率導(dǎo)致死亡時(shí)，才會(huì)移動(dòng)到 Hill。在數(shù)學(xué)上，這是由于智能體精確地遵循它認(rèn)為將在期望中產(chǎn)生最大回報(bào)的動(dòng)作，正如所有貝葉斯最優(yōu)算法的情況一樣。

綜合來看，上述分析突顯了固定參數(shù)（即偏好精度、初始信念狀態(tài)、預(yù)期資源時(shí)間限制、規(guī)劃視界）以特定方式影響決策的方式。這開啟了在未來研究中使用此類模型來捕捉（并從機(jī)制上解釋）人類認(rèn)知和行為中的個(gè)體差異，以及潛在其生物學(xué)基礎(chǔ)的可能性。因此，這代表了未來一個(gè)重要的研究方向。

4.4. 總結(jié)

本節(jié)中展示的實(shí)驗(yàn)結(jié)果清晰地揭示了 SL、SI 和 BARL 在不同程度環(huán)境不確定性下的比較性能和適應(yīng)性。在我們新穎的測(cè)試環(huán)境中，SL 在各種條件下始終優(yōu)于 SI 和 BARL，特別是在那些需要長期規(guī)劃并考慮信息價(jià)值的版本中。在 BARL 中加入 UCB 風(fēng)格的探索獎(jiǎng)勵(lì)提高了其適應(yīng)性，但仍不如 SL 所展示的內(nèi)在認(rèn)知和新穎性驅(qū)動(dòng)的探索有效。也就是說，雖然 UCB 項(xiàng)實(shí)現(xiàn)了更定向的似然學(xué)習(xí)，但它并未完全復(fù)制基于 ActInf 的方法中固有的結(jié)構(gòu)化、分層搜索機(jī)制和狀態(tài)探索驅(qū)動(dòng)力。樹搜索深度和記憶化顯著影響了性能權(quán)衡，尤其是對(duì)于 SI。雖然更深的樹搜索改善了長期規(guī)劃，但計(jì)算成本呈非線性增加。記憶化似乎通過緩存中間搜索結(jié)果提供了一個(gè)實(shí)用的解決方案，但其高內(nèi)存需求在大規(guī)模應(yīng)用中需要仔細(xì)管理。

本研究旨在 (1) 比較復(fù)雜推理（SI）與貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)方法（BARL）的性能，以及 (2) 引入并評(píng)估復(fù)雜學(xué)習(xí)（SL），這是 SI 的一個(gè)擴(kuò)展，將主動(dòng)學(xué)習(xí)整合到遞歸規(guī)劃中。我們的模擬在一個(gè)新穎的、生物啟發(fā)的網(wǎng)格世界任務(wù)中進(jìn)行，提供了關(guān)于這些算法的行為和比較優(yōu)勢(shì)及弱點(diǎn)的關(guān)鍵見解。

5.1. 主要發(fā)現(xiàn)與總體貢獻(xiàn)

在所有需要模型學(xué)習(xí)的模擬中，SL 均優(yōu)于 SI 和 BARL（無論是否有促進(jìn)定向探索的置信上限 [UCB] 啟發(fā)式方法）。在此，性能通過每次試驗(yàn)生存的時(shí)間步數(shù)來衡量，這內(nèi)在依賴于智能體學(xué)習(xí)準(zhǔn)確模型的能力。由于任務(wù)固有的難度，觀察到了試驗(yàn)間的方差，但平均而言，SL 表現(xiàn)出卓越的性能。這反映了它基于預(yù)期未來觀測(cè)戰(zhàn)略性地重新訪問狀態(tài)的新穎能力，在多個(gè)未來時(shí)間步上平衡探索和利用。

與專注于最大化預(yù)期累積獎(jiǎng)勵(lì)的 BARL 算法不同，SL 利用預(yù)期信息增益來指導(dǎo)行為。特別是，SL 智能體使用前瞻性策略，模擬未來觀測(cè)將如何更新其關(guān)于早期狀態(tài)和狀態(tài) - 結(jié)果映射的信念。出現(xiàn)了一個(gè)顯著的模式：一旦發(fā)現(xiàn)資源，SL 智能體經(jīng)常重新訪問一個(gè)能消除當(dāng)前背景歧義的狀態(tài)（Hill）。這種行為體現(xiàn)了 SL 跨時(shí)間鏈接觀測(cè)以改善其背景理解的能力，這是其他算法所不具備的特征。

從心理學(xué)角度解讀這一機(jī)制，采用此算法的智能體可能會(huì)參與以下思維過程：我現(xiàn)在發(fā)現(xiàn)了一個(gè)存有食物資源的狀態(tài)。我不確定此時(shí)我處于什么季節(jié)，但如果我從這里移動(dòng)并訪問 Hill 狀態(tài)，它會(huì)告訴我我處于什么季節(jié)。然后，鑒于我的轉(zhuǎn)移模型，我將能夠逆向推導(dǎo)并回顧性地推斷出當(dāng)我在食物位置時(shí)我最可能處于什么季節(jié)。雖然不是最精確的，但訪問 Hill 將允許我比移動(dòng)到某些其他狀態(tài)更精確地做到這一點(diǎn)，那些狀態(tài)不會(huì)改善我關(guān)于我處于什么背景的知識(shí)。這反過來將允許我為該特定的食物位置分配一個(gè)背景，我可以在未來利用它。

這突顯了 SL 預(yù)測(cè)未來觀測(cè)將如何更新關(guān)于過去的后驗(yàn)信念的能力，從而優(yōu)化朝向改善背景理解的狀態(tài)的探索。通過這種方式，SL 提供了一種更戰(zhàn)略性、更細(xì)致的定向探索形式，不僅關(guān)注訪問新狀態(tài)，還關(guān)注那些預(yù)期能改善關(guān)于過去獎(jiǎng)勵(lì)的當(dāng)前信念的狀態(tài)。

5.2. 探索策略：SI 與 SL 與 RL

與上述描述一致，SL 相對(duì)于 SI 的優(yōu)勢(shì)因此似乎歸因于其向后反事實(shí)推理的能力——預(yù)測(cè)未來觀測(cè)在細(xì)化過去信念方面的益處。雖然 SI 通過更經(jīng)典形式的定向探索（例如，尋求未訪問狀態(tài)）表現(xiàn)出強(qiáng)大的性能，但它缺乏利用關(guān)于未來觀測(cè)如何能被戰(zhàn)略性地用于更新先前觀測(cè)的背景理解的信念的能力。

盡管 SL 和 SI 之間的性能差異相對(duì)較小，但它們探索策略的共同要素導(dǎo)致其相對(duì)于 BARL 具有更大的性能優(yōu)勢(shì)。向 BARL 添加基于 UCB 的定向探索也并未改善其相對(duì)性能。相反，這導(dǎo)致了對(duì)具有低認(rèn)知可供性（epistemic affordances）的狀態(tài)的過度探索。這最終降低了效率，因?yàn)?Hill 狀態(tài)在其認(rèn)知評(píng)估中并未被賦予與任何其他未訪問狀態(tài)不同的權(quán)重。這些發(fā)現(xiàn)突顯了 UCB 中關(guān)于狀態(tài) - 結(jié)果映射的內(nèi)在好奇心、SI 中關(guān)于當(dāng)前背景狀態(tài)的進(jìn)一步好奇心，以及 SL 所展示的戰(zhàn)略性、目標(biāo)導(dǎo)向的探索之間的差異。

5.3. 次優(yōu)性能的機(jī)制

盡管相對(duì)于比較智能體，SL 表現(xiàn)出高性能，但它仍然經(jīng)常無法收斂到最優(yōu)策略，導(dǎo)致試驗(yàn)序列間的性能方差很高。理解這些失敗突顯了在不確定性下學(xué)習(xí)的核心挑戰(zhàn)，但也闡明了可能不那么具有普遍性且取決于所考慮的具體環(huán)境和實(shí)現(xiàn)的問題。在我們的一些補(bǔ)充分析中（14），我們觀察到一個(gè)常見的失敗模式源于 SL 中的早期認(rèn)知承諾。特別是，雖然 SL 智能體使用遞歸規(guī)劃來向前投射信念更新，但這種機(jī)制的可靠性僅取決于所接收的證據(jù)。在學(xué)習(xí)早期，背景與資源位置之間的錯(cuò)誤關(guān)聯(lián)（例如，來自低概率觀測(cè)）可能會(huì)根深蒂固，因?yàn)榈依死子?jì)數(shù)會(huì)累積以支持錯(cuò)誤的似然。一旦錯(cuò)誤的模型得到強(qiáng)力強(qiáng)化，智能體傾向于堅(jiān)持糟糕的策略——例如，移向一個(gè)預(yù)期存在但實(shí)際上缺席的資源。因?yàn)樵谶@種情況下智能體自身的模型可能具有誤導(dǎo)性，且生存窗口有限，這些軌跡通常排除了學(xué)習(xí)更準(zhǔn)確模型的機(jī)會(huì)。這種自我確認(rèn)偏差的形式在稀疏獎(jiǎng)勵(lì)或高懲罰環(huán)境中尤為成問題，如此處測(cè)試的環(huán)境。

這種效應(yīng)在附錄圖 14 中可見，其中第 3 季節(jié)的信念分布隨時(shí)間推移偏離了真實(shí)的 Sleep 資源位置。模型非但沒有改善，反而由于不準(zhǔn)確推斷與適應(yīng)不良行為之間的強(qiáng)化循環(huán)而退化。值得注意的是，這個(gè)問題并非由于規(guī)劃深度不足，而是由于未得到糾正的錯(cuò)誤參數(shù)學(xué)習(xí)。這一點(diǎn)的另一個(gè)有趣方面源于 SL 中使用的后向平滑機(jī)制（見第 3.1 節(jié)和附錄 6.1.3）。該機(jī)制旨在根據(jù)新觀測(cè)修正來自早期時(shí)間步的狀態(tài)后驗(yàn)信念。原則上，這應(yīng)該允許智能體遺忘和/或糾正過去的推斷并改善參數(shù)學(xué)習(xí)，即使在接收到延遲證據(jù)之后。然而，圖 14 中顯示的 divergence 模式表明，這些機(jī)制并不總是足夠的。一旦建立了強(qiáng)烈但錯(cuò)誤的信念，即使是遞歸平滑也可能無法將其消除，特別是在反饋模棱兩可的情況下。然而，應(yīng)該注意的是，這種失敗模式并非 SL 特有的內(nèi)在問題，而是反映了先驗(yàn)、環(huán)境結(jié)構(gòu)和所選超參數(shù)（例如，學(xué)習(xí)率、規(guī)劃深度、初始狄利克雷計(jì)數(shù)）之間的交互，這種交互可能存在于任何貝葉斯智能體中。智能體的初始不確定性、信念更新的速率以及跨背景的風(fēng)險(xiǎn)不對(duì)稱性都塑造了學(xué)習(xí)軌跡。 SL 像任何貝葉斯學(xué)習(xí)者一樣，對(duì)其初始條件很敏感。因此，這些觀察到的失敗——雖然具有啟發(fā)性——不應(yīng)被過度解讀為 SL 算法本身的重大局限性。

事實(shí)上，當(dāng)為智能體提供正確的生成模型時(shí)（第 4.1 節(jié)），性能顯著改善，證實(shí)了準(zhǔn)確的信念是適應(yīng)性行為的主要瓶頸。此外，圖 14 中顯示的每個(gè)背景下學(xué)習(xí)的 KL 散度測(cè)量表明，某些資源或季節(jié)更難學(xué)習(xí)，這很可能是由于它們的統(tǒng)計(jì)特性或位置不可達(dá)性。未來的工作可以探索元推斷（meta-inference）機(jī)制——使智能體能夠表示和修正其對(duì)自己信念的置信度——或者探索使用其他遺忘策略，例如在預(yù)測(cè)觀測(cè)與實(shí)際觀測(cè)之間持續(xù)不匹配時(shí)進(jìn)行“信念重置”。

5.4. 局限性與未來方向

雖然 SL 在這個(gè)特定環(huán)境中表現(xiàn)出明顯的優(yōu)勢(shì)，但應(yīng)考慮幾個(gè)注意事項(xiàng)。首先，選擇網(wǎng)格世界環(huán)境是為了測(cè)試 SL 的預(yù)期優(yōu)勢(shì)；因此，需要未來的研究來確定 SL 的優(yōu)勢(shì)在多大程度上泛化到其他環(huán)境。在這里，我們預(yù)計(jì) SL 將在需要深度規(guī)劃和戰(zhàn)略探索的任務(wù)中表現(xiàn)出色，但其在各種更傳統(tǒng)的 RL 風(fēng)格基準(zhǔn)測(cè)試中的相對(duì)性能仍然不確定。

另一個(gè)考慮因素涉及參數(shù)值的優(yōu)化。例如，SL 中偏好精度的最優(yōu)值可能因任務(wù)而異。對(duì)于不同問題，可能需要一些調(diào)整來平衡 EFE 中的認(rèn)知項(xiàng)和新穎性項(xiàng)。這種對(duì)參數(shù)化的敏感性將是在不同環(huán)境中應(yīng)用 SL 時(shí)的一個(gè)重要實(shí)際因素。

進(jìn)一步的局限性涉及計(jì)算效率。像其他 ActInf 算法一樣，SL 依賴于遞歸樹搜索，這在現(xiàn)實(shí)世界環(huán)境中可能會(huì)變得計(jì)算昂貴。將 SL 擴(kuò)展到此類領(lǐng)域可能需要整合其他啟發(fā)式方法、更高效的剪枝技術(shù)或其他機(jī)器學(xué)習(xí)近似。因此，未來的研究應(yīng)專注于開發(fā)在保持 SL 戰(zhàn)略優(yōu)勢(shì)的同時(shí)增強(qiáng)其可擴(kuò)展性的方法。

結(jié)論在本研究中，我們使用了一個(gè)具有挑戰(zhàn)性的、動(dòng)態(tài)的環(huán)境，該環(huán)境需要復(fù)雜的規(guī)劃和戰(zhàn)略性的信息尋求，以比較主動(dòng)推理和貝葉斯強(qiáng)化學(xué)習(xí)算法。我們首先表明，主動(dòng)推理框架內(nèi)最近的一種“復(fù)雜推理”算法在此環(huán)境中優(yōu)于貝葉斯強(qiáng)化學(xué)習(xí)（無論是否添加了常見的定向探索項(xiàng)）。其次，我們提出并測(cè)試了一種新穎的“復(fù)雜學(xué)習(xí)”算法——結(jié)合了來自復(fù)雜推理和貝葉斯強(qiáng)化學(xué)習(xí)的見解——并展示了它可能提供的進(jìn)一步優(yōu)勢(shì)。該算法表現(xiàn)出比任何其他測(cè)試算法更高的性能。它還表現(xiàn)出性質(zhì)上不同的、戰(zhàn)略性的行為模式，其中它收集信息以改善其對(duì)過去觀測(cè)的理解。復(fù)雜學(xué)習(xí)所采用的相關(guān)向后推理策略代表了模擬智能代理行為的一個(gè)新穎進(jìn)展。

這些有希望的結(jié)果表明，復(fù)雜學(xué)習(xí)可能為機(jī)器學(xué)習(xí)和認(rèn)知科學(xué)提供新的見解。未來的工作應(yīng)評(píng)估從該算法中出現(xiàn)的策略在其他機(jī)器學(xué)習(xí)背景下的泛化性，并調(diào)查它是否可能捕捉到在動(dòng)物和人類行為中觀察到的獨(dú)特模式，從而為認(rèn)知和計(jì)算神經(jīng)科學(xué)的持續(xù)研究做出貢獻(xiàn)。

https://github.com/sgrimbly/Sophisticated-Learning

原文鏈接：https://arxiv.org/pdf/2308.08029

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.