期望自由能從何而來

2026-02-21 00:10:03　來源: CreateAMind

上海舉報(bào)

分享至

期望自由能從何而來

Whence the Expected Free Energy?

https://direct.mit.edu/neco/article/33/2/447/95645/Whence-the-Expected-Free-Energy

期望自由能是主動推理理論中的一個核心量。所有主動推理智能體都被要求通過行動來最小化這個量，它分解為外在價(jià)值和內(nèi)在價(jià)值項(xiàng)，這是主動推理智能體所展現(xiàn)的探索與利用平衡的關(guān)鍵。盡管其重要性不言而喻，但這個量的數(shù)學(xué)起源及其與變分自由能的關(guān)系仍不清楚。在這封信中，我們詳細(xì)研究了EFE的起源，并表明它并不僅僅是“未來的自由能”。我們提出了一個泛函，我們認(rèn)為它是VFE的自然延伸，但它會主動抑制探索行為，從而證明探索并非直接源于將自由能最小化到未來的過程。接著，我們發(fā)展了一個新的目標(biāo)函數(shù)，即期望未來的自由能，它既擁有EFE的認(rèn)知成分，又具有作為預(yù)測未來與期望未來之間散度的直觀數(shù)學(xué)基礎(chǔ)。

1 引言

自由能原理（Friston, 2010; Friston & Ao, 2012; Friston, Kilner, & Harrison, 2006）是理論神經(jīng)科學(xué)中一個新興的理論，它為自組織系統(tǒng)的動力學(xué)提供了一個統(tǒng)一的解釋（Friston, 2019; Parr, Da Costa, & Friston, 2020）。該原理提出，此類系統(tǒng)可以被解釋為體現(xiàn)了一個變分推理過程，該過程最小化一個單一的信息論目標(biāo)：變分自由能。在理論神經(jīng)科學(xué)中，自由能原理轉(zhuǎn)化為對大腦功能的優(yōu)雅解釋（Friston, 2003, 2005, 2008a, 2008b; Friston, Trujillo-Barreto, & Daunizeau, 2008），它通過假定大腦的神經(jīng)動力學(xué)執(zhí)行變分推理，擴(kuò)展了貝葉斯腦假說（Deneve, 2005; Doya, Ishii, Pouget, & Rao, 2007; Knill & Pouget, 2004）。在關(guān)于智能體所體現(xiàn)的密度形式的特定假設(shè)下，這一理論甚至可以向下轉(zhuǎn)化為神經(jīng)回路層面，形成一種生物學(xué)上合理的神經(jīng)過程理論（Bastos et al., 2012; Friston, 2008a; Kanai, Komura, Shipp, & Friston, 2015; Shipp, 2016; Spratling,2008）。

隨后，行動被納入這一理論框架，被稱為主動推理（Friston, 2011; Friston & Ao, 2012; Friston, Daunizeau, & Kiebel, 2009），其要求智能體采取行動以最小化關(guān)于行動的變分自由能（Buckley, Kim, McGregor, & Seth, 2017; Friston et al., 2006）。這將行動和感知視為自由能最小化這一同一指令的兩個方面，從而產(chǎn)生了一個適用于各種連續(xù)時(shí)間任務(wù)的控制理論框架（Baltieri & Buckley, 2017, 2018; Calvo & Friston, 2017; Friston, Mattout, & Kilner, 2011; Millidge, 2019b）。

最近的研究擴(kuò)展了這些想法，以解釋對時(shí)間上延展的動作序列的推理（Friston & Ao, 2012; Friston, FitzGerald, Rigoli, Schwartenbeck, & Pezzulo, 2017; Friston, FitzGerald, Rigoli, Schwartenbeck, & Pezzulo, 2016; Friston et al., 2015; Tschantz, Seth, & Buckley, 2019）。在此，假設(shè)不是行動最小化瞬時(shí)的變分自由能，而是動作序列（或策略）最小化一個稱為期望自由能的量隨時(shí)間的累積和（Friston et al., 2015）。使用期望自由能的主動推理已被廣泛應(yīng)用于各種任務(wù)和應(yīng)用中，從模擬人類和動物的選擇行為（FitzGerald, Schwartenbeck, Moutoussis, Dolan, & Friston, 2015; Friston et al., 2015; Pezzulo, Cartoni, Rigoli, Pio-Lopez, & Friston, 2016），模擬視覺掃視和其他“認(rèn)知覓食行為”（Friston, Lin, et al., 2017; Friston, Rosch, Parr, Price, & Bowman, 2018;Mirza, Adams, Mathys, & Friston, 2016; Parr & Friston, 2017a, 2018a），解決強(qiáng)化學(xué)習(xí)基準(zhǔn)測試（?atal, Verbelen, Nauta, De Boom, & Dhoedt, 2020; Millidge, 2019a, 2020; Tschantz, Baltieri, Seth, & Buckley, 2019; Ueltzh?ffer, 2018; van de Laar & de Vries, 2019），到將精神疾病建模為異常推理的案例（Cullen, Davey, Friston, & Moran, 2018; Mirza, Adams, Parr, & Friston, 2019; Parr & Friston, 2018b）。與連續(xù)時(shí)間形式一樣，主動推理也配備了一個具有變分更新方程的生物學(xué)上合理的過程理論，這些方程被認(rèn)為與觀察到的神經(jīng)放電模式同構(gòu)（Friston, FitzGerald, et al., 2017; Friston, Parr, & de Vries, 2017; Parr, Markovic, Kiebel, & Friston, 2019）。

期望自由能的一個關(guān)鍵特性是它可以分解為外在的、尋求價(jià)值的部分和內(nèi)在的（認(rèn)知的）、尋求信息的部分（Friston等人，2015）。后者通過鼓勵探索環(huán)境的未知區(qū)域來要求主動推理智能體解決不確定性，這一特性已被廣泛研究（Friston, FitzGerald,等人，2017a；Friston等人，2015；Schwartenbeck, FitzGerald, Dolan, & Friston，2013；Schwartenbeck等人，2019）。這一公式自然產(chǎn)生內(nèi)在驅(qū)動力的事實(shí)被認(rèn)為是相對于其他公式的一個優(yōu)勢，后者通常通過在其損失函數(shù)中添加特定的探索項(xiàng)來鼓勵探索（Burda等人，2018；Mohamed & Rezende，2015；Oudeyer & Kaplan，2009；Pathak, Agrawal, Efros, & Darrell，2017）。

盡管期望自由能常被描述為自由能原理的一個直接擴(kuò)展，可以解釋前瞻性策略，并且通常以類似的數(shù)學(xué)形式表達(dá)（Da Costa等人，2020；Friston, FitzGerald,等人，2017；Friston等人，2015；Parr & Friston，2017b，2019），但其起源仍然模糊不清。期望自由能的最小化有時(shí)是通過遵循自由能原理的歸謬法論證來推動的（Friston等人，2015；Parr & Friston，2019），即智能體被迫最小化變分自由能，因此它們唯一能采取行動的方式就是將其自由能最小化到未來。然而，由于未來是不確定的，它們必須最小化期望自由能。這一邏輯的核心是將變分自由能與期望自由能形式等同。

在這封信中，我們著手研究期望自由能的起源及其與變分自由能的關(guān)系。我們對這個問題提供了更廣闊的視角，表明期望自由能并不是擴(kuò)展變分自由能以解釋以行動為條件的未來的唯一方法。我們推導(dǎo)出一個我們認(rèn)為是變分自由能更自然類比的目標(biāo)函數(shù)，稱之為未來的自由能，并對這兩個泛函進(jìn)行了詳細(xì)的并排比較。關(guān)鍵在于，我們表明未來的自由能會主動抑制尋求信息的行為，從而證明認(rèn)知項(xiàng)并不一定僅僅通過將變分自由能擴(kuò)展到未來而產(chǎn)生。接著，我們研究了期望自由能中認(rèn)知項(xiàng)的起源，并表明期望自由能就是未來的自由能減去期望自由能中認(rèn)知項(xiàng)的負(fù)值，這為兩個泛函之間的關(guān)系提供了一個直接視角。

我們提出了一個在主動推理下進(jìn)行行動選擇的、數(shù)學(xué)上有原則的起點(diǎn)：期望未來與期望未來之間的散度，由此我們獲得了一個新的泛函，即期望未來的自由能，它與廣義自由能密切相關(guān)（Parr & Friston，2019）。這個泛函在真實(shí)生成模型和有偏生成模型之間的散度方面具有自然的解釋；它允許對推理和策略選擇使用相同的泛函，并且它自然地分解為外在價(jià)值項(xiàng)和認(rèn)知行動項(xiàng)，從而在保持基于期望自由能的主動推理的吸引人的探索特性的同時(shí)，也擁有一個數(shù)學(xué)上有原則且直觀解釋的起點(diǎn)。

2 變分自由能

變分自由能是變分推理中的一個核心量，它構(gòu)成了對數(shù)模型證據(jù)以及先驗(yàn)與后驗(yàn)之間的庫爾貝克-萊布勒散度的可處理邊界（Beal, 1998; Blei, Kucukelbir, & McAuliffe, 2017; Fox & Roberts, 2012; Wainwright & Jordan, 2008）。（關(guān)于變分自由能的深入動機(jī)及其在變分推理中的應(yīng)用，請參見附錄A。）

定義為時(shí)間t的變分自由能，記作Ft，由下式給出：

人們也可以將變分自由能論證為一種估計(jì)模型證據(jù)的技術(shù)。對數(shù)模型證據(jù)是貝葉斯推理中的一個關(guān)鍵量，但通常是難解的，意味著無法直接計(jì)算。直觀地說，對數(shù)模型證據(jù)衡量了模型下數(shù)據(jù)的似然，從而直接提供了模型質(zhì)量的度量。根據(jù)自由能原理，最小化負(fù)對數(shù)模型證據(jù)（或驚奇）是自組織系統(tǒng)的最終目標(biāo)（Friston & Ao, 2012; Friston et al., 2006）。變分自由能提供了對數(shù)模型證據(jù)的上界。這可以通過關(guān)于近似后驗(yàn)對模型證據(jù)進(jìn)行重要性采樣并應(yīng)用延森不等式來證明：

由于變分自由能是對數(shù)模型證據(jù)（或驚奇）的上界，隨著變分自由能被最小化，它會成為對驚奇越來越準(zhǔn)確的估計(jì)。為了理解變分自由能的特性，我們展示以下分解：

這種分解是實(shí)踐中通常用于計(jì)算變分自由能的方法，并且具有直觀的解釋。具體來說，最小化負(fù)精度（從而最大化精度）確保了在變分后驗(yàn)所預(yù)測的狀態(tài) x t
下，觀測具有盡可能高的似然；同時(shí)最小化復(fù)雜度項(xiàng)，即變分后驗(yàn)與先驗(yàn)之間的KL散度。因此，其目標(biāo)是在最大化精度的同時(shí)，盡可能保持后驗(yàn)接近先驗(yàn)。實(shí)際上，復(fù)雜度項(xiàng)起到了隱式正則化的作用，降低了過度擬合任何特定觀測的風(fēng)險(xiǎn)。

3 期望自由能

雖然如前所述的變分推理僅允許我們在給定觀測的情況下對當(dāng)前時(shí)刻進(jìn)行推理，但可以將該形式體系擴(kuò)展，以允許對未來行動或策略進(jìn)行推理。

主動推理通過推斷一個變分策略分布 Q ( π )
來進(jìn)行，該分布最大化此有偏生成模型的證據(jù)。直觀地說，這種方法顛覆了行動選擇問題的常規(guī)思路。主動推理智能體不問“我有一些目標(biāo)；我需要做什么來實(shí)現(xiàn)它？”，而是問：“假設(shè)我的目標(biāo)已經(jīng)實(shí)現(xiàn)，那么我所采取的最可能的行動會是什么？”

將變分自由能擴(kuò)展到未來面臨的另一個復(fù)雜性來自未來的觀測。雖然智能體在進(jìn)行規(guī)劃問題時(shí)可以獲取當(dāng)前的觀測（或數(shù)據(jù)），但它們還必須推理未知的未來觀測。這通過對目標(biāo)函數(shù)求關(guān)于從生成模型中抽取的預(yù)測觀測 o τ
的期望來處理。

在主動推理框架中，目標(biāo)是推斷一個既關(guān)于隱藏狀態(tài)也關(guān)于策略的變分分布，使其最大程度地?cái)M合一個有偏的未來生成模型。該框架定義了待最小化的變分目標(biāo)函數(shù)，即從時(shí)間 τ 到時(shí)間范圍 T 的期望自由能，記作 G ：

其中 σ(x) 是一個 softmax 函數(shù)。這意味著，為了推斷最優(yōu)策略分布，只需最小化未來每個時(shí)間步的期望自由能之和。推理過程通過使用生成模型展開預(yù)測的未來，計(jì)算這些未來的期望自由能，然后選擇使期望自由能之和最小的策略來進(jìn)行。由于在時(shí)間平均場假設(shè)下，軌跡分解為各時(shí)間步的和，因此在本文的其余部分，只需考慮單個時(shí)間步 τ 就足夠了。

為了理解期望自由能，我們展示以下分解：

雖然期望自由能有許多種分解方式（全面概述見附錄B），但方程3.1中展示的可能最為重要，因?yàn)樗鼘⑵谕杂赡芊纸鉃橥庠诘摹⒛繕?biāo)導(dǎo)向的項(xiàng)（文獻(xiàn)中有時(shí)也稱為工具性價(jià)值）和內(nèi)在的、尋求信息的項(xiàng)。? 第一項(xiàng)要求智能體根據(jù)對未來信念，最大化期望觀測的似然。因此，它引導(dǎo)智能體采取行動以最大化其期望在未來發(fā)生的概率。這被稱為外在價(jià)值項(xiàng)，因?yàn)樗瞧谕杂赡苤畜w現(xiàn)智能體偏好的項(xiàng)。

方程3.1中的第二項(xiàng)是期望信息增益，通常被稱為認(rèn)知價(jià)值，因?yàn)樗炕送ㄟ^訪問特定狀態(tài)所獲得的信息量。由于信息增益為負(fù)值，最小化整體期望自由能就意味著最大化期望信息增益。這驅(qū)使智能體最大化其后驗(yàn)信念與先驗(yàn)信念之間的散度，從而促使智能體采取那些能最大程度地為其信念提供信息并減少不確定性的行動。正是外在價(jià)值項(xiàng)和內(nèi)在價(jià)值項(xiàng)的結(jié)合，支撐了主動推理聲稱其對探索-利用困境擁有一個原則性方法的說法（Friston, FitzGerald, et al., 2017; Friston et al., 2015）。

通過最大化期望信息增益或“貝葉斯驚奇”（Itti & Baldi, 2009）來驅(qū)動探索行為的想法，在神經(jīng)科學(xué)中已有討論（Baldi & Itti, 2010; Ostwald et al., 2012），并且在強(qiáng)化學(xué)習(xí)中也被經(jīng)常提出（Houthooft et al., 2016; Still & Precup, 2012; Sun, Gomez, & Schmidhuber, 2011; Tschantz, Millidge, Seth, & Buckley, 2020）。

4 期望自由能的起源

鑒于期望自由能在主動推理框架中的核心地位，探究這一量的起源和性質(zhì)至關(guān)重要。期望自由能通常通過一個歸謬法論證來推導(dǎo)（Friston et al., 2015; Parr & Friston, 2019）。? 其邏輯如下：智能體擁有驅(qū)動行動選擇的策略先驗(yàn)信念。根據(jù)自由能原理，有機(jī)體的所有狀態(tài)，包括決定策略的狀態(tài)，都必須改變以最小化自由能。因此，關(guān)于策略的唯一自洽的先驗(yàn)信念是，智能體將通過其策略選擇過程在未來最小化自由能。如果智能體沒有這樣的先驗(yàn)信念，那么它就會選擇那些不能在未來最小化自由能的策略，從而也就不是一個最小化自由能的智能體。這一邏輯需要一個定義良好的概念，即給定特定策略下未來狀態(tài)和觀測的自由能。主動推理文獻(xiàn)隱含地假設(shè)期望自由能是符合這一概念的自然泛函（Friston, FitzGerald, et al., 2017; Friston et al., 2015）。在接下來的部分中，我們認(rèn)為期望自由能實(shí)際上并不是唯一能夠量化策略條件未來自由能這一概念的泛函，并且我們確實(shí)提出了一個不同的泛函——未來的自由能，我們認(rèn)為它是變分自由能擴(kuò)展到未來狀態(tài)的一個更自然的延伸。

4.1 未來的自由能。我們認(rèn)為，將自由能自然擴(kuò)展到未來，必須擁有與變分自由能兩個關(guān)鍵屬性直接對應(yīng)的部分：它必須可以表示為后驗(yàn)與生成模型之間的KL散度，使得最小化它能促使變分密度更好地逼近真實(shí)后驗(yàn)；并且它也必須為未來觀測的對數(shù)模型證據(jù)提供邊界。為對數(shù)模型證據(jù)（或驚奇）提供邊界至關(guān)重要，因?yàn)轶@奇是核心量，根據(jù)自由能原理，所有系統(tǒng)都被驅(qū)使去最小化它。如果擴(kuò)展到未來的變分自由能不能為驚奇提供邊界，那么最小化這種擴(kuò)展形式就不一定能最小化驚奇，因此任何最小化這種擴(kuò)展形式的智能體都將違反自由能原理。在此，我們提出一個我們聲稱滿足這些要求的泛函：未來的自由能。

我們希望推導(dǎo)出在未來某個時(shí)間 τ 且以某個策略 π 為條件的變分自由能的表達(dá)式。換句話說，我們希望量化在給定某個行動序列的情況下，未來某個時(shí)間點(diǎn)將會出現(xiàn)的自由能。在此，我們通過保留與變分自由能（見方程2.1）相同的項(xiàng)，但將變分分布以我們關(guān)注的策略為條件，并為未來時(shí)間點(diǎn) τ 重寫，來推導(dǎo)未來自由能的一種形式，記作 FEF τ ( π )
。此外，由于未來的觀測是未知的，我們必須像在期望自由能中那樣，根據(jù)我們對未來觀測的信念的期望來評估我們的自由能。因此我們定義：

由于該方程僅僅是變分后驗(yàn)與生成模型之間的KL散度，它滿足第一個要求。接下來，我們通過展示一個關(guān)鍵分解來研究FEF的性質(zhì)。與VFE類似，我們可以將FEF分解為能量項(xiàng)和熵項(xiàng)，或者精度項(xiàng)和復(fù)雜度項(xiàng)，這對應(yīng)于EFE中的外在項(xiàng)和認(rèn)知行動項(xiàng)：

然而，與期望自由能不同的是，這里的期望信息增益（復(fù)雜度）項(xiàng)是正的，而在期望自由能項(xiàng)中它是負(fù)的。由于目標(biāo)函數(shù)（無論是期望自由能還是未來的自由能）是要被最小化的，我們可以看到，使用未來的自由能要求我們最小化信息增益，而期望自由能則要求我們最大化它（或最小化負(fù)的信息增益）。因此，一個基于未來自由能的智能體試圖在最大化獎勵的同時(shí)，盡可能少地進(jìn)行探索。雖然這聽起來令人驚訝，但實(shí)際上它直接類比于變分自由能中的復(fù)雜度項(xiàng)，后者要求在最大化觀測似然的同時(shí)，盡可能保持后驗(yàn)接近先驗(yàn)。?

4.2 對期望模型證據(jù)的邊界。接下來，我們展示未來的自由能如何可以作為滿足第二個要求的期望模型證據(jù)的邊界被推導(dǎo)出來。我們將期望模型證據(jù)定義為模型證據(jù)對未來未知狀態(tài)的直接擴(kuò)展。

從當(dāng)前時(shí)間步 t 到某個時(shí)間范圍 T 的軌跡的期望負(fù)對數(shù)模型證據(jù)為

關(guān)鍵的是，這是期望模型證據(jù)的上界，可以通過最小化FEF來收緊該上界。相比之下，再來看期望自由能，我們在下面看到，由于KL散度總是 ≥ 0，期望信息增益總是正的，因此期望自由能是期望模型證據(jù)的下界：

由于期望自由能旨在最小化負(fù)信息增益（從而最大化正信息增益），我們可以看到，最小化期望自由能實(shí)際上使其偏離期望模型證據(jù)更遠(yuǎn)。?

我們在附錄D中進(jìn)一步研究期望自由能及其作為邊界的性質(zhì)。此外，在附錄E中，我們回顧了文獻(xiàn)中試圖將期望自由能推導(dǎo)為期望模型證據(jù)邊界的其他嘗試，并討論了它們的不足之處。

4.3 期望自由能與未來的自由能。為了更深入地理解期望自由能與未來自由能之間的細(xì)微差別，我們對這兩個泛函進(jìn)行了詳細(xì)的并排比較：

雖然這兩種公式最初看起來可能非常相似，但關(guān)鍵的區(qū)別在于變分項(xiàng)。未來的自由能類似于變分自由能，衡量的是變分后驗(yàn) Q ( x τ ∣ o τ ) 與生成模型 Q ( x τ ∣ π )
之間的差異。而期望自由能衡量的是變分先驗(yàn)與生成模型之間的差異。正是這種差異使得期望自由能并非變分自由能對未來時(shí)間步的直接擴(kuò)展，并支撐了其獨(dú)特的認(rèn)知價(jià)值項(xiàng)。

我們現(xiàn)在證明，期望自由能和未來的自由能都可以分解為與外在價(jià)值相關(guān)的期望似然，以及與認(rèn)知價(jià)值相關(guān)的變分后驗(yàn)與變分先驗(yàn)之間的期望KL散度。我們將未來自由能中的生成模型分解為（有偏的）似然和一個變分先驗(yàn)，并將期望自由能中的生成模型分解為近似后驗(yàn)和一個（有偏的）邊緣分布：

然后，在未來的自由能和期望自由能中，都可以將變分先驗(yàn)和變分后驗(yàn)結(jié)合起來，形成認(rèn)知項(xiàng)。關(guān)鍵在于，認(rèn)知價(jià)值項(xiàng)在未來的自由能中是正的，而在期望自由能中是負(fù)的，這意味著未來的自由能懲罰認(rèn)知行為，而期望自由能則促進(jìn)認(rèn)知行為：

方程4.2表明，F(xiàn)EF和EFE可以以類似的方式進(jìn)行分解。我們注意到，F(xiàn)EF的外在價(jià)值項(xiàng)是一個似然，而EFE的則是一個邊緣似然。然而，最重要的區(qū)別在于認(rèn)知價(jià)值項(xiàng)的符號。由于優(yōu)化FEF或EFE都需要最小化它們，最小化FEF要求我們最小化信息增益，而EFE則要求我們最大化它。因此，一個基于FEF的智能體試圖在最大化其外在價(jià)值的同時(shí)，盡可能少地進(jìn)行探索。那么一個關(guān)鍵問題就出現(xiàn)了：EFE中負(fù)的信息增益從何而來？

雖然期望信息增益項(xiàng)符號的這種差異可能暗示著這兩個量之間存在某種深層聯(lián)系，但在此我們提供一個關(guān)于此問題的實(shí)用主義視角。我們表明，得到EFE的一個可能途徑就是，它僅僅是FEF減去期望信息增益。這意味著EFE的認(rèn)知價(jià)值項(xiàng)并非源于與變分推理的某種聯(lián)系，而是人為構(gòu)造出來的：

雖然這個證明闡明了EFE和FEF之間的關(guān)系，但作為對EFE起源的解釋，它在理論上并不能令人滿意。EFE的很大一部分吸引力在于，它聲稱展示了認(rèn)知價(jià)值是“自然地”從未來自由能最小化中產(chǎn)生的。相比之下，我們在這里已經(jīng)表明，最小化未來自由能并不要求承諾探索行為。雖然這并不質(zhì)疑使用信息增益項(xiàng)進(jìn)行探索的有用性，也不質(zhì)疑將EFE用作損失函數(shù)的有效性，但它確實(shí)對該目標(biāo)的數(shù)學(xué)原理性提出了疑問。因此，我們無法直接理解，為什么自由能原理明確要求智能體必須最小化EFE，而不是其他某個自由能泛函。雖然這一事實(shí)起初可能令人擔(dān)憂，但我們相信，它最終通過允許以有原則的方式擴(kuò)展主動推理以包含其他目標(biāo)函數(shù)，從而增強(qiáng)了該形式體系的能力（Biehl, Guckelsberger, Salge, Smith, & Polani, 2018）。在下一節(jié)中，我們提出一個替代EFE的目標(biāo)函數(shù)，它產(chǎn)生相同的尋求信息的認(rèn)知價(jià)值項(xiàng)，但以一種數(shù)學(xué)上有原則且直觀的方式將其推導(dǎo)為期望未來與期望未來之間散度的邊界。

5 期望未來的自由能

在本節(jié)中，我們提出一個新的目標(biāo)泛函，稱之為期望未來的自由能，它擁有與期望自由能相同的認(rèn)知價(jià)值項(xiàng)，同時(shí)具有更自然、更直觀的基礎(chǔ)。我們從這樣一個直覺出發(fā)：為了適應(yīng)性地行動，智能體應(yīng)該采取行動，以最小化它們預(yù)測將要發(fā)生的事情與它們期望發(fā)生的事情之間的差異。換句話說，對于智能體來說，適應(yīng)性行動包括迫使現(xiàn)實(shí)按照其偏好展開。我們可以將這一目標(biāo)在數(shù)學(xué)上表述為智能體對可能發(fā)生的事物的真實(shí)生成模型與其對期望發(fā)生的事物的有偏生成模型之間的KL散度：

期望未來的自由能可以解釋為真實(shí)生成模型與有偏生成模型之間的散度，從而為最小化期望未來的自由能的智能體的目標(biāo)提供了直觀的理解。這個散度目標(biāo)迫使智能體使有偏生成模型與真實(shí)生成模型保持一致。由于有偏生成模型的預(yù)測嚴(yán)重偏向于智能體的先驗(yàn)偏好，實(shí)現(xiàn)這種一致的唯一途徑就是采取行動，使真實(shí)生成模型預(yù)測出符合有偏生成模型的期望結(jié)果。期望未來的自由能目標(biāo)包含了標(biāo)準(zhǔn)的主動推理直覺，即智能體通過有偏推理來行動，以最大化有偏模型的精度。然而，維持兩個獨(dú)立的生成模型（一個有偏，一個真實(shí)）也有助于解決一個概念性難題：如果智能體所能訪問的僅僅是一個有偏的生成模型，它如何能夠?qū)?fù)雜的動態(tài)過程做出準(zhǔn)確的后驗(yàn)推理和未來預(yù)測？直觀上看，有偏模型也會使推理中那些對于方案正常運(yùn)行至關(guān)重要的關(guān)鍵部分產(chǎn)生偏差。然而，通過同時(shí)維持一個真實(shí)生成模型（與當(dāng)前時(shí)刻使用的相同，并通過與環(huán)境互動來學(xué)習(xí)）和一個有偏生成模型（通過系統(tǒng)地使真實(shí)模型的臨時(shí)副本產(chǎn)生偏差而創(chuàng)建），我們巧妙地區(qū)分了對未來預(yù)測所需的真實(shí)推理成分和有偏推理成分。?

與期望自由能類似，期望未來的自由能目標(biāo)可以分解為外在項(xiàng)和內(nèi)在項(xiàng)。我們將其與期望自由能的分解直接進(jìn)行比較：

首先要注意的是，在近似后驗(yàn)是正確的假設(shè) Q ( x τ ∣ o τ ) ≈ p ( x τ ∣ o τ )
下，期望未來的自由能和期望自由能的內(nèi)在價(jià)值項(xiàng)是相同的，因此最小化期望未來的自由能的智能體必然會展現(xiàn)出與最小化期望自由能的智能體相同的認(rèn)知行為。然而，與期望自由能不同的是，期望未來的自由能還擁有作為某個理論相關(guān)量邊界的強(qiáng)大自然主義基礎(chǔ)。期望未來的自由能可以同時(shí)保持其信息最大化的指令和其理論基礎(chǔ)，因?yàn)樗从谧钚』疜L散度，而不是最大化對數(shù)模型證據(jù)。

與期望自由能的關(guān)鍵區(qū)別在于似然項(xiàng)。期望自由能簡單地試圖最大化期望觀測的證據(jù)，而期望未來的自由能則最小化在真實(shí)生成模型下預(yù)測的觀測的似然1? 與在有偏生成模型下觀測的邊緣似然之間的KL散度。這種差異實(shí)際上等效于從期望自由能中減去一個額外的真實(shí)生成模型期望似然熵項(xiàng) H [ Q ( o τ ∣ x τ ) ] 。因此，外在價(jià)值項(xiàng)鼓勵智能體選擇其行動，使得其對狀態(tài)的預(yù)測導(dǎo)致接近其偏好觀測的觀測，同時(shí)也試圖移動到那些觀測熵最大的狀態(tài)，從而引導(dǎo)智能體移動到生成模型對可能結(jié)果不太確定的狀態(tài)。實(shí)際上，除了期望自由能所缺乏的信息增益之外，期望未來的自由能還擁有另一個探索項(xiàng)。

由于期望未來的自由能和期望自由能在其內(nèi)在價(jià)值項(xiàng)上是相同的，并且在外在項(xiàng)上有著深刻的相似性，我們相信期望未來的自由能可以作為許多主動推理智能體中期望自由能的一個相對直接的“即插即用式替代品”。此外，它比期望自由能具有更直觀的基礎(chǔ)，可以說是變分自由能向未來的更好延續(xù)，并且作為預(yù)測未來與期望未來之間散度的邊界，擁有強(qiáng)大的自然主義基礎(chǔ)。

6 討論

我們認(rèn)為，此刻有必要從各種自由能的繁雜細(xì)節(jié)中抽身出來，評估一下我們已經(jīng)取得的成果。首先，我們已經(jīng)證明，不可能直接從作為模型證據(jù)邊界的變分推理目標(biāo)中推導(dǎo)出認(rèn)知價(jià)值。然而，從有偏生成模型與真實(shí)生成模型之間的散度出發(fā)，是可以推導(dǎo)出認(rèn)知價(jià)值項(xiàng)的。為什么會這樣，對其深入的直觀理解是未來研究的一個有趣方向。將FEEF理解為期望未來與期望未來之間的散度，這一直覺也類似于強(qiáng)化學(xué)習(xí)問題的概率公式化表述（Attias, 2003; Kappen, 2005; Levine, 2018; Toussaint, 2009），后者通常試圖最小化受控軌跡與最優(yōu)軌跡之間的散度（Kappen, 2007; Theodorou & Todorov, 2012; Williams, Aldrich, & Theodorou, 2017）。這些方案也通過其包含熵項(xiàng)的目標(biāo)函數(shù)獲得了一定程度的（無向的）探索行為，而FEEF可以被視為將這些方案擴(kuò)展到部分可觀測環(huán)境的一種方式。精確理解主動推理和自由能原理在數(shù)學(xué)上如何與這類方案相關(guān)聯(lián)，是未來另一個富有成果的研究方向。

直覺上，考慮到不確定性來源被正確量化，探索-利用困境的貝葉斯最優(yōu)解應(yīng)該直接源于將獎勵最大化視為推理的公式化表述中。然而，在這封信中，我們已表明，僅僅通過平均場分解的時(shí)間步來量化狀態(tài)和觀測中的不確定性，不足以推導(dǎo)出這樣一個解決困境的原則性方案，這一點(diǎn)從FEF抑制探索的行為可以看出。因此，我們相信，為了在主動學(xué)習(xí)的背景下推導(dǎo)出貝葉斯最優(yōu)探索策略，使得我們必須選擇那些現(xiàn)在能給我們最多信息以便將來用于最大化獎勵的行動，這很可能既需要對多個相互連接的時(shí)間步進(jìn)行建模，也需要涉及參數(shù)學(xué)習(xí)和更新規(guī)則的機(jī)制，并正確量化其中的不確定性。這超出了本信的范圍，但卻是未來一個非常有趣的研究方向。

FEEF與EFE的比較也引發(fā)了一個有趣的哲學(xué)問題，即關(guān)于主動推理形式體系中所采用的生成模型的數(shù)量和類型。對FEEF的一種解釋是從兩個生成模型的角度出發(fā)，但也可能存在其他解釋，例如一個單一的無偏生成模型與一個期望狀態(tài)和觀測的簡單密度之間的散度。同樣重要的是要注意到，由于推理和規(guī)劃需要不同的目標(biāo)函數(shù)，EFE公式似乎也隱含地需要兩個生成模型：未來狀態(tài)的生成模型和未來中狀態(tài)的生成模型（Friston et al., 2015）。雖然數(shù)學(xué)形式相對直接，但如何將數(shù)學(xué)對象轉(zhuǎn)化為稱為“生成模型”的本體論對象這一哲學(xué)問題尚不清楚，這方面的進(jìn)展將有助于確定主動推理的哲學(xué)地位，甚至可能有助于其神經(jīng)實(shí)現(xiàn)。

我們的結(jié)果對主動推理研究的影響是多方面的。我們所展示的內(nèi)容中沒有任何一點(diǎn)直接反對將EFE用作主動推理智能體的目標(biāo)。然而，我們相信我們已經(jīng)證明，EFE不一定是唯一甚至不是自然的目標(biāo)函數(shù)。因此，我們遵循Biehl等人（2018）的觀點(diǎn)，鼓勵在主動推理中嘗試不同的目標(biāo)函數(shù)。我們特別相信我們的目標(biāo)函數(shù)FEEF具有前景，因?yàn)樗哂兄庇^的解釋、與EFE大致等價(jià)的項(xiàng)、直接使用兩個生成模型而非僅一個單一有偏模型，并且與變分強(qiáng)化學(xué)習(xí)中使用的類似概率目標(biāo)有緊密聯(lián)系，同時(shí)保留了EFE關(guān)鍵的認(rèn)知屬性。此外，雖然在這封信中，我們主張將FEF而非EFE作為VFE向未來的直接擴(kuò)展，但究竟哪一個泛函（如果有的話）實(shí)際上是自由能原理所要求的，這一邏輯要求仍然懸而未決。我們相信，闡明自由能原理對變分行動理論施加的確切約束，并更深入地理解各種自由能之間的關(guān)系，可能會揭示關(guān)于自組織系統(tǒng)中貝葉斯最優(yōu)認(rèn)知行動概念的深層問題。

最后，重要的是要注意，盡管在這封信中，我們只關(guān)注離散時(shí)間POMDP中的EFE和主動推理，但自由能原理最初的直覺和數(shù)學(xué)框架源于連續(xù)時(shí)間公式，與信息論和統(tǒng)計(jì)物理學(xué)的關(guān)注點(diǎn) deeply interwoven（Friston, 2019; Friston & Ao, 2012; Friston et al., 2006; Parr et al., 2020）。因此，EFE、FEF和對數(shù)模型證據(jù)之間可能存在僅存在于連續(xù)時(shí)間極限中的深層聯(lián)系，這些聯(lián)系將為認(rèn)知行動提供數(shù)學(xué)上有原則的起源。

7 結(jié)論

在這封信中，我們詳細(xì)審視了期望自由能的性質(zhì)和起源。我們已表明，它并非變分自由能向未來的直接類比。隨后，我們推導(dǎo)了一個新的目標(biāo)函數(shù)——未來的自由能，我們聲稱它是更自然的延伸，并展示了它缺乏期望自由能中有益的認(rèn)知價(jià)值項(xiàng)。接著，我們證明了這一項(xiàng)在期望自由能中的出現(xiàn)直接源于其非標(biāo)準(zhǔn)的定義，因?yàn)槠谕杂赡芸梢员磉_(dá)為僅僅是未來的自由能減去期望信息增益?？紤]到這一點(diǎn)，我們隨后提出了另一個目標(biāo)函數(shù)——期望未來的自由能，它試圖通過保留期望自由能中理想的尋求信息屬性，同時(shí)維持一個數(shù)學(xué)上有原則的起源，來兼得兩者之長。

原文鏈接：https://direct.mit.edu/neco/article/33/2/447/95645/Whence-the-Expected-Free-Energy

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.