在主動推理框架下人類決策中新穎性和變異性的神經(jīng)相關性

2025-12-30 00:05:50　來源: CreateAMind

上海舉報

分享至

The Neural Correlates of Novelty and Variability in Human Decision-Making under an Active Inference Framework

https://elifesciences.org/reviewed-preprints/92892

eLife評估：這項有價值的研究通過結(jié)合行為學、神經(jīng)影像學和建模的方法，探討了系統(tǒng)神經(jīng)科學中的一個核心問題（對主動推理探索模型的驗證）。提供的數(shù)據(jù)有力地證明了人類的感知、選擇和學習方式與主動推理的基本要素一致，并且與這一主動推理方案相關參數(shù)相關的量在大腦的不同區(qū)域被編碼。

摘要：

主動推理將感知、決策和學習整合到一個統(tǒng)一的理論框架中，通過最小化（預期的）自由能，為在探索和利用之間進行權衡提供了一種有效的方式。在本研究中，我們探討了大腦如何在主動推理框架下的探索與利用權衡中表示價值和不確定性（新穎性和變異性），以及如何解決這些不確定性。25名參與者完成了一項情境化的雙臂老虎機任務，并進行了腦電圖（EEG）記錄。通過比較主動推理和強化學習模型對選擇行為的模型證據(jù)，我們表明，主動推理更好地解釋了人類在新穎性和變異性下的決策，這涉及探索或信息尋求。EEG傳感器水平的結(jié)果顯示，前額、中央和頂葉區(qū)域的活動與新穎性相關，而前額和中央大腦區(qū)域的活動與變異性相關。EEG源定位結(jié)果顯示，預期自由能被編碼在額極和中額回中，而不確定性被編碼在不同的大腦區(qū)域，但存在重疊。本研究區(qū)分了主動推理理論中的預期自由能和不確定性及其神經(jīng)相關性，證實了主動推理在表征人類決策的認知過程中的構(gòu)建有效性。它為決策過程中的主動推理提供了行為和神經(jīng)證據(jù)，并為人類在不確定性下的決策的神經(jīng)機制提供了見解。

1 引言
從自由能原理出發(fā)的主動推理為理解主體與其環(huán)境之間的動態(tài)關系提供了一個強大的解釋工具[1]。自由能是主體對環(huán)境不確定性的度量，可以理解為真實環(huán)境狀態(tài)與主體估計的環(huán)境狀態(tài)之間的差異[2]。此外，預期自由能是關于未來的自由能，可用于指導決策優(yōu)化過程。在主動推理框架下，感知、行動和學習都是通過最小化自由能來驅(qū)動的（圖1）。通過最小化自由能，人們可以優(yōu)化決策，這既包括減少對環(huán)境的不確定性（通過探索），也包括最大化獎勵（通過利用）。主動推理[3]是自由能原理在行動中的務實實現(xiàn)，提出主體不僅通過感知來最小化自由能，還通過能夠使其達到更優(yōu)狀態(tài)的行動來最小化自由能。簡而言之，在主動推理中，主體擁有一個內(nèi)部認知模型來近似環(huán)境的隱藏狀態(tài)（感知），并積極行動以使自己達到更優(yōu)狀態(tài)（行動）（見第2.1節(jié)）。

近年來，主動推理框架已被應用于理解人類決策中的認知過程和行為策略。許多研究為該框架描述復雜認知過程的潛力提供了支持，并為行為動態(tài)提供了理論見解[4–7]。例如，在主動推理框架中，理論上推導了探索與利用的權衡[3, 8]，這種權衡對于認知主體在許多決策情境中的功能至關重要[9, 10]。具體來說，探索是采取能夠提供有關當前環(huán)境額外信息的行動，即具有更高不確定性的行動，而利用是根據(jù)當前信念采取行動以最大化即時獎勵，即具有更高預期獎勵的行動。探索與利用的權衡指的是信息（解決不確定性）與目標尋求之間固有的張力，尤其是在主體面臨對環(huán)境信息不完整時[11]。然而，這些理論研究很少通過實驗室實證證據(jù)從行為和神經(jīng)反應兩方面進行驗證[1, 2]。我們的目標是在決策任務中通過腦電圖（EEG）神經(jīng)記錄來驗證主動推理框架。

決策過程經(jīng)常涉及應對各種形式的不確定性，例如新穎性（novelty）——這種不確定性可以通過抽樣來減少，以及變異性（variability）——由穩(wěn)定環(huán)境所呈現(xiàn)的固有不確定性（方差）。已有研究調(diào)查了決策中這些不同形式的不確定性，重點關注其神經(jīng)相關性[12–15]。這些研究使用了不同形式的多臂老虎機任務，例如不安分的多臂老虎機任務[12, 16]、風險/安全老虎機任務[15, 17, 18]以及情境多臂老虎機任務[19–21]。然而，這些任務僅將變異性與新穎性在不確定性中分開，或者將行動與狀態(tài)（感知）分開。在我們的工作中，我們開發(fā)了一種情境多臂老虎機任務，使參與者能夠通過各種策略積極減少新穎性、避免變異性并最大化獎勵（見第2.2節(jié)和圖4（a））。我們的任務使得研究大腦是否分別表征這些不同類型的不確定性成為可能[22]，以及大腦是否表征減少不確定性的價值和不確定性的程度。主動推理框架提供了一種理論方法來調(diào)查這些問題。在這個框架內(nèi)，不確定性可以簡化為新穎性和變異性。新穎性由與選擇特定行動相關的模型參數(shù)的不確定性表示，而變異性則由環(huán)境隱藏狀態(tài)的方差表示。減少新穎性的價值、減少變異性的價值以及外在價值共同構(gòu)成了預期自由能量（見第2.1節(jié)）。

我們的研究旨在利用主動推理框架來調(diào)查大腦如何表征決策過程，以及大腦如何區(qū)分新穎性和變異性的表征（不確定性的程度和減少不確定性的價值）。為了實現(xiàn)這些目標，我們利用主動推理框架來檢驗探索與利用之間的權衡，使用行為和腦電圖（EEG）數(shù)據(jù)（見方法）。我們的研究提供了以下結(jié)果：1）參與者在情境雙臂老虎機任務中如何權衡探索與利用（行為證據(jù)）（見第3.1節(jié)）；2）在不同模糊程度和風險水平下，大腦信號如何不同（傳感器級EEG證據(jù)，見第3.2節(jié)）；3）我們的大腦如何編碼探索與利用的權衡，在行動選擇中評估減少新穎性和減少變異性的價值，以及4）在信念更新過程中更新有關環(huán)境的信息（源級EEG證據(jù)，見第3.3節(jié)）。

方法
2.1 自由能量原理和主動推理

自由能量原理[1]是一個理論框架，它提出生物和非生物系統(tǒng)都傾向于最小化它們的（變分）自由能量，以維持一種非平衡穩(wěn)態(tài)。在大腦的背景下，自由能量原理表明大腦作為一個“推理機器”，旨在最小化其關于環(huán)境的內(nèi)部認知模型與感知感覺輸入的真實原因（隱藏狀態(tài)）之間的差異。這種最小化是通過主動推理實現(xiàn)的。

主動推理可以被視為一種規(guī)劃即推理的形式，其中代理對環(huán)境進行采樣，以最大化其內(nèi)部認知模型對感覺樣本生成的證據(jù)。這有時被稱為自我證實[3]。在主動推理框架下，變分自由能量可以被視為支持信念更新的目標函數(shù)，即推理和學習。通過最小化行動后的預期自由能量（即預期自由能量），我們可以優(yōu)化決策并解決不確定性。

從數(shù)學上講，自由能量的最小化正式與變分貝葉斯方法[23]相關。變分推理用于估計環(huán)境的隱藏狀態(tài)以及認知模型的參數(shù)。這個過程可以被視為一個優(yōu)化問題，旨在找到最佳的模型參數(shù)和行動策略，以最大化感覺證據(jù)。通過最小化變分自由能量和預期自由能量，可以估計出最優(yōu)的模型參數(shù)并做出更好的決策[24]。主動推理連接了感覺輸入、認知過程和行動輸出，使我們能夠定量描述學習環(huán)境的神經(jīng)過程。大腦從環(huán)境中接收感覺輸入o，大腦編碼的認知模型q(s)對感覺輸入的原因p(s|o)（即環(huán)境的隱藏狀態(tài)）進行推理。在自由能量原理中，最小化自由能量指的是最小化大腦編碼的認知模型與感覺輸入原因之間的差異（例如，KL散度）。因此，自由能量是一個信息論量，它限制了數(shù)據(jù)模型的證據(jù)。自由能量可以通過以下兩種方式最小化[25]：

通過感知最小化自由能量。基于現(xiàn)有觀察，通過最大化模型證據(jù)，大腦改進其內(nèi)部認知模型，縮小感覺輸入真實原因與內(nèi)部認知模型估計分布之間的差距。通過行動最小化自由能量。代理積極采樣環(huán)境，通過采樣偏好狀態(tài)（即對觀察的先驗偏好），使感覺輸入更符合認知模型。通過行動最小化自由能量是自由能量原理對貝葉斯公式的一種推廣，后者僅涉及感知。主動推理將必要的認知處理表述為信念更新的過程，其中選擇取決于代理的預期自由能量。預期自由能量作為一個普遍的目標函數(shù)，指導感知和行動。簡而言之，預期自由能量可以被視為遵循某些策略后的預期驚訝。通過解決不確定性，可以減少預期驚訝，可以選擇預期自由能量較低的策略，這可以鼓勵信息尋求和解決不確定性。此外，還可以通過避免令人驚訝或不愉快的結(jié)果來最小化預期驚訝[26,27]。這導致了目標導向行為，其中目標可以被視為先驗偏好或獎勵結(jié)果。

從技術上講，預期自由能量也可以表示為預期信息增益加上預期價值，其中價值對應于（對數(shù)）先驗偏好。我們將在下文中提到這兩種表述。解決新奇性、最小化變異性以及最大化信息增益具有認識價值，而最大化預期價值具有實用或工具價值。這兩種價值可以分別稱為內(nèi)在價值和外在價值[8,28]。

2.1.1 生成模型

主動推理基于部分可觀察馬爾可夫決策過程：(O, S, U, T, R, P, Q)（見表1）。在這個模型中，生成模型P的參數(shù)化如下，模型參數(shù)為η = a, c, d, β[3]。

其中，o 表示觀測值或感官輸入（o?:? 表示觀測的歷史序列），s 表示環(huán)境的隱狀態(tài)（s?:? 表示隱狀態(tài)的歷史序列），π 表示智能體的策略，A 是將隱狀態(tài)映射到觀測值的似然矩陣，B 是在時間 t 下依據(jù)策略的隱狀態(tài)轉(zhuǎn)移函數(shù)，d 是每次試驗開始時對各狀態(tài)的先驗期望，γ 是關于策略信念的逆溫度參數(shù)，β 是策略溫度參數(shù)的先驗期望，a 是似然矩陣的濃度參數(shù)，σ 是 softmax 函數(shù)，Cat() 表示類別分布，Dir() 表示狄利克雷分布，Γ() 表示伽馬分布。

生成模型是對代理如何理解其環(huán)境的概念性表述。該模型從根本上假設代理的觀察取決于狀態(tài)，而這些狀態(tài)的轉(zhuǎn)變本質(zhì)上既依賴于狀態(tài)本身，也依賴于所選擇的策略。至關重要的是，在這個模型中，策略被視為一個需要進行推理的隨機變量，從而將規(guī)劃視為一種推理形式。這種推理過程涉及從代理的觀察中推理出最優(yōu)策略。所有這些條件能力都基于使用狄利克雷分布進行參數(shù)化的似然性和狀態(tài)轉(zhuǎn)移模型[29]。狄利克雷分布的充分統(tǒng)計量是其濃度參數(shù)，這可以被等價地解釋為先前發(fā)生頻率的累積。本質(zhì)上，這意味著代理將過去狀態(tài)和觀察組合的頻率納入生成模型。因此，生成模型在推理與隱藏狀態(tài)和觀察相關的概率和不確定性方面發(fā)揮著關鍵作用。

2.1.2 變分自由能量和預期自由能量

在主動推理中，感知、決策和學習都是通過最小化與模型參數(shù)和隱藏狀態(tài)相關的變分自由能量和預期自由能量來實現(xiàn)的。變分自由能量可以用多種形式表示，相對于簡化后的后驗分布如方程（3）所示：

變分自由能的最小化促進了由大腦認知功能所編碼的隱狀態(tài)近似后驗分布與環(huán)境實際后驗分布之間逐步的對齊。然而，值得注意的是，我們的策略信念是面向未來的。我們希望選擇那些具備有效引導我們達成所期望未來狀態(tài)潛力的策略。因此，這些策略應旨在最小化未來的自由能，換句話說，即預期自由能。因此，預期自由能取決于未來的時間點 τ 和策略 π，并且 x 可以被可能的隱狀態(tài) s_τ 和似然矩陣 A 所替代。策略選擇與預期自由能之間的關系呈反比：在給定策略下，預期自由能越低，則該策略被選中的概率越高。因此，預期自由能作為影響策略選擇的一個關鍵因素而出現(xiàn)。

在這個背景下，外在價值與預期效用的概念一致。另一方面，認識價值對應于預期的信息增益或減少不確定性的價值，包含了對模型參數(shù)（新穎性）和隱藏狀態(tài)（顯著性）的探索，這些將通過未來的觀察來闡明。我們可以在方程(8)的這三個項之前添加系數(shù)（AL、AI和EX），以更好地模擬代理的多樣化探索策略：

為了與不同類型的不確定性保持一致，并避免與主動推理術語發(fā)生沖突，方程(9)中的前兩項分別被稱為減少新穎性和變異性的價值，而方程(8)中的相應項則被稱為新穎性和變異性。信念更新通過促進推理和學習過程發(fā)揮雙重作用。這里的推理被理解為對隱藏狀態(tài)的期望進行優(yōu)化。另一方面，學習涉及到模型參數(shù)的優(yōu)化。這種優(yōu)化需要找到近似后驗的充分統(tǒng)計量，以最小化變分自由能量。主動推理采用梯度下降技術來確定最優(yōu)的更新方法[3]。在當前工作中，我們的關注點主要集中在與似然映射A和濃度參數(shù)a（行對應于觀察，列對應于隱藏狀態(tài)）相關的更新方法上：

2.2 情境化的兩臂賭博任務

在這項研究中，我們開發(fā)了一個“情境化的兩臂賭博任務”（圖2），該任務基于傳統(tǒng)的多臂賭博機任務。參與者被指示探索兩條提供獎勵的路徑，目的是最大化累積獎勵。一條路徑在每次試驗中提供恒定的獎勵，標記為“安全”路徑，而另一條路徑，稱為“風險”路徑，概率性地提供不同數(shù)量的獎勵。風險路徑在兩個不同的情境下，“情境1”和“情境2”，每個情境對應不同的獎勵分布。風險路徑在“情境1”中會提供更多的獎勵，而在“情境2”中則提供較少的獎勵。風險路徑的情境在每次試驗中隨機變化，代理只能通過訪問“線索”選項來了解當前試驗的特定情境，盡管這會帶來代價。在“情境1”中，風險路徑的實際獎勵分布為[-12 (55%), +9 (25%), +6 (10%), +3 (5%), +6 (5%)]，而在“情境2”中，風險路徑的實際獎勵分布為[+12 (5%), +9 (5%), +6 (10%), +3 (25%), +0 (55%)]。有關特定設置的全面概述，請參閱圖2。

我們進行了一些模擬實驗，以展示在“情境化的兩臂賭博任務”中，具有不同參數(shù)配置的主動推理代理如何表現(xiàn)不同的決策策略（圖3）。通過調(diào)整參數(shù)如AL、AI、EX（方程(9)）、先驗（方程(10)）和α（方程(11)），代理可以在不同的策略下操作。低學習率的代理最初需要付出代價來訪問線索，使他們能夠徹底探索和理解不同情境下的獎勵分布。一旦獲得了足夠的環(huán)境信息，代理將評估各種策略的實際價值，并選擇最優(yōu)策略進行開發(fā)。在實驗設置中，高獎勵情境下的最佳策略是在訪問線索后選擇風險路徑，而在低獎勵情境下選擇安全路徑。然而，在特別困難的情況下，具有高學習率的代理可能會陷入局部最優(yōu)，并持續(xù)選擇安全路徑，特別是在初始高獎勵情境下，遇到最小獎勵。

圖3展示了具有AI = AL = EX = 1的主動推理代理的表現(xiàn)。我們可以看到，主動推理代理在完成任務時表現(xiàn)出類似人類的策略和效率。在模擬的早期階段，代理傾向于偏好“線索”選項，因為它提供了更多信息，減少了新穎性和變異性。同樣，在第二次選擇中，即使最初“安全”和“風險”選項的預期獎勵相同，代理也偏好“風險”選項，因為“風險”選項提供了更大的信息價值并減少了新穎性。在實驗的后期，代理根據(jù)特定情境做出決策，在“情境1”中選擇“風險”選項以獲得更高的預期獎勵，而在“情境2”中選擇“安全”選項，因為“風險”選項的信息價值被“安全”選項和“風險”選項之間預期獎勵的差異所抵消。

2.3 腦電圖（EEG）收集與分析

2.3.1 參與者

通過在線招聘廣告招募參與者。我們招募了25名參與者（男性：14人，女性：11人，平均年齡：20.82 ± 2.12歲），同時收集腦電圖（EEG）和行為數(shù)據(jù)。所有參與者在實驗前都簽署了知情同意書。本研究已獲得澳門大學當?shù)貍惱砦瘑T會的批準（BSERE22-APP006-ICI）。

2.3.2 數(shù)據(jù)收集在行為實驗中，為了豐富參與者的行為數(shù)據(jù)，在每次試驗的開始添加了一個“你可以問”階段。當參與者看到“你可以問”時，他們知道可以在下一階段選擇是否詢問線索信息；當參與者看到“你不能問”時，他們知道不能選擇是否詢問，并且默認參與者選擇“停留”選項。此外，為了使實驗更加真實，我們在實驗中添加了一個“尋找蘋果”的背景故事。具體來說，參與者收到了以下指示：“你在森林中尋找蘋果，開始時有5個蘋果。你遇到了兩條路徑：1）左邊的路徑每次探險提供固定收益6個蘋果。2）右邊的路徑提供0/3/6/9/12個蘋果的概率性獎勵，并且它有兩個不同的情境，標記為“情境1”和“情境2”，每個情境都有不同的獎勵分布。請注意，與右邊路徑相關的情境將在每次試驗中隨機變化。在選擇路徑之前，護林員將提供有關右邊路徑情境（“情境1”或“情境2”）的信息，以換取一個蘋果。你收集的蘋果越多，你的金錢獎勵就越大。”參與者被提供了上述任務指示（即先驗信念），并被要求按空格鍵繼續(xù)。他們被告知收集的蘋果總數(shù)將決定他們將收到的金錢獎勵。對于每次試驗，實驗程序如圖4（a）所示，包括五個階段：

“你可以問”階段：告知參與者他們是否可以在“第一次選擇”階段選擇詢問。如果他們不能問，那么默認參與者選擇不問。這個階段持續(xù)2秒。
“第一次選擇”階段：參與者決定是否按右或左按鈕向護林員詢問信息，代價是一個蘋果。在這個階段，參與者有兩秒鐘的時間來決定選擇哪個選項，并且在這兩秒鐘內(nèi)他們不能按按鈕。然后，他們需要在另外兩秒鐘內(nèi)通過按按鈕來做出反應。這個階段對應于主動推理中的行動選擇。
“第一次結(jié)果”階段：參與者要么收到有關當前試驗右邊路徑情境的信息，要么根據(jù)他們的選擇沒有額外的信息。這個階段持續(xù)2秒，對應于主動推理中的信念更新。
“第二次選擇”階段：參與者決定是否選擇右或左鍵來選擇安全路徑或風險路徑。在這個階段，參與者有兩秒鐘的時間來決定選擇哪個選項，并且在這兩秒鐘內(nèi)他們不能按按鈕。然后，他們需要在另外兩秒鐘內(nèi)通過按按鈕來做出反應。這個階段對應于主動推理中的行動選擇。
“第二次結(jié)果”階段：告知參與者當前試驗中獲得的蘋果數(shù)量和他們的蘋果總數(shù)，這個階段持續(xù)2秒。這個階段對應于主動推理中的信念更新。每個階段之間有一個0.6到1.0秒的隨機間隔。整個實驗由一個區(qū)塊組成，總共有120次試驗。參與者被要求用一只手的任意兩個手指按按鈕（鍵盤上的左箭頭和右箭頭）。

2.3.3 EEG處理

EEG信號的處理是使用Matlab中的EEGLAB工具箱[31]和MNE軟件包[32]進行的。EEG數(shù)據(jù)的預處理包括多個步驟，包括數(shù)據(jù)選擇、降采樣、高通濾波和低通濾波以及獨立成分分析（ICA）分解。在圖4（a）中，每個試驗階段的不同階段選擇了2秒的數(shù)據(jù)片段。隨后，數(shù)據(jù)被降采樣到250Hz的頻率，并在1-30Hz的頻率范圍內(nèi)進行高通和低通濾波。在通道出現(xiàn)異常數(shù)據(jù)的情況下，這些數(shù)據(jù)通過插值和平均值來解決。之后，應用ICA來識別并丟棄被標記為噪聲的成分。

在獲得預處理數(shù)據(jù)后，我們的目標是更全面地了解與每個大腦區(qū)域相關的特定功能，將EEG信號從傳感器水平映射到源水平。為此，我們使用了MNE軟件包中“fsaverage”的頭部模型和源空間。我們使用eLORETA[33]將EEG數(shù)據(jù)映射到源空間，并使用“aparc sub”劃分進行注釋[34]。

我們將數(shù)據(jù)劃分為五個間隔，分別對應實驗的五個階段。第一階段被稱為“你可以問”階段，告知參與者是否可以詢問護林員。第二階段稱為“第一次選擇”階段，參與者決定是否尋求線索。第三階段稱為“第一次結(jié)果”階段，揭示參與者第一次選擇的結(jié)果。第四階段稱為“第二次選擇”階段，涉及在安全路徑和風險路徑之間做出選擇。最后，第五階段稱為“第二次結(jié)果”階段，包括接收獎勵。在兩個選擇階段中，參與者思考選擇哪個選項的兩秒，以及在兩個結(jié)果階段中，結(jié)果被展示的兩秒被用于分析。每個間隔持續(xù)兩秒，這種分類使我們能夠研究決策過程中不同階段的大腦活動反應。具體來說，我們在主動推理框架內(nèi)研究了行動選擇和信念更新的過程。

3 結(jié)果

3.1 行為結(jié)果

為了評估主動推理相對于強化學習的證據(jù)，我們將主動推理（方程（9））、無模型強化學習和基于模型的強化學習模型擬合到每個參與者的的行為數(shù)據(jù)上。這包括優(yōu)化主動推理和強化學習模型的自由參數(shù)。得到的似然度被用來計算貝葉斯信息準則（BIC）[35]，作為每個模型的證據(jù)。主動推理模型的自由參數(shù)（AL、AI、EX、先驗（方程（10））和α（方程（11）））調(diào)整了構(gòu)成方程（9）中預期自由能量的三個項的貢獻。這些系數(shù)可以被視為精度，表征每個參與者關于偶然性和獎勵的先驗信念。例如，增加α意味著參與者會更快地更新他們關于獎勵偶然性的信念，增加AL意味著參與者更傾向于減少新奇性，而增加AI意味著參與者更喜歡學習環(huán)境的隱藏狀態(tài)并減少變異性。無模型強化學習模型的自由參數(shù)是學習率α和溫度參數(shù)γ，而基于模型的強化學習模型的自由參數(shù)是學習率α、溫度參數(shù)γ和先驗（無模型強化學習模型的詳細信息可以在補充方法中的方程S1-11中找到，基于模型的強化學習模型的詳細信息可以在補充方法中的方程S12-23中找到）。這三種模型的參數(shù)擬合是使用Python中的“BayesianOptimization”軟件包[36]進行的，首先隨機采樣1000次，然后額外迭代1000次。

模型比較結(jié)果表明，與基本的無模型強化學習和基于模型的強化學習相比，主動推理在擬合參與者行為數(shù)據(jù)方面表現(xiàn)更好（圖4（c））。值得注意的是，主動推理能夠更好地捕捉參與者的探索傾向[37, 38]。這在我們的實驗觀察（圖4（b））中表現(xiàn)得很明顯，參與者明顯更傾向于詢問護林員而不是選擇停留。詢問護林員，這提供了環(huán)境信息，在這個任務的背景下，被認為是一種更有益的策略。

此外，參與者對信息獲?。粗R價值）的偏好被發(fā)現(xiàn)取決于上下文。當參與者對上下文缺乏信息，且風險路徑與安全路徑的平均獎勵相同但變異性更大時，他們對這兩種選擇表現(xiàn)出同等的偏好（圖4（b），“不詢問”）。

然而，在“情境1”（圖4（b），高獎勵情境）中，風險路徑提供的獎勵比安全路徑更高，參與者強烈傾向于選擇風險路徑，這不僅提供了更高的獎勵，還具有更多的知識價值。相比之下，在“情境2”（圖4（b），低獎勵情境）中，風險路徑的獎勵比安全路徑少，參與者大多選擇安全路徑，但偶爾也會選擇風險路徑，認識到盡管其獎勵較少，但它提供了知識價值。

圖5展示了主動推理模型與行為數(shù)據(jù)的比較，我們可以看到該模型能夠很好地擬合參與者的策略。在“停留提示”選擇中，參與者總是傾向于選擇詢問護林員，很少選擇不詢問。當上下文未知時，參與者選擇“安全”選項或“風險”選項非常隨機，他們沒有表現(xiàn)出對變異性的厭惡。當給出“情境1”時，“風險”選項為參與者提供了高平均獎勵，參與者幾乎只選擇“風險”選項，這一選項在早期試驗中提供了更多信息，并在后期回合中被發(fā)現(xiàn)提供了更多獎勵。當給出“情境2”時，“風險”選項為參與者提供了低平均獎勵，參與者最初選擇“風險”選項，然后傾向于選擇“安全”選項。我們可以看到，在實驗的后期試驗中，參與者仍然偶爾選擇“風險”選項，這是模型沒有捕捉到的。這可能是由于遺忘的影響。參與者再次選擇“風險”選項是為了建立對獎勵分布的估計。

3.2 傳感器水平的EEG結(jié)果

如圖6（a）所示，我們將電極分為五個簇：左額葉、右額葉、中央?yún)^(qū)、左頂葉和右頂葉。在“第二次選擇”階段，參與者需要在不同程度的不確定性下做出決策（對隱藏狀態(tài)的不確定性和對模型參數(shù)的不確定性）。因此，我們研究了不同的大腦區(qū)域是否在這樣的不確定性下表現(xiàn)出不同的反應。

在實驗試驗的前半部分，參與者對模型參數(shù)的不確定性比后半部分的試驗更大[8]。因此，我們分析了前半部分和后半部分試驗的數(shù)據(jù)，并發(fā)現(xiàn)在左額葉區(qū)域（p < 0.01）、右額葉區(qū)域（p < 0.05）、中央?yún)^(qū)（p < 0.01）和左頂葉區(qū)域（p < 0.05）的信號幅度存在統(tǒng)計學上的顯著差異，這表明這些區(qū)域在編碼環(huán)境的統(tǒng)計結(jié)構(gòu)方面發(fā)揮作用（圖6（b））。我們推測，當參與者在試驗的后半部分構(gòu)建了環(huán)境的統(tǒng)計模型時，大腦能夠有效地利用該統(tǒng)計模型做出更有信心的決策，并表現(xiàn)出更強的神經(jīng)反應。

為了研究不同的大腦區(qū)域是否在對隱藏狀態(tài)的不確定性下表現(xiàn)出不同的反應，我們將所有試驗分為兩組：“詢問”試驗和“未詢問”試驗，這取決于參與者是否在“第一次選擇”階段選擇詢問。在未詢問試驗中（圖6（c）），參與者對環(huán)境隱藏狀態(tài)的不確定性比詢問試驗更大。我們在左額葉區(qū)域（p < 0.01）、右額葉區(qū)域（p < 0.05）和中央?yún)^(qū)（p < 0.001）的信號幅度中發(fā)現(xiàn)了統(tǒng)計學上的顯著差異，這表明這些區(qū)域在編碼環(huán)境的隱藏狀態(tài)方面發(fā)揮作用。這可能表明，當參與者知道隱藏狀態(tài)時，他們可以有效地將這些信息與環(huán)境的統(tǒng)計結(jié)構(gòu)整合起來，做出更精確或更有信心的決策，并表現(xiàn)出更強的神經(jīng)反應。圖6（c）的右側(cè)顯示，在未詢問試驗中，θ頻段的信號更高，表明θ頻段信號與對隱藏狀態(tài)的不確定性之間存在相關性[39]。

3.3 源水平的EEG結(jié)果

在對決策過程的神經(jīng)相關性的最終分析中，通過預期自由能量的知識價值和內(nèi)在價值來量化，我們在源空間中展示了一系列線性回歸分析。這些分析測試了預期自由能量（減少變異性的價值、減少新奇性的價值、外在價值和預期自由能量本身）的構(gòu)成項與源空間中神經(jīng)反應之間的相關性。此外，我們還研究了變異性的程度、新奇性的程度和預測誤差的神經(jīng)相關性。由于我們處理的是兩秒的時間序列，我們能夠識別出在決策過程中這些相關性表達的時間段。線性回歸是通過MNE軟件包中的“mne.stats.linear_regression”函數(shù)運行的（Activity ~ Regressor + Intercept）。Activity是源空間中EEG信號的活動幅度，Regressor是我們提到的回歸變量之一（例如，預期自由能量、減少新奇性的價值等）。

在這些分析中，我們關注了每個時間點在大腦源空間中神經(jīng)活動的誘導功率。為了說明這些神經(jīng)相關性的功能特異性，我們展示了全腦相關系數(shù)圖，并挑選出相關性最顯著的大腦區(qū)域，以報告選定相關性在兩秒時間段內(nèi)的波動。這些分析以描述性的方式呈現(xiàn)，以突出神經(jīng)相關性的性質(zhì)和多樣性，我們在討論中將其與現(xiàn)有的EEG文獻進行了對比。經(jīng)過假發(fā)現(xiàn)率（FDR）[40, 41]校正后的顯著結(jié)果以陰影區(qū)域顯示。更多的回歸結(jié)果可以在補充材料中找到。

4 討論

在本研究中，我們利用主動推理來探索在新奇性和變異性條件下人類決策過程中涉及的神經(jīng)相關性。通過使用情境化的兩臂老虎機任務，我們證明了主動推理框架能夠有效地描述現(xiàn)實世界的決策制定。我們的發(fā)現(xiàn)表明，主動推理不僅為在不同類型不確定性下的決策提供了解釋，而且還揭示了與不同類型不確定性和決策策略相關的共同和獨特的神經(jīng)相關性。這一點得到了傳感器級和源級EEG證據(jù)的支持。

4.1 主動推理中人類探索策略的多樣性

在人類行為的多樣性領域中，觀察到人類的探索策略會根據(jù)當前情境顯著變化。這些策略可以被視為定向探索和隨機探索的混合，其中定向探索傾向于選擇不確定性較高的行動，而隨機探索則是隨機選擇行動[42]。在主動推理框架中，探索中的隨機性來源于策略選擇過程中使用的精度參數(shù)。隨著精度參數(shù)的增加，代理行動中的隨機性也會增加。另一方面，定向探索源于預期自由能的計算。模型為那些導致探索更多消除歧義選項的政策分配了更高的預期自由能，從而獲得更高的信息增益[3, 4, 11]。

我們的模型擬合結(jié)果表明，人們在探索策略上表現(xiàn)出高度的變異性（圖4（b））。從基于模型的角度來看，探索策略結(jié)合了無模型學習和基于模型的學習。有趣的是，這兩種學習方式在人腦中表現(xiàn)出競爭和合作[43, 44]。無模型學習的簡單性和有效性與其缺乏靈活性和數(shù)據(jù)效率低形成對比。相反，盡管基于模型的學習靈活且能夠進行前瞻性規(guī)劃，但它需要大量的認知資源。主動推理模型傾向于更多地依賴基于模型的學習，因為這種模型結(jié)合了環(huán)境的認知模型來指導代理的行動。我們的模擬結(jié)果顯示了這些基于模型的行為，其中代理構(gòu)建了一個環(huán)境模型，并使用該模型來最大化獎勵（圖3）。主動推理可以通過添加習慣性項來整合無模型學習[3]。這使得主動推理代理能夠在任務的初始階段利用認知模型（基于模型）進行規(guī)劃，并在后期階段利用習慣來提高準確性和效率。

4.2 主動推理框架在決策中的優(yōu)勢

主動推理是一個綜合性的框架，闡明了神經(jīng)認知過程（見圖1）。它將感知、決策和學習統(tǒng)一在一個以最小化自由能為中心的單一框架內(nèi)。主動推理模型的主要優(yōu)勢之一在于其堅實的統(tǒng)計學[45]和神經(jīng)科學基礎[46]，這使得人們能夠清晰地理解一個主體與其環(huán)境的互動。

與基本的無模型強化學習相比，主動推理提供了一種更優(yōu)越的探索機制（見圖4（c））。由于傳統(tǒng)的強化學習模型僅根據(jù)狀態(tài)來確定其策略，這種設置導致難以提取時間信息[47]，并且增加了陷入局部最小值的可能性。相比之下，主動推理中的策略由時間和狀態(tài)共同決定。這種對時間的依賴[48]使得策略能夠高效地適應，例如在初始階段強調(diào)探索，而在后期強調(diào)利用。此外，這種機制在狀態(tài)新穎的情況下會促使更多探索性行為。主動推理的另一個優(yōu)勢在于其對不同任務環(huán)境的適應性[4]。它可以配置不同的生成模型來解決不同的任務，并計算不同形式的自由能和預期自由能。

盡管有這些優(yōu)勢，主動推理框架也有其局限性[49]。一個顯著的局限性是其計算復雜性（見圖2（c）），這源于其基于模型的架構(gòu)，限制了傳統(tǒng)主動推理模型在連續(xù)狀態(tài)-行動空間中的應用。此外，該模型嚴重依賴先驗的選擇，這意味著選擇不當?shù)南闰灴赡軙Q策、學習和其他過程產(chǎn)生不利影響[8]。然而，有時情況恰恰相反。正如在模型比較中所展示的，先驗可以是貝葉斯方法的優(yōu)勢。根據(jù)完備類定理[50, 51]，任何行為數(shù)據(jù)和獎勵函數(shù)的組合都可以用特定的先驗來描述理想貝葉斯決策。換句話說，總有一種方式可以用某些先驗來描述行為數(shù)據(jù)。這意味著原則上可以將任何給定的行為數(shù)據(jù)用解釋該行為的先驗來描述。在我們的例子中，這些實際上是關于各種偏好或?qū)ε既恍缘男拍畹木_度的有效先驗，這些先驗支持了預期自由能。

4.3 在傳感器水平上表示不確定性

在不確定性下的決策過程中使用腦電圖（EEG）信號，主要集中在傳感器水平上的事件相關電位（ERP）和頻譜特征[52–55]。在我們的研究中，傳感器水平的結(jié)果顯示，在試驗的后半部分與前半部分相比，以及在未詢問的試驗與詢問的試驗相比，多個大腦區(qū)域的神經(jīng)反應更強（見圖6）。

在我們的實驗設置中，經(jīng)過試驗的前半部分后，參與者已經(jīng)學習了一些關于環(huán)境統(tǒng)計結(jié)構(gòu)的信息，因此在試驗的后半部分體驗到的“新奇性”較少。這種增加的理解使他們能夠比在試驗的前半部分更好地利用統(tǒng)計結(jié)構(gòu)進行決策。相比之下，在未詢問的試驗中，由于缺乏對環(huán)境隱藏狀態(tài)的知識，導致行為的變異性更高。這種增加的變異性反映在大腦活動的增加上。

新奇性和變異性是決策中的兩個關鍵因素，它們常常被誤解，并且其含義可能因上下文而異。關于傳感器水平的結(jié)果，我們發(fā)現(xiàn)試驗的后半部分比前半部分的整體神經(jīng)反應更強（見圖6（b））。這可能表明在新奇性較低的試驗中，神經(jīng)反應通常更強，這可能與之前研究中顯示在新奇性較高的試驗中神經(jīng)反應更強的結(jié)果形成對比[55, 56]。例如，在他們的研究中識別出了一種晚期正電位（LPP），它區(qū)分了新奇性的水平，LPP的振幅作為感知新奇性水平的指標。然而，他們?nèi)蝿罩械男缕嫘员欢x為區(qū)分的感知難度，而我們對新奇性的定義對應于從某些策略中獲得的信息。

此外，Zheng等人[57]使用“幸運轉(zhuǎn)盤”任務來檢查在變異性和新奇性條件下神經(jīng)反饋處理的ERP和振蕩相關性。他們的研究結(jié)果表明，風險賭博增強了認知控制信號，這通過θ振蕩得到證明。相比之下，模糊賭博在反饋處理期間增強了情感和動機的顯著性，這通過正活動和δ振蕩來表明。未來的研究可能會專注于這種振蕩水平的分析，并揭示更多證據(jù)。

在我們的實驗中，每個階段對應于決策過程的不同階段。在兩個選擇階段，參與者根據(jù)當前對環(huán)境的信息來做出決策，以優(yōu)化累積獎勵，同時在兩個結(jié)果階段獲取有關環(huán)境的信息。

在“第一次選擇”階段，參與者需要決定是否支付額外成本以換取有關環(huán)境隱藏狀態(tài)的信息。在這里，認識價值來源于解決隱藏狀態(tài)的不確定性并減少變異性。額極似乎在這個過程中發(fā)揮了關鍵作用，它將外在價值與認識價值（預期自由能）結(jié)合起來，以指導決策（見圖7）。我們的結(jié)果還表明，內(nèi)側(cè)眶額皮質(zhì)、中央后回和中央前回與減少變異性的價值相關。先前的研究[58]表明，在決策過程中，額極在風險條件和模糊條件下被強烈激活。另一項研究也表明，額極在信念（變異性和新奇性）與收益（收益和損失）之間的相互作用中發(fā)揮了重要作用[59]。

至于“第一次結(jié)果”階段，參與者了解了環(huán)境的隱藏狀態(tài)并避免了環(huán)境中的風險。我們的結(jié)果表明，內(nèi)側(cè)眶額皮質(zhì)、前額葉中部前部和外側(cè)眶額皮質(zhì)在評估隱藏狀態(tài)的不確定性以及學習這些隱藏狀態(tài)的信息方面發(fā)揮了關鍵作用（見圖8（a））。先前的研究[60]發(fā)現(xiàn)，內(nèi)側(cè)和外側(cè)眶額皮質(zhì)都編碼變異性和獎勵概率，而外側(cè)眶額皮質(zhì)在編碼體驗價值方面發(fā)揮了主導作用。另一項研究[61]指出，內(nèi)側(cè)眶額皮質(zhì)與冒險行為有關，而冒險行為是由特定的眶額皮質(zhì)獎勵系統(tǒng)驅(qū)動的。在整個“第一次結(jié)果”階段，參與者正在處理與當前試驗相關的狀態(tài)信息?？纛~皮質(zhì)被認為在處理這種狀態(tài)信息并利用它構(gòu)建環(huán)境模型方面發(fā)揮關鍵作用。

在“第二次選擇”階段，參與者根據(jù)他們當前的信息在安全路徑和風險路徑之間進行選擇。當知道環(huán)境的隱藏狀態(tài)時，參與者傾向于通過選擇風險路徑來解決模型參數(shù)的不確定性。相反，當不知道隱藏狀態(tài)時，參與者傾向于通過選擇安全路徑來減少變異性。預期自由能也與大腦信號相關，但涉及不同的區(qū)域，例如前額葉中部前部、前額葉中部后部和中顳回。我們的結(jié)果還強調(diào)了前額葉中部前部、前額葉上部、島葉和外側(cè)眶額皮質(zhì)在評估減少新奇性的價值方面的重要性。這些結(jié)果表明，一些大腦區(qū)域可能同時評估減少新奇性和減少變異性的價值[62]。

對于“第二次結(jié)果”階段，參與者根據(jù)他們的行為獲得獎勵，構(gòu)建價值函數(shù)和狀態(tài)轉(zhuǎn)移函數(shù)。我們的結(jié)果強調(diào)了中央前回和上頂葉皮質(zhì)在學習狀態(tài)轉(zhuǎn)移函數(shù)和減少新奇性方面的作用（見圖8（b））。參與者在不同的背景下做出決策，有多個研究強調(diào)了上頂葉皮質(zhì)在不確定決策中的作用[63–65]。

在兩個“選擇”階段，我們觀察到預期自由能與外在價值相比有更強的相關性，這表明預期自由能可以更好地代表大腦實際用于指導行動的價值[66]。與“第一次選擇”階段相比，“第二次選擇”階段的相關性更為顯著。這可能表明，大腦在為獎勵做決策時比為信息做決策時被激活得更多。我們發(fā)現(xiàn)了減少變異性和減少新奇性的價值的神經(jīng)相關性，但沒有發(fā)現(xiàn)變異性和新奇性的程度（在FDR校正后）。未來的工作應該設計一個突出不同程度的變異性和模糊性的任務。在兩個結(jié)果階段，“第二次結(jié)果”階段的回歸結(jié)果不太可靠。這可能是因為我們的離散獎勵結(jié)構(gòu)。參與者可能不擅長記住具體的概率，而只能記住平均獎勵。

應該承認，我們的基于EEG的回歸結(jié)果有些不穩(wěn)定，且在FDR校正前后顯著回歸的大腦區(qū)域不一致。在未來的工作中，我們應該收集更精確的神經(jīng)數(shù)據(jù)以減少這種不穩(wěn)定性。

5 結(jié)論

在本研究中，我們引入了主動推理框架來研究探索與利用決策任務背后的神經(jīng)機制。與無模型的強化學習相比，主動推理提供了更優(yōu)越的探索獎勵，并且與參與者的實際行為數(shù)據(jù)擬合得更好。鑒于我們研究中的行為任務僅涉及來自有限數(shù)量狀態(tài)和獎勵的變量，未來的研究應努力將主動推理框架應用于更復雜的任務。特定的大腦區(qū)域可能在平衡探索與利用方面發(fā)揮關鍵作用。額極和前額葉中部主要參與行動選擇（預期自由能）。中央前回主要參與評估減少變異性的價值，而前額葉中部前部也參與評估減少新奇性的價值。此外，內(nèi)側(cè)眶額皮質(zhì)參與學習環(huán)境的隱藏狀態(tài)（減少變異性），中央前回參與學習環(huán)境的模型參數(shù)（減少新奇性）。本質(zhì)上，我們的研究結(jié)果表明，主動推理能夠研究人類在不確定性下的決策行為?？傮w而言，這項研究從行為和神經(jīng)兩個角度提供了支持主動推理在決策過程中應用的證據(jù)。我們還為人類在各種形式的不確定性下的決策所涉及的神經(jīng)機制提供了見解。

原文：https://elifesciences.org/reviewed-preprints/92892

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.