網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

覓食動(dòng)物通過動(dòng)態(tài)貝葉斯更新建模環(huán)境表征的元不確定性

2026-03-12 21:24:24　來源: CreateAMind

上海舉報(bào)

分享至

Foraging animals use dynamic Bayesian updating to model meta-uncertainty in environment representations

覓食動(dòng)物通過動(dòng)態(tài)貝葉斯更新建模環(huán)境表征的元不確定性

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1012989

摘要

覓食理論在許多背景下預(yù)測動(dòng)物行為。在基于斑塊的覓食行為中，邊際值定理（MVT）為參數(shù)對覓食者完全已知的確定性環(huán)境提供了最優(yōu)策略。在自然環(huán)境中，環(huán)境參數(shù)表現(xiàn)出變異性，且動(dòng)物僅能基于其經(jīng)驗(yàn)部分知曉，從而產(chǎn)生不確定性。覓食中的不確定性模型已得到充分確立。然而，自然環(huán)境的統(tǒng)計(jì)特性也表現(xiàn)出不可預(yù)測的變化。因此，動(dòng)物必須確定當(dāng)前觀察到的環(huán)境質(zhì)量是否與其內(nèi)部模型一致，或者是否發(fā)生了變化，從而產(chǎn)生元不確定性。在元不確定性下優(yōu)化覓食行為的行為策略及其神經(jīng)基礎(chǔ)，目前很大程度上是未知的。在此，我們開發(fā)了一種新穎的行為任務(wù)和計(jì)算框架，用于研究元不確定性條件下頭部固定和自由運(yùn)動(dòng)小鼠的離開斑塊決策。我們隨機(jī)改變了斑塊間的旅行時(shí)間，以及斑塊內(nèi)的獎(jiǎng)勵(lì)消耗率。我們發(fā)現(xiàn)，當(dāng)不確定性最小時(shí)，小鼠采取的斑塊停留時(shí)間與 MVT 一致，且無法用簡單的基于行為學(xué)的啟發(fā)式策略來解釋。然而，高度可變環(huán)境中的行為通過對環(huán)境參數(shù)中的一階和二階不確定性進(jìn)行建模得到了最好的解釋，其中局部變異性和全局統(tǒng)計(jì)分別由貝葉斯估計(jì)器和動(dòng)態(tài)先驗(yàn)所捕捉。因此，小鼠通過采用分層貝葉斯策略在元不確定性下覓食，這對于在波動(dòng)環(huán)境中高效覓食至關(guān)重要。這些結(jié)果為理解表現(xiàn)出自然化元不確定性的決策的神經(jīng)基礎(chǔ)提供了基礎(chǔ)。

作者摘要

理解動(dòng)物如何做出決策的行為生態(tài)學(xué)方法，是使用它們在自然環(huán)境中經(jīng)常面臨的任務(wù)。其中一項(xiàng)典型任務(wù)，在行為生態(tài)學(xué)中規(guī)范地稱為基于斑塊的覓食，涉及從隨時(shí)間消耗的空間分離區(qū)域（稱為"斑塊"）中獲取資源。在進(jìn)行斑塊覓食時(shí)，動(dòng)物必須決定何時(shí)離開當(dāng)前斑塊以尋找新的、已補(bǔ)充的斑塊。邊際值定理（MVT）描述了當(dāng)環(huán)境統(tǒng)計(jì)特性穩(wěn)定且為動(dòng)物所知時(shí)的最優(yōu)行為策略。然而，自然化情境通常充滿噪聲且不確定，這限制了 MVT 的適用性。在此，為理解實(shí)驗(yàn)室小鼠如何做出與行為生態(tài)學(xué)相關(guān)的決策，我們在物理或虛擬的基于斑塊的覓食環(huán)境中實(shí)施了一項(xiàng)斑塊覓食任務(wù)。該任務(wù)納入了斑塊豐度的不確定性、斑塊間距離的不確定性，以及重要的是，斑塊內(nèi)獎(jiǎng)勵(lì)時(shí)機(jī)的隨機(jī)性。當(dāng)獎(jiǎng)勵(lì)時(shí)機(jī)的隨機(jī)性較低時(shí)，動(dòng)物的行為與 MVT 一致。然而，當(dāng)獎(jiǎng)勵(lì)時(shí)機(jī)的隨機(jī)性較高時(shí)，小鼠會動(dòng)態(tài)地權(quán)衡平均統(tǒng)計(jì)特性與近期觀測結(jié)果，這一過程由貝葉斯估計(jì)器所捕捉。因此，我們的研究結(jié)果為探討大腦在面對多層級不確定性時(shí)如何解決任務(wù)奠定了基礎(chǔ)。

引言

在覓食時(shí)，最優(yōu)策略應(yīng)最大化獎(jiǎng)勵(lì)率（單位時(shí)間內(nèi)的獎(jiǎng)勵(lì)）[1]。在研究最充分的一類覓食決策中，資源斑塊內(nèi)的動(dòng)物需要決定何時(shí)放棄正在耗盡的斑塊，并付出代價(jià)（通常以移動(dòng)時(shí)間的形式）轉(zhuǎn)移到更新、更豐富的斑塊 [1–3]。人們越來越有興趣將覓食行為作為理解正常和異常決策的潛在途徑，并且在動(dòng)物中，作為理解決策神經(jīng)回路基礎(chǔ)的機(jī)制性理解工具 [4, 5]。這種興趣反映在動(dòng)物行為學(xué)和行為生態(tài)學(xué)的大量研究中 [6–12]。此外，偏離最優(yōu)覓食可作為學(xué)習(xí)缺陷和精神疾病的診斷指標(biāo) [13, 14]。

當(dāng)環(huán)境參數(shù)完全為覓食者所知時(shí)，最優(yōu)行為由邊際值定理（MVT）支配，該定理表明，當(dāng)邊際獎(jiǎng)勵(lì)下降至與環(huán)境平均水平相匹配時(shí)，離開時(shí)機(jī)可最大化獎(jiǎng)勵(lì)率。然而，MVT 做出了相當(dāng)嚴(yán)格且不切實(shí)際的假設(shè)，即環(huán)境統(tǒng)計(jì)量是平穩(wěn)的，且覓食者擁有這些統(tǒng)計(jì)量的完美內(nèi)部模型。如果覓食者沒有良好的環(huán)境模型，他們面臨的每個(gè)結(jié)果都構(gòu)成挑戰(zhàn)。該結(jié)果是符合還是偏離他們的內(nèi)部模型？這一挑戰(zhàn)源于對環(huán)境的不確定性，這種不確定性源于環(huán)境的隨機(jī)性，以及關(guān)于這些環(huán)境統(tǒng)計(jì)量是否發(fā)生變化的嵌套元不確定性。例如，考慮在樹下或超市遇到的蘋果。如果那個(gè)蘋果顏色異?；蛱鸲鹊陀谄骄?，覓食者必須決定它是優(yōu)質(zhì)蘋果正常變異性的一部分，還是他們應(yīng)該轉(zhuǎn)移到一棵新樹或商店。由于這種元不確定性，決策者必須不斷評估他們遇到的變異性是反映已知環(huán)境統(tǒng)計(jì)量中的隨機(jī)性，還是這些統(tǒng)計(jì)量的變化。這兩種形式的變異性都符合自然情況，正如生態(tài)學(xué)文獻(xiàn)所證明的那樣 [15–18]，因此應(yīng)在策略中予以考慮。

作為自然覓食者，嚙齒動(dòng)物在其原生環(huán)境中經(jīng)常遇到此類元決策，需要同時(shí)解析經(jīng)濟(jì)因素和風(fēng)險(xiǎn)（例如捕食），以及它們在多個(gè)時(shí)間尺度上的變異性 [19–22]。鑒于它們對這類任務(wù)的偏好，以及嚙齒動(dòng)物在系統(tǒng)神經(jīng)科學(xué)中的廣泛使用，最近的實(shí)驗(yàn)室研究利用覓食構(gòu)建來探索行為策略及其潛在的神經(jīng)生理機(jī)制 [23–30]。然而，在實(shí)驗(yàn)環(huán)境中復(fù)制自然覓食的動(dòng)態(tài)是困難的。在斑塊內(nèi)，獎(jiǎng)勵(lì)遭遇應(yīng)包含一定水平的變異性，同時(shí)也表現(xiàn)出足夠的穩(wěn)定性，嚙齒動(dòng)物可據(jù)此做出斑塊離開決策。此外，遭遇中包含的環(huán)境信息應(yīng)該是動(dòng)物可感知的，并導(dǎo)致可解釋的結(jié)果。在復(fù)制挖掘嚙齒動(dòng)物先天認(rèn)知能力所需的自然特性，與創(chuàng)建可輕松獲取、分析和解釋有意義行為和/或神經(jīng)生理數(shù)據(jù)的實(shí)驗(yàn)構(gòu)建之間取得平衡，給實(shí)驗(yàn)者造成了困境 [31]。特別是，元不確定性尚未在實(shí)驗(yàn)室覓食行為模型中得到考慮。

在此，我們在自由移動(dòng)和頭部固定的小鼠中實(shí)施了一種基于斑塊的覓食任務(wù)，捕捉了幾個(gè)關(guān)鍵的接近自然的特性，包括元不確定性。小鼠在物理或虛擬軌道上的獎(jiǎng)勵(lì)端口之間奔跑，并以隨時(shí)間在斑塊內(nèi)衰減的速率接收液體獎(jiǎng)勵(lì)。斑塊位置和豐富度用聲學(xué)線索指示。在斑塊內(nèi)的任何時(shí)刻，小鼠都可以離開并前往下一個(gè)斑塊，后者被補(bǔ)充到其初始獎(jiǎng)勵(lì)率。關(guān)鍵在于，我們在耗盡過程中引入了隨機(jī)性，因此獎(jiǎng)勵(lì)遭遇序列包含信息性和隨機(jī)性元素，使小鼠面臨解析獎(jiǎng)勵(lì)時(shí)機(jī)偏差是反映環(huán)境參數(shù)中的隨機(jī)性還是他們對環(huán)境的不確定性的需求。我們的結(jié)果表明，與簡單啟發(fā)式或標(biāo)準(zhǔn) MVT 模型相比，通過貝葉斯估計(jì)器將結(jié)果變異性與環(huán)境穩(wěn)定性分離開的分層模型更好地解釋了行為。因此，我們的研究闡明了小鼠如何通過計(jì)算行為策略適應(yīng)其自然環(huán)境中普遍存在的現(xiàn)象——元不確定性——強(qiáng)調(diào)了決策中以前未知的一層復(fù)雜性，該復(fù)雜性支持在環(huán)境波動(dòng)存在下的穩(wěn)健行為。

結(jié)果

自由移動(dòng)小鼠中基于斑塊的覓食任務(wù)

為了在實(shí)驗(yàn)室中研究不確定性條件下的基于斑塊的覓食行為，我們開發(fā)了一種自由移動(dòng)的小鼠實(shí)驗(yàn)裝置。我們構(gòu)建了一個(gè)線性軌道系統(tǒng)，類似于通常用于研究導(dǎo)航過程中海馬功能的裝置 [32, 33]。經(jīng)過兩步訓(xùn)練方案以熟悉實(shí)驗(yàn)設(shè)置后（見材料與方法），小鼠成功完成了自由移動(dòng)的基于斑塊的覓食任務(wù)。

該任務(wù)包括在線性軌道兩端之間來回奔跑，軌道兩端的獎(jiǎng)勵(lì)端口提供隨機(jī)耗盡的糖水資源，并配有指示獎(jiǎng)勵(lì)可用性的聲學(xué)線索（圖 1A，右上）。在每次任務(wù)會話開始時(shí)，將小鼠放置在線性軌道的中心。當(dāng)小鼠導(dǎo)航至兩個(gè)獎(jiǎng)勵(lì)端口中的任意一個(gè)時(shí)，獎(jiǎng)勵(lì)端口附近的揚(yáng)聲器會持續(xù)播放音調(diào)云，指示獎(jiǎng)勵(lì)可用（圖 1A，左下）。當(dāng)小鼠在獎(jiǎng)勵(lì)端口內(nèi)進(jìn)行鼻尖探測時(shí)，可以舔舐噴口獲取液體獎(jiǎng)勵(lì)。我們將這種鼻尖探測舔舐行為稱為"采集"（harvesting），這與行為生態(tài)學(xué)文獻(xiàn)中的用法一致 [1]。獎(jiǎng)勵(lì)可用性遵循非齊次伽馬過程（IGP；也稱為修正的非齊次泊松過程），其泊松速率呈指數(shù)衰減（圖 1B，左下）。在獎(jiǎng)勵(lì)可用時(shí)播放的純音提供了關(guān)于獎(jiǎng)勵(lì)時(shí)機(jī)的信息，該信息獨(dú)立于舔舐行為。由于 IGP 的底層速率隨時(shí)間呈指數(shù)衰減，隨著動(dòng)物停留在斑塊內(nèi)，獎(jiǎng)勵(lì)可用性變得越來越稀少，從而模擬了行為生態(tài)學(xué)中經(jīng)典的斑塊耗盡過程 [1]。獎(jiǎng)勵(lì)動(dòng)態(tài)中的隨機(jī)性水平在三個(gè)等級之間變化，并使用獎(jiǎng)勵(lì)隨機(jī)性指數(shù)（RSI）進(jìn)行量化，該指數(shù)定義為隱藏事件體積與可觀察獎(jiǎng)勵(lì)體積的比率（見材料與方法）。較大的 RSI 值對應(yīng)于獎(jiǎng)勵(lì)時(shí)機(jī)的更大方差，且獨(dú)立于衰減速率。

當(dāng)小鼠在獎(jiǎng)勵(lì)端口進(jìn)行鼻尖探測（nose-poke）時(shí)，它們可以通過停止探測（un-poking）來終止采集，此時(shí)音調(diào)云（tone-cloud）刺激停止播放，以指示該端口處于非活動(dòng)狀態(tài)。停止探測會立即觸發(fā)聲學(xué)粉紅噪聲從對面端口附近的揚(yáng)聲器播放，提示小鼠該端口有獎(jiǎng)勵(lì)可用。當(dāng)小鼠行進(jìn)并探測對面端口時(shí)，聽覺線索切換為音調(diào)云，小鼠可以像之前一樣從耗盡的非齊次伽馬過程（IGP）中接收獎(jiǎng)勵(lì)。行進(jìn)距離，以及由此產(chǎn)生的因在端口間行進(jìn)而損失時(shí)間所帶來的機(jī)會成本，通過使用兩條不同長度的軌道進(jìn)行了系統(tǒng)且明確的改變（圖 1B，右上）。每次行為會話使用一組固定的環(huán)境參數(shù)。

小鼠根據(jù)環(huán)境統(tǒng)計(jì)量的每日擾動(dòng)調(diào)整其行為

一組小鼠（N=8 只，每只動(dòng)物 27.6 ± 1.1 次會話）在低隨機(jī)性水平下進(jìn)行了基于斑塊的覓食任務(wù)。對于每次會話（每天一次），獎(jiǎng)勵(lì)衰減速率具有四個(gè)值之一（τ；3、6、12 或 24 秒；圖 1B，左下），并使用兩種軌道長度之一（1 米或 4 米；圖 1B，右上）。在各種環(huán)境中，小鼠學(xué)會了在獎(jiǎng)勵(lì)端口之間交替并舔舐以獲取獎(jiǎng)勵(lì)（圖 1C），每次會話遇到大量斑塊（正態(tài)分布；μ = 45.58, σ = 22.68），并且在斑塊內(nèi)停留的時(shí)間（即鼻尖探測持續(xù)時(shí)間）范圍很廣（對數(shù)正態(tài)分布；μlog10 = 0.91, σlog10 = 0.29），這被稱為斑塊停留時(shí)間（patch-residence time）[1]。

我們將停留時(shí)間定義為從進(jìn)入獎(jiǎng)勵(lì)端口（通過探測）到離開（通過停止探測）的時(shí)間，將非采集時(shí)間定義為從離開一個(gè)獎(jiǎng)勵(lì)端口到進(jìn)入下一個(gè)活動(dòng)獎(jiǎng)勵(lì)端口之間的時(shí)間。因?yàn)閯?dòng)物也表現(xiàn)出非覓食行為，例如探索或梳理毛發(fā)，我們將任務(wù)相關(guān)的非采集時(shí)間（稱為“行進(jìn)時(shí)間”）估算為每只動(dòng)物在每種軌道類型上所有斑塊間持續(xù)時(shí)間的第十百分位數(shù)，盡管結(jié)果在廣泛的百分位數(shù)值范圍內(nèi)都很穩(wěn)?。⊿7 圖）。完整的非采集時(shí)間（圖 2A）和任務(wù)相關(guān)的行進(jìn)時(shí)間估算（圖 2B）都表明，軌道長度影響了在獎(jiǎng)勵(lì)端口之間行進(jìn)的時(shí)間成本。為了理解獎(jiǎng)勵(lì)耗盡率和行進(jìn)時(shí)間對采集行為的綜合影響，我們使用聚類自助法設(shè)計(jì)（cluster bootstrap design）（S5 圖；見方法）測試了它們對停留時(shí)間的影響。我們發(fā)現(xiàn)這兩個(gè)參數(shù)都影響了停留時(shí)間，并且行為適應(yīng)的方向與邊際值定理（MVT）一致（圖 2C；衰減速率：r = 0.50 [0.46, 0.55]（均值 [95% CI]），p(r>0)>0.9999；軌道長度：r = 0.10 [0.05, 0.16]，p(r>0)>0.9999）。

我們注意到，斑塊停留時(shí)間在單次會話過程中逐漸減少，這種任務(wù)時(shí)長效應(yīng)可能源于疲勞或飽腹感 [34, 35]。我們還注意到，動(dòng)物之間的總體停留時(shí)間存在顯著變異性。為了在單一模型中量化實(shí)驗(yàn)操控因素（衰減速率、行進(jìn)距離）和這些混淆因素（任務(wù)時(shí)長和個(gè)體特異性偏差）如何共同影響行為，我們對該數(shù)據(jù)集擬合了一個(gè)線性混合模型（LMM）。我們將獎(jiǎng)勵(lì)衰減速率、任務(wù)相關(guān)的行進(jìn)時(shí)間以及任務(wù)時(shí)長設(shè)為固定效應(yīng)，將動(dòng)物個(gè)體身份設(shè)為隨機(jī)效應(yīng)。在低隨機(jī)性環(huán)境中，衰減速率和行進(jìn)時(shí)間的影響高度顯著，且與邊際值定理（MVT）一致；較慢的衰減速率和較長的行進(jìn)時(shí)間與更長的停留時(shí)間相關(guān)（見 S1 表中的表 A）。

基于 MVT 的模型在解釋行為方面優(yōu)于簡單啟發(fā)式策略

盡管基于斑塊的覓食規(guī)范性模型由邊際值定理（MVT）支配，且上述分析表明我們的小鼠結(jié)果與 MVT 的主要預(yù)測一致，但動(dòng)物通常通過應(yīng)用簡單的啟發(fā)式?jīng)Q策策略來解決任務(wù) [16, 36–38]。使用簡單啟發(fā)式策略可能在滿足生存所需足夠獎(jiǎng)勵(lì)率的同時(shí)降低認(rèn)知需求。另一方面，使用基于 MVT 的模型將最大化獎(jiǎng)勵(lì)率 [6, 39]。因此，在轉(zhuǎn)向更復(fù)雜的模型（包括與獎(jiǎng)勵(lì)隨機(jī)性相關(guān)的模型）之前，我們通過擬合動(dòng)物停留時(shí)間的預(yù)測模型，評估小鼠在覓食行為中采取的策略是否遵循一種近似于基于 MVT 行為的簡單啟發(fā)式規(guī)則。

我們確定了小鼠可能采用的三種"局部"（斑塊內(nèi)）啟發(fā)式規(guī)則。即，動(dòng)物可能在以下情況下離開斑塊：(1) 自進(jìn)入斑塊后經(jīng)過固定時(shí)長 [啟發(fā)式，恒定時(shí)間；HEU-CT]，(2) 在遇到固定數(shù)量的獎(jiǎng)勵(lì)后 [啟發(fā)式，獎(jiǎng)勵(lì)數(shù)量；HEU-NR]，或 (3) 自上一次獎(jiǎng)勵(lì)后經(jīng)過固定時(shí)長 [啟發(fā)式，自獎(jiǎng)勵(lì)起經(jīng)過的時(shí)間；HEU-ETR]。對于每只動(dòng)物，我們使用每個(gè)相關(guān)指標(biāo)的平均值（即每個(gè)斑塊的平均時(shí)長、獎(jiǎng)勵(lì)數(shù)量，或最后一次獎(jiǎng)勵(lì)與離開斑塊之間的延遲）來預(yù)測每個(gè)斑塊中的停留時(shí)間（圖 3A–3B）。我們首先將這些模型應(yīng)用于低隨機(jī)性條件。

我們將啟發(fā)式模型的結(jié)果與兩種基于 MVT 的模型進(jìn)行了比較（圖 3C）。在第一個(gè) MVT 模型中，我們利用對底層參數(shù)的了解，通過優(yōu)化整體獎(jiǎng)勵(lì)率來預(yù)測每個(gè)環(huán)境下的停留時(shí)間，這等同于經(jīng)典覓食理論中的最優(yōu)停留時(shí)間（MVT，最優(yōu)；MVT-OPT）。由于動(dòng)物可能會產(chǎn)生穩(wěn)定但不準(zhǔn)確的任務(wù)參數(shù)內(nèi)部估計(jì)，在第二個(gè) MVT 模型中，每只動(dòng)物的預(yù)測停留時(shí)間遵循 MVT，但使用的是針對每個(gè)環(huán)境固定的、環(huán)境特異性的參數(shù)估計(jì)值，這些估計(jì)值未必正確（MVT，基于內(nèi)部模型；MVT-IM）。該模型假設(shè)動(dòng)物試圖根據(jù)反映其感知到的或內(nèi)部估計(jì)的每個(gè)環(huán)境的獎(jiǎng)勵(lì)衰減速率和行進(jìn)時(shí)間的模型參數(shù)，遵循 MVT 來最大化其整體采集率。在此過程中，MVT-OPT 方程中的環(huán)境參數(shù)被替換為那些能最好地預(yù)測實(shí)證停留時(shí)間的數(shù)值（S6 圖）。

在比較啟發(fā)式模型和 MVT 模型時(shí)，我們使用固定時(shí)長啟發(fā)式模型（HEU-CT）作為零假設(shè)。另外兩個(gè)啟發(fā)式模型與觀察到的數(shù)據(jù)擬合不佳，無論是在定性上還是定量上。HEU-NR 模型預(yù)測的斑塊停留時(shí)間對衰減速率的依賴趨勢與數(shù)據(jù)中觀察到的趨勢相反（圖 3D，芥末黃）。HEU-ETR 數(shù)據(jù)低估了快速獎(jiǎng)勵(lì)衰減速率下的停留時(shí)間，并且由于其構(gòu)建方式，無法捕捉軌道長度的影響（圖 3D，橙色）。MVT-OPT 模型在定性上捕捉到了軌道長度和獎(jiǎng)勵(lì)衰減的影響，但像 HEU-ETR 一樣，低估了快速衰減速率下的斑塊停留時(shí)間（圖 3E，青色）。相對于根據(jù) MVT 計(jì)算的最優(yōu)時(shí)間，動(dòng)物在斑塊中停留時(shí)間過長，或者說出現(xiàn)了過度采集（overharvesting），特別是在衰減速率較快的環(huán)境中（圖 3E），正如之前所觀察到的那樣 [41, 42]。MVT-IM 很好地捕捉了數(shù)據(jù)，沒有系統(tǒng)性誤差（圖 3E，綠色），包括解釋了快速衰減速率環(huán)境中的過度采集現(xiàn)象。因此，動(dòng)物適應(yīng)環(huán)境擾動(dòng)的方式與 MVT 一致，但仿佛它們低估了斑塊獎(jiǎng)勵(lì)衰減速率（圖 3F 和 S6；均方根預(yù)測誤差 (RMSE) [95% CI]：HEU-CT, 4.88 [4.75, 5.01]; HEU-ETR, 5.86 [5.75, 5.97]; HEU-NR, 6.57 [6.42, 6.71]; MVT-OPT, 4.90 [4.80, 5.00]; MVT-IM, 4.10 [4.00, 4.20]）。

局部獎(jiǎng)勵(lì)序列動(dòng)態(tài)影響斑塊離開決策

小鼠在每次會話中表現(xiàn)出顯著的斑塊離開時(shí)間變異性。我們假設(shè)這種會話內(nèi)的行為變異性可能源于兩種不確定性來源：(1) 動(dòng)物不知道每日的斑塊衰減參數(shù)，以及 (2) 獎(jiǎng)勵(lì)可用性存在斑塊間的隨機(jī)性。因此，我們要確定近期的獎(jiǎng)勵(lì)統(tǒng)計(jì)數(shù)據(jù)是否影響它們的選擇。為此，我們實(shí)施了一個(gè)貝葉斯模型，利用對底層泊松過程的了解，根據(jù)一組觀察到的獎(jiǎng)勵(lì)時(shí)間生成當(dāng)前獎(jiǎng)勵(lì)率的最大似然估計(jì)（MLE）。我們將模型輸入限制在當(dāng)前斑塊的獎(jiǎng)勵(lì)時(shí)間，并計(jì)算了離開斑塊時(shí)的 MLE 和真實(shí)泊松獎(jiǎng)勵(lì)率。隨后，我們將離開斑塊時(shí)貝葉斯模型估計(jì)的誤差與當(dāng)前停留時(shí)間相對于給定會話中所有停留時(shí)間平均值的偏差進(jìn)行了比較。

如果動(dòng)物像 MVT 提出的那樣追蹤即時(shí)獎(jiǎng)勵(lì)率來決定離開時(shí)間，那么高估獎(jiǎng)勵(lì)率會導(dǎo)致更長的停留時(shí)間（圖 4A，左），反之亦然（圖 4A，右）。線性回歸顯示，在低隨機(jī)性環(huán)境中，貝葉斯比率估計(jì)誤差與停留時(shí)間相對于平均值的偏差之間存在顯著的正相關(guān)（圖 4B；觀測值：r = 0.52 ± 0.01，五次交叉驗(yàn)證子集間的均值 ± 標(biāo)準(zhǔn)差；R2 = 0.27 ± 0.01；打亂后：r = 0.18 ± 0.01，R2 = 0.032 ± 0.002）。因此，即使獎(jiǎng)勵(lì)隨機(jī)性很低，動(dòng)物的離開時(shí)間也受到局部（當(dāng)前斑塊）獎(jiǎng)勵(lì)序列信息的影響。

動(dòng)物在高度隨機(jī)環(huán)境中利用局部和全局信息

接下來，我們測試了在低隨機(jī)性環(huán)境中觀察到的行為策略是否延伸至更高隨機(jī)性的環(huán)境中。我們讓之前以 RSI=0.05 完成自由移動(dòng)覓食任務(wù)的動(dòng)物在同一任務(wù)中運(yùn)行，但增加了獎(jiǎng)勵(lì)時(shí)機(jī)的變異性（RSI ∈ [1.0, 2.0]；N=8 只小鼠，每只動(dòng)物 10 ± 1 次會話）。任務(wù)的結(jié)構(gòu)使得平均獎(jiǎng)勵(lì)動(dòng)態(tài)保持不變，但斑塊遭遇間獎(jiǎng)勵(lì)時(shí)機(jī)的方差顯著增加（圖 1E–1F）。

在高隨機(jī)性環(huán)境中，小鼠仍然根據(jù) MVT 隨衰減速率和軌道長度調(diào)整停留時(shí)間（圖 2D）。聚類自助法分析顯示這些變化具有統(tǒng)計(jì)學(xué)顯著性（衰減速率：r = 0.50 [0.46, 0.55]（均值 [95% CI]），p(r>0)>0.9999；軌道長度：r = 0.10 [0.01, 0.18]，p(r > 0) = 0.985）。為了進(jìn)一步測試行為適應(yīng)性，如上所述，我們使用與擬合低隨機(jī)性數(shù)據(jù)相同的解釋變量，用線性混合模型（LMM）擬合了高隨機(jī)性環(huán)境中的行為數(shù)據(jù)。該模型顯示，對于衰減速率和軌道長度的操控，停留時(shí)間均出現(xiàn)了符合 MVT 預(yù)期方向的顯著適應(yīng)性（見 S1 表中的表 A）。

隨后，我們通過將相同的局部啟發(fā)式和基于 MVT 的模型擬合到高隨機(jī)性環(huán)境中的停留時(shí)間來評估行為策略（圖 5B–5C，左）。值得注意的是，基于平均獎(jiǎng)勵(lì)動(dòng)態(tài)的模型，包括所有局部啟發(fā)式和 MVT 模型，做出的預(yù)測不依賴于 RSI，因此預(yù)測的停留時(shí)間與低隨機(jī)性環(huán)境中的相似。與低隨機(jī)性環(huán)境一致，基于觀察到的獎(jiǎng)勵(lì)數(shù)量（HEU-NR）和感知到的 MVT 參數(shù)（MVT-IM）的模型分別是表現(xiàn)最差和最好的（RMSE [95% CI]：HEU-CT, 4.92 [4.72, 5.12]; HEU-ETR, 4.67 [4.48, 4.92]; HEU-NR, 7.03 [6.82, 7.24]; MVT-OPT, 4.85 [4.67, 5.05]; MVT-IM, 3.98 [3.81, 4.16]），這表明動(dòng)物有效地從隨機(jī)觀察中提取了平均動(dòng)態(tài)。然而，與低隨機(jī)性環(huán)境相反，在高隨機(jī)性中，未觀察到獎(jiǎng)勵(lì)的經(jīng)過時(shí)間啟發(fā)式模型（HEU-ETR）部分解釋了停留時(shí)間的方差，暗示當(dāng)獎(jiǎng)勵(lì)時(shí)機(jī)更多變時(shí)，動(dòng)物默認(rèn)追蹤這一簡單指標(biāo)。盡管如此，盡管獎(jiǎng)勵(lì)序列更不可預(yù)測，動(dòng)物仍表現(xiàn)出與 MVT 一致的行為適應(yīng)性。

接下來，我們利用這些會話進(jìn)一步探索動(dòng)物是否在對獎(jiǎng)勵(lì)參數(shù)進(jìn)行連續(xù)、動(dòng)態(tài)的估計(jì)，正如低隨機(jī)性環(huán)境會話的模型所指示的那樣（圖 4B）。與之前一樣，我們利用當(dāng)前的獎(jiǎng)勵(lì)序列計(jì)算了離開斑塊時(shí)的泊松速率的最大似然估計(jì)（MLE），并將其與相對于會話平均值的停留時(shí)間變化進(jìn)行了比較（圖 4C）。相關(guān)性既為正又顯著（RSI ∈ [0.5, 1.0]；觀測值：r = 0.49 ± 0.02（五折交叉驗(yàn)證子集間的均值 ± 標(biāo)準(zhǔn)差），R2=0.24 ± 0.02；打亂后：r=0.06 ± 0.01，R2=0.004 ± 0.001；見 S2 圖），這與小鼠利用近期獎(jiǎng)勵(lì)歷史來修正全局斑塊離開決策的假設(shè)一致。有趣的是，雖然正如預(yù)期的那樣，估計(jì)誤差的方差隨著 RSI 的增加而增加，但停留時(shí)間的方差保持不變（見圖 4C 中的邊緣分布）。因此，增加斑塊內(nèi)獎(jiǎng)勵(lì)動(dòng)態(tài)的隨機(jī)性并沒有影響整體的會話內(nèi)行為變異性，而是將這種決策變異性與獎(jiǎng)勵(lì)序列變寬的分布耦合在了一起。

動(dòng)物利用近期觀察結(jié)果更新其對環(huán)境變量的估計(jì)

接下來，我們探索了當(dāng)前斑塊的表現(xiàn)如何受到近期斑塊歷史的影響。我們遵循與上述相同的程序，比較離開斑塊時(shí)估計(jì)的獎(jiǎng)勵(lì)率誤差與停留時(shí)間的變化，不同之處在于泊松速率的最大似然估計(jì)（MLE）除了包含當(dāng)前斑塊的序列外，還納入了來自先前斑塊的獎(jiǎng)勵(lì)序列（圖 4D）。值得注意的是，與停留時(shí)間的局部適應(yīng)性之間的相關(guān)性與用于估計(jì)獎(jiǎng)勵(lì)率的近期歷史程度呈負(fù)相關(guān)，這表明斑塊離開決策的大幅變化源于最近觀察到的獎(jiǎng)勵(lì)序列的時(shí)機(jī)（圖 4E）。

雖然這些發(fā)現(xiàn)證明了估計(jì)獎(jiǎng)勵(lì)率與停留時(shí)間適應(yīng)性之間的關(guān)系，但它們并未根據(jù)估計(jì)的速率生成停留時(shí)間的實(shí)際預(yù)測。為此，我們構(gòu)建了一個(gè)斑塊停留時(shí)間的預(yù)測模型，該模型利用獎(jiǎng)勵(lì)率的 MLE 作為輸入。與 MVT 一致，該模型假設(shè)當(dāng)即時(shí)獎(jiǎng)勵(lì)率低于給定模型時(shí)動(dòng)物會離開斑塊。然而，新模型利用的是估計(jì)的（而非固定的）獎(jiǎng)勵(lì)率（MLE-x，其中 x 代表納入泊松速率似然估計(jì)的近期斑塊數(shù)量）。與圖 4E 中一樣，使用給定程度的斑塊歷史計(jì)算每個(gè)斑塊的泊松速率 MLE。獎(jiǎng)勵(lì)率閾值對應(yīng)于 MVT-IM 模型中離開斑塊時(shí)的獎(jiǎng)勵(lì)率。與停留時(shí)間的局部適應(yīng)性相反，模型預(yù)測誤差隨著斑塊歷史范圍的增加而減小，并漸近地接近 MVT-IM 模型的準(zhǔn)確性（圖 S3A 和 5C）。

因此，捕捉不同時(shí)間尺度的變異性導(dǎo)致了關(guān)于斑塊離開決策中納入的斑塊歷史程度的表面上相互矛盾的建議。停留時(shí)間的斑塊間變異性最好由最近的觀察結(jié)果解釋，而整個(gè)會話的平均停留時(shí)間最好通過納入所有先前的觀察結(jié)果（包括久遠(yuǎn)的觀察結(jié)果）來解釋。換句話說，雖然近期經(jīng)驗(yàn)影響了斑塊離開決策的斑塊間變異性，但它并未以獎(jiǎng)勵(lì)率估計(jì)的形式提供足夠的證據(jù)來完全預(yù)測斑塊離開決策。

這種與觀察歷史程度的不一致關(guān)系表明了一個(gè)模型，其中環(huán)境的局部和全局估計(jì)是獨(dú)立計(jì)算的，并對行為做出了不同的貢獻(xiàn)。為解決這個(gè)問題，我們使用貝葉斯方法來納入底層獎(jiǎng)勵(lì)率參數(shù)（初始獎(jiǎng)勵(lì)率和衰減速率）的先驗(yàn)概率，以及獎(jiǎng)勵(lì)率的 MLE，它們分別反映了環(huán)境的全局和局部特征。由此產(chǎn)生的獎(jiǎng)勵(lì)率估計(jì)稱為最大后驗(yàn)（MAP）估計(jì)，它通過用先驗(yàn)信念調(diào)節(jié)似然度來擴(kuò)展 MLE，在這種情況下，先驗(yàn)信念反映了小鼠對平均統(tǒng)計(jì)數(shù)據(jù)的感知。該模型預(yù)測，當(dāng)獎(jiǎng)勵(lì)率的 MAP 估計(jì)低于獎(jiǎng)勵(lì)率閾值時(shí)會發(fā)生斑塊離開，該閾值對應(yīng)于給定環(huán)境的 MVT-IM 參數(shù)。根據(jù)圖 4E 的結(jié)果，我們使用了當(dāng)前斑塊以及最多前三個(gè)斑塊遭遇中觀察到的獎(jiǎng)勵(lì)時(shí)間。

為了確定最佳模型參數(shù)化，我們首先通過在一系列先驗(yàn)分布上計(jì)算預(yù)測誤差來進(jìn)行網(wǎng)格搜索，這些先驗(yàn)分布以 MVT-IM 的獎(jiǎng)勵(lì)參數(shù)為中心，但方差不同，反映了全局估計(jì)中的不確定性程度（圖 5A 和 S3B–S3D）。因此，這些模型在概率框架（MAP）中反映了動(dòng)物對環(huán)境參數(shù)的感知（基于內(nèi)部模型），該框架由近期經(jīng)驗(yàn)更新（局部優(yōu)化）。最佳擬合模型（MAP，基于內(nèi)部模型，局部優(yōu)化；MAP-IM-L）僅使用當(dāng)前斑塊（N = 1）的觀察結(jié)果，獎(jiǎng)勵(lì)率參數(shù)具有中等不確定性（，）；參數(shù)描述見材料與方法）。與 MVT-IM 相比，改進(jìn)不顯著（圖 5B–5C；RMSE [95% CI]：）。

雖然 MAP-IM-L 模型采用了 MVT-IM 模型的參數(shù)來設(shè)定斑塊離開決策的獎(jiǎng)勵(lì)率閾值，但一旦通過概率框架捕捉到局部適應(yīng)性，最能解釋動(dòng)物行為的閾值可能會有所不同。因此，我們構(gòu)建了一個(gè)模型，其中先驗(yàn)分布的參數(shù)和獎(jiǎng)勵(lì)率閾值都采用分層方法進(jìn)行優(yōu)化（MAP，基于內(nèi)部模型，全局和局部優(yōu)化；MAP-IM-GL）。對于每組先驗(yàn)分布，計(jì)算每個(gè)環(huán)境中使預(yù)測誤差最小化的獎(jiǎng)勵(lì)率閾值（S3D 圖；見材料與方法）。當(dāng)評估預(yù)測停留時(shí)間的準(zhǔn)確性時(shí)，最佳擬合的 MAP-IM-GL 模型（N = 1，，）顯著優(yōu)于所有僅利用全局或局部環(huán)境特征的其他行為模型（圖 5B–5C；RMSE [95% CI]：）。

頭部固定虛擬覓食任務(wù)中的行為遵循 MVT 原則，而非簡單啟發(fā)式策略

由于頭部固定行為允許使用更廣泛的生理學(xué)方法，我們接下來測試了自由移動(dòng)任務(wù)是否可以改編為用于頭部固定小鼠的虛擬基于斑塊的覓食任務(wù)。在虛擬覓食任務(wù)中，小鼠在一維虛擬空間中的圓柱形跑步機(jī)上奔跑，使用與自由移動(dòng)任務(wù)相同的聽覺線索（圖 6A）。斑塊之間由虛擬軌道距離隔開，動(dòng)物必須在輪子上跑過這段距離才能到達(dá)下一個(gè)虛擬斑塊（圖 6B）。小鼠在任務(wù)開始時(shí)從一個(gè)斑塊開始。當(dāng)小鼠保持靜止時(shí)播放聲學(xué)音調(diào)云，表明它們處于斑塊內(nèi)。每當(dāng)有獎(jiǎng)勵(lì)可用時(shí)嵌入純音，遵循非齊次伽馬過程，此時(shí)小鼠舔舐即可接收獎(jiǎng)勵(lì)。與之前一樣，蔗糖溶液獎(jiǎng)勵(lì)是恒定的 2 體積，并且隨著在斑塊內(nèi)時(shí)間的推移，它們之間的間隔越來越長。在虛擬斑塊內(nèi)的任何時(shí)刻，小鼠都可以開始在跑步機(jī)上行走或奔跑，這標(biāo)志著斑塊離開決策，并且開始播放粉紅噪聲以指示它們不再處于斑塊內(nèi)。當(dāng)它們在虛擬空間中接近下一個(gè)斑塊時(shí)，粉紅噪聲的強(qiáng)度增加，直到它們跑完了給定環(huán)境的完整虛擬軌道距離，此時(shí)聲音切換為音調(diào)云。當(dāng)小鼠此外還變?yōu)殪o止?fàn)顟B(tài)時(shí)，獎(jiǎng)勵(lì)生成過程開始，這標(biāo)志著對斑塊進(jìn)入的識別。這種虛擬斑塊停留和斑塊間行進(jìn)的序列在會話期間持續(xù)進(jìn)行。

在經(jīng)過一段熟悉頭部固定裝置的訓(xùn)練期后，小鼠在低隨機(jī)性（RSI = 0.05）和高隨機(jī)性（）環(huán)境中，使用三種獎(jiǎng)勵(lì)衰減速率（）和三種虛擬軌道長度（60 厘米、100 厘米、200 厘米）執(zhí)行覓食任務(wù)。與自由移動(dòng)任務(wù)一樣，每次會話使用一組固定的參數(shù)。使用與自由移動(dòng)任務(wù)類似的標(biāo)準(zhǔn)，表現(xiàn)較差的會話和動(dòng)物被從分析中剔除。在剩余的會話中，任務(wù)相關(guān)行為在斑塊間和斑塊內(nèi)均被估計(jì)。

我們將任務(wù)相關(guān)的行進(jìn)時(shí)間定義為動(dòng)物速度超過斑塊進(jìn)入閾值（0.5 厘米/秒）的時(shí)間，這占所有納入會話總行進(jìn)時(shí)間的 70%（S4D 圖）。此外，在大約三分之一的情況下，動(dòng)物連續(xù)跑向下一個(gè)斑塊。我們將平均任務(wù)相關(guān)行進(jìn)時(shí)間估計(jì)為每只動(dòng)物在每種虛擬軌道長度上任務(wù)相關(guān)行進(jìn)時(shí)間的幾何平均值。正如預(yù)期的那樣，在低隨機(jī)性和高隨機(jī)性環(huán)境中，任務(wù)相關(guān)時(shí)間都隨著虛擬軌道長度的增加而增加，這表明虛擬斑塊間距離改變了前往下一個(gè)斑塊的時(shí)間成本（圖 6D；平均任務(wù)相關(guān)行進(jìn)時(shí)間：60 厘米，13.22 秒；100 厘米，16.14 秒；200 厘米，30.14 秒）。一旦它們跑完虛擬軌道長度，動(dòng)物會以與軌道長度成比例的時(shí)間充分減速以進(jìn)入斑塊（S4E 圖；延遲的幾何平均值（占平均任務(wù)相關(guān)行進(jìn)時(shí)間的比例）：60 厘米，4.46 秒（0.34）；100 厘米，4.77 秒（0.30）；200 厘米，7.26 秒（0.24））。

與動(dòng)物需要主動(dòng)進(jìn)行鼻尖探測以停留在斑塊內(nèi)的自由移動(dòng)任務(wù)不同，頭部固定任務(wù)在虛擬斑塊內(nèi)不需要主動(dòng)參與。因此，我們認(rèn)為舔舐頻率反映了參與度，并將任務(wù)相關(guān)的停留時(shí)間估計(jì)為舔舐頻率超過最小閾值（0.5 赫茲；S4A–S4B 圖）的時(shí)間。在 49% 的納入斑塊中，小鼠在至少 95% 的停留時(shí)間內(nèi)保持參與；在 61% 的納入斑塊中，至少 80% 的時(shí)間保持參與；在 66% 的納入斑塊中，至少 60% 的時(shí)間保持參與。為了有效排除與任務(wù)無關(guān)的行為時(shí)段，我們在剩余分析中僅分析了參與度超過 60% 的斑塊（S4C 圖）。

隨后，我們調(diào)查了環(huán)境參數(shù)對虛擬基于斑塊的覓食任務(wù)中任務(wù)相關(guān)停留時(shí)間的影響。在低隨機(jī)性環(huán)境中（N = 3 只小鼠，每只動(dòng)物 13.0 ± 2.2 次會話），聚類自助法分析顯示，獎(jiǎng)勵(lì)衰減速率（而非虛擬軌道長度）與任務(wù)相關(guān)停留時(shí)間顯著相關(guān)（圖 6E；衰減速率：（均值 [95% CI]），p(r > 0) > 0.9999；軌道長度：，）。在高隨機(jī)性環(huán)境中（N = 3 只小鼠，每只動(dòng)物 9.7 ± 2.5 次會話），兩個(gè)參數(shù)均與任務(wù)相關(guān)停留時(shí)間顯著相關(guān)（圖 6F；衰減速率：（均值 [95% CI]），；軌道長度：，p(r > 0) > 0.9999）。根據(jù)獎(jiǎng)勵(lì)衰減速率和平均任務(wù)相關(guān)行進(jìn)時(shí)間預(yù)測任務(wù)相關(guān)時(shí)間的線性混合模型與聚類自助法結(jié)果一致（見 S1 表中的表 B）。所有顯著參數(shù)的系數(shù)符號均與 MVT 一致；即，較慢的衰減速率或較長的行進(jìn)時(shí)間與較長的停留時(shí)間相關(guān)。因此，總體而言，平均行為在頭部固定的虛擬基于斑塊的覓食環(huán)境中反映了 MVT 的原則。這些結(jié)果表明，基于斑塊的覓食可以在頭部固定范式中實(shí)現(xiàn)。

覓食是自然界中典型的決策過程，因此必然驅(qū)動(dòng)了認(rèn)知過程的進(jìn)化。因此，覓食過程中利用的心理通路與自然界中存在的決策過程直接相關(guān) [4, 43, 44]。行為生態(tài)學(xué)和行為學(xué)的大量研究表明，覓食任務(wù)中充分的資源獲取可以通過多種策略 [6, 15, 16, 36–38, 45, 46] 或行為模型 [25, 38, 47–52] 來描述。此外，由于覓食的幾個(gè)組成部分（例如探索與利用之間的權(quán)衡）在精神疾病中會受到破壞 [13, 14]，覓食任務(wù)提供了一種潛在的跨物種工具，用于表征潛在的神經(jīng)病理學(xué)。相比之下，傳統(tǒng)實(shí)驗(yàn)室任務(wù)的設(shè)計(jì)旨在便于分析和解釋，只能間接揭示現(xiàn)實(shí)世界中的決策過程。重要的是，自然過程中固有的多層不確定性在傳統(tǒng)任務(wù)設(shè)計(jì)和行為模型中基本缺失。在此，我們利用來自新穎實(shí)驗(yàn)范式的大量行為數(shù)據(jù)，闡明了動(dòng)物在自然環(huán)境中行為的機(jī)制。我們的結(jié)果表明，動(dòng)物通過整合多時(shí)間尺度的信息來建模元不確定性。動(dòng)物并非僅依賴平均統(tǒng)計(jì)量或近期觀察結(jié)果，而是利用分層框架有效獲取資源，同時(shí)解析斑塊內(nèi)動(dòng)態(tài)不同分布內(nèi)部及之間的不確定性。

本研究建模的不確定性發(fā)生在兩個(gè)不同層面：斑塊耗竭速率的不確定性，源于環(huán)境參數(shù)的每日擾動(dòng)；以及在已知耗竭速率下獎(jiǎng)勵(lì)時(shí)機(jī)的不確定性，源于獎(jiǎng)勵(lì)生成過程的底層隨機(jī)性。這種"變異性的變異"被稱為"元變異性"（meta-variability），相關(guān)的認(rèn)知負(fù)荷被稱為"元不確定性"（meta-uncertainty）。為了在自然環(huán)境中應(yīng)對這一現(xiàn)象，當(dāng)動(dòng)物面臨偏離預(yù)期的情況時(shí)，必須判斷這是由于同一底層分布的變異性所致，還是代表環(huán)境參數(shù)發(fā)生了變化。盡管前者已被廣泛研究 [18, 53]，但關(guān)于處理元不確定性的內(nèi)在機(jī)制知之甚少。我們的實(shí)驗(yàn)設(shè)計(jì)獨(dú)特地在這些隨機(jī)環(huán)境中引入并建模了覓食決策，表明動(dòng)物可以構(gòu)建復(fù)雜模型，在具有挑戰(zhàn)性、波動(dòng)性的環(huán)境中做出明智決策。此外，動(dòng)物無需計(jì)算底層參數(shù)的精確貝葉斯估計(jì)，而是通過近期觀察結(jié)果不斷更新其模型，這種方法為理解不穩(wěn)定自然環(huán)境中的覓食行為提供了機(jī)制性見解 [54]。因此，我們的結(jié)果不僅表明動(dòng)物有能力在具有多層不確定性的環(huán)境中有效做出決策，而且它們還可以構(gòu)建極其高效的模型來在此類環(huán)境中執(zhí)行任務(wù)，這一發(fā)現(xiàn)對行為生態(tài)學(xué)和神經(jīng)科學(xué)的視角都具有重要意義。

元變異性在自然界中普遍存在，因此，不同學(xué)科以多種方式對其進(jìn)行了框架化。例如，在機(jī)器學(xué)習(xí)領(lǐng)域 [55]，元不確定性被理論化為由偶然不確定性（aleatoric uncertainty，與觀察結(jié)果相關(guān)）和認(rèn)知不確定性（epistemic uncertainty，與模型參數(shù)相關(guān)）組成。在本文提出的貝葉斯模型框架內(nèi)，這兩種不確定性分別與似然度（獎(jiǎng)勵(lì)時(shí)機(jī)）和后驗(yàn)分布（獎(jiǎng)勵(lì)衰減速率）直接相關(guān) [56]。在神經(jīng)科學(xué)界，元不確定性已在多種情境下得到研究，從封裝刺激變異性水平的神經(jīng)狀態(tài)波動(dòng) [57, 58]，到對決策信心的不確定性 [59]。更一般地，[60] 引入的相關(guān)范式區(qū)分了與本質(zhì)上隨機(jī)的觀察結(jié)果（或獎(jiǎng)勵(lì)）相關(guān)的預(yù)期不確定性，以及由底層過程參數(shù)變化引起的意外不確定性，這一概念通常與強(qiáng)化學(xué)習(xí)和探索/利用權(quán)衡相關(guān) [61–66]。研究表明，小鼠通過估計(jì)刺激的方差來學(xué)習(xí)處理預(yù)期不確定性 [67]，并且在較小程度上，通過編碼與預(yù)期分布的偏差來處理意外不確定性 [68–71]。然而，這些研究通常使用傳統(tǒng)的、基于試次的方法，即使在覓食情境下也是如此 [70]。此外，這些方法（如概率反轉(zhuǎn)學(xué)習(xí)）將動(dòng)物對意外不確定性的反應(yīng)建模為在兩個(gè)或多個(gè)獎(jiǎng)勵(lì)位點(diǎn)之間的偏好，而無需對底層參數(shù)進(jìn)行顯式推斷。相比之下，我們?nèi)蝿?wù)引入的元不確定性在連續(xù)時(shí)間（獎(jiǎng)勵(lì)時(shí)機(jī)的變異性）和連續(xù)任務(wù)空間（獎(jiǎng)勵(lì)衰減速率的變異性）中評估決策。我們的工作通過展示小鼠以自然形式（基于斑塊的覓食）處理元不確定性的能力，擴(kuò)展了先前關(guān)于小鼠不確定性的模型。因此，我們的結(jié)果促進(jìn)了對認(rèn)知能力庫及潛在神經(jīng)回路的研究，而這些在基于試次的任務(wù)中無法直接評估。

更廣泛地說，處理元變異性及元不確定性的行為策略及潛在神經(jīng)回路在很大程度上仍是未知的，并且正在被積極研究。動(dòng)物會尋求先前信息的指導(dǎo) [72]；即使面對矛盾證據(jù)也傾向于堅(jiān)持當(dāng)前選擇 [73–75]（也稱為堅(jiān)持性，或在覓食情況下，與過度采集相關(guān)）；并且有趣的是，做出的決策至少部分本質(zhì)上是隨機(jī)的 [76]。例如，盡管平均行為可能與經(jīng)過訓(xùn)練的、甚至是理想的貝葉斯觀察者相關(guān)，但個(gè)體決策仍保持著行為模型無法捕捉的顯著變異性水平 [76]，正如我們的結(jié)果所見。先前研究已觀察到覓食情境下的高行為變異性 [3]，相關(guān)的過度采集既可解釋為貝葉斯推斷的后果 [77]（特別是對于快速衰減的斑塊），也可解釋為對自身行為變異性的一種補(bǔ)償機(jī)制 [42]。在特定情況下，覓食者可能構(gòu)建隨機(jī)環(huán)境的多峰模型并相應(yīng)調(diào)整停留時(shí)間，從而產(chǎn)生行為變異性的另一個(gè)來源 [78–80]，盡管鑒于我們?nèi)蝿?wù)中獎(jiǎng)勵(lì)序列的隨機(jī)性，這種策略不太可能出現(xiàn)。同時(shí)，后驗(yàn)概率的利用是覓食決策的一個(gè)重要特征；盡管早期隨機(jī)環(huán)境的理論模型提出了一種啟發(fā)式策略 [15]，但我們的結(jié)果與近期提出貝葉斯方法的模型一致 [49]。這一策略很重要，因?yàn)樗茉炝巳藗冄芯繚撛谏窠?jīng)回路的方式。例如，先前的研究已通過積分至閾值機(jī)制證明了背側(cè)前扣帶回皮層（dACC）在斑塊離開決策中的重要性 [3]。雖然 dACC 的活動(dòng)在停留或離開決策期間短暫增加，但在持續(xù)決策過程中以及面對元不確定性時(shí)的編碼尚不清楚。此外，多巴胺、5-羥色胺或乙酰膽堿等神經(jīng)調(diào)節(jié)劑可能追蹤不同水平和類型的變異性 [51, 81–83]，或調(diào)節(jié)離開時(shí)間 [25]。我們在此提出的隨機(jī)覓食環(huán)境的行為和分析框架將有助于更好地映射神經(jīng)活動(dòng)與自然行為之間的關(guān)系。

我們的方法和結(jié)果指向了多個(gè)有前景的進(jìn)一步研究方向。盡管自由移動(dòng)任務(wù)分析中包含的斑塊遭遇數(shù)量很大（300 次會話中 14,060 個(gè)斑塊），但動(dòng)物數(shù)量（N = 8）不足以研究動(dòng)物間的行為差異。例如，個(gè)體小鼠對獎(jiǎng)勵(lì)變異性表現(xiàn)出不同的敏感性，這可能反映了學(xué)習(xí)率的連續(xù)譜，或完全不同策略的聚類。此外，未來的實(shí)驗(yàn)可以測試在自由移動(dòng)和虛擬斑塊覓食環(huán)境之間，行為的哪些方面以及潛在的神經(jīng)回路機(jī)制是共同或不同的。在兩項(xiàng)任務(wù)中，動(dòng)物也表現(xiàn)出相當(dāng)比例的與任務(wù)無關(guān)的行為，例如自由移動(dòng)任務(wù)中斑塊外的探索或梳理毛發(fā)，或頭部固定任務(wù)中的不活動(dòng)時(shí)段，這可能部分源于自然主義任務(wù)設(shè)計(jì)所賦予的行為自由度。特別是在自由移動(dòng)任務(wù)中，探索表現(xiàn)為直立、嗅探或試圖攀爬實(shí)驗(yàn)裝置的墻壁；更審慎的行為，如意念改變或頭部轉(zhuǎn)動(dòng)，則在鼻尖探測期間以較短時(shí)間尺度呈現(xiàn)。盡管本研究在分析中排除了這一層行為噪聲，但未來的工作可以利用更復(fù)雜的數(shù)據(jù)，如分別跟蹤動(dòng)物運(yùn)動(dòng)和瞳孔尺寸的視頻，來構(gòu)建更全面的行為模型，包括覓食和非覓食狀態(tài) [41]。最后，由于動(dòng)物經(jīng)歷了長期的訓(xùn)練期，且環(huán)境參數(shù)在數(shù)天內(nèi)順序修改，任務(wù)學(xué)習(xí)難以研究。此外，由于實(shí)驗(yàn)方案，同一動(dòng)物用于研究感興趣參數(shù)（例如，在給定軌道上與）的可比會話在某些情況下相隔數(shù)天。未來使用會話內(nèi)環(huán)境參數(shù)切換（確定性或隨機(jī)性）的工作將進(jìn)一步闡明行為適應(yīng)環(huán)境擾動(dòng)的時(shí)間進(jìn)程。

許多認(rèn)知研究采用自上而下的方法，即實(shí)驗(yàn)設(shè)計(jì)旨在測試特定的認(rèn)知功能。這不僅導(dǎo)致了非自然任務(wù)的設(shè)計(jì)，還預(yù)設(shè)了源自人類心理學(xué)的心理過程適用于所研究的動(dòng)物物種。在這兩種情況下，結(jié)果可能難以解釋甚至具有誤導(dǎo)性。我們反而采用自下而上的方法，通過從自然原則構(gòu)建任務(wù)，允許動(dòng)物自由執(zhí)行任務(wù)，并跟隨其行為生成解釋性模型。當(dāng)然，沒有任何實(shí)驗(yàn)室任務(wù)能完美復(fù)制原生環(huán)境，必須在數(shù)據(jù)采集（包括神經(jīng)數(shù)據(jù)）和行為自由度之間做出權(quán)衡。然而，越來越達(dá)成的共識是，實(shí)驗(yàn)室任務(wù)在模仿大腦進(jìn)化所適應(yīng)的世界時(shí)將產(chǎn)生最佳結(jié)果，這一觀點(diǎn)對于基于斑塊的覓食尤其如此 [4, 5]。此外，本研究概述的行為范式和分析方法為研究決策過程的進(jìn)一步方面（如情境信息或連續(xù)模型 [84, 85]）提供了框架。通過調(diào)用原生行為并呈現(xiàn)自然主義的不確定性，基于斑塊的覓食任務(wù)為研究基本決策過程提供了無數(shù)機(jī)會。

原文鏈接：https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1012989

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.