国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

覓食動(dòng)物通過動(dòng)態(tài)貝葉斯更新建模環(huán)境表征的元不確定性

0
分享至

Foraging animals use dynamic Bayesian updating to model meta-uncertainty in environment representations

覓食動(dòng)物通過動(dòng)態(tài)貝葉斯更新建模環(huán)境表征的元不確定性

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1012989


摘要

覓食理論在許多背景下預(yù)測動(dòng)物行為。在基于斑塊的覓食行為中,邊際值定理(MVT)為參數(shù)對覓食者完全已知的確定性環(huán)境提供了最優(yōu)策略。在自然環(huán)境中,環(huán)境參數(shù)表現(xiàn)出變異性,且動(dòng)物僅能基于其經(jīng)驗(yàn)部分知曉,從而產(chǎn)生不確定性。覓食中的不確定性模型已得到充分確立。然而,自然環(huán)境的統(tǒng)計(jì)特性也表現(xiàn)出不可預(yù)測的變化。因此,動(dòng)物必須確定當(dāng)前觀察到的環(huán)境質(zhì)量是否與其內(nèi)部模型一致,或者是否發(fā)生了變化,從而產(chǎn)生元不確定性。在元不確定性下優(yōu)化覓食行為的行為策略及其神經(jīng)基礎(chǔ),目前很大程度上是未知的。在此,我們開發(fā)了一種新穎的行為任務(wù)和計(jì)算框架,用于研究元不確定性條件下頭部固定和自由運(yùn)動(dòng)小鼠的離開斑塊決策。我們隨機(jī)改變了斑塊間的旅行時(shí)間,以及斑塊內(nèi)的獎(jiǎng)勵(lì)消耗率。我們發(fā)現(xiàn),當(dāng)不確定性最小時(shí),小鼠采取的斑塊停留時(shí)間與 MVT 一致,且無法用簡單的基于行為學(xué)的啟發(fā)式策略來解釋。然而,高度可變環(huán)境中的行為通過對環(huán)境參數(shù)中的一階和二階不確定性進(jìn)行建模得到了最好的解釋,其中局部變異性和全局統(tǒng)計(jì)分別由貝葉斯估計(jì)器和動(dòng)態(tài)先驗(yàn)所捕捉。因此,小鼠通過采用分層貝葉斯策略在元不確定性下覓食,這對于在波動(dòng)環(huán)境中高效覓食至關(guān)重要。這些結(jié)果為理解表現(xiàn)出自然化元不確定性的決策的神經(jīng)基礎(chǔ)提供了基礎(chǔ)。

作者摘要

理解動(dòng)物如何做出決策的行為生態(tài)學(xué)方法,是使用它們在自然環(huán)境中經(jīng)常面臨的任務(wù)。其中一項(xiàng)典型任務(wù),在行為生態(tài)學(xué)中規(guī)范地稱為基于斑塊的覓食,涉及從隨時(shí)間消耗的空間分離區(qū)域(稱為"斑塊")中獲取資源。在進(jìn)行斑塊覓食時(shí),動(dòng)物必須決定何時(shí)離開當(dāng)前斑塊以尋找新的、已補(bǔ)充的斑塊。邊際值定理(MVT)描述了當(dāng)環(huán)境統(tǒng)計(jì)特性穩(wěn)定且為動(dòng)物所知時(shí)的最優(yōu)行為策略。然而,自然化情境通常充滿噪聲且不確定,這限制了 MVT 的適用性。在此,為理解實(shí)驗(yàn)室小鼠如何做出與行為生態(tài)學(xué)相關(guān)的決策,我們在物理或虛擬的基于斑塊的覓食環(huán)境中實(shí)施了一項(xiàng)斑塊覓食任務(wù)。該任務(wù)納入了斑塊豐度的不確定性、斑塊間距離的不確定性,以及重要的是,斑塊內(nèi)獎(jiǎng)勵(lì)時(shí)機(jī)的隨機(jī)性。當(dāng)獎(jiǎng)勵(lì)時(shí)機(jī)的隨機(jī)性較低時(shí),動(dòng)物的行為與 MVT 一致。然而,當(dāng)獎(jiǎng)勵(lì)時(shí)機(jī)的隨機(jī)性較高時(shí),小鼠會動(dòng)態(tài)地權(quán)衡平均統(tǒng)計(jì)特性與近期觀測結(jié)果,這一過程由貝葉斯估計(jì)器所捕捉。因此,我們的研究結(jié)果為探討大腦在面對多層級不確定性時(shí)如何解決任務(wù)奠定了基礎(chǔ)。


引言

在覓食時(shí),最優(yōu)策略應(yīng)最大化獎(jiǎng)勵(lì)率(單位時(shí)間內(nèi)的獎(jiǎng)勵(lì))[1]。在研究最充分的一類覓食決策中,資源斑塊內(nèi)的動(dòng)物需要決定何時(shí)放棄正在耗盡的斑塊,并付出代價(jià)(通常以移動(dòng)時(shí)間的形式)轉(zhuǎn)移到更新、更豐富的斑塊 [1–3]。人們越來越有興趣將覓食行為作為理解正常和異常決策的潛在途徑,并且在動(dòng)物中,作為理解決策神經(jīng)回路基礎(chǔ)的機(jī)制性理解工具 [4, 5]。這種興趣反映在動(dòng)物行為學(xué)和行為生態(tài)學(xué)的大量研究中 [6–12]。此外,偏離最優(yōu)覓食可作為學(xué)習(xí)缺陷和精神疾病的診斷指標(biāo) [13, 14]。

當(dāng)環(huán)境參數(shù)完全為覓食者所知時(shí),最優(yōu)行為由邊際值定理(MVT)支配,該定理表明,當(dāng)邊際獎(jiǎng)勵(lì)下降至與環(huán)境平均水平相匹配時(shí),離開時(shí)機(jī)可最大化獎(jiǎng)勵(lì)率。然而,MVT 做出了相當(dāng)嚴(yán)格且不切實(shí)際的假設(shè),即環(huán)境統(tǒng)計(jì)量是平穩(wěn)的,且覓食者擁有這些統(tǒng)計(jì)量的完美內(nèi)部模型。如果覓食者沒有良好的環(huán)境模型,他們面臨的每個(gè)結(jié)果都構(gòu)成挑戰(zhàn)。該結(jié)果是符合還是偏離他們的內(nèi)部模型?這一挑戰(zhàn)源于對環(huán)境的不確定性,這種不確定性源于環(huán)境的隨機(jī)性,以及關(guān)于這些環(huán)境統(tǒng)計(jì)量是否發(fā)生變化的嵌套元不確定性。例如,考慮在樹下或超市遇到的蘋果。如果那個(gè)蘋果顏色異?;蛱鸲鹊陀谄骄?,覓食者必須決定它是優(yōu)質(zhì)蘋果正常變異性的一部分,還是他們應(yīng)該轉(zhuǎn)移到一棵新樹或商店。由于這種元不確定性,決策者必須不斷評估他們遇到的變異性是反映已知環(huán)境統(tǒng)計(jì)量中的隨機(jī)性,還是這些統(tǒng)計(jì)量的變化。這兩種形式的變異性都符合自然情況,正如生態(tài)學(xué)文獻(xiàn)所證明的那樣 [15–18],因此應(yīng)在策略中予以考慮。

作為自然覓食者,嚙齒動(dòng)物在其原生環(huán)境中經(jīng)常遇到此類元決策,需要同時(shí)解析經(jīng)濟(jì)因素和風(fēng)險(xiǎn)(例如捕食),以及它們在多個(gè)時(shí)間尺度上的變異性 [19–22]。鑒于它們對這類任務(wù)的偏好,以及嚙齒動(dòng)物在系統(tǒng)神經(jīng)科學(xué)中的廣泛使用,最近的實(shí)驗(yàn)室研究利用覓食構(gòu)建來探索行為策略及其潛在的神經(jīng)生理機(jī)制 [23–30]。然而,在實(shí)驗(yàn)環(huán)境中復(fù)制自然覓食的動(dòng)態(tài)是困難的。在斑塊內(nèi),獎(jiǎng)勵(lì)遭遇應(yīng)包含一定水平的變異性,同時(shí)也表現(xiàn)出足夠的穩(wěn)定性,嚙齒動(dòng)物可據(jù)此做出斑塊離開決策。此外,遭遇中包含的環(huán)境信息應(yīng)該是動(dòng)物可感知的,并導(dǎo)致可解釋的結(jié)果。在復(fù)制挖掘嚙齒動(dòng)物先天認(rèn)知能力所需的自然特性,與創(chuàng)建可輕松獲取、分析和解釋有意義行為和/或神經(jīng)生理數(shù)據(jù)的實(shí)驗(yàn)構(gòu)建之間取得平衡,給實(shí)驗(yàn)者造成了困境 [31]。特別是,元不確定性尚未在實(shí)驗(yàn)室覓食行為模型中得到考慮。

在此,我們在自由移動(dòng)和頭部固定的小鼠中實(shí)施了一種基于斑塊的覓食任務(wù),捕捉了幾個(gè)關(guān)鍵的接近自然的特性,包括元不確定性。小鼠在物理或虛擬軌道上的獎(jiǎng)勵(lì)端口之間奔跑,并以隨時(shí)間在斑塊內(nèi)衰減的速率接收液體獎(jiǎng)勵(lì)。斑塊位置和豐富度用聲學(xué)線索指示。在斑塊內(nèi)的任何時(shí)刻,小鼠都可以離開并前往下一個(gè)斑塊,后者被補(bǔ)充到其初始獎(jiǎng)勵(lì)率。關(guān)鍵在于,我們在耗盡過程中引入了隨機(jī)性,因此獎(jiǎng)勵(lì)遭遇序列包含信息性和隨機(jī)性元素,使小鼠面臨解析獎(jiǎng)勵(lì)時(shí)機(jī)偏差是反映環(huán)境參數(shù)中的隨機(jī)性還是他們對環(huán)境的不確定性的需求。我們的結(jié)果表明,與簡單啟發(fā)式或標(biāo)準(zhǔn) MVT 模型相比,通過貝葉斯估計(jì)器將結(jié)果變異性與環(huán)境穩(wěn)定性分離開的分層模型更好地解釋了行為。因此,我們的研究闡明了小鼠如何通過計(jì)算行為策略適應(yīng)其自然環(huán)境中普遍存在的現(xiàn)象——元不確定性——強(qiáng)調(diào)了決策中以前未知的一層復(fù)雜性,該復(fù)雜性支持在環(huán)境波動(dòng)存在下的穩(wěn)健行為。

結(jié)果

自由移動(dòng)小鼠中基于斑塊的覓食任務(wù)

為了在實(shí)驗(yàn)室中研究不確定性條件下的基于斑塊的覓食行為,我們開發(fā)了一種自由移動(dòng)的小鼠實(shí)驗(yàn)裝置。我們構(gòu)建了一個(gè)線性軌道系統(tǒng),類似于通常用于研究導(dǎo)航過程中海馬功能的裝置 [32, 33]。經(jīng)過兩步訓(xùn)練方案以熟悉實(shí)驗(yàn)設(shè)置后(見材料與方法),小鼠成功完成了自由移動(dòng)的基于斑塊的覓食任務(wù)。

該任務(wù)包括在線性軌道兩端之間來回奔跑,軌道兩端的獎(jiǎng)勵(lì)端口提供隨機(jī)耗盡的糖水資源,并配有指示獎(jiǎng)勵(lì)可用性的聲學(xué)線索(圖 1A,右上)。在每次任務(wù)會話開始時(shí),將小鼠放置在線性軌道的中心。當(dāng)小鼠導(dǎo)航至兩個(gè)獎(jiǎng)勵(lì)端口中的任意一個(gè)時(shí),獎(jiǎng)勵(lì)端口附近的揚(yáng)聲器會持續(xù)播放音調(diào)云,指示獎(jiǎng)勵(lì)可用(圖 1A,左下)。當(dāng)小鼠在獎(jiǎng)勵(lì)端口內(nèi)進(jìn)行鼻尖探測時(shí),可以舔舐噴口獲取液體獎(jiǎng)勵(lì)。我們將這種鼻尖探測舔舐行為稱為"采集"(harvesting),這與行為生態(tài)學(xué)文獻(xiàn)中的用法一致 [1]。獎(jiǎng)勵(lì)可用性遵循非齊次伽馬過程(IGP;也稱為修正的非齊次泊松過程),其泊松速率呈指數(shù)衰減(圖 1B,左下)。在獎(jiǎng)勵(lì)可用時(shí)播放的純音提供了關(guān)于獎(jiǎng)勵(lì)時(shí)機(jī)的信息,該信息獨(dú)立于舔舐行為。由于 IGP 的底層速率隨時(shí)間呈指數(shù)衰減,隨著動(dòng)物停留在斑塊內(nèi),獎(jiǎng)勵(lì)可用性變得越來越稀少,從而模擬了行為生態(tài)學(xué)中經(jīng)典的斑塊耗盡過程 [1]。獎(jiǎng)勵(lì)動(dòng)態(tài)中的隨機(jī)性水平在三個(gè)等級之間變化,并使用獎(jiǎng)勵(lì)隨機(jī)性指數(shù)(RSI)進(jìn)行量化,該指數(shù)定義為隱藏事件體積與可觀察獎(jiǎng)勵(lì)體積的比率(見材料與方法)。較大的 RSI 值對應(yīng)于獎(jiǎng)勵(lì)時(shí)機(jī)的更大方差,且獨(dú)立于衰減速率。


當(dāng)小鼠在獎(jiǎng)勵(lì)端口進(jìn)行鼻尖探測(nose-poke)時(shí),它們可以通過停止探測(un-poking)來終止采集,此時(shí)音調(diào)云(tone-cloud)刺激停止播放,以指示該端口處于非活動(dòng)狀態(tài)。停止探測會立即觸發(fā)聲學(xué)粉紅噪聲從對面端口附近的揚(yáng)聲器播放,提示小鼠該端口有獎(jiǎng)勵(lì)可用。當(dāng)小鼠行進(jìn)并探測對面端口時(shí),聽覺線索切換為音調(diào)云,小鼠可以像之前一樣從耗盡的非齊次伽馬過程(IGP)中接收獎(jiǎng)勵(lì)。行進(jìn)距離,以及由此產(chǎn)生的因在端口間行進(jìn)而損失時(shí)間所帶來的機(jī)會成本,通過使用兩條不同長度的軌道進(jìn)行了系統(tǒng)且明確的改變(圖 1B,右上)。每次行為會話使用一組固定的環(huán)境參數(shù)。

小鼠根據(jù)環(huán)境統(tǒng)計(jì)量的每日擾動(dòng)調(diào)整其行為

一組小鼠(N=8 只,每只動(dòng)物 27.6 ± 1.1 次會話)在低隨機(jī)性水平下進(jìn)行了基于斑塊的覓食任務(wù)。對于每次會話(每天一次),獎(jiǎng)勵(lì)衰減速率具有四個(gè)值之一(τ;3、6、12 或 24 秒;圖 1B,左下),并使用兩種軌道長度之一(1 米或 4 米;圖 1B,右上)。在各種環(huán)境中,小鼠學(xué)會了在獎(jiǎng)勵(lì)端口之間交替并舔舐以獲取獎(jiǎng)勵(lì)(圖 1C),每次會話遇到大量斑塊(正態(tài)分布;μ = 45.58, σ = 22.68),并且在斑塊內(nèi)停留的時(shí)間(即鼻尖探測持續(xù)時(shí)間)范圍很廣(對數(shù)正態(tài)分布;μlog10 = 0.91, σlog10 = 0.29),這被稱為斑塊停留時(shí)間(patch-residence time)[1]。

我們將停留時(shí)間定義為從進(jìn)入獎(jiǎng)勵(lì)端口(通過探測)到離開(通過停止探測)的時(shí)間,將非采集時(shí)間定義為從離開一個(gè)獎(jiǎng)勵(lì)端口到進(jìn)入下一個(gè)活動(dòng)獎(jiǎng)勵(lì)端口之間的時(shí)間。因?yàn)閯?dòng)物也表現(xiàn)出非覓食行為,例如探索或梳理毛發(fā),我們將任務(wù)相關(guān)的非采集時(shí)間(稱為“行進(jìn)時(shí)間”)估算為每只動(dòng)物在每種軌道類型上所有斑塊間持續(xù)時(shí)間的第十百分位數(shù),盡管結(jié)果在廣泛的百分位數(shù)值范圍內(nèi)都很穩(wěn)?。⊿7 圖)。完整的非采集時(shí)間(圖 2A)和任務(wù)相關(guān)的行進(jìn)時(shí)間估算(圖 2B)都表明,軌道長度影響了在獎(jiǎng)勵(lì)端口之間行進(jìn)的時(shí)間成本。為了理解獎(jiǎng)勵(lì)耗盡率和行進(jìn)時(shí)間對采集行為的綜合影響,我們使用聚類自助法設(shè)計(jì)(cluster bootstrap design)(S5 圖;見方法)測試了它們對停留時(shí)間的影響。我們發(fā)現(xiàn)這兩個(gè)參數(shù)都影響了停留時(shí)間,并且行為適應(yīng)的方向與邊際值定理(MVT)一致(圖 2C;衰減速率:r = 0.50 [0.46, 0.55](均值 [95% CI]),p(r>0)>0.9999;軌道長度:r = 0.10 [0.05, 0.16],p(r>0)>0.9999)。



我們注意到,斑塊停留時(shí)間在單次會話過程中逐漸減少,這種任務(wù)時(shí)長效應(yīng)可能源于疲勞或飽腹感 [34, 35]。我們還注意到,動(dòng)物之間的總體停留時(shí)間存在顯著變異性。為了在單一模型中量化實(shí)驗(yàn)操控因素(衰減速率、行進(jìn)距離)和這些混淆因素(任務(wù)時(shí)長和個(gè)體特異性偏差)如何共同影響行為,我們對該數(shù)據(jù)集擬合了一個(gè)線性混合模型(LMM)。我們將獎(jiǎng)勵(lì)衰減速率、任務(wù)相關(guān)的行進(jìn)時(shí)間以及任務(wù)時(shí)長設(shè)為固定效應(yīng),將動(dòng)物個(gè)體身份設(shè)為隨機(jī)效應(yīng)。在低隨機(jī)性環(huán)境中,衰減速率和行進(jìn)時(shí)間的影響高度顯著,且與邊際值定理(MVT)一致;較慢的衰減速率和較長的行進(jìn)時(shí)間與更長的停留時(shí)間相關(guān)(見 S1 表中的表 A)。

基于 MVT 的模型在解釋行為方面優(yōu)于簡單啟發(fā)式策略

盡管基于斑塊的覓食規(guī)范性模型由邊際值定理(MVT)支配,且上述分析表明我們的小鼠結(jié)果與 MVT 的主要預(yù)測一致,但動(dòng)物通常通過應(yīng)用簡單的啟發(fā)式?jīng)Q策策略來解決任務(wù) [16, 36–38]。使用簡單啟發(fā)式策略可能在滿足生存所需足夠獎(jiǎng)勵(lì)率的同時(shí)降低認(rèn)知需求。另一方面,使用基于 MVT 的模型將最大化獎(jiǎng)勵(lì)率 [6, 39]。因此,在轉(zhuǎn)向更復(fù)雜的模型(包括與獎(jiǎng)勵(lì)隨機(jī)性相關(guān)的模型)之前,我們通過擬合動(dòng)物停留時(shí)間的預(yù)測模型,評估小鼠在覓食行為中采取的策略是否遵循一種近似于基于 MVT 行為的簡單啟發(fā)式規(guī)則。

我們確定了小鼠可能采用的三種"局部"(斑塊內(nèi))啟發(fā)式規(guī)則。即,動(dòng)物可能在以下情況下離開斑塊:(1) 自進(jìn)入斑塊后經(jīng)過固定時(shí)長 [啟發(fā)式,恒定時(shí)間;HEU-CT],(2) 在遇到固定數(shù)量的獎(jiǎng)勵(lì)后 [啟發(fā)式,獎(jiǎng)勵(lì)數(shù)量;HEU-NR],或 (3) 自上一次獎(jiǎng)勵(lì)后經(jīng)過固定時(shí)長 [啟發(fā)式,自獎(jiǎng)勵(lì)起經(jīng)過的時(shí)間;HEU-ETR]。對于每只動(dòng)物,我們使用每個(gè)相關(guān)指標(biāo)的平均值(即每個(gè)斑塊的平均時(shí)長、獎(jiǎng)勵(lì)數(shù)量,或最后一次獎(jiǎng)勵(lì)與離開斑塊之間的延遲)來預(yù)測每個(gè)斑塊中的停留時(shí)間(圖 3A–3B)。我們首先將這些模型應(yīng)用于低隨機(jī)性條件。


我們將啟發(fā)式模型的結(jié)果與兩種基于 MVT 的模型進(jìn)行了比較(圖 3C)。在第一個(gè) MVT 模型中,我們利用對底層參數(shù)的了解,通過優(yōu)化整體獎(jiǎng)勵(lì)率來預(yù)測每個(gè)環(huán)境下的停留時(shí)間,這等同于經(jīng)典覓食理論中的最優(yōu)停留時(shí)間(MVT,最優(yōu);MVT-OPT)。由于動(dòng)物可能會產(chǎn)生穩(wěn)定但不準(zhǔn)確的任務(wù)參數(shù)內(nèi)部估計(jì),在第二個(gè) MVT 模型中,每只動(dòng)物的預(yù)測停留時(shí)間遵循 MVT,但使用的是針對每個(gè)環(huán)境固定的、環(huán)境特異性的參數(shù)估計(jì)值,這些估計(jì)值未必正確(MVT,基于內(nèi)部模型;MVT-IM)。該模型假設(shè)動(dòng)物試圖根據(jù)反映其感知到的或內(nèi)部估計(jì)的每個(gè)環(huán)境的獎(jiǎng)勵(lì)衰減速率和行進(jìn)時(shí)間的模型參數(shù),遵循 MVT 來最大化其整體采集率。在此過程中,MVT-OPT 方程中的環(huán)境參數(shù)被替換為那些能最好地預(yù)測實(shí)證停留時(shí)間的數(shù)值(S6 圖)。

在比較啟發(fā)式模型和 MVT 模型時(shí),我們使用固定時(shí)長啟發(fā)式模型(HEU-CT)作為零假設(shè)。另外兩個(gè)啟發(fā)式模型與觀察到的數(shù)據(jù)擬合不佳,無論是在定性上還是定量上。HEU-NR 模型預(yù)測的斑塊停留時(shí)間對衰減速率的依賴趨勢與數(shù)據(jù)中觀察到的趨勢相反(圖 3D,芥末黃)。HEU-ETR 數(shù)據(jù)低估了快速獎(jiǎng)勵(lì)衰減速率下的停留時(shí)間,并且由于其構(gòu)建方式,無法捕捉軌道長度的影響(圖 3D,橙色)。MVT-OPT 模型在定性上捕捉到了軌道長度和獎(jiǎng)勵(lì)衰減的影響,但像 HEU-ETR 一樣,低估了快速衰減速率下的斑塊停留時(shí)間(圖 3E,青色)。相對于根據(jù) MVT 計(jì)算的最優(yōu)時(shí)間,動(dòng)物在斑塊中停留時(shí)間過長,或者說出現(xiàn)了過度采集(overharvesting),特別是在衰減速率較快的環(huán)境中(圖 3E),正如之前所觀察到的那樣 [41, 42]。MVT-IM 很好地捕捉了數(shù)據(jù),沒有系統(tǒng)性誤差(圖 3E,綠色),包括解釋了快速衰減速率環(huán)境中的過度采集現(xiàn)象。因此,動(dòng)物適應(yīng)環(huán)境擾動(dòng)的方式與 MVT 一致,但仿佛它們低估了斑塊獎(jiǎng)勵(lì)衰減速率(圖 3F 和 S6;均方根預(yù)測誤差 (RMSE) [95% CI]:HEU-CT, 4.88 [4.75, 5.01]; HEU-ETR, 5.86 [5.75, 5.97]; HEU-NR, 6.57 [6.42, 6.71]; MVT-OPT, 4.90 [4.80, 5.00]; MVT-IM, 4.10 [4.00, 4.20])。

局部獎(jiǎng)勵(lì)序列動(dòng)態(tài)影響斑塊離開決策

小鼠在每次會話中表現(xiàn)出顯著的斑塊離開時(shí)間變異性。我們假設(shè)這種會話內(nèi)的行為變異性可能源于兩種不確定性來源:(1) 動(dòng)物不知道每日的斑塊衰減參數(shù),以及 (2) 獎(jiǎng)勵(lì)可用性存在斑塊間的隨機(jī)性。因此,我們要確定近期的獎(jiǎng)勵(lì)統(tǒng)計(jì)數(shù)據(jù)是否影響它們的選擇。為此,我們實(shí)施了一個(gè)貝葉斯模型,利用對底層泊松過程的了解,根據(jù)一組觀察到的獎(jiǎng)勵(lì)時(shí)間生成當(dāng)前獎(jiǎng)勵(lì)率的最大似然估計(jì)(MLE)。我們將模型輸入限制在當(dāng)前斑塊的獎(jiǎng)勵(lì)時(shí)間,并計(jì)算了離開斑塊時(shí)的 MLE 和真實(shí)泊松獎(jiǎng)勵(lì)率。隨后,我們將離開斑塊時(shí)貝葉斯模型估計(jì)的誤差與當(dāng)前停留時(shí)間相對于給定會話中所有停留時(shí)間平均值的偏差進(jìn)行了比較。

如果動(dòng)物像 MVT 提出的那樣追蹤即時(shí)獎(jiǎng)勵(lì)率來決定離開時(shí)間,那么高估獎(jiǎng)勵(lì)率會導(dǎo)致更長的停留時(shí)間(圖 4A,左),反之亦然(圖 4A,右)。線性回歸顯示,在低隨機(jī)性環(huán)境中,貝葉斯比率估計(jì)誤差與停留時(shí)間相對于平均值的偏差之間存在顯著的正相關(guān)(圖 4B;觀測值:r = 0.52 ± 0.01,五次交叉驗(yàn)證子集間的均值 ± 標(biāo)準(zhǔn)差;R2 = 0.27 ± 0.01;打亂后:r = 0.18 ± 0.01,R2 = 0.032 ± 0.002)。因此,即使獎(jiǎng)勵(lì)隨機(jī)性很低,動(dòng)物的離開時(shí)間也受到局部(當(dāng)前斑塊)獎(jiǎng)勵(lì)序列信息的影響。



動(dòng)物在高度隨機(jī)環(huán)境中利用局部和全局信息

接下來,我們測試了在低隨機(jī)性環(huán)境中觀察到的行為策略是否延伸至更高隨機(jī)性的環(huán)境中。我們讓之前以 RSI=0.05 完成自由移動(dòng)覓食任務(wù)的動(dòng)物在同一任務(wù)中運(yùn)行,但增加了獎(jiǎng)勵(lì)時(shí)機(jī)的變異性(RSI ∈ [1.0, 2.0];N=8 只小鼠,每只動(dòng)物 10 ± 1 次會話)。任務(wù)的結(jié)構(gòu)使得平均獎(jiǎng)勵(lì)動(dòng)態(tài)保持不變,但斑塊遭遇間獎(jiǎng)勵(lì)時(shí)機(jī)的方差顯著增加(圖 1E–1F)。

在高隨機(jī)性環(huán)境中,小鼠仍然根據(jù) MVT 隨衰減速率和軌道長度調(diào)整停留時(shí)間(圖 2D)。聚類自助法分析顯示這些變化具有統(tǒng)計(jì)學(xué)顯著性(衰減速率:r = 0.50 [0.46, 0.55](均值 [95% CI]),p(r>0)>0.9999;軌道長度:r = 0.10 [0.01, 0.18],p(r > 0) = 0.985)。為了進(jìn)一步測試行為適應(yīng)性,如上所述,我們使用與擬合低隨機(jī)性數(shù)據(jù)相同的解釋變量,用線性混合模型(LMM)擬合了高隨機(jī)性環(huán)境中的行為數(shù)據(jù)。該模型顯示,對于衰減速率和軌道長度的操控,停留時(shí)間均出現(xiàn)了符合 MVT 預(yù)期方向的顯著適應(yīng)性(見 S1 表中的表 A)。

隨后,我們通過將相同的局部啟發(fā)式和基于 MVT 的模型擬合到高隨機(jī)性環(huán)境中的停留時(shí)間來評估行為策略(圖 5B–5C,左)。值得注意的是,基于平均獎(jiǎng)勵(lì)動(dòng)態(tài)的模型,包括所有局部啟發(fā)式和 MVT 模型,做出的預(yù)測不依賴于 RSI,因此預(yù)測的停留時(shí)間與低隨機(jī)性環(huán)境中的相似。與低隨機(jī)性環(huán)境一致,基于觀察到的獎(jiǎng)勵(lì)數(shù)量(HEU-NR)和感知到的 MVT 參數(shù)(MVT-IM)的模型分別是表現(xiàn)最差和最好的(RMSE [95% CI]:HEU-CT, 4.92 [4.72, 5.12]; HEU-ETR, 4.67 [4.48, 4.92]; HEU-NR, 7.03 [6.82, 7.24]; MVT-OPT, 4.85 [4.67, 5.05]; MVT-IM, 3.98 [3.81, 4.16]),這表明動(dòng)物有效地從隨機(jī)觀察中提取了平均動(dòng)態(tài)。然而,與低隨機(jī)性環(huán)境相反,在高隨機(jī)性中,未觀察到獎(jiǎng)勵(lì)的經(jīng)過時(shí)間啟發(fā)式模型(HEU-ETR)部分解釋了停留時(shí)間的方差,暗示當(dāng)獎(jiǎng)勵(lì)時(shí)機(jī)更多變時(shí),動(dòng)物默認(rèn)追蹤這一簡單指標(biāo)。盡管如此,盡管獎(jiǎng)勵(lì)序列更不可預(yù)測,動(dòng)物仍表現(xiàn)出與 MVT 一致的行為適應(yīng)性。


接下來,我們利用這些會話進(jìn)一步探索動(dòng)物是否在對獎(jiǎng)勵(lì)參數(shù)進(jìn)行連續(xù)、動(dòng)態(tài)的估計(jì),正如低隨機(jī)性環(huán)境會話的模型所指示的那樣(圖 4B)。與之前一樣,我們利用當(dāng)前的獎(jiǎng)勵(lì)序列計(jì)算了離開斑塊時(shí)的泊松速率的最大似然估計(jì)(MLE),并將其與相對于會話平均值的停留時(shí)間變化進(jìn)行了比較(圖 4C)。相關(guān)性既為正又顯著(RSI ∈ [0.5, 1.0];觀測值:r = 0.49 ± 0.02(五折交叉驗(yàn)證子集間的均值 ± 標(biāo)準(zhǔn)差),R2=0.24 ± 0.02;打亂后:r=0.06 ± 0.01,R2=0.004 ± 0.001;見 S2 圖),這與小鼠利用近期獎(jiǎng)勵(lì)歷史來修正全局斑塊離開決策的假設(shè)一致。有趣的是,雖然正如預(yù)期的那樣,估計(jì)誤差的方差隨著 RSI 的增加而增加,但停留時(shí)間的方差保持不變(見圖 4C 中的邊緣分布)。因此,增加斑塊內(nèi)獎(jiǎng)勵(lì)動(dòng)態(tài)的隨機(jī)性并沒有影響整體的會話內(nèi)行為變異性,而是將這種決策變異性與獎(jiǎng)勵(lì)序列變寬的分布耦合在了一起。

動(dòng)物利用近期觀察結(jié)果更新其對環(huán)境變量的估計(jì)

接下來,我們探索了當(dāng)前斑塊的表現(xiàn)如何受到近期斑塊歷史的影響。我們遵循與上述相同的程序,比較離開斑塊時(shí)估計(jì)的獎(jiǎng)勵(lì)率誤差與停留時(shí)間的變化,不同之處在于泊松速率的最大似然估計(jì)(MLE)除了包含當(dāng)前斑塊的序列外,還納入了來自先前斑塊的獎(jiǎng)勵(lì)序列(圖 4D)。值得注意的是,與停留時(shí)間的局部適應(yīng)性之間的相關(guān)性與用于估計(jì)獎(jiǎng)勵(lì)率的近期歷史程度呈負(fù)相關(guān),這表明斑塊離開決策的大幅變化源于最近觀察到的獎(jiǎng)勵(lì)序列的時(shí)機(jī)(圖 4E)。

雖然這些發(fā)現(xiàn)證明了估計(jì)獎(jiǎng)勵(lì)率與停留時(shí)間適應(yīng)性之間的關(guān)系,但它們并未根據(jù)估計(jì)的速率生成停留時(shí)間的實(shí)際預(yù)測。為此,我們構(gòu)建了一個(gè)斑塊停留時(shí)間的預(yù)測模型,該模型利用獎(jiǎng)勵(lì)率的 MLE 作為輸入。與 MVT 一致,該模型假設(shè)當(dāng)即時(shí)獎(jiǎng)勵(lì)率低于給定模型時(shí)動(dòng)物會離開斑塊。然而,新模型利用的是估計(jì)的(而非固定的)獎(jiǎng)勵(lì)率(MLE-x,其中 x 代表納入泊松速率似然估計(jì)的近期斑塊數(shù)量)。與圖 4E 中一樣,使用給定程度的斑塊歷史計(jì)算每個(gè)斑塊的泊松速率 MLE。獎(jiǎng)勵(lì)率閾值對應(yīng)于 MVT-IM 模型中離開斑塊時(shí)的獎(jiǎng)勵(lì)率。與停留時(shí)間的局部適應(yīng)性相反,模型預(yù)測誤差隨著斑塊歷史范圍的增加而減小,并漸近地接近 MVT-IM 模型的準(zhǔn)確性(圖 S3A 和 5C)。

因此,捕捉不同時(shí)間尺度的變異性導(dǎo)致了關(guān)于斑塊離開決策中納入的斑塊歷史程度的表面上相互矛盾的建議。停留時(shí)間的斑塊間變異性最好由最近的觀察結(jié)果解釋,而整個(gè)會話的平均停留時(shí)間最好通過納入所有先前的觀察結(jié)果(包括久遠(yuǎn)的觀察結(jié)果)來解釋。換句話說,雖然近期經(jīng)驗(yàn)影響了斑塊離開決策的斑塊間變異性,但它并未以獎(jiǎng)勵(lì)率估計(jì)的形式提供足夠的證據(jù)來完全預(yù)測斑塊離開決策。

這種與觀察歷史程度的不一致關(guān)系表明了一個(gè)模型,其中環(huán)境的局部和全局估計(jì)是獨(dú)立計(jì)算的,并對行為做出了不同的貢獻(xiàn)。為解決這個(gè)問題,我們使用貝葉斯方法來納入底層獎(jiǎng)勵(lì)率參數(shù)(初始獎(jiǎng)勵(lì)率和衰減速率)的先驗(yàn)概率,以及獎(jiǎng)勵(lì)率的 MLE,它們分別反映了環(huán)境的全局和局部特征。由此產(chǎn)生的獎(jiǎng)勵(lì)率估計(jì)稱為最大后驗(yàn)(MAP)估計(jì),它通過用先驗(yàn)信念調(diào)節(jié)似然度來擴(kuò)展 MLE,在這種情況下,先驗(yàn)信念反映了小鼠對平均統(tǒng)計(jì)數(shù)據(jù)的感知。該模型預(yù)測,當(dāng)獎(jiǎng)勵(lì)率的 MAP 估計(jì)低于獎(jiǎng)勵(lì)率閾值時(shí)會發(fā)生斑塊離開,該閾值對應(yīng)于給定環(huán)境的 MVT-IM 參數(shù)。根據(jù)圖 4E 的結(jié)果,我們使用了當(dāng)前斑塊以及最多前三個(gè)斑塊遭遇中觀察到的獎(jiǎng)勵(lì)時(shí)間。

為了確定最佳模型參數(shù)化,我們首先通過在一系列先驗(yàn)分布上計(jì)算預(yù)測誤差來進(jìn)行網(wǎng)格搜索,這些先驗(yàn)分布以 MVT-IM 的獎(jiǎng)勵(lì)參數(shù)為中心,但方差不同,反映了全局估計(jì)中的不確定性程度(圖 5A 和 S3B–S3D)。因此,這些模型在概率框架(MAP)中反映了動(dòng)物對環(huán)境參數(shù)的感知(基于內(nèi)部模型),該框架由近期經(jīng)驗(yàn)更新(局部優(yōu)化)。最佳擬合模型(MAP,基于內(nèi)部模型,局部優(yōu)化;MAP-IM-L)僅使用當(dāng)前斑塊(N = 1)的觀察結(jié)果,獎(jiǎng)勵(lì)率參數(shù)具有中等不確定性(,);參數(shù)描述見材料與方法)。與 MVT-IM 相比,改進(jìn)不顯著(圖 5B–5C;RMSE [95% CI]:)。

雖然 MAP-IM-L 模型采用了 MVT-IM 模型的參數(shù)來設(shè)定斑塊離開決策的獎(jiǎng)勵(lì)率閾值,但一旦通過概率框架捕捉到局部適應(yīng)性,最能解釋動(dòng)物行為的閾值可能會有所不同。因此,我們構(gòu)建了一個(gè)模型,其中先驗(yàn)分布的參數(shù)和獎(jiǎng)勵(lì)率閾值都采用分層方法進(jìn)行優(yōu)化(MAP,基于內(nèi)部模型,全局和局部優(yōu)化;MAP-IM-GL)。對于每組先驗(yàn)分布,計(jì)算每個(gè)環(huán)境中使預(yù)測誤差最小化的獎(jiǎng)勵(lì)率閾值(S3D 圖;見材料與方法)。當(dāng)評估預(yù)測停留時(shí)間的準(zhǔn)確性時(shí),最佳擬合的 MAP-IM-GL 模型(N = 1,,)顯著優(yōu)于所有僅利用全局或局部環(huán)境特征的其他行為模型(圖 5B–5C;RMSE [95% CI]:)。

頭部固定虛擬覓食任務(wù)中的行為遵循 MVT 原則,而非簡單啟發(fā)式策略

由于頭部固定行為允許使用更廣泛的生理學(xué)方法,我們接下來測試了自由移動(dòng)任務(wù)是否可以改編為用于頭部固定小鼠的虛擬基于斑塊的覓食任務(wù)。在虛擬覓食任務(wù)中,小鼠在一維虛擬空間中的圓柱形跑步機(jī)上奔跑,使用與自由移動(dòng)任務(wù)相同的聽覺線索(圖 6A)。斑塊之間由虛擬軌道距離隔開,動(dòng)物必須在輪子上跑過這段距離才能到達(dá)下一個(gè)虛擬斑塊(圖 6B)。小鼠在任務(wù)開始時(shí)從一個(gè)斑塊開始。當(dāng)小鼠保持靜止時(shí)播放聲學(xué)音調(diào)云,表明它們處于斑塊內(nèi)。每當(dāng)有獎(jiǎng)勵(lì)可用時(shí)嵌入純音,遵循非齊次伽馬過程,此時(shí)小鼠舔舐即可接收獎(jiǎng)勵(lì)。與之前一樣,蔗糖溶液獎(jiǎng)勵(lì)是恒定的 2 體積,并且隨著在斑塊內(nèi)時(shí)間的推移,它們之間的間隔越來越長。在虛擬斑塊內(nèi)的任何時(shí)刻,小鼠都可以開始在跑步機(jī)上行走或奔跑,這標(biāo)志著斑塊離開決策,并且開始播放粉紅噪聲以指示它們不再處于斑塊內(nèi)。當(dāng)它們在虛擬空間中接近下一個(gè)斑塊時(shí),粉紅噪聲的強(qiáng)度增加,直到它們跑完了給定環(huán)境的完整虛擬軌道距離,此時(shí)聲音切換為音調(diào)云。當(dāng)小鼠此外還變?yōu)殪o止?fàn)顟B(tài)時(shí),獎(jiǎng)勵(lì)生成過程開始,這標(biāo)志著對斑塊進(jìn)入的識別。這種虛擬斑塊停留和斑塊間行進(jìn)的序列在會話期間持續(xù)進(jìn)行。


在經(jīng)過一段熟悉頭部固定裝置的訓(xùn)練期后,小鼠在低隨機(jī)性(RSI = 0.05)和高隨機(jī)性()環(huán)境中,使用三種獎(jiǎng)勵(lì)衰減速率()和三種虛擬軌道長度(60 厘米、100 厘米、200 厘米)執(zhí)行覓食任務(wù)。與自由移動(dòng)任務(wù)一樣,每次會話使用一組固定的參數(shù)。使用與自由移動(dòng)任務(wù)類似的標(biāo)準(zhǔn),表現(xiàn)較差的會話和動(dòng)物被從分析中剔除。在剩余的會話中,任務(wù)相關(guān)行為在斑塊間和斑塊內(nèi)均被估計(jì)。

我們將任務(wù)相關(guān)的行進(jìn)時(shí)間定義為動(dòng)物速度超過斑塊進(jìn)入閾值(0.5 厘米/秒)的時(shí)間,這占所有納入會話總行進(jìn)時(shí)間的 70%(S4D 圖)。此外,在大約三分之一的情況下,動(dòng)物連續(xù)跑向下一個(gè)斑塊。我們將平均任務(wù)相關(guān)行進(jìn)時(shí)間估計(jì)為每只動(dòng)物在每種虛擬軌道長度上任務(wù)相關(guān)行進(jìn)時(shí)間的幾何平均值。正如預(yù)期的那樣,在低隨機(jī)性和高隨機(jī)性環(huán)境中,任務(wù)相關(guān)時(shí)間都隨著虛擬軌道長度的增加而增加,這表明虛擬斑塊間距離改變了前往下一個(gè)斑塊的時(shí)間成本(圖 6D;平均任務(wù)相關(guān)行進(jìn)時(shí)間:60 厘米,13.22 秒;100 厘米,16.14 秒;200 厘米,30.14 秒)。一旦它們跑完虛擬軌道長度,動(dòng)物會以與軌道長度成比例的時(shí)間充分減速以進(jìn)入斑塊(S4E 圖;延遲的幾何平均值(占平均任務(wù)相關(guān)行進(jìn)時(shí)間的比例):60 厘米,4.46 秒(0.34);100 厘米,4.77 秒(0.30);200 厘米,7.26 秒(0.24))。

與動(dòng)物需要主動(dòng)進(jìn)行鼻尖探測以停留在斑塊內(nèi)的自由移動(dòng)任務(wù)不同,頭部固定任務(wù)在虛擬斑塊內(nèi)不需要主動(dòng)參與。因此,我們認(rèn)為舔舐頻率反映了參與度,并將任務(wù)相關(guān)的停留時(shí)間估計(jì)為舔舐頻率超過最小閾值(0.5 赫茲;S4A–S4B 圖)的時(shí)間。在 49% 的納入斑塊中,小鼠在至少 95% 的停留時(shí)間內(nèi)保持參與;在 61% 的納入斑塊中,至少 80% 的時(shí)間保持參與;在 66% 的納入斑塊中,至少 60% 的時(shí)間保持參與。為了有效排除與任務(wù)無關(guān)的行為時(shí)段,我們在剩余分析中僅分析了參與度超過 60% 的斑塊(S4C 圖)。

隨后,我們調(diào)查了環(huán)境參數(shù)對虛擬基于斑塊的覓食任務(wù)中任務(wù)相關(guān)停留時(shí)間的影響。在低隨機(jī)性環(huán)境中(N = 3 只小鼠,每只動(dòng)物 13.0 ± 2.2 次會話),聚類自助法分析顯示,獎(jiǎng)勵(lì)衰減速率(而非虛擬軌道長度)與任務(wù)相關(guān)停留時(shí)間顯著相關(guān)(圖 6E;衰減速率:(均值 [95% CI]),p(r > 0) > 0.9999;軌道長度:,)。在高隨機(jī)性環(huán)境中(N = 3 只小鼠,每只動(dòng)物 9.7 ± 2.5 次會話),兩個(gè)參數(shù)均與任務(wù)相關(guān)停留時(shí)間顯著相關(guān)(圖 6F;衰減速率:(均值 [95% CI]),;軌道長度:,p(r > 0) > 0.9999)。根據(jù)獎(jiǎng)勵(lì)衰減速率和平均任務(wù)相關(guān)行進(jìn)時(shí)間預(yù)測任務(wù)相關(guān)時(shí)間的線性混合模型與聚類自助法結(jié)果一致(見 S1 表中的表 B)。所有顯著參數(shù)的系數(shù)符號均與 MVT 一致;即,較慢的衰減速率或較長的行進(jìn)時(shí)間與較長的停留時(shí)間相關(guān)。因此,總體而言,平均行為在頭部固定的虛擬基于斑塊的覓食環(huán)境中反映了 MVT 的原則。這些結(jié)果表明,基于斑塊的覓食可以在頭部固定范式中實(shí)現(xiàn)。

覓食是自然界中典型的決策過程,因此必然驅(qū)動(dòng)了認(rèn)知過程的進(jìn)化。因此,覓食過程中利用的心理通路與自然界中存在的決策過程直接相關(guān) [4, 43, 44]。行為生態(tài)學(xué)和行為學(xué)的大量研究表明,覓食任務(wù)中充分的資源獲取可以通過多種策略 [6, 15, 16, 36–38, 45, 46] 或行為模型 [25, 38, 47–52] 來描述。此外,由于覓食的幾個(gè)組成部分(例如探索與利用之間的權(quán)衡)在精神疾病中會受到破壞 [13, 14],覓食任務(wù)提供了一種潛在的跨物種工具,用于表征潛在的神經(jīng)病理學(xué)。相比之下,傳統(tǒng)實(shí)驗(yàn)室任務(wù)的設(shè)計(jì)旨在便于分析和解釋,只能間接揭示現(xiàn)實(shí)世界中的決策過程。重要的是,自然過程中固有的多層不確定性在傳統(tǒng)任務(wù)設(shè)計(jì)和行為模型中基本缺失。在此,我們利用來自新穎實(shí)驗(yàn)范式的大量行為數(shù)據(jù),闡明了動(dòng)物在自然環(huán)境中行為的機(jī)制。我們的結(jié)果表明,動(dòng)物通過整合多時(shí)間尺度的信息來建模元不確定性。動(dòng)物并非僅依賴平均統(tǒng)計(jì)量或近期觀察結(jié)果,而是利用分層框架有效獲取資源,同時(shí)解析斑塊內(nèi)動(dòng)態(tài)不同分布內(nèi)部及之間的不確定性。

本研究建模的不確定性發(fā)生在兩個(gè)不同層面:斑塊耗竭速率的不確定性,源于環(huán)境參數(shù)的每日擾動(dòng);以及在已知耗竭速率下獎(jiǎng)勵(lì)時(shí)機(jī)的不確定性,源于獎(jiǎng)勵(lì)生成過程的底層隨機(jī)性。這種"變異性的變異"被稱為"元變異性"(meta-variability),相關(guān)的認(rèn)知負(fù)荷被稱為"元不確定性"(meta-uncertainty)。為了在自然環(huán)境中應(yīng)對這一現(xiàn)象,當(dāng)動(dòng)物面臨偏離預(yù)期的情況時(shí),必須判斷這是由于同一底層分布的變異性所致,還是代表環(huán)境參數(shù)發(fā)生了變化。盡管前者已被廣泛研究 [18, 53],但關(guān)于處理元不確定性的內(nèi)在機(jī)制知之甚少。我們的實(shí)驗(yàn)設(shè)計(jì)獨(dú)特地在這些隨機(jī)環(huán)境中引入并建模了覓食決策,表明動(dòng)物可以構(gòu)建復(fù)雜模型,在具有挑戰(zhàn)性、波動(dòng)性的環(huán)境中做出明智決策。此外,動(dòng)物無需計(jì)算底層參數(shù)的精確貝葉斯估計(jì),而是通過近期觀察結(jié)果不斷更新其模型,這種方法為理解不穩(wěn)定自然環(huán)境中的覓食行為提供了機(jī)制性見解 [54]。因此,我們的結(jié)果不僅表明動(dòng)物有能力在具有多層不確定性的環(huán)境中有效做出決策,而且它們還可以構(gòu)建極其高效的模型來在此類環(huán)境中執(zhí)行任務(wù),這一發(fā)現(xiàn)對行為生態(tài)學(xué)和神經(jīng)科學(xué)的視角都具有重要意義。

元變異性在自然界中普遍存在,因此,不同學(xué)科以多種方式對其進(jìn)行了框架化。例如,在機(jī)器學(xué)習(xí)領(lǐng)域 [55],元不確定性被理論化為由偶然不確定性(aleatoric uncertainty,與觀察結(jié)果相關(guān))和認(rèn)知不確定性(epistemic uncertainty,與模型參數(shù)相關(guān))組成。在本文提出的貝葉斯模型框架內(nèi),這兩種不確定性分別與似然度(獎(jiǎng)勵(lì)時(shí)機(jī))和后驗(yàn)分布(獎(jiǎng)勵(lì)衰減速率)直接相關(guān) [56]。在神經(jīng)科學(xué)界,元不確定性已在多種情境下得到研究,從封裝刺激變異性水平的神經(jīng)狀態(tài)波動(dòng) [57, 58],到對決策信心的不確定性 [59]。更一般地,[60] 引入的相關(guān)范式區(qū)分了與本質(zhì)上隨機(jī)的觀察結(jié)果(或獎(jiǎng)勵(lì))相關(guān)的預(yù)期不確定性,以及由底層過程參數(shù)變化引起的意外不確定性,這一概念通常與強(qiáng)化學(xué)習(xí)和探索/利用權(quán)衡相關(guān) [61–66]。研究表明,小鼠通過估計(jì)刺激的方差來學(xué)習(xí)處理預(yù)期不確定性 [67],并且在較小程度上,通過編碼與預(yù)期分布的偏差來處理意外不確定性 [68–71]。然而,這些研究通常使用傳統(tǒng)的、基于試次的方法,即使在覓食情境下也是如此 [70]。此外,這些方法(如概率反轉(zhuǎn)學(xué)習(xí))將動(dòng)物對意外不確定性的反應(yīng)建模為在兩個(gè)或多個(gè)獎(jiǎng)勵(lì)位點(diǎn)之間的偏好,而無需對底層參數(shù)進(jìn)行顯式推斷。相比之下,我們?nèi)蝿?wù)引入的元不確定性在連續(xù)時(shí)間(獎(jiǎng)勵(lì)時(shí)機(jī)的變異性)和連續(xù)任務(wù)空間(獎(jiǎng)勵(lì)衰減速率的變異性)中評估決策。我們的工作通過展示小鼠以自然形式(基于斑塊的覓食)處理元不確定性的能力,擴(kuò)展了先前關(guān)于小鼠不確定性的模型。因此,我們的結(jié)果促進(jìn)了對認(rèn)知能力庫及潛在神經(jīng)回路的研究,而這些在基于試次的任務(wù)中無法直接評估。

更廣泛地說,處理元變異性及元不確定性的行為策略及潛在神經(jīng)回路在很大程度上仍是未知的,并且正在被積極研究。動(dòng)物會尋求先前信息的指導(dǎo) [72];即使面對矛盾證據(jù)也傾向于堅(jiān)持當(dāng)前選擇 [73–75](也稱為堅(jiān)持性,或在覓食情況下,與過度采集相關(guān));并且有趣的是,做出的決策至少部分本質(zhì)上是隨機(jī)的 [76]。例如,盡管平均行為可能與經(jīng)過訓(xùn)練的、甚至是理想的貝葉斯觀察者相關(guān),但個(gè)體決策仍保持著行為模型無法捕捉的顯著變異性水平 [76],正如我們的結(jié)果所見。先前研究已觀察到覓食情境下的高行為變異性 [3],相關(guān)的過度采集既可解釋為貝葉斯推斷的后果 [77](特別是對于快速衰減的斑塊),也可解釋為對自身行為變異性的一種補(bǔ)償機(jī)制 [42]。在特定情況下,覓食者可能構(gòu)建隨機(jī)環(huán)境的多峰模型并相應(yīng)調(diào)整停留時(shí)間,從而產(chǎn)生行為變異性的另一個(gè)來源 [78–80],盡管鑒于我們?nèi)蝿?wù)中獎(jiǎng)勵(lì)序列的隨機(jī)性,這種策略不太可能出現(xiàn)。同時(shí),后驗(yàn)概率的利用是覓食決策的一個(gè)重要特征;盡管早期隨機(jī)環(huán)境的理論模型提出了一種啟發(fā)式策略 [15],但我們的結(jié)果與近期提出貝葉斯方法的模型一致 [49]。這一策略很重要,因?yàn)樗茉炝巳藗冄芯繚撛谏窠?jīng)回路的方式。例如,先前的研究已通過積分至閾值機(jī)制證明了背側(cè)前扣帶回皮層(dACC)在斑塊離開決策中的重要性 [3]。雖然 dACC 的活動(dòng)在停留或離開決策期間短暫增加,但在持續(xù)決策過程中以及面對元不確定性時(shí)的編碼尚不清楚。此外,多巴胺、5-羥色胺或乙酰膽堿等神經(jīng)調(diào)節(jié)劑可能追蹤不同水平和類型的變異性 [51, 81–83],或調(diào)節(jié)離開時(shí)間 [25]。我們在此提出的隨機(jī)覓食環(huán)境的行為和分析框架將有助于更好地映射神經(jīng)活動(dòng)與自然行為之間的關(guān)系。

我們的方法和結(jié)果指向了多個(gè)有前景的進(jìn)一步研究方向。盡管自由移動(dòng)任務(wù)分析中包含的斑塊遭遇數(shù)量很大(300 次會話中 14,060 個(gè)斑塊),但動(dòng)物數(shù)量(N = 8)不足以研究動(dòng)物間的行為差異。例如,個(gè)體小鼠對獎(jiǎng)勵(lì)變異性表現(xiàn)出不同的敏感性,這可能反映了學(xué)習(xí)率的連續(xù)譜,或完全不同策略的聚類。此外,未來的實(shí)驗(yàn)可以測試在自由移動(dòng)和虛擬斑塊覓食環(huán)境之間,行為的哪些方面以及潛在的神經(jīng)回路機(jī)制是共同或不同的。在兩項(xiàng)任務(wù)中,動(dòng)物也表現(xiàn)出相當(dāng)比例的與任務(wù)無關(guān)的行為,例如自由移動(dòng)任務(wù)中斑塊外的探索或梳理毛發(fā),或頭部固定任務(wù)中的不活動(dòng)時(shí)段,這可能部分源于自然主義任務(wù)設(shè)計(jì)所賦予的行為自由度。特別是在自由移動(dòng)任務(wù)中,探索表現(xiàn)為直立、嗅探或試圖攀爬實(shí)驗(yàn)裝置的墻壁;更審慎的行為,如意念改變或頭部轉(zhuǎn)動(dòng),則在鼻尖探測期間以較短時(shí)間尺度呈現(xiàn)。盡管本研究在分析中排除了這一層行為噪聲,但未來的工作可以利用更復(fù)雜的數(shù)據(jù),如分別跟蹤動(dòng)物運(yùn)動(dòng)和瞳孔尺寸的視頻,來構(gòu)建更全面的行為模型,包括覓食和非覓食狀態(tài) [41]。最后,由于動(dòng)物經(jīng)歷了長期的訓(xùn)練期,且環(huán)境參數(shù)在數(shù)天內(nèi)順序修改,任務(wù)學(xué)習(xí)難以研究。此外,由于實(shí)驗(yàn)方案,同一動(dòng)物用于研究感興趣參數(shù)(例如,在給定軌道上 與 )的可比會話在某些情況下相隔數(shù)天。未來使用會話內(nèi)環(huán)境參數(shù)切換(確定性或隨機(jī)性)的工作將進(jìn)一步闡明行為適應(yīng)環(huán)境擾動(dòng)的時(shí)間進(jìn)程。

許多認(rèn)知研究采用自上而下的方法,即實(shí)驗(yàn)設(shè)計(jì)旨在測試特定的認(rèn)知功能。這不僅導(dǎo)致了非自然任務(wù)的設(shè)計(jì),還預(yù)設(shè)了源自人類心理學(xué)的心理過程適用于所研究的動(dòng)物物種。在這兩種情況下,結(jié)果可能難以解釋甚至具有誤導(dǎo)性。我們反而采用自下而上的方法,通過從自然原則構(gòu)建任務(wù),允許動(dòng)物自由執(zhí)行任務(wù),并跟隨其行為生成解釋性模型。當(dāng)然,沒有任何實(shí)驗(yàn)室任務(wù)能完美復(fù)制原生環(huán)境,必須在數(shù)據(jù)采集(包括神經(jīng)數(shù)據(jù))和行為自由度之間做出權(quán)衡。然而,越來越達(dá)成的共識是,實(shí)驗(yàn)室任務(wù)在模仿大腦進(jìn)化所適應(yīng)的世界時(shí)將產(chǎn)生最佳結(jié)果,這一觀點(diǎn)對于基于斑塊的覓食尤其如此 [4, 5]。此外,本研究概述的行為范式和分析方法為研究決策過程的進(jìn)一步方面(如情境信息或連續(xù)模型 [84, 85])提供了框架。通過調(diào)用原生行為并呈現(xiàn)自然主義的不確定性,基于斑塊的覓食任務(wù)為研究基本決策過程提供了無數(shù)機(jī)會。

原文鏈接:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1012989

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日媒:美“新型”稀土技術(shù),可高效清潔回收稀土,或動(dòng)搖稀土霸權(quán)

日媒:美“新型”稀土技術(shù),可高效清潔回收稀土,或動(dòng)搖稀土霸權(quán)

爆角追蹤
2026-03-27 14:43:47
臺積電:我們已經(jīng)顧不上美國工廠了,大陸再不給稀土,大家都得完

臺積電:我們已經(jīng)顧不上美國工廠了,大陸再不給稀土,大家都得完

吳紒愛體育
2026-03-28 04:01:32
庫拉索主帥:結(jié)果不能代表球隊(duì)水平;中國隊(duì)充滿活力永不放棄

庫拉索主帥:結(jié)果不能代表球隊(duì)水平;中國隊(duì)充滿活力永不放棄

懂球帝
2026-03-27 18:33:05
明著擺爛?步行者0.1秒落后1分獲2罰,赫夫兩罰不中送走比賽

明著擺爛?步行者0.1秒落后1分獲2罰,赫夫兩罰不中送走比賽

懂球帝
2026-03-28 09:59:07
上班開糞車下班開奔馳的小伙今日大婚,當(dāng)事人:吸糞車婚車隊(duì),全球第一個(gè)

上班開糞車下班開奔馳的小伙今日大婚,當(dāng)事人:吸糞車婚車隊(duì),全球第一個(gè)

極目新聞
2026-03-28 08:51:05
警惕!公知正在悄悄換掉我們的價(jià)值觀:三件事正在瓦解社會根基

警惕!公知正在悄悄換掉我們的價(jià)值觀:三件事正在瓦解社會根基

云景侃記
2026-03-26 14:56:36
萬斯批評內(nèi)塔尼亞胡!伊朗議長:美軍士兵只能藏在酒店和公園,何談對伊地面戰(zhàn)!德國、加拿大、英國、法國、意大利、日本集體呼吁

萬斯批評內(nèi)塔尼亞胡!伊朗議長:美軍士兵只能藏在酒店和公園,何談對伊地面戰(zhàn)!德國、加拿大、英國、法國、意大利、日本集體呼吁

每日經(jīng)濟(jì)新聞
2026-03-27 23:57:25
剛剛,伊朗導(dǎo)彈再襲美軍基地,“數(shù)架加油機(jī)被摧毀或重創(chuàng)”!伊朗已動(dòng)員超過100萬名作戰(zhàn)人員,警告打擊以色列及多國鋼鐵廠

剛剛,伊朗導(dǎo)彈再襲美軍基地,“數(shù)架加油機(jī)被摧毀或重創(chuàng)”!伊朗已動(dòng)員超過100萬名作戰(zhàn)人員,警告打擊以色列及多國鋼鐵廠

每日經(jīng)濟(jì)新聞
2026-03-28 01:21:05
張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權(quán)

張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權(quán)

娛樂圈圈圓
2026-03-26 21:47:07
蔣彥強(qiáng)不幸離世,年僅40歲!

蔣彥強(qiáng)不幸離世,年僅40歲!

臺州交通廣播
2026-03-27 18:26:03
特朗普發(fā)出威脅:“下一個(gè)是古巴”

特朗普發(fā)出威脅:“下一個(gè)是古巴”

界面新聞
2026-03-28 10:37:31
胡塞要求美以停止侵略伊朗

胡塞要求美以停止侵略伊朗

財(cái)聯(lián)社
2026-03-28 09:14:06
催人淚下!張雪峰常把家鄉(xiāng)高校當(dāng)避坑指南,當(dāng)?shù)厮屯炻?lián)以最高敬意

催人淚下!張雪峰常把家鄉(xiāng)高校當(dāng)避坑指南,當(dāng)?shù)厮屯炻?lián)以最高敬意

火山詩話
2026-03-28 06:26:33
淚奔!今日送別張雪峰:說好的喪事從簡,現(xiàn)場有數(shù)萬民眾自發(fā)到場

淚奔!今日送別張雪峰:說好的喪事從簡,現(xiàn)場有數(shù)萬民眾自發(fā)到場

魔都姐姐雜談
2026-03-28 09:33:09
海航的這個(gè)空姐火了

海航的這個(gè)空姐火了

太陽來
2026-03-28 09:58:08
張雪峰靈堂花圈擺滿松柏:遺孀付幸保持沉默,前妻李麗婧也未露面

張雪峰靈堂花圈擺滿松柏:遺孀付幸保持沉默,前妻李麗婧也未露面

眼光很亮
2026-03-27 14:45:20
擁有30多個(gè)博士學(xué)位,李昌鈺談被稱為“當(dāng)代福爾摩斯”:我不是神探是科學(xué)家,以華人身份感到驕傲

擁有30多個(gè)博士學(xué)位,李昌鈺談被稱為“當(dāng)代福爾摩斯”:我不是神探是科學(xué)家,以華人身份感到驕傲

極目新聞
2026-03-28 08:40:33
一女子在湖南省道縣人民醫(yī)院生產(chǎn)后,與新生兒不幸雙雙離世,多方回應(yīng)

一女子在湖南省道縣人民醫(yī)院生產(chǎn)后,與新生兒不幸雙雙離世,多方回應(yīng)

半島官網(wǎng)
2026-03-27 15:13:26
石油危機(jī)后果來了!全球開始為保命做準(zhǔn)備!

石油危機(jī)后果來了!全球開始為保命做準(zhǔn)備!

櫻桃大房子
2026-03-27 21:21:09
55歲陳松伶和60歲鄧萃雯跑馬拉松,同是沒生過娃,二人容貌差距大

55歲陳松伶和60歲鄧萃雯跑馬拉松,同是沒生過娃,二人容貌差距大

潮鹿逐夢
2026-03-27 10:46:00
2026-03-28 11:23:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1309文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

遭中國學(xué)界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

前大廠員工開"網(wǎng)絡(luò)賭場" 三個(gè)月吸金1900萬

頭條要聞

前大廠員工開"網(wǎng)絡(luò)賭場" 三個(gè)月吸金1900萬

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

游戲
時(shí)尚
旅游
親子
教育

PS5瘋狂漲價(jià)!或?qū)⑼侠邸禛TA6》硬件銷量

推廣中獎(jiǎng)名單-更新至2026年3月11日推廣

旅游要聞

解鎖五大春日新玩法 2026年重慶大足石刻國際旅游文化節(jié)4月啟幕

親子要聞

科學(xué)運(yùn)動(dòng) 助力提升女性生育力

教育要聞

娃的錯(cuò)題本,以后不用家長整理了......

無障礙瀏覽 進(jìn)入關(guān)懷版