国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

重構(gòu)預(yù)期自由能:四種形式與一個(gè)統(tǒng)一框架

0
分享至

Reframing the Expected Free Energy:Four Formulations and a Unification.

重構(gòu)預(yù)期自由能:四種形式與一個(gè)統(tǒng)一框架

https://arxiv.org/abs/2402.14460?utm_source=chatgpt.com



摘要
主動(dòng)推理是感知、學(xué)習(xí)與決策領(lǐng)域的前沿理論,可應(yīng)用于神經(jīng)科學(xué)、機(jī)器人學(xué)、心理學(xué)及機(jī)器學(xué)習(xí)領(lǐng)域。該理論基于期望自由能展開研究,其合理性主要源于多種形式化表述的直觀可信性(如風(fēng)險(xiǎn)與模糊性表述、信息增益與實(shí)用價(jià)值表述)。本文旨在系統(tǒng)闡述如何從單一根定義推導(dǎo)這些形式化表述的數(shù)學(xué)問(wèn)題(即統(tǒng)一性問(wèn)題),進(jìn)而研究?jī)煞N具有不同根定義的場(chǎng)景。在第一種場(chǎng)景中,雖尚未提出對(duì)期望自由能的合理性證明,但所有形式化表述均可從其根定義推導(dǎo)得出。然而該場(chǎng)景下,主體無(wú)法對(duì)觀測(cè)結(jié)果設(shè)置任意先驗(yàn)偏好——實(shí)際上,僅有限類與生成模型似然映射相容的觀測(cè)先驗(yàn)偏好具有可行性。第二種場(chǎng)景雖已知期望自由能根定義的合理性證明,但僅能涵蓋兩種形式化表述(即狀態(tài)風(fēng)險(xiǎn)與模糊性表述、熵與期望能量表述)。
關(guān)鍵詞:主動(dòng)推理,期望自由能,統(tǒng)一性問(wèn)題

  1. 引言
    主動(dòng)推理(Friston等,2016;Itti與Baldi,2009;Schwartenbeck等,2018;FitzGerald等,2015;Fountas等,2020;Sancaktar等,2020;?atal等,2020;Cullen等,2018;Millidge,2019)是不確定性條件下決策的框架體系。該框架中,主體配備編碼環(huán)境動(dòng)態(tài)特性的生成模型,以及近似潛變量真實(shí)后驗(yàn)的變分后驗(yàn)分布。變分后驗(yàn)通過(guò)最小化變分自由能函數(shù)(機(jī)器學(xué)習(xí)領(lǐng)域亦稱負(fù)證據(jù)下界,F(xiàn)ox與Roberts,2012;?)計(jì)算獲得。雖然變分后驗(yàn)定義了環(huán)境的最可能狀態(tài),卻未指明應(yīng)選擇何種行動(dòng)。因此,主體通過(guò)最小化期望自由能以達(dá)成預(yù)設(shè)的偏好狀態(tài)或觀測(cè)目標(biāo)。

變分自由能擁有一個(gè)明確的根定義,所有其他形式皆由此推導(dǎo)得出,而文獻(xiàn)中尚未為期望自由能確立此類根定義,導(dǎo)致其多種形式化表述間的源流關(guān)系懸而未決。
期望自由能是一種定義特定策略執(zhí)行成本的函數(shù),通過(guò)平衡探索與利用來(lái)實(shí)現(xiàn)目標(biāo):既要最大化實(shí)用價(jià)值(獎(jiǎng)勵(lì)),又要最大化信息增益。實(shí)用價(jià)值依賴于主體的先驗(yàn)偏好,這些偏好規(guī)定了偏好狀態(tài)或觀測(cè)結(jié)果,為主體提供目標(biāo)導(dǎo)向行為的驅(qū)動(dòng)力。



為解決雙重含義問(wèn)題,先驗(yàn)偏好有時(shí)被視為目標(biāo)分布的一部分。然而本文證明,這一假設(shè)限制了有效先驗(yàn)偏好的類別,并導(dǎo)致當(dāng)前尚無(wú)法論證的期望自由能定義。后續(xù)章節(jié)將探討帕爾等人(2022)提出的兩種可能解釋,并闡明其局限性。附錄B與附錄C提供了本文所用性質(zhì)的說(shuō)明。

2. 生成模型
在主動(dòng)推理中,主體配備了一個(gè)覆蓋從初始時(shí)刻到當(dāng)前時(shí)刻t的環(huán)境生成模型。該模型由三部分組成:(a) 隱藏狀態(tài)序列s?:?——表示主體無(wú)法直接觀測(cè)的環(huán)境狀態(tài);(b) 觀測(cè)序列o?:?——代表主體獲得的測(cè)量數(shù)據(jù);(c) 動(dòng)作序列a?:???——主體在環(huán)境中執(zhí)行的操作。為簡(jiǎn)潔起見(jiàn),s?:?、o?:?和a?:???將分別記作s、o和a。此外,本文假設(shè)觀測(cè)結(jié)果依賴于狀態(tài),而每個(gè)狀態(tài)又依賴于前一時(shí)刻的狀態(tài)與動(dòng)作。這種設(shè)定在形式上稱為部分可觀測(cè)馬爾可夫決策過(guò)程(POMDP),其模型定義如下:


  1. 變分分布
    前一節(jié)所述的生成模型編碼了關(guān)于環(huán)境動(dòng)態(tài)的先驗(yàn)信念。然而,當(dāng)對(duì)關(guān)鍵量(如觀測(cè)o)進(jìn)行測(cè)量時(shí),主體需要計(jì)算關(guān)于狀態(tài)的后驗(yàn)信念(例如P(s|o, a))。這些后驗(yàn)信念編碼了主體在考慮新觀測(cè)后的更新信念。遺憾的是,計(jì)算真實(shí)后驗(yàn)要么在解析上難以處理,要么計(jì)算成本過(guò)高。因此,真實(shí)后驗(yàn)通常由變分分布Q(s|a)近似表示:


在主動(dòng)推理中,變分后驗(yàn)滿足:1)按時(shí)間步長(zhǎng)進(jìn)行因子分解(即時(shí)序平均場(chǎng)近似),但 2)所有狀態(tài)仍依賴于策略 a。這兩個(gè)假設(shè)導(dǎo)致變分分布的定義如下:


  1. 變分推斷與變分自由能
    綜上所述,主體配備有生成模型 P ( o , s ∣ a )
    )和變分分布 Q ( s ∣ a )
    。在獲得觀測(cè)數(shù)據(jù) o o后,變分分布需近似真實(shí)后驗(yàn) P ( s ∣ o , a ) 。這可以形式化表示為最小化近似后驗(yàn)與真實(shí)后驗(yàn)之間的庫(kù)爾貝克-萊布勒散度:


最小化該KL散度與最小化變分自由能(VFE)等價(jià)(證明見(jiàn)下文)。直觀而言,VFE在準(zhǔn)確度(即觀測(cè)結(jié)果的預(yù)測(cè)準(zhǔn)確程度)與復(fù)雜度(即后驗(yàn)分布偏離先驗(yàn)分布的程度)之間進(jìn)行權(quán)衡。其形式化定義如下:



5. 規(guī)劃與期望自由能



5.1 統(tǒng)一性問(wèn)題



重要之處在于,狀態(tài)風(fēng)險(xiǎn)是狀態(tài)預(yù)測(cè)后驗(yàn) F ( s ∣ a )
與狀態(tài)先驗(yàn)偏好 T ( s ∣ a )
之間的KL散度,而模糊性是根據(jù)生成模型對(duì)似然映射的期望熵。狀態(tài)風(fēng)險(xiǎn)促使預(yù)測(cè)后驗(yàn)向先驗(yàn)偏好靠近,模糊性則鼓勵(lì)主體訪問(wèn)能產(chǎn)生低熵觀測(cè)分布的狀態(tài)——即若抵達(dá)某狀態(tài),我們便能預(yù)期將獲得何種觀測(cè)。關(guān)于觀測(cè)風(fēng)險(xiǎn)與模糊性的表述如下:




重要之處在于,信息增益是僅依賴預(yù)測(cè)分布因子的KL散度。這防止了主體停止探索環(huán)境所產(chǎn)生的退化行為(即信息損失,Champion等人,2023)。此外,實(shí)用價(jià)值基于偏好觀測(cè)T(o|a),為主體提供目標(biāo)導(dǎo)向行為。最后,期望能量與熵的表述如下:


熵項(xiàng)確保優(yōu)良策略能通過(guò)允許主體到達(dá)廣泛狀態(tài)來(lái)保持選項(xiàng)的開放性,這符合杰恩斯最大熵理論(Jaynes, 1957a,b)的隱含要求。此外,如下文證明所示,期望能量項(xiàng)既促使主體到達(dá)偏好狀態(tài),又推動(dòng)其選擇那些觀測(cè)分布具有低熵的狀態(tài)——即給定某狀態(tài)時(shí),我們能預(yù)期將獲得何種觀測(cè)。


5.2 預(yù)測(cè)分布
如前所述,預(yù)測(cè)分布根據(jù)主體對(duì)環(huán)境當(dāng)前狀態(tài)的最佳信念及其生成模型來(lái)預(yù)測(cè)未來(lái)。其形式化分解如下:






5.3 目標(biāo)分布
第二個(gè)關(guān)鍵分布是目標(biāo)分布,它編碼了主體期望達(dá)到的狀態(tài)與觀測(cè)。在后續(xù)章節(jié)中,我們將目標(biāo)分布定義如下:



5.4 解決統(tǒng)一性問(wèn)題
在明確了預(yù)測(cè)分布與目標(biāo)分布后,我們現(xiàn)聚焦于統(tǒng)一性問(wèn)題。我們將探究是否存在某種EFE形式化表述可作為根定義,從中推導(dǎo)出所有其他表述。首先,我們將根期望自由能定義為觀測(cè)風(fēng)險(xiǎn)與模糊性之和:


5.4.1 信息增益/實(shí)用價(jià)值形式化表述
本節(jié)將證明,以 C R O A ( a ˉ )
ˉ)作為根定義的期望自由能可以推導(dǎo)出信息增益/實(shí)用價(jià)值形式化表述。該推導(dǎo)基于以下等式:



5.4.2 狀態(tài)風(fēng)險(xiǎn)與模糊性形式化表述
本節(jié)將證明,狀態(tài)風(fēng)險(xiǎn)與模糊性之和是期望自由能的上界。從EFE定義出發(fā),可以推導(dǎo)出:



重要之處在于,由于狀態(tài)風(fēng)險(xiǎn)與模糊性之和是EFE的上界,最小化該上界也將同時(shí)最小化EFE。

5.4.3 期望能量與熵形式化表述
最后,從方程(5)的狀態(tài)風(fēng)險(xiǎn)與模糊性之和出發(fā),可以證明:



6. 局限性




6.1 觀測(cè)結(jié)果的先驗(yàn)偏好












6.2 期望自由能的合理性論證



  1. 結(jié)論
    本文旨在形式化期望自由能的定義,以及推導(dǎo)其四種形式化表述的問(wèn)題(即統(tǒng)一性問(wèn)題)。當(dāng)期望自由能被定義為觀測(cè)風(fēng)險(xiǎn)與模糊性之和時(shí),所有形式化表述均可被恢復(fù),因此可在實(shí)踐中使用。然而,本文的一項(xiàng)重要貢獻(xiàn)在于揭示了某些觀測(cè)先驗(yàn)偏好與似然映射不相容。由此我們面臨兩難選擇:要么建模者必須精心選擇主體的先驗(yàn)偏好以避免沖突,要么放棄四種形式化表述之間的理論關(guān)聯(lián)。

另一個(gè)問(wèn)題在于觀測(cè)風(fēng)險(xiǎn)與模糊性之和形式化表述缺乏合理性論證。盡管狀態(tài)風(fēng)險(xiǎn)與模糊性之和形式化表述已有論證,但僅論證一個(gè)下界不足以證明期望自由能本身的合理性。因此,未來(lái)研究應(yīng)著力于從第一性原理推導(dǎo)觀測(cè)風(fēng)險(xiǎn)與模糊性之和形式化表述。值得注意的是,雖然狀態(tài)風(fēng)險(xiǎn)與模糊性之和形式化表述具備合理性論證,但該期望自由能定義無(wú)法恢復(fù)全部四種形式化表述,故不能構(gòu)成統(tǒng)一性問(wèn)題的有效解。

需說(shuō)明的是,我們僅研究了期望自由能的兩種可能定義。通過(guò)替代性證明路徑和/或預(yù)測(cè)分布與目標(biāo)分布的不同分解方式,或許能同時(shí)實(shí)現(xiàn)四種分解形式的恢復(fù)并消除先驗(yàn)偏好與似然的沖突。然而,窮舉所有可能的分解與證明已超出本文范圍。

最后,本文為未來(lái)研究奠定了堅(jiān)實(shí)基礎(chǔ),尤其在深度主動(dòng)推理領(lǐng)域。本文雖厘清了期望自由能定義,但尚未闡明如何利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算。因此,仍需開展額外研究以具體實(shí)現(xiàn)并實(shí)證評(píng)估所提出的期望自由能定義。

原文鏈接:https://arxiv.org/pdf/2402.14460

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
"仁義"好兄弟出手!伊朗終等到最大強(qiáng)援,特朗普萬(wàn)沒(méi)料到的事發(fā)生

"仁義"好兄弟出手!伊朗終等到最大強(qiáng)援,特朗普萬(wàn)沒(méi)料到的事發(fā)生

小舟談歷史
2026-03-27 14:05:57
中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

混沌錄
2026-03-18 23:54:31
38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個(gè)離婚

38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個(gè)離婚

云景侃記
2026-02-12 22:21:30
教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

今朝牛馬
2026-03-26 20:22:18
退休阿姨說(shuō):和再婚老伴同居后才明白,男人老了還要找老伴的原因

退休阿姨說(shuō):和再婚老伴同居后才明白,男人老了還要找老伴的原因

熱心柚子姐姐
2026-03-27 15:18:31
為什么有個(gè)漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

為什么有個(gè)漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

侃神評(píng)故事
2026-03-10 18:50:04
程瀟,深V吊帶

程瀟,深V吊帶

小椰的奶奶
2026-03-28 12:12:40
剛剛,特朗普被打臉!

剛剛,特朗普被打臉!

新浪財(cái)經(jīng)
2026-03-28 03:53:56
調(diào)查發(fā)現(xiàn):若50歲前沒(méi)患這4種疾病,以后患癌的幾率或微乎其微?

調(diào)查發(fā)現(xiàn):若50歲前沒(méi)患這4種疾病,以后患癌的幾率或微乎其微?

醫(yī)學(xué)科普匯
2026-03-26 20:55:03
52年岳飛后人找毛主席求安排工作,主席聽完沉默片刻,說(shuō)了句話讓他當(dāng)場(chǎng)愣住

52年岳飛后人找毛主席求安排工作,主席聽完沉默片刻,說(shuō)了句話讓他當(dāng)場(chǎng)愣住

老杉說(shuō)歷史
2026-03-13 23:00:06
英國(guó)向全球宣告,中國(guó)風(fēng)力渦輪機(jī)“高度危險(xiǎn)”,禁止采購(gòu)中國(guó)風(fēng)電

英國(guó)向全球宣告,中國(guó)風(fēng)力渦輪機(jī)“高度危險(xiǎn)”,禁止采購(gòu)中國(guó)風(fēng)電

書紀(jì)文譚
2026-03-27 17:47:25
巴基斯坦:將就中東局勢(shì)舉行四國(guó)外長(zhǎng)會(huì)議

巴基斯坦:將就中東局勢(shì)舉行四國(guó)外長(zhǎng)會(huì)議

新華社
2026-03-28 09:33:12
淚崩!濟(jì)南世貿(mào)廣場(chǎng)驚現(xiàn)悼念張雪峰大屏,網(wǎng)友:這就是人心所向…

淚崩!濟(jì)南世貿(mào)廣場(chǎng)驚現(xiàn)悼念張雪峰大屏,網(wǎng)友:這就是人心所向…

火山詩(shī)話
2026-03-27 07:41:37
我是北京人,去了一趟大連,不吹不黑,大連比網(wǎng)上評(píng)價(jià)的還要好!

我是北京人,去了一趟大連,不吹不黑,大連比網(wǎng)上評(píng)價(jià)的還要好!

看盡落塵花q
2026-03-27 16:22:40
官方出手,狠狠替張雪峰出了口惡氣,拿沒(méi)教養(yǎng)當(dāng)個(gè)性活該被喊封殺

官方出手,狠狠替張雪峰出了口惡氣,拿沒(méi)教養(yǎng)當(dāng)個(gè)性活該被喊封殺

削桐作琴
2026-03-28 13:06:21
李昌鈺子女發(fā)聲:父親遺愿是不舉辦公開追思儀式,而是希望外界以傳承與分享來(lái)紀(jì)念他,將其精神延續(xù)至下一代

李昌鈺子女發(fā)聲:父親遺愿是不舉辦公開追思儀式,而是希望外界以傳承與分享來(lái)紀(jì)念他,將其精神延續(xù)至下一代

瀟湘晨報(bào)
2026-03-28 11:57:10
樊振東獨(dú)取2分狀態(tài)神勇!揮手告別球迷顯情商 新GM:他是時(shí)代榜樣

樊振東獨(dú)取2分狀態(tài)神勇!揮手告別球迷顯情商 新GM:他是時(shí)代榜樣

顏小白的籃球夢(mèng)
2026-03-28 12:08:20
張雪峰追悼會(huì):遺像被鮮花包裹,員工穿黑衣,女兒和奶奶讓人心疼

張雪峰追悼會(huì):遺像被鮮花包裹,員工穿黑衣,女兒和奶奶讓人心疼

天天熱點(diǎn)見(jiàn)聞
2026-03-28 04:38:31
啥情況!上海一高端樓盤,8折出倉(cāng)大甩賣!!

啥情況!上海一高端樓盤,8折出倉(cāng)大甩賣!!

新浪財(cái)經(jīng)
2026-03-28 09:53:04
你見(jiàn)過(guò)最無(wú)用的節(jié)儉行為是什么?看完網(wǎng)友分享:CPU都干燒了!

你見(jiàn)過(guò)最無(wú)用的節(jié)儉行為是什么?看完網(wǎng)友分享:CPU都干燒了!

夜深愛(ài)雜談
2026-02-03 21:51:33
2026-03-28 15:43:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1310文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

遭中國(guó)學(xué)界"拉黑"后,這家AI頂會(huì)低頭道歉

頭條要聞

特朗普:北約沒(méi)支持美打擊伊朗 美國(guó)以后也不會(huì)幫北約

頭條要聞

特朗普:北約沒(méi)支持美打擊伊朗 美國(guó)以后也不會(huì)幫北約

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂(lè)要聞

王一博改名上熱搜!個(gè)人時(shí)代正式開啟!

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

旅游
手機(jī)
健康
教育
藝術(shù)

旅游要聞

春夏秋冬皆可游!濟(jì)南將打造四季可游、全域皆景的文旅體驗(yàn)

手機(jī)要聞

OPPO Find N6、榮耀Magic V6,同樣是6首銷比比看

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

把 “玩” 卷成天花板!十一系這所成員校的優(yōu)質(zhì)秘訣藏不住了

藝術(shù)要聞

細(xì)膩優(yōu)雅的花卉靜物畫 | Henrietta Smith

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版