国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

用于延遲和長時域環(huán)境的深度主動推理智能體

0
分享至

DEEP ACTIVE INFERENCE AGENTS FOR DELAYEDAND LONG-HORIZON ENVIRONMENTS

用于延遲和長時域環(huán)境的深度主動推理智能體

https://openreview.net/pdf?id=HbUeoq8WIC



摘要
隨著世界模型智能體的近期成功——其拓展了基于模型的強化學習核心思想,通過學習一個可微分模型,以實現(xiàn)跨多樣化任務(wù)的高效樣本控制——主動推理(AIF)提供了一種互補的、基于神經(jīng)科學的范式,可在單一由生成模型驅(qū)動的概率框架內(nèi)統(tǒng)一感知、學習與行動。盡管前景廣闊,現(xiàn)有實用型AIF智能體仍依賴精確的即時預測與窮舉式規(guī)劃;這一局限在需進行長時程(數(shù)十至數(shù)百步)規(guī)劃的延遲環(huán)境中尤為突出。此外,多數(shù)現(xiàn)有智能體僅在機器人或視覺基準上評估,此類任務(wù)雖契合生物智能體特性,卻遠未達到真實工業(yè)場景的復雜程度。

針對上述局限,本文提出一種生成–策略架構(gòu),其特點包括:(i)多步隱狀態(tài)轉(zhuǎn)移機制,使生成模型能通過單次前瞻預測整個規(guī)劃時域;(ii)集成式策略網(wǎng)絡(luò),既參與隱狀態(tài)轉(zhuǎn)移,又接收期望自由能的梯度信號;(iii)交替優(yōu)化方案,利用經(jīng)驗回放緩沖區(qū)分別更新模型與策略;(iv)單步梯度規(guī)劃機制,實現(xiàn)長時程規(guī)劃,從而將耗時的窮舉規(guī)劃完全移出控制回路。

我們在一個模擬真實工業(yè)場景(含延遲與長時程特性)的環(huán)境中評估所提智能體。實證結(jié)果證實了該方法的有效性:將世界模型與AIF形式體系耦合,可構(gòu)建出端到端的概率控制器,在無手工設(shè)計獎勵函數(shù)、無昂貴規(guī)劃開銷的前提下,實現(xiàn)延遲、長時程環(huán)境中的高效決策。

1 引言
數(shù)據(jù)驅(qū)動決策算法,尤其是強化學習(RL)領(lǐng)域,已取得顯著進展:智能體通過與環(huán)境交互并接收反饋來學習策略(Sutton & Barto, 2018)。與此同時,深度學習為表征提取與模式識別提供了強大框架,亦支持概率建模(LeCun 等, 2015;Bishop & Bishop, 2024),推動了計算機視覺、自然語言處理、生物醫(yī)學、金融及機器人等領(lǐng)域的進步。深度強化學習融合了上述思想——例如,在深度Q網(wǎng)絡(luò)(DQN)中采用神經(jīng)函數(shù)逼近器,即在Atari游戲中達到了人類水平性能(Mnih 等, 2015);谀P偷膹娀瘜W習(MBRL)更進一步,顯式引入(學習所得或給定的)環(huán)境模型以指導學習與規(guī)劃(Moerland 等, 2023)。類似地,“世界模型”(world models)概念聚焦于學習環(huán)境的生成模型,以利用其對未來結(jié)果的表征與預測能力,尤其服務(wù)于決策過程(Hafner 等, 2025);事實上,已有理論證明,通用智能體必然包含內(nèi)蘊的世界模型(Richens 等, 2025)。這與認知科學中關(guān)于生物大腦的理論高度契合——后者強調(diào)內(nèi)生生成模型的核心作用(Friston 等, 2021)。在更廣義的理論層面,主動推理(AIF)作為神經(jīng)科學新興領(lǐng)域,通過內(nèi)生生成模型,將感知、行動與學習統(tǒng)一于生物智能體之中(Friston 等, 2017;Parr 等, 2022)。

AIF植根于自由能原理(FEP),將神經(jīng)推理與學習形式化為在不確定性下對“驚奇”(surprise)的最小化(Friston, 2010)。它提供了一個自洽的數(shù)學框架,通過貝葉斯推斷校準概率模型,可直接從原始感官輸入(即觀測)中實現(xiàn)學習與目標導向行動(Parr 等, 2022)。該框架有望構(gòu)建模型驅(qū)動、自適應(yīng)的智能體——支持端到端訓練,同時提供不確定性量化與一定可解釋性(Taheri Yeganeh 等, 2024;Fountas 等, 2020)。與世界模型及MBRL類似,AIF亦依賴于一個環(huán)境內(nèi)部模型,有助于捕獲系統(tǒng)動力學并提升樣本效率。然而,盡管AIF框架潛力巨大,其實用智能體通常仍依賴精確的即時預測與大規(guī)模規(guī)劃(Fountas 等, 2020)。此類依賴會損害性能,尤其在延遲環(huán)境中——行動后果無法即時觀測(RL中常表現(xiàn)為稀疏獎勵),從而加劇了信用分配問題(Sutton & Barto, 2018)。同樣,長時程任務(wù)要求在擴展時間跨度上進行高效規(guī)劃,帶來額外挑戰(zhàn)。這些困難廣泛存在于各類優(yōu)化任務(wù)中——如制造系統(tǒng)(Taheri Yeganeh 等, 2024)、機器人(Hafner 等, 2020, 2025;Nguyen 等, 2024)及蛋白質(zhì)設(shè)計(Angermueller 等, 2019;Wang 等, 2024)——其結(jié)果往往需歷經(jīng)多步操作或待全過程完成后方才顯現(xiàn)。

本文探討如何釋放AIF框架的潛力,構(gòu)建在延遲且需長時程規(guī)劃的環(huán)境中依然高效的智能體。近期深度生成建模的進展(Tomczak, 2024)已在多領(lǐng)域?qū)崿F(xiàn)突破——如AlphaFold達成高精度蛋白質(zhì)結(jié)構(gòu)預測(Abramson 等, 2024)。鑒于生成模型是AIF的核心,我們的目標是拓展其作為世界模型的能力與保真度,實現(xiàn)對遙遠未來的預測。具體而言,我們提出一種端到端訓練、符合AIF形式體系的生成–策略聯(lián)合架構(gòu),其中生成模型可進行長時程推演,并在優(yōu)化過程中向策略網(wǎng)絡(luò)提供梯度信號。

本文貢獻總結(jié)如下:
? 提出一種符合AIF原理的生成–策略架構(gòu),支持長時程預測,并向策略提供可微分信號;
? 推導出一種聯(lián)合訓練算法:交替更新生成模型與策略網(wǎng)絡(luò),并闡明如何在規(guī)劃階段通過策略梯度更新利用所學模型;
? 在工業(yè)場景中實證驗證該方法的有效性,凸顯其對延遲與長時程任務(wù)的適用性。

本文其余部分組織如下:第2節(jié)回顧AIF形式體系與規(guī)劃策略;第3節(jié)詳述所提方法與智能體架構(gòu);第4節(jié)呈現(xiàn)實驗結(jié)果;第5節(jié)總結(jié)啟示并展望未來方向。

2 背景

基于世界模型(world models)概念的智能體拓展了基于模型的強化學習(MBRL)的核心思想,通過學習一個可微分的預測模型,使其能在模型內(nèi)部進行“想象”(imaginations),從而促進策略優(yōu)化與規(guī)劃(Ha & Schmidhuber, 2018;Hafner 等, 2025)。這類智能體構(gòu)建能同時捕獲空間與時間特性的隱變量表征,用以建模系統(tǒng)動力學并預測未來狀態(tài)(Ha & Schmidhuber, 2018)。其中,支配該動力學的生成模型架構(gòu),及其如何被用于策略學習與規(guī)劃,構(gòu)成了該概念的基礎(chǔ)。許多設(shè)計借鑒了變分自編碼器(VAE)結(jié)構(gòu)(Kingma & Welling, 2013),并常輔以循環(huán)狀態(tài)空間模型(RSSM)以增強記憶能力、輔助信用分配(Hafner 等, 2019, 2025;Nguyen 等, 2024)。與此同時,強化學習方法(如Actor–Critic)被整合進該模型,以優(yōu)化策略(Hafner 等, 2020, 2025;Nguyen 等, 2024),從而產(chǎn)生高度樣本高效的智能體——其決策更多依賴“想象”推演,而非大量與環(huán)境交互。

主動推理(AIF)則提供了一種互補的、植根于神經(jīng)科學的視角,它涵蓋了預測編碼理論——該理論主張:大腦在不確定性下通過最小化相對于其內(nèi)生世界生成模型的預測誤差來運作(Millidge 等, 2022)。AIF將大腦刻畫為一個層級系統(tǒng),持續(xù)執(zhí)行變分貝葉斯推斷以抑制預測誤差(Parr 等, 2022)。其最初被提出,旨在解釋生物體如何通過不斷更新信念并從感官觀測中推斷行動,來主動控制與導航環(huán)境(Parr 等, 2022)。AIF強調(diào)觀測對行動的依賴性(Millidge 等, 2022);相應(yīng)地,它主張:在校準生成模型的同時,行動的選擇應(yīng)與偏好一致,并降低不確定性,從而統(tǒng)一感知、行動與學習(Millidge 等, 2022)。自由能原理(FEP)為此框架提供了數(shù)學基石(Friston 等, 2010;Millidge, 2021),且日益增多的實證研究支持其生物學合理性(Isomura 等, 2023);贏IF的智能體已被應(yīng)用于機器人、自動駕駛與臨床決策支持系統(tǒng)(Pezzato 等, 2023;Schneider 等, 2022;Huang 等, 2024),在不確定、動態(tài)環(huán)境中展現(xiàn)出穩(wěn)健性能。本文采納Fountas 等(2020)提出的AIF形式體系;該體系后續(xù)由Da Costa 等(2022)與Taheri Yeganeh 等(2024)拓展,并已被證實在不同環(huán)境(如視覺與工業(yè)任務(wù))中均能產(chǎn)出高效智能體。

2.1 形式體系

在主動推理(AIF)框架內(nèi),智能體采用一個集成的概率框架,該框架包含一個內(nèi)部生成模型(Da Costa 等,2023),并配備推理機制,使其能夠表征世界并據(jù)此行動。該框架假設(shè)為部分可觀測馬爾可夫決策過程(Kaelbling 等,1998;Da Costa 等,2023;Paul 等,2023),其中智能體與環(huán)境的交互被形式化為三個隨機變量——觀測、隱狀態(tài)和動作——在時刻 t 記作 (o?, s?, a?)。與強化學習(RL)不同,該形式體系不依賴環(huán)境提供的顯式獎勵反饋;相反,智能體僅從其接收到的觀測序列中進行學習。智能體的生成模型由參數(shù) θ 參數(shù)化,定義于截止時間 t 的軌跡上,記為 Pθ(o?:?, s?:?, a?:???)。智能體的行為受“最小化驚奇”的指令驅(qū)動,該驚奇被表述為當前觀測的負對數(shù)證據(jù):?log Pθ(o?)(Fountas 等,2020)。當與世界交互時,智能體從以下兩個角度實現(xiàn)這一指令(Parr 等,2022;Fountas 等,2020):

  1. 利用當前觀測,智能體通過優(yōu)化參數(shù) θ 來校準其生成模型,以獲得更準確的預測。數(shù)學上,該驚奇可按如下方式展開(Kingma & Welling, 2013):


這提供了一個上界,通常被稱為負證據(jù)下界(ELBO)(Blei 等,2017)。它被廣泛用作訓練變分自編碼器的損失函數(shù)(Kingma & Welling, 2013)。在主動推理(AIF)中,它對應(yīng)于變分自由能(VFE),其最小化可降低預測相對于實際觀測所產(chǎn)生的驚奇(Fountas 等,2020;Sajid 等,2022;Paul 等,2023)。

  1. 展望未來,當智能體需要規(guī)劃行動時,可獲得對未來預測的驚奇估計。考慮一個動作序列——或稱策略——記為 π,其中 τ ≥ t,這對應(yīng)于 ?log P(o? | θ, π),該值可類比于 VFE 進行估計(Schwartenbeck 等,2019):


從概念上講,期望自由能(EFE)中各項的貢獻可解釋如下(Fountas 等,2020):

  • 外在價值

    (式4a)——即 期望驚奇 ,用于度量在策略 π 下所預測結(jié)果與智能體對結(jié)果的先驗偏好之間的不匹配程度。該項類比于強化學習(RL)中的獎勵:它量化了預測結(jié)果與偏好結(jié)果之間的偏離程度。但與“最大化累積獎勵”不同,智能體旨在 最小化相對于偏好觀測的驚奇 。

  • 狀態(tài)認知不確定性

    (式4b)——即獲取新觀測前后,智能體對隱狀態(tài)信念之間的 互信息 。該項激勵智能體探索那些可降低其對隱狀態(tài)不確定性的環(huán)境區(qū)域(Fountas 等,2020)。

  • 參數(shù)認知不確定性

    (式4c)——即在給定新觀測下,關(guān)于模型參數(shù)的 期望信息增益 。該項亦對應(yīng)于 主動學習好奇心 (Fountas 等,2020),反映了模型參數(shù) θ 在生成預測中的作用。

后兩項分別刻畫了兩種不同形式的認知不確定性(epistemic uncertainty),為智能體提供了內(nèi)在驅(qū)動力,促使其主動探索并精煉其生成模型。它們在功能上類比于RL中的內(nèi)在獎勵,用于平衡探索–利用權(quán)衡。類似的信息探索或好奇心信號,構(gòu)成了諸多成功RL算法的基礎(chǔ)——從好奇心驅(qū)動的獎勵增益(Pathak 等,2017;Burda 等,2018),到Soft Actor-Critic所優(yōu)化的熵正則化目標(Haarnoja 等,2018)——并已被證實可催生高效、樣本節(jié)約型的智能體。

2.2 規(guī)劃策略
基于模型的強化學習(MBRL)智能體通常在行動前利用其世界模型“想象”未來軌跡,以額外的計算開銷換取樣本效率與性能的顯著提升。蒙特卡洛樹搜索(MCTS)(Coulom, 2006;Silver 等, 2017)是一種典型的搜索算法,它以受限方式有選擇性地探索有前景的軌跡。其有效性在AlphaGo Zero(Silver 等, 2017)中得到突出體現(xiàn),后續(xù)MuZero進一步將學習所得的隱狀態(tài)動力學模型直接嵌入搜索循環(huán)中(Schrittwieser 等, 2020)。在主動推理(AIF)框架中,智能體在執(zhí)行動作前的規(guī)劃目標即為最小化期望自由能(EFE);數(shù)學上,該目標對應(yīng)于負的累積EFE,即 G,定義如下:


其中 σ(·) 表示 Softmax 函數(shù)。智能體在策略 π 下,通過其生成模型進行軌跡推演(roll-outs),以評估期望自由能(EFE)。然而,對所有可能的 π 計算此值是不可行的,因為策略空間會隨規(guī)劃深度呈指數(shù)增長。Fountas 等(2020)引入了一個輔助模塊,并結(jié)合 MCTS 以緩解這一障礙。他們提出一個識別模塊(Piché 等, 2018;Marino 等, 2018;Tschantz 等, 2020),參數(shù)化為 φ?,形式如下:Habit, Qφ?(a?),該模塊利用從 MCTS 返回的先驗分布 P(a?) 來近似動作的后驗分布(Fountas 等, 2020)。這類似于生物智能體中快速且習慣性的決策機制(Van Der Meer 等, 2012)。他們使用該模塊在規(guī)劃過程中快速擴展搜索樹,隨后計算葉節(jié)點的 EFE 并沿軌跡反向傳播。迭代地,最終形成一棵加權(quán)樹,并對訪問過的節(jié)點進行記憶更新。他們還利用規(guī)劃器策略與“習慣”之間的 Kullback–Leibler 散度作為精度,調(diào)節(jié)隱狀態(tài)(Fountas 等, 2020)。

另一種增強規(guī)劃的方法是采用混合時域(hybrid horizon)(Taheri Yeganeh 等, 2024),即在規(guī)劃過程中,將基于即時下一步預測的短視 EFE 項,與一個額外項結(jié)合,以兼顧更長時域。Taheri Yeganeh 等(2024)采用了一個 Q 值網(wǎng)絡(luò) Qφ?(a?),用于表征動作的攤銷推理(amortized inference),該網(wǎng)絡(luò)以無模型方式、僅依賴外在價值進行訓練。這些項隨后在規(guī)劃器中組合如下:


平衡長期外在價值與短期認識驅(qū)動。

現(xiàn)代世界模型智能體越來越多地將前瞻轉(zhuǎn)移到潛在空間;PlaNet(Hafner 等人, 2019)在使用潛在超調(diào)訓練的 RSSM 內(nèi)部使用交叉熵方法 rollout,而 Dreamer 家族(Hafner 等人, 2020; 2025)通過數(shù)百條想象軌跡傳播解析價值梯度,無需樹搜索。EfficientZero(Ye 等人, 2021)將 AlphaZero 風格的 MCTS 與潛在空間想象相結(jié)合,僅用 100k 幀就超越了人類 Atari 表現(xiàn)。這些方法通常將多步模型 rollout 與一個演員(策略)耦合,并且經(jīng)常與一個在想象過程中查詢的評論家(價值)網(wǎng)絡(luò)結(jié)合。在每個模擬步驟中,

策略提出下一個動作,而評論家提供一個引導值,從而實現(xiàn)高效的多步前瞻,而無需枚舉完整的動作樹。Taheri Yeganeh 等人 (2024) 沒有順序采樣動作和狀態(tài),而是訓練了多步潛在轉(zhuǎn)換,條件為重復動作;在規(guī)劃期間,單個轉(zhuǎn)換預測結(jié)果,同時保持一個動作固定若干時間步。這樣,通過重復動作模擬捕捉了動作在長時間范圍內(nèi)的影響。雖然它可以與 MCTS 結(jié)合,但這種近似有助于在高度隨機控制任務(wù)中,基于單一前瞻的 EFE 區(qū)分不同動作(Taheri Yeganeh 等人, 2024)。它僅限于離散動作,無法超越重復動作,并且仍需要在每次動作前通過 EFE 計算進行規(guī)劃。

3 深度主動推理智能體
從整合習慣的 MCTS 到混合視野與基于梯度的潛在想象,當前最先進的智能體日益將策略學習與規(guī)劃相結(jié)合,以捕捉對可擴展性與樣本高效控制至關(guān)重要的長期效應(yīng)。其中,一種突出的方法是潛在想象(latent imagination),尤以 Dreamer 系列智能體(Hafner 等,2025;2019;2020)為代表——它們利用遞歸狀態(tài)空間模型(RSSM)在潛在空間中執(zhí)行序列 rollout。然而,除其計算成本較高外,該方法還面臨誤差隨網(wǎng)絡(luò)反復推斷與采樣而累積的風險。這些模型通過在每條潛在狀態(tài)軌跡上采樣動作,將策略網(wǎng)絡(luò)嵌入潛在空間,因而策略優(yōu)化依賴于模型想象中大量采樣步驟。

一種更簡潔的策略是:假定生成模型已知策略函數(shù)的確切形式——換言之,即模型擁有策略網(wǎng)絡(luò)本身的參數(shù)。我們可訓練此類模型:一旦給定用于在該視野內(nèi)與環(huán)境交互的策略參數(shù),便可通過單步前瞻(single look-ahead)直接生成對遠期未來的預測。由此,期望自由能(EFE)可直接在整個視野上計算,并可通過反向傳播梯度以最小化 EFE,從而引導智能體朝向其內(nèi)在與外在目標。鑒于策略通過 EFE 的梯度下降進行優(yōu)化,該方法可自然擴展至離散與連續(xù)動作空間,而不再局限于早期主動推理(AIF)智能體實現(xiàn)中所采用的離散動作選擇(如 Fountas 等,2020)。本文采用這種與主動推理一致的生成式策略建模(generative-policy modeling)方案,未引入通常用于進一步增強世界模型或 AIF 智能體的額外機制。

3.1 架構(gòu)

該智能體至少包含一個直接與環(huán)境交互的策略網(wǎng)絡(luò),以及一個用于優(yōu)化該策略的生成模型。在策略條件下,生成模型構(gòu)成了主動推理(AIF)的核心,并可通過多種架構(gòu)實例化。在本工作中,我們采用一種通用但常用的自編碼器組合結(jié)構(gòu)(Fountas 等人, 2020),以實例化第 2.1 節(jié)中的形式化體系,該體系要求如圖 1 所示的緊密耦合模塊。通過利用攤銷推斷(Kingma & Welling, 2013; Marino 等人, 2018; Gershman & Goodman, 2014)來擴展推斷能力(Fountas 等人, 2020),生成模型由兩組參數(shù)化:θ = {θs, θo} 用于先驗生成,φ = {φs} 用于識別。相應(yīng)地,編碼器 Qφs(st) 通過將當前采樣的觀測值 ?t 映射到潛在狀態(tài) st 的后驗分布,執(zhí)行攤銷推斷(Margossian & Blei, 2023)。此處的關(guān)鍵區(qū)別在于,我們不再在潛在動力學內(nèi)部采樣動作,而是引入了一個策略函數(shù)——或稱演員(Actor)——Qφa(at | ?t),該函數(shù)自身以參數(shù) φa 推斷出動作的分布。因此,我們?yōu)樵摵瘮?shù)本身引入了一個顯式表示,映射關(guān)系為 Π: Qφa → π?,從而得到 π?(φa)。這種方法在神經(jīng)隱式表示中很常見(Dupont 等人, 2022);最近的研究還表明,具有多樣化計算圖的神經(jīng)函數(shù)可以被高效嵌入(Kofinas 等人, 2024)。在演員條件下,轉(zhuǎn)移模塊Pθs(st+1 | s?t, π?) 將潛在動力學外推至規(guī)劃視野 H,根據(jù)時間 t 采樣的潛在狀態(tài),生成 st+H 的分布,而演員——以 φa 表示——在整個視野內(nèi)被假定為固定不變。最后,解碼器 Pθo(ot+H | s?t+H) 將預測的潛在狀態(tài)轉(zhuǎn)換回未來觀測值的分布。生成模型中的這三個模塊均由一個神經(jīng)網(wǎng)絡(luò)實現(xiàn),該網(wǎng)絡(luò)輸出對角多元高斯分布的參數(shù),從而近似一個預選的似然族。它們可以通過最小化 VFE(公式 1)進行端到端訓練,而演員則通過最小化 EFE(公式 4)進行優(yōu)化——使用來自已校準模型的預測。通過這種方式,智能體統(tǒng)一了形式化體系中推導出的兩種自由能范式。


除了演員(Actor)和轉(zhuǎn)移模塊(Transition)——它們通過單步前瞻處理潛在動力學——之外,該架構(gòu)類似于變分自編碼器(VAE)(Kingma & Welling, 2013);然而,其他生成機制,例如擴散模型或基于記憶的 RSSM 模型,也可擴展以支持相同的目標。

3.2 策略優(yōu)化

我們提出了一種簡潔而有效的公式化方法,將演員嵌入生成模型中,使其作為規(guī)劃器通過梯度下降最小化期望自由能(EFE)。在固定策略 π?(φ?) 的條件下,模型生成預測分布 Pθ(o??? | φ?),并由此計算 EFE,記作函數(shù) Gθ(?, φ?)。策略優(yōu)化隨后根據(jù)梯度 ?φ? Gθ(?, φ?) 更新演員參數(shù)。大多數(shù)世界模型智能體通過在想象過程中采樣動作引入隨機性,從而促進探索——通常輔以策略梯度中的輔助項。這導致了對想象軌跡上策略的蒙特卡洛估計,然后基于回報對其進行微分(Hafner 等人, 2020)。相比之下,我們的方法假設(shè)策略的確切形式已整合進動力學中,而探索則由基于生成模型的主動推理(AIF)形式化框架驅(qū)動。

為了有效估計公式 4 中 EFE 的不同組成部分,F(xiàn)ountas 等人 (2020) 采用了多層次的蒙特卡洛采樣。雖然他們的原始公式包含了在多步視野上的采樣動作,但在使用具有深度時間超調(diào)的集成式演員時,相同的結(jié)構(gòu)和采樣方案仍具優(yōu)勢。類似地,我們采用祖先采樣來生成預測 Pθ(o??? | φ?),并在網(wǎng)絡(luò)中利用 dropout(Gal & Ghahramani, 2016)。它與從潛在分布中進一步采樣相結(jié)合,以計算計算 EFE 項所需的熵。關(guān)鍵的是,在 AIF 框架下,智能體需要一種對預測的先驗偏好來引導行為——這通過外在價值(即公式 4a)進行形式化表達。因此,我們定義了一個解析映射 Ψ:Pθ(oτ) → [0,1],將預測分布轉(zhuǎn)換為連續(xù)的偏好譜。

不同于依賴累積獎勵回報的強化學習(RL),這種公式化允許智能體表達更通用、更細致的偏好形式。在實踐中,為 RL 智能體設(shè)計合適的獎勵函數(shù)仍是一項困難的任務(wù),往往導致稀疏或手工設(shè)計的信號,其設(shè)計和計算成本高昂。然而,偏好的靈活性也帶來了挑戰(zhàn)——尤其當智能體擁有復雜的偏好空間,并且必須依賴短視的 EFE 近似時。我們的方法通過優(yōu)化深度時間預測下的規(guī)劃,緩解了這一問題,并支持對外在價值進行更長期的評估。

3.2.1 訓練與規(guī)劃

在訓練過程中,生成模型逐步學習不同的演員參數(shù) φ? 如何影響動態(tài)演化;而在策略優(yōu)化階段,該已習得的動態(tài)模型則被用于對演員進行微分,以降低其 EFE(期望自由能)或“意外”(surprise)。有效策略學習的關(guān)鍵在于世界模型的準確性——這是主動推理(AIF)框架(Friston 等,2010;Parr 等,2022;Fountas 等,2020)及預測編碼(Millidge 等,2022)的理論基礎(chǔ)。

為改進模型訓練,我們引入了經(jīng)驗回放機制(experience replay)(Mnih 等,2015),使用經(jīng)驗記憶/緩沖區(qū) M,從中采樣經(jīng)驗批次進行訓練,同時確保每個批次均包含最近一次的經(jīng)驗。我們針對這些經(jīng)驗計算公式 1 中的 VFE(變分自由能),并采用 β-正則化對模型進行訓練。

在模型更新后,我們在長度為 H 的想象軌跡中,對一批觀測值(包括先前與當前觀測)計算 EFE 并對其進行微分,從而以類似于世界模型方法的方式(Hafner 等,2020;2025;Ha & Schmidhuber,2018)訓練演員。由此形成一個聯(lián)合訓練算法(算法 1),交替更新生成模型與策略,并借助該模型通過策略梯度引導規(guī)劃。

這種方法——即策略學習(policy learning),而非顯式的動作規(guī)劃——緩解了 EFE 的“有限視野”(bounded-sight)限制:由于策略在規(guī)劃視野內(nèi)多樣化的場景中被迭代訓練,其有效視野可延伸至名義視野 H 之外。近期基于 AIF 的智能體研究也強調(diào)了將策略網(wǎng)絡(luò)與 EFE 目標相結(jié)合的優(yōu)勢(Nguyen 等,2024)。

訓練完成后,當智能體模型被固定,仍可利用該模型進行規(guī)劃。具體而言,可每隔 H 步在觀測層面上施加一次基于 EFE 的梯度更新,從而對策略進行即時微調(diào),以適配當前短期視野。

4 實驗

大多數(shù)現(xiàn)有的主動推理(AIF)智能體已在一系列通常由生物體(如人類和動物)執(zhí)行的任務(wù)中展現(xiàn)出有效性。這些任務(wù)往往涉及基于圖像的觀測(Nguyen 等,2024)。例如,F(xiàn)ountas 等人(2020)在 Dynamic dSprites(Higgins 等,2016)和 Animal-AI(Crosby 等,2019)上評估了其智能體——這些任務(wù)生物體通常可較輕松完成。AIF 還已成功應(yīng)用于機器人領(lǐng)域(Lanillos 等,2021;Da Costa 等,2022),包括物體操作(Nguyen 等,2024;Schneider 等,2022),與人類自然行為高度一致。這種有效性主要歸因于 AIF 深植于對生物大腦中決策機制的理論建模(Parr 等,2022)。

然而,將 AIF 應(yīng)用于更復雜的領(lǐng)域——例如工業(yè)系統(tǒng)控制——則面臨顯著挑戰(zhàn)。即便人類在這些場景中也可能難以設(shè)計出高效策略。此類環(huán)境通常具有高度隨機性,短期觀測軌跡易被噪聲主導,從而使得以自由能優(yōu)化為目標的學習與動作選擇變得困難。相比之下,世界模型智能體通常采用基于記憶(例如循環(huán))架構(gòu)(Hafner 等,2020;2025),因此該問題對其影響較小。此外,現(xiàn)實環(huán)境常混合離散與連續(xù)觀測模態(tài),加劇了生成與采樣預測的復雜性。延遲反饋與長視野需求進一步挑戰(zhàn)了 AIF 框架下的規(guī)劃能力。另外,諸多現(xiàn)實任務(wù)需高頻、快速決策,并在非回合制且高度隨機的環(huán)境中維持長期穩(wěn)定表現(xiàn)。

我們在一個經(jīng)過驗證的、高保真的工廠級工業(yè)仿真器中(Loffredo 等,2023b)評估了本方法,并在(Taheri Yeganeh 等,2024)提出的可證明存在延遲、長視野設(shè)定下進行測試。該源于真實世界的測試平臺為驗證本概念提供了具挑戰(zhàn)性且具代表性的基準:它要求智能體進行長視野規(guī)劃,以引導一類高度隨機問題走向期望性能目標(詳見附錄 B)。

4.1 結(jié)果

為驗證本智能體在上述環(huán)境中的性能,我們采用了嚴格的評估方案(詳見附錄 D),其核心基于算法 1。不同于以往借助與多個環(huán)境實例并行交互以提升訓練效率的工作(Fountas 等,2020),我們的智能體在每個訓練輪次(epoch)中僅與單一環(huán)境實例交互,反映了更具挑戰(zhàn)性的設(shè)定。隨后,我們在若干隨機初始化的環(huán)境中評估訓練所得智能體性能,并選取表現(xiàn)最佳的實例進行為期一個月的仿真運行,以評估其能效與產(chǎn)量損失,并與基線場景(即無任何控制、設(shè)備持續(xù)運行)進行對比。

我們還構(gòu)建了一個組合式偏好得分(compositional preference score)——類比于強化學習中的獎勵函數(shù)——基于時間窗口內(nèi)的關(guān)鍵績效指標(KPI),涵蓋能耗與產(chǎn)量,作為智能體整體性能的綜合指標;該得分本身亦構(gòu)成智能體觀測的一部分。為在潛在空間中進一步施加正則化、使其逼近標準正態(tài)分布,我們在 Sigmoid 函數(shù)的非飽和區(qū)間內(nèi)使用該函數(shù)。由于我們需編碼演員函數(shù)(actor function)——其本質(zhì)是一個計算圖(Kofinas 等,2024)——我們采用了一個簡潔的、非參數(shù)化的映射 Π:將輸入與第一隱層及輸出層的值進行拼接。鑒于其輸入–輸出結(jié)構(gòu)及模型對該映射的持續(xù)訓練,該映射可有效近似演員的神經(jīng)函數(shù)(詳見附錄 C)。

我們嚴格依據(jù)上述方案,在完全復現(xiàn)真實生產(chǎn)系統(tǒng)的環(huán)境中實現(xiàn)了本智能體(參數(shù)經(jīng)驗證符合實際工況)。圖 2 展示了在超前視野 H = 300 條件下的智能體性能:在每輪訓練(100 次迭代)后的評估中,智能體所生成觀測的偏好得分持續(xù)提升(圖 2a),且該提升與能效增長正相關(guān)(圖 2b)。值得注意的是,用于策略更新的想象軌跡的 EFE(圖 2c)隨智能體對系統(tǒng)控制能力的增強而下降;這一趨勢同時體現(xiàn)在 EFE 的外在價值項與不確定性項中。


由于策略優(yōu)化高度依賴于一個魯棒生成模型的學習——且演員被顯式整合于其中——智能體逐步提升了其預測能力,并在觀測空間的連續(xù)部分(圖 2d,偏好得分)與離散部分(圖 2e,f,機器與緩沖狀態(tài))均降低了重建誤差。盡管 EFE 與整體性能最終趨于穩(wěn)定,生成模型仍持續(xù)改進,表明對未來觀測的完全重建并非實現(xiàn)有效控制的必要條件。

最后,我們在十次重復的、為期一個月的仿真交互中評估了訓練完成的智能體,并在規(guī)劃過程中每 H 步施加一次梯度更新。Loffredo 等人(2023a)在同一環(huán)境中測試了多種無模型強化學習智能體(包括 DQN、PPO 與 TRPO),在不同獎勵參數(shù) φ 下,DQN 表現(xiàn)最優(yōu)且接近理論最優(yōu)解。如表 1 所示,深度主動推理(DAIF)智能體超越了最佳基線:在保持產(chǎn)量損失可忽略的前提下,單位產(chǎn)量的能源效率提升了 10.21% ± 0.14%

深度的影響:即使超前視野更長(例如 H = 1000 步),智能體仍能提升性能。我們進行了不同超前視野 H 的實驗,以評估智能體的性能。如圖 3 所示,我們報告了驗證階段最佳輪次所對應(yīng)的偏好得分,并提取了能耗效率提升的百分比。結(jié)果表明,即使在更長的超前視野下,智能體仍能學習到魯棒的策略。


5 結(jié)論與未來工作

我們提出了深度主動推理(Deep Active Inference, DAIF)智能體,其將多步潛在轉(zhuǎn)移與一個顯式、可微分的策略整合于單一生成模型內(nèi)部。通過將動態(tài)模型超前預測至長視野,并將期望自由能(EFE)梯度反向傳播至策略中,該智能體無需進行窮舉式的樹搜索即可完成規(guī)劃;它可自然擴展至連續(xù)動作空間,并保持主動推理中驅(qū)動行為的認知性探索–利用平衡(epistemic–exploration balance)。我們在一個高保真工業(yè)控制問題上對 DAIF 進行了評估,其特征復雜性在以往基于主動推理的研究中鮮有觸及。實證表明,DAIF 在高度隨機、反饋延遲且需長視野規(guī)劃的環(huán)境中,成功實現(xiàn)了模型學習與控制之間的閉環(huán)協(xié)同:僅需每 H 步施加一次梯度更新,訓練完成的智能體即可有效規(guī)劃并取得優(yōu)異性能——超越無模型強化學習基線;與此同時,其世界模型即便在策略趨于穩(wěn)定后,仍持續(xù)提升預測精度。

局限性與未來工作
盡管預測 H 步轉(zhuǎn)移避免了昂貴的逐步規(guī)劃循環(huán),智能體仍需在每 H 次交互后收集經(jīng)驗并存入回放緩沖區(qū)以供訓練,因此其樣本效率仍有提升空間。為在每次新環(huán)境交互后更新世界模型——從而反映視野內(nèi)不斷演化的演員參數(shù)——我們需要一個算子來聚合該序列的演員表征。循環(huán)模型(recurrent models)是自然的選擇,但其序列展開會引入延遲,并可能阻礙梯度流動。一種更輕量的替代方案是將 H 個嵌入視為(近似)無序集合,并采用集合函數(shù)(set function)進行聚合(Zaheer 等,2017);在集合池化之前,可將簡單的位置嵌入(如正弦位置編碼,Vaswani 等,2017)與嵌入拼接,以保留時序結(jié)構(gòu)。該方法允許我們將視野分段處理——甚至細化至單步粒度——同時仍可通過聚合當前策略表征支持 EFE 梯度的反向傳播。

此外,(神經(jīng))算子學習(operator-learning)技術(shù)有望實現(xiàn)函數(shù)空間中分辨率不變的聚合(Li 等,2020;Lu 等,2021)。其他可能的拓展方向包括:

  • 將當前 VAE 基礎(chǔ)的世界模型替換為基于擴散模型或流匹配(flow-matching)的生成器(Huang 等,2024);
  • 采納演員–評論家(actor–critic)優(yōu)化框架(如 Dreamer 及相關(guān)世界模型智能體所采用的:Hafner 等,2020;2025;Nguyen 等,2024);
  • 引入正則化方案以穩(wěn)定 EFE 梯度更新并降低其方差。

在非平穩(wěn)環(huán)境中快速適應(yīng)——這正是無模型智能體常面臨困難之處——仍是一個極具前景的研究方向。

總體而言,本工作架起了神經(jīng)科學啟發(fā)的主動推理當代世界模型強化學習之間的橋梁,證明了一個緊湊、端到端的概率性智能體,可在那些人工設(shè)計獎勵函數(shù)與逐步規(guī)劃均不切實際的領(lǐng)域中實現(xiàn)高效控制。

原文鏈接:https://openreview.net/pdf?id=HbUeoq8WIC

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

退休夫婦花10萬“郵輪養(yǎng)老”:船上住15年,包吃包打掃,環(huán)游世界4圈,比房租便宜得多!

背包旅行
2026-01-23 10:33:42
趙薇胃癌傳聞?wù)嫦啻蟀,再迎壞消息連累李湘

趙薇胃癌傳聞?wù)嫦啻蟀,再迎壞消息連累李湘

觀察者海風
2026-01-26 20:24:53
詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

詹姆斯今年至今末節(jié)得分還是聯(lián)盟第一!公牛球迷為他倒戈!

氧氣是個地鐵
2026-01-27 14:30:05
日本!暴跌開始了!

日本!暴跌開始了!

大嘴說天下
2026-01-26 20:16:55
愛火:一場非關(guān)消耗的持久燃燒

愛火:一場非關(guān)消耗的持久燃燒

疾跑的小蝸牛
2026-01-27 22:57:37
李瑋峰指出,王鈺棟面對日本后衛(wèi)對抗成功率低,對歐洲后衛(wèi)更不行

李瑋峰指出,王鈺棟面對日本后衛(wèi)對抗成功率低,對歐洲后衛(wèi)更不行

足球分析員
2026-01-27 11:05:03
不管你信不信,男性過了61歲后,基本都有這7個現(xiàn)狀,要坦然接受

不管你信不信,男性過了61歲后,基本都有這7個現(xiàn)狀,要坦然接受

健康之光
2026-01-11 12:40:02
終于來了!芬蘭總理落地北京說了兩句話,特朗普怕啥來啥

終于來了!芬蘭總理落地北京說了兩句話,特朗普怕啥來啥

黑翼天使
2026-01-28 04:02:55
數(shù)據(jù)驚人!汽油消耗量暴跌得嚇人,未來油價會大幅降嗎?

數(shù)據(jù)驚人!汽油消耗量暴跌得嚇人,未來油價會大幅降嗎?

超喜歡我的狗子
2026-01-25 16:42:57
“8大癥狀說明你已經(jīng)老了”,你占了幾項?我全占了!!

“8大癥狀說明你已經(jīng)老了”,你占了幾項?我全占了!!

社評
2026-01-02 12:24:58
煥新Model Y亮相,你會考慮購買嗎

煥新Model Y亮相,你會考慮購買嗎

沙雕小琳琳
2026-01-28 01:59:15
銀價一個月內(nèi)狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

銀價一個月內(nèi)狂飆50%,白銀基金緊急停牌,有銀飾商家宣布閉店

21世紀經(jīng)濟報道
2026-01-27 14:41:30
媒體人:重慶銅梁龍足球俱樂部的外援中衛(wèi)薩達烏斯卡斯即將離隊

媒體人:重慶銅梁龍足球俱樂部的外援中衛(wèi)薩達烏斯卡斯即將離隊

格斗聯(lián)盟
2026-01-27 20:11:05
舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經(jīng)折騰了九年。

舒淇在節(jié)目里第一次承認,她和馮德倫為了要孩子已經(jīng)折騰了九年。

歲月有情1314
2025-11-29 15:40:25
馬斯克預測世界大戰(zhàn)時間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

馬斯克預測世界大戰(zhàn)時間,大戰(zhàn)最可能爆發(fā)在兩地區(qū)

妙知
2025-12-29 00:08:32
印度報告尼帕病毒疫情:護士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

印度報告尼帕病毒疫情:護士A參加婚禮誤飲蝙蝠污染的新鮮椰棗汁,疑傳染共同上夜班的同事B

縱相新聞
2026-01-27 16:17:01
千萬別姐弟戀,很累!

千萬別姐弟戀,很累!

果粉之家
2026-01-06 11:26:21
真的累了?瓜帥暫時沒能擺脫“四大皆空”問題,曼城穩(wěn)定打折扣

真的累了?瓜帥暫時沒能擺脫“四大皆空”問題,曼城穩(wěn)定打折扣

里芃芃體育
2026-01-28 03:00:03
美籍華人14小時飛越萬里來武漢求醫(yī) 中國醫(yī)生高效救治及時挽救患者視力

美籍華人14小時飛越萬里來武漢求醫(yī) 中國醫(yī)生高效救治及時挽救患者視力

極目新聞
2026-01-27 09:59:07
山西某村口一起交通事故!致人當場死亡!

山西某村口一起交通事故!致人當場死亡!

秀容通
2026-01-27 19:22:28
2026-01-28 05:07:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

本地
親子
旅游
公開課
軍事航空

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

親子要聞

雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

旅游要聞

紅燈籠映北海:皇家園林里的年味,藏著中國人的精神原鄉(xiāng)!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美海軍"林肯"號航母打擊群抵達中東地區(qū)

無障礙瀏覽 進入關(guān)懷版