国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AXIOM:對(duì)象模型分鐘級(jí)策略學(xué)習(xí)開源,10000步內(nèi)掌握多種游戲

0
分享至

AXIOM: Learning to Play Games in Minutes withExpanding Object-Centric Models

AXIOM:借助擴(kuò)展對(duì)象中心模型實(shí)現(xiàn)分鐘級(jí)游戲策略學(xué)習(xí)

https://arxiv.org/pdf/2505.24784

https://github.com/VersesTech/axiom



摘要

當(dāng)前的深度強(qiáng)化學(xué)習(xí)(DRL)在多個(gè)領(lǐng)域?qū)崿F(xiàn)了最先進(jìn)的性能,但在數(shù)據(jù)效率方面仍不如人類學(xué)習(xí),因?yàn)槿祟惸軌蚶藐P(guān)于物體及其相互作用的核心先驗(yàn)知識(shí)。主動(dòng)推理(active inference)提供了一個(gè)有原則的框架,將感知信息與先驗(yàn)知識(shí)結(jié)合,用于學(xué)習(xí)世界模型,并量化自身信念和預(yù)測(cè)的不確定性。然而,主動(dòng)推理模型通常為特定任務(wù)手工設(shè)計(jì),缺乏DRL所具備的跨領(lǐng)域靈活性。為此,我們提出了一種新架構(gòu)AXIOM,它整合了關(guān)于以物體為中心的動(dòng)力學(xué)和交互的最簡(jiǎn)但具有表達(dá)能力的核心先驗(yàn),以加速在低數(shù)據(jù)場(chǎng)景下的學(xué)習(xí)。AXIOM結(jié)合了貝葉斯方法的數(shù)據(jù)效率和可解釋性,以及DRL的跨任務(wù)泛化能力。該模型將場(chǎng)景表示為物體的組合,其動(dòng)力學(xué)建模為分段線性軌跡,捕捉稀疏的物體間交互。生成模型結(jié)構(gòu)通過從單個(gè)事件中增長(zhǎng)并學(xué)習(xí)混合模型,并通過貝葉斯模型簡(jiǎn)化定期優(yōu)化,從而實(shí)現(xiàn)泛化。AXIOM在僅10,000次交互步驟內(nèi)掌握多種游戲,參數(shù)數(shù)量遠(yuǎn)少于DRL方法,且無需基于梯度優(yōu)化的計(jì)算開銷。

1 引言

強(qiáng)化學(xué)習(xí)(RL)作為一種靈活的框架,在復(fù)雜任務(wù)中取得了顯著成功。然而,現(xiàn)有方法存在多個(gè)缺陷:需要大量訓(xùn)練數(shù)據(jù)、依賴大容量經(jīng)驗(yàn)回放緩沖區(qū),并專注于最大化累積獎(jiǎng)勵(lì)而缺乏結(jié)構(gòu)化探索。這與人類學(xué)習(xí)形成對(duì)比——人類依靠核心先驗(yàn)快速泛化到新任務(wù)核心先驗(yàn)代表了塑造感知與學(xué)習(xí)的基本組織原則(超先驗(yàn)),是構(gòu)建更復(fù)雜知識(shí)結(jié)構(gòu)的基礎(chǔ)。例如,這些先驗(yàn)使人類能直觀理解“物體在無外力時(shí)沿平滑軌跡運(yùn)動(dòng)”,并有助于因果推理、掌握行為與結(jié)果之間的關(guān)系。將視覺場(chǎng)景分解為物體表示已被證明在樣本效率、泛化性和魯棒性方面具有潛力。這些問題天然適合貝葉斯智能體架構(gòu),如主動(dòng)推理(active inference),它為整合先驗(yàn)知識(shí)提供了理論基礎(chǔ),支持持續(xù)適應(yīng)而不遺忘舊知識(shí)。已有研究指出這種方法與人類認(rèn)知過程高度一致,其中信念隨新證據(jù)不斷更新。盡管有這些理論優(yōu)勢(shì),主動(dòng)推理的應(yīng)用多局限于小規(guī)模任務(wù),依賴精心設(shè)計(jì)的先驗(yàn),難以達(dá)到DRL在多樣領(lǐng)域的廣泛適用性。

為彌合這一差距,我們提出了一種新的主動(dòng)推理架構(gòu),融合了最小但具表達(dá)性的關(guān)于物體及交互的核心先驗(yàn)。具體來說,我們提出了AXIOM(基于對(duì)象中心模型的主動(dòng)擴(kuò)展推理),其包含三個(gè)關(guān)鍵組件:(1) 高斯混合模型,將視覺輸入解析為以物體為中心的表示,并自動(dòng)擴(kuò)展以容納新物體;(2) 轉(zhuǎn)移混合模型,發(fā)現(xiàn)運(yùn)動(dòng)原型(如下落、滑動(dòng)、彈跳);(3) 多物體潛在特征上的稀疏關(guān)系混合模型,學(xué)習(xí)由物體狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和動(dòng)態(tài)模式共同驅(qū)動(dòng)的因果相關(guān)交互。AXIOM的學(xué)習(xí)算法具有三重效率:第一,它采用變分貝葉斯更新逐幀順序?qū)W習(xí),無需經(jīng)驗(yàn)回放緩沖或梯度計(jì)算,支持對(duì)數(shù)據(jù)分布變化的在線適應(yīng);第二,其混合結(jié)構(gòu)可通過添加新成分解釋新數(shù)據(jù)、合并冗余成分降低模型復(fù)雜度,實(shí)現(xiàn)快速結(jié)構(gòu)學(xué)習(xí);第三,通過維護(hù)參數(shù)后驗(yàn)分布,AXIOM可以在策略選擇中引入信息尋求目標(biāo),從而進(jìn)行考慮不確定性的探索。

為驗(yàn)證模型效果,我們引入Gameworld 10k基準(zhǔn)測(cè)試,一套專為評(píng)估智能體在10,000次交互內(nèi)玩不同像素游戲效率的新環(huán)境。許多現(xiàn)有RL基準(zhǔn)(如Arcade Learning Environment或MuJoCo)強(qiáng)調(diào)長(zhǎng)視野信用分配、復(fù)雜物理或視覺復(fù)雜性,往往掩蓋了快速學(xué)習(xí)與泛化的真正挑戰(zhàn)。因此,Gameworld 10k中的每個(gè)游戲均遵循類似模式:視覺場(chǎng)景中包含多個(gè)物體、一個(gè)可控得分玩家物體,以及遵循連續(xù)軌跡且交互稀疏的其他物體。我們?cè)O(shè)計(jì)了10款視覺元素簡(jiǎn)化的游戲(使用不同形狀大小的單色精靈圖),以聚焦于動(dòng)態(tài)建模與控制機(jī)制的研究,而非過度復(fù)雜的物體分割模型。Gameworld環(huán)境還允許精確控制游戲特征與動(dòng)力學(xué),便于測(cè)試系統(tǒng)如何適應(yīng)對(duì)游戲因果或視覺結(jié)構(gòu)的稀疏干預(yù)(如物體形狀與顏色)。在該基準(zhǔn)上,我們的智能體在低數(shù)據(jù)環(huán)境下(10,000步)表現(xiàn)優(yōu)于主流強(qiáng)化學(xué)習(xí)模型,且不依賴任何基于梯度的優(yōu)化方法。雖然我們尚未將AXIOM部署到RL文獻(xiàn)中常見的復(fù)雜控制任務(wù)規(guī)模,但我們的成果標(biāo)志著朝向構(gòu)建具備緊湊、可解釋世界模型并在多領(lǐng)域?qū)崿F(xiàn)快速?zèng)Q策智能體的重要進(jìn)展。我們的主要貢獻(xiàn)如下:

  • 提出AXIOM:一種全新的以物體為中心的主動(dòng)推理智能體,具備在線學(xué)習(xí)、可解釋、樣本高效、適應(yīng)性強(qiáng)且計(jì)算成本低的特點(diǎn)。

  • 為展示AXIOM的有效性,我們引入了一個(gè)可修改的新基準(zhǔn)套件,專門針對(duì)具有物體與稀疏交互的環(huán)境中樣本高效學(xué)習(xí)問題。

  • 我們展示了這種無需梯度的方法在樣本效率與絕對(duì)性能上均可超越最先進(jìn)的深度學(xué)習(xí)方法,且在線學(xué)習(xí)方案對(duì)環(huán)境擾動(dòng)具有魯棒性。

2 方法


















2.1 模型的增長(zhǎng)與剪枝

快速結(jié)構(gòu)學(xué)習(xí)。秉承快速結(jié)構(gòu)學(xué)習(xí) [23] 的理念,AXIOM 使用一種在線增長(zhǎng)啟發(fā)式方法動(dòng)態(tài)擴(kuò)展其全部四個(gè)混合模塊(sMM、iMM、tMM、rMM):依次處理每一個(gè)新數(shù)據(jù)點(diǎn),判斷它是由現(xiàn)有成分最好地解釋,還是應(yīng)當(dāng)創(chuàng)建一個(gè)新的成分,并隨后更新所選成分的參數(shù)。


貝葉斯模型縮減(BMR)。每 ΔTBMR=500 幀,我們最多采樣 2000 個(gè)已使用的 rMM 成分,使用祖先采樣從模型生成的數(shù)據(jù)中計(jì)算它們之間的互期望對(duì)數(shù)似然,并貪婪地測(cè)試合并候選。若某一合并操作能減少在剩余變量采樣數(shù)據(jù)條件下,關(guān)于獎(jiǎng)勵(lì)和下一 tMM 開關(guān)狀態(tài)的多項(xiàng)分布的期望自由能,則接受該合并;否則回滾。BMR 使得 AXIOM 能夠從單一事件中泛化動(dòng)力學(xué)規(guī)律,例如通過合并多個(gè)單事件聚類,學(xué)習(xí)到當(dāng)球撞擊屏幕底部時(shí)會(huì)獲得負(fù)獎(jiǎng)勵(lì)(見第 3 節(jié),圖 4a)。


2.2 規(guī)劃

AXIOM 使用主動(dòng)推理(active inference)進(jìn)行規(guī)劃 [33];它在不同的策略(動(dòng)作序列)條件下展開對(duì)未來軌跡的預(yù)測(cè),然后使用期望自由能(expected free energy)對(duì)這些策略進(jìn)行推理,所選擇的策略 是使期望自由能最小化的那個(gè)策略:


每時(shí)間步的期望效用在規(guī)劃時(shí)通過已學(xué)習(xí)的模型和 slot 潛變量進(jìn)行評(píng)估,并在整個(gè)規(guī)劃視野中隨時(shí)間步累加。期望信息增益(公式(10)右邊第二項(xiàng))是根據(jù) rMM 的后驗(yàn) Dirichlet 計(jì)數(shù)計(jì)算得出的,用于衡量采取當(dāng)前考慮中的策略時(shí),能在多大程度上獲得關(guān)于 rMM 開關(guān)狀態(tài)的信息。有關(guān)規(guī)劃的更多細(xì)節(jié)見附錄 A.11。


3 結(jié)果

為了評(píng)估 AXIOM,我們?cè)?Gameworld 環(huán)境中將其與兩種最先進(jìn)的基于樣本高效、像素輸入的深度強(qiáng)化學(xué)習(xí)基線方法進(jìn)行比較:BBF 和 DreamerV3。

基準(zhǔn)測(cè)試環(huán)境

Gameworld 環(huán)境的設(shè)計(jì)目標(biāo)是讓人類學(xué)習(xí)者在幾分鐘內(nèi)就能解決,從而確保學(xué)習(xí)過程不依賴于脆弱的探索機(jī)制或復(fù)雜的信用分配。該套件包括 10 個(gè)多樣化的游戲,借助大型語(yǔ)言模型生成,靈感來自 ALE 和經(jīng)典電子游戲,同時(shí)保持了輕量級(jí)和結(jié)構(gòu)化的設(shè)計(jì)。

Gameworld 環(huán)境可在 https://github.com/VersesTech/gameworld 獲取。圖 2 展示了其中包含的游戲的多樣性與視覺簡(jiǎn)潔性。為評(píng)估魯棒性,Gameworld 10k 支持受控干預(yù),如物體顏色或形狀的變化,以測(cè)試智能體在表面領(lǐng)域變化下的泛化能力。

基線方法

BBF [34] 建立在 SR-SPR [35] 的基礎(chǔ)上,代表了目前最樣本高效的無模型方法之一。我們針對(duì) Gameworld 10k 套件對(duì)其預(yù)處理進(jìn)行了調(diào)整,將幀跳過替換為對(duì)連續(xù)兩幀的最大池化;其余所有已發(fā)表的超參數(shù)保持不變。

其次,DreamerV3 [36] 是一種基于世界模型的智能體,在僅使用像素輸入的游戲和控制任務(wù)中表現(xiàn)優(yōu)異;我們使用已發(fā)布的設(shè)置,但將訓(xùn)練比設(shè)為 1024,批量大小為 16(有效訓(xùn)練比為 64:1)。

我們選擇這兩個(gè)基線是因?yàn)樗鼈兇砹藦脑枷袼刂羞M(jìn)行樣本高效學(xué)習(xí)的最先進(jìn)水平。請(qǐng)注意,對(duì)于 BBF 和 DreamerV3,我們將圖像幀分別縮放至 84×84 和 96×96 像素(遵循已發(fā)布實(shí)現(xiàn)),而 AXIOM 則直接操作 Gameworld 的完整分辨率 210×160 幀。

獎(jiǎng)勵(lì)表現(xiàn)

圖 3 顯示了在 Gameworld 10k 套件上,從第 0 步到第 10000 步的每步獎(jiǎng)勵(lì)的 1000 步移動(dòng)平均值(均值 ± 1 標(biāo)準(zhǔn)差,共 10 個(gè)種子)。表 1 顯示了 AXIOM、BBF 和 DreamerV3 在 10k 交互步結(jié)束時(shí)所達(dá)到的累積獎(jiǎng)勵(lì)。

AXIOM 在每一個(gè) Gameworld 環(huán)境中都達(dá)到了高于或與 BBF 和 DreamerV3 相當(dāng)?shù)钠骄鄯e獎(jiǎng)勵(lì)。值得注意的是,AXIOM 不僅在多個(gè)游戲中達(dá)到了更高的峰值得分,而且收斂速度明顯更快,通常在前 5000 步就已獲得大部分最終獎(jiǎng)勵(lì),而 BBF 和 DreamerV3 幾乎需要完整的 10000 步才能達(dá)到類似效果。

對(duì)于那些在 10k 步時(shí) BBF 和 Dreamer 表現(xiàn)接近隨機(jī)的游戲,我們確認(rèn)其性能最終確實(shí)有所提升,排除了這些游戲本身對(duì)這些架構(gòu)來說本質(zhì)上過于困難的可能性(詳見附錄 E.1)。

綜合來看,這表明 AXIOM 的以物體為中心的世界模型,結(jié)合其快速的在線結(jié)構(gòu)學(xué)習(xí)和推理算法,可以顯著減少實(shí)現(xiàn)高性能所需的交互次數(shù)。

固定交互距離可以帶來更高的累積獎(jiǎng)勵(lì),因?yàn)橹悄荏w無需花費(fèi)動(dòng)作去學(xué)習(xí)該距離,但這樣做要求為每個(gè)游戲單獨(dú)調(diào)優(yōu)這一交互距離。這說明了如何將關(guān)于特定領(lǐng)域的額外知識(shí)融入像 AXIOM 這樣的貝葉斯模型中,以進(jìn)一步提高樣本效率。

引入公式 (10) 中的信息增益項(xiàng)可以使智能體在某些游戲中更快地獲得獎(jiǎng)勵(lì)(例如 Bounce),但在其他游戲(例如 Gold)中反而會(huì)導(dǎo)致平均獎(jiǎng)勵(lì)增長(zhǎng)更慢,因?yàn)樗膭?lì)訪問信息豐富但獎(jiǎng)勵(lì)為負(fù)的狀態(tài)。

BMR 對(duì)需要空間泛化的游戲(如 Gold 和 Hunt)至關(guān)重要,但在 Cross 游戲中卻會(huì)損害性能,因?yàn)樵缙诤喜⒕垲悤?huì)削弱信息增益項(xiàng)并抑制探索。有關(guān)詳細(xì)討論請(qǐng)參見附錄 E.2。

計(jì)算成本 表 2 比較了在單塊 A100 GPU 上測(cè)得的模型大小以及每步訓(xùn)練時(shí)間(模型更新與規(guī)劃)。


盡管由于使用了大量基于模型的 rollout,AXIOM 存在一定的規(guī)劃開銷,但其模型更新遠(yuǎn)比 BBF 更高效,在每樣本的墻上時(shí)間(wall-clock time)方面具有更優(yōu)的權(quán)衡。

AXIOM 的以物體為中心的擴(kuò)展模型會(huì)根據(jù)環(huán)境復(fù)雜度收斂到一個(gè)足夠的復(fù)雜度,而 BBF 和 DreamerV3 的模型大小則是固定的(且大得多)。

可解釋性 與傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)方法不同,AXIOM 擁有一個(gè)結(jié)構(gòu)化的、以物體為中心的模型,其潛在變量和參數(shù)可以用人類可讀的方式直接解釋(例如:形狀、顏色、位置)。AXIOM 的轉(zhuǎn)移混合模型還將復(fù)雜的軌跡分解為更簡(jiǎn)單的線性子序列。

圖 4a 展示了在 Impact 游戲中,由 AXIOM 想象出的軌跡以及基于獎(jiǎng)勵(lì)條件的 rMM 聚類結(jié)果。圖 4a 中間面板展示了潛在空間中的想象軌跡,可以直接從對(duì)應(yīng)物體的顏色和位置來解讀。

由于循環(huán)混合模型(rMM)將開關(guān)狀態(tài)建立在各種與游戲和物體相關(guān)的特征之上,我們可以將這些開關(guān)變量設(shè)定為依賴于不同的游戲特征,并通過可視化展示 rMM 所學(xué)到的關(guān)聯(lián)關(guān)系(例如,獎(jiǎng)勵(lì)與空間位置之間的聯(lián)系)。

圖 4a 最右側(cè)面板展示了與獎(jiǎng)勵(lì)(綠色)和懲罰(紅色)相關(guān)的 rMM 聚類在空間中的分布。這些聚類的分布解釋了 AXIOM 對(duì)“在空間中的哪些位置會(huì)遇到獎(jiǎng)勵(lì)”的信念,例如當(dāng)玩家未接到球時(shí)預(yù)期會(huì)在屏幕底部出現(xiàn)懲罰(圖 4a 最右下面板的紅色聚類)。

圖 4b 顯示了在訓(xùn)練過程中活躍的 rMM 成分?jǐn)?shù)量急劇下降。通過主動(dòng)合并聚類以最小化簡(jiǎn)化模型所對(duì)應(yīng)的期望自由能,貝葉斯模型縮減(BMR)在保持或提升性能的同時(shí)提高了計(jì)算效率(見表 1)。這種合并后的成分使得模型能夠超越訓(xùn)練數(shù)據(jù)進(jìn)行插值,從而增強(qiáng)泛化能力。

這種自動(dòng)簡(jiǎn)化揭示了實(shí)現(xiàn)最優(yōu)性能所需的最簡(jiǎn)動(dòng)力學(xué)集合,使 AXIOM 的決策過程變得透明且穩(wěn)健。

圖 4c 表明,隨著訓(xùn)練的推進(jìn),每步的信息增益逐漸減少,而期望效用則逐步上升,反映出世界模型變得可靠后,智能體從探索階段轉(zhuǎn)向了利用階段。

干擾魯棒性 最后,我們?cè)谙到y(tǒng)性地對(duì)游戲機(jī)制施加干擾的情況下測(cè)試了 AXIOM 的表現(xiàn)。在這里,我們?cè)诘?5000 步時(shí)對(duì)每個(gè)物體的顏色或形狀進(jìn)行了擾動(dòng)。

圖 4d 顯示,AXIOM 對(duì)形狀擾動(dòng)具有很強(qiáng)的魯棒性,因?yàn)樗阅芡ㄟ^ iMM 正確推斷出物體類型。而在面對(duì)顏色擾動(dòng)時(shí),AXIOM 會(huì)新增身份類型并重新學(xué)習(xí)其動(dòng)力學(xué)特性,導(dǎo)致性能略有下降,隨后逐漸恢復(fù)。

由于 AXIOM 的世界模型具有良好的可解釋性結(jié)構(gòu),我們可以預(yù)先為其注入關(guān)于可能顏色擾動(dòng)的知識(shí),在 iMM 推理步驟中僅使用形狀信息,并在之后根據(jù)形狀重新映射被擾動(dòng)的 slot,從而恢復(fù)性能。

有關(guān)更多細(xì)節(jié),請(qǐng)參見附錄 E.3。

局限性與未來工作。我們的工作受到這樣一個(gè)事實(shí)的限制:核心先驗(yàn)本身是由人工設(shè)計(jì)的,而不是從數(shù)據(jù)中自主發(fā)現(xiàn)的。未來的工作將聚焦于開發(fā)能夠從數(shù)據(jù)中自動(dòng)推斷這類核心先驗(yàn)的方法,這將使我們的方法能夠應(yīng)用于更復(fù)雜的領(lǐng)域,如 Atari 或 Minecraft [36],在這些領(lǐng)域中,潛在的生成過程不那么透明,但仍受類似的因果原理所支配。我們相信,這一方向代表了構(gòu)建自適應(yīng)智能體的關(guān)鍵一步,這樣的智能體能夠在無需顯式設(shè)計(jì)領(lǐng)域知識(shí)的情況下,快速構(gòu)建新環(huán)境的結(jié)構(gòu)化模型。

A 完整模型細(xì)節(jié)

AXIOM 的世界模型是一個(gè)隱馬爾可夫模型(hidden Markov model),其具有以物體為中心的潛在狀態(tài)空間。該模型本身包含兩個(gè)主要組成部分:

  1. 以物體為中心、類似 slot-attention 的似然模型
  2. 遞歸切換狀態(tài)空間模型(recurrent switching state space model)。

這一遞歸切換狀態(tài)空間模型被應(yīng)用于由似然模型識(shí)別出的每一個(gè)物體或“slot”,并使用分段線性軌跡來建模每個(gè)物體的動(dòng)力學(xué)行為。

不同于大多數(shù)其他潛在狀態(tài)空間模型(包括其他以物體為中心的模型),AXIOM 的一個(gè)顯著特點(diǎn)是其可適應(yīng)的復(fù)雜度——它通過在線增長(zhǎng)和剪枝機(jī)制(見算法1 和 算法2)來迭代擴(kuò)展與縮減模型,使其結(jié)構(gòu)能夠匹配其所交互世界的復(fù)雜度。這包括自動(dòng)推斷場(chǎng)景中物體的數(shù)量,以及描述所有物體運(yùn)動(dòng)所需的動(dòng)態(tài)模式數(shù)量。



這種方法受到最近提出的快速結(jié)構(gòu)學(xué)習(xí)方法[23] 的啟發(fā),后者旨在從零開始自動(dòng)學(xué)習(xí)數(shù)據(jù)集的層次化生成模型。

符號(hào)說明前言

大寫加粗符號(hào)表示矩陣或向量值隨機(jī)變量的集合,小寫加粗符號(hào)表示多元變量。

A.1 生成模型

該模型將感知與動(dòng)力學(xué)因式分解為兩個(gè)獨(dú)立的生成模塊:





A.2 Slot Mixture Model (sMM)




A.3 運(yùn)動(dòng)與存在潛變量






這個(gè)二值門控變量隨后調(diào)節(jié)與身份模型(iMM)、轉(zhuǎn)移混合模型(tMM)和遞歸混合模型(rMM)相關(guān)的各種似然函數(shù)的輸入精度,從而有效地對(duì)這些模型在未跟蹤或不存在的 slot 上的學(xué)習(xí)過程進(jìn)行“掩碼”處理。

最終效果是:那些被推斷為正在運(yùn)動(dòng)且存在的 slot 保持完整的精度,而其他任何組合狀態(tài)都會(huì)將該 slot 的輸入?yún)f(xié)方差壓縮至 0,從而在參數(shù)學(xué)習(xí)中去除其充分統(tǒng)計(jì)量的影響。

A.4 相互作用變量






A.7 轉(zhuǎn)移混合模型




A.8 循環(huán)混合模型

循環(huán)混合模型(Recurrent Mixture Model,簡(jiǎn)稱 rMM)用于直接從當(dāng)前槽級(jí)別的特征中推斷轉(zhuǎn)移模型的開關(guān)狀態(tài)。這種將開關(guān)狀態(tài)依賴于連續(xù)特征的建模方式,與循環(huán)切換線性動(dòng)態(tài)系統(tǒng)(recurrent Switching Linear Dynamical System,rSLDS)[19] 中所使用的結(jié)構(gòu)相同。然而,與 rSLDS 不同的是:rSLDS 通常使用一種判別式映射(例如 softmax 或 stick-breaking 參數(shù)化形式)來從連續(xù)狀態(tài)中推斷開關(guān)狀態(tài),而 rMM 則通過一個(gè)在混合連續(xù)-離散槽狀態(tài)上的混合模型[30] 來生成式地恢復(fù)這種依賴關(guān)系

通過這種方式,“選擇”用于對(duì) tMM 進(jìn)行條件建模的開關(guān)狀態(tài),實(shí)際上是通過對(duì)具有特定條件關(guān)系(在此背景下,是一種聯(lián)合混合似然關(guān)系)的其他隱變量和觀測(cè)變量進(jìn)行推理而自然產(chǎn)生的。具體來說,rMM 將連續(xù)變量和離散變量的分布建模為由另一個(gè)每槽隱含分配變量 驅(qū)動(dòng)的混合模型。rMM 定義了一個(gè)關(guān)于連續(xù)和離散槽特定信息元組的混合似然。





多元正態(tài)分布成分的參數(shù)配備了NIW 先驗(yàn)(正態(tài)-逆-威沙特先驗(yàn)),而離散的分類似然(Categorical likelihood)的參數(shù)則配備了狄利克雷先驗(yàn)。與 AXIOM 的所有其他模塊一樣,我們?yōu)榈幕旌蠙?quán)重配備了一個(gè)截?cái)嗟?stick-breaking 先驗(yàn),其中最后一個(gè)第 M個(gè)偽計(jì)數(shù)參數(shù)用于調(diào)節(jié)添加新 rMM 成分的傾向性。

另外,我們還使用了門控變量 來過濾用于動(dòng)態(tài)學(xué)習(xí)的槽:通過放大那些未被推斷為正在移動(dòng)且存在的槽所對(duì)應(yīng)的協(xié)方差,從而降低其在模型中的影響。

固定距離變體(Fixed distance variant)

















Aviate(飛行)
在這個(gè)環(huán)境中,玩家控制一只小鳥,需要穿越一系列垂直的管道。小鳥在重力作用下下落,玩家可以通過執(zhí)行“拍打”動(dòng)作讓小鳥跳躍。目標(biāo)是引導(dǎo)小鳥穿過管道之間的狹窄水平空隙,避免與管道結(jié)構(gòu)的任何部分或屏幕的頂部/底部邊緣發(fā)生碰撞。一旦與管道碰撞,或飛出屏幕頂部或底部,將獲得負(fù)獎(jiǎng)勵(lì),并結(jié)束游戲。

Bounce(反彈)
這個(gè)環(huán)境模擬了一個(gè)簡(jiǎn)化版的經(jīng)典游戲 Pong,玩家控制一個(gè)球拍,與由 AI 控制的對(duì)手對(duì)打一個(gè)球。玩家有三個(gè)離散動(dòng)作:向上移動(dòng)球拍、向下移動(dòng)球拍,或保持不動(dòng),這會(huì)影響球接觸時(shí)的垂直軌跡。目標(biāo)是將球擊過對(duì)手的球拍以得分(+1 獎(jiǎng)勵(lì)),同時(shí)防止對(duì)手擊中自己(-1 獎(jiǎng)勵(lì))。游戲是回合制的,一方得分后游戲重置。

Cross(穿越)
受經(jīng)典 Atari 游戲 Freeway 啟發(fā),該環(huán)境要求玩家扮演一個(gè)黃色方塊,穿越多車道的道路而不被汽車撞到。玩家有三個(gè)離散動(dòng)作:向上移動(dòng)、向下移動(dòng)或保持原地不動(dòng),用于在八個(gè)不同的車道之間進(jìn)行垂直移動(dòng)。各種顏色和速度的汽車持續(xù)從左向右行駛并在屏幕邊緣循環(huán)出現(xiàn)。目標(biāo)是到達(dá)屏幕頂部以獲得正獎(jiǎng)勵(lì);若與汽車碰撞,則玩家會(huì)被重置回屏幕底部并受到負(fù)獎(jiǎng)勵(lì)。

Driver(駕駛)
這是一個(gè)基于車道的駕駛模擬環(huán)境,玩家從俯視視角控制一輛汽車,在多車道道路上行駛。玩家可以選擇三個(gè)離散動(dòng)作:停留在當(dāng)前位置、向左移動(dòng)或向右移動(dòng),從而實(shí)現(xiàn)變道。目標(biāo)是盡可能行駛更遠(yuǎn)的距離,避免與其他出現(xiàn)在車道上并以不同速度向下行駛的車輛發(fā)生碰撞。與另一輛車碰撞會(huì)帶來負(fù)獎(jiǎng)勵(lì)并結(jié)束游戲。

Explode(爆炸)
這個(gè)游戲靈感來自街機(jī)經(jīng)典游戲 Kaboom!,玩家控制屏幕底部的一個(gè)水平水桶,任務(wù)是接住從移動(dòng)轟炸機(jī)上掉落的炸彈。玩家可以執(zhí)行三個(gè)離散動(dòng)作:保持靜止、向左移動(dòng)或向右移動(dòng),以便精確地在水平方向上攔截下落的投射物。轟炸機(jī)會(huì)持續(xù)在屏幕頂部來回移動(dòng),并周期性釋放炸彈,這些炸彈在下落過程中會(huì)加速。成功用水桶接到炸彈可獲得正獎(jiǎng)勵(lì),而讓炸彈掉出屏幕則會(huì)導(dǎo)致負(fù)獎(jiǎng)勵(lì)。


Fruits(水果)在這個(gè)游戲中,玩家扮演一個(gè)角色,必須在躲避危險(xiǎn)巖石的同時(shí)收集下落的水果。玩家可以執(zhí)行三個(gè)離散動(dòng)作之一:向左移動(dòng)、向右移動(dòng)或保持不動(dòng),控制屏幕底部的水平移動(dòng)。各種顏色的水果從頂部掉落,被玩家的“隱形籃子”接住時(shí)會(huì)獲得正獎(jiǎng)勵(lì)。相反,以深灰色矩形表示的巖石如果被接住,則會(huì)結(jié)束游戲并帶來負(fù)獎(jiǎng)勵(lì)。

Gold(黃金)在這個(gè)游戲中,玩家控制一個(gè)由黃色方塊表示的角色,以俯視視角在一個(gè)草地上移動(dòng),目標(biāo)是收集金幣并避開狗。玩家可選擇五個(gè)離散動(dòng)作之一:靜止不動(dòng)、向上、向右、向下或向左移動(dòng),從而實(shí)現(xiàn)靈活的屏幕導(dǎo)航。金幣是靜態(tài)的可收集物品,接觸時(shí)給予正獎(jiǎng)勵(lì);而狗則在屏幕上動(dòng)態(tài)移動(dòng),作為障礙物存在,若發(fā)生碰撞則結(jié)束游戲并帶來負(fù)獎(jiǎng)勵(lì)。

Hunt(狩獵)這個(gè)游戲采用類似網(wǎng)格的多車道環(huán)境,玩家以俯視視角控制角色進(jìn)行導(dǎo)航。玩家有四個(gè)離散動(dòng)作可供選擇:向左、向右、向上或向下移動(dòng),實(shí)現(xiàn)在游戲區(qū)域內(nèi)的二維自由移動(dòng)。屏幕上不斷出現(xiàn)沿車道水平移動(dòng)的物品和障礙物。玩家的目標(biāo)是收集有益物品以獲得正獎(jiǎng)勵(lì),同時(shí)巧妙規(guī)避有害障礙物,避免受到負(fù)獎(jiǎng)勵(lì)的影響,鼓勵(lì)策略性路徑規(guī)劃。

Impact(沖擊)該環(huán)境模擬經(jīng)典街機(jī)游戲《打磚塊》(Breakout),玩家控制屏幕底部的一個(gè)水平球拍,用來反彈球以擊碎磚墻。玩家有三個(gè)離散動(dòng)作:將球拍向左移動(dòng)、向右移動(dòng)或保持靜止。目標(biāo)是通過用球擊中磚塊來將其全部清除,每擊碎一塊磚獲得一次正獎(jiǎng)勵(lì)。如果球漏過球拍,玩家將獲得負(fù)獎(jiǎng)勵(lì)且游戲重置。當(dāng)所有磚塊都被清除后游戲結(jié)束。

Jump(跳躍)這是一個(gè)橫向卷軸式的無盡奔跑游戲,玩家控制一個(gè)角色持續(xù)向前奔跑,并面對(duì)各種障礙物。玩家有兩個(gè)離散動(dòng)作:不采取任何操作,或發(fā)起跳躍以避開不同類型的障礙物。與障礙物碰撞將導(dǎo)致負(fù)獎(jiǎng)勵(lì),并立即重置游戲。

E 補(bǔ)充結(jié)果與消融實(shí)驗(yàn)E.1 在 100K 步長(zhǎng)下的基線性能

將實(shí)際運(yùn)行時(shí)間延長(zhǎng)至 100,000 次交互步數(shù)后,模型基礎(chǔ)方法(model-based)與無模型方法(model-free)之間的對(duì)比更加明顯。

  • Hunt游戲中,DreamerV3 在整個(gè)訓(xùn)練過程中幾乎沒有任何顯著進(jìn)展,其表現(xiàn)始終接近于隨機(jī)策略的基準(zhǔn),而BBF則持續(xù)提升,并最終達(dá)到了與我們的以對(duì)象為中心的智能體在僅 10,000 步內(nèi)所達(dá)到的平均回合回報(bào)相當(dāng)?shù)乃健?/p>

  • Gold游戲中,兩個(gè)基線方法在 100,000 步內(nèi)確實(shí)實(shí)現(xiàn)了學(xué)習(xí),但它們的最終性能仍低于我們的智能體在短短 10,000 步內(nèi)所達(dá)到的表現(xiàn)水平(見圖6)。


    E.2 消融實(shí)驗(yàn)無信息增益(No information gain)

    當(dāng)禁用信息增益時(shí),我們得到了圖7中的紫色曲線。總體來看,從表面上看,信息增益對(duì)大多數(shù)游戲的影響似乎不大。然而,這其實(shí)是可以預(yù)期的:如圖4c所示,在Explode游戲中,信息增益僅在前幾百步中驅(qū)動(dòng)性能提升,之后便由期望效用主導(dǎo)。

    從累積獎(jiǎng)勵(lì)的角度來看,信息增益實(shí)際上在許多因玩家與物體互動(dòng)而產(chǎn)生負(fù)獎(jiǎng)勵(lì)的游戲中損害了表現(xiàn)。這是因?yàn)檫@些交互事件在初期會(huì)被預(yù)測(cè)為信息量豐富,從而鼓勵(lì)智能體多次嘗試經(jīng)歷它們。這一點(diǎn)在Cross游戲中尤為明顯:在經(jīng)歷了最初幾次碰撞后,沒有信息增益的消融模型立即決定完全不再嘗試穿越道路。

    圖8可視化了rMM生成的聚類結(jié)果,清楚地展示了在Cross游戲中,沒有信息增益會(huì)扼殺探索行為。因此,我們認(rèn)為信息增益在困難探索任務(wù)中將發(fā)揮更重要的作用,這是一個(gè)值得未來研究的方向。


    無貝葉斯模型簡(jiǎn)化(No Bayesian Model Reduction, BMR)

    圖7中的橙色曲線顯示了禁用貝葉斯模型簡(jiǎn)化(BMR)的影響。BMR 對(duì) Gold 和 Hunt 這兩個(gè)允許玩家在二維區(qū)域內(nèi)自由移動(dòng)的游戲具有關(guān)鍵影響。在這些情況下,BMR 能夠通過合并相似聚類來實(shí)現(xiàn)對(duì)動(dòng)態(tài)和物體交互的空間泛化能力。


    唯一的例外再次是 Cross 游戲:在這里,禁用 BMR 反而產(chǎn)生了表現(xiàn)最好的智能體。這一現(xiàn)象再次與信息增益的相互作用有關(guān)。由于 BMR 會(huì)合并相似的聚類,未發(fā)生碰撞的向上移動(dòng)會(huì)被歸入一個(gè)經(jīng)常訪問的單一聚類。這使得該聚類從信息增益的角度來看變得不那么“有信息量”,導(dǎo)致智能體更傾向于先去與不同的車輛發(fā)生碰撞。

    然而,當(dāng)禁用 BMR 時(shí),每個(gè)空間位置都會(huì)擁有自己的聚類,智能體會(huì)被吸引去訪問那些較少觀察到的位置,例如屏幕頂部。如果我們繪制圖8c中最終的 rMM 聚類結(jié)果,也可以定性地看到這種差異。

    這引出了一個(gè)問題:在學(xué)習(xí)過程中何時(shí)進(jìn)行 BMR 最合適?顯然,BMR 對(duì)于將已觀察到的事件泛化到新情境至關(guān)重要,但如果在學(xué)習(xí)早期階段就啟用它,反而可能阻礙學(xué)習(xí)過程。這種相互作用機(jī)制仍需進(jìn)一步研究。

    規(guī)劃展開次數(shù)與采樣數(shù)量(Planning rollouts and samples)

    在規(guī)劃階段,我們?cè)诿總€(gè)時(shí)間步都進(jìn)行 rollout(軌跡展開)采樣,因此存在一個(gè)明顯的權(quán)衡關(guān)系:即策略數(shù)量與每次 rollout 的采樣數(shù)量之間的平衡——既要考慮計(jì)算時(shí)間成本(見圖5),又要保證所找到計(jì)劃的質(zhì)量。

    我們進(jìn)行了網(wǎng)格搜索,調(diào)整 rollout 數(shù)量 [64, 128, 256, 512] 和每條 rollout 的采樣次數(shù) [1, 3, 5],并評(píng)估了三個(gè)隨機(jī)種子下的表現(xiàn)。結(jié)果顯示在圖9中,表明性能差異并不顯著,但平均而言,更多的 rollout 和每條 rollout 中抽取多個(gè)樣本略優(yōu)于單一樣本的情況。

    因此,在我們的主要評(píng)估中,我們使用了512 條策略,每條策略采樣3 個(gè)樣本。但圖5和圖9的結(jié)果表明,當(dāng)計(jì)算時(shí)間受限時(shí),將策略數(shù)量減少到 128 或 64 是一種可行的方式,可以在不犧牲性能的前提下提高效率。


    E.3 擾動(dòng)實(shí)驗(yàn)(Perturbations)

    Gameworld 10k 基準(zhǔn)測(cè)試的一個(gè)優(yōu)勢(shì)在于它能夠在不同環(huán)境中施加統(tǒng)一的擾動(dòng),從而讓我們可以量化不同模型對(duì)視覺特征變化的魯棒性。

    在當(dāng)前實(shí)驗(yàn)中,我們引入了兩種類型的擾動(dòng):

    評(píng)估模型魯棒性的方法

    我們?cè)谟?xùn)練中途(即第5,000步)應(yīng)用每種擾動(dòng),并繪制出 Axiom、Dreamer 和 BBF 在各游戲中平均獎(jiǎng)勵(lì)的變化曲線(見圖11)。

    我們的結(jié)果還表明:

    重映射槽身份擾動(dòng)(Remapped Slot Identity Perturbations)

    在圖11中以紫色線表示的這項(xiàng)擾動(dòng)實(shí)驗(yàn),旨在展示 AXIOM 世界模型的“白盒”性質(zhì)及其可解釋性。


    在這個(gè)實(shí)驗(yàn)中,我們首先像之前一樣執(zhí)行標(biāo)準(zhǔn)的“顏色擾動(dòng)”,然后我們將關(guān)于“物體顏色不可靠”的知識(shí)編碼進(jìn) AXIOM 的世界模型中。

    具體來說:

    在實(shí)踐中,這意味著顏色發(fā)生變化的對(duì)象不會(huì)被快速分配新的身份,從而使得相同的基于身份的動(dòng)力學(xué)(即 rMM 中的聚類)仍然可以用于預(yù)測(cè)和解釋這些對(duì)象的行為,即使它們的顏色發(fā)生了變化。

    這也解釋了為什么在某些游戲中,使用這種“顏色重映射”技巧后,擾動(dòng)幾乎沒有任何負(fù)面影響,尤其是在那些可以通過形狀輕松推斷對(duì)象身份的游戲(如 Explode)中。

    圖12 展示了有和沒有“重映射技巧”的 iMM 身份槽;圖11d 則展示了所有游戲的性能影響。


    對(duì)于某些游戲中具有相同形狀的對(duì)象(例如 Hunt 中的獎(jiǎng)勵(lì)物和障礙物,或 Fruits 中的水果和巖石),這種重映射技巧無效,因?yàn)閮H憑形狀信息不足以推斷對(duì)象類型并據(jù)此對(duì)動(dòng)力學(xué)建模。

    在這種情況下,可以考慮使用更多特征來推斷對(duì)象身份,比如位置或動(dòng)力學(xué)特征。然而,擴(kuò)展我們的模型以整合這些信息以進(jìn)一步提升魯棒性,將是我們未來的工作方向。

    • 因?yàn)?AXIOM 學(xué)到的潛在對(duì)象特征可以直接解釋為幀中物體的顏色,

    • 我們可以在提取對(duì)象身份的推理步驟中(即 iMM 的推理步驟),去除與顏色相關(guān)的潛在維度的影響,

    • 并僅使用形狀信息來進(jìn)行對(duì)象類型推斷。

    • BBF 和 Dreamer 對(duì)形狀變化也具有魯棒性

    • 對(duì)于顏色擾動(dòng),Dreamer(與 Axiom 類似)有時(shí)會(huì)出現(xiàn)短暫的性能下降(例如在 Explode 游戲中),但隨后也會(huì)恢復(fù)。

    • 相比之下,BBF 對(duì)這兩種擾動(dòng)都幾乎沒有受到影響。我們推測(cè)這種魯棒性源于擾動(dòng)是在 BBF 尚未收斂時(shí)就施加的,因此視覺特征的變化對(duì)其學(xué)習(xí)過程影響較小。

    • 在形狀擾動(dòng)下,Axiom 表現(xiàn)出較強(qiáng)的魯棒性。我們認(rèn)為這歸功于其身份模型(iMM),該模型即使在物體外觀發(fā)生改變的情況下,仍能成功地將新形狀映射到已有的對(duì)象身份上。

    • 在顏色擾動(dòng)下,Axiom 的表現(xiàn)通常會(huì)下降——這是因?yàn)樯矸菽P妥畛鯐?huì)將擾動(dòng)后的精靈視為新的對(duì)象——但隨后它迅速恢復(fù),因?yàn)樗鼤?huì)將這些新身份重新分配給之前學(xué)習(xí)的動(dòng)力學(xué)模式。

    • 顏色擾動(dòng)

      (Color perturbation):改變所有精靈(sprite)和背景的顏色(見圖10b);

    • 形狀擾動(dòng)

      (Shape perturbation):將基本圖形從正方形變?yōu)閳A形和三角形(見圖10c)。


F 相關(guān)工作以對(duì)象為中心的世界模型(Object-Centric World Models)

深度強(qiáng)化學(xué)習(xí)的早期突破,例如使用深度 Q 網(wǎng)絡(luò)玩 Atari 游戲 [39],是無模型的(model-free),并且需要在數(shù)百萬(wàn)幀圖像上進(jìn)行訓(xùn)練才能達(dá)到人類水平的表現(xiàn)。為此,近年來的研究開始轉(zhuǎn)向基于模型的強(qiáng)化學(xué)習(xí)(model-based reinforcement learning),通過學(xué)習(xí)環(huán)境的“世界模型”來減少所需的環(huán)境交互次數(shù),從而實(shí)現(xiàn)更好的泛化能力 [40, 41]。

一個(gè)著名的例子是 Dreamer 系列模型,它依賴于連續(xù)和離散狀態(tài)空間的混合結(jié)構(gòu)來建模環(huán)境動(dòng)力學(xué) [36, 42, 43]。這類世界模型模擬了人類認(rèn)知的某些方面,例如對(duì)物理現(xiàn)象的直覺理解和物體追蹤 [5, 7]。為此,人們也在這一類架構(gòu)中引入先驗(yàn)知識(shí),使得特定類型的世界結(jié)構(gòu)可以被更快、更好地學(xué)習(xí)。例如,在物體層面上建模交互已被證明可以在多個(gè)任務(wù)中提升樣本效率、泛化能力和魯棒性 [9–12]。

近年來,隨著 IODINE [44] 和 Slot Attention [45] 等模型的提出,物體分割領(lǐng)域也取得了顯著進(jìn)展。這些模型利用自注意力機(jī)制的優(yōu)勢(shì),強(qiáng)制槽位隱變量之間競(jìng)爭(zhēng)解釋圖像像素的能力。Slot Attention 中使用的自注意力形式與用于擬合高斯混合模型的 E 步和 M 步密切相關(guān) [46, 47],這也啟發(fā)了我們:AXIOM 通過槽混合模型(sMM)的推理與學(xué)習(xí)從圖像中分割出物體。

后續(xù)在這些開創(chuàng)性工作基礎(chǔ)上的改進(jìn)包括:

  • Latent Slot Diffusion

    :使用擴(kuò)散模型進(jìn)一步提升了原始方法;

  • SlotSSM [48]

    :不僅將物體分解作為圖像分割的歸納偏置,還用于視頻預(yù)測(cè)。

最近一些提出以對(duì)象為中心、基于模型的方法包括:

  • FOCUS

    :驗(yàn)證了此類方法在機(jī)器人操作任務(wù)中低數(shù)據(jù)量下的泛化優(yōu)勢(shì) [49];

  • OC-STORM 和 SSWM

    :利用以對(duì)象為中心的信息來預(yù)測(cè)環(huán)境的動(dòng)力學(xué)和獎(jiǎng)勵(lì) [14, 50];

  • SPARTAN

    :提出使用大型 Transformer 架構(gòu)來識(shí)別稀疏的局部因果模型,以準(zhǔn)確預(yù)測(cè)未來物體狀態(tài) [13]。

與 OC-STORM 不同的是,后者使用預(yù)訓(xùn)練視覺基礎(chǔ)模型和分割掩碼提取對(duì)象特征,而 AXIOM 則無需對(duì)象級(jí)別的監(jiān)督即可在線識(shí)別并分割物體(盡管目前僅測(cè)試了單色多邊形等簡(jiǎn)單對(duì)象)。此外,AXIOM 還能在線增長(zhǎng)和修剪其以對(duì)象為中心的狀態(tài)空間,并像 OC-STORM 一樣使用其世界模型生成的軌跡進(jìn)行規(guī)劃。

貝葉斯推理(Bayesian Inference)

我們的模型中的推理、學(xué)習(xí)和規(guī)劃源自主動(dòng)推理框架(active inference framework),該框架允許我們將貝葉斯原理與強(qiáng)化學(xué)習(xí)相結(jié)合,通過最小化預(yù)期自由能(expected free energy)來平衡獎(jiǎng)勵(lì)最大化與信息增益 [15, 16]。

為了學(xué)習(xí)環(huán)境的結(jié)構(gòu),我們借鑒了快速結(jié)構(gòu)學(xué)習(xí)方法[24]:首先向模型中添加混合成分 [51],然后使用貝葉斯模型簡(jiǎn)化(Bayesian model reduction)對(duì)其進(jìn)行剪枝 [21, 22, 24]。

我們?cè)跁r(shí)間混合建模方面的做法,與近期關(guān)于結(jié)構(gòu)學(xué)習(xí)高斯混合模型的研究有概念上的相似之處,這些研究在強(qiáng)化學(xué)習(xí)背景下自適應(yīng)地確定感知和轉(zhuǎn)移建模所需的成分?jǐn)?shù)量 [52]。

AXIOM 的模型與最初的快速結(jié)構(gòu)學(xué)習(xí)方法 [23] 的一個(gè)重要區(qū)別在于:

  • AXIOM 使用了更結(jié)構(gòu)化的先驗(yàn)(表現(xiàn)為 sMM 的以對(duì)象為中心的因子化和 tMM 的分段線性結(jié)構(gòu));

  • 并且使用了連續(xù)混合模型似然函數(shù),而非純粹離散的似然。

我們所使用的轉(zhuǎn)移混合模型(tMM)是一種截?cái)嗟臒o限切換線性動(dòng)態(tài)系統(tǒng)(SLDS)[29, 53, 54]。特別是,我們依賴于一種稱為循環(huán) SLDS(recurrent SLDS)的最新形式 [19],它引入了開關(guān)狀態(tài)對(duì)連續(xù)狀態(tài)的依賴關(guān)系,從而解決了標(biāo)準(zhǔn) SLDS 的兩個(gè)關(guān)鍵限制:狀態(tài)無關(guān)的轉(zhuǎn)移上下文盲的動(dòng)力學(xué)建模。

我們的創(chuàng)新之處在于如何處理 rSLDS 中的循環(huán)連接:我們采用了一種生成式模型(generative model)而非判別式模型來建模開關(guān)狀態(tài)。這使得我們可以更加靈活地根據(jù)各種信息源(包括連續(xù)和離散信息)對(duì)開關(guān)狀態(tài)進(jìn)行條件建模,并且開關(guān)狀態(tài)的依賴關(guān)系在連續(xù)特征上是二次的(quadratic),從而克服了原始 rSLDS 中使用 softmax 似然時(shí)對(duì)線性可分性的內(nèi)在假設(shè) [19, 55]。

原文鏈接:https://arxiv.org/pdf/2505.24784

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
被美國(guó)關(guān)押兩個(gè)多月的馬杜羅,再次出庭時(shí),簡(jiǎn)直就像是變了一個(gè)人

被美國(guó)關(guān)押兩個(gè)多月的馬杜羅,再次出庭時(shí),簡(jiǎn)直就像是變了一個(gè)人

藍(lán)色海邊
2026-03-28 22:15:08
比賴清德更狂的人出現(xiàn)了,如果她當(dāng)臺(tái)灣地區(qū)領(lǐng)導(dǎo)人,我軍該怎么辦

比賴清德更狂的人出現(xiàn)了,如果她當(dāng)臺(tái)灣地區(qū)領(lǐng)導(dǎo)人,我軍該怎么辦

聽風(fēng)喃
2026-03-27 17:40:05
伊朗死磕不罷手!以軍防空全面失守,國(guó)家存亡進(jìn)入倒計(jì)時(shí)?

伊朗死磕不罷手!以軍防空全面失守,國(guó)家存亡進(jìn)入倒計(jì)時(shí)?

曉肂愛八卦
2026-03-29 05:57:47
大軍閥潘文華如何用一個(gè)女人和一箱金條,換回三十萬(wàn)川軍弟兄的命

大軍閥潘文華如何用一個(gè)女人和一箱金條,換回三十萬(wàn)川軍弟兄的命

睡前講故事
2026-03-18 16:16:22
廣東:堅(jiān)決擁護(hù)黨中央決定

廣東:堅(jiān)決擁護(hù)黨中央決定

新京報(bào)
2026-03-27 22:09:18
國(guó)民黨“內(nèi)鬼”攤牌!要“聯(lián)綠抗陸”、背刺鄭麗文?1人緊急發(fā)聲

國(guó)民黨“內(nèi)鬼”攤牌!要“聯(lián)綠抗陸”、背刺鄭麗文?1人緊急發(fā)聲

小陸搞笑日常
2026-03-28 18:21:02
16GB+1TB!新機(jī)官宣:4月1日,正式發(fā)布!

16GB+1TB!新機(jī)官宣:4月1日,正式發(fā)布!

科技堡壘
2026-03-27 12:31:19
德黑蘭東部再次傳出巨大爆炸聲

德黑蘭東部再次傳出巨大爆炸聲

澎湃新聞
2026-03-29 05:13:02
接連兩天 兩個(gè)大三甲醫(yī)院黨委書記猝死

接連兩天 兩個(gè)大三甲醫(yī)院黨委書記猝死

醫(yī)脈圈
2026-03-27 20:36:17
依木蘭盤活中場(chǎng) 浙江后衛(wèi)犯錯(cuò) 姚浩洋出球太差 安帥執(zhí)著三后衛(wèi)

依木蘭盤活中場(chǎng) 浙江后衛(wèi)犯錯(cuò) 姚浩洋出球太差 安帥執(zhí)著三后衛(wèi)

替補(bǔ)席看球
2026-03-28 21:56:46
十里長(zhǎng)街相送!張雪峰北漂經(jīng)歷與作息引人疼,學(xué)生持通知書來悼念

十里長(zhǎng)街相送!張雪峰北漂經(jīng)歷與作息引人疼,學(xué)生持通知書來悼念

離離言幾許
2026-03-28 13:12:50
8天狂轟12億票房,沈騰吳京加起來都打不過,2026年度大黑馬誕生

8天狂轟12億票房,沈騰吳京加起來都打不過,2026年度大黑馬誕生

卷史
2026-03-27 14:07:26
很多人只看到了"老頭樂起訴小米"的荒誕感,卻沒看到雷軍不敢戀戰(zhàn)背后的“惶恐”

很多人只看到了"老頭樂起訴小米"的荒誕感,卻沒看到雷軍不敢戀戰(zhàn)背后的“惶恐”

新浪財(cái)經(jīng)
2026-03-28 00:31:15
10億播放的“玉芬”神曲,憑什么火遍全網(wǎng)

10億播放的“玉芬”神曲,憑什么火遍全網(wǎng)

情感大頭說說
2026-03-28 11:59:18
2米26徐昕,完勝莫蘭德,球迷:CBA頂級(jí)中鋒!

2米26徐昕,完勝莫蘭德,球迷:CBA頂級(jí)中鋒!

體育哲人
2026-03-28 20:55:45
WTT挑戰(zhàn)賽!4強(qiáng)名單出爐,日本女單0-3慘敗,朱芊曦強(qiáng)勢(shì)零封

WTT挑戰(zhàn)賽!4強(qiáng)名單出爐,日本女單0-3慘敗,朱芊曦強(qiáng)勢(shì)零封

小徐講八卦
2026-03-29 06:17:02
硬核動(dòng)作片,26年3月不容錯(cuò)過的8部好電影

硬核動(dòng)作片,26年3月不容錯(cuò)過的8部好電影

TVB的四小花
2026-03-28 21:55:25
全線跳水,超9萬(wàn)人爆倉(cāng)!

全線跳水,超9萬(wàn)人爆倉(cāng)!

每日經(jīng)濟(jì)新聞
2026-03-26 20:29:17
河北小伙娶烏克蘭美女,結(jié)婚11年后,妻子出軌,如今怎么樣了

河北小伙娶烏克蘭美女,結(jié)婚11年后,妻子出軌,如今怎么樣了

番外行
2026-03-13 11:01:27
菲律賓重申:不承認(rèn)臺(tái)灣是“主權(quán)國(guó)家”【看世界·新聞早知道】

菲律賓重申:不承認(rèn)臺(tái)灣是“主權(quán)國(guó)家”【看世界·新聞早知道】

中國(guó)反邪教
2026-03-29 06:13:58
2026-03-29 07:12:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1310文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

房產(chǎn)
教育
數(shù)碼
時(shí)尚
健康

房產(chǎn)要聞

首日430組來訪,單日120組認(rèn)籌!??谑讉€(gè)真四代,徹底爆了!

教育要聞

“女孩家長(zhǎng)心真大!”小男孩帶女同學(xué)回家留宿,網(wǎng)友破防了!

數(shù)碼要聞

蘋果或重啟與長(zhǎng)江存儲(chǔ)合作 國(guó)行機(jī)型擬采用國(guó)產(chǎn)NAND

和田曦薇一樣嫩嘟嘟,這3個(gè)變美技巧你一定不能錯(cuò)過!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進(jìn)入關(guān)懷版