網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

圖模式作為遷移學(xué)習(xí)、推理與規(guī)劃的抽象表示

2026-03-11 14:08:42　來源: CreateAMind

上海舉報(bào)

分享至

Graph schemas as abstractions for transfer learning, inference, and planning

arXiv preprint arXiv:2302.07350

摘要

將潛在結(jié)構(gòu)從一個(gè)環(huán)境或問題遷移到另一個(gè)環(huán)境或問題，是人類和動(dòng)物用極少數(shù)據(jù)實(shí)現(xiàn)泛化的一種機(jī)制。受認(rèn)知和神經(jīng)生物學(xué)洞見的啟發(fā)，我們提出 圖模式 作為遷移學(xué)習(xí)的一種抽象機(jī)制。圖模式始于 潛在圖學(xué)習(xí) ，其中感知混淆的觀察通過上下文信息在潛在空間中被消歧。潛在圖學(xué)習(xí)也正作為一種新的海馬體計(jì)算模型涌現(xiàn)，用于解釋地圖學(xué)習(xí)和傳遞推理。我們的洞見是，潛在圖可以被視為一種靈活的模板——即 模式（schema） ——它建模概念和行為，具有將潛在節(jié)點(diǎn)組綁定到特定觀察或具體實(shí)例的槽位。通過將學(xué)習(xí)到的潛在圖（模式）視為先驗(yàn)知識(shí)，新環(huán)境可以被快速學(xué)習(xí)為模式的組合及其新學(xué)到的綁定。我們?cè)趦蓚€(gè)先前發(fā)表的具有挑戰(zhàn)性的任務(wù)上評(píng)估了圖模式： 記憶與規(guī)劃游戲 和 單次StreetLearn ，這些任務(wù)旨在測(cè)試在新環(huán)境中的快速任務(wù)解決能力。圖模式可以用比先前基線少得多的回合數(shù)進(jìn)行學(xué)習(xí)，并且能夠在這些任務(wù)的變體中用少數(shù)幾步進(jìn)行建模和規(guī)劃。我們還展示了在具有廣泛感知混淆和尺度變化的更具挑戰(zhàn)性的2D和3D環(huán)境中學(xué)習(xí)、匹配和重用圖模式，并展示了不同模式如何被組合以建模更大更復(fù)雜的環(huán)境?？傊覀兊闹饕暙I(xiàn)是一個(gè)統(tǒng)一的系統(tǒng)，受認(rèn)知科學(xué)啟發(fā)并扎根于認(rèn)知科學(xué)，該系統(tǒng)通過 地圖歸納 和組合使用模式促進(jìn)新環(huán)境的快速遷移學(xué)習(xí)，并處理感知混淆問題。

1. 引言

在新情境中發(fā)現(xiàn)并使用恰當(dāng)?shù)某橄?，能夠?qū)崿F(xiàn)高效的遷移學(xué)習(xí)以及快速的推理和規(guī)劃。人類擅長這種能力，這被認(rèn)為是智能背后的關(guān)鍵因素，也是當(dāng)前人工智能系統(tǒng)的一個(gè)根本性局限（Shanahan和Mitchell, 2022）。模式（schemas）——即可重用的概念或行為的結(jié)構(gòu)化表征——已被提出作為一種編碼抽象的強(qiáng)大方式（Mitchell, 2021; Tenenbaum等, 2011）。擁有一個(gè)能夠發(fā)現(xiàn)并重用先前學(xué)習(xí)到的模式以在新情境中行為和規(guī)劃的計(jì)算模型，對(duì)人工智能而言將是至關(guān)重要的。

實(shí)驗(yàn)證據(jù)表明，多種動(dòng)物具備這種能力（Farzanfar等, 2023）。大鼠和小鼠如果能夠重用過去的模式，往往能夠更快地學(xué)習(xí)新環(huán)境（Tse等, 2007; Zhou等, 2021），并且獼猴海馬體細(xì)胞編碼空間模式（Baraduc等, 2019）。海馬體和前額葉皮層（PFC）中的神經(jīng)回路涉及模式學(xué)習(xí)、識(shí)別、更新和維持，這些過程被認(rèn)為是記憶鞏固的基礎(chǔ)（Gilboa和Marlatte, 2017; Preston和Eichenbaum, 2013; Samborska等, 2022）。如果新經(jīng)驗(yàn)符合現(xiàn)有模式，則可以在單次試驗(yàn)中被學(xué)習(xí)。基于這些證據(jù)，Kumaran等（2016）提出了一個(gè)更新的互補(bǔ)學(xué)習(xí)系統(tǒng)理論，但據(jù)我們所知，迄今為止還沒有關(guān)于利用模式重用實(shí)現(xiàn)這種快速學(xué)習(xí)的明確演示。

結(jié)構(gòu)化關(guān)系表征已被提出作為海馬體中的一種共同機(jī)制，它將空間和非空間任務(wù)及記憶整合到原始認(rèn)知地圖觀點(diǎn)中（Eichenbaum和Cohen, 2014; Stachenfeld等, 2017）。最近的幾項(xiàng)研究將認(rèn)知地圖建模為高階潛在圖結(jié)構(gòu)，并展示了對(duì)海馬體所涉及的多種功能的泛化（George等, 2021; Raju等, 2022; Sharma等, 2021; Whittington等, 2020, 2021）。我們采用其中一種認(rèn)知地圖模型，即克隆結(jié)構(gòu)認(rèn)知圖（CSCG）（George等, 2021），并將其擴(kuò)展以使用圖模式提供抽象的具體計(jì)算模型。我們模型的期望是一個(gè)統(tǒng)一系統(tǒng)，該系統(tǒng)通過使用模式促進(jìn)新環(huán)境的學(xué)習(xí)，處理感知混淆（Whitehead和Ballard, 1991），并通過地圖歸納（Sharma等, 2021）和模式組合實(shí)現(xiàn)泛化。

我們的設(shè)定是一個(gè)在環(huán)境中導(dǎo)航的智能體，該環(huán)境被建模為有向圖。智能體觀察其當(dāng)前節(jié)點(diǎn)的發(fā)射（輸出），并通過帶標(biāo)簽動(dòng)作沿邊遍歷到新節(jié)點(diǎn)。多個(gè)節(jié)點(diǎn)可能發(fā)射相同的觀察（即它們是混淆的（Lajoie等, 2019; Whitehead和Ballard, 1991）），因此智能體無法直接觀察狀態(tài)。這可以被視為離散時(shí)間部分可觀察馬爾可夫決策過程（POMDP）。當(dāng)智能體在新環(huán)境中導(dǎo)航時(shí)，我們的目標(biāo)是學(xué)習(xí)底層的潛在圖（即地圖歸納，Sharma等（2021）），并通過重用先前學(xué)到的圖拓?fù)浠驁D模式來快速實(shí)現(xiàn)這一目標(biāo)。我們選擇CSCG模型來構(gòu)建圖模式，因?yàn)樗驯蛔C明能夠在高度混淆的環(huán)境中使用圖學(xué)習(xí)問題的平滑概率參數(shù)化來學(xué)習(xí)高階圖（George等, 2021）。我們擴(kuò)展該模型以描述學(xué)到的圖如何作為模式被重用于遷移學(xué)習(xí)、快速推理和規(guī)劃，從而在新情境中通過快速學(xué)習(xí)觀察綁定并在線發(fā)現(xiàn)最佳模式來實(shí)現(xiàn)行為。

2. 相關(guān)工作

關(guān)于在新環(huán)境中快速遷移到新任務(wù)的研究關(guān)注了不同方面，從探索到建模和規(guī)劃。最近的一些工作主要在強(qiáng)化學(xué)習(xí)（RL）框架下完成，不同的RL方法關(guān)注這些方面中的一個(gè)或多個(gè)。

元強(qiáng)化學(xué)習(xí)（Meta-RL） 無模型元強(qiáng)化學(xué)習(xí)方法關(guān)注將探索策略泛化到新任務(wù)和環(huán)境變化，而不進(jìn)行顯式的模型學(xué)習(xí)。有些研究顯示了對(duì)已知環(huán)境中新任務(wù)的泛化，但無法泛化到新環(huán)境，也不處理混淆問題（Rakelly等, 2019; Wang等, 2016）。循環(huán)無模型RL已顯示出對(duì)某些環(huán)境變化和POMDP設(shè)置的泛化能力（Ni等, 2021）。這些變化是生成環(huán)境的參數(shù)，目標(biāo)是能夠?qū)W習(xí)一個(gè)泛化到這些參數(shù)變化的探索策略。這些方法不重用過去環(huán)境的顯式知識(shí)來建模新環(huán)境，也不處理已知環(huán)境的組合（Packer等, 2018）。更近的研究添加了具有注意力頭的情景記憶，以選擇性關(guān)注和重用存儲(chǔ)的記憶，從而在少樣本設(shè)置中快速適應(yīng)新環(huán)境中的任務(wù)（例如情景規(guī)劃網(wǎng)絡(luò)）（Lampinen等, 2021; Ritter等, 2020）。這些模型僅在訓(xùn)練數(shù)十億步后才能匹配最優(yōu)規(guī)劃。此外，這些方法都不處理混淆問題，也不顯式構(gòu)建環(huán)境模型并在其上進(jìn)行規(guī)劃。Gupta等（2017）表明，在空間環(huán)境中使用顯式模型構(gòu)建（建圖）和通過規(guī)劃進(jìn)行導(dǎo)航可以處理部分可觀察性，并優(yōu)于不具備此能力的方法，但這項(xiàng)研究沒有重用這些模型來快速學(xué)習(xí)新環(huán)境。

基于模型的強(qiáng)化學(xué)習(xí)（Model based RL） 基于模型的RL工作學(xué)習(xí)環(huán)境的顯式模型（Gregor等, 2019），有些甚至在POMDP設(shè)置下（Igl等, 2018），可以遷移到同一環(huán)境中的新任務(wù)，但無法遷移到新環(huán)境。一些研究使用子目標(biāo)或路標(biāo)發(fā)現(xiàn)與重用的版本來泛化到新任務(wù)（Eysenbach等, 2019; Kipf等, 2019; Zhang等, 2021）。然而，這些方法不解決部分可觀察性問題，更重要的是，其泛化僅限于相同環(huán)境。半?yún)?shù)拓?fù)溆洃浭且环N將基于路標(biāo)的導(dǎo)航擴(kuò)展到泛化到新環(huán)境的方法（Savinov等, 2018）。該方法訓(xùn)練網(wǎng)絡(luò)估計(jì)不同位置觀察之間的連通性，并使用此在新環(huán)境中構(gòu)建觀察圖。該方法確實(shí)能泛化到新環(huán)境，但其性能隨混淆增加而顯著下降。此外，構(gòu)建圖時(shí)使用了人工生成的探索路徑。

我們?cè)谀Ｊ狡ヅ浜椭赜梅矫娴墓ぷ髋c在不同情境中尋找圖之間的對(duì)應(yīng)關(guān)系相關(guān)。Crouse等（2021）提出了結(jié)構(gòu)映射的第一個(gè)神經(jīng)網(wǎng)絡(luò)方法。但這種方法僅限于匹配問題，沒有機(jī)制來解決或?qū)W習(xí)新結(jié)構(gòu)，或使用部分匹配的模式進(jìn)行規(guī)劃。另一系列相關(guān)工作專注于解決受瑞文漸進(jìn)矩陣啟發(fā)的簡化關(guān)系任務(wù)（Kerg等, 2022; Webb等, 2021）。主要思想是在訓(xùn)練期間將抽象關(guān)系與感官觀察分離，學(xué)習(xí)觀察映射以解決具有相同關(guān)系但新映射的新任務(wù)，但這在確定性和簡化設(shè)置中進(jìn)行。

本文的主要貢獻(xiàn)是一個(gè)統(tǒng)一系統(tǒng)，該系統(tǒng)（i）通過地圖歸納和組合使用模式促進(jìn)新環(huán)境的快速遷移學(xué)習(xí)，（ii）處理感知混淆，（iii）直接從動(dòng)作和觀察構(gòu)建環(huán)境的顯式潛在圖模型，（iv）支持規(guī)劃和推理，以及（v）受認(rèn)知和神經(jīng)科學(xué)啟發(fā)并扎根于認(rèn)知和神經(jīng)科學(xué)。我們的模型是第一個(gè)在單一系統(tǒng)中結(jié)合所有這些方面的模型。

3. 方法 3.1. 問題設(shè)定

考慮一個(gè)在有向圖 G 中導(dǎo)航的智能體。當(dāng)智能體訪問圖中的節(jié)點(diǎn)時(shí)，該節(jié)點(diǎn)會(huì)發(fā)出一個(gè)觀測(cè)值。然而，多個(gè)節(jié)點(diǎn)可能發(fā)出相同的觀測(cè)值（即它們是混淆的），因此僅憑觀測(cè)值不足以區(qū)分智能體在圖中的具體位置。此外，動(dòng)作的結(jié)果并非確定性的——在同一節(jié)點(diǎn)執(zhí)行相同的動(dòng)作可能導(dǎo)致智能體導(dǎo)航到不同的節(jié)點(diǎn)。從一個(gè)節(jié)點(diǎn)出發(fā)的出邊標(biāo)有通過該邊所需的動(dòng)作，以及在該動(dòng)作下通過該邊的概率。從一個(gè)節(jié)點(diǎn)出發(fā)、具有相同動(dòng)作標(biāo)簽的所有出邊的概率之和為 1。我們使用圖 G 來建模智能體的環(huán)境。

3.2. 模型

克隆結(jié)構(gòu)認(rèn)知圖（CSCGs）由 Dedieu 等人 (2019)；George 等人 (2021) 提出，旨在從動(dòng)作-觀測(cè)對(duì)序列中恢復(fù)（近似）圖 G 。為此，他們使用分類隱變量來建模智能體在每個(gè)時(shí)間步所處的圖節(jié)點(diǎn)。這使得我們可以為給定動(dòng)作條件下的觀測(cè)序列構(gòu)建一個(gè)圖模型。在此，我們采用他們模型的條件版本，并將其擴(kuò)展至連續(xù)觀測(cè)值：

3.3. 遷移學(xué)習(xí)的圖式

例如，在房間導(dǎo)航設(shè)置中，一個(gè)圖式模擬了智能體在房間內(nèi)的位置和朝向、動(dòng)作如何移動(dòng)智能體，以及地板或門在房間內(nèi)多個(gè)位置可能看起來相同的知識(shí)。通過使用 EM，我們展示了圖式如何通過快速綁定，在新的、具有匹配拓?fù)浜桶l(fā)射結(jié)構(gòu)的環(huán)境中實(shí)現(xiàn)快速模型學(xué)習(xí)（圖 1F）?？梢允褂闷ヅ涞膱D式進(jìn)行推理，以主動(dòng)規(guī)劃和追求目標(biāo)。我們還可以通過比較觀測(cè)在不同圖式下的似然，來檢測(cè)到另一個(gè)已知圖式的轉(zhuǎn)換，或進(jìn)入未知區(qū)域。

圖式也可以作為構(gòu)建塊，用于快速學(xué)習(xí)由匹配拓?fù)浣M成的新環(huán)境。這包括學(xué)習(xí)轉(zhuǎn)移和發(fā)射，但在合適的地方復(fù)用已知的圖式（參見補(bǔ)充材料 §B.5 和補(bǔ)充算法 2）。

4. 結(jié)果

我們展示了兩組實(shí)驗(yàn)的結(jié)果：（i）用于評(píng)估快速適應(yīng)的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試，這些環(huán)境不存在感知混淆；（ii）更具挑戰(zhàn)性的設(shè)置，即存在大量感知混淆的環(huán)境。

4.1. 在新環(huán)境中的快速適應(yīng)與任務(wù)解決

我們首先在 Ritter 等人 (2020) 提出的兩個(gè)基準(zhǔn)測(cè)試上評(píng)估我們的模型，這兩個(gè)基準(zhǔn)測(cè)試用于評(píng)估新環(huán)境中的快速適應(yīng)和任務(wù)解決能力：記憶與規(guī)劃游戲（MPG）和單次學(xué)習(xí)的 StreetLearn。

4.1.1. 記憶與規(guī)劃游戲

在 MPG 中，智能體可以在一個(gè) 4×4 的網(wǎng)格上導(dǎo)航，觀察符號(hào)，其任務(wù)是在該網(wǎng)格中指定的目標(biāo)位置收集獎(jiǎng)勵(lì)（圖 2A）。所有網(wǎng)格位置都有唯一的符號(hào)，并且符號(hào)與位置的映射關(guān)系在每個(gè)回合（持續(xù) 100 步）結(jié)束后會(huì)重新隨機(jī)排列。詳見補(bǔ)充材料 §B.1。這個(gè)設(shè)置使我們能夠評(píng)估我們的模型在真實(shí)圖結(jié)構(gòu)恢復(fù)和圖式復(fù)用方面的表現(xiàn)，因?yàn)閳D結(jié)構(gòu)在各個(gè)回合中是保持不變的。智能體需要通過探索來收集觀測(cè)值，并將它們快速綁定到圖式上，從而通過最優(yōu)導(dǎo)航最大化獎(jiǎng)勵(lì)。

4.1.2. 單次學(xué)習(xí)的 StreetLearn

單次學(xué)習(xí)的 StreetLearn 是 StreetLearn 任務(wù)（Mirowski et al., 2019）的一個(gè)具有挑戰(zhàn)性的變體，它在各個(gè)回合之間改變連接結(jié)構(gòu)，以評(píng)估快速任務(wù)解決能力（圖 2D）。在每個(gè)回合中，智能體被放置在城市的一個(gè)新街區(qū)，任務(wù)是通過導(dǎo)航到達(dá)由目標(biāo)街景圖像指定的目標(biāo)位置并收集獎(jiǎng)勵(lì)。收集一個(gè)獎(jiǎng)勵(lì)后，智能體會(huì)在新位置重新生成，并指定一個(gè)新的目標(biāo)。與 MPG 不同，這里的轉(zhuǎn)移圖在每個(gè)回合都會(huì)改變。我們?cè)u(píng)估了我們的模型在單個(gè)回合內(nèi)快速學(xué)習(xí)、并最優(yōu)地導(dǎo)航到目標(biāo)以最大化獎(jiǎng)勵(lì)的能力。需要注意的是，在此設(shè)置中沒有圖式復(fù)用：我們?yōu)槊總€(gè)回合學(xué)習(xí)一個(gè)新模型。這展示了在沒有任何預(yù)先訓(xùn)練的情況下，在少量步驟內(nèi)快速學(xué)習(xí)，并利用學(xué)習(xí)到的模型進(jìn)行有效規(guī)劃的能力。

CSCG 在單次學(xué)習(xí)的 StreetLearn 中匹配最優(yōu)規(guī)劃。對(duì)于 CSCG 智能體，我們采用了一種帶有硬編碼探索策略的“探索與利用”策略。在探索期間，智能體在遇到目標(biāo)并收集獎(jiǎng)勵(lì)的同時(shí)，會(huì)對(duì)其遇到的每個(gè)觀測(cè)執(zhí)行每個(gè)動(dòng)作進(jìn)行導(dǎo)航，并利用這些經(jīng)驗(yàn)來學(xué)習(xí)一個(gè) CSCG。這是一種引導(dǎo)式探索，旨在覆蓋轉(zhuǎn)移圖中的每一條可能的邊。探索之后，智能體利用 CSCG 進(jìn)行規(guī)劃并收集獎(jiǎng)勵(lì)（詳見補(bǔ)充材料 §B.2）。在 100 個(gè)回合中，平均獎(jiǎng)勵(lì) ± 標(biāo)準(zhǔn)誤為 21.7 ± 3.7，低于 EPN（28.7），因?yàn)槲覀兊奶剿鞑呗圆⒎亲顑?yōu)（圖 2E）。由于本工作未考慮最優(yōu)探索問題，我們比較了探索之后在學(xué)習(xí)到的模型上的規(guī)劃性能。探索后，我們的智能體到達(dá)目標(biāo)平均需要 4.8 ± 0.03 步，這與最優(yōu)值（Ritter et al., 2020）相匹配（圖 2F）。需要注意的是，由于每個(gè)回合的圖都會(huì)改變，在此設(shè)置中我們沒有跨回合遷移任何學(xué)習(xí)。在具有可復(fù)用圖結(jié)構(gòu)的城市中，例如曼哈頓的網(wǎng)格布局，CSCG 圖式可以從復(fù)用中受益。我們將在接下來的實(shí)驗(yàn)中，在具有大量混淆觀測(cè)的房間導(dǎo)航這一更困難的設(shè)置中，詳細(xì)評(píng)估這種圖式復(fù)用。

4.2. 高度混淆環(huán)境中的圖式匹配與遷移學(xué)習(xí)

在下一組實(shí)驗(yàn)中，我們?cè)u(píng)估了在觀測(cè)值不同、有時(shí)大小也與訓(xùn)練環(huán)境不同的新環(huán)境中進(jìn)行圖式匹配和遷移學(xué)習(xí)的效果。在這些實(shí)驗(yàn)中，我們使用了比上述基準(zhǔn)測(cè)試更具挑戰(zhàn)性的設(shè)置，包括更大的2D和3D模擬環(huán)境以及大量的混淆（Beattie et al., 2016）。請(qǐng)注意，盡管我們使用空間導(dǎo)航作為實(shí)驗(yàn)平臺(tái)，但我們并未利用任何關(guān)于空間（歐幾里得或其他）的假設(shè)，而是將其建模為一個(gè)圖導(dǎo)航問題。對(duì)于2D和3D環(huán)境，我們都使用了不依賴3D感知的簡單智能體觀測(cè)模型，因此我們的結(jié)果與具體的3D空間設(shè)置無關(guān)。

我們從一組具有不同形狀和拓?fù)浣Y(jié)構(gòu)、且存在大量混淆的環(huán)境開始。類似于一個(gè)大的空曠場(chǎng)地，這些環(huán)境內(nèi)部的觀測(cè)在感知上是混淆的（Lajoie et al., 2019; Whitehead and Ballard, 1991），見圖1D。在2D情況下，混淆是由構(gòu)造產(chǎn)生的；在3D情況下，混淆則是聚類的結(jié)果。我們首先按照第3.3節(jié)的描述，在訓(xùn)練房間中學(xué)習(xí)圖式（圖1D）。我們?cè)诰哂邢嗨撇季值^測(cè)值全新且大小變化的測(cè)試房間上評(píng)估圖式匹配。在一個(gè)新的測(cè)試房間中，智能體進(jìn)行隨機(jī)游走，并根據(jù)在所執(zhí)行的動(dòng)作下、不同已學(xué)習(xí)圖式下的觀測(cè)序列的似然進(jìn)行評(píng)估（圖1E）。需要注意的是，這首先需要從隨機(jī)游走期間收集的數(shù)據(jù)中學(xué)習(xí)新的發(fā)射矩陣，并為每個(gè)圖式計(jì)算其似然。具有最佳似然的圖式被認(rèn)為是匹配的圖式。我們?cè)陔S機(jī)游走期間的多個(gè)時(shí)間點(diǎn)評(píng)估不同圖式的似然。詳細(xì)信息和以下實(shí)驗(yàn)使用的參數(shù)請(qǐng)參見補(bǔ)充材料 §B.3。

CSCG 圖式在新環(huán)境中快速學(xué)習(xí)匹配的綁定。為了證明這一點(diǎn)，我們使用了具有6種不同布局的3D環(huán)境（Beattie et al., 2016）。智能體可以使用3個(gè)離散的以自我為中心的動(dòng)作（向前移動(dòng)、向左轉(zhuǎn)、向右轉(zhuǎn)）進(jìn)行導(dǎo)航，觀測(cè)值是對(duì)應(yīng)于智能體視角的RGB圖像（圖1A, B）。此設(shè)置中的觀測(cè)空間龐大且復(fù)雜，這證明了模型對(duì)此類用例的適用性。我們遵循§3.2和補(bǔ)充材料 §A.3中描述的連續(xù)觀測(cè)流程，來學(xué)習(xí)訓(xùn)練環(huán)境的模型（使用隨機(jī)游走訓(xùn)練后學(xué)習(xí)到的圖見圖S1）。我們?cè)u(píng)估了在具有相同布局但墻壁、地板顏色和環(huán)境光照不同（這對(duì)應(yīng)于全新的RGB觀測(cè)）的測(cè)試環(huán)境中的快速學(xué)習(xí)能力，智能體在這些房間中導(dǎo)航時(shí)使用補(bǔ)充材料 §A.4中描述的流程。圖3A顯示了通過負(fù)對(duì)數(shù)似然評(píng)估的，在測(cè)試房間中成功快速匹配正確圖式的結(jié)果（完整結(jié)果見補(bǔ)充材料圖S2）。在所有六個(gè)測(cè)試環(huán)境中，正確的圖式都被識(shí)別出來，通常是在環(huán)境中的1,000步以內(nèi)，所有情況均在2,000步以內(nèi)識(shí)別出來，相比之下，沒有圖式復(fù)用的情況下學(xué)習(xí)需要大約50,000步。

為了測(cè)試對(duì)大小變化的遷移能力，我們使用了五種不同布局（圓柱形、矩形、帶孔正方形、環(huán)面和U形）的2D房間，每種布局有三種不同的大?。ㄐ　⒅?、大）（圖S3）。我們使用50,000步的隨機(jī)游走為這些房間的中等版本學(xué)習(xí)圖式。在具有新觀測(cè)映射的測(cè)試房間中，智能體進(jìn)行隨機(jī)游走，同時(shí)我們每5步學(xué)習(xí)新的發(fā)射并評(píng)估這些觀測(cè)在所有圖式下的似然。詳見附錄B.3.2。圖S3顯示了所有測(cè)試房間在所有圖式下的負(fù)對(duì)數(shù)似然。通過復(fù)用克隆結(jié)構(gòu)，我們能夠在所有情況下在95步內(nèi)正確匹配圖式，展示了在大小和觀測(cè)值變化的新環(huán)境中快速匹配和適應(yīng)的能力（附錄圖S4顯示了不使用克隆結(jié)構(gòu)的結(jié)果）。我們使用二值化MNIST數(shù)據(jù)集的十個(gè)數(shù)字樣本作為房間布局，重現(xiàn)了這些結(jié)果，因?yàn)樗鼈兲峁┝朔俏覀冊(cè)O(shè)計(jì)的、各種有趣的形狀和拓?fù)浣Y(jié)構(gòu)（結(jié)果見補(bǔ)充材料 §B.3.3）。

圖式匹配在由多個(gè)圖式組合而成的環(huán)境中同樣有效。我們?cè)谟沙蓪?duì)的MNIST數(shù)字房間組成的新測(cè)試環(huán)境中證明了這一點(diǎn)，并展示了單個(gè)數(shù)字的在線圖式匹配。詳細(xì)信息和結(jié)果請(qǐng)參見補(bǔ)充材料 §B.5。

4.3. 利用圖式圖組合性的新環(huán)境快速學(xué)習(xí)

圖式也可用于有效學(xué)習(xí)和導(dǎo)航由已知圖式組成的更大環(huán)境。我們通過匹配圖式并學(xué)習(xí)它們之間的轉(zhuǎn)移結(jié)構(gòu)來實(shí)現(xiàn)這一點(diǎn)。圖3B展示了一個(gè)由四個(gè)較小的3D房間組成的示例性3D模擬環(huán)境。智能體在此環(huán)境中行走，并在遠(yuǎn)少于不使用圖式學(xué)習(xí)所需的步數(shù)內(nèi)，學(xué)習(xí)到組合模型（包括聯(lián)合轉(zhuǎn)移和發(fā)射）。圖3B還顯示了具有所有潛在連接的先驗(yàn)?zāi)Ｐ?，以及在兩種不同行走長度后學(xué)習(xí)到的模型。模型質(zhì)量通過在10,000步測(cè)試行走上的負(fù)對(duì)數(shù)似然來衡量，這些模型分別是在不同長度的行走后，使用和不使用圖式進(jìn)行訓(xùn)練得到的。使用圖式，我們能夠在不到10,000步內(nèi)學(xué)習(xí)到一個(gè)完美的環(huán)境模型，而從頭開始學(xué)習(xí)即使在30,000步后效果也明顯更差。學(xué)習(xí)算法和實(shí)驗(yàn)細(xì)節(jié)見補(bǔ)充材料 §B.5。這種通過組合和復(fù)用先前學(xué)習(xí)到的圖式進(jìn)行學(xué)習(xí)的能力，使得能夠快速適應(yīng)新環(huán)境，并且隨著經(jīng)驗(yàn)的積累，這種適應(yīng)能力只會(huì)變得更強(qiáng)。

4.4. 新環(huán)境中的快速規(guī)劃與導(dǎo)航

快速的圖式匹配與綁定使得在經(jīng)驗(yàn)有限的新環(huán)境中進(jìn)行規(guī)劃成為可能。我們首先在圖4A中引入的四房間3D環(huán)境的一個(gè)新變體中展示這種能力。在這個(gè)演示中，智能體首先在測(cè)試環(huán)境中行走，然后被要求找到返回其起始位置的最短路徑。我們使用手動(dòng)指定的初始行走，以便在最少的步數(shù)內(nèi)覆蓋環(huán)境的較大部分。在這種情況下，圖式——即先前為四房間組合學(xué)習(xí)到的組合圖式（圖3）——是預(yù)先已知的。智能體利用初始行走中的觀測(cè)值來學(xué)習(xí)新的發(fā)射綁定，并解碼其在模型中的當(dāng)前位置和目標(biāo)位置。然后，智能體使用此模型規(guī)劃到目標(biāo)的最短路徑（圖4B）。請(qǐng)注意，規(guī)劃的路線穿過了環(huán)境中尚未訪問的部分。

在執(zhí)行計(jì)劃時(shí)，如果智能體在考慮了新的觀測(cè)后估計(jì)尚未到達(dá)目標(biāo)，則可能存在圖式不匹配或估計(jì)的發(fā)射矩陣不準(zhǔn)確的情況。當(dāng)這種情況發(fā)生時(shí)，智能體可以利用執(zhí)行計(jì)劃過程中獲得的新經(jīng)驗(yàn)更新模型后，重新進(jìn)行規(guī)劃。這個(gè)過程不斷迭代，直到智能體在解碼了初始隨機(jī)游走和所有后續(xù)重新規(guī)劃步驟的觀測(cè)后，確信自己已達(dá)到目標(biāo)。在一個(gè)旨在測(cè)試這種能力的實(shí)驗(yàn)中，我們根據(jù)距離目標(biāo)位置的曼哈頓距離以及所需的重新規(guī)劃次數(shù)，系統(tǒng)評(píng)估了在2D環(huán)境中對(duì)圖式不匹配的這種魯棒性。圖4B顯示了一個(gè)示例圖式的結(jié)果。即使存在大小和結(jié)構(gòu)變化，我們也能成功導(dǎo)航，并且隨著圖式與測(cè)試房間之間差異的增加，性能會(huì)逐漸下降。到達(dá)目標(biāo)所需的規(guī)劃嘗試次數(shù)也平滑增加。添加自轉(zhuǎn)移概率的對(duì)角平滑項(xiàng)（見補(bǔ)充材料 §B.6）對(duì)于泛化到大小變化至關(guān)重要。如圖4B所示，沒有這種平滑，在測(cè)試房間的較大尺寸變體中，智能體永遠(yuǎn)無法到達(dá)目標(biāo)（另一個(gè)房間布局的結(jié)果見補(bǔ)充材料 §B.6）。

5. 討論與未來工作

學(xué)習(xí)能夠快速綁定到共享相同底層結(jié)構(gòu)的環(huán)境觀測(cè)的抽象表征，是假設(shè)中人類和動(dòng)物進(jìn)行遷移學(xué)習(xí)的機(jī)制 (Kumaran et al., 2016; Tse et al., 2007; Zhou et al., 2021)。我們提出了一個(gè)具體的抽象表征和快速綁定的計(jì)算模型，該模型使用圖式圖從混淆的觀測(cè)序列中學(xué)習(xí)高階結(jié)構(gòu)，并利用一個(gè)槽綁定機(jī)制來遷移這些圖式，從而快速學(xué)習(xí)新環(huán)境的模型。CSCG 圖式學(xué)習(xí)圖結(jié)構(gòu)所需的回合數(shù)遠(yuǎn)少于深度強(qiáng)化學(xué)習(xí)智能體，并在 MPG 和單次學(xué)習(xí)的 StreetLearn 任務(wù)中匹配了最優(yōu)規(guī)劃。在高度混淆的環(huán)境中，CSCG 圖式在不同大小的新房間中找到了匹配的圖式綁定。在組合房間中，當(dāng)智能體穿過對(duì)應(yīng)于不同圖式的房間時(shí)，我們能夠匹配正確的圖式。我們展示了在形狀和大小與匹配圖式有所不同的房間中，通過走向目標(biāo)的過程中重新規(guī)劃和更新模型，成功實(shí)現(xiàn)了目標(biāo)導(dǎo)向的規(guī)劃。更重要的是，已知的圖式可以被組合起來，以快速學(xué)習(xí)新穎的環(huán)境和新的、更大的圖式。這種能力具有自我引導(dǎo)的特性，并且只會(huì)隨著經(jīng)驗(yàn)的積累而變得更強(qiáng)。在我們當(dāng)前工作的基礎(chǔ)上，有許多清晰的潛在未來工作方向，我們?cè)谙挛牧谐銎渲幸恍?/p>

從經(jīng)驗(yàn)中學(xué)習(xí)圖式。在這項(xiàng)工作中，我們獨(dú)立且明確地學(xué)習(xí)了圖式。但在現(xiàn)實(shí)世界中，可能無法獲取屬于不同圖式的區(qū)分化經(jīng)驗(yàn)。從連續(xù)的經(jīng)驗(yàn)流中學(xué)習(xí)可重用的圖式 (Farzanfar et al., 2023) 可能是一個(gè)有趣的未來工作方向。

圖式與記憶。我們丟棄了先前從過去經(jīng)驗(yàn)中學(xué)到的發(fā)射，并學(xué)習(xí)新的綁定。然而，在某些情況下，先前學(xué)到的發(fā)射是直接適用的，因此，如果保留這些發(fā)射，當(dāng)存在匹配時(shí)，可能能夠?qū)崿F(xiàn)更快的零樣本適應(yīng)。這可以看作是保留特定記憶與使用抽象圖式之間的區(qū)別。

圖式維護(hù)。我們?cè)谶@項(xiàng)工作中的圖式是固定的。然而，用新的經(jīng)驗(yàn)來更新圖式是可能的。事實(shí)上，兒童最初傾向于感知和記憶符合他們現(xiàn)有圖式的經(jīng)驗(yàn)，之后才發(fā)展出靈活性 (Piaget and Cook, 1952)。類似地，我們可以根據(jù)新的經(jīng)驗(yàn)更新圖式，甚至讓圖式本身變得靈活，以封裝相關(guān)的抽象概念，但仍然受到規(guī)則的約束，以允許一致的推理。

主動(dòng)探索。我們使用了隨機(jī)或已知的最優(yōu)探索策略來學(xué)習(xí)和綁定圖式。但圖式提供了關(guān)于未來觀測(cè)的、以動(dòng)作條件為轉(zhuǎn)移的信念。通過選擇能夠最優(yōu)地區(qū)分不同圖式并尋求學(xué)習(xí)它們之間連接的動(dòng)作，我們有可能做得比隨機(jī)探索好得多。類似地，為了學(xué)習(xí)新環(huán)境和圖式，我們可以通過組合已知圖式來引導(dǎo)探索策略 (Sharma et al., 2021)，甚至在探索過程中主動(dòng)學(xué)習(xí)它們。

原文鏈接：https://arxiv.org/pdf/2302.07350

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.