国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

圖模式作為遷移學(xué)習(xí)、推理與規(guī)劃的抽象表示

0
分享至

圖模式作為遷移學(xué)習(xí)、推理與規(guī)劃的抽象表示

Graph schemas as abstractions for transfer learning, inference, and planning

arXiv preprint arXiv:2302.07350


摘要

將潛在結(jié)構(gòu)從一個(gè)環(huán)境或問題遷移到另一個(gè)環(huán)境或問題,是人類和動(dòng)物用極少數(shù)據(jù)實(shí)現(xiàn)泛化的一種機(jī)制。受認(rèn)知和神經(jīng)生物學(xué)洞見的啟發(fā),我們提出 圖模式 作為遷移學(xué)習(xí)的一種抽象機(jī)制。圖模式始于 潛在圖學(xué)習(xí) ,其中感知混淆的觀察通過上下文信息在潛在空間中被消歧。潛在圖學(xué)習(xí)也正作為一種新的海馬體計(jì)算模型涌現(xiàn),用于解釋地圖學(xué)習(xí)和傳遞推理。我們的洞見是,潛在圖可以被視為一種靈活的模板——即 模式(schema) ——它建模概念和行為,具有將潛在節(jié)點(diǎn)組綁定到特定觀察或具體實(shí)例的槽位。通過將學(xué)習(xí)到的潛在圖(模式)視為先驗(yàn)知識(shí),新環(huán)境可以被快速學(xué)習(xí)為模式的組合及其新學(xué)到的綁定。我們?cè)趦蓚€(gè)先前發(fā)表的具有挑戰(zhàn)性的任務(wù)上評(píng)估了圖模式: 記憶與規(guī)劃游戲單次StreetLearn ,這些任務(wù)旨在測(cè)試在新環(huán)境中的快速任務(wù)解決能力。圖模式可以用比先前基線少得多的回合數(shù)進(jìn)行學(xué)習(xí),并且能夠在這些任務(wù)的變體中用少數(shù)幾步進(jìn)行建模和規(guī)劃。我們還展示了在具有廣泛感知混淆和尺度變化的更具挑戰(zhàn)性的2D和3D環(huán)境中學(xué)習(xí)、匹配和重用圖模式,并展示了不同模式如何被組合以建模更大更復(fù)雜的環(huán)境??傊覀兊闹饕暙I(xiàn)是一個(gè)統(tǒng)一的系統(tǒng),受認(rèn)知科學(xué)啟發(fā)并扎根于認(rèn)知科學(xué),該系統(tǒng)通過 地圖歸納組合 使用模式促進(jìn)新環(huán)境的快速遷移學(xué)習(xí),并處理感知混淆問題。

1. 引言

在新情境中發(fā)現(xiàn)并使用恰當(dāng)?shù)某橄?,能夠?qū)崿F(xiàn)高效的遷移學(xué)習(xí)以及快速的推理和規(guī)劃。人類擅長這種能力,這被認(rèn)為是智能背后的關(guān)鍵因素,也是當(dāng)前人工智能系統(tǒng)的一個(gè)根本性局限(Shanahan和Mitchell, 2022)。模式(schemas)——即可重用的概念或行為的結(jié)構(gòu)化表征——已被提出作為一種編碼抽象的強(qiáng)大方式(Mitchell, 2021; Tenenbaum等, 2011)。擁有一個(gè)能夠發(fā)現(xiàn)并重用先前學(xué)習(xí)到的模式以在新情境中行為和規(guī)劃的計(jì)算模型,對(duì)人工智能而言將是至關(guān)重要的。

實(shí)驗(yàn)證據(jù)表明,多種動(dòng)物具備這種能力(Farzanfar等, 2023)。大鼠和小鼠如果能夠重用過去的模式,往往能夠更快地學(xué)習(xí)新環(huán)境(Tse等, 2007; Zhou等, 2021),并且獼猴海馬體細(xì)胞編碼空間模式(Baraduc等, 2019)。海馬體和前額葉皮層(PFC)中的神經(jīng)回路涉及模式學(xué)習(xí)、識(shí)別、更新和維持,這些過程被認(rèn)為是記憶鞏固的基礎(chǔ)(Gilboa和Marlatte, 2017; Preston和Eichenbaum, 2013; Samborska等, 2022)。如果新經(jīng)驗(yàn)符合現(xiàn)有模式,則可以在單次試驗(yàn)中被學(xué)習(xí)。基于這些證據(jù),Kumaran等(2016)提出了一個(gè)更新的互補(bǔ)學(xué)習(xí)系統(tǒng)理論,但據(jù)我們所知,迄今為止還沒有關(guān)于利用模式重用實(shí)現(xiàn)這種快速學(xué)習(xí)的明確演示。

結(jié)構(gòu)化關(guān)系表征已被提出作為海馬體中的一種共同機(jī)制,它將空間和非空間任務(wù)及記憶整合到原始認(rèn)知地圖觀點(diǎn)中(Eichenbaum和Cohen, 2014; Stachenfeld等, 2017)。最近的幾項(xiàng)研究將認(rèn)知地圖建模為高階潛在圖結(jié)構(gòu),并展示了對(duì)海馬體所涉及的多種功能的泛化(George等, 2021; Raju等, 2022; Sharma等, 2021; Whittington等, 2020, 2021)。我們采用其中一種認(rèn)知地圖模型,即克隆結(jié)構(gòu)認(rèn)知圖(CSCG)(George等, 2021),并將其擴(kuò)展以使用圖模式提供抽象的具體計(jì)算模型。我們模型的期望是一個(gè)統(tǒng)一系統(tǒng),該系統(tǒng)通過使用模式促進(jìn)新環(huán)境的學(xué)習(xí),處理感知混淆(Whitehead和Ballard, 1991),并通過地圖歸納(Sharma等, 2021)和模式組合實(shí)現(xiàn)泛化。

我們的設(shè)定是一個(gè)在環(huán)境中導(dǎo)航的智能體,該環(huán)境被建模為有向圖。智能體觀察其當(dāng)前節(jié)點(diǎn)的發(fā)射(輸出),并通過帶標(biāo)簽動(dòng)作沿邊遍歷到新節(jié)點(diǎn)。多個(gè)節(jié)點(diǎn)可能發(fā)射相同的觀察(即它們是混淆的(Lajoie等, 2019; Whitehead和Ballard, 1991)),因此智能體無法直接觀察狀態(tài)。這可以被視為離散時(shí)間部分可觀察馬爾可夫決策過程(POMDP)。當(dāng)智能體在新環(huán)境中導(dǎo)航時(shí),我們的目標(biāo)是學(xué)習(xí)底層的潛在圖(即地圖歸納,Sharma等(2021)),并通過重用先前學(xué)到的圖拓?fù)浠驁D模式來快速實(shí)現(xiàn)這一目標(biāo)。我們選擇CSCG模型來構(gòu)建圖模式,因?yàn)樗驯蛔C明能夠在高度混淆的環(huán)境中使用圖學(xué)習(xí)問題的平滑概率參數(shù)化來學(xué)習(xí)高階圖(George等, 2021)。我們擴(kuò)展該模型以描述學(xué)到的圖如何作為模式被重用于遷移學(xué)習(xí)、快速推理和規(guī)劃,從而在新情境中通過快速學(xué)習(xí)觀察綁定并在線發(fā)現(xiàn)最佳模式來實(shí)現(xiàn)行為。

2. 相關(guān)工作

關(guān)于在新環(huán)境中快速遷移到新任務(wù)的研究關(guān)注了不同方面,從探索到建模和規(guī)劃。最近的一些工作主要在強(qiáng)化學(xué)習(xí)(RL)框架下完成,不同的RL方法關(guān)注這些方面中的一個(gè)或多個(gè)。

元強(qiáng)化學(xué)習(xí)(Meta-RL) 無模型元強(qiáng)化學(xué)習(xí)方法關(guān)注將探索策略泛化到新任務(wù)和環(huán)境變化,而不進(jìn)行顯式的模型學(xué)習(xí)。有些研究顯示了對(duì)已知環(huán)境中新任務(wù)的泛化,但無法泛化到新環(huán)境,也不處理混淆問題(Rakelly等, 2019; Wang等, 2016)。循環(huán)無模型RL已顯示出對(duì)某些環(huán)境變化和POMDP設(shè)置的泛化能力(Ni等, 2021)。這些變化是生成環(huán)境的參數(shù),目標(biāo)是能夠?qū)W習(xí)一個(gè)泛化到這些參數(shù)變化的探索策略。這些方法不重用過去環(huán)境的顯式知識(shí)來建模新環(huán)境,也不處理已知環(huán)境的組合(Packer等, 2018)。更近的研究添加了具有注意力頭的情景記憶,以選擇性關(guān)注和重用存儲(chǔ)的記憶,從而在少樣本設(shè)置中快速適應(yīng)新環(huán)境中的任務(wù)(例如情景規(guī)劃網(wǎng)絡(luò))(Lampinen等, 2021; Ritter等, 2020)。這些模型僅在訓(xùn)練數(shù)十億步后才能匹配最優(yōu)規(guī)劃。此外,這些方法都不處理混淆問題,也不顯式構(gòu)建環(huán)境模型并在其上進(jìn)行規(guī)劃。Gupta等(2017)表明,在空間環(huán)境中使用顯式模型構(gòu)建(建圖)和通過規(guī)劃進(jìn)行導(dǎo)航可以處理部分可觀察性,并優(yōu)于不具備此能力的方法,但這項(xiàng)研究沒有重用這些模型來快速學(xué)習(xí)新環(huán)境。

基于模型的強(qiáng)化學(xué)習(xí)(Model based RL) 基于模型的RL工作學(xué)習(xí)環(huán)境的顯式模型(Gregor等, 2019),有些甚至在POMDP設(shè)置下(Igl等, 2018),可以遷移到同一環(huán)境中的新任務(wù),但無法遷移到新環(huán)境。一些研究使用子目標(biāo)或路標(biāo)發(fā)現(xiàn)與重用的版本來泛化到新任務(wù)(Eysenbach等, 2019; Kipf等, 2019; Zhang等, 2021)。然而,這些方法不解決部分可觀察性問題,更重要的是,其泛化僅限于相同環(huán)境。半?yún)?shù)拓?fù)溆洃浭且环N將基于路標(biāo)的導(dǎo)航擴(kuò)展到泛化到新環(huán)境的方法(Savinov等, 2018)。該方法訓(xùn)練網(wǎng)絡(luò)估計(jì)不同位置觀察之間的連通性,并使用此在新環(huán)境中構(gòu)建觀察圖。該方法確實(shí)能泛化到新環(huán)境,但其性能隨混淆增加而顯著下降。此外,構(gòu)建圖時(shí)使用了人工生成的探索路徑。

我們?cè)谀J狡ヅ浜椭赜梅矫娴墓ぷ髋c在不同情境中尋找圖之間的對(duì)應(yīng)關(guān)系相關(guān)。Crouse等(2021)提出了結(jié)構(gòu)映射的第一個(gè)神經(jīng)網(wǎng)絡(luò)方法。但這種方法僅限于匹配問題,沒有機(jī)制來解決或?qū)W習(xí)新結(jié)構(gòu),或使用部分匹配的模式進(jìn)行規(guī)劃。另一系列相關(guān)工作專注于解決受瑞文漸進(jìn)矩陣啟發(fā)的簡化關(guān)系任務(wù)(Kerg等, 2022; Webb等, 2021)。主要思想是在訓(xùn)練期間將抽象關(guān)系與感官觀察分離,學(xué)習(xí)觀察映射以解決具有相同關(guān)系但新映射的新任務(wù),但這在確定性和簡化設(shè)置中進(jìn)行。

本文的主要貢獻(xiàn)是一個(gè)統(tǒng)一系統(tǒng),該系統(tǒng)(i)通過地圖歸納和組合使用模式促進(jìn)新環(huán)境的快速遷移學(xué)習(xí),(ii)處理感知混淆,(iii)直接從動(dòng)作和觀察構(gòu)建環(huán)境的顯式潛在圖模型,(iv)支持規(guī)劃和推理,以及(v)受認(rèn)知和神經(jīng)科學(xué)啟發(fā)并扎根于認(rèn)知和神經(jīng)科學(xué)。我們的模型是第一個(gè)在單一系統(tǒng)中結(jié)合所有這些方面的模型。

3. 方法 3.1. 問題設(shè)定

考慮一個(gè)在有向圖 G 中導(dǎo)航的智能體。當(dāng)智能體訪問圖中的節(jié)點(diǎn)時(shí),該節(jié)點(diǎn)會(huì)發(fā)出一個(gè)觀測(cè)值。然而,多個(gè)節(jié)點(diǎn)可能發(fā)出相同的觀測(cè)值(即它們是混淆的),因此僅憑觀測(cè)值不足以區(qū)分智能體在圖中的具體位置。此外,動(dòng)作的結(jié)果并非確定性的——在同一節(jié)點(diǎn)執(zhí)行相同的動(dòng)作可能導(dǎo)致智能體導(dǎo)航到不同的節(jié)點(diǎn)。從一個(gè)節(jié)點(diǎn)出發(fā)的出邊標(biāo)有通過該邊所需的動(dòng)作,以及在該動(dòng)作下通過該邊的概率。從一個(gè)節(jié)點(diǎn)出發(fā)、具有相同動(dòng)作標(biāo)簽的所有出邊的概率之和為 1。我們使用圖 G 來建模智能體的環(huán)境。


3.2. 模型

克隆結(jié)構(gòu)認(rèn)知圖(CSCGs)由 Dedieu 等人 (2019);George 等人 (2021) 提出,旨在從動(dòng)作-觀測(cè)對(duì)序列中恢復(fù)(近似)圖 G 。為此,他們使用分類隱變量 來建模智能體在每個(gè)時(shí)間步所處的圖節(jié)點(diǎn)。這使得我們可以為給定動(dòng)作條件下的觀測(cè)序列構(gòu)建一個(gè)圖模型。在此,我們采用他們模型的條件版本,并將其擴(kuò)展至連續(xù)觀測(cè)值:




3.3. 遷移學(xué)習(xí)的圖式



例如,在房間導(dǎo)航設(shè)置中,一個(gè)圖式模擬了智能體在房間內(nèi)的位置和朝向、動(dòng)作如何移動(dòng)智能體,以及地板或門在房間內(nèi)多個(gè)位置可能看起來相同的知識(shí)。通過使用 EM,我們展示了圖式如何通過快速綁定,在新的、具有匹配拓?fù)浜桶l(fā)射結(jié)構(gòu)的環(huán)境中實(shí)現(xiàn)快速模型學(xué)習(xí)(圖 1F)??梢允褂闷ヅ涞膱D式進(jìn)行推理,以主動(dòng)規(guī)劃和追求目標(biāo)。我們還可以通過比較觀測(cè)在不同圖式下的似然,來檢測(cè)到另一個(gè)已知圖式的轉(zhuǎn)換,或進(jìn)入未知區(qū)域。

圖式也可以作為構(gòu)建塊,用于快速學(xué)習(xí)由匹配拓?fù)浣M成的新環(huán)境。這包括學(xué)習(xí)轉(zhuǎn)移和發(fā)射,但在合適的地方復(fù)用已知的圖式(參見補(bǔ)充材料 §B.5 和補(bǔ)充算法 2)。

4. 結(jié)果

我們展示了兩組實(shí)驗(yàn)的結(jié)果:(i)用于評(píng)估快速適應(yīng)的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試,這些環(huán)境不存在感知混淆;(ii)更具挑戰(zhàn)性的設(shè)置,即存在大量感知混淆的環(huán)境。

4.1. 在新環(huán)境中的快速適應(yīng)與任務(wù)解決

我們首先在 Ritter 等人 (2020) 提出的兩個(gè)基準(zhǔn)測(cè)試上評(píng)估我們的模型,這兩個(gè)基準(zhǔn)測(cè)試用于評(píng)估新環(huán)境中的快速適應(yīng)和任務(wù)解決能力:記憶與規(guī)劃游戲(MPG)和單次學(xué)習(xí)的 StreetLearn。

4.1.1. 記憶與規(guī)劃游戲

在 MPG 中,智能體可以在一個(gè) 4×4 的網(wǎng)格上導(dǎo)航,觀察符號(hào),其任務(wù)是在該網(wǎng)格中指定的目標(biāo)位置收集獎(jiǎng)勵(lì)(圖 2A)。所有網(wǎng)格位置都有唯一的符號(hào),并且符號(hào)與位置的映射關(guān)系在每個(gè)回合(持續(xù) 100 步)結(jié)束后會(huì)重新隨機(jī)排列。詳見補(bǔ)充材料 §B.1。這個(gè)設(shè)置使我們能夠評(píng)估我們的模型在真實(shí)圖結(jié)構(gòu)恢復(fù)和圖式復(fù)用方面的表現(xiàn),因?yàn)閳D結(jié)構(gòu)在各個(gè)回合中是保持不變的。智能體需要通過探索來收集觀測(cè)值,并將它們快速綁定到圖式上,從而通過最優(yōu)導(dǎo)航最大化獎(jiǎng)勵(lì)。



4.1.2. 單次學(xué)習(xí)的 StreetLearn

單次學(xué)習(xí)的 StreetLearn 是 StreetLearn 任務(wù)(Mirowski et al., 2019)的一個(gè)具有挑戰(zhàn)性的變體,它在各個(gè)回合之間改變連接結(jié)構(gòu),以評(píng)估快速任務(wù)解決能力(圖 2D)。在每個(gè)回合中,智能體被放置在城市的一個(gè)新街區(qū),任務(wù)是通過導(dǎo)航到達(dá)由目標(biāo)街景圖像指定的目標(biāo)位置并收集獎(jiǎng)勵(lì)。收集一個(gè)獎(jiǎng)勵(lì)后,智能體會(huì)在新位置重新生成,并指定一個(gè)新的目標(biāo)。與 MPG 不同,這里的轉(zhuǎn)移圖在每個(gè)回合都會(huì)改變。我們?cè)u(píng)估了我們的模型在單個(gè)回合內(nèi)快速學(xué)習(xí)、并最優(yōu)地導(dǎo)航到目標(biāo)以最大化獎(jiǎng)勵(lì)的能力。需要注意的是,在此設(shè)置中沒有圖式復(fù)用:我們?yōu)槊總€(gè)回合學(xué)習(xí)一個(gè)新模型。這展示了在沒有任何預(yù)先訓(xùn)練的情況下,在少量步驟內(nèi)快速學(xué)習(xí),并利用學(xué)習(xí)到的模型進(jìn)行有效規(guī)劃的能力。

CSCG 在單次學(xué)習(xí)的 StreetLearn 中匹配最優(yōu)規(guī)劃。對(duì)于 CSCG 智能體,我們采用了一種帶有硬編碼探索策略的“探索與利用”策略。在探索期間,智能體在遇到目標(biāo)并收集獎(jiǎng)勵(lì)的同時(shí),會(huì)對(duì)其遇到的每個(gè)觀測(cè)執(zhí)行每個(gè)動(dòng)作進(jìn)行導(dǎo)航,并利用這些經(jīng)驗(yàn)來學(xué)習(xí)一個(gè) CSCG。這是一種引導(dǎo)式探索,旨在覆蓋轉(zhuǎn)移圖中的每一條可能的邊。探索之后,智能體利用 CSCG 進(jìn)行規(guī)劃并收集獎(jiǎng)勵(lì)(詳見補(bǔ)充材料 §B.2)。在 100 個(gè)回合中,平均獎(jiǎng)勵(lì) ± 標(biāo)準(zhǔn)誤為 21.7 ± 3.7,低于 EPN(28.7),因?yàn)槲覀兊奶剿鞑呗圆⒎亲顑?yōu)(圖 2E)。由于本工作未考慮最優(yōu)探索問題,我們比較了探索之后在學(xué)習(xí)到的模型上的規(guī)劃性能。探索后,我們的智能體到達(dá)目標(biāo)平均需要 4.8 ± 0.03 步,這與最優(yōu)值(Ritter et al., 2020)相匹配(圖 2F)。需要注意的是,由于每個(gè)回合的圖都會(huì)改變,在此設(shè)置中我們沒有跨回合遷移任何學(xué)習(xí)。在具有可復(fù)用圖結(jié)構(gòu)的城市中,例如曼哈頓的網(wǎng)格布局,CSCG 圖式可以從復(fù)用中受益。我們將在接下來的實(shí)驗(yàn)中,在具有大量混淆觀測(cè)的房間導(dǎo)航這一更困難的設(shè)置中,詳細(xì)評(píng)估這種圖式復(fù)用。


4.2. 高度混淆環(huán)境中的圖式匹配與遷移學(xué)習(xí)

在下一組實(shí)驗(yàn)中,我們?cè)u(píng)估了在觀測(cè)值不同、有時(shí)大小也與訓(xùn)練環(huán)境不同的新環(huán)境中進(jìn)行圖式匹配和遷移學(xué)習(xí)的效果。在這些實(shí)驗(yàn)中,我們使用了比上述基準(zhǔn)測(cè)試更具挑戰(zhàn)性的設(shè)置,包括更大的2D和3D模擬環(huán)境以及大量的混淆(Beattie et al., 2016)。請(qǐng)注意,盡管我們使用空間導(dǎo)航作為實(shí)驗(yàn)平臺(tái),但我們并未利用任何關(guān)于空間(歐幾里得或其他)的假設(shè),而是將其建模為一個(gè)圖導(dǎo)航問題。對(duì)于2D和3D環(huán)境,我們都使用了不依賴3D感知的簡單智能體觀測(cè)模型,因此我們的結(jié)果與具體的3D空間設(shè)置無關(guān)。

我們從一組具有不同形狀和拓?fù)浣Y(jié)構(gòu)、且存在大量混淆的環(huán)境開始。類似于一個(gè)大的空曠場(chǎng)地,這些環(huán)境內(nèi)部的觀測(cè)在感知上是混淆的(Lajoie et al., 2019; Whitehead and Ballard, 1991),見圖1D。在2D情況下,混淆是由構(gòu)造產(chǎn)生的;在3D情況下,混淆則是聚類的結(jié)果。我們首先按照第3.3節(jié)的描述,在訓(xùn)練房間中學(xué)習(xí)圖式(圖1D)。我們?cè)诰哂邢嗨撇季值^測(cè)值全新且大小變化的測(cè)試房間上評(píng)估圖式匹配。在一個(gè)新的測(cè)試房間中,智能體進(jìn)行隨機(jī)游走,并根據(jù)在所執(zhí)行的動(dòng)作下、不同已學(xué)習(xí)圖式下的觀測(cè)序列的似然進(jìn)行評(píng)估(圖1E)。需要注意的是,這首先需要從隨機(jī)游走期間收集的數(shù)據(jù)中學(xué)習(xí)新的發(fā)射矩陣,并為每個(gè)圖式計(jì)算其似然。具有最佳似然的圖式被認(rèn)為是匹配的圖式。我們?cè)陔S機(jī)游走期間的多個(gè)時(shí)間點(diǎn)評(píng)估不同圖式的似然。詳細(xì)信息和以下實(shí)驗(yàn)使用的參數(shù)請(qǐng)參見補(bǔ)充材料 §B.3。

CSCG 圖式在新環(huán)境中快速學(xué)習(xí)匹配的綁定。為了證明這一點(diǎn),我們使用了具有6種不同布局的3D環(huán)境(Beattie et al., 2016)。智能體可以使用3個(gè)離散的以自我為中心的動(dòng)作(向前移動(dòng)、向左轉(zhuǎn)、向右轉(zhuǎn))進(jìn)行導(dǎo)航,觀測(cè)值是對(duì)應(yīng)于智能體視角的RGB圖像(圖1A, B)。此設(shè)置中的觀測(cè)空間龐大且復(fù)雜,這證明了模型對(duì)此類用例的適用性。我們遵循§3.2和補(bǔ)充材料 §A.3中描述的連續(xù)觀測(cè)流程,來學(xué)習(xí)訓(xùn)練環(huán)境的模型(使用隨機(jī)游走訓(xùn)練后學(xué)習(xí)到的圖見圖S1)。我們?cè)u(píng)估了在具有相同布局但墻壁、地板顏色和環(huán)境光照不同(這對(duì)應(yīng)于全新的RGB觀測(cè))的測(cè)試環(huán)境中的快速學(xué)習(xí)能力,智能體在這些房間中導(dǎo)航時(shí)使用補(bǔ)充材料 §A.4中描述的流程。圖3A顯示了通過負(fù)對(duì)數(shù)似然評(píng)估的,在測(cè)試房間中成功快速匹配正確圖式的結(jié)果(完整結(jié)果見補(bǔ)充材料圖S2)。在所有六個(gè)測(cè)試環(huán)境中,正確的圖式都被識(shí)別出來,通常是在環(huán)境中的1,000步以內(nèi),所有情況均在2,000步以內(nèi)識(shí)別出來,相比之下,沒有圖式復(fù)用的情況下學(xué)習(xí)需要大約50,000步。


為了測(cè)試對(duì)大小變化的遷移能力,我們使用了五種不同布局(圓柱形、矩形、帶孔正方形、環(huán)面和U形)的2D房間,每種布局有三種不同的大?。ㄐ ⒅?、大)(圖S3)。我們使用50,000步的隨機(jī)游走為這些房間的中等版本學(xué)習(xí)圖式。在具有新觀測(cè)映射的測(cè)試房間中,智能體進(jìn)行隨機(jī)游走,同時(shí)我們每5步學(xué)習(xí)新的發(fā)射并評(píng)估這些觀測(cè)在所有圖式下的似然。詳見附錄B.3.2。圖S3顯示了所有測(cè)試房間在所有圖式下的負(fù)對(duì)數(shù)似然。通過復(fù)用克隆結(jié)構(gòu),我們能夠在所有情況下在95步內(nèi)正確匹配圖式,展示了在大小和觀測(cè)值變化的新環(huán)境中快速匹配和適應(yīng)的能力(附錄圖S4顯示了不使用克隆結(jié)構(gòu)的結(jié)果)。我們使用二值化MNIST數(shù)據(jù)集的十個(gè)數(shù)字樣本作為房間布局,重現(xiàn)了這些結(jié)果,因?yàn)樗鼈兲峁┝朔俏覀冊(cè)O(shè)計(jì)的、各種有趣的形狀和拓?fù)浣Y(jié)構(gòu)(結(jié)果見補(bǔ)充材料 §B.3.3)。

圖式匹配在由多個(gè)圖式組合而成的環(huán)境中同樣有效。我們?cè)谟沙蓪?duì)的MNIST數(shù)字房間組成的新測(cè)試環(huán)境中證明了這一點(diǎn),并展示了單個(gè)數(shù)字的在線圖式匹配。詳細(xì)信息和結(jié)果請(qǐng)參見補(bǔ)充材料 §B.5。


4.3. 利用圖式圖組合性的新環(huán)境快速學(xué)習(xí)

圖式也可用于有效學(xué)習(xí)和導(dǎo)航由已知圖式組成的更大環(huán)境。我們通過匹配圖式并學(xué)習(xí)它們之間的轉(zhuǎn)移結(jié)構(gòu)來實(shí)現(xiàn)這一點(diǎn)。圖3B展示了一個(gè)由四個(gè)較小的3D房間組成的示例性3D模擬環(huán)境。智能體在此環(huán)境中行走,并在遠(yuǎn)少于不使用圖式學(xué)習(xí)所需的步數(shù)內(nèi),學(xué)習(xí)到組合模型(包括聯(lián)合轉(zhuǎn)移和發(fā)射)。圖3B還顯示了具有所有潛在連接的先驗(yàn)?zāi)P?,以及在兩種不同行走長度后學(xué)習(xí)到的模型。模型質(zhì)量通過在10,000步測(cè)試行走上的負(fù)對(duì)數(shù)似然來衡量,這些模型分別是在不同長度的行走后,使用和不使用圖式進(jìn)行訓(xùn)練得到的。使用圖式,我們能夠在不到10,000步內(nèi)學(xué)習(xí)到一個(gè)完美的環(huán)境模型,而從頭開始學(xué)習(xí)即使在30,000步后效果也明顯更差。學(xué)習(xí)算法和實(shí)驗(yàn)細(xì)節(jié)見補(bǔ)充材料 §B.5。這種通過組合和復(fù)用先前學(xué)習(xí)到的圖式進(jìn)行學(xué)習(xí)的能力,使得能夠快速適應(yīng)新環(huán)境,并且隨著經(jīng)驗(yàn)的積累,這種適應(yīng)能力只會(huì)變得更強(qiáng)。

4.4. 新環(huán)境中的快速規(guī)劃與導(dǎo)航

快速的圖式匹配與綁定使得在經(jīng)驗(yàn)有限的新環(huán)境中進(jìn)行規(guī)劃成為可能。我們首先在圖4A中引入的四房間3D環(huán)境的一個(gè)新變體中展示這種能力。在這個(gè)演示中,智能體首先在測(cè)試環(huán)境中行走,然后被要求找到返回其起始位置的最短路徑。我們使用手動(dòng)指定的初始行走,以便在最少的步數(shù)內(nèi)覆蓋環(huán)境的較大部分。在這種情況下,圖式——即先前為四房間組合學(xué)習(xí)到的組合圖式(圖3)——是預(yù)先已知的。智能體利用初始行走中的觀測(cè)值來學(xué)習(xí)新的發(fā)射綁定,并解碼其在模型中的當(dāng)前位置和目標(biāo)位置。然后,智能體使用此模型規(guī)劃到目標(biāo)的最短路徑(圖4B)。請(qǐng)注意,規(guī)劃的路線穿過了環(huán)境中尚未訪問的部分。


在執(zhí)行計(jì)劃時(shí),如果智能體在考慮了新的觀測(cè)后估計(jì)尚未到達(dá)目標(biāo),則可能存在圖式不匹配或估計(jì)的發(fā)射矩陣不準(zhǔn)確的情況。當(dāng)這種情況發(fā)生時(shí),智能體可以利用執(zhí)行計(jì)劃過程中獲得的新經(jīng)驗(yàn)更新模型后,重新進(jìn)行規(guī)劃。這個(gè)過程不斷迭代,直到智能體在解碼了初始隨機(jī)游走和所有后續(xù)重新規(guī)劃步驟的觀測(cè)后,確信自己已達(dá)到目標(biāo)。在一個(gè)旨在測(cè)試這種能力的實(shí)驗(yàn)中,我們根據(jù)距離目標(biāo)位置的曼哈頓距離以及所需的重新規(guī)劃次數(shù),系統(tǒng)評(píng)估了在2D環(huán)境中對(duì)圖式不匹配的這種魯棒性。圖4B顯示了一個(gè)示例圖式的結(jié)果。即使存在大小和結(jié)構(gòu)變化,我們也能成功導(dǎo)航,并且隨著圖式與測(cè)試房間之間差異的增加,性能會(huì)逐漸下降。到達(dá)目標(biāo)所需的規(guī)劃嘗試次數(shù)也平滑增加。添加自轉(zhuǎn)移概率的對(duì)角平滑項(xiàng)(見補(bǔ)充材料 §B.6)對(duì)于泛化到大小變化至關(guān)重要。如圖4B所示,沒有這種平滑,在測(cè)試房間的較大尺寸變體中,智能體永遠(yuǎn)無法到達(dá)目標(biāo)(另一個(gè)房間布局的結(jié)果見補(bǔ)充材料 §B.6)。

5. 討論與未來工作

學(xué)習(xí)能夠快速綁定到共享相同底層結(jié)構(gòu)的環(huán)境觀測(cè)的抽象表征,是假設(shè)中人類和動(dòng)物進(jìn)行遷移學(xué)習(xí)的機(jī)制 (Kumaran et al., 2016; Tse et al., 2007; Zhou et al., 2021)。我們提出了一個(gè)具體的抽象表征和快速綁定的計(jì)算模型,該模型使用圖式圖從混淆的觀測(cè)序列中學(xué)習(xí)高階結(jié)構(gòu),并利用一個(gè)槽綁定機(jī)制來遷移這些圖式,從而快速學(xué)習(xí)新環(huán)境的模型。CSCG 圖式學(xué)習(xí)圖結(jié)構(gòu)所需的回合數(shù)遠(yuǎn)少于深度強(qiáng)化學(xué)習(xí)智能體,并在 MPG 和單次學(xué)習(xí)的 StreetLearn 任務(wù)中匹配了最優(yōu)規(guī)劃。在高度混淆的環(huán)境中,CSCG 圖式在不同大小的新房間中找到了匹配的圖式綁定。在組合房間中,當(dāng)智能體穿過對(duì)應(yīng)于不同圖式的房間時(shí),我們能夠匹配正確的圖式。我們展示了在形狀和大小與匹配圖式有所不同的房間中,通過走向目標(biāo)的過程中重新規(guī)劃和更新模型,成功實(shí)現(xiàn)了目標(biāo)導(dǎo)向的規(guī)劃。更重要的是,已知的圖式可以被組合起來,以快速學(xué)習(xí)新穎的環(huán)境和新的、更大的圖式。這種能力具有自我引導(dǎo)的特性,并且只會(huì)隨著經(jīng)驗(yàn)的積累而變得更強(qiáng)。在我們當(dāng)前工作的基礎(chǔ)上,有許多清晰的潛在未來工作方向,我們?cè)谙挛牧谐銎渲幸恍?/p>

從經(jīng)驗(yàn)中學(xué)習(xí)圖式。在這項(xiàng)工作中,我們獨(dú)立且明確地學(xué)習(xí)了圖式。但在現(xiàn)實(shí)世界中,可能無法獲取屬于不同圖式的區(qū)分化經(jīng)驗(yàn)。從連續(xù)的經(jīng)驗(yàn)流中學(xué)習(xí)可重用的圖式 (Farzanfar et al., 2023) 可能是一個(gè)有趣的未來工作方向。

圖式與記憶。我們丟棄了先前從過去經(jīng)驗(yàn)中學(xué)到的發(fā)射,并學(xué)習(xí)新的綁定。然而,在某些情況下,先前學(xué)到的發(fā)射是直接適用的,因此,如果保留這些發(fā)射,當(dāng)存在匹配時(shí),可能能夠?qū)崿F(xiàn)更快的零樣本適應(yīng)。這可以看作是保留特定記憶與使用抽象圖式之間的區(qū)別。

圖式維護(hù)。我們?cè)谶@項(xiàng)工作中的圖式是固定的。然而,用新的經(jīng)驗(yàn)來更新圖式是可能的。事實(shí)上,兒童最初傾向于感知和記憶符合他們現(xiàn)有圖式的經(jīng)驗(yàn),之后才發(fā)展出靈活性 (Piaget and Cook, 1952)。類似地,我們可以根據(jù)新的經(jīng)驗(yàn)更新圖式,甚至讓圖式本身變得靈活,以封裝相關(guān)的抽象概念,但仍然受到規(guī)則的約束,以允許一致的推理。

主動(dòng)探索。我們使用了隨機(jī)或已知的最優(yōu)探索策略來學(xué)習(xí)和綁定圖式。但圖式提供了關(guān)于未來觀測(cè)的、以動(dòng)作條件為轉(zhuǎn)移的信念。通過選擇能夠最優(yōu)地區(qū)分不同圖式并尋求學(xué)習(xí)它們之間連接的動(dòng)作,我們有可能做得比隨機(jī)探索好得多。類似地,為了學(xué)習(xí)新環(huán)境和圖式,我們可以通過組合已知圖式來引導(dǎo)探索策略 (Sharma et al., 2021),甚至在探索過程中主動(dòng)學(xué)習(xí)它們。

原文鏈接:https://arxiv.org/pdf/2302.07350

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

財(cái)經(jīng)網(wǎng)
2026-03-26 18:32:12
中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國北斗令人意外

混沌錄
2026-03-18 23:54:31
告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國臺(tái)辦這句狠話破防綠營

告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國臺(tái)辦這句狠話破防綠營

阿離家居
2026-03-27 04:34:34
日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺得太恰當(dāng)了

日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺得太恰當(dāng)了

輝哥說動(dòng)漫
2026-03-27 07:12:50
廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

珠海消防
2026-03-25 20:08:08
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

橙星文娛
2026-03-26 13:40:27
為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

情感藝術(shù)家
2026-03-08 22:07:38
拒絕回歸WCBA!李月汝再赴美國,官宣重磅決定,韓旭也要這么干了

拒絕回歸WCBA!李月汝再赴美國,官宣重磅決定,韓旭也要這么干了

萌蘭聊個(gè)球
2026-03-26 13:09:33
中國的隱忍,正在延緩第三次世界大戰(zhàn)!

中國的隱忍,正在延緩第三次世界大戰(zhàn)!

南權(quán)先生
2026-03-23 15:11:48
徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

林子說事
2026-03-27 00:33:44
廈門一女子長期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

廈門一女子長期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

環(huán)球網(wǎng)資訊
2026-03-26 14:44:08
少一人也能贏!姆巴佩滿血?dú)w來先拔頭籌,法國2-1力克巴西

少一人也能贏!姆巴佩滿血?dú)w來先拔頭籌,法國2-1力克巴西

仰臥撐FTUer
2026-03-27 07:58:03
你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
你見過天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

你見過天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

帶你感受人間冷暖
2026-03-20 00:47:24
蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

生活視覺攝影
2026-03-26 13:33:29
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營養(yǎng)正當(dāng)時(shí),好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營養(yǎng)正當(dāng)時(shí),好吃

阿龍美食記
2026-03-24 09:50:48
中國肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光
2026-03-23 20:10:05
美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

勝研集
2026-03-25 00:02:51
國產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

國產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
2026-03-27 08:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1305文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
親子
房產(chǎn)
公開課
軍事航空

教育要聞

老師最大的管理能力,是處理情緒的能力!

親子要聞

在那聲嘆息里,產(chǎn)后媽媽終于找回了弄丟的自己

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版