国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

貝葉斯持續(xù)學(xué)習(xí)方法概述

0
分享至

The Bayesian Approach to Continual Learning: An Overview

貝葉斯持續(xù)學(xué)習(xí)方法概述

https://arxiv.org/pdf/2507.08922


摘要
持續(xù)學(xué)習(xí)(Continual Learning)是一種在線學(xué)習(xí)范式,學(xué)習(xí)者在連續(xù)的時(shí)間步中不斷從不同任務(wù)中積累知識(shí)。關(guān)鍵在于,學(xué)習(xí)者需在不遺忘過往學(xué)習(xí)經(jīng)驗(yàn)的前提下擴(kuò)展并更新其知識(shí),同時(shí)避免從頭開始重新訓(xùn)練。鑒于其序列化特性及其與人類認(rèn)知方式的相似性,持續(xù)學(xué)習(xí)為解決當(dāng)前深度模型在拓展至更多現(xiàn)實(shí)問題時(shí)所面臨的若干挑戰(zhàn)提供了契機(jī)。持續(xù)學(xué)習(xí)中數(shù)據(jù)以序列方式不斷到達(dá),這與貝葉斯推理存在內(nèi)在一致性:貝葉斯推理提供了一個(gè)基本框架,使模型可在接納新數(shù)據(jù)時(shí)持續(xù)更新其先驗(yàn)信念,而不會(huì)徹底遺忘舊數(shù)據(jù)中的已有知識(shí)。本綜述考察了貝葉斯持續(xù)學(xué)習(xí)(Bayesian Continual Learning)的不同設(shè)定,主要包括任務(wù)增量學(xué)習(xí)(task-incremental learning)與類增量學(xué)習(xí)(class-incremental learning)。我們首先討論持續(xù)學(xué)習(xí)的定義及其貝葉斯設(shè)定,并梳理其與相關(guān)領(lǐng)域(如領(lǐng)域自適應(yīng)、遷移學(xué)習(xí)和元學(xué)習(xí))之間的關(guān)聯(lián);隨后提出一種分類法,對(duì)屬于貝葉斯持續(xù)學(xué)習(xí)范式的各類算法進(jìn)行全面歸類;同時(shí),我們剖析當(dāng)前最新進(jìn)展,重點(diǎn)分析若干最具代表性的貝葉斯持續(xù)學(xué)習(xí)算法;此外,我們還探討了持續(xù)學(xué)習(xí)與發(fā)展心理學(xué)之間的聯(lián)系,并相應(yīng)引入兩領(lǐng)域間的類比;繼而討論當(dāng)前面臨的主要挑戰(zhàn);最后總結(jié)并展望貝葉斯持續(xù)學(xué)習(xí)未來潛在的研究方向。

  1. 引言持續(xù)學(xué)習(xí)(亦稱增量學(xué)習(xí)或終身學(xué)習(xí))是一種在線學(xué)習(xí)范式,其中(非獨(dú)立同分布的)數(shù)據(jù)持續(xù)到達(dá),其數(shù)據(jù)分布可能隨時(shí)間發(fā)生變化(Schlimmer & Fisher, 1986;Sutton & Whitehead, 1993;Ring, 1995, 1997;Kirkpatrick 等, 2017;Lee 等, 2017;Shin 等, 2017;Schmidhuber, 2018;Ahn 等, 2019;Riemer 等, 2019;Buzzega 等, 2020;Liu 等, 2020;Mirzadeh 等, 2020;Yoon 等, 2020;Beaulieu 等, 2021;Mundt 等, 2022;Romero 等, 2022;Wu 等, 2022)。在學(xué)習(xí)新到數(shù)據(jù)的過程中,持續(xù)學(xué)習(xí)者不應(yīng)遺忘此前數(shù)據(jù)所習(xí)得的知識(shí)——該現(xiàn)象稱為災(zāi)難性遺忘(catastrophic forgetting)(McCloskey & Cohen, 1989;Ratcliff, 1990;Robins, 1993, 1995;French, 1999;Pape 等, 2011;Srivastava 等, 2013;Achille 等, 2018;Diaz-Rodriguez 等, 2018;Kemker 等, 2018;Zeno 等, 2018;Parisi 等, 2019;Pfulb & Gepperth, 2019;Ebrahimi 等, 2020;Gupta 等, 2020;Banayeeanzade 等, 2021;Ke 等, 2021;Ostapenko 等, 2021;Wang 等, 2021;Karakida & Akaho, 2022;Lin 等, 2022;Miao 等, 2022)。同時(shí),持續(xù)學(xué)習(xí)者也需適應(yīng)各階段學(xué)習(xí)過程中發(fā)生的分布偏移(distributional shift)。因此,在持續(xù)學(xué)習(xí)中必須取得一種平衡:穩(wěn)定性(stability)用于維持已有知識(shí),適應(yīng)性(adaptation)用于吸收新知識(shí)。學(xué)界通常將此稱為持續(xù)學(xué)習(xí)中的穩(wěn)定性–可塑性權(quán)衡(stability-plasticity tradeoff)(Kim 等, 2023;Adel, 2024, 2025)。其中,穩(wěn)定性指模型保有既有知識(shí)的能力,可塑性則指模型適應(yīng)并學(xué)習(xí)新信息的能力。模型更新須以增量方式進(jìn)行,每階段可用數(shù)據(jù)僅限于當(dāng)前新數(shù)據(jù);出于隱私、安全與計(jì)算約束,通常禁止訪問歷史數(shù)據(jù)(Adel 等, 2020;Smith 等, 2023)。

人類具備基于有限經(jīng)驗(yàn)從過往學(xué)習(xí)的強(qiáng)大能力,遠(yuǎn)超當(dāng)前機(jī)器(Taylor & Stone, 2009;Chen & Liu, 2016;Finn 等, 2017;Li 等, 2018;Rostami 等, 2020)。部分原因在于,人類擁有一套在其生命各階段高效獲取與調(diào)適知識(shí)的機(jī)制(Li 等, 2018;Parisi 等, 2019)。相比之下,直到最近,機(jī)器學(xué)習(xí)模型(尤其是神經(jīng)網(wǎng)絡(luò))仍主要針對(duì)獨(dú)立同分布(i.i.d.)數(shù)據(jù)建模,因而面對(duì)序列到達(dá)、非平穩(wěn)數(shù)據(jù)時(shí)遭遇諸多挑戰(zhàn),例如前述的災(zāi)難性遺忘現(xiàn)象。

因此,持續(xù)學(xué)習(xí)框架應(yīng)能在不存儲(chǔ)歷史數(shù)據(jù)的前提下保留既有知識(shí),并依據(jù)新數(shù)據(jù)對(duì)其進(jìn)行更新。這與貝葉斯推理范式高度契合:模型參數(shù)上的概率分布表征了迄今所見數(shù)據(jù)下的當(dāng)前知識(shí)狀態(tài);當(dāng)新數(shù)據(jù)到達(dá)時(shí),該狀態(tài)可自然視為先驗(yàn),結(jié)合由新數(shù)據(jù)導(dǎo)出的知識(shí)(似然),可推斷出后驗(yàn);該后驗(yàn)又可作為后續(xù)數(shù)據(jù)到達(dá)時(shí)的新先驗(yàn),依此類推。已有諸多持續(xù)學(xué)習(xí)框架正是基于這一持續(xù)學(xué)習(xí)與貝葉斯推理間的深刻一致性展開構(gòu)建。

本文首先界定持續(xù)學(xué)習(xí)(CL)與貝葉斯持續(xù)學(xué)習(xí)(BCL),并形式化本文所涵蓋的CL設(shè)定(即任務(wù)增量學(xué)習(xí)與類增量學(xué)習(xí))(第2節(jié));繼而厘清其與相關(guān)領(lǐng)域(如元學(xué)習(xí)、領(lǐng)域自適應(yīng))之區(qū)別(第3節(jié));隨后提出BCL的算法分類體系(第4節(jié)),并概要介紹迄今若干具有里程碑意義的BCL算法;進(jìn)而建立BCL與發(fā)展心理學(xué)之間的若干關(guān)聯(lián)(第5節(jié));最后總結(jié)我們認(rèn)為直接影響B(tài)CL算法性能的關(guān)鍵挑戰(zhàn)(如災(zāi)難性遺忘),并提出若干我們認(rèn)為在未來BCL研究中頗具前景的方向(第6節(jié))。

  1. 公式化

最廣泛使用的持續(xù)學(xué)習(xí)(CL)設(shè)置是任務(wù)增量學(xué)習(xí)和類別增量學(xué)習(xí)。

在任務(wù)增量學(xué)習(xí)中,訓(xùn)練過程被分為不同的階段,每個(gè)階段對(duì)應(yīng)一個(gè)任務(wù)。任務(wù)增量學(xué)習(xí)的主要假設(shè)是任務(wù)身份在訓(xùn)練和測(cè)試過程中都能被觀察到。





例如,考慮一個(gè)手寫數(shù)字識(shí)別模型,其中需要識(shí)別每個(gè)手寫數(shù)字的特征以進(jìn)行預(yù)測(cè)。假設(shè)類別增量學(xué)習(xí)者遇到的問題是將數(shù)字“1”與“2”分類作為第一個(gè)任務(wù)。鑒于它們相當(dāng)不同的特征,類別增量學(xué)習(xí)者可能相對(duì)容易地在第一個(gè)任務(wù)中識(shí)別出所有的“1”數(shù)字。假設(shè)類別增量學(xué)習(xí)者遇到的第二個(gè)(或更一般地,連續(xù)的)任務(wù)是將數(shù)字“7”與“8”分類。此時(shí),類別增量學(xué)習(xí)者的任務(wù)變得更加具有挑戰(zhàn)性,因?yàn)樗F(xiàn)在需要同時(shí)區(qū)分所有四種手寫數(shù)字,這涉及到區(qū)分?jǐn)?shù)字“1”和“7”的棘手問題(圖2)。相比之下,一個(gè)任務(wù)增量學(xué)習(xí)者在遇到相同任務(wù)時(shí),將永遠(yuǎn)不需要區(qū)分手寫數(shù)字“1”和“7”,因?yàn)樗鼈儗儆诓煌娜蝿?wù),并且在訓(xùn)練或推理過程中,由于任務(wù)身份始終被觀察到(即在訓(xùn)練和測(cè)試過程中作為輸入),因此不需要進(jìn)行區(qū)分。

與上述標(biāo)準(zhǔn)類增量學(xué)習(xí)(CIL)設(shè)定相比,少樣本類增量學(xué)習(xí)(FSCIL)因在首個(gè)任務(wù)之后每個(gè)新出現(xiàn)的類別可用數(shù)據(jù)稀缺而引入了額外的難度層級(jí)。FSCIL 中的首個(gè)任務(wù)(t = 1)通常被稱為基礎(chǔ)任務(wù),而后續(xù)任務(wù)(即從第二個(gè)任務(wù)開始,t ≥ 2)則被稱為少樣本任務(wù)。對(duì)于少樣本任務(wù),每個(gè)類別僅提供少量數(shù)據(jù)(Rebuffi 等, 2017;Gidaris & Komodakis, 2018;Tao 等, 2020;Achituve 等, 2021;Ahmad 等, 2022;Peng 等, 2022;Song 等, 2023;Wang 等, 2023b;Zhou 等, 2023;Zhao 等, 2024),而基礎(chǔ)數(shù)據(jù)集 D? 是一個(gè)大規(guī)模訓(xùn)練數(shù)據(jù)集,包含多個(gè)基礎(chǔ)類別,且每個(gè)類別擁有相對(duì)充足的數(shù)據(jù)(相較于后續(xù)的少樣本任務(wù),t > 1)。換句話說,對(duì)于任何少樣本任務(wù) t > 1:N? >> Nt。此外,對(duì)于少樣本任務(wù) t > 1,在 FSCIL 設(shè)定下每個(gè)類別可用的數(shù)據(jù)量也比標(biāo)準(zhǔn) CIL 設(shè)定中對(duì)應(yīng)任務(wù)的數(shù)據(jù)量更為有限。對(duì)于增量少樣本任務(wù)的數(shù)據(jù)集 Dt(t > 1),C 類 K 樣本 FSCIL 設(shè)定指的是相應(yīng)任務(wù)包含 C 個(gè)類別,且每個(gè)類別有 K 個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)。這意味著,對(duì)于一個(gè)少樣本任務(wù) t > 1,其訓(xùn)練數(shù)據(jù)集的總大小為 Nt = C × K。


2.1 評(píng)估指標(biāo)

我們?cè)诖颂庩U明持續(xù)學(xué)習(xí)(CL)中最廣泛使用的評(píng)估指標(biāo)。

在測(cè)試過程中,持續(xù)學(xué)習(xí)器可以訪問迄今為止遇到的所有任務(wù)的測(cè)試數(shù)據(jù)。假設(shè)持續(xù)學(xué)習(xí)器迄今已遇到 m 個(gè)任務(wù),則相應(yīng)的性能評(píng)估將包括來自每個(gè)任務(wù) t(t ∈ {1, 2, ..., m})的測(cè)試集。令 Ai,j 表示持續(xù)學(xué)習(xí)器在完成任務(wù) t = i 的訓(xùn)練后,在任務(wù) t = j 上的測(cè)試分類準(zhǔn)確率。此外,令 Aj 表示一個(gè)參考模型在隨機(jī)初始化后,僅從屬于同一任務(wù) t = j 的數(shù)據(jù)中學(xué)習(xí)時(shí),在任務(wù) t = j 上的測(cè)試分類準(zhǔn)確率(Lopez-Paz & Ranzato, 2017a)。因此,持續(xù)學(xué)習(xí)器在學(xué)習(xí)完 m 個(gè)任務(wù)后的總體平均準(zhǔn)確率可定義如下:


在完成 m 個(gè)任務(wù)后,總體平均準(zhǔn)確率(AA?)的值越大越好。評(píng)估災(zāi)難性遺忘也同樣至關(guān)重要。反向遷移(BWT)是用于此目的的主要任務(wù)增量學(xué)習(xí)指標(biāo)之一。BWT 指標(biāo)的基本功能是評(píng)估學(xué)習(xí)任務(wù) t = i 對(duì)先前任務(wù) t = j(其中 j < i)學(xué)習(xí)性能的影響(圖3)。同樣,較大的正 BWT 值是可取的,因?yàn)樗砻鲗W(xué)習(xí)后續(xù)任務(wù) t = i 導(dǎo)致了先前任務(wù) t = j 性能的提升;而另一個(gè)極端情況——即意味著高度災(zāi)難性遺忘(先前任務(wù) t = j 的性能大幅下降)——?jiǎng)t對(duì)應(yīng)于較大的負(fù) BWT 值。反向遷移(BWT)指標(biāo)定義如下:


請(qǐng)注意,在最終任務(wù) t = m 上嘗試評(píng)估 BWT 指標(biāo)是毫無意義的。另一個(gè)重要指標(biāo),稱為前向遷移(FWT),用于衡量學(xué)習(xí)任務(wù) t = j 對(duì)未來任務(wù) t = i(i > j)性能的影響(圖3)。FWT 指標(biāo)值越大越好。我們采用最廣泛使用的 FWT 定義(Lopez-Paz & Ranzato, 2017b),該定義將學(xué)習(xí)任務(wù) t = j - 1 對(duì)未來任務(wù) t = j 的影響,與在任務(wù) t = j 上隨機(jī)初始化后的性能 Aj 進(jìn)行比較:



公式 (3) 中求和的索引從任務(wù) t = 2 開始,因?yàn)樵诘谝粋€(gè)任務(wù)上評(píng)估前向遷移(FWT)指標(biāo)是毫無意義的。較大的 FWT 值表示性能更優(yōu)。

在 (1) 中定義的總體平均準(zhǔn)確率也被用于 CIL 和 FSCIL,以評(píng)估迄今為止遇到的所有類別的整體分類準(zhǔn)確率。由于在連續(xù)增量任務(wù)的演進(jìn)過程中持續(xù)監(jiān)控分類準(zhǔn)確率的變化至關(guān)重要,而不僅僅是在最終任務(wù)之后,在 CIL 設(shè)定中,還采用了另一種平均準(zhǔn)確率指標(biāo)(Wang 等, 2023a; Zhou 等, 2023),以便追蹤平均準(zhǔn)確率的歷史變化。這被稱為平均增量準(zhǔn)確率(average incremental accuracy),記為 AIA,其計(jì)算方式如下:





2.2 基于貝葉斯推理的持續(xù)學(xué)習(xí)








  1. 相關(guān)范式

鑒于存在一些機(jī)器學(xué)習(xí)范式,其表象上可能與持續(xù)學(xué)習(xí)相似,因此強(qiáng)調(diào)這些范式與持續(xù)學(xué)習(xí)在特性上的細(xì)微差別至關(guān)重要。在本節(jié)中,我們簡要描述這些密切相關(guān)范式,并總結(jié)它們與持續(xù)學(xué)習(xí)的主要區(qū)別(圖4)。



領(lǐng)域泛化(Domain Generalization, DG)。在 DG 中,學(xué)習(xí)者以若干不同但相關(guān)的領(lǐng)域作為輸入,目標(biāo)是學(xué)習(xí)如何泛化至一個(gè)未見過的測(cè)試領(lǐng)域。領(lǐng)域泛化亦被稱為分布外泛化(out-of-distribution generalization)。與 DA 類似,在 DG 中,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)滿足獨(dú)立同分布(i.i.d.)的假設(shè)同樣不成立。但與 DA 不同的是,DG 學(xué)習(xí)者在訓(xùn)練階段既無法訪問測(cè)試領(lǐng)域的任何數(shù)據(jù)(無論有標(biāo)簽或無標(biāo)簽),也無法獲得關(guān)于該測(cè)試領(lǐng)域的任何信息。與 DA 和 TL 類似,DG 僅關(guān)注前向遷移(forward transfer)視角,完全不考慮知識(shí)保留或遺忘問題,因其性能僅依據(jù)測(cè)試領(lǐng)域進(jìn)行評(píng)估。

多任務(wù)學(xué)習(xí)(Multi-Task Learning, MTL)。MTL 模型的訓(xùn)練過程基于一組多個(gè)相關(guān)(但并不相同)的訓(xùn)練任務(wù)。多任務(wù)學(xué)習(xí)者的核心目標(biāo)是同時(shí)聯(lián)合學(xué)習(xí)所有訓(xùn)練任務(wù),以優(yōu)化模型在每一項(xiàng)訓(xùn)練任務(wù)上的表現(xiàn)。換言之,MTL 模型并不旨在泛化至其他(未見過的)任務(wù);其訓(xùn)練與測(cè)試均在同一組任務(wù)上進(jìn)行。

元學(xué)習(xí)(Meta-Learning)。元學(xué)習(xí)亦被稱為“學(xué)會(huì)學(xué)習(xí)”(learning to learn),因其向?qū)W習(xí)者提供大量不同但相關(guān)的學(xué)習(xí)任務(wù),而其核心目標(biāo)是學(xué)習(xí)一個(gè)具有良好泛化能力的學(xué)習(xí)算法(即“學(xué)會(huì)如何學(xué)習(xí)”),該算法經(jīng)優(yōu)化后可用于在元訓(xùn)練階段未見過的其他任務(wù)——這些任務(wù)被稱為測(cè)試任務(wù)(test tasks)。在元訓(xùn)練完成后,元學(xué)習(xí)者通常被允許訪問每個(gè)測(cè)試任務(wù)中的少量有標(biāo)簽訓(xùn)練樣本。與持續(xù)學(xué)習(xí)不同,元學(xué)習(xí)以離線方式進(jìn)行訓(xùn)練:在元訓(xùn)練開始前,所有訓(xùn)練任務(wù)即已一次性全部提供給學(xué)習(xí)者。此外,元學(xué)習(xí)不考慮災(zāi)難性遺忘問題,因?yàn)樵獙W(xué)習(xí)者的性能僅依據(jù)其在測(cè)試任務(wù)上的表現(xiàn)進(jìn)行評(píng)估。

  1. 方法本節(jié)將介紹具有代表性的貝葉斯持續(xù)學(xué)習(xí)算法,提出相應(yīng)的分類體系,并概述該分類中各類算法的核心特征。

4.1 基于正則化的方法
該類別中的持續(xù)學(xué)習(xí)(CL)算法采用基于正則化的訓(xùn)練策略,旨在對(duì)參數(shù)更新機(jī)制進(jìn)行調(diào)控,以應(yīng)對(duì)任務(wù)的序列式到達(dá)。簡而言之,那些對(duì)預(yù)測(cè)結(jié)果具有重大影響的參數(shù)將被加以保護(hù),避免發(fā)生劇烈變動(dòng);而其余參數(shù)則被賦予更大的更新自由度。其基本前提是:通過該策略進(jìn)行參數(shù)更新,有望在適應(yīng)新任務(wù)與緩解災(zāi)難性遺忘之間取得平衡(Li & Hoiem, 2016;Kirkpatrick 等, 2017;Zenke 等, 2017;Zeno 等, 2018;Nguyen 等, 2018;Adel 等, 2020)。


基于精確貝葉斯推理構(gòu)建貝葉斯持續(xù)學(xué)習(xí)(CL)模型是難以實(shí)現(xiàn)的,尤其考慮到絕大多數(shù)持續(xù)學(xué)習(xí)器均采用深度神經(jīng)網(wǎng)絡(luò)建模。這正是近似推理在貝葉斯 CL 框架中通常成為必要手段的主要原因。

4.1.1 最大后驗(yàn)估計(jì)(MAP Estimation)
在基于正則化的貝葉斯 CL 中,一種常見策略是將神經(jīng)網(wǎng)絡(luò)內(nèi)的推理建立在正則化的最大似然估計(jì)(regularized maximum likelihood estimation)基礎(chǔ)之上,通常得到如下形式的目標(biāo)函數(shù):




在第一個(gè)任務(wù)(t = 1)時(shí),Σ?1??? = Σ?1? 的值通過高斯先驗(yàn)的協(xié)方差進(jìn)行初始化。通常采用對(duì)角拉普拉斯傳播(Diagonal Laplace propagation),即僅保留 Σ?1? 的對(duì)角項(xiàng),因?yàn)榉駝t計(jì)算似然函數(shù)的完整海森矩陣在計(jì)算上將是不可行的。


突觸智能(Synaptic Intelligence, SI)。在該算法中(Zenke 等, 2017),前述公式 (9) 中的矩陣 是依據(jù)各參數(shù)在每個(gè)任務(wù)中的重要性進(jìn)行計(jì)算的。重要性度量基于各參數(shù)對(duì)全局損失變化的相應(yīng)貢獻(xiàn)進(jìn)行量化;最終,越重要的參數(shù)被賦予越小的變化自由度。從宏觀層面來看,這與 EWC 算法頗為相似——即對(duì)于被認(rèn)為最具影響力的參數(shù),在遭遇新任務(wù)時(shí)施加更強(qiáng)的約束以限制其變化。然而,其核心區(qū)別在于:參數(shù)重要性估計(jì)是與任務(wù)學(xué)習(xí)過程同步進(jìn)行的,因而無需像 EWC 那樣單獨(dú)近似 Fisher 信息矩陣的對(duì)角元。

其他相關(guān)算法
類似工作還包括 Chaudhry 等(2018)提出的 EWC 在線變體,其計(jì)算效率更高:該方法為所有任務(wù)維護(hù)單一的對(duì)角 Fisher 矩陣,并借助滑動(dòng)平均更新該矩陣;滑動(dòng)平均還有助于降低算法對(duì)超參數(shù)取值的敏感性。

另一 EWC 的在線版本見于進(jìn)展與壓縮(Progress & Compress, P&C;Schwarz 等, 2018)算法,旨在解決 EWC 中 Fisher 正則項(xiàng)極易對(duì)網(wǎng)絡(luò)參數(shù)施加過度約束的問題——這最終可能阻礙新任務(wù)的學(xué)習(xí)。此外,作者指出:EWC 中各先前任務(wù)的重要性由 Fisher 矩陣任意縮放,這是不理想的;P&C 通過歸一化每個(gè)任務(wù)的 Fisher 信息矩陣加以解決,從而確保對(duì)所有歷史任務(wù)一視同仁。

Ritter 等(2018)提出了一種可擴(kuò)展的拉普拉斯近似方法,其基于分塊對(duì)角化與因子分解近似(Martens & Grosse, 2015;Botev 等, 2017)。

Lee 等(2017)提出的算法對(duì)貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)后驗(yàn)分布的矩進(jìn)行增量式匹配:即依次將第一個(gè)任務(wù)訓(xùn)練所得 BNN 的后驗(yàn)矩,與第二個(gè)任務(wù)的對(duì)應(yīng)后驗(yàn)矩進(jìn)行匹配,依此類推,隨各新任務(wù)依次到達(dá)而持續(xù)更新。其基礎(chǔ)版本通過取舊 BNN 與新 BNN(即學(xué)習(xí)新任務(wù)后所得參數(shù))參數(shù)的平均值實(shí)現(xiàn)。然而,增量矩匹配算法所得近似結(jié)果高度依賴原始問題的搜索空間特性(Foster & Brintrup, 2023);為取得良好性能,需滿足搜索空間光滑且近似凸性的前提條件。

Ebrahimi 等(2020)依據(jù)網(wǎng)絡(luò)權(quán)重概率分布中估計(jì)的不確定性水平,動(dòng)態(tài)調(diào)整學(xué)習(xí)率。

受信息論思想啟發(fā),分類器投影正則化(Classifier-Projection Regularization, CPR;Cha 等, 2021)算法將分類器輸出所給出的條件概率投影至均勻分布,據(jù)稱可最終提升持續(xù)學(xué)習(xí)性能。

Kao 等(2021)則通過權(quán)重正則化與梯度投影相結(jié)合的方式應(yīng)對(duì)災(zāi)難性遺忘:即將新任務(wù)的梯度投影至不與先前任務(wù)梯度發(fā)生干擾的子空間中。

4.1.2 變分推斷方法





公式 (13) 右側(cè)第一項(xiàng)是持續(xù)學(xué)習(xí)(CL)模型在當(dāng)前任務(wù) t t 數(shù)據(jù)集上的期望對(duì)數(shù)似然;第二項(xiàng)旨在懲罰當(dāng)前近似后驗(yàn)分布與其在前一任務(wù)中對(duì)應(yīng)分布之間的差異。然而,整個(gè) (13) 中的下界表達(dá)式在持續(xù)學(xué)習(xí)中無法以閉式計(jì)算。因此,對(duì)該變分目標(biāo)的梯度計(jì)算通常需結(jié)合局部重參數(shù)化技巧(local reparameterization trick)與簡單的蒙特卡洛采樣方法(Salimans & Knowles, 2013;Kingma & Welling, 2014;Kingma 等, 2015;Nguyen 等, 2018)。

與采用 MAP 估計(jì)的方法(如 EWC 和 SI)不同,VCL 所需在驗(yàn)證集上調(diào)節(jié)的自由超參數(shù)更少。這一特性在在線場(chǎng)景中尤為有利,因?yàn)檫^多的自由參數(shù)及其對(duì)應(yīng)的驗(yàn)證集可能帶來顯著負(fù)擔(dān)(Nguyen 等, 2018)。

其他相關(guān)算法
其他基于變分推斷的算法包括 Joseph 與 Balasubramanian(2020)的工作:其為每個(gè)任務(wù)訓(xùn)練一個(gè)模型集成,并從中學(xué)習(xí)網(wǎng)絡(luò)權(quán)重的任務(wù)特異性元分布,進(jìn)而將該集成用作一個(gè)任務(wù)條件變分自編碼器(task-conditioned VAE;Kingma & Welling, 2014;Kingma 等, 2014)的訓(xùn)練集;每個(gè)任務(wù)的 VAE 均以其對(duì)應(yīng)的任務(wù)特異性先驗(yàn)為條件。

Egorov 等(2021)也在持續(xù)學(xué)習(xí)背景下應(yīng)用了 VAE:其首先為 CL-VAE 定義一個(gè)最優(yōu)先驗(yàn),繼而推斷當(dāng)前先驗(yàn)的最優(yōu)加性擴(kuò)展(additive expansion),以適配每一個(gè)新出現(xiàn)的任務(wù)。

Ahn 等(2019)的方法則旨在緩解 EWC 所依賴的 Fisher 信息矩陣與 VCL 所依賴的變分推斷(其中每個(gè)權(quán)重參數(shù)至少關(guān)聯(lián)一個(gè)方差項(xiàng))帶來的過高內(nèi)存開銷;其策略是將可學(xué)習(xí)的方差項(xiàng)與神經(jīng)網(wǎng)絡(luò)的隱藏單元關(guān)聯(lián),而非與網(wǎng)絡(luò)權(quán)重參數(shù)本身關(guān)聯(lián)。

Chen 等(2019)指出,自然梯度法(natural gradient methods;Pascanu & Bengio, 2014)可能優(yōu)于傳統(tǒng)梯度下降,因?yàn)榍罢咴?strong>黎曼空間(而非歐幾里得空間)中給出了最陡下降方向——這意味著自然梯度傾向于在參數(shù)分布意義上實(shí)現(xiàn)更小的更新步長;而更小的參數(shù)變化是更優(yōu)選擇,因其最終可使持續(xù)學(xué)習(xí)模型對(duì)災(zāi)難性遺忘更具魯棒性。

4.2 基于回放的方法(Replay-based Approach)
該方法依賴于存儲(chǔ)或回放先前任務(wù)的數(shù)據(jù),從而為模型帶來額外開銷,例如數(shù)據(jù)存儲(chǔ)、回放操作,以及為選擇(或生成)數(shù)據(jù)點(diǎn)而進(jìn)行的優(yōu)化過程(Titsias 等,2020)。出于安全與/或隱私考慮,實(shí)踐中存儲(chǔ)歷史任務(wù)數(shù)據(jù)往往頗具挑戰(zhàn)。另一類方法則通過學(xué)習(xí)一個(gè)生成模型來生成先前任務(wù)的數(shù)據(jù)(Farquhar & Gal,2019),這可在存儲(chǔ)開銷方面有所降低;但其代價(jià)是需額外訓(xùn)練生成模型。下文我們將介紹基于回放的貝葉斯持續(xù)學(xué)習(xí)中最具代表性的算法。

變分生成回放(Variational Generative Replay, VGR)。VGR 算法(Farquhar & Gal, 2019)可視為 VCL 在回放范式下的對(duì)應(yīng)方法。VGR 被提出作為一種以似然為中心(likelihood-focused)的貝葉斯替代方案,與以先驗(yàn)為中心(prior-focused)的 VCL 形成對(duì)比。VGR 并不依賴于先前任務(wù)的后驗(yàn)分布,而是通過持續(xù)調(diào)整似然項(xiàng)來適配持續(xù)學(xué)習(xí)模型。依據(jù) Farquhar 與 Gal(2019)所建立的術(shù)語,VCL 被歸類為“先驗(yàn)中心式”,因其在新任務(wù)到來時(shí),始終將舊后驗(yàn)直接作為新先驗(yàn)處理;而 VGR 則昂貴得多,主要因其需在每個(gè)任務(wù)上利用對(duì)應(yīng)訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)生成對(duì)抗網(wǎng)絡(luò)(GAN;Goodfellow 等, 2014b;Goodfellow, 2016),且需保存所有先前任務(wù)的 GAN,并從中采樣以生成用于后續(xù)任務(wù)的回放數(shù)據(jù)。


為在貝葉斯框架下刻畫這一行為,標(biāo)準(zhǔn)的證據(jù)下界(ELBO)被擴(kuò)展,以納入多個(gè)先前數(shù)據(jù)集(即屬于舊任務(wù)的數(shù)據(jù))的影響:





核心集 VCL(Coreset VCL)。VCL 的核心集版本(Nguyen 等, 2018)旨在解決前述標(biāo)準(zhǔn) VCL 存在的問題:即在后續(xù)任務(wù)中反復(fù)進(jìn)行近似可能導(dǎo)致算法越來越容易發(fā)生災(zāi)難性遺忘。核心集版本的 VCL 通過存儲(chǔ)每個(gè)先前任務(wù)的一部分?jǐn)?shù)據(jù)子集,并在學(xué)習(xí)未來任務(wù)時(shí)回放這些子集來緩解此問題。因此,從每個(gè)先前任務(wù)中選取的舊數(shù)據(jù)子集(稱為“核心集”)被用來刷新 VCL 模型對(duì)舊任務(wù)的記憶,從而潛在地降低災(zāi)難性遺忘的風(fēng)險(xiǎn)。顯然,這需要付出持續(xù)選擇、存儲(chǔ)和回放核心集所帶來的計(jì)算與存儲(chǔ)代價(jià)。






基于高斯過程的持續(xù)學(xué)習(xí)函數(shù)正則化方法(Functional Regularization for Continual Learning using Gaussian Processes, FRCL)。FRCL 算法(Titsias 等, 2020)將其貝葉斯推理建立在函數(shù)空間之上,而非深度神經(jīng)網(wǎng)絡(luò)的參數(shù)空間。其通過將神經(jīng)網(wǎng)絡(luò)最后一層的權(quán)重視為高斯分布,從而獲得一個(gè)高斯過程(Gaussian Process),并在該底層函數(shù)空間中記憶近似的后驗(yàn)信念。


其中核函數(shù)由共享表示 ? ? 的點(diǎn)積定義。

記憶功能通過誘導(dǎo)點(diǎn)(inducing points)實(shí)現(xiàn),這些誘導(dǎo)點(diǎn)由一個(gè)稀疏高斯過程(sparse Gaussian Process, GP)構(gòu)建而成。誘導(dǎo)點(diǎn)指從每個(gè)任務(wù)數(shù)據(jù)中選出的一個(gè)固定大小子集,其選取目標(biāo)是能最優(yōu)地表征該任務(wù)。隨后,這些子集通過類似于公式 (13) 中 VCL 形式的 KL 散度項(xiàng),對(duì)后續(xù)任務(wù)的學(xué)習(xí)過程進(jìn)行正則化——但此時(shí)正則化基于的是誘導(dǎo)點(diǎn)而非原始參數(shù)。

因此,F(xiàn)RCL 算法既可視為基于回放的方法,也可視為基于正則化的方法。相應(yīng)地,其需承擔(dān)為獲得誘導(dǎo)點(diǎn)而進(jìn)行稀疏 GP 優(yōu)化所帶來的計(jì)算開銷;此外,還存在可擴(kuò)展性問題:誘導(dǎo)點(diǎn)不僅需為每個(gè)任務(wù)單獨(dú)優(yōu)化,還需予以存儲(chǔ)。

FRCL 算法(Titsias 等, 2020)也為后續(xù)相關(guān)方法奠定了基礎(chǔ),例如(Pan 等, 2020;Rudner 等, 2022)。Pan 等(2020)采用拉普拉斯近似,并通過強(qiáng)制核函數(shù)使用神經(jīng)網(wǎng)絡(luò)的全部權(quán)重(而非僅最后一層)來構(gòu)建高斯過程。Rudner 等(2022)則未采用拉普拉斯近似,而是直接通過變分推斷優(yōu)化方差參數(shù)。

其他相關(guān)算法:其他基于高斯過程的持續(xù)學(xué)習(xí)算法包括變分自回歸高斯過程(VAR-GPs;Kapoor 等, 2021),其結(jié)合自回歸變分分布與誘導(dǎo)點(diǎn)來記憶舊任務(wù)。

Kurle 等(2020)則結(jié)合兩類記憶:一是對(duì)舊任務(wù)原始數(shù)據(jù)的補(bǔ)充性記憶,二是通過變分后驗(yàn)以對(duì)角高斯分布近似貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)權(quán)重。

Sun 等(2022)引入了一種基于信息論準(zhǔn)則的在線記憶選擇機(jī)制。

其他基于回放的范例還包括:

  • Borsos 等(2020)的工作:通過基數(shù)約束的雙層優(yōu)化構(gòu)建概括舊任務(wù)的核心集(coreset),并采用基于加權(quán)數(shù)據(jù)摘要的貪心前向選擇求解該問題;
  • Lyu 等(2023)的工作:采用概率策略調(diào)整任務(wù)間權(quán)重,以適配批歸一化(batch normalization),并結(jié)合記憶緩沖區(qū)使用;其基本假設(shè)是:對(duì)于某一層,每個(gè)批次的統(tǒng)計(jì)量服從一個(gè)概率分布,其隨機(jī)性源于神經(jīng)網(wǎng)絡(luò)參數(shù)的取值;
  • Ye 與 Bors(2022a)提出的基于 VAE 的記憶緩沖方法:包含一個(gè)持續(xù)存儲(chǔ)近期樣本的短期記憶(STM),以及一個(gè)旨在維持所有已存樣本廣泛多樣性的長期記憶(LTM);部分樣本可根據(jù)信息多樣性選擇準(zhǔn)則從 STM 轉(zhuǎn)移至 LTM;
  • Henning 等(2021)學(xué)習(xí)一個(gè)共享的元分布,回放所有先前任務(wù)特異性后驗(yàn)的參數(shù),但其局限在于帶來顯著的計(jì)算開銷。

4.3 基于架構(gòu)的方法(Architecture-based Approach)

該方法的核心目標(biāo)是:通過將模型架構(gòu)劃分為兩類組件,來調(diào)控穩(wěn)定性與適應(yīng)性之間的權(quán)衡
i)全局性組件(global parts)——可在各任務(wù)間復(fù)用,且隨任務(wù)演進(jìn)而較少變化;
ii)任務(wù)特異性組件(task-specific parts)——專用于處理特定任務(wù)。

此類增量式結(jié)構(gòu)學(xué)習(xí)(incremental structure learning)方法用于持續(xù)學(xué)習(xí)(CL)的一大優(yōu)勢(shì)在于:其可通過為各任務(wù)分配專屬參數(shù),提升模型在對(duì)應(yīng)任務(wù)上的性能,同時(shí)不影響其他任務(wù)——因?yàn)槠溆嗳蝿?wù)由受控共享參數(shù)所保護(hù),從而有效緩解災(zāi)難性遺忘。
另一方面,當(dāng)持續(xù)學(xué)習(xí)任務(wù)數(shù)量龐大時(shí),該方法可能面臨可擴(kuò)展性挑戰(zhàn):模型架構(gòu)的潛在指數(shù)級(jí)擴(kuò)張可能帶來難以承受的計(jì)算與存儲(chǔ)開銷。

自適應(yīng)權(quán)重持續(xù)學(xué)習(xí)(Continual Learning with Adaptive Weights, CLAW)。
這是另一種基于 VCL 的算法,但具備自動(dòng)架構(gòu)適應(yīng)能力(Adel 等, 2020)。
區(qū)別于傳統(tǒng)多任務(wù)學(xué)習(xí)中固定劃分的剛性架構(gòu)(底層為共享組件、頂層為任務(wù)專屬組件),CLAW 采用一種靈活的數(shù)據(jù)驅(qū)動(dòng)方法(基于變分推斷),自適應(yīng)地判定網(wǎng)絡(luò)中哪些部分應(yīng)被共享,從而在緩解災(zāi)難性遺忘與提升任務(wù)間知識(shí)遷移之間取得優(yōu)化平衡。

在涉及異構(gòu)任務(wù)的持續(xù)學(xué)習(xí)場(chǎng)景中,CLAW 的數(shù)據(jù)驅(qū)動(dòng)策略能有效確定任務(wù)間合適的共享程度:其通過自動(dòng)化架構(gòu)適配過程實(shí)現(xiàn)——對(duì)每個(gè)隱藏神經(jīng)元,或保持其不變(即作為全局神經(jīng)元),或針對(duì)每個(gè)新任務(wù)進(jìn)行局部適配。后一路徑(局部適配)通過靈活學(xué)習(xí)適配參數(shù)的變化范圍來實(shí)現(xiàn):對(duì)每個(gè)神經(jīng)元額外引入共三個(gè)參數(shù):

  • 一個(gè)二元參數(shù),用于學(xué)習(xí)該神經(jīng)元是否需要適配;
  • 另外兩個(gè)參數(shù),用于控制適配幅度——即適配程度本身亦被學(xué)習(xí)。

所有參數(shù)均通過變分推斷聯(lián)合優(yōu)化。
CLAW 的另一優(yōu)勢(shì)在于:整個(gè)過程中架構(gòu)本身無顯著擴(kuò)張(不新增神經(jīng)元),且無需存儲(chǔ)或生成歷史任務(wù)數(shù)據(jù)。

印度自助餐神經(jīng)網(wǎng)絡(luò)(Indian Buffet Neural Networks)。
Kessler 等(2021)在貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)結(jié)構(gòu)上施加了印度自助餐過程(Indian Buffet Process, IBP)先驗(yàn),從而構(gòu)建出一種可根據(jù)所遇數(shù)據(jù)量動(dòng)態(tài)調(diào)整自身復(fù)雜度的模型。該基于 IBP 的持續(xù)學(xué)習(xí)模型采用在線變分推斷,并通過對(duì)伯努利分布與貝塔分布進(jìn)行重參數(shù)化來構(gòu)建 IBP 先驗(yàn)。

具體而言,IBP 先驗(yàn)(Griffiths & Ghahramani, 2011)被賦予一個(gè)無限維二元隱變量矩陣Z Z 上。這使得模型可對(duì)每層所需隱藏單元(即神經(jīng)元)數(shù)量進(jìn)行推斷。隨后,BNN 的權(quán)重被視為從互不耦合的高斯分布(Blundell 等, 2015)中獨(dú)立抽取的隨機(jī)樣本,并以類似 VCL 的方式迭代執(zhí)行變分貝葉斯更新。


少數(shù)其他貝葉斯持續(xù)學(xué)習(xí)算法也屬于架構(gòu)驅(qū)動(dòng)型。另一個(gè)例子見于 Wang 等(2021),該方法在學(xué)習(xí)每個(gè)新任務(wù)時(shí)動(dòng)態(tài)擴(kuò)展參數(shù),然后有選擇地合并這些擴(kuò)展后的參數(shù)。作者認(rèn)為,該方法與生物主動(dòng)遺忘的底層機(jī)制一致。另一個(gè)使用 IBP 先驗(yàn)的持續(xù)學(xué)習(xí)算法例子見于 Mehta 等(2021),該算法基于斷棒公式,采用一種貝葉斯非參數(shù)方法;其 IBP 先驗(yàn)與神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣的因子分解相結(jié)合,從而允許因子復(fù)用,進(jìn)而實(shí)現(xiàn)不同任務(wù)間的正向知識(shí)遷移。

4.4 類增量學(xué)習(xí)(Class-Incremental Learning, CIL)

與任務(wù)增量學(xué)習(xí)設(shè)定不同,目前極少有類增量學(xué)習(xí)(CIL)算法將其在線更新機(jī)制建立在貝葉斯推理和/或貝葉斯學(xué)習(xí)思想之上。需要特別強(qiáng)調(diào)的是:本文所稱的貝葉斯持續(xù)學(xué)習(xí)(Bayesian CL),主要指在持續(xù)學(xué)習(xí)框架所需的在線更新過程中采納貝葉斯方法——例如在 VCL 中,將舊后驗(yàn)作為新先驗(yàn),等等。換言之,我們不將那些僅對(duì)每個(gè)任務(wù)獨(dú)立地應(yīng)用貝葉斯分類器,卻未對(duì)底層持續(xù)學(xué)習(xí)模型參數(shù)θ θ 的情形納入“貝葉斯 CL”范疇。

基于潛變量模型的少樣本類增量學(xué)習(xí)適應(yīng)方法(Class-Incremental Adaptation via Latent variable Models, CIAM)
因此,嚴(yán)格依據(jù)上述定義,Adel(2025)所提出的少樣本類增量學(xué)習(xí)(FSCIL)算法,迄今可被視為文獻(xiàn)中唯一的貝葉斯 CIL 算法。相較于標(biāo)準(zhǔn) CIL 設(shè)定,F(xiàn)SCIL 引入了額外的難度層級(jí):絕大多數(shù)類別的訓(xùn)練數(shù)據(jù)極為稀缺——即首個(gè)任務(wù)中的類別擁有相對(duì)充足的數(shù)據(jù),而后續(xù)所有任務(wù)(即第二個(gè)任務(wù)及之后)中的類別則僅有少量樣本。除災(zāi)難性遺忘風(fēng)險(xiǎn)外,此類數(shù)據(jù)稀缺性還會(huì)加劇 FSCIL 中的其他問題,如類別偏差(bias)與過擬合。

CIAM 算法通過一種專為緩解 FSCIL 中偏差與災(zāi)難性遺忘而定制的變分自編碼器(VAE),構(gòu)建了一個(gè)潛變量模型,并據(jù)此調(diào)整少樣本類別的表征(即首個(gè)任務(wù)之后所有任務(wù)中的類別),使其與相關(guān)歷史知識(shí)達(dá)成平衡。在學(xué)習(xí)少樣本類別時(shí),該算法利用了 Adel(2025)所引入 VAE 的推斷共享(amortization)特性——不僅適配當(dāng)前的少樣本類別,同時(shí)也對(duì)先前相關(guān)類別進(jìn)行協(xié)同調(diào)整。

以下我們將介紹兩種較為接近貝葉斯 CIL 算法(但仍非嚴(yán)格意義上的貝葉斯 CIL):

高斯過程樹(Gaussian Process Tree)
高斯過程(GPs)的推理在計(jì)算上頗具挑戰(zhàn)性,尤其面對(duì)大規(guī)模數(shù)據(jù)集時(shí);而在 CIL 設(shè)定下,此類挑戰(zhàn)進(jìn)一步加劇。Achituve 等(2021)通過引入一種基于樹狀層次化 GP 模型的多類分類方法來應(yīng)對(duì)該問題:在該樹結(jié)構(gòu)中,每個(gè)內(nèi)部節(jié)點(diǎn)均利用Polya-Gamma 擴(kuò)增方案(Polson 等, 2013)為數(shù)據(jù)擬合一個(gè) GP。依據(jù)前述針對(duì)任務(wù)增量學(xué)習(xí)的分類體系,該算法可歸類為基于回放的方法,因其使用了充當(dāng)先前任務(wù)訓(xùn)練數(shù)據(jù)代理的誘導(dǎo)點(diǎn)

在本工作之前,前述的 Polya-Gamma 擴(kuò)增方案通過將高斯過程(GP)后驗(yàn)分布條件化于一個(gè)擴(kuò)增的 Polya-Gamma 變量上,實(shí)現(xiàn)了二分類任務(wù)的推理。Achituve 等(2021)的工作將此方法擴(kuò)展至多類 CIL 分類。他們的解決方案基于一個(gè)樹狀模型:其中每個(gè)節(jié)點(diǎn)利用一個(gè) GP 映射到一個(gè)二分類任務(wù),并從每一個(gè)先前任務(wù)中引入誘導(dǎo)點(diǎn)。盡管由二分類 GP 構(gòu)成的樹結(jié)構(gòu)確實(shí)構(gòu)成了一個(gè) CIL 框架,但隨著類別數(shù)量增多,最終層級(jí)分類器所涉及的二分類器數(shù)量、每個(gè) GP(即每個(gè)節(jié)點(diǎn))所需的優(yōu)化以及與整棵樹相關(guān)的整體優(yōu)化,其計(jì)算復(fù)雜度會(huì)變得極其龐大,最終導(dǎo)致嚴(yán)重的計(jì)算負(fù)擔(dān)。


  1. 與發(fā)展心理學(xué)的關(guān)聯(lián)

人類在持續(xù)學(xué)習(xí)方面遠(yuǎn)比機(jī)器更擅長。與機(jī)器不同,(健康的)人類幾乎不會(huì)僅僅因?yàn)楂@取了更新的信息,便遺忘過去習(xí)得的重要知識(shí)。換言之,諸如災(zāi)難性遺忘以及穩(wěn)定性–可塑性權(quán)衡等問題,在人腦中能被本能且高效地加以應(yīng)對(duì)(Finn 等, 2017;Rostami 等, 2020)。

此前已有研究嘗試探討人類在持續(xù)學(xué)習(xí)方面無可爭(zhēng)議的優(yōu)越性(Hadsell 等, 2020;McCaffary, 2021),但此類探索大多僅聚焦于神經(jīng)科學(xué)視角。本文提供了一個(gè)嶄新的視角——基于發(fā)展心理學(xué),旨在通過對(duì)記憶、遺忘,以及人類一生中持續(xù)適應(yīng)不同情境的非凡能力等相關(guān)概念的分析,為持續(xù)學(xué)習(xí)(CL)研究獲得更深層次的洞見。

發(fā)展心理學(xué)關(guān)注人類在其整個(gè)生命周期中(Grotuss 等, 2007;Greenfield, 2009),如何適應(yīng)各類變化(如認(rèn)知、社會(huì)、情感與智力等層面的變化)。盡管人類所面臨的持續(xù)學(xué)習(xí)挑戰(zhàn)比機(jī)器更為復(fù)雜——個(gè)體生命歷程中發(fā)生的變化涵蓋多種范圍與性質(zhì)(如認(rèn)知、人格等)——人類適應(yīng)此類艱巨變化的能力仍遠(yuǎn)超當(dāng)前機(jī)器。這正是發(fā)展心理學(xué)視角對(duì)持續(xù)學(xué)習(xí)研究具有啟發(fā)意義的核心原因之一。

5.1 人類與機(jī)器持續(xù)學(xué)習(xí)方式的相似之處

人類與機(jī)器在持續(xù)學(xué)習(xí)能力上存在為數(shù)不多的相似點(diǎn)之一是:隨著所遇任務(wù)數(shù)量持續(xù)增加,二者的持續(xù)學(xué)習(xí)能力均呈下降趨勢(shì)。盡管人類在持續(xù)學(xué)習(xí)方面具有顯著優(yōu)勢(shì),但隨年齡增長,其學(xué)習(xí)、記憶及適應(yīng)動(dòng)態(tài)環(huán)境的能力亦會(huì)減弱;同時(shí),人類的可塑性水平亦隨年齡增長而呈現(xiàn)一致性的下降趨勢(shì)(Hensch, 2004)。年齡增長必然意味著個(gè)體經(jīng)歷了更多任務(wù)——既需獲取新知識(shí),又需維系過往多年所積累的知識(shí)。這與機(jī)器的情形相仿:隨著任務(wù)數(shù)量增多,機(jī)器亦更易陷入災(zāi)難性遺忘,并表現(xiàn)出可塑性水平下降的現(xiàn)象。

另一相似之處體現(xiàn)為兒童發(fā)展中的“支架式支持”(scaffolding;Margolis, 2020)。當(dāng)兒童面臨一項(xiàng)新任務(wù)(在維果茨基理論中稱之為“最近發(fā)展區(qū)”,zone of proximal development),成人會(huì)通過引導(dǎo),幫助兒童在既有知識(shí)基礎(chǔ)上建構(gòu)新技能,最終使其成功完成該任務(wù)。因此我們推測(cè):“支架”可被視為人類實(shí)現(xiàn)正向遷移(在 CL 術(shù)語中)的一種方式,亦即在不損害既有知識(shí)的前提下,促進(jìn)對(duì)新信息的適應(yīng)。

5.2 穩(wěn)定性–可塑性權(quán)衡與發(fā)展心理學(xué)的關(guān)聯(lián)

在發(fā)展心理學(xué)中,“認(rèn)知靈活性”指?jìng)€(gè)體根據(jù)情境或需求變化,調(diào)整自身思維與行為的能力,通常涉及在不同任務(wù)或概念之間切換(Ca?as 等, 2006);而“認(rèn)知穩(wěn)定性”則指?jìng)€(gè)體在面對(duì)干擾(尤其是競(jìng)爭(zhēng)性任務(wù)或環(huán)境變化)時(shí),持續(xù)專注于當(dāng)前任務(wù)的能力(Ca?as 等, 2006)。

發(fā)展心理學(xué)中若干(但非全部)學(xué)派持有一種觀點(diǎn):認(rèn)知靈活性的提升可能以犧牲認(rèn)知穩(wěn)定性為代價(jià)(Ca?as 等, 2003);反之亦然——穩(wěn)定性增強(qiáng)可能削弱靈活性。據(jù)此觀點(diǎn),發(fā)展心理學(xué)中的穩(wěn)定性–靈活性權(quán)衡可被理解為一個(gè)連續(xù)譜系,其兩端分別為:
? 一端是極度靈活但難以長時(shí)間專注單一任務(wù)的個(gè)體;
? 另一端是能高度專注單一任務(wù),卻難以在任務(wù)完成前應(yīng)對(duì)突發(fā)變化的個(gè)體。

因此,該學(xué)派將發(fā)展心理學(xué)中的穩(wěn)定性–靈活性權(quán)衡,概念化為與持續(xù)學(xué)習(xí)中“穩(wěn)定性–可塑性權(quán)衡”高度等價(jià)的框架:二者均體現(xiàn)為兩個(gè)相互競(jìng)爭(zhēng)、存在潛在張力的目標(biāo),提升其一往往需削弱其二——換言之,無法同時(shí)實(shí)現(xiàn)二者最優(yōu)。發(fā)展心理學(xué)中支持此觀點(diǎn)的主要理論是“控制困境理論”(control dilemma theory;Qiao 等, 2023),該理論指出認(rèn)知穩(wěn)定性與靈活性之間存在互斥關(guān)系,并強(qiáng)調(diào)達(dá)成某一目標(biāo)常需犧牲另一目標(biāo)。

然而必須指出:發(fā)展心理學(xué)領(lǐng)域與持續(xù)學(xué)習(xí)領(lǐng)域存在一項(xiàng)關(guān)鍵差異——前者內(nèi)部存在另一重要學(xué)派,主張認(rèn)知穩(wěn)定性與靈活性可被獨(dú)立調(diào)控(Egner, 2023)。依據(jù)此觀點(diǎn),個(gè)體未必需要在“專注當(dāng)前任務(wù)”與“切換至新任務(wù)”之間進(jìn)行權(quán)衡;其原因包括:

  1. 個(gè)體差異性(人類特有,機(jī)器則無):某些人天生具備在任務(wù)切換過程中保持專注且不降低任一任務(wù)表現(xiàn)的能力;這類個(gè)體在需要頻繁切換與適應(yīng)的環(huán)境中反而表現(xiàn)更優(yōu)。此時(shí),穩(wěn)定性與靈活性之間的權(quán)衡并非實(shí)現(xiàn)最優(yōu)表現(xiàn)的必要條件——換言之,與機(jī)器不同,人類有可能同時(shí)兼具穩(wěn)定性與靈活性(Geddert & Egner, 2022)。
  2. 人類大腦具備智能的情境自適應(yīng)能力:即在某些情境下保持靈活,在其他情境中則保持穩(wěn)定。這意味著人類擁有所謂“情境適應(yīng)”(contextual adaptation;Sigi-Liu & Egner, 2020)能力,可根據(jù)具體情境動(dòng)態(tài)優(yōu)先選擇穩(wěn)定性或靈活性中的一項(xiàng)。通俗而言,人類天生具備一種策略性優(yōu)先化能力:為達(dá)成特定情境下的最優(yōu)結(jié)果,可自主選擇側(cè)重穩(wěn)定性或靈活性,而無需在二者間制造張力。
  • 例如:外科醫(yī)生在進(jìn)行精細(xì)手術(shù)時(shí),會(huì)本能地優(yōu)先穩(wěn)定性(保持手部穩(wěn)定與注意力集中),直至手術(shù)完成;
  • 又如:個(gè)體可能主動(dòng)選擇遺忘某些信息——當(dāng)確信其未來不再相關(guān)時(shí)。例如,若過去習(xí)得的某知識(shí)與當(dāng)下確信為真的新知識(shí)相沖突,大腦更可能主動(dòng)遺忘舊的(錯(cuò)誤)知識(shí)。
  • 遺忘對(duì)人類而言可能具有積極意義(機(jī)器則無):遺忘在人類知識(shí)精煉過程中發(fā)揮著基礎(chǔ)性作用(Martínez-Plumed 等, 2015)。這種“有益遺忘”機(jī)制進(jìn)一步削弱了穩(wěn)定性與靈活性之間必然存在權(quán)衡的假設(shè)。

綜上,發(fā)展心理學(xué)揭示:人類的認(rèn)知調(diào)控遠(yuǎn)比當(dāng)前持續(xù)學(xué)習(xí)模型所假設(shè)的“剛性權(quán)衡”更為動(dòng)態(tài)、靈活且具情境依賴性——這為構(gòu)建更類人、更具適應(yīng)性的持續(xù)學(xué)習(xí)系統(tǒng)提供了重要啟示。

5.3 遺忘

在發(fā)展心理學(xué)中,共有五種廣為接受的遺忘理論(Brainerd 等, 1990;Mcleod, 2023)。本文聚焦于其中可與持續(xù)學(xué)習(xí)(CL)建立類比關(guān)系的理論。

最引人注目的類比可通過五種理論之一——“干擾遺忘理論”(interference theory of forgetting)加以闡釋。根據(jù)該理論,新信息會(huì)中斷對(duì)先前知識(shí)的提取。例如,一個(gè)人可能在周五記不起周日早餐吃了什么,原因是在此期間攝入了大量其他餐食(Brainerd 等, 1990)。在此背景下,兩個(gè)相互對(duì)立的概念——“逆向干擾”(retroactive interference)與“前向干擾”(proactive interference)——與這一遺忘解釋緊密相關(guān)。

如圖5所示,逆向干擾發(fā)生在新記憶破壞舊記憶時(shí),如同上述早餐的例子。相反,前向干擾指舊記憶干擾新記憶的現(xiàn)象(即方向相反)(Ebert & Anderson, 2009)。我們?cè)趫D6中通過一個(gè)實(shí)例說明這兩種現(xiàn)象:某人過去曾學(xué)習(xí)意大利語,目前正在學(xué)習(xí)法語。在此情形下:



  • 逆向干擾表現(xiàn)為:由于近期學(xué)習(xí)法語的經(jīng)歷,該個(gè)體在回憶意大利語詞匯時(shí)遇到困難;
  • 前向干擾則表現(xiàn)為:當(dāng)該個(gè)體試圖講法語時(shí),卻發(fā)現(xiàn)其先前掌握的意大利語知識(shí)干擾了法語表達(dá)。

人們認(rèn)為,前向干擾與逆向干擾現(xiàn)象更易發(fā)生在相似的記憶內(nèi)容之間(類似于前述拉丁語系語言的例子)。例如,舊電話號(hào)碼與新電話號(hào)碼彼此干擾的可能性,遠(yuǎn)高于它們與其他存儲(chǔ)在記憶中的數(shù)字(如公寓號(hào)碼等)之間的干擾。同樣,同時(shí)學(xué)習(xí)相似學(xué)科的學(xué)生比學(xué)習(xí)不同學(xué)科的學(xué)生更容易遭遇干擾(Chandler, 1991)。

當(dāng)前持續(xù)學(xué)習(xí)(CL)的研究方向與遺忘的取代理論(displacement theory of forgetting)頗為相似。CL 領(lǐng)域的主流趨勢(shì)圍繞著通過“穩(wěn)定性–可塑性權(quán)衡”來平衡遺忘與可塑性展開;同樣,取代理論將遺忘強(qiáng)烈關(guān)聯(lián)于短時(shí)記憶——其存儲(chǔ)容量有限,僅能維持少量信息。因此,該理論聚焦于如下問題:在固定容量的短時(shí)記憶中,哪些信息得以保留?在容量受限條件下,個(gè)體又該如何分配注意力,以留存關(guān)鍵知識(shí)?

與之相反,提取失敗理論(retrieval theory of forgetting)對(duì)遺忘給出了截然不同的解釋。該理論認(rèn)為,信息的遺忘并不必然意味著其已徹底丟失;遺忘也可能源于個(gè)體無法從(長時(shí))記憶中成功提取該信息(Spear, 1971)。換言之,信息仍存儲(chǔ)于長時(shí)記憶之中(即未被真正抹除),但個(gè)體在特定時(shí)刻未能成功調(diào)取。一個(gè)常見例子是:某人在對(duì)話中一時(shí)想不起某個(gè)詞,卻有強(qiáng)烈的“話到嘴邊”之感;數(shù)小時(shí)后,該詞卻又能被順利回憶起。由此可見,此前未能提取的知識(shí)并未真正丟失——這純粹是一次提取失敗。

這種對(duì)遺忘的“提取失敗”式理解,與當(dāng)前 CL 研究的主流方向幾乎無法建立關(guān)聯(lián)。

  1. 本節(jié)旨在簡要總結(jié)本文所呈現(xiàn)的部分核心思想,一方面梳理當(dāng)前貝葉斯持續(xù)學(xué)習(xí)(BCL)面臨的主要挑戰(zhàn),另一方面提出我們認(rèn)為未來研究中值得探索的潛在方向。

6.1 主要挑戰(zhàn)
我們首先討論阻礙 BCL 進(jìn)一步發(fā)展的若干關(guān)鍵挑戰(zhàn)。

6.1.1 災(zāi)難性遺忘
該問題不僅是 BCL,更是整個(gè)持續(xù)學(xué)習(xí)(CL)范式中的核心挑戰(zhàn)。BCL 模型必須具備足夠穩(wěn)定性,以確保新近任務(wù)所習(xí)得的知識(shí)不會(huì)過度覆蓋過往任務(wù)中獲得的舊知識(shí);同時(shí),模型還需在保留舊知識(shí)所需的穩(wěn)定性吸納新知識(shí)所需的可塑性之間取得平衡。本文已系統(tǒng)梳理了不同 BCL 算法用以應(yīng)對(duì)災(zāi)難性遺忘的多種機(jī)制,此處僅作總結(jié)性歸納:
各類 BCL 方法均旨在提供一種緩解災(zāi)難性遺忘的途徑。例如,在基于正則化的方法中,通過保護(hù)那些預(yù)計(jì)對(duì)大多數(shù)先前任務(wù)預(yù)測(cè)過程具有重大影響的參數(shù)免受劇烈變動(dòng),而允許其余參數(shù)更自由地更新,從而減輕遺忘。值得注意的是,得益于其天然的不確定性量化能力,貝葉斯 CL 算法在估計(jì)哪些參數(shù)更具影響力方面,相較非貝葉斯 CL 算法更具優(yōu)勢(shì)。

如前所述,BCL 中的精確推理不可行,因而各類算法均依賴近似推理——而這通常涉及在后續(xù) CL 任務(wù)中反復(fù)進(jìn)行近似操作。基于回放的方法試圖通過存儲(chǔ)或生成每個(gè)歷史任務(wù)的部分舊數(shù)據(jù)子集,以刷新模型記憶,從而緩解由此引發(fā)的災(zāi)難性遺忘風(fēng)險(xiǎn)。盡管該策略行之有效,卻引入了額外的存儲(chǔ)與計(jì)算負(fù)擔(dān)(源于舊數(shù)據(jù)的存儲(chǔ)和/或回放)。

基于架構(gòu)的方法則通過(剛性地)將模型架構(gòu)劃分為兩部分——受保護(hù)、避免劇烈變動(dòng)的共享組件,以及允許更自由更新的任務(wù)特異組件——為平衡新舊知識(shí)提供了結(jié)構(gòu)性解決方案。此類標(biāo)準(zhǔn)架構(gòu)方法的弊端在于:面對(duì)大量任務(wù)時(shí),架構(gòu)擴(kuò)張可能引發(fā)可擴(kuò)展性問題;此外,其剛性劃分未考慮任務(wù)間的異質(zhì)性程度——例如,若預(yù)設(shè)的共享部分過大,即便與新任務(wù)高度差異化的舊任務(wù)仍可能被遺忘。

另一種應(yīng)對(duì)災(zāi)難性遺忘的思路,是通過調(diào)節(jié)學(xué)習(xí)率以控制模型所需捕獲的適應(yīng)程度,從而平衡穩(wěn)定性與可塑性(Pham 等, 2021)。類似地,Ebrahimi 等(2020)依據(jù)神經(jīng)網(wǎng)絡(luò)權(quán)重概率分布中估計(jì)的不確定性水平,逐任務(wù)動(dòng)態(tài)調(diào)整學(xué)習(xí)率

6.1.2 任務(wù)干擾

持續(xù)學(xué)習(xí)(CL)依賴于任務(wù)間知識(shí)的遷移。當(dāng)任務(wù)足夠相似、所遷移的知識(shí)確實(shí)有用時(shí),此類知識(shí)遷移可帶來益處,即所謂的正向遷移(positive transfer);反之,若在不相似任務(wù)間共享知識(shí),則可能引發(fā)不良干擾(undesirable interference),進(jìn)而導(dǎo)致負(fù)向遷移(negative transfer)。

正則化類 BCL 方法(Kirkpatrick 等, 2017;Nguyen 等, 2018;Loo 等, 2021)可對(duì)“哪些參數(shù)應(yīng)被保護(hù)以避免劇烈變動(dòng)”提供不確定性估計(jì),這在區(qū)分可遷移知識(shí)不可遷移知識(shí)方面可發(fā)揮關(guān)鍵作用。

此外,基于架構(gòu)的方法(Adel 等, 2020;Kessler 等, 2021)所采用的任務(wù)特異組件與共享組件之劃分,亦有助于緩解任務(wù)干擾:由于各任務(wù)專屬的知識(shí)主要由架構(gòu)中的任務(wù)特異部分承載并加以保護(hù),從而降低了任務(wù)間干擾風(fēng)險(xiǎn),并在穩(wěn)定性與可塑性之間達(dá)成更優(yōu)平衡。

6.1.3 可擴(kuò)展性
貝葉斯方法通常帶來顯著的計(jì)算開銷,因其需在每個(gè)新任務(wù)到來時(shí)連續(xù)地近似后驗(yàn)分布。貝葉斯持續(xù)學(xué)習(xí)方法在處理高維數(shù)據(jù)時(shí)亦可能面臨可擴(kuò)展性困境:對(duì)神經(jīng)網(wǎng)絡(luò)每個(gè)權(quán)重逐一更新后驗(yàn)分布的復(fù)雜性急劇上升。例如,在 EWC 算法(Kirkpatrick 等, 2017)中,后驗(yàn)更新依賴于計(jì)算 Fisher 信息矩陣——這一操作計(jì)算成本極高。該問題已為貝葉斯持續(xù)學(xué)習(xí)(BCL)學(xué)界所公認(rèn),學(xué)界亦已提出若干應(yīng)對(duì)變體,如計(jì)算效率更高的 EWC 在線版本(Chaudhry 等, 2018)??蓴U(kuò)展性問題還與以下兩點(diǎn)緊密相關(guān):其一,對(duì)持續(xù)學(xué)習(xí)問題而言,精確貝葉斯推理通常不可行;其二,更高保真度的后驗(yàn)近似往往比粗糙近似更具計(jì)算負(fù)擔(dān)

6.1.4 貝葉斯類增量學(xué)習(xí)算法的匱乏
如前所述,除 Adel(2025)提出的貝葉斯少樣本類增量學(xué)習(xí)(FSCIL)算法外,目前類增量學(xué)習(xí)(CIL)算法幾乎未從貝葉斯范式中獲益。以貝葉斯后驗(yàn)更新為基礎(chǔ)構(gòu)建增量學(xué)習(xí)過程的 CIL 算法嚴(yán)重不足。造成貝葉斯 CIL 研究滯后的主因之一在于:CIL 的難度顯著高于任務(wù)增量學(xué)習(xí)(TIL)。除 TIL 中已存在的后驗(yàn)近似需求外,CIL 測(cè)試階段任務(wù)標(biāo)識(shí)不可用,引入了額外挑戰(zhàn)——例如需無差別地區(qū)分所有已遇類別(無論其所屬任務(wù))。因此,前述諸多挑戰(zhàn)(尤其是計(jì)算開銷與可擴(kuò)展性問題)在 CIL 中更為嚴(yán)峻。

6.1.5 無任務(wù)持續(xù)學(xué)習(xí)(Task-Free Continual Learning)
現(xiàn)有文獻(xiàn)中絕大多數(shù) CL 算法(包括 TIL 與 CIL)均假設(shè)任務(wù)間存在預(yù)定義的硬性邊界(即任務(wù)感知型 CL)。此類邊界使訓(xùn)練過程可被劃分為對(duì)應(yīng)各任務(wù)的階段,對(duì)鞏固各任務(wù)學(xué)習(xí)至關(guān)重要:清晰邊界是多項(xiàng)關(guān)鍵決策的基礎(chǔ),例如為避免災(zāi)難性遺忘,應(yīng)保留哪些歷史任務(wù)的信息;又如,在任務(wù)內(nèi)對(duì)數(shù)據(jù)重排(因任務(wù)內(nèi)數(shù)據(jù)滿足條件獨(dú)立同分布假設(shè))。

相比之下,更富挑戰(zhàn)性但也更貼近現(xiàn)實(shí)的無任務(wù)持續(xù)學(xué)習(xí)(task-free CL;Zeno 等, 2018;Aljundi 等, 2019;Lee 等, 2020;Jin 等, 2021;Pourcel 等, 2022;Wang 等, 2022;Ye & Bors, 2022b, 2023;Adel, 2024;Ye & Bors, 2025)設(shè)定,假設(shè)數(shù)據(jù)分布漸進(jìn)式變化,要求以流式方式處理數(shù)據(jù),且無明確任務(wù)劃分概念——即無法獲知各任務(wù)數(shù)據(jù)的起止位置,任務(wù)間亦無硬性邊界。多數(shù)貝葉斯 CL 方法依賴任務(wù)標(biāo)識(shí)(至少在訓(xùn)練階段),而無任務(wù)設(shè)定下任務(wù)邊界(及標(biāo)識(shí))在訓(xùn)練與測(cè)試階段均不可得,這對(duì)貝葉斯方法(尤其是參數(shù)化貝葉斯方法)構(gòu)成了另一重挑戰(zhàn)。

盡管如此,Lee 等(2020)的工作已嘗試為無任務(wù) CL 提供貝葉斯解決方案:其采用基于架構(gòu)的策略,通過混合專家模型(MoE;Jacobs 等, 1991)動(dòng)態(tài)擴(kuò)展模型架構(gòu)以適應(yīng)新數(shù)據(jù);每個(gè)專家負(fù)責(zé)數(shù)據(jù)流中的一部分。該工作將 MoE 建模為狄利克雷過程混合模型(DPM;Antoniak, 1974;Ferguson, 1983),并采用變分推斷近似 DPM 后驗(yàn)。

6.2 潛在未來研究方向

6.2.1 構(gòu)建更具可擴(kuò)展性的貝葉斯 CL 算法
可擴(kuò)展性問題是貝葉斯持續(xù)學(xué)習(xí)中的突出瓶頸。宏觀而言,當(dāng)任務(wù)數(shù)量激增時(shí),BCL 算法越來越難以通過后驗(yàn)近似實(shí)現(xiàn)穩(wěn)定性–可塑性權(quán)衡的均衡處理。預(yù)先剛性指定所有關(guān)鍵建模選擇的 BCL 算法對(duì)此類問題尤為敏感。為此,自適應(yīng)貝葉斯持續(xù)學(xué)習(xí)(adaptive BCL)提供了一條替代路徑:允許關(guān)鍵決策以數(shù)據(jù)驅(qū)動(dòng)方式靈活制定。我們推測(cè)(亦有前期工作佐證),自適應(yīng) BCL 對(duì)提升貝葉斯 CL 的可擴(kuò)展性至關(guān)重要。

在基于架構(gòu)的方法中,可擴(kuò)展性挑戰(zhàn)尤為顯著:當(dāng)中等至大規(guī)模任務(wù)數(shù)量出現(xiàn)時(shí),模型架構(gòu)擴(kuò)張將變得不可承受。一種頗具前景的應(yīng)對(duì)方向是:以數(shù)據(jù)驅(qū)動(dòng)方式自適應(yīng)確定任務(wù)間共享程度。前述 CLAW 算法(Adel 等, 2020)即在此方向上具有開創(chuàng)性——它僅通過為每個(gè)神經(jīng)元增加三個(gè)參數(shù),即可實(shí)現(xiàn)架構(gòu)的自動(dòng)數(shù)據(jù)驅(qū)動(dòng)適配,且不新增任何神經(jīng)元或?qū)?/strong>,從而有望構(gòu)建更可擴(kuò)展的架構(gòu)自適應(yīng)型 BCL 算法,在緩解災(zāi)難性遺忘與提升任務(wù)遷移之間實(shí)現(xiàn)動(dòng)態(tài)優(yōu)化。拓展 CLAW 的思想是未來研究中極具吸引力的方向:其自適應(yīng)理念可經(jīng)修改后推廣至其他 BCL 范式(如基于回放的方法)。

另一例證是 Ahn 等(2019)的工作:正則化 BCL 的內(nèi)存需求極為高昂(如 MAP 估計(jì)中的 Fisher 矩陣、VCL 中每個(gè)權(quán)重對(duì)應(yīng)的方差項(xiàng))。該工作通過約束同一隱藏單元的所有權(quán)重共享單一可學(xué)習(xí)方差,將方差參數(shù)與隱藏單元而非權(quán)重本身關(guān)聯(lián),顯著降低了內(nèi)存需求。我們推測(cè),此思想可推廣至其他場(chǎng)景——關(guān)鍵在于平衡“約束可學(xué)習(xí)參數(shù)”與“后驗(yàn)近似保真度潛在損失”之間的權(quán)衡。

6.2.2 知識(shí)遷移的均衡調(diào)控
如第 6.1.2 節(jié)所述,CL 中的知識(shí)遷移可帶來正向或負(fù)向效果。理論上,基于架構(gòu)的方法可通過任務(wù)特異組件保護(hù)專屬知識(shí),從而緩解干擾。然而,在任務(wù)適應(yīng)與(緩解)任務(wù)干擾間取得恰當(dāng)平衡仍是核心挑戰(zhàn),尤其當(dāng)架構(gòu)的共享/任務(wù)特異組件為預(yù)先設(shè)定時(shí)。Adel(2024)提出的(非貝葉斯)算法為此提供了一種思路:通過評(píng)估當(dāng)前任務(wù)與歷史任務(wù)的相似性,自適應(yīng)調(diào)整 CL 架構(gòu),并在共享與任務(wù)特異組件間引入一個(gè)自適應(yīng)層,以數(shù)據(jù)驅(qū)動(dòng)方式平衡任務(wù)適應(yīng)與干擾抑制。基于相同理念構(gòu)建貝葉斯解決方案,是應(yīng)對(duì) BCL 中任務(wù)干擾問題的極具前景的方向。

6.2.3 貝葉斯類增量學(xué)習(xí)
我們已強(qiáng)調(diào)當(dāng)前貝葉斯 CIL 算法的嚴(yán)重匱乏。嚴(yán)格依據(jù)本文定義,Adel(2025)所提算法目前仍是文獻(xiàn)中唯一的貝葉斯 CIL 與貝葉斯 FSCIL 原型。盡管挑戰(zhàn)復(fù)雜,貝葉斯方法亦可為 CIL 中的突出問題提供新思路:例如,基于貝葉斯范式內(nèi)在的不確定性量化能力,可設(shè)計(jì)模型以動(dòng)態(tài)權(quán)衡——哪些信息應(yīng)被捕捉(用于學(xué)習(xí)新類),哪些歷史信息子集應(yīng)被保留(用于維持舊類記憶)。此類基于貝葉斯不確定性的均衡策略,有望緩解當(dāng)前多數(shù) CIL 算法面臨的過擬合這一關(guān)鍵難題。

6.2.4 發(fā)展心理學(xué)的啟發(fā)
第 5 節(jié)已討論持續(xù)學(xué)習(xí)與發(fā)展心理學(xué)的類比。此處聚焦幾點(diǎn)可能為 BCL 研究提供新方向的啟示:

情境適應(yīng)性(contextual adaptation):人類天生具備根據(jù)情境需求,策略性優(yōu)先選擇穩(wěn)定性或靈活性的能力。這為 BCL 算法提供了新靈感——當(dāng)前多數(shù) CL 算法采用固定策略處理穩(wěn)定性–可塑性權(quán)衡;而情境自適應(yīng)框架可使權(quán)衡策略本身具備適應(yīng)性,根據(jù)具體任務(wù)動(dòng)態(tài)偏向穩(wěn)定性或可塑性。一種實(shí)現(xiàn)途徑是:自動(dòng)化選擇控制穩(wěn)定性/可塑性水平的關(guān)鍵超參數(shù),使其值可通過數(shù)據(jù)驅(qū)動(dòng)方式學(xué)習(xí)。

尤為關(guān)鍵的是,發(fā)展心理學(xué)五大遺忘理論之一的提取失敗理論(retrieval failure theory),可為 BCL 中的遺忘問題提供另一全新視角。

當(dāng)前持續(xù)學(xué)習(xí)(CL)研究幾乎單一地將算法遺忘現(xiàn)象解釋為相關(guān)信息的徹底丟失。而提取失敗理論提供了一種更全面的遺忘解釋:遺忘的另一潛在原因可能是無法訪問所需信息——換言之,所需信息或許并未完全丟失,僅是暫時(shí)無法被提取。BCL 研究可從中獲益:例如設(shè)計(jì)充當(dāng)高級(jí)提取線索(advanced retrieval cues)的機(jī)制,以促進(jìn)信息提取——尤其當(dāng)任務(wù)數(shù)量急劇增長時(shí),此類機(jī)制將尤為重要。

另一可為 BCL 提供進(jìn)一步啟發(fā)的方向是:構(gòu)建具有信息量的先驗(yàn)(informative priors),以引導(dǎo) BCL 策略促進(jìn)正向遷移——類似 Schnaus 等(2023)已開展的工作。該方向還可通過借鑒“支架式支持”(scaffolding)理念加以推進(jìn):當(dāng)成年人面對(duì)兒童所遇新任務(wù)時(shí),會(huì)基于自身對(duì)任務(wù)的理解,引導(dǎo)兒童在既有知識(shí)基礎(chǔ)上習(xí)得新技能——這本質(zhì)上是一種高效的正向遷移促進(jìn)方式。據(jù)此,信息性先驗(yàn)有望替代成年人在支架式支持中所扮演的角色,從而系統(tǒng)性增強(qiáng)正向知識(shí)遷移。

  1. 結(jié)論

本文全面綜述了貝葉斯持續(xù)學(xué)習(xí)(Bayesian Continual Learning, BCL)范式的多個(gè)方面——其中,貝葉斯推理被用于對(duì)模型參數(shù)進(jìn)行在線更新。在 BCL 中,持續(xù)學(xué)習(xí)模型的知識(shí)體現(xiàn)為一個(gè)關(guān)于其參數(shù)的概率分布,且該分布持續(xù)演化:舊后驗(yàn)不斷轉(zhuǎn)化為新先驗(yàn),從而以比傳統(tǒng)持續(xù)學(xué)習(xí)方法更穩(wěn)健、更具適應(yīng)性的方式,實(shí)現(xiàn)新知識(shí)的整合與舊知識(shí)的保留。

在厘清持續(xù)學(xué)習(xí)、貝葉斯持續(xù)學(xué)習(xí)及相關(guān)評(píng)估指標(biāo)的定義之后,我們系統(tǒng)探討了貝葉斯持續(xù)學(xué)習(xí)范式的兩種主要設(shè)定:任務(wù)增量學(xué)習(xí)(task-incremental learning)與類增量學(xué)習(xí)(class-incremental learning);同時(shí)考察了持續(xù)學(xué)習(xí)與若干相關(guān)范式(如元學(xué)習(xí)、多任務(wù)學(xué)習(xí)與領(lǐng)域自適應(yīng))之間的關(guān)聯(lián);繼而提出了一種 BCL 算法的分類體系,并詳述了各類中最具代表性的經(jīng)典算法;此外,我們首次深入構(gòu)建了(貝葉斯)持續(xù)學(xué)習(xí)與發(fā)展心理學(xué)之間的類比——這一關(guān)聯(lián)此前尚未被系統(tǒng)探討,其引入旨在強(qiáng)調(diào):此類跨學(xué)科類比可為貝葉斯持續(xù)學(xué)習(xí)的未來研究方向提供潛在啟發(fā);最后,我們討論了當(dāng)前最緊迫的挑戰(zhàn),并提出了若干值得探索的未來研究方向。

原文: https://arxiv.org/pdf/2507.08922

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

小熊侃史
2026-01-16 07:40:07
好消息!上海此地將告別“無地鐵時(shí)代”!這條新線正在建設(shè)中

好消息!上海此地將告別“無地鐵時(shí)代”!這條新線正在建設(shè)中

上海交通
2026-01-27 17:12:44
教育部黨組任免!南農(nóng)大領(lǐng)導(dǎo)班子調(diào)整

教育部黨組任免!南農(nóng)大領(lǐng)導(dǎo)班子調(diào)整

TOP大學(xué)來了
2026-01-27 22:11:46
2-0,少一人仍贏,霍芬海姆完勝德甲4冠王,豪取4連勝,逼近前二

2-0,少一人仍贏,霍芬海姆完勝德甲4冠王,豪取4連勝,逼近前二

側(cè)身凌空斬
2026-01-28 05:29:53
新華社評(píng)李亞鵬:為他人做好事 不該被現(xiàn)實(shí)壓垮

新華社評(píng)李亞鵬:為他人做好事 不該被現(xiàn)實(shí)壓垮

看看新聞Knews
2026-01-28 01:17:20
開國上將許世友之孫:中國首位火箭軍女博士,長相俊美,為人低調(diào)

開國上將許世友之孫:中國首位火箭軍女博士,長相俊美,為人低調(diào)

文史達(dá)觀
2026-01-15 14:50:48
1分50秒連追8分逆襲反殺!CBA本賽季最瘋狂一幕:新疆都被打懵了

1分50秒連追8分逆襲反殺!CBA本賽季最瘋狂一幕:新疆都被打懵了

籃球快餐車
2026-01-28 06:34:57
太牛了!山東強(qiáng)勢(shì)逆轉(zhuǎn)黑馬,高詩巖蘇醒,小將3分鐘砍11分真猛啊

太牛了!山東強(qiáng)勢(shì)逆轉(zhuǎn)黑馬,高詩巖蘇醒,小將3分鐘砍11分真猛啊

萌蘭聊個(gè)球
2026-01-27 21:55:37
哈梅內(nèi)伊為什么慌了

哈梅內(nèi)伊為什么慌了

臧啟玉律師
2026-01-26 11:13:42
WTT多哈支線賽:國乒遭遇首??!女單2-3被逆轉(zhuǎn),18歲新人連失三局

WTT多哈支線賽:國乒遭遇首?。∨畣?-3被逆轉(zhuǎn),18歲新人連失三局

郝小小看體育
2026-01-28 07:01:45
山西焦煤集團(tuán)原董事長武華太一審獲刑15年,專題片披露細(xì)節(jié)

山西焦煤集團(tuán)原董事長武華太一審獲刑15年,專題片披露細(xì)節(jié)

上觀新聞
2026-01-27 13:39:08
26年央視春晚嘉賓名單曝光,牛鬼蛇神混子引爭(zhēng)議

26年央視春晚嘉賓名單曝光,牛鬼蛇神混子引爭(zhēng)議

杜鱂手工制作
2026-01-06 18:48:05
曝章澤天父母2011年已離婚,父親已重組家庭有小女兒,媽媽在賣藥

曝章澤天父母2011年已離婚,父親已重組家庭有小女兒,媽媽在賣藥

古希臘掌管月桂的神
2026-01-25 15:42:46
狂攬1.4億月活,汽水音樂憑免費(fèi)逆襲騰訊網(wǎng)易?

狂攬1.4億月活,汽水音樂憑免費(fèi)逆襲騰訊網(wǎng)易?

Tech星球
2026-01-27 14:18:28
北京一女子擔(dān)心死后丈夫再娶,一千元把房子賣給兒子,去世后丈夫被趕出家門,法院結(jié)果出乎意料

北京一女子擔(dān)心死后丈夫再娶,一千元把房子賣給兒子,去世后丈夫被趕出家門,法院結(jié)果出乎意料

神奇故事
2026-01-27 23:40:26
十億級(jí)用戶爭(zhēng)奪戰(zhàn):除了編程,Excel才是AI真正的“殺手級(jí)”應(yīng)用場(chǎng)景

十億級(jí)用戶爭(zhēng)奪戰(zhàn):除了編程,Excel才是AI真正的“殺手級(jí)”應(yīng)用場(chǎng)景

華爾街見聞官方
2026-01-26 21:10:38
美國62歲夫婦在上海丟失6萬,清潔工阿姨如數(shù)奉還,夫婦堅(jiān)稱少2萬

美國62歲夫婦在上海丟失6萬,清潔工阿姨如數(shù)奉還,夫婦堅(jiān)稱少2萬

城事錄主
2026-01-09 14:44:54
李思思現(xiàn)身邢臺(tái)主持,又矮又胖,1米7看著就像1米5,臉還變圓潤了

李思思現(xiàn)身邢臺(tái)主持,又矮又胖,1米7看著就像1米5,臉還變圓潤了

小娛樂悠悠
2026-01-26 11:36:45
以色列遞交給美國的伊朗處決證據(jù),為何引發(fā)全球嘩然?

以色列遞交給美國的伊朗處決證據(jù),為何引發(fā)全球嘩然?

老馬拉車莫少裝
2026-01-25 08:06:06
早已殺青卻播出無望的7部劇,部部可惜,尤其是最后一部

早已殺青卻播出無望的7部劇,部部可惜,尤其是最后一部

小Q侃電影
2026-01-25 13:16:28
2026-01-28 07:48:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

Anthropic將融資200億美元、估值3500億美元

頭條要聞

特朗普被指投下"第二次關(guān)稅炸彈" 引發(fā)韓國強(qiáng)烈不安

頭條要聞

特朗普被指投下"第二次關(guān)稅炸彈" 引發(fā)韓國強(qiáng)烈不安

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

游戲
健康
藝術(shù)
手機(jī)
軍事航空

打開就能肝一天!古風(fēng)像素種田游戲《桃源村日志》值不值得玩?

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

藝術(shù)要聞

14位西方著名畫家的女性肖像畫!

手機(jī)要聞

華為Mate 80 Pro Max斬獲AI手機(jī)場(chǎng)景智能評(píng)測(cè)第一 影像、社交、辦公全面領(lǐng)先

軍事要聞

美海軍"林肯"號(hào)航母打擊群抵達(dá)中東地區(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版