網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

魯特格斯大學(xué)等五所高校聯(lián)手破解AI記憶難題

2026-04-27 21:30:30　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由魯特格斯大學(xué)、塔夫茨大學(xué)、紐約大學(xué)、河內(nèi)科技大學(xué)與莫納什大學(xué)聯(lián)合開展的研究，以arXiv預(yù)印本形式發(fā)布（編號(hào)：arXiv:2211.16780），最新版本更新于2026年4月。感興趣的讀者可通過(guò)該編號(hào)檢索完整論文。

一、從"魚的記憶"說(shuō)起：AI為何總是忘東忘西

有沒有想過(guò)，如果你每學(xué)一門新課，就會(huì)徹底忘掉上一門課的所有內(nèi)容，那學(xué)習(xí)將會(huì)變得多么荒謬？這正是當(dāng)前人工智能系統(tǒng)面臨的一個(gè)真實(shí)困境，研究者把它稱為"災(zāi)難性遺忘"。

現(xiàn)代AI系統(tǒng)，尤其是用于圖像識(shí)別、語(yǔ)音理解等任務(wù)的神經(jīng)網(wǎng)絡(luò)，在學(xué)習(xí)新內(nèi)容時(shí)往往會(huì)把之前學(xué)到的東西覆蓋掉。就像用新內(nèi)容覆蓋磁帶一樣，舊的記錄消失了，取而代之的是新錄入的信息。這對(duì)于需要持續(xù)適應(yīng)變化的場(chǎng)景來(lái)說(shuō)，是一個(gè)嚴(yán)重的缺陷。

真實(shí)世界的應(yīng)用場(chǎng)景偏偏最需要這種持續(xù)學(xué)習(xí)的能力。自動(dòng)駕駛汽車需要不斷從新的路況中學(xué)習(xí)，機(jī)器人需要從傳感器數(shù)據(jù)中持續(xù)進(jìn)化，視頻推薦系統(tǒng)需要隨時(shí)跟上用戶口味的變化。這些場(chǎng)景有一個(gè)共同特點(diǎn)：數(shù)據(jù)像河水一樣不斷流入，不可能停下來(lái)等AI把所有數(shù)據(jù)攢齊了再統(tǒng)一學(xué)習(xí)。

研究團(tuán)隊(duì)將這個(gè)最具挑戰(zhàn)性的場(chǎng)景命名為"在線類增量學(xué)習(xí)"（Online Class Incremental Learning，簡(jiǎn)稱OCIL）。在這個(gè)場(chǎng)景下，AI每次只能看到一小批新數(shù)據(jù)，只能做一次更新，而且在推斷新內(nèi)容時(shí)還不知道自己當(dāng)前面對(duì)的是第幾個(gè)"任務(wù)"。這就好比一名學(xué)生每天只能復(fù)習(xí)當(dāng)天的新內(nèi)容五分鐘，還不能翻看課本目錄，但考試時(shí)卻要答出所有學(xué)過(guò)的內(nèi)容——壓力可想而知。

二、現(xiàn)有方案的局限：用一個(gè)圖釘代表整幅地圖

面對(duì)這個(gè)難題，研究界此前提出了不少應(yīng)對(duì)策略。最常見的一類做法是在AI的"記憶空間"（即模型內(nèi)部用來(lái)表示數(shù)據(jù)特征的空間，可以理解為AI大腦里的坐標(biāo)系）中，為每個(gè)類別設(shè)置一個(gè)"代表點(diǎn)"，也叫"原型"或"質(zhì)心"。每當(dāng)AI學(xué)到一個(gè)新樣本，就把這個(gè)樣本對(duì)應(yīng)的特征向這個(gè)代表點(diǎn)拉近，同時(shí)推離其他類別的代表點(diǎn)，從而讓不同類別在記憶空間里保持清晰的分界線。

這個(gè)策略的道理并不難懂，就像在地圖上用一顆圖釘標(biāo)記一座城市的位置。但問(wèn)題在于，一座城市不只是一個(gè)點(diǎn)——它有老城區(qū)、新城區(qū)、工業(yè)區(qū)、商業(yè)區(qū)，各自的分布截然不同。如果只用一顆圖釘代表整座城市，很多細(xì)節(jié)就會(huì)丟失。

現(xiàn)實(shí)世界的數(shù)據(jù)同樣如此。以手寫數(shù)字識(shí)別為例，數(shù)字"1"在不同人手中寫出來(lái)的形狀可能差異很大：有的豎直，有的傾斜，有的頂部有小撇，有的則更像一條短橫線。這種現(xiàn)象叫做"多模態(tài)性"，意思是同一類數(shù)據(jù)在特征空間里會(huì)形成多個(gè)不同的聚集區(qū)域，而不是整整齊齊地聚在一個(gè)點(diǎn)附近。

另一些研究者意識(shí)到了這個(gè)問(wèn)題，轉(zhuǎn)而使用"高斯混合模型"（Gaussian Mixture Model，簡(jiǎn)稱GMM）來(lái)為每個(gè)類別設(shè)置多個(gè)代表點(diǎn)。高斯混合模型可以理解為用多個(gè)橢圓形的"泡泡"來(lái)覆蓋一片區(qū)域，每個(gè)泡泡對(duì)應(yīng)數(shù)據(jù)分布的一個(gè)聚集區(qū)。然而，這些方法存在一個(gè)致命缺陷：代表點(diǎn)一旦學(xué)好，就被固定下來(lái)不再更新。

偏偏AI的內(nèi)部記憶空間本身就在不斷變化。當(dāng)AI學(xué)習(xí)新數(shù)據(jù)時(shí)，它的特征提取能力也在調(diào)整，導(dǎo)致同樣的輸入圖片在記憶空間里的落點(diǎn)會(huì)發(fā)生漂移——就像地圖的坐標(biāo)系悄悄挪動(dòng)了，但城市的圖釘還插在原來(lái)的位置。于是，那些固定不動(dòng)的代表點(diǎn)越來(lái)越無(wú)法準(zhǔn)確反映真實(shí)的數(shù)據(jù)分布，模型的表現(xiàn)也隨之下滑。

三、研究團(tuán)隊(duì)的新思路：讓代表點(diǎn)跟著數(shù)據(jù)一起"游泳"

面對(duì)這兩個(gè)痛點(diǎn)——單一代表點(diǎn)無(wú)法捕捉多模態(tài)數(shù)據(jù)、多代表點(diǎn)又無(wú)法隨時(shí)更新——研究團(tuán)隊(duì)提出了一個(gè)新框架，命名為MMOT，全稱是"基于最優(yōu)傳輸理論的在線混合模型學(xué)習(xí)"（Online Mixture Model based on Optimal Transport）。整個(gè)研究方案還有一個(gè)更響亮的名字：OTC，即"用最優(yōu)傳輸方法在在線增量學(xué)習(xí)中培育潛在空間"。

這個(gè)框架的核心思想，可以用一個(gè)面團(tuán)發(fā)酵的比喻來(lái)理解。高斯混合模型就像是一塊面團(tuán)，里面分布著多個(gè)發(fā)酵中心，每個(gè)中心讓附近的面團(tuán)膨脹成一個(gè)鼓包?，F(xiàn)在，隨著時(shí)間推移，面團(tuán)的配方在不斷調(diào)整，發(fā)酵的溫度也在變化，每個(gè)鼓包的位置和大小都應(yīng)該相應(yīng)地改變。MMOT要做的，就是在面團(tuán)不斷變化的過(guò)程中，實(shí)時(shí)追蹤這些鼓包的位置和形狀，而不是在一開始就把鼓包的位置釘死。

要實(shí)現(xiàn)這一點(diǎn)，研究團(tuán)隊(duì)引入了"最優(yōu)傳輸理論"（Optimal Transport，簡(jiǎn)稱OT），特別是其中的"Wasserstein距離"。Wasserstein距離是一種衡量?jī)蓚€(gè)分布之間差異的方式，它的特別之處在于，它不僅考慮兩個(gè)分布"有多不同"，還考慮"把一個(gè)分布變形成另一個(gè)分布需要搬運(yùn)多少東西"——就像搬家時(shí)，不只看兩棟樓的距離，還要考慮每件家具的重量和搬運(yùn)路徑。

與另一種常用的差異度量方式KL散度相比，Wasserstein距離有幾個(gè)明顯優(yōu)勢(shì)。KL散度在某種程度上等同于最大化對(duì)數(shù)似然估計(jì)，而這正是傳統(tǒng)EM算法（期望最大化算法）的工作原理。EM算法每次更新都需要多輪迭代才能收斂，在數(shù)據(jù)持續(xù)流入的在線場(chǎng)景下，這種"每次學(xué)新東西都要反復(fù)折騰好幾圈"的方式代價(jià)太高了。Wasserstein距離則是一個(gè)處處可微、連續(xù)穩(wěn)定的度量，即使兩個(gè)分布的支撐集幾乎不重疊，它也能給出有意義的梯度信號(hào)，非常適合用梯度下降這種"每次小步走"的方式來(lái)優(yōu)化。

四、MMOT的具體運(yùn)作：高斯混合模型遇上最優(yōu)傳輸

具體來(lái)說(shuō)，MMOT的工作方式是這樣的。對(duì)于每一個(gè)類別，研究團(tuán)隊(duì)用一個(gè)高斯混合模型來(lái)表示它的數(shù)據(jù)分布：這個(gè)混合模型由若干個(gè)高斯分量組成，每個(gè)分量有自己的均值（對(duì)應(yīng)一個(gè)"代表點(diǎn)"或"質(zhì)心"）、方差（對(duì)應(yīng)這個(gè)聚集區(qū)的"擴(kuò)散范圍"）和權(quán)重（對(duì)應(yīng)這個(gè)聚集區(qū)在整體中的比例）。

為了讓這個(gè)混合模型盡可能貼近真實(shí)的數(shù)據(jù)分布，研究團(tuán)隊(duì)將問(wèn)題轉(zhuǎn)化為最小化真實(shí)數(shù)據(jù)分布與混合模型之間的Wasserstein距離。這個(gè)目標(biāo)函數(shù)通過(guò)一種叫做"熵正則化對(duì)偶形式"的技術(shù)被轉(zhuǎn)化為期望值的形式，使得可以用小批量數(shù)據(jù)來(lái)做隨機(jī)梯度優(yōu)化——這正好契合在線學(xué)習(xí)"每次只看一小批數(shù)據(jù)"的設(shè)定。

為了讓梯度能夠順暢地流回到混合模型的參數(shù)，研究團(tuán)隊(duì)還引入了兩個(gè)技巧。一個(gè)是"重參數(shù)化技巧"：從高斯分布中采樣時(shí)，不直接采樣，而是把隨機(jī)性分離出來(lái)，表示為均值加上標(biāo)準(zhǔn)差乘以一個(gè)標(biāo)準(zhǔn)正態(tài)噪聲。另一個(gè)是"Gumbel-Softmax技巧"：在從多個(gè)高斯分量中選擇時(shí)，用一種連續(xù)的近似方式代替離散的抽簽，使得權(quán)重參數(shù)也能通過(guò)梯度下降來(lái)學(xué)習(xí)。

這兩個(gè)技巧合在一起，使得整個(gè)混合模型的所有參數(shù)——每個(gè)質(zhì)心的位置、每個(gè)分量的擴(kuò)散范圍、以及每個(gè)分量的權(quán)重——都可以通過(guò)普通的梯度下降來(lái)更新，而不需要EM算法那種反復(fù)迭代的流程。每次新的一批數(shù)據(jù)到來(lái)，只需要做幾步梯度更新，質(zhì)心們就能跟著數(shù)據(jù)的變化悄悄挪動(dòng)位置，始終保持對(duì)當(dāng)前數(shù)據(jù)分布的準(zhǔn)確描述。

還有一個(gè)值得注意的細(xì)節(jié)：雖然每個(gè)類別的混合模型是獨(dú)立學(xué)習(xí)的，彼此不直接交互，但每個(gè)混合模型只會(huì)用自己對(duì)應(yīng)類別的數(shù)據(jù)來(lái)更新，因此不同類別之間的信息不會(huì)混淆。整個(gè)過(guò)程對(duì)單個(gè)類別內(nèi)部是無(wú)監(jiān)督的，但從全局來(lái)看仍然是類條件的，結(jié)構(gòu)清晰，不會(huì)出現(xiàn)類別特征被無(wú)序混合的問(wèn)題。

五、動(dòng)態(tài)保持策略：讓不同類別的"泡泡"保持距離

有了MMOT學(xué)到的多個(gè)質(zhì)心之后，研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)配套的訓(xùn)練策略，稱為"動(dòng)態(tài)保持"（Dynamic Preservation）。這個(gè)策略的目的是利用質(zhì)心信息來(lái)加強(qiáng)模型對(duì)不同類別的區(qū)分能力，防止隨著新任務(wù)的學(xué)習(xí)，舊類別的特征在記憶空間里逐漸模糊。

動(dòng)態(tài)保持的核心是一個(gè)對(duì)比式的目標(biāo)函數(shù)。對(duì)于當(dāng)前批次中的每一個(gè)樣本，目標(biāo)函數(shù)鼓勵(lì)它的特征向自己所屬類別的所有質(zhì)心靠近，同時(shí)遠(yuǎn)離其他類別的特征和質(zhì)心。不同于只用一個(gè)原型的方法，這里用多個(gè)質(zhì)心來(lái)代表每個(gè)類別，相當(dāng)于用多條"磁力線"來(lái)吸引樣本，而不是只有一個(gè)吸引中心。特別是那些位于類別邊界區(qū)域的質(zhì)心，能夠更精準(zhǔn)地定義類別的邊界，幫助模型學(xué)到更清晰的決策邊界。

經(jīng)過(guò)動(dòng)態(tài)保持訓(xùn)練后，同一類別的樣本在記憶空間里會(huì)更加緊密地聚在一起，不同類別的樣本則會(huì)被推得更遠(yuǎn)。這種"內(nèi)部緊湊、外部分離"的結(jié)構(gòu)，使得模型在面對(duì)新任務(wù)時(shí)不容易把舊類別的特征擠亂，從而更好地對(duì)抗災(zāi)難性遺忘。

六、記憶回放與樣本選擇：讓緩沖區(qū)里的舊樣本更有代表性

在線增量學(xué)習(xí)通常還維護(hù)著一個(gè)"記憶緩沖區(qū)"，用來(lái)存儲(chǔ)一小部分歷史樣本，以便在學(xué)習(xí)新任務(wù)時(shí)重播舊任務(wù)的數(shù)據(jù)，防止遺忘。研究團(tuán)隊(duì)的方案在樣本選擇上也利用了MMOT學(xué)到的質(zhì)心信息。

具體做法是：對(duì)于每個(gè)質(zhì)心，從當(dāng)前批次中選取距離該質(zhì)心最近的若干個(gè)樣本加入緩沖區(qū)。這樣一來(lái)，緩沖區(qū)里保存的樣本能夠覆蓋每個(gè)類別的不同聚集區(qū)域，具有更強(qiáng)的代表性和多樣性，而不是隨機(jī)堆砌的一批數(shù)據(jù)。當(dāng)緩沖區(qū)滿了需要替換時(shí)，則隨機(jī)淘汰舊樣本，讓位于新到來(lái)的樣本。這種有針對(duì)性的采樣方式，使得有限的緩沖區(qū)空間能夠發(fā)揮出更大的價(jià)值，為動(dòng)態(tài)保持策略提供更高質(zhì)量的歷史數(shù)據(jù)支撐。

七、推斷階段：用馬氏距離做更聰明的分類

當(dāng)模型訓(xùn)練完畢，需要對(duì)新來(lái)的未見樣本做分類時(shí)，MMOT的多質(zhì)心結(jié)構(gòu)也帶來(lái)了推斷方式上的創(chuàng)新。

傳統(tǒng)方法通常計(jì)算樣本特征與每個(gè)類別單一原型之間的距離，選擇最近的類別作為預(yù)測(cè)結(jié)果。在MMOT框架下，每個(gè)類別有多個(gè)高斯分量，每個(gè)分量都有自己的質(zhì)心和協(xié)方差矩陣。研究團(tuán)隊(duì)采用"馬氏距離"（Mahalanobis distance）來(lái)衡量樣本與每個(gè)高斯分量的相似度。

馬氏距離與普通歐氏距離的區(qū)別，可以用"胖瘦判斷"來(lái)比喻。歐氏距離只看兩點(diǎn)之間的直線長(zhǎng)度，就像只看體重；馬氏距離則同時(shí)考慮數(shù)據(jù)分布的形狀，就像考慮一個(gè)人的身高和骨架之后再判斷胖瘦。對(duì)于分布形狀不規(guī)則的高斯分量，馬氏距離能給出更準(zhǔn)確的相似度判斷。

對(duì)于一個(gè)待分類的樣本，模型先計(jì)算它與某個(gè)類別下所有高斯分量的馬氏距離，取最小值作為該樣本與這個(gè)類別的"相似度分?jǐn)?shù)"，然后在所有類別中選擇分?jǐn)?shù)最低（即最相似）的那個(gè)作為預(yù)測(cè)結(jié)果。多個(gè)質(zhì)心組成的"防護(hù)網(wǎng)"比單個(gè)質(zhì)心的"一根桿"能更全面地覆蓋類別的特征空間，對(duì)那些落在類別邊緣區(qū)域的樣本尤其友好。

八、實(shí)驗(yàn)驗(yàn)證：在四個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的表現(xiàn)

研究團(tuán)隊(duì)在四個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上驗(yàn)證了OTC的效果，分別是手寫數(shù)字識(shí)別的MNIST、小圖像分類的CIFAR-10和CIFAR-100，以及更具挑戰(zhàn)性的Tiny-ImageNet。這些數(shù)據(jù)集被分割成多個(gè)連續(xù)的任務(wù)：CIFAR-10分成5個(gè)任務(wù)，CIFAR-100分成10個(gè)任務(wù)，Tiny-ImageNet分成100個(gè)任務(wù)。模型每次只接收一小批數(shù)據(jù)，批次大小僅為10張圖片，從緩沖區(qū)調(diào)取的舊樣本批次大小為64。

對(duì)比的基線方法包括9種當(dāng)前最具代表性的方案：ER、ASER、CoPE、OCM、GSA、OnPro、MOSE、SBS以及BiC+AC。評(píng)價(jià)指標(biāo)主要是兩個(gè)：最終平均準(zhǔn)確率（越高越好）和最終平均遺忘度（越低越好）。

在平均準(zhǔn)確率方面，OTC在大多數(shù)數(shù)據(jù)集和內(nèi)存配置下都超越了所有基線，領(lǐng)先幅度達(dá)到2%乃至13%。特別是在最具挑戰(zhàn)性的Tiny-ImageNet數(shù)據(jù)集（100個(gè)連續(xù)任務(wù)）上，OTC比次優(yōu)基線高出約13%，這是一個(gè)相當(dāng)顯著的差距。在內(nèi)存最為緊張的配置下（每個(gè)數(shù)據(jù)集中內(nèi)存最小的那組），OTC的優(yōu)勢(shì)最為突出，這對(duì)實(shí)際部署場(chǎng)景尤為重要。

在遺忘控制方面，OTC在CIFAR-10和CIFAR-100上始終處于遺忘最小的前兩名。在Tiny-ImageNet上，有一個(gè)基線CoPE的遺忘度看起來(lái)更低，但研究團(tuán)隊(duì)通過(guò)可視化分析揭示了背后的原因：CoPE在這個(gè)數(shù)據(jù)集上從一開始就學(xué)得很差，初始準(zhǔn)確率本來(lái)就低，所以后來(lái)遺忘的"量"自然也少。這就好比一個(gè)人本來(lái)就沒學(xué)會(huì)多少內(nèi)容，當(dāng)然不容易忘——但這不代表它學(xué)得好。OTC即使遺忘略多，仍然在最終準(zhǔn)確率上超越了它，保持在表現(xiàn)最優(yōu)的前三名之列。

研究團(tuán)隊(duì)還通過(guò)t-SNE可視化（一種把高維特征壓縮到二維展示的技術(shù)，類似把立體地形圖壓成平面地圖）直觀展示了不同方法下記憶空間的結(jié)構(gòu)。使用4個(gè)自適應(yīng)質(zhì)心的OTC，其特征點(diǎn)分布明顯比使用單一質(zhì)心的方法更有條理，不同類別之間的邊界更清晰，同一類別內(nèi)部的結(jié)構(gòu)也更完整。

九、消融實(shí)驗(yàn)：每個(gè)設(shè)計(jì)選擇的貢獻(xiàn)有多大

為了更深入地理解每個(gè)設(shè)計(jì)選擇的必要性，研究團(tuán)隊(duì)還做了一系列消融實(shí)驗(yàn)。

在質(zhì)心數(shù)量的影響方面，研究發(fā)現(xiàn)并非質(zhì)心越多越好。以CIFAR-10為例，當(dāng)質(zhì)心數(shù)量從1個(gè)增加到4個(gè)時(shí)，準(zhǔn)確率穩(wěn)步提升；但當(dāng)質(zhì)心繼續(xù)增加到5個(gè)乃至更多時(shí)，性能開始下降，尤其在內(nèi)存較小的配置下更為明顯。直覺上，質(zhì)心數(shù)量太少則無(wú)法充分刻畫數(shù)據(jù)的多模態(tài)結(jié)構(gòu)，太多則可能導(dǎo)致過(guò)擬合，而且每個(gè)質(zhì)心分配到的歷史樣本數(shù)量也會(huì)相應(yīng)減少，降低學(xué)習(xí)質(zhì)量。內(nèi)存越大，能支撐的理想質(zhì)心數(shù)量也越大。

在樣本選擇策略的影響方面，研究對(duì)比了"基于質(zhì)心選擇樣本"與"隨機(jī)選擇樣本"兩種方式。結(jié)果顯示，基于質(zhì)心的選擇策略在所有質(zhì)心數(shù)量配置下都優(yōu)于隨機(jī)選擇，差距約在2到3個(gè)百分點(diǎn)。這說(shuō)明質(zhì)心確實(shí)幫助提升了緩沖區(qū)樣本的代表性和多樣性，讓有限的存儲(chǔ)空間發(fā)揮出更大的價(jià)值。

在離線學(xué)習(xí)場(chǎng)景中，研究團(tuán)隊(duì)也將OTC與DER++、GeoDL、Co2L等典型的離線類增量學(xué)習(xí)方法做了比較。即使在不限制在線更新次數(shù)的離線場(chǎng)景下，OTC依然在CIFAR-10和CIFAR-100上全面超越這些基線，最大差距超過(guò)6%，說(shuō)明OTC的優(yōu)勢(shì)不局限于在線場(chǎng)景，具有更廣泛的適用性。

十、與傳統(tǒng)EM算法的效率對(duì)比

研究團(tuán)隊(duì)還從計(jì)算復(fù)雜度角度詳細(xì)分析了MMOT與傳統(tǒng)EM算法的差異。

在傳統(tǒng)EM算法中，每次更新需要對(duì)所有數(shù)據(jù)點(diǎn)計(jì)算所有K個(gè)高斯分量的響應(yīng)度，然后更新參數(shù)，這個(gè)過(guò)程需要重復(fù)許多次才能收斂，總體時(shí)間復(fù)雜度為O(I_EM × B × K × d)，其中I_EM是迭代次數(shù)，B是批次大小，K是分量數(shù)，d是特征維度。

MMOT則通過(guò)重參數(shù)化和Gumbel-Softmax技巧，把整個(gè)過(guò)程轉(zhuǎn)化為單次（或少次）梯度更新，時(shí)間復(fù)雜度約為O(T_phi × B + B × K × d + S × B × d)，其中T_phi是對(duì)偶網(wǎng)絡(luò)的更新次數(shù)（通常很?。?，S是負(fù)樣本數(shù)量（通常不超過(guò)1）。由于不需要維護(hù)每個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)每個(gè)分量的責(zé)任矩陣，內(nèi)存消耗也更低。當(dāng)EM的迭代次數(shù)I_EM超過(guò)幾次時(shí)，MMOT在時(shí)間和內(nèi)存上都更加經(jīng)濟(jì)，且單次隨機(jī)更新的方式天然適合數(shù)據(jù)持續(xù)流入的在線場(chǎng)景。

說(shuō)到底，這項(xiàng)來(lái)自五所高校聯(lián)合團(tuán)隊(duì)的研究做了一件很有價(jià)值的事：它找到了一種既能捕捉數(shù)據(jù)復(fù)雜結(jié)構(gòu)、又能實(shí)時(shí)跟上數(shù)據(jù)變化、還能高效運(yùn)行的方案，把三個(gè)原本相互制約的需求統(tǒng)一在了一個(gè)框架里。數(shù)據(jù)的多模態(tài)性不再是障礙，特征空間的漂移不再是隱患，計(jì)算效率也不再是瓶頸。

這對(duì)于需要持續(xù)學(xué)習(xí)的AI系統(tǒng)來(lái)說(shuō)意義不小。未來(lái)的自動(dòng)駕駛系統(tǒng)、家用服務(wù)機(jī)器人、個(gè)性化推薦引擎，都需要在運(yùn)行中不斷學(xué)習(xí)而不遺忘。OTC提供的這套工具，可能會(huì)成為這類系統(tǒng)的重要基礎(chǔ)設(shè)施之一。當(dāng)然，任何研究都有其局限：質(zhì)心數(shù)量的最優(yōu)設(shè)置需要根據(jù)具體場(chǎng)景調(diào)整，緩沖區(qū)的選樣策略還比較簡(jiǎn)單，未來(lái)也許有更精妙的替代方案。但作為在線增量學(xué)習(xí)領(lǐng)域?qū)⒆顑?yōu)傳輸理論與混合模型結(jié)合的首次系統(tǒng)性探索，它開辟了一條值得繼續(xù)深走的路。

如果你對(duì)這個(gè)話題感興趣，不妨思考這樣一個(gè)問(wèn)題：除了圖像識(shí)別，還有哪些場(chǎng)景的AI系統(tǒng)面臨著"既要記住舊的、又要學(xué)好新的"這種兩難困境？那些場(chǎng)景下，數(shù)據(jù)的多模態(tài)性又會(huì)以什么形式出現(xiàn)？有興趣深入了解的讀者，可以通過(guò)arXiv編號(hào)2211.16780查閱完整論文。

Q&A

Q1：OTC方法中的"多質(zhì)心"和普通原型方法的"單原型"有什么本質(zhì)區(qū)別？

A：?jiǎn)卧头椒ㄓ靡粋€(gè)固定點(diǎn)代表一個(gè)類別，就像只用城市中心點(diǎn)代表整座城市，無(wú)法反映數(shù)據(jù)內(nèi)部的多樣性。OTC的多質(zhì)心方法則用多個(gè)自適應(yīng)的代表點(diǎn)來(lái)覆蓋一個(gè)類別的不同聚集區(qū)域，并且這些代表點(diǎn)會(huì)隨著新數(shù)據(jù)的到來(lái)不斷更新位置，更準(zhǔn)確地追蹤數(shù)據(jù)分布的真實(shí)結(jié)構(gòu)，對(duì)邊緣樣本的分類尤為有利。

Q2：在線類增量學(xué)習(xí)中災(zāi)難性遺忘是什么意思？

A：災(zāi)難性遺忘是指AI模型在學(xué)習(xí)新任務(wù)時(shí)，把之前學(xué)到的舊任務(wù)知識(shí)快速、大量地覆蓋掉。就像每學(xué)一門新課就忘掉上一門課一樣。這在數(shù)據(jù)持續(xù)流入、模型不斷更新的場(chǎng)景下尤為嚴(yán)重，是在線持續(xù)學(xué)習(xí)領(lǐng)域最核心的挑戰(zhàn)之一。OTC通過(guò)動(dòng)態(tài)保持策略和基于質(zhì)心的樣本回放，讓模型在學(xué)習(xí)新內(nèi)容時(shí)同時(shí)維護(hù)對(duì)舊類別的記憶。

Q3：MMOT框架為什么用Wasserstein距離而不用更常見的KL散度來(lái)訓(xùn)練高斯混合模型？

A：KL散度在數(shù)學(xué)上等價(jià)于EM算法的最大化對(duì)數(shù)似然，而EM算法每次更新都需要多輪迭代，在數(shù)據(jù)實(shí)時(shí)流入的在線場(chǎng)景中代價(jià)過(guò)高。Wasserstein距離是處處可微的連續(xù)度量，即使兩個(gè)分布幾乎不重疊也能提供有效梯度，天然支持用梯度下降做單步更新，同時(shí)還尊重?cái)?shù)據(jù)的幾何結(jié)構(gòu)，使得高斯混合模型的參數(shù)學(xué)習(xí)更準(zhǔn)確、更穩(wěn)定。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.