国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NeMo:面向深度神經(jīng)網(wǎng)絡(luò)分解的神經(jīng)元級(jí)訓(xùn)練中模塊化方法

0
分享至

NeMo:面向深度神經(jīng)網(wǎng)絡(luò)分解的神經(jīng)元級(jí)訓(xùn)練中模塊化方法

NeMo: A Neuron-Level Modularizing-While-Training Approach for Decomposing DNN Models

https://arxiv.org/pdf/2508.11348


摘要

隨著深度神經(jīng)網(wǎng)絡(luò)(DNN)模型日益融入現(xiàn)代軟件系統(tǒng),DNN 模型高昂的構(gòu)建成本已成為軟件開(kāi)發(fā)中的一個(gè)重大挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),模型復(fù)用已被廣泛應(yīng)用以減少模型訓(xùn)練成本;然而,不加區(qū)分地復(fù)用整個(gè)模型可能會(huì)產(chǎn)生顯著的推理開(kāi)銷。因此,DNN 模塊化——借鑒軟件工程中的模塊化思想——日益受到關(guān)注,通過(guò)將 DNN 模型分解為模塊來(lái)實(shí)現(xiàn)模塊復(fù)用。特別是,新興的訓(xùn)練中模塊化(MwT)范式,通過(guò)將模塊化納入模型的訓(xùn)練過(guò)程,優(yōu)于訓(xùn)練后模塊化,已被證明是 DNN 模塊化的一種更有效方法。然而,現(xiàn)有的 MwT 方法專注于卷積核級(jí)別的小規(guī)模卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型。它們難以處理多樣的 DNN 和大規(guī)模模型,特別是基于 Transformer 的模型,后者在各種任務(wù)中持續(xù)取得最先進(jìn)的結(jié)果。

為解決這些局限性,我們提出了 NeMo,一種可擴(kuò)展且更具通用性的 MwT 方法。NeMo 在神經(jīng)元級(jí)別操作——這是所有 DNN 共有的基本組件——從而確保適用于 Transformer 和各種 DNN 架構(gòu)。此外,我們?cè)O(shè)計(jì)了一種基于對(duì)比學(xué)習(xí)的模塊化訓(xùn)練方法,配備有效的復(fù)合損失函數(shù),因此可擴(kuò)展至大規(guī)模模型。在兩個(gè)廣泛使用的分類數(shù)據(jù)集上對(duì)兩個(gè)基于 Transformer 的模型和四個(gè) CNN 模型進(jìn)行的綜合實(shí)驗(yàn),證明了 NeMo 優(yōu)于最先進(jìn)的 MwT 方法。結(jié)果顯示,模塊分類準(zhǔn)確率平均性能提升 1.72%,模塊大小減少 58.10%。我們的發(fā)現(xiàn)表明,NeMo 在 CNN 和大規(guī)?;?Transformer 的模型中均表現(xiàn)出有效性。此外,基于開(kāi)源項(xiàng)目的案例研究展示了 NeMo 在實(shí)際場(chǎng)景中的潛在益處,為實(shí)現(xiàn)可擴(kuò)展且通用化的 DNN 模塊化提供了一種有前景的方法。

CCS 概念:? 軟件及其工程; 其他關(guān)鍵詞和短語(yǔ):模型復(fù)用,transformer,視覺(jué) transformer,卷積神經(jīng)網(wǎng)絡(luò),模塊化

1 引言

深度神經(jīng)網(wǎng)絡(luò)(DNN)模型日益融入當(dāng)代軟件系統(tǒng) [36, 39],使得 DNN 訓(xùn)練成為軟件開(kāi)發(fā)生命周期的一個(gè)關(guān)鍵組成部分。然而,DNN 的訓(xùn)練過(guò)程,特別是那些具有數(shù)十億參數(shù)和大數(shù)據(jù)集的模型,可能昂貴得令人望而卻步。為了減輕開(kāi)發(fā)和訓(xùn)練成本,模型復(fù)用 [8, 32, 42, 52, 66] 已在實(shí)踐中被廣泛采用,引起了 AI 和軟件工程社區(qū)的極大關(guān)注。研究人員探索了諸如遷移學(xué)習(xí) [9, 10, 32, 66] 和模型檢索 [26] 等技術(shù)以促進(jìn)有效的模型復(fù)用,同時(shí)開(kāi)發(fā)了工程最佳實(shí)踐——例如模型重構(gòu) [21] 和優(yōu)化模型供應(yīng)鏈 [60]——以提高效率和安全性。然而,這些方法通常將 DNN 模型視為單體工件,不加區(qū)分地復(fù)用整個(gè)模型可能會(huì)產(chǎn)生額外的推理開(kāi)銷并引入安全漏洞。

DNN 模型和軟件程序共享根本性的相似之處 [30, 36],前者通過(guò)數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)訓(xùn)練過(guò)程編碼功能,后者通過(guò)顯式編碼實(shí)現(xiàn)功能。在軟件工程中,程序開(kāi)發(fā)通常遵循模塊化原則,促進(jìn)程序組件的按需復(fù)用 [33, 34, 53]。借鑒軟件工程中的模塊化思想,DNN 模型模塊化和按需模型復(fù)用正受到越來(lái)越多的關(guān)注。例如,Pan 等人和 Qi 等人開(kāi)創(chuàng)了全連接神經(jīng)網(wǎng)絡(luò)(FCNNs)[30, 38]、卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[3, 31, 37, 38, 40, 41] 和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)[20] 模型的 DNN 模塊化,通過(guò)識(shí)別模型每個(gè)功能的相關(guān)權(quán)重或特殊結(jié)構(gòu)組件。每個(gè)模塊擁有模型功能的一部分,僅保留負(fù)責(zé)其特定功能的權(quán)重。例如,一個(gè) 10 類圖像分類模型可以分解為 10 個(gè)模塊,每個(gè)模塊僅保留負(fù)責(zé)識(shí)別單一類的權(quán)重。除了模型復(fù)用之外,DNN 模塊化通過(guò)識(shí)別相關(guān)模塊,為模型維護(hù) [43]、部署 [8] 和供應(yīng)鏈管理 [60] 提供了潛在益處。

根據(jù)模塊化執(zhí)行的時(shí)間,現(xiàn)有的 DNN 模塊化方法可以分為訓(xùn)練后模塊化 [20, 37, 38, 40, 43, 64, 70] 和訓(xùn)練中模塊化 [41],前者分解一個(gè)訓(xùn)練好的 DNN 模型,后者將模塊化集成到隨機(jī)初始化模型的訓(xùn)練過(guò)程中,然后分解模塊化訓(xùn)練好的模型。在我們之前的工作 [41] 中,我們提出了一種模塊化訓(xùn)練方法 MwT,它將內(nèi)聚性和耦合性這兩個(gè)因素集成到訓(xùn)練損失中?!皟?nèi)聚性”評(píng)估用于同類樣本的卷積核集合之間的重疊,而“耦合性”評(píng)估用于不同類樣本的卷積核集合之間的重疊。通過(guò)優(yōu)化這些因素,MwT 最小化了負(fù)責(zé)不同功能的權(quán)重集之間的重疊。由于模塊化模型是專門為模塊化訓(xùn)練的,訓(xùn)練中模塊化在模塊大小、推理性能和模塊化時(shí)間成本方面顯著優(yōu)于訓(xùn)練后模塊化。然而,將模塊化納入訓(xùn)練過(guò)程是非常具有挑戰(zhàn)性的,因?yàn)樗枰紤]各種架構(gòu)和規(guī)模模型的訓(xùn)練細(xì)節(jié),并避免對(duì)模型性能和訓(xùn)練時(shí)間成本產(chǎn)生副作用。我們的實(shí)驗(yàn)觀察表明,即使是最先進(jìn)的訓(xùn)練中模塊化方法 MwT [41],由于模型架構(gòu)和模型大小的通用性問(wèn)題,也離實(shí)際應(yīng)用還很遠(yuǎn)。

當(dāng)前的 DNN 模塊化技術(shù),包括 MwT,主要局限于小規(guī)模模型,例如最多只有 1470 萬(wàn)參數(shù)(用于模塊化模型的可訓(xùn)練參數(shù))的 FCNN 和 CNN 模型。隨著基于 Transformer 的模型繼續(xù)在圖像 [23, 27, 56]、自然語(yǔ)言 [29, 59] 和代碼相關(guān)任務(wù) [11, 44] 上取得最先進(jìn)結(jié)果,它們?cè)谠S多應(yīng)用中已基本取代了傳統(tǒng)的 CNN 和 RNN 架構(gòu)?;?Transformer 模型的優(yōu)越性不僅源于先進(jìn)的架構(gòu) [59],也得益于大規(guī)模參數(shù) [29]。另一方面,如此大規(guī)模的參數(shù)導(dǎo)致訓(xùn)練和推理成本激增,因此一種針對(duì)大規(guī)模基于 Transformer 模型的 DNN 模塊化方法更為必要。盡管 MwT 提出了一個(gè)適用于多樣 DNN 模型的通用框架,但其具體實(shí)現(xiàn)局限于 CNN 模塊化,不支持基于 Transformer 的模型。主要原因可能包括:(1) MwT 在卷積核級(jí)別執(zhí)行模塊化,這是 CNN 特有的結(jié)構(gòu)組件,以及 (2) MwT 面臨大規(guī)模模型的性能可擴(kuò)展性挑戰(zhàn)。它利用多個(gè)損失(即內(nèi)聚性和耦合性損失)的直接求和進(jìn)行評(píng)估和優(yōu)化。這種方式已通過(guò)理論分析 [7, 22, 45] 和實(shí)驗(yàn)(見(jiàn)表 3)被證明對(duì)于優(yōu)化是低效的。稿件已提交至 ACM

解決上述局限性提出了重大挑戰(zhàn)。首先,選擇合適的模塊化粒度是困難的。雖然 MwT 可以通過(guò)將卷積核級(jí)別改為 Transformer 的特殊結(jié)構(gòu)組件(如注意力頭級(jí)別)來(lái)適應(yīng) Transformer,但注意力頭數(shù)量通常很少這一事實(shí)使得將注意力頭劃分為眾多模塊并實(shí)現(xiàn)高模塊性能和低模塊間重疊變得不可行。例如,在 CIFAR10 數(shù)據(jù)集上微調(diào)的 Vision Transformer (ViT) [23] 模型只有 96 個(gè)注意力頭。假設(shè)我們將其分解為十個(gè)模塊,每個(gè)對(duì)應(yīng)一個(gè)類,并強(qiáng)制模塊間無(wú)重疊,每個(gè)模塊將包含大約 10 個(gè)注意力頭。鑒于 ViT 模型中有 12 個(gè)注意力層,這意味著那兩層不包含任何注意力頭,這是不可接受的。相比之下,即使小 CNN 模型也擁有大量卷積核,例如用于 10 類分類的 VGG16 有 4226 個(gè)核,使得卷積核級(jí)別的模塊化可行。雖然在權(quán)重級(jí)別執(zhí)行模塊化的現(xiàn)有工作 [30, 31, 38] 提供了一個(gè)替代思路,但這種模塊化粒度會(huì)加劇第二個(gè)挑戰(zhàn)。其次,設(shè)計(jì)一個(gè)包含多個(gè)目標(biāo)的有效損失函數(shù)是困難的。訓(xùn)練損失應(yīng)涉及三個(gè)優(yōu)化目標(biāo),包括推理性能(例如交叉熵?fù)p失)、內(nèi)聚性和耦合性。直接求和這三部分是一種直接的方式;然而,這種方式已通過(guò)理論分析 [7, 22, 45] 被證明對(duì)于優(yōu)化是無(wú)效的。我們的實(shí)證發(fā)現(xiàn)表明,隨著模型權(quán)重規(guī)模和模塊化相關(guān)可訓(xùn)練參數(shù)的增加,這一挑戰(zhàn)被進(jìn)一步放大。大規(guī)模模型的有效模塊化需要更復(fù)雜的訓(xùn)練損失函數(shù)。

為了應(yīng)對(duì)上述挑戰(zhàn),我們提出了 NeMo,一種開(kāi)創(chuàng)性的神經(jīng)元級(jí)訓(xùn)練中模塊化(NEuron-level MOdularizing-while-training)方法。不同于在權(quán)重 [38] 或特殊結(jié)構(gòu)組件級(jí)別 [37, 40, 41] 實(shí)現(xiàn)模塊化的現(xiàn)有方法,NeMo 在神經(jīng)元級(jí)別操作。這種粒度有效地解決了第一個(gè)挑戰(zhàn),并提供優(yōu)于 MwT 的三個(gè)優(yōu)勢(shì):(1) 神經(jīng)元是 DNN 模型的基礎(chǔ)組件,使 NeMo 能夠無(wú)縫應(yīng)用于 Transformer 架構(gòu)并容易擴(kuò)展到其他 DNN。(2) 模型中的神經(jīng)元數(shù)量介于權(quán)重?cái)?shù)量和特殊結(jié)構(gòu)組件數(shù)量之間,促進(jìn)模塊化和推理性能之間的平衡。(3) 類似于卷積核,無(wú)關(guān)神經(jīng)元可以從模塊中物理移除。此外,由于神經(jīng)元包含的權(quán)重少于卷積核,NeMo 是比 MwT 更細(xì)粒度的方法,因此在模塊化方面表現(xiàn)更好。為解決第二個(gè)挑戰(zhàn),我們通過(guò)引入對(duì)比學(xué)習(xí)技術(shù) [1, 6, 16] 來(lái)優(yōu)化內(nèi)聚性和耦合性損失函數(shù)。改進(jìn)的損失函數(shù)以指數(shù)和分?jǐn)?shù)形式結(jié)合推理性能、內(nèi)聚性和耦合性,而不是簡(jiǎn)單地將它們相加,從而實(shí)現(xiàn)更好的模塊化性能和模塊推理性能。此外,改進(jìn)的損失函數(shù)只有一個(gè)超參數(shù),而 MwT 有三個(gè)超參數(shù),使 NeMo 更容易適應(yīng)不同模型。

我們進(jìn)行了綜合實(shí)驗(yàn)來(lái)評(píng)估 NeMo,利用兩個(gè)基于 Transformer 的模型(ViT 和 DeiT)和四個(gè)主流 CNN 架構(gòu),跨越兩個(gè)廣泛使用的圖像分類數(shù)據(jù)集。為了確保公平比較,我們也調(diào)整了 MwT 使其在神經(jīng)元級(jí)別操作以用于基于 Transformer 的模型。實(shí)驗(yàn)結(jié)果證明了 NeMo 在實(shí)現(xiàn)基于 Transformer 和 CNN 模型的模塊化訓(xùn)練和分解方面的有效性。與 MwT 相比,NeMo 不僅提高了模塊化訓(xùn)練的準(zhǔn)確率,還顯著降低了神經(jīng)元保留率(NRR)或核保留率(KRR)。對(duì)于 ViT 模型,與 MwT 相比,NeMo 實(shí)現(xiàn)了高達(dá) 64.76% 的 NRR 降低。關(guān)于按需模型復(fù)用,NeMo 在減少模型大小方面取得了顯著改進(jìn),與 MwT 相比平均權(quán)重減少 57.85%。此外,基于開(kāi)源倉(cāng)庫(kù) [13, 46, 68] 的案例研究進(jìn)一步展示了 NeMo 在現(xiàn)實(shí)場(chǎng)景中的實(shí)際益處。在此案例研究中,NeMo 允許開(kāi)發(fā)者僅復(fù)用預(yù)訓(xùn)練模型中的相關(guān)模塊,從而減少微調(diào)模型在其下游任務(wù)上的推理開(kāi)銷。

這項(xiàng)工作的主要貢獻(xiàn)如下:

  • 據(jù)我們所知,NeMo 是第一個(gè)支持基于 Transformer 模型的模塊化訓(xùn)練和結(jié)構(gòu)化分解的神經(jīng)元級(jí)訓(xùn)練中模塊化方法。
  • 我們提出了一種基于對(duì)比學(xué)習(xí)的方法來(lái)優(yōu)化內(nèi)聚性和耦合性,這使得大規(guī)模模型的模塊化訓(xùn)練成為可能。
  • 我們使用兩個(gè)代表性的基于 Transformer 模型和四個(gè) CNN 模型在兩個(gè)廣泛使用的數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn)。結(jié)果表明,NeMo 在模塊分類準(zhǔn)確率和模塊大小方面可以優(yōu)于最先進(jìn)的方法。此外,我們進(jìn)行了案例研究以展示 NeMo 在現(xiàn)實(shí)場(chǎng)景中的實(shí)際益處。我們發(fā)布了 NeMo 的復(fù)現(xiàn)包 [2]。

2 背景

本節(jié)簡(jiǎn)要介紹本研究的一些預(yù)備信息,包括對(duì)比學(xué)習(xí)(CL)和一些主流神經(jīng)網(wǎng)絡(luò)模型。

2.1 主流神經(jīng)網(wǎng)絡(luò)模型

神經(jīng)網(wǎng)絡(luò) [14, 19, 24] 是由分層組織的互連節(jié)點(diǎn)(神經(jīng)元)組成的計(jì)算模型,旨在從數(shù)據(jù)中學(xué)習(xí)復(fù)雜模式。其基本結(jié)構(gòu)包括輸入層、一個(gè)或多個(gè)隱藏層和輸出層。在學(xué)習(xí)過(guò)程中,與神經(jīng)元間連接相關(guān)的權(quán)重會(huì)被調(diào)整。卷積神經(jīng)網(wǎng)絡(luò)(CNN)[25, 50, 51] 代表了一類專門優(yōu)化的神經(jīng)網(wǎng)絡(luò),用于處理網(wǎng)格狀數(shù)據(jù),特別是圖像。CNN 引入了卷積層,將濾波器應(yīng)用于輸入數(shù)據(jù),使網(wǎng)絡(luò)能夠捕捉局部模式和空間層次結(jié)構(gòu)。CNN 的關(guān)鍵組件包括:

卷積層,其使用可學(xué)習(xí)的濾波器提取特征;池化層,其減少空間維度和計(jì)算復(fù)雜度;以及全連接層,其基于提取的特征執(zhí)行高層推理。

Vision Transformer (ViT) [23] 模型將最初為自然語(yǔ)言處理設(shè)計(jì)的 Transformer 架構(gòu)改編用于計(jì)算機(jī)視覺(jué)任務(wù)。ViT 將圖像分割為固定大小的補(bǔ)丁,線性嵌入這些補(bǔ)丁,并使用標(biāo)準(zhǔn) Transformer 編碼器處理它們。ViT 的關(guān)鍵組件包括:補(bǔ)丁嵌入,它將圖像補(bǔ)丁轉(zhuǎn)換為線性嵌入;位置編碼,它添加有關(guān)補(bǔ)丁空間位置的信息;多頭自注意力,它允許模型關(guān)注輸入的不同部分;以及前饋網(wǎng)絡(luò),它處理注意力輸出。

ViT 已在圖像分類任務(wù)中表現(xiàn)出卓越的性能,通常只需最小的特定領(lǐng)域適配即可超越基于 CNN 的模型?;谶@一成功,Touvron 等人(2021)提出了數(shù)據(jù)高效圖像 Transformer(DeiT)[56],旨在解決原始 ViT 模型的數(shù)據(jù)效率限制。

現(xiàn)有的結(jié)構(gòu)化模塊化方法 [37, 40, 41] 主要針對(duì) CNN 模型中的卷積核。這些方法通常通過(guò)分析其輸出通道來(lái)評(píng)估每個(gè)核的重要性,隨后在分解階段移除不相關(guān)的核。然而,這種方法論不適用于基于 Transformer 的模型,它們?cè)诮Y(jié)構(gòu)和傳播機(jī)制上存在根本差異(見(jiàn)第 3.2 節(jié))。

2.2 對(duì)比學(xué)習(xí)

對(duì)比學(xué)習(xí)及其最近的發(fā)展旨在訓(xùn)練編碼器,以捕捉高維信號(hào)不同部分之間的共享信息表示 [57, 63]。對(duì)比學(xué)習(xí)的核心思想是將相似樣本(正樣本對(duì))拉在一起,同時(shí)將不相似樣本(負(fù)樣本對(duì))推開(kāi)。這種方法在自監(jiān)督學(xué)習(xí)設(shè)置中特別有價(jià)值,因?yàn)樗灰蕾囀謩?dòng)標(biāo)記的數(shù)據(jù)。

為了使編碼器能夠充分學(xué)習(xí)特征,Wu 等人 [63] 引入了一個(gè)大型記憶庫(kù)來(lái)存儲(chǔ)數(shù)據(jù)集中所有樣本的特征表示。He 等人 [16] 引入了動(dòng)量對(duì)比(MoCo),它通過(guò)維護(hù)一個(gè)負(fù)樣本隊(duì)列并使用動(dòng)量編碼器來(lái)確保特征表示的一致性,從而解決了負(fù)樣本的動(dòng)態(tài)性質(zhì)問(wèn)題。Chen 等人 [6] 通過(guò)移除對(duì)記憶庫(kù)或?qū)S眉軜?gòu)的需求,簡(jiǎn)化了對(duì)比學(xué)習(xí)框架。相反,它使用大批量大小和數(shù)據(jù)增強(qiáng)策略來(lái)即時(shí)生成正樣本對(duì)和負(fù)樣本對(duì)。Caron 等人 [5] 提出了 SwAV,這是一種將對(duì)比學(xué)習(xí)與聚類相結(jié)合的方法。Grill 等人 [15] 引入了 BYOL,這是一種完全消除對(duì)負(fù)樣本需求的方法。MwT [41] 中采用的內(nèi)聚性和耦合性指標(biāo)分別量化了同一類別內(nèi)和不同類別間所選神經(jīng)元的相似性。它與各種對(duì)比學(xué)習(xí)技術(shù)共享根本性的相似之處,但缺乏針對(duì)具有眾多神經(jīng)元模型的有效優(yōu)化損失。因此,我們將對(duì)比學(xué)習(xí)納入模塊化訓(xùn)練,并考慮標(biāo)簽以改進(jìn)內(nèi)聚性和耦合性的計(jì)算。

3 方法

本節(jié)詳細(xì)介紹了 NeMo 的方法論。NeMo 旨在進(jìn)行模塊化訓(xùn)練,并將一個(gè) n 類分類模型分解為幾個(gè)模塊,每個(gè)模塊包含神經(jīng)元和功能的子集。

3.1 NeMo 概述

如圖 1 所示,對(duì)于一個(gè)隨機(jī)初始化的模型,NeMo 通過(guò)兩個(gè)階段實(shí)現(xiàn)按需復(fù)用。(1) 模塊化訓(xùn)練。NeMo 從一個(gè)隨機(jī)初始化的模型開(kāi)始,并整合了一個(gè)神經(jīng)元標(biāo)識(shí)符,它由幾個(gè)掩碼生成器組成。為了實(shí)現(xiàn)模塊化訓(xùn)練,我們引入了一個(gè)組合損失函數(shù),其中包括準(zhǔn)確率損失和模塊化損失。在訓(xùn)練過(guò)程中,NeMo 通過(guò)應(yīng)用交叉熵和對(duì)比學(xué)習(xí)算法來(lái)增加模型的內(nèi)聚性并減少其耦合性。(2) 結(jié)構(gòu)化模塊化。在訓(xùn)練過(guò)程之后,NeMo 為每個(gè)功能生成掩碼,然后根據(jù)掩碼從模塊化訓(xùn)練好的模型中結(jié)構(gòu)化地移除不相關(guān)的神經(jīng)元,從而獲得模塊。圖 2 提供了 NeMo 的詳細(xì)工作流程。具體來(lái)說(shuō),在模塊化訓(xùn)練階段,為了識(shí)別相關(guān)神經(jīng)元,一個(gè)神經(jīng)元標(biāo)識(shí)符被附加到模型上。它包含幾個(gè)掩碼生成器,每個(gè)對(duì)應(yīng)一個(gè)網(wǎng)絡(luò)層。生成的掩碼代表神經(jīng)元對(duì)特定子任務(wù)的相關(guān)性。這些掩碼被用于計(jì)算對(duì)比損失以進(jìn)行模型優(yōu)化和隨后的剪枝過(guò)程。在模型訓(xùn)練完成后,NeMo 利用這些掩碼從每一層物理地移除冗余神經(jīng)元。這個(gè)過(guò)程有效地從權(quán)重矩陣中剪枝特定權(quán)重,產(chǎn)生一個(gè)定制的子模型。該子模型的功能與用戶需求精確對(duì)齊,確保它僅保留指定子任務(wù)所需的基本組件,同時(shí)消除多余元素。







3.1.2 評(píng)估模塊化和分類的性能。 在模塊化訓(xùn)練中,Qi 等人 [41] 引入了內(nèi)聚性(cohesion)和耦合性(coupling)的概念來(lái)評(píng)估模塊化性能。內(nèi)聚性量化了同類樣本內(nèi)卷積核使用的重疊程度,而耦合性衡量不同類之間的這種重疊。為了優(yōu)化內(nèi)聚性和耦合性,MwT [41] 計(jì)算樣本掩碼之間的相似度,并通過(guò)將其與交叉熵?fù)p失直接相加,將相似度整合到損失函數(shù)中。然而,這種損失計(jì)算存在一些缺點(diǎn)。首先,它平等地對(duì)待所有樣本,忽略了不同樣本之間難度水平的差異。其次,直接計(jì)算和求和損失可能導(dǎo)致數(shù)值不穩(wěn)定和優(yōu)化困難 [7, 22, 45]。此外,樣本的分布未受控制,使得標(biāo)識(shí)符難以學(xué)習(xí)某些特征 [63]。因此,模塊化的評(píng)估和優(yōu)化需要一種更復(fù)雜的算法。

對(duì)比學(xué)習(xí)(CL)旨在通過(guò)區(qū)分相似和不相似的數(shù)據(jù)點(diǎn)對(duì)來(lái)開(kāi)發(fā)有用的表示。傳統(tǒng)的 CL 方法 [5, 6, 15, 16, 69],例如 SimCLR [6] 和 MoCo [16],通常通過(guò)對(duì)同一實(shí)例應(yīng)用數(shù)據(jù)增強(qiáng)來(lái)創(chuàng)建正樣本對(duì),而負(fù)樣本對(duì)則從批次內(nèi)的不同實(shí)例生成。這些方法利用對(duì)比損失函數(shù)(例如 InfoNCE 損失 [57])來(lái)最大化正樣本對(duì)之間的相似性,并最小化負(fù)樣本對(duì)之間的相似性。然后,它們擁有一個(gè)具有訓(xùn)練良好特征的神經(jīng)網(wǎng)絡(luò)編碼器,用于圖像分類或其他下游任務(wù)。







其中 α 表示對(duì)比損失的加權(quán)因子?;谠O(shè)計(jì)的損失函數(shù),模型通過(guò)梯度下降進(jìn)行訓(xùn)練,使其學(xué)會(huì)使用相應(yīng)的神經(jīng)元組(即模塊)來(lái)識(shí)別不同類別的樣本。

3.2 結(jié)構(gòu)化模塊化

在模塊化訓(xùn)練之后,我們使用神經(jīng)元標(biāo)識(shí)符生成的神經(jīng)元掩碼來(lái)分解模塊化模型。具體來(lái)說(shuō),我們首先確定神經(jīng)元在模型中對(duì)應(yīng)什么結(jié)構(gòu),然后根據(jù)神經(jīng)元掩碼對(duì)其進(jìn)行分解。

3.2.1 確定神經(jīng)元的結(jié)構(gòu)。 在卷積層中,神經(jīng)元通常代表一個(gè)卷積核及其在輸入特征圖上的感受野,在輸出特征圖通道之一中產(chǎn)生一個(gè)輸出元素。鑒于設(shè)計(jì)的復(fù)雜性,我們從某個(gè)通道形成神經(jīng)元集合用于模塊化訓(xùn)練,即將一個(gè)卷積核作為一個(gè)獨(dú)立的子結(jié)構(gòu)。關(guān)于卷積核的移除,請(qǐng)參考 MwT [41]。

在線性(或全連接)層中,神經(jīng)元聚合來(lái)自所有前驅(qū)神經(jīng)元的加權(quán)輸入,添加偏置項(xiàng),并應(yīng)用激活函數(shù)。這些神經(jīng)元主要進(jìn)行線性變換和特征組合,通過(guò)偏置項(xiàng)實(shí)現(xiàn)非線性映射 [67]。與卷積層中的神經(jīng)元不同,線性層中的神經(jīng)元不構(gòu)成特殊的結(jié)構(gòu)(例如,卷積核)。與卷積層神經(jīng)元不同,線性層中的那些神經(jīng)元缺乏特定的結(jié)構(gòu)單元(例如,卷積核)。為了實(shí)現(xiàn)神經(jīng)元移除,我們提出了一種新穎的分解方法,該方法消除了線性變換操作中權(quán)重矩陣的部分內(nèi)容。




在 Transformer 模型中,所有層——包括 MLP 和注意力層——本質(zhì)上都是由線性運(yùn)算組成的。因此,輸出通道的移除統(tǒng)一應(yīng)用于所有此類層。此外,每個(gè)線性層的輸入通道必須進(jìn)行調(diào)整,以匹配其前一層的修改后的輸出通道。對(duì)于 MLP 層,其中一層的輸出直接作為下一層的輸入,我們根據(jù)前一層的掩碼移除后續(xù)層的輸入通道。至于注意力層,更新輸入通道需要考慮查詢(Q)、鍵(K)和值(V)矩陣之間的計(jì)算依賴關(guān)系。因此,我們應(yīng)用適當(dāng)?shù)难诖a,基于這些關(guān)系移除不相關(guān)的輸入通道,如圖 3 所示。

MLP 層。 在每一層的線性映射中,神經(jīng)元移除是通過(guò)根據(jù)掩碼移除對(duì)應(yīng)于輸出維度的權(quán)重來(lái)實(shí)現(xiàn)的。然而,對(duì)于相鄰層,這個(gè)過(guò)程變得復(fù)雜。在移除圖 3 中層 A 的權(quán)重矩陣后,輸出維度已經(jīng)改變,無(wú)法與層 B 對(duì)齊。雖然零填充層 A 的輸出可以實(shí)現(xiàn)對(duì)齊,但這會(huì)使層 B 輸入維度的一部分變得冗余。為了優(yōu)化計(jì)算效率,我們改為根據(jù)層 A 的掩碼剪枝層 B 的輸入維度。





殘差連接。 網(wǎng)絡(luò)層之間的殘差連接 [17] 給模塊化過(guò)程引入了復(fù)雜性。權(quán)重矩陣的選擇性剪枝可能導(dǎo)致殘差連接的輸入和輸出之間出現(xiàn)維度不匹配,從而阻礙正常的數(shù)據(jù)傳播。例如,在圖 4 的 ViT 模型中,殘差連接鏈接了注意力層和前饋層。默認(rèn)情況下,它們連接兩個(gè)維度相同的層輸出,如圖 4-(a) 所示。然而,在移除神經(jīng)元后,這兩層的輸出維度不匹配;見(jiàn)圖 4-(b)。CNNSplitter [37] 中的解決方案通過(guò)添加額外的核來(lái)匹配圖 4-(c) 中的兩個(gè)殘差連接層,這引入了額外的內(nèi)存和計(jì)算開(kāi)銷。MwT [41] 提供了另一種解決方案,即通過(guò)填充每個(gè)殘差連接層的輸出以匹配其維度,如圖 4-(d) 所示。然而,填充后層是冗余的,因?yàn)樯婕按颂畛涞挠?jì)算結(jié)果為零。只有前層的填充是有效的,因?yàn)樗枰c后層匹配以進(jìn)行下一次傳播。在圖 4-(e) 中,NeMo 提供了按需填充(On-demand Padding),僅對(duì)前層應(yīng)用填充并移除無(wú)效計(jì)算,從而避免了額外的開(kāi)銷。


3.3 按需復(fù)用

NeMo 通過(guò)結(jié)構(gòu)化神經(jīng)元移除實(shí)現(xiàn)高效的按需復(fù)用,最大限度地減少了內(nèi)存和計(jì)算開(kāi)銷。例如,當(dāng) tasked with identifying “cat” and “dog” categories(任務(wù)為識(shí)別“貓”和“狗”類別)時(shí),NeMo 可以從一個(gè) 10 類分類模型中提取相關(guān)模塊,消除無(wú)關(guān)神經(jīng)元,從而降低推理成本。



4 實(shí)驗(yàn)

我們通過(guò)回答以下研究問(wèn)題來(lái)評(píng)估 NeMo 的有效性:

  • RQ1:NeMo 在訓(xùn)練和模塊化 DNN 模型方面有多有效?
  • RQ2:NeMo 在復(fù)用 DNN 模塊方面有多有效?
  • RQ3:與 MwT 相比,NeMo 對(duì)于 CNN 模型有多有效?
  • RQ4:主要超參數(shù)如何影響 NeMo 的性能?
  • RQ5:與 MwT 相比,變化的模型規(guī)模如何影響 NeMo 的模塊化效率?

4.1 實(shí)驗(yàn)設(shè)置

模型。 (i) Vision Transformer (ViT) [23] 和 Data Efficient Image Transformer (DeiT) [56],包含 12 個(gè)編碼器,且每層大小為 384。(ii) 四個(gè)具有代表性的 CNN 模型,包括 ResNet18 [17]、VGG16 [48]、SimCNN 和 ResCNN,這些模型也被基線方法 MwT [41] 所使用。

數(shù)據(jù)集。 三個(gè)公開(kāi)的分類數(shù)據(jù)集被用于標(biāo)準(zhǔn)和模塊化訓(xùn)練,包括 CIFAR10、Street View House Number (SVHN) 和 FashionMNIST,這些數(shù)據(jù)集常用于 DNN 模塊化工作 [31, 37, 38, 41]。CIFAR10 數(shù)據(jù)集包含 50,000 張用于訓(xùn)練的自然圖像和 10,000 張用于測(cè)試的圖像,分辨率為 32 × 32。每個(gè)樣本包含 10 個(gè)類別中的一個(gè):airplanes(飛機(jī))、cars(汽車)、birds(鳥(niǎo))、cats(貓)、deer(鹿)、dogs(狗)、frogs(青蛙)、horses(馬)、ships(船)和 trucks(卡車)。SVHN 數(shù)據(jù)集包含 604,388 個(gè)用于訓(xùn)練的 0 到 9 的門牌號(hào)和 26,032 個(gè)用于測(cè)試的門牌號(hào),分辨率為 32 × 32。FashionMNIST 包含 60,000 張用于訓(xùn)練的圖像和 10,000 張用于測(cè)試的圖像,分辨率為 28 × 28。每個(gè)樣本包含 10 個(gè)類別中的一個(gè):t-shirt(T 恤)、trouser(褲子)、pullover(套頭衫)、dress(連衣裙)、coat(外套)、sandal(涼鞋)、shirt(襯衫)、sneaker(運(yùn)動(dòng)鞋)、bag(包)和 ankle boot(短靴)。

基線方法。 (i) 標(biāo)準(zhǔn)訓(xùn)練。標(biāo)準(zhǔn)訓(xùn)練使用帶有交叉熵?fù)p失的小批量隨機(jī)梯度下降來(lái)優(yōu)化 ViT、DeiT 和 CNN 模型。(ii) MwT [41]。MwT 是針對(duì) CNN 模型的最先進(jìn)的模塊化訓(xùn)練方法。為了在 ViT 和 DeiT 模型上比較 NeMo 和 MwT,我們將 MwT 適配到了神經(jīng)元級(jí)別,用神經(jīng)元標(biāo)識(shí)符替換了核識(shí)別器。

評(píng)估指標(biāo)。 (i) 準(zhǔn)確率 (ACC),計(jì)算為在整個(gè)測(cè)試集上正確預(yù)測(cè)的百分比。(ii) 神經(jīng)元保留率 (NRR) 和卷積核保留率 (KRR),表示目標(biāo)模塊中保留的平均神經(jīng)元數(shù)量或卷積核數(shù)量除以原始模型中的總數(shù)。(iii) 內(nèi)聚性 (Cohesion),即所有模塊的平均內(nèi)聚性(公式 (1))[41]。(iv) 耦合性 (Coupling),即所有模塊對(duì)的平均耦合性(公式 (2))[41]。

超參數(shù)。 在標(biāo)準(zhǔn)訓(xùn)練中,ViT、DeiT、ResNet18、SimCNN 和 ResCNN 使用 128 的小批量大小訓(xùn)練 200 個(gè)輪次(epochs),而 VGG16 使用 256 的小批量大小進(jìn)行訓(xùn)練。我們將學(xué)習(xí)率設(shè)置為 0.05,Nesterov 動(dòng)量設(shè)置為 0.9。至于數(shù)據(jù)增強(qiáng) [47],我們對(duì)所有模型應(yīng)用隨機(jī)裁剪和翻轉(zhuǎn)。對(duì)比損失權(quán)重 α α 的設(shè)置如表 1 所示,所有模型對(duì)比損失中的溫度 τ τ 均設(shè)置為 0.2。


實(shí)驗(yàn)階段。 對(duì)于 NeMo,它由兩個(gè)階段組成。第一階段是模塊化訓(xùn)練,NeMo 通過(guò)向相應(yīng)的線性層(包括 MLP 和注意力層)添加神經(jīng)元標(biāo)識(shí)符,在訓(xùn)練過(guò)程中解耦神經(jīng)元。第二階段是分解,NeMo 使用訓(xùn)練集執(zhí)行前向傳播,以獲取表示每一層神經(jīng)元與相應(yīng)類別之間關(guān)系的掩碼。在這些掩碼中,0 表示神經(jīng)元與目標(biāo)類別無(wú)關(guān),而非零值表示相關(guān)。利用這些掩碼,NeMo 將模型分解為所有模塊(例如,在 CIFAR-10 分類模型中,獲得 10 個(gè)模塊),并在其目標(biāo)類別任務(wù)上對(duì)每個(gè)模塊進(jìn)行幾個(gè)輪次的微調(diào)。MwT 遵循類似的過(guò)程。在 RQ1 中,為了證明模塊化訓(xùn)練不會(huì)顯著降低性能,我們?cè)O(shè)計(jì)了一個(gè)標(biāo)準(zhǔn)訓(xùn)練基線,其中模型在沒(méi)有任何模塊化方法的情況下進(jìn)行訓(xùn)練,作為準(zhǔn)確率基線。

4.2 實(shí)驗(yàn)結(jié)果

4.2.1 RQ1 - 模塊化訓(xùn)練與模塊化的有效性。 為了評(píng)估 NeMo 在訓(xùn)練和模塊化模型方面的有效性,我們將 NeMo 應(yīng)用于兩個(gè)基于 Transformer 的模型。此外,我們將 MwT 中的相關(guān)核識(shí)別替換為神經(jīng)元標(biāo)識(shí)符,以使 MwT 能夠在基于 Transformer 的模型上進(jìn)行比較。我們?cè)u(píng)估 (1) 模塊化模型的分類準(zhǔn)確率,(2) 基于 Transformer 模型的神經(jīng)元保留率(NRR),以及 (3) 訓(xùn)練模塊的內(nèi)聚性和耦合性。表 2 展示了基于 Transformer 模型上標(biāo)準(zhǔn)訓(xùn)練、模塊化訓(xùn)練和模塊化的結(jié)果。""列顯示了 ViT 和 DeiT 模型的神經(jīng)元數(shù)量。"Standard Model ACC"和"Modular Model ACC"分別顯示了標(biāo)準(zhǔn)訓(xùn)練模型和模塊化訓(xùn)練模型在測(cè)試集上的準(zhǔn)確率。對(duì)于基于 Transformer 的模型 ViT 和 DeiT,標(biāo)準(zhǔn)模型和模塊化模型分別實(shí)現(xiàn)了 88.27% 和 87.04% 的準(zhǔn)確率,表明模塊化訓(xùn)練僅損失 1.23 個(gè)百分點(diǎn),說(shuō)明模塊化訓(xùn)練不會(huì)導(dǎo)致分類準(zhǔn)確率的大幅損失。至于神經(jīng)元保留率(NRR),ViT 和 DeiT 模型的平均 NRR 為 11.59%,這意味著在閾值為 0.9 的情況下,模塊化后每個(gè)模塊平均保留 11.59% 的神經(jīng)元。基于 Transformer 模型的內(nèi)聚度為 0.9294,表明一個(gè)模塊使用幾乎相同的神經(jīng)元來(lái)預(yù)測(cè)屬于相應(yīng)類別的樣本。另一方面,基于 Transformer 模型的耦合度為 0.1410,表明不同模塊僅共享少量神經(jīng)元。


此外,如表 3 所示,我們還將 NeMo 與最先進(jìn)的模塊化訓(xùn)練方法 MwT 在 ViT 和 DeiT 模型上進(jìn)行比較。類似于 MwT 中的 CNN 模型在卷積層的輸出通道上應(yīng)用掩碼以表示應(yīng)選擇哪些卷積核并生成模塊,基于 Transformer 的模型可以在線性層的輸出上使用掩碼來(lái)表示應(yīng)選擇哪些神經(jīng)元。基于這些掩碼,我們可以將 MwT 應(yīng)用于基于 Transformer 的模型,并使用掩碼結(jié)構(gòu)化地分解模型。平均而言,MwT 和 NeMo 的模塊化訓(xùn)練模型準(zhǔn)確率分別為 80.03% 和 87.04%。MwT 導(dǎo)致準(zhǔn)確率損失 6.28 個(gè)百分點(diǎn),而 NeMo 僅導(dǎo)致 1.48 個(gè)百分點(diǎn)的準(zhǔn)確率損失。另一方面,在 NRR 方面,NeMo 也優(yōu)于 MwT(11.59% vs 26.37%),降低了 58.10%。總體而言,與 MwT 相比,使用 NeMo 訓(xùn)練的基于 Transformer 的模型表現(xiàn)出更高的內(nèi)聚性和更低的耦合性,同時(shí)具有更高的準(zhǔn)確率和更低的 NRR。



表 4 展示了 ViT 模型在不同分類子任務(wù)上的神經(jīng)元保留率和權(quán)重保留率。例如,在表 4 的左表中,對(duì)于一個(gè) 2 類 CIFAR10 分類子任務(wù),來(lái)自 NeMo 的相應(yīng) ViT-CIFAR10 模塊僅使用模型 18.80% 的神經(jīng)元,而來(lái)自 MwT 的相同模塊則擁有模型 44.48% 的神經(jīng)元。平均而言,與 MwT 相比,NeMo 的整體神經(jīng)元保留率降低了 43.68%(43.61% vs 77.34%,簡(jiǎn)單計(jì)算所有模塊的平均值),顯著減少了模塊大小和操作開(kāi)銷。值得注意的是,我們研究中采用的 ViT 和 DeiT 模型由 12 個(gè)編碼器組成。為了確保模塊的準(zhǔn)確率,我們保留了完整的第一個(gè)編碼器,并分解了后續(xù)的 11 個(gè)編碼器。因此,所有 NRR 值表示后 11 個(gè)編碼器中的神經(jīng)元保留率。為了更準(zhǔn)確地評(píng)估模塊保留的參數(shù)數(shù)量,我們使用 WRR 來(lái)量化所有 12 個(gè)編碼器的權(quán)重保留率。在表 4 的右表中,我們考慮了 ViT 和 DeiT 模型中的所有編碼器,并計(jì)算了權(quán)重保留率。對(duì)于這些模型,與神經(jīng)元保留率相比,權(quán)重保留率更直接地反映了參數(shù)的情況。平均而言,來(lái)自 NeMo 的模塊僅保留了原始模型 33.14% 的權(quán)重,比來(lái)自 MwT 的模塊(擁有模型 65.06% 的權(quán)重)降低了 49.06%。對(duì)于每個(gè)子任務(wù),與 MwT 相比,NeMo 能夠生成更小的模塊。


我們?cè)诒?5 中進(jìn)一步比較了 NeMo 與 MwT 在按需模型復(fù)用準(zhǔn)確率方面的表現(xiàn)。表中的"loss"行表示與 MwT 相比,NeMo 損失準(zhǔn)確率的程度。正值表示 NeMo 的準(zhǔn)確率低于 MwT,而負(fù)值表示 NeMo 的準(zhǔn)確率高于 MwT。本質(zhì)上,在所有模型和子任務(wù)中,NeMo 保持了與 MwT 相同的準(zhǔn)確率??紤]到 NeMo 為所有子任務(wù)生成的模塊保留的神經(jīng)元數(shù)量幾乎是 MwT 的一半,NeMo 在準(zhǔn)確率方面的表現(xiàn)值得稱贊。


為了評(píng)估 NeMo 在簡(jiǎn)化按需模型復(fù)用方面的程度,我們測(cè)量了所有模塊在目標(biāo)任務(wù)上的 FLOPs(M),并在表 6 中將 NeMo 的結(jié)果與 MwT 和標(biāo)準(zhǔn)訓(xùn)練模型進(jìn)行了比較。模型名稱行中的值表示直接復(fù)用時(shí)標(biāo)準(zhǔn)訓(xùn)練模型的 FLOPs。我們的實(shí)驗(yàn)表明,NeMo 顯著簡(jiǎn)化了按需模型復(fù)用,將 FLOPs 降低了高達(dá) 82.99%。與 MwT 相比,NeMo 在簡(jiǎn)化按需復(fù)用方面也顯示出實(shí)質(zhì)性改進(jìn),F(xiàn)LOPs 降低了高達(dá) 66.73%。



4.2.3 RQ3 - 與 MwT 在 CNN 上的比較。 為了評(píng)估 NeMo 的通用性,我們?cè)谒膫€(gè) CNN 模型上對(duì) NeMo 和 MwT 進(jìn)行了全面的比較分析。此次評(píng)估主要有兩個(gè)目的:(1) 證明對(duì)比學(xué)習(xí)在優(yōu)化內(nèi)聚性和耦合性損失方面的有效性。(2) 確立 NeMo 的有效性擴(kuò)展到基于 Transformer 的架構(gòu)之外,顯示其在不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上的通用性。為了確保公平比較,我們使用了與原始 MwT 研究相同的四個(gè) CNN 模型。所有 MwT 數(shù)據(jù)直接來(lái)源于原始論文或其源代碼。這種方法保證了模型架構(gòu)和數(shù)據(jù)的一致性,使得能夠在各種 CNN 模型上對(duì) NeMo 相對(duì)于 MwT 的性能進(jìn)行無(wú)偏評(píng)估。具體來(lái)說(shuō),我們?cè)u(píng)估了 NeMo 在模塊化訓(xùn)練和按需復(fù)用方面的有效性。

模塊化訓(xùn)練。 為了評(píng)估 NeMo 在訓(xùn)練 CNN 模型方面的有效性,我們將神經(jīng)元標(biāo)識(shí)符替換為相關(guān)核識(shí)別 [41],使用卷積核掩碼計(jì)算內(nèi)聚性和耦合性,以使 NeMo 適用。我們?cè)u(píng)估 (1) 模塊化模型的分類準(zhǔn)確率,(2) 四個(gè) CNN 模型的核保留率 (KRR),以及 (3) 訓(xùn)練模塊的內(nèi)聚性和耦合性。表 7 顯示了 CNN 模型上標(biāo)準(zhǔn)訓(xùn)練、模塊化訓(xùn)練和模塊化的結(jié)果。""列指示不同 CNN 模型的卷積核數(shù)量。"Standard Model ACC"和"Modular Model ACC"分別顯示標(biāo)準(zhǔn)訓(xùn)練模型和模塊化訓(xùn)練模型在測(cè)試集上的準(zhǔn)確率。標(biāo)準(zhǔn)模型和模塊化模型分別實(shí)現(xiàn)了 93.50% 和 92.59% 的準(zhǔn)確率,模塊化訓(xùn)練的平均準(zhǔn)確率損失為 0.91 個(gè)百分點(diǎn),表明 NeMo 的模塊化訓(xùn)練過(guò)程不會(huì)導(dǎo)致分類準(zhǔn)確率的大幅損失。在表 8 中,我們將 NeMo 與 MwT 進(jìn)行比較。MwT 和 NeMo 的模塊化訓(xùn)練模型準(zhǔn)確率分別為 92.41% 和 92.59%,表明 NeMo 實(shí)現(xiàn)了 0.18 個(gè)百分點(diǎn)的提升。此外,在 KRR 方面,NeMo 相比 MwT 取得了不錯(cuò)的性能增益(17.55% vs 12.80%),提升了 27.07%。關(guān)于內(nèi)聚性和耦合性,我們采用 MwT 評(píng)估算法并評(píng)估了使用 NeMo 訓(xùn)練的模型的內(nèi)聚性和耦合性。NeMo 在內(nèi)聚性上達(dá)到 0.9710,耦合性上達(dá)到 0.1950,而 MwT 分別為 0.9518 和 0.2302??傮w而言,與 MwT 相比,使用 NeMo 訓(xùn)練的模型表現(xiàn)出更高的內(nèi)聚性和更低的耦合性,同時(shí)具有更高的準(zhǔn)確率和更低的 NRR/KRR。



表 9 從核保留率(KRR)方面比較了 NeMo 與 MwT 在復(fù)用 CNN 模型時(shí)的表現(xiàn)。平均而言,NeMo 顯著降低了模塊中的 KRR。對(duì)于每個(gè)子任務(wù),與 MwT 相比,NeMo 能夠生成更小的模塊。我們?cè)诒?10 中進(jìn)一步比較了按需復(fù)用的準(zhǔn)確率。平均而言,NeMo 保持了與 MwT 相當(dāng)?shù)男阅?,在有效性方面表現(xiàn)出最小甚至沒(méi)有退化。值得注意的是,NeMo 生成的模塊明顯小于 MwT 生成的模塊。鑒于模塊大小的顯著減少和具有競(jìng)爭(zhēng)力的性能,我們可以得出結(jié)論:與 MwT 相比,NeMo 在 CNN 模型的按需復(fù)用方面表現(xiàn)出更優(yōu)越的有效性。這種在不犧牲性能的情況下效率的提升,凸顯了 NeMo 在推進(jìn)深度學(xué)習(xí)應(yīng)用中模塊化方法的潛力。


表 11 評(píng)估了 NeMo 和 MwT 實(shí)現(xiàn)的計(jì)算開(kāi)銷減少。模型名稱行中的數(shù)字表示直接復(fù)用標(biāo)準(zhǔn)訓(xùn)練模型時(shí)的 FLOPs(M) 數(shù)量。我們的實(shí)驗(yàn)表明,NeMo 顯著簡(jiǎn)化了 CNN 模型的按需復(fù)用,將 FLOPs 降低了高達(dá) 80.29%。與 MwT 相比,NeMo 在減少 FLOPs 方面也表現(xiàn)出改進(jìn),將計(jì)算成本降低了高達(dá) 25.46%。


4.2.4 RQ4 - 超參數(shù)的影響。 最后,我們研究了訓(xùn)練過(guò)程中超參數(shù) α α(對(duì)比損失的加權(quán)因子)的影響。此外,我們還討論了 τ τ,即對(duì)比損失中的溫度參數(shù)。由于模型架構(gòu)的多樣性,我們僅展示了 VGG16 模型在 CIFAR-10 上的訓(xùn)練過(guò)程。更多實(shí)驗(yàn)結(jié)果和訓(xùn)練細(xì)節(jié)可在項(xiàng)目網(wǎng)頁(yè) [2] 上找到。

我們觀察到 α α 直接影響模塊化訓(xùn)練過(guò)程。圖 6 展示了模塊化訓(xùn)練過(guò)程中的準(zhǔn)確率、耦合度、內(nèi)聚度和 KRR,其中 α α 值分別設(shè)置為 1.0、1.2、1.4、1.6 和 1.8,批量大小保持一致為 128。經(jīng)過(guò) 200 個(gè)輪次的訓(xùn)練后,可以明顯看出,隨著 α α 的增加,模型準(zhǔn)確率逐漸下降,但 KRR 也顯著降低。在合理范圍內(nèi),適度增加 α α 不會(huì)導(dǎo)致大幅的準(zhǔn)確率損失,但可以顯著降低 KRR。然而,過(guò)大的 α α 值會(huì)使模型難以擬合,并導(dǎo)致不可接受的準(zhǔn)確率損失。




4.2.5 RQ5 - NeMo 的可擴(kuò)展性。 與之前的工作 MwT 相比,NeMo 提供了神經(jīng)元級(jí)別的識(shí)別和模塊化方法。然而,對(duì)于大多數(shù)模型,神經(jīng)元的數(shù)量通常遠(yuǎn)大于具有可比參數(shù)數(shù)量的 CNN 模型中的卷積核數(shù)量。例如,在我們的實(shí)驗(yàn)中,CNN 模型平均有 4,160 個(gè)卷積核,而 ViT-small 模型包含超過(guò) 40,000 個(gè)神經(jīng)元。這個(gè)數(shù)量直接影響我們優(yōu)化目標(biāo)的數(shù)量。由于神經(jīng)元存在于所有神經(jīng)網(wǎng)絡(luò)模型中,NeMo 將在未來(lái)工作中擴(kuò)展到更多模型架構(gòu),這就要求我們的損失函數(shù)在面對(duì)更大優(yōu)化目標(biāo)時(shí)保持有效性。我們基于對(duì)比學(xué)習(xí)以及指標(biāo)內(nèi)聚性和耦合性重新設(shè)計(jì)了模塊化訓(xùn)練損失函數(shù)。為了評(píng)估這個(gè)新?lián)p失函數(shù)的有效性,我們選擇了三個(gè)具有不同神經(jīng)元數(shù)量的 ViT 模型,并通過(guò)僅改變損失函數(shù)來(lái)評(píng)估性能。

如表 12 所示,隨著 ViT 模型中神經(jīng)元數(shù)量的增加,MwT 在平衡神經(jīng)元保留率 (NRR) 和準(zhǔn)確率 (ACC) 損失方面比 NeMo 困難得多。MwT 要么遭受過(guò)度的準(zhǔn)確率下降 (-1.39),要么保留多幾倍的神經(jīng)元 (+25.33) 以保持可接受的準(zhǔn)確率。鑒于 ACC 和 NRR 代表了一個(gè)明確的權(quán)衡,我們的實(shí)驗(yàn)表明,MwT 在具有更多優(yōu)化目標(biāo)的場(chǎng)景中表現(xiàn)不佳,通常導(dǎo)致更差的準(zhǔn)確率。


4.3 案例研究

NeMo 的一個(gè)潛在應(yīng)用是使模型共享平臺(tái)能夠提供按需模型復(fù)用 [3]。不同于僅支持整個(gè)模型復(fù)用的現(xiàn)有模型共享平臺(tái)(例如 HuggingFace),配備按需模型復(fù)用功能的平臺(tái)允許開(kāi)發(fā)者僅復(fù)用相關(guān)的模塊。這種方法類似于軟件工程中的實(shí)踐,其中細(xì)粒度模塊化可以減少用戶面臨的復(fù)用開(kāi)銷。最近的一項(xiàng)工作,ModelFoundry [3],已經(jīng)探索了這一場(chǎng)景。ModelFoundry 建立了一個(gè)模塊化和組合系統(tǒng),集成了幾種模塊化算法 [38, 40] 將模型分解為功能模塊。它維護(hù)了一個(gè)這些模塊的倉(cāng)庫(kù),具有搜索和成本估算能力以用于按需復(fù)用。目前,由于模塊化算法的限制,ModelFoundry 僅支持復(fù)用 CNN 模型。NeMo 可以進(jìn)一步擴(kuò)展該系統(tǒng)以支持 Transformer 模型的按需復(fù)用。

4.3.1 在視覺(jué)相關(guān)任務(wù)中的應(yīng)用。 具體來(lái)說(shuō),在典型的開(kāi)發(fā)場(chǎng)景中,開(kāi)發(fā)者經(jīng)常復(fù)用整個(gè)預(yù)訓(xùn)練模型,即使只需要其功能的一個(gè)子集 [13, 46, 68]。例如,Rock-Paper-Scissors [13] 項(xiàng)目復(fù)用在 ImageNet 上預(yù)訓(xùn)練的 ViT 模型,并在包含“石頭”、“布”和“剪刀”圖像的三類分類數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。盡管下游任務(wù)僅包含三個(gè)類別,該項(xiàng)目復(fù)用了整個(gè) ViT 模型,其中包含大量對(duì)應(yīng)于不相關(guān)類別的冗余權(quán)重,產(chǎn)生了額外的復(fù)用開(kāi)銷。NeMo 可以通過(guò)使用模塊化訓(xùn)練預(yù)訓(xùn)練模型來(lái)緩解這個(gè)問(wèn)題。因此,該項(xiàng)目可以僅復(fù)用相關(guān)模塊,例如識(shí)別手部相關(guān)圖像的模塊,并在石頭 - 剪刀 - 布數(shù)據(jù)集上微調(diào)該模塊,從而產(chǎn)生一個(gè)小得多的模型,具有更低的推理開(kāi)銷。

我們?cè)诖税咐袑?shí)驗(yàn)性地評(píng)估 NeMo,展示 NeMo 在實(shí)際場(chǎng)景中的有效性。由于 ViT 模型在 ImageNet 數(shù)據(jù)集上的巨大訓(xùn)練開(kāi)銷(幾天或幾周),我們構(gòu)建了一個(gè)小型數(shù)據(jù)集用于模塊化訓(xùn)練,包括來(lái)自 CIFAR-10 的 5000 張飛機(jī)和 5000 張汽車圖像,以及來(lái)自 Sign Language MNIST [54] 的 7500 張手部圖像。我們使用 NeMo 在我們構(gòu)建的數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè) ViT-small 模型,并在 Rock-Paper-Scissors 數(shù)據(jù)集 [13] 上微調(diào)對(duì)應(yīng)于“手”類別的模塊。為了公平比較,我們使用標(biāo)準(zhǔn)訓(xùn)練方法預(yù)訓(xùn)練一個(gè) ViT-small 模型,并在 Rock-Paper-Scissors 數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。表 13 展示了準(zhǔn)確率和 NRR 方面的結(jié)果。與復(fù)用整個(gè)模型相比,復(fù)用模塊可以實(shí)現(xiàn)相當(dāng)?shù)臏?zhǔn)確率,同時(shí)僅保留 47.6% 的神經(jīng)元。62.54% 的 FLOPs 減少也表明推理開(kāi)銷更低。

4.3.2 在文本相關(guān)任務(wù)中的應(yīng)用。 我們也在文本相關(guān)任務(wù)上評(píng)估 NeMo,特別是那些與軟件工程相關(guān)的任務(wù)。例如,考慮復(fù)用預(yù)訓(xùn)練的 CodeBERT [11] 模型進(jìn)行代碼克隆檢測(cè)的典型場(chǎng)景。CodeBERT [11] 在覆蓋六種編程語(yǔ)言(Go, Java, JavaScript, PHP, Python, Ruby)的 CodeSearchNet [12] 數(shù)據(jù)集上預(yù)訓(xùn)練。假設(shè)用戶的任務(wù)涉及僅在 Java 程序中檢測(cè)代碼克隆。傳統(tǒng)上,用戶必須復(fù)用整個(gè) CodeBERT 模型,即使只有其 Java 知識(shí)是相關(guān)的。相比之下,使用 NeMo,開(kāi)發(fā)者可以以模塊化方式預(yù)訓(xùn)練 CodeBERT 并共享單個(gè)模塊,每個(gè)模塊專門針對(duì)特定的編程語(yǔ)言。然后用戶可以僅復(fù)用 Java 模塊進(jìn)行克隆檢測(cè)任務(wù)。該模塊明顯小于整個(gè)模型,導(dǎo)致推理成本大幅降低。

我們?cè)诖藞?chǎng)景中實(shí)驗(yàn)性地評(píng)估 NeMo 的實(shí)用性。具體來(lái)說(shuō),基于預(yù)訓(xùn)練的 CodeBERT 模型,我們使用 NeMo 在 CodeSearchNet 數(shù)據(jù)集上執(zhí)行模塊化訓(xùn)練三個(gè)輪次,產(chǎn)生六個(gè)特定于語(yǔ)言的模塊,平均神經(jīng)元保留率為 39.23%。然后我們復(fù)用 Java 模塊,并在 BigCloneBench [49] 上對(duì)其進(jìn)行微調(diào),這是一個(gè)僅由 Java 代碼組成的克隆檢測(cè)數(shù)據(jù)集。微調(diào)后的模塊在測(cè)試集上達(dá)到 96.55% 的準(zhǔn)確率。與復(fù)用整個(gè)預(yù)訓(xùn)練 CodeBERT 模型(達(dá)到 98.57% 準(zhǔn)確率)相比,復(fù)用 Java 模塊實(shí)現(xiàn)了相當(dāng)?shù)男阅?,同時(shí)僅保留 43.58% 的神經(jīng)元。這證明了 NeMo 在不犧牲性能的情況下顯著降低推理成本的有效性。

5 討論

5.1 NeMo 的通用性

鑒于深度學(xué)習(xí)的快速發(fā)展和多樣 DNN 模型的出現(xiàn),DNN 模塊化方法的通用性很重要。我們認(rèn)為 NeMo 可以從兩個(gè)角度泛化到多種 DNN 模型:(1) 模型架構(gòu):NeMo 在神經(jīng)元級(jí)別執(zhí)行模塊化訓(xùn)練,神經(jīng)元是所有 DNN 模型架構(gòu)中的基本組件。這使得 NeMo 適用于廣泛的神經(jīng)網(wǎng)絡(luò)模型。此外,NeMo 提供了神經(jīng)元級(jí)別的結(jié)構(gòu)化分解方法,從權(quán)重矩陣中移除不相關(guān)的權(quán)重,支持各種 DNN 模型(例如,CNN、FCNN、RNN 和基于 Transformer 的模型)的靈活和按需復(fù)用。(2) 模型規(guī)模:NeMo 引入了一種基于對(duì)比學(xué)習(xí)的新型模塊化訓(xùn)練損失,確保其在更大規(guī)模模型中的有效性和效率。隨著模型復(fù)雜性增加,可訓(xùn)練參數(shù)從大約 4,000 個(gè)卷積核擴(kuò)展到超過(guò) 40,000 個(gè)神經(jīng)元——在這個(gè)規(guī)模上,現(xiàn)有方法如 MwT [41] 難以維持訓(xùn)練和模塊化性能。通過(guò)結(jié)合對(duì)比學(xué)習(xí)優(yōu)化,NeMo 在基于 Transformer 的模型上實(shí)現(xiàn)了卓越的性能,有效地解決了大規(guī)模 DNN 模型模塊化中的可擴(kuò)展性挑戰(zhàn)。

為了評(píng)估 NeMo 的通用性,我們將其應(yīng)用于物體檢測(cè)任務(wù)。待模塊化的模型是 Detection Transformer 模型 (DETR) [4],它具有 ResNet50 骨干網(wǎng)絡(luò)和 12 層 transformer 編碼器 - 解碼器組件。多物體檢測(cè)任務(wù)是一個(gè)實(shí)際但復(fù)雜的任務(wù),由于同時(shí)預(yù)測(cè)各種目標(biāo)和邊界框,對(duì) NeMo 提出了挑戰(zhàn)。為了簡(jiǎn)化實(shí)現(xiàn),我們使用了遙感數(shù)據(jù)集 RSOD(976 張圖像,包含 6,950 個(gè)物體)[28],具有四個(gè)獨(dú)占類別:飛機(jī)、操場(chǎng)、立交橋和油箱。特別是,每張圖像包含多個(gè)僅屬于單一類別的物體實(shí)例。解碼器組件有一個(gè)分類頭和一個(gè)框頭。對(duì)于每次前向傳播,它有 100 個(gè)序列查詢輸入用于分類和框結(jié)果。在解碼器組件中應(yīng)用模塊化會(huì)導(dǎo)致這些結(jié)果的顯著損失。此外,100 個(gè)查詢對(duì)于我們的任務(wù)來(lái)說(shuō)太多了,每個(gè)圖像最多有 20 個(gè)物體,導(dǎo)致模塊化訓(xùn)練過(guò)程中的額外計(jì)算強(qiáng)度。我們將其設(shè)置為 20,并選擇性地模塊化編碼器組件。對(duì)于評(píng)估指標(biāo),我們采用 mAP@50 來(lái)量化檢測(cè)精度,同時(shí)通過(guò)神經(jīng)組件的內(nèi)聚 - 耦合分析來(lái)評(píng)估模塊化質(zhì)量。

模塊化 DETR 模型實(shí)現(xiàn)了 44.9% 的 mAP,表明與標(biāo)準(zhǔn)訓(xùn)練實(shí)現(xiàn)的 46.6% 相比,性能損失僅為 1.7%。此外,高模塊間內(nèi)聚性 (0.9990) 表明對(duì)于同類物體,它使用同一組神經(jīng)元。降低的耦合性 (0.7801) 表明對(duì)于不同類別的物體檢測(cè),它使用一些不同的神經(jīng)元。結(jié)果表明 NeMo 可能適用于物體檢測(cè)任務(wù)。

我們還觀察到,與分類任務(wù)相比,物體檢測(cè)任務(wù)在耦合性方面的模塊化性能有所下降。限制 NeMo 在基于 DETR 的物體檢測(cè)中模塊化效能的主要因素包括:1) RSOD 數(shù)據(jù)集的有限規(guī)模(976 張圖像)和分辨率證明不足以進(jìn)行全面的特征學(xué)習(xí);2) 遙感物體的固有復(fù)雜性甚至挑戰(zhàn)了標(biāo)準(zhǔn)訓(xùn)練范式(基線 mAP=46.6%);3) 邊界框定位需要密集的上下文語(yǔ)義處理。觀察到的高耦合性(0.78)可能揭示了物體檢測(cè)的固有特征在圖像之間存在糾纏。

5.2 對(duì)有效性的威脅

5.2.1 外部有效性。 雖然我們主張 NeMo 可泛化到各種 DNN 模型,但由于巨大的時(shí)間和計(jì)算成本,在所有 DNN 模型上評(píng)估它是不現(xiàn)實(shí)的。為了減輕對(duì)通用性的潛在威脅,我們廣泛的實(shí)驗(yàn)使用了兩類主流 DNN 模型,包括兩個(gè)基于 Transformer 的模型和四個(gè)基于 CNN 的模型。此外,如同現(xiàn)有工作 [30, 31, 38, 41] 一樣,我們?cè)谟?jì)算機(jī)視覺(jué)任務(wù)上評(píng)估 NeMo。NeMo 在語(yǔ)言模型上的有效性,特別是像 CodeBERT 這樣的基于 Transformer 的模型,仍有待調(diào)查。鑒于 NeMo 支持基于 Transformer 的視覺(jué)模型的模塊化,它也可能適用于語(yǔ)言模型。我們將這些調(diào)查留待未來(lái)工作。

5.2.2 內(nèi)部有效性。 對(duì)內(nèi)部有效性的一個(gè)威脅可能來(lái)自對(duì)象選擇偏差。為了減少這種威脅,我們使用 CIFAR-10 和 SVHN 數(shù)據(jù)集,來(lái)自 PyTorch [35] 的 VGG16 和 ResNet18 模型,以及來(lái)自 HuggingFace [62] 的 ViT 和 DeiT 模型,這些都是組織良好且廣泛使用的。此外,為了減輕來(lái)自深度學(xué)習(xí)模型隨機(jī)性的威脅,我們使用不同的隨機(jī)種子在 SVHN 上重復(fù)了 ViT_s 模型訓(xùn)練實(shí)驗(yàn) 10 次。這些實(shí)驗(yàn)之間準(zhǔn)確率、NRR、內(nèi)聚性和耦合性的結(jié)果標(biāo)準(zhǔn)差分別為 0.005、0.0112、0.0047 和 0.0181,表明 NeMo 的性能是穩(wěn)定且一致的。

5.2.3 構(gòu)造有效性。 構(gòu)造有效性指的是我們使用的評(píng)估指標(biāo)。DNN 模塊化的內(nèi)聚性和耦合性指標(biāo)是在 MwT [41] 中提出的,并已被證明在評(píng)估 DNN 模塊化方法的模塊化性能方面是有效的。

5.3 局限性與未來(lái)工作

5.3.1 生成模型。 盡管 NeMo 的架構(gòu)表現(xiàn)出與各種模型的兼容性,但其在許多其他任務(wù)上的應(yīng)用仍然極具挑戰(zhàn)性。對(duì)于諸如 GPT 之類的生成模型,序列是通過(guò)自回歸輸出機(jī)制產(chǎn)生的,神經(jīng)元標(biāo)識(shí)符需要確定整個(gè)序列中每個(gè)令牌的激活神經(jīng)元。因此,這一過(guò)程產(chǎn)生的計(jì)算開(kāi)銷是分類模型的數(shù)倍。對(duì)于其他類型的模型,如檢測(cè)、分割和強(qiáng)化學(xué)習(xí)模型,NeMo 仍然存在局限性。固有的復(fù)雜性源于大多數(shù)任務(wù)缺乏明確定義的類別邊界,且神經(jīng)單元表現(xiàn)出緊密的功能依賴關(guān)系——嘗試模塊化分解往往會(huì)導(dǎo)致難以承受的性能下降。即使是像物體檢測(cè)這樣的任務(wù),其中邊界框注釋表面上在定義的類別內(nèi)操作,但對(duì)全局上下文理解的關(guān)鍵依賴從根本上挑戰(zhàn)了 NeMo?;谶@些挑戰(zhàn),我們正在進(jìn)行的研究?jī)?yōu)先考慮開(kāi)發(fā)與標(biāo)簽無(wú)關(guān)的模塊化框架,特別強(qiáng)調(diào)其對(duì)生成架構(gòu)和其他主流模型的適用性。

5.3.2 模塊化訓(xùn)練開(kāi)銷。 神經(jīng)元標(biāo)識(shí)符的集成在模塊化訓(xùn)練中引入了可衡量的計(jì)算開(kāi)銷,通常在 30% 到 70% 之間,具體取決于模型架構(gòu)和硬件配置。實(shí)證評(píng)估揭示了具體表現(xiàn):對(duì)于 CIFAR-10 上基于 ViT 的 10 類分類,標(biāo)準(zhǔn)訓(xùn)練大約在 5 小時(shí)內(nèi)完成,而模塊化訓(xùn)練需要 7 小時(shí)(額外 40% 的訓(xùn)練時(shí)間)。這一額外的訓(xùn)練時(shí)間與 MwT 實(shí)現(xiàn)中的觀察結(jié)果一致,證明了不同框架間開(kāi)銷模式的一致性。雖然由于模型架構(gòu)不同,NeMo 和 MwT 之間的直接跨架構(gòu)比較證明具有挑戰(zhàn)性,但它們的相對(duì)開(kāi)銷比率幾乎相同。值得注意的是,當(dāng)在同一模型上比較 NeMo 和 MwT 之間的損失函數(shù)時(shí),NeMo 表現(xiàn)出更快的收斂速度,需要更少的訓(xùn)練輪次,突出了其固有的優(yōu)化優(yōu)勢(shì)。

考慮到額外的訓(xùn)練開(kāi)銷,NeMo 適用于第 4.3 節(jié)討論的場(chǎng)景,即訓(xùn)練好的模型將被廣泛復(fù)用,并且下游任務(wù)需要特定功能。在這種情況下,NeMo 可以通過(guò)選擇性神經(jīng)元復(fù)用減少 FLOPs 數(shù)量,消除冗余神經(jīng)元,從而降低計(jì)算成本。

5.3.3 大規(guī)模數(shù)據(jù)集。 實(shí)證觀察揭示了將 NeMo 應(yīng)用于具有大規(guī)模數(shù)據(jù)集的 ViT 架構(gòu)時(shí)的一些挑戰(zhàn)。雖然研究人員試圖通過(guò)使用更大的數(shù)據(jù)集來(lái)提高 ViT 的準(zhǔn)確率,但我們嘗試將訓(xùn)練擴(kuò)展到 ImagenNet 數(shù)據(jù)集(1000 類)暴露了兩個(gè)基本約束:(1) 使用 NeMo 在大數(shù)據(jù)集上訓(xùn)練 ViT 總是需要幾天或幾周,以及 (2) 隨著類別數(shù)量的增加,出現(xiàn)性能下降,這是因?yàn)?,在每個(gè)類別中,可分配的神經(jīng)元更少。目前涉及耦合權(quán)重松弛和自適應(yīng)正則化的緩解策略僅實(shí)現(xiàn)了部分補(bǔ)救。我們未來(lái)的工作將專注于各種模型中的上述問(wèn)題,包括判別模型和生成模型。

6 相關(guān)工作

傳統(tǒng)軟件系統(tǒng)的功能是模塊化的,使其更易于維護(hù)和進(jìn)一步開(kāi)發(fā)。類似地,從軟件系統(tǒng)的角度來(lái)看,DNN 模型可以被視為一個(gè)以數(shù)據(jù)驅(qū)動(dòng)方式構(gòu)建并配備各種功能的"復(fù)雜系統(tǒng)"。DNN 模塊化旨在將這樣一個(gè)具有其功能的"復(fù)雜系統(tǒng)"分解為一組子功能,從而促進(jìn) DNN 模型的維護(hù)和開(kāi)發(fā)。為此,軟件工程社區(qū)一直在探索兩個(gè)主要方向:訓(xùn)練后模塊化和訓(xùn)練中模塊化技術(shù)。

6.1 訓(xùn)練后模塊化

訓(xùn)練后模塊化方法側(cè)重于通過(guò)識(shí)別負(fù)責(zé)相應(yīng)類別的權(quán)重組來(lái)分解訓(xùn)練良好的 DNN 模型 [30, 31, 37, 38, 40, 64, 65]。具體來(lái)說(shuō),Pan 等人開(kāi)創(chuàng)了 DNN 模塊化 [30],將多類分類全連接神經(jīng)網(wǎng)絡(luò)(FCNN)模型分解為模塊,每個(gè)模塊識(shí)別單個(gè)類別。該方法基于神經(jīng)元激活確定權(quán)重與特定類別的相關(guān)性,并將不相關(guān)的權(quán)重設(shè)為零,從而產(chǎn)生具有單一功能但大小與模型相同的模塊。他們隨后的工作將基于神經(jīng)元激活的思想擴(kuò)展到 CNN [31] 和 LSTM [20] 的模塊化。由于這些方法在單個(gè)權(quán)重級(jí)別衡量相關(guān)性,并且不物理移除不相關(guān)的權(quán)重,我們將它們歸類為非結(jié)構(gòu)化模塊化。相比之下,Qi 等人首次為 CNN 模型提出了結(jié)構(gòu)化模塊化方法,包括 CNNSplitter [37] 和 GradSplitter [40]。這些方法通過(guò)搜索相關(guān)卷積核(CNN 中的特殊結(jié)構(gòu)組件)并物理移除不相關(guān)的核來(lái)分解訓(xùn)練好的 CNN 模型,從而產(chǎn)生更小的模塊。然而,由于模型未針對(duì)模塊化進(jìn)行顯式訓(xùn)練,模型權(quán)重之間的相互依賴性和權(quán)重之間的高耦合性顯著限制了訓(xùn)練后模塊化技術(shù)的效率和有效性 [41]。

6.2 訓(xùn)練中模塊化

為了解決上述局限性,Qi 等人提出了一種新的 DNN 模塊化范式,訓(xùn)練中模塊化(MwT)[41]。MwT 旨在在訓(xùn)練階段識(shí)別和優(yōu)化 CNN 中針對(duì)不同功能的卷積核。它為 DNN 模塊化引入了高內(nèi)聚性和低耦合性的概念,并整合設(shè)計(jì)的內(nèi)聚性和耦合性損失以在整個(gè)訓(xùn)練過(guò)程中優(yōu)化這些屬性。通過(guò)將模塊化集成到訓(xùn)練階段,MwT 在效率(即模塊化的時(shí)間成本)和有效性(即模塊分類性能和大小)方面都實(shí)現(xiàn)了顯著改進(jìn)。然而,MwT 僅針對(duì) CNN 模型實(shí)現(xiàn),無(wú)法直接應(yīng)用于像 ViT 這樣的基于 Transformer 的架構(gòu)。鑒于基于 Transformer 模型的廣泛成功,我們提出了 NeMo,它通過(guò)將魯棒的模塊化能力擴(kuò)展到基于 Transformer 的模型,有效地解決了這一挑戰(zhàn)。

7 結(jié)論

在這項(xiàng)工作中,為了克服視覺(jué)變壓器模型模塊化訓(xùn)練和分解的困難,我們提出了一種新穎的神經(jīng)元級(jí)訓(xùn)練中模塊化框架 NeMo,它實(shí)現(xiàn)了基于 Transformer 模型的模塊化訓(xùn)練和結(jié)構(gòu)化模塊化,并且可以輕松擴(kuò)展到各種 DNN 模型。此外,我們基于對(duì)比學(xué)習(xí)方法優(yōu)化了內(nèi)聚性和耦合性損失的計(jì)算,在提高模型準(zhǔn)確率的同時(shí)顯著降低了卷積核和神經(jīng)元保留率。按需復(fù)用實(shí)驗(yàn)表明,我們的方法在基于 Transformer 和 CNN 模型的按需復(fù)用任務(wù)中都取得了更好的結(jié)果。此外,基于對(duì)比學(xué)習(xí)方法的改進(jìn)使得損失函數(shù)僅有一個(gè)可調(diào)超參數(shù),該參數(shù)與準(zhǔn)確率和 NRR/KRR 均呈負(fù)相關(guān)。這使得算法更容易適應(yīng)新模型并實(shí)現(xiàn)更好的性能。

在未來(lái),我們將把 NeMo 擴(kuò)展到更多模型結(jié)構(gòu),并實(shí)現(xiàn)結(jié)構(gòu)化的模型分解。此外,我們將探索更多按需復(fù)用場(chǎng)景,并構(gòu)建更高效的方法以減少模塊化訓(xùn)練的開(kāi)銷。

NeMo 的源代碼和實(shí)驗(yàn)結(jié)果可在 https://github.com/XiaohanBi-Hub/NeMo 獲取。

原文鏈接:https://arxiv.org/pdf/2508.11348

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

財(cái)經(jīng)網(wǎng)
2026-03-26 18:32:12
中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

混沌錄
2026-03-18 23:54:31
告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

阿離家居
2026-03-27 04:34:34
日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

輝哥說(shuō)動(dòng)漫
2026-03-27 07:12:50
廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

珠海消防
2026-03-25 20:08:08
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

橙星文娛
2026-03-26 13:40:27
為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

情感藝術(shù)家
2026-03-08 22:07:38
拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

萌蘭聊個(gè)球
2026-03-26 13:09:33
中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

南權(quán)先生
2026-03-23 15:11:48
徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

林子說(shuō)事
2026-03-27 00:33:44
廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

廈門一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

環(huán)球網(wǎng)資訊
2026-03-26 14:44:08
少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

仰臥撐FTUer
2026-03-27 07:58:03
你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛(ài)雜談
2026-02-21 21:37:02
你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

帶你感受人間冷暖
2026-03-20 00:47:24
蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

生活視覺(jué)攝影
2026-03-26 13:33:29
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

阿龍美食記
2026-03-24 09:50:48
中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光
2026-03-23 20:10:05
美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

勝研集
2026-03-25 00:02:51
國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
2026-03-27 08:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1305文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
親子
本地
公開(kāi)課

手機(jī)要聞

iQOO 15贏、REDMI K90贏,一加是哪個(gè)贏了?

藝術(shù)要聞

江青的書(shū)法秘訣!只練草書(shū)真的能提升書(shū)法水平嗎?

親子要聞

在那聲嘆息里,產(chǎn)后媽媽終于找回了弄丟的自己

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版