国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

邁向可靠的領(lǐng)域泛化:來(lái)自PF2HC基準(zhǔn)與動(dòng)態(tài)評(píng)估的啟示

0
分享至

Towards reliable domain generalization: Insights from the PF2HC benchmark and dynamic evaluations

邁向可靠的領(lǐng)域泛化:來(lái)自 PF2HC 基準(zhǔn)測(cè)試和動(dòng)態(tài)評(píng)估的啟示

https://www.sciencedirect.com/science/article/pii/S0031320324006770



摘要
深度神經(jīng)網(wǎng)絡(luò)(DNNs)容易對(duì)訓(xùn)練集產(chǎn)生偏差,這導(dǎo)致其在分布外數(shù)據(jù)上的性能大幅下降。在領(lǐng)域泛化(DG)的文獻(xiàn)中,許多方法被研究以在各種分布偏移下實(shí)現(xiàn)泛化。為了促進(jìn)實(shí)際的DG研究,我們構(gòu)建了一個(gè)大規(guī)模的非獨(dú)立同分布中文字符數(shù)據(jù)集,稱為PaHCC(印刷和手寫(xiě)中文字符),用于DG方法的真實(shí)應(yīng)用場(chǎng)景(從印刷字體到手寫(xiě)字符的泛化,PF2HC)。我們?cè)谔岢龅腜aHCC數(shù)據(jù)集上評(píng)估了18種DG方法,并證明當(dāng)前算法在該數(shù)據(jù)集上的性能仍然不足。為了提高性能,我們提出了一種基于部首的多標(biāo)簽學(xué)習(xí)方法,通過(guò)將結(jié)構(gòu)學(xué)習(xí)整合到統(tǒng)計(jì)方法中。此外,在動(dòng)態(tài)評(píng)估設(shè)置中,我們發(fā)現(xiàn)了DG方法的額外屬性,并證明許多算法存在性能不穩(wěn)定的問(wèn)題。我們主張DG研究者在未來(lái)的研究中不僅要關(guān)注在固定留一法協(xié)議下的準(zhǔn)確性,還要關(guān)注在可變訓(xùn)練域中的算法穩(wěn)定性。我們的數(shù)據(jù)集、方法和評(píng)估為DG社區(qū)帶來(lái)了寶貴的見(jiàn)解,并可能促進(jìn)現(xiàn)實(shí)和穩(wěn)定算法的發(fā)展。

關(guān)鍵詞:分布偏移、結(jié)構(gòu)學(xué)習(xí)、數(shù)據(jù)集、評(píng)估

1. 引言
深度神經(jīng)網(wǎng)絡(luò)在許多經(jīng)典數(shù)據(jù)集上取得了顯著的性能,但在現(xiàn)實(shí)世界的應(yīng)用中可能會(huì)經(jīng)歷顯著的性能下降。原因之一是數(shù)據(jù)分布偏移。具體來(lái)說(shuō),在開(kāi)放世界中,由于不可預(yù)測(cè)的環(huán)境變化以及數(shù)據(jù)收集過(guò)程中引入的偏差,測(cè)試數(shù)據(jù)的分布通常與訓(xùn)練數(shù)據(jù)的分布不一致。解決訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的分布偏移問(wèn)題,即領(lǐng)域泛化(DG)或分布外泛化(OODG),仍然是一個(gè)開(kāi)放性問(wèn)題。
在過(guò)去十年中,DG社區(qū)的研究者們從不同角度提出了許多方法來(lái)提高模型的泛化能力[1,2]。然而,DomainBed [3]基準(zhǔn)測(cè)試表明,在相同的實(shí)驗(yàn)條件下,測(cè)試的十四種方法中沒(méi)有任何一種同時(shí)超過(guò)了基線模型(ERM,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化[4])。這反映了當(dāng)前算法評(píng)估標(biāo)準(zhǔn)的不足,迫切需要努力發(fā)現(xiàn)潛在問(wèn)題并增強(qiáng)這些標(biāo)準(zhǔn)。此外,目前社區(qū)廣泛使用的數(shù)據(jù)集在實(shí)際部署中的分布偏移代表性不足[5]。現(xiàn)有的基準(zhǔn)測(cè)試通常以明確定義的域變化組織,例如PACS數(shù)據(jù)集中的“照片、卡通、藝術(shù)繪畫(huà)和素描”域。此外,其中大部分只包含少量類別,例如VLCS數(shù)據(jù)集中的五個(gè)對(duì)象。這些基準(zhǔn)測(cè)試作為開(kāi)發(fā)方法和進(jìn)行分析的重要試驗(yàn)場(chǎng)。然而,它們通常無(wú)法描繪出實(shí)際應(yīng)用中遇到的真實(shí)場(chǎng)景,這些場(chǎng)景以復(fù)雜的分布偏移和大量類別為特征。為了促進(jìn)適用于實(shí)際應(yīng)用的DG研究,我們需要補(bǔ)充能夠捕捉真實(shí)世界偏移的數(shù)據(jù)集。

為了促進(jìn)DG研究的實(shí)用性和通用性,我們構(gòu)建了一個(gè)新的非獨(dú)立同分布(Non-I.I.D.)圖像數(shù)據(jù)集,用于中文字符識(shí)別場(chǎng)景,這一領(lǐng)域在之前的基準(zhǔn)研究中尚未涉及[3,5]。與英文字母相比,中文字符具有龐大的詞匯量和復(fù)雜的結(jié)構(gòu)。對(duì)于傳統(tǒng)的手寫(xiě)中文字符識(shí)別任務(wù),需要收集大量的手寫(xiě)數(shù)據(jù)來(lái)訓(xùn)練模型,這需要耗費(fèi)大量的人力和物力資源。此外,由于不同書(shū)寫(xiě)者書(shū)寫(xiě)風(fēng)格的不一致性,不同書(shū)寫(xiě)者之間的泛化問(wèn)題通常被認(rèn)為是之前研究中的一個(gè)問(wèn)題[6,7]。鑒于我們可以利用字體庫(kù)輕松生成大量的合成印刷數(shù)據(jù),如果能夠僅使用合成印刷數(shù)據(jù)訓(xùn)練一個(gè)在不同書(shū)寫(xiě)者的手寫(xiě)字符上表現(xiàn)良好的魯棒識(shí)別模型,這將具有極大的價(jià)值。基于此,我們提出了從印刷字體到手寫(xiě)字符的泛化任務(wù)(PF2HC),并構(gòu)建了一個(gè)名為PaHCC(印刷和手寫(xiě)中文字符)的非獨(dú)立同分布圖像數(shù)據(jù)集,其中包含996478個(gè)樣本和1000個(gè)類別。我們將合成印刷數(shù)據(jù)根據(jù)字體類型劃分為三個(gè)域,并將所有掃描的手寫(xiě)數(shù)據(jù)視為測(cè)試域。
在提出的PaHCC數(shù)據(jù)集上,我們進(jìn)行了廣泛的評(píng)估實(shí)驗(yàn)。通過(guò)測(cè)試DomainBed [3]中包含的多種DG方法,我們表明,所有測(cè)試方法都不可避免地會(huì)學(xué)習(xí)中文字符像素值的統(tǒng)計(jì)信息。在本文中,我們提出通過(guò)整合結(jié)構(gòu)學(xué)習(xí)來(lái)增強(qiáng)模型的泛化能力。具體來(lái)說(shuō),根據(jù)PaHCC數(shù)據(jù)集的特征,我們通過(guò)引入基于部首的多標(biāo)簽學(xué)習(xí)(RBML)為現(xiàn)有方法帶來(lái)了顯著且一致的性能提升。此外,我們通過(guò)改變訓(xùn)練域來(lái)探索現(xiàn)有評(píng)估標(biāo)準(zhǔn)的潛在問(wèn)題。我們?cè)赑aHCC、PACS和DomainNet數(shù)據(jù)集上的動(dòng)態(tài)評(píng)估實(shí)驗(yàn)揭示了許多DG方法存在性能不穩(wěn)定的問(wèn)題,并建議我們除了在常用的留一法協(xié)議下的準(zhǔn)確性外,還應(yīng)更多關(guān)注在可變訓(xùn)練域下的穩(wěn)定性。
總之,我們的貢獻(xiàn)如下:
? 為了補(bǔ)充現(xiàn)有的基準(zhǔn)測(cè)試,用能夠捕捉真實(shí)世界分布偏移的數(shù)據(jù)集,我們構(gòu)建了一個(gè)大規(guī)模的非獨(dú)立同分布中文字符數(shù)據(jù)集,用于實(shí)際的印刷到手寫(xiě)識(shí)別任務(wù)。
? 在PaHCC數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明,現(xiàn)有的DG方法無(wú)法很好地處理這一任務(wù)。提出的RBML方法可以通過(guò)引入結(jié)構(gòu)學(xué)習(xí)來(lái)實(shí)現(xiàn)更好的性能。
? 通過(guò)對(duì)PaHCC、PACS和DomainNet基準(zhǔn)測(cè)試上的十八種DG方法進(jìn)行動(dòng)態(tài)評(píng)估,我們發(fā)現(xiàn)了DG方法的額外屬性,這促使我們除了在留一法協(xié)議下的準(zhǔn)確性外,還應(yīng)更多關(guān)注算法的穩(wěn)定性。
本文的其余部分安排如下。第2節(jié)回顧DG社區(qū)中現(xiàn)有的方法、公共數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)。第3節(jié)介紹所提出的數(shù)據(jù)集。第4節(jié)描述所提出方法的細(xì)節(jié)。第5節(jié)展示實(shí)驗(yàn)結(jié)果,第6節(jié)總結(jié)。

2. 領(lǐng)域泛化
在本節(jié)中,我們對(duì)DG社區(qū)中現(xiàn)有的方法進(jìn)行分類和綜述。在我們的實(shí)驗(yàn)中,我們?cè)u(píng)估并分析了所選的十八種算法。為了全面把握,我們還簡(jiǎn)要介紹在領(lǐng)域泛化研究中常用的公共數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)。

2.1 方法
近年來(lái),研究者們從不同角度提出了大量的領(lǐng)域泛化方法,這些方法大致可以分為三類:數(shù)據(jù)操作、表示學(xué)習(xí)和學(xué)習(xí)策略[2]。
在過(guò)度參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)(DNNs)中,數(shù)據(jù)增強(qiáng)通常被用作數(shù)據(jù)級(jí)正則化,以緩解模型的過(guò)擬合并提高泛化能力。由于其對(duì)數(shù)據(jù)驅(qū)動(dòng)的DNNs性能有顯著影響,許多研究集中在通過(guò)各種數(shù)據(jù)操作豐富訓(xùn)練數(shù)據(jù)的多樣性,以利于領(lǐng)域泛化。早期的工作通過(guò)分類損失的梯度擾動(dòng)輸入樣本[24,25],或借助生成模型合成新的訓(xùn)練樣本[26,27]。最近,由于操作簡(jiǎn)單且計(jì)算成本低,原始數(shù)據(jù)在特征空間中的特征增強(qiáng)[28–30]越來(lái)越受到關(guān)注。此外,一些方法[31,32]通過(guò)在頻域中解耦和混合不同樣本的內(nèi)容和上下文信息,然后將其轉(zhuǎn)換回空間域來(lái)增強(qiáng)數(shù)據(jù)。
表示學(xué)習(xí)主要通過(guò)學(xué)習(xí)領(lǐng)域無(wú)關(guān)的表示來(lái)應(yīng)對(duì)分布偏移。領(lǐng)域?qū)R是一種常見(jiàn)方法,它對(duì)齊源領(lǐng)域的邊緣分布[19,33]或跨源領(lǐng)域的類別條件分布[8,34],并希望在源領(lǐng)域之間學(xué)到的不變性能夠擴(kuò)展到未見(jiàn)的測(cè)試領(lǐng)域。學(xué)習(xí)解耦表示[35,36]也是一種選擇,可以看作是領(lǐng)域?qū)R的放松,允許部分特征是領(lǐng)域特定的,而其他特征是領(lǐng)域無(wú)關(guān)的。此外,一些工作從其他角度提出了理論或?qū)嶒?yàn)觀點(diǎn)。Arjovsky等人[10]不是直接匹配源領(lǐng)域之間的表示分布,而是強(qiáng)制特征空間上的分類器對(duì)所有訓(xùn)練環(huán)境都是最優(yōu)的,即不變風(fēng)險(xiǎn)最小化(IRM)。SagNet[23]通過(guò)調(diào)整模型對(duì)風(fēng)格和內(nèi)容的偏差來(lái)學(xué)習(xí)更具語(yǔ)義相關(guān)性的表示,從而減少領(lǐng)域差距。

除了數(shù)據(jù)操作和表示學(xué)習(xí),許多研究還從模型優(yōu)化的角度考慮領(lǐng)域泛化問(wèn)題。一些方法通過(guò)結(jié)合通用的魯棒機(jī)器學(xué)習(xí)算法來(lái)提高模型的魯棒性,包括元學(xué)習(xí)[37]、集成學(xué)習(xí)[38,39]、對(duì)抗學(xué)習(xí)[8,9]和自監(jiān)督學(xué)習(xí)[14]。此外,一些工作基于直覺(jué)設(shè)計(jì)了正則化策略。RSC[21]通過(guò)掩蓋對(duì)應(yīng)于大梯度的特征組件來(lái)避免學(xué)習(xí)錯(cuò)誤的低級(jí)特征,從而增加模型訓(xùn)練的難度。GroupDRO[13]交錯(cuò)更新模型參數(shù)和每個(gè)組的權(quán)重。在更新模型參數(shù)時(shí),損失更高的組貢獻(xiàn)更大。AND-mask[20]在基于梯度下降的模型訓(xùn)練中,基于不同環(huán)境中梯度符號(hào)的不一致性,將參數(shù)梯度組件置零。
選定的方法。在本文中,我們遵循DOMAINBED基準(zhǔn)測(cè)試[3],并納入了一些近期的工作,包括十八種算法,這些算法是根據(jù)多年來(lái)的影響、已發(fā)布的性能以及包含上述各種DG策略的愿望而選擇的。詳細(xì)列表如表1所示。具體來(lái)說(shuō),Mixup[17]和SagNet[23]涉及數(shù)據(jù)操作,CORAL[22]、DANN[9]、CDANN[8]、MMD[19]、IRM[10]、VREx[12]、IB-ERM[18]、IB-IRM[18]、SelfReg[14]和SagNet[23]與表示學(xué)習(xí)相關(guān)。RSC[21]、GroupDRO[13]、SelfReg[14]、AND-mask[20]、SAND-mask[16]、SD[15]和Fish[11]涉及模型優(yōu)化中的特殊考慮。


2.2 常用數(shù)據(jù)集
這里簡(jiǎn)要介紹DG社區(qū)中常用的六個(gè)公共數(shù)據(jù)集(PACS[40]、VLCS[41]、彩色MNIST[10]、DomainNet[42]和NICO[43])。這些數(shù)據(jù)集通常被人為劃分為幾個(gè)領(lǐng)域,每個(gè)領(lǐng)域內(nèi)的數(shù)據(jù)在視覺(jué)形態(tài)上具有一致性。通常,所有領(lǐng)域共享相同的類別集。
PACS[40]包含7個(gè)類別(狗、大象、長(zhǎng)頸鹿、吉他、馬、房子、人),分布在四個(gè)不同領(lǐng)域(照片、藝術(shù)繪畫(huà)、卡通、素描)中,共有9991張圖像。它是一個(gè)簡(jiǎn)單且平衡的多領(lǐng)域數(shù)據(jù)集。所有圖像的大小均為227×227。圖1給出了一些數(shù)據(jù)集的示例。


Office-Home [44] 包含65個(gè)類別,共有15588張圖像,分為四個(gè)領(lǐng)域(藝術(shù)、剪貼畫(huà)、產(chǎn)品、現(xiàn)實(shí)世界)。特別是,藝術(shù)領(lǐng)域由素描、繪畫(huà)、裝飾等形式的藝術(shù)圖像組成。該數(shù)據(jù)集包含通常出現(xiàn)在辦公和家庭環(huán)境中的對(duì)象,是一個(gè)具有更微妙的領(lǐng)域變化、更多類別以及每個(gè)類別樣本數(shù)量更少的具有挑戰(zhàn)性的數(shù)據(jù)集,與PACS相比,其圖像大小并不統(tǒng)一。圖2給出了該數(shù)據(jù)集不同領(lǐng)域中的一些示例。


VLCS [41] 包含五個(gè)類別,共有10729張圖像。它包括來(lái)自Caltech-101(C)數(shù)據(jù)集的以物體為中心的圖像,以及來(lái)自PASCAL VOC2007(V)、LabelMe(L)和SUN09(S)數(shù)據(jù)集的以場(chǎng)景為中心的圖像,每個(gè)數(shù)據(jù)集都被視為一個(gè)領(lǐng)域。所有圖像的大小均為227×227。圖3給出了一些VLCS數(shù)據(jù)集的示例。


彩色MNIST [10] 是一個(gè)合成的二元分類數(shù)據(jù)集(對(duì)于數(shù)字0-4,預(yù)測(cè)標(biāo)簽 ? = 0;對(duì)于數(shù)字5-9,預(yù)測(cè)標(biāo)簽 ? = 1),源自MNIST [45]。它在訓(xùn)練集中將類別標(biāo)簽與紅色或綠色關(guān)聯(lián)起來(lái),并在測(cè)試集中反轉(zhuǎn)這種相關(guān)性。該數(shù)據(jù)集旨在研究學(xué)習(xí)算法是否能夠避免使用對(duì)泛化有害的虛假相關(guān)特征(在此例中為顏色)進(jìn)行分類。圖4給出了該數(shù)據(jù)集的一些示例。


DomainNet [42] 包含 345 個(gè)類別和 6 個(gè)域(剪貼畫(huà)、信息圖、繪畫(huà)、速繪、真實(shí)圖像、素描)。該數(shù)據(jù)集是一個(gè)大規(guī)模數(shù)據(jù)集,總計(jì)包含 586,575 張圖像。其中,信息圖域內(nèi)圖像尺寸差異顯著,而其他域內(nèi)圖像尺寸差異較小。圖5展示了該數(shù)據(jù)集的一些示例。


NICO [43] 包含來(lái)自動(dòng)物和交通工具兩個(gè)超類的共19個(gè)類別,總計(jì)近25,000張圖像。在每個(gè)類別內(nèi)部,圖像被進(jìn)一步劃分為不同的情境(context),例如“在雪地里”、“在草地上”、“與人相伴”、“行走中”以及“躺臥中”。每種情境被視為一個(gè)域(domain)。圖像尺寸并不統(tǒng)一。圖6展示了該數(shù)據(jù)集的一些示例。


局限性:常用的公開(kāi)數(shù)據(jù)集通常類別數(shù)量較少(如表2所示),這使其難以反映現(xiàn)實(shí)世界中的應(yīng)用需求。當(dāng)數(shù)據(jù)集類別數(shù)量較少時(shí),建模域間差異相對(duì)容易;而類別數(shù)量較大時(shí),域間差異與類內(nèi)差異將共同影響模型性能,因而更能體現(xiàn)不同領(lǐng)域泛化(DG)方法的優(yōu)勢(shì)與不足。此外,公開(kāi)數(shù)據(jù)集中的域偏移(domain shift)往往被清晰界定,而這在現(xiàn)實(shí)場(chǎng)景部署中未必總能成立。例如,許多研究工作探討了由合成變換(如改變MNIST數(shù)字的顏色 [10])或由異構(gòu)數(shù)據(jù)劃分(如在真實(shí)照片、藝術(shù)繪畫(huà)、卡通與素描之間進(jìn)行泛化 [40])所引發(fā)的分布偏移。此類數(shù)據(jù)集為系統(tǒng)性研究提供了關(guān)鍵試驗(yàn)平臺(tái);但為推動(dòng)方法在實(shí)際應(yīng)用中的發(fā)展,我們?nèi)孕柩a(bǔ)充那些能捕捉真實(shí)世界中“野外”(in-the-wild)分布偏移的數(shù)據(jù)集。

2.3 設(shè)置與評(píng)估
領(lǐng)域泛化旨在提升模型對(duì)分布外(out-of-distribution)數(shù)據(jù)的泛化能力。現(xiàn)有領(lǐng)域泛化方法通常采用「留一域交叉驗(yàn)證」(leave-one-domain-out)協(xié)議進(jìn)行評(píng)估:具體而言,對(duì)于一個(gè)包含 n 個(gè)域的數(shù)據(jù)集,選取其中 n ? 1
個(gè)域作為源域(source domains),余下1個(gè)作為測(cè)試域(target domain);如此共可形成 n 種劃分方案。在所有方案下所得的測(cè)試準(zhǔn)確率及其平均值,被用作性能評(píng)估指標(biāo)。表3提供了更直觀的說(shuō)明。


  1. 新數(shù)據(jù)集:PaHCC如前文所述,目前已涌現(xiàn)大量專門(mén)的領(lǐng)域泛化方法,旨在通過(guò)在多個(gè)可用的訓(xùn)練域(通常稱為源域)上訓(xùn)練,提升深度模型在未知域上的泛化能力。然而,研究者通常僅在物體識(shí)別任務(wù)上評(píng)估所提出的領(lǐng)域泛化(DG)方法。常用的基準(zhǔn)數(shù)據(jù)集往往是人為設(shè)計(jì)的,具有清晰的特性且類別數(shù)量較少,而這類設(shè)定在現(xiàn)實(shí)部署中并不總能成立。為實(shí)現(xiàn)更全面的評(píng)估,亟需補(bǔ)充更多能反映現(xiàn)實(shí)世界中自然出現(xiàn)的分布偏移的數(shù)據(jù)集?;谶@一考慮,WILDS [5] 的作者整理了十個(gè)反映現(xiàn)實(shí)應(yīng)用場(chǎng)景中自然分布偏移的數(shù)據(jù)集。然而,中文字符識(shí)別任務(wù)——其分布偏移與上述十項(xiàng)任務(wù)不同,且常導(dǎo)致模型性能顯著下降——迄今尚未被納入其中。

3.1 PF2HC任務(wù)

本文提出一項(xiàng)貼近實(shí)際的中文字符識(shí)別任務(wù),即從印刷字體到手寫(xiě)字符的泛化(Printed Fonts to Handwritten Characters, PF2HC),以促進(jìn)領(lǐng)域泛化研究。

在傳統(tǒng)手寫(xiě)中文字符識(shí)別任務(wù)中,研究者通常需收集大量手寫(xiě)數(shù)據(jù)來(lái)訓(xùn)練模型;這種做法既與人類認(rèn)知過(guò)程相悖,又帶來(lái)高昂的數(shù)據(jù)采集成本。回顧中國(guó)人學(xué)習(xí)新漢字的過(guò)程:我們首先在教師指導(dǎo)下通過(guò)分析漢字筆畫(huà)結(jié)構(gòu)來(lái)認(rèn)識(shí)印刷體字形,隨后幾乎無(wú)需額外練習(xí),便能自然識(shí)別不同人書(shū)寫(xiě)的手寫(xiě)體。這表明人類具備出色的從印刷體到手寫(xiě)體的領(lǐng)域泛化能力。而對(duì)于基于深度學(xué)習(xí)的模型而言,為達(dá)成特定手寫(xiě)中文字符識(shí)別目標(biāo),往往需投入大量資源采集海量獨(dú)立同分布(i.i.d.)手寫(xiě)數(shù)據(jù)。考慮到利用字體庫(kù)可便捷生成大量合成印刷數(shù)據(jù),僅憑合成印刷數(shù)據(jù)訓(xùn)練出穩(wěn)健的識(shí)別模型,并使其在不同書(shū)寫(xiě)者的手寫(xiě)字符上表現(xiàn)良好,具有重要現(xiàn)實(shí)價(jià)值。

本文所提出的從印刷字體到手寫(xiě)字符的泛化任務(wù)(PF2HC),不僅能顯著推動(dòng)手寫(xiě)中文字符識(shí)別研究,同時(shí)也為領(lǐng)域泛化領(lǐng)域帶來(lái)一種真實(shí)而具挑戰(zhàn)性的問(wèn)題設(shè)定。

3.2 數(shù)據(jù)庫(kù)構(gòu)建過(guò)程

針對(duì)上述兼具挑戰(zhàn)性與實(shí)用性的PF2HC任務(wù),我們構(gòu)建了一個(gè)大規(guī)?!坝∷⑴c手寫(xiě)中文字符”(Printed and Handwritten Chinese Characters, PaHCC)分類數(shù)據(jù)集。我們選取GB2312-80標(biāo)準(zhǔn)中1000個(gè)常用漢字作為類別。得益于字符識(shí)別領(lǐng)域已有的積累,我們重組并整合了兩個(gè)現(xiàn)有數(shù)據(jù)庫(kù)的數(shù)據(jù),構(gòu)建出PaHCC數(shù)據(jù)集:

  • SCUT-SPCCI數(shù)據(jù)庫(kù)2 包含由280種不同字體生成的合成印刷漢字圖像,數(shù)據(jù)以 .ccb 格式文件存儲(chǔ);

  • CASIA-HWDB1.0–1.13 [46] 包含從掃描手寫(xiě)文檔頁(yè)面中分割并標(biāo)注的灰度圖像,數(shù)據(jù)以 .gnt 格式文件存儲(chǔ)。

我們依據(jù)各自格式說(shuō)明,從兩個(gè)數(shù)據(jù)庫(kù)中解析出所選類別的數(shù)據(jù),并將全部數(shù)據(jù)無(wú)損轉(zhuǎn)換為.png格式圖像保存,未對(duì)原始數(shù)據(jù)做任何修改。

對(duì)于合成印刷漢字圖像,所有圖像均為64 × 64尺寸的灰度圖,圖7(a)–7(c)展示了部分代表性樣例;對(duì)于手寫(xiě)漢字圖像,所有圖像為灰度圖,背景像素值設(shè)為0,圖像尺寸不一,圖7(d)展示了若干樣例。


3.3 數(shù)據(jù)結(jié)構(gòu)與統(tǒng)計(jì)
PaHCC 是我們的完整數(shù)據(jù)集,包含1000個(gè)類別、共計(jì)996,478個(gè)樣本。其中,印刷體數(shù)據(jù)包含280,647張由約280種印刷字體生成的合成漢字圖像。我們根據(jù)字體類型將其劃分為三個(gè)域:標(biāo)準(zhǔn)印刷字體(域0)、變形印刷字體(域1)以及手寫(xiě)風(fēng)格印刷字體(域2),分別如圖7(a)–7(c)所示。我們將這三個(gè)域的印刷體數(shù)據(jù)作為訓(xùn)練域,并在第3.4節(jié)中分析它們之間的分布偏移。手寫(xiě)體數(shù)據(jù)包含來(lái)自720位書(shū)寫(xiě)者的715,831張掃描手寫(xiě)漢字圖像;我們將全部手寫(xiě)數(shù)據(jù)視為測(cè)試數(shù)據(jù),并在第3.4節(jié)中分析從印刷體到手寫(xiě)體的泛化挑戰(zhàn)(即所提出的PF2HC任務(wù))。圖7直觀展示了我們的數(shù)據(jù)劃分方式。數(shù)據(jù)集的目錄結(jié)構(gòu)為:/domains/classes/samples,其中提供了作為真實(shí)標(biāo)簽(ground truth)的類別標(biāo)簽和域標(biāo)簽。表4給出了本數(shù)據(jù)集的細(xì)粒度統(tǒng)計(jì)信息。


考慮到完整數(shù)據(jù)集(PaHCC)規(guī)模龐大,我們還構(gòu)建了一個(gè)含100個(gè)類別的小型版本(mini-PaHCC),以降低研究中的計(jì)算開(kāi)銷。我們的主要實(shí)驗(yàn)也基于該小型數(shù)據(jù)集展開(kāi)。表5展示了mini-PaHCC數(shù)據(jù)集的細(xì)粒度統(tǒng)計(jì)信息。

3.4 數(shù)據(jù)集中的分布偏移
為反映本數(shù)據(jù)集中存在的分布偏移,我們參照WILDS基準(zhǔn)測(cè)試 [5] 的做法,考察在PaHCC數(shù)據(jù)集上采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM, empirical risk minimization [4])訓(xùn)練所得模型的域內(nèi)(in-distribution, ID)與域外(out-of-distribution, OOD)性能差距。為全面比較,我們還對(duì)三個(gè)常用公開(kāi)數(shù)據(jù)集進(jìn)行了相同測(cè)量。實(shí)驗(yàn)中,所有數(shù)據(jù)集均使用同一骨干網(wǎng)絡(luò)(在ImageNet [48]上預(yù)訓(xùn)練的ResNet-18 [47]),且除將物體圖像統(tǒng)一縮放至224 × 224、文本圖像統(tǒng)一縮放至64 × 64(以適配任務(wù)需求)外,不使用任何數(shù)據(jù)增強(qiáng)。我們從訓(xùn)練域中隨機(jī)抽取10%的數(shù)據(jù)用于評(píng)估ID性能,并預(yù)留一個(gè)未參與訓(xùn)練的域用于評(píng)估OOD性能。

根據(jù)表6的實(shí)驗(yàn)結(jié)果,除“D1, D2 → D0”設(shè)定外,OOD性能普遍低于ID性能——該異常情況源于其OOD測(cè)試數(shù)據(jù)相比訓(xùn)練數(shù)據(jù)更為簡(jiǎn)單(PACS數(shù)據(jù)集中的照片域和VLCS數(shù)據(jù)集中的CALTECH域也存在類似現(xiàn)象)。其中,ID性能表示來(lái)自與訓(xùn)練數(shù)據(jù)相同域的測(cè)試數(shù)據(jù)的準(zhǔn)確率,而OOD性能則表示來(lái)自與訓(xùn)練域不同域的測(cè)試數(shù)據(jù)的準(zhǔn)確率。ID與OOD性能之間的差異,反映出數(shù)據(jù)集內(nèi)不同域之間存在的分布偏移,此類偏移會(huì)導(dǎo)致模型在未見(jiàn)域上的性能下降。


我們的數(shù)據(jù)集展現(xiàn)出更高的ID性能,表明在滿足獨(dú)立同分布(i.i.d.)假設(shè)的前提下,中文字符識(shí)別任務(wù)相較于通用物體識(shí)別任務(wù)相對(duì)簡(jiǎn)單。這一現(xiàn)象源于文本圖像在顏色、背景、細(xì)節(jié)等方面相較于物體圖像具有更簡(jiǎn)潔的模式結(jié)構(gòu)。然而,這并不削弱本數(shù)據(jù)集中泛化挑戰(zhàn)的重要性。與利用字體庫(kù)生成的印刷體數(shù)據(jù)相比,掃描獲取的手寫(xiě)體數(shù)據(jù)通常質(zhì)量較低,原因包括掃描設(shè)備差異、書(shū)寫(xiě)者筆跡風(fēng)格各異、書(shū)寫(xiě)工具不同等多種因素。這些因素導(dǎo)致在我們提出的PF2HC任務(wù)中,域內(nèi)(ID)與域外(OOD)性能之間存在顯著差距,如表6最后一行所示。

3.5 使用建議
我們的PaHCC是一個(gè)大規(guī)模、全面的中文字符數(shù)據(jù)集,可支持視覺(jué)模式識(shí)別中諸多具有挑戰(zhàn)性的問(wèn)題研究,包括模型的魯棒性、可遷移性與可解釋性等。具體建議如下:

(1)領(lǐng)域泛化(Domain Generalization):本數(shù)據(jù)集天然適用于領(lǐng)域泛化研究——其目標(biāo)是通過(guò)在多個(gè)可用源域上訓(xùn)練,提升預(yù)測(cè)模型在未見(jiàn)域上的泛化能力。一種實(shí)用設(shè)置是:使用合成印刷數(shù)據(jù)進(jìn)行模型訓(xùn)練,以手寫(xiě)數(shù)據(jù)進(jìn)行測(cè)試,從而極大降低手寫(xiě)中文字符識(shí)別任務(wù)的數(shù)據(jù)采集成本。

(2)領(lǐng)域自適應(yīng)(Domain Adaptation):與領(lǐng)域泛化類似,當(dāng)允許利用測(cè)試數(shù)據(jù)的分布信息時(shí),PaHCC亦可用于評(píng)估領(lǐng)域自適應(yīng)方法。此外,也可僅使用合成印刷數(shù)據(jù),并留出一部分作為測(cè)試集,以評(píng)估模型對(duì)不同印刷字體的魯棒性;對(duì)手寫(xiě)數(shù)據(jù)亦可采取同樣策略。

(3)結(jié)構(gòu)理解型模型(Structure-understanding Model):PaHCC涵蓋豐富多樣的字體風(fēng)格與字形變化,對(duì)深度模型的魯棒性構(gòu)成嚴(yán)峻挑戰(zhàn)。然而,漢字本身蘊(yùn)含獨(dú)特的結(jié)構(gòu)信息。若能借鑒人類學(xué)習(xí)與感知漢字的方式,使深度模型有效利用此類結(jié)構(gòu)信息,則有望實(shí)現(xiàn)穩(wěn)定而優(yōu)異的識(shí)別性能。因此,PaHCC非常適用于開(kāi)發(fā)具備結(jié)構(gòu)理解能力的可解釋模型。

(4)零樣本學(xué)習(xí)(Zero-Shot Learning):針對(duì)手寫(xiě)中文字符識(shí)別任務(wù),PaHCC可借助現(xiàn)成的合成印刷數(shù)據(jù)作為輔助信息,推動(dòng)零樣本學(xué)習(xí)相關(guān)研究。

(5)類增量學(xué)習(xí)(Class-Incremental Learning):由于PaHCC是一個(gè)包含1000個(gè)類別的大規(guī)模數(shù)據(jù)集,便于按類別對(duì)某一域的數(shù)據(jù)進(jìn)行劃分,從而支持類增量學(xué)習(xí)的研究。

  1. 借助結(jié)構(gòu)學(xué)習(xí)促進(jìn)領(lǐng)域泛化

本節(jié)強(qiáng)調(diào):模型對(duì)物體結(jié)構(gòu)的關(guān)注有助于提升其泛化能力。在現(xiàn)實(shí)應(yīng)用場(chǎng)景中,無(wú)論物體的風(fēng)格或背景如何變化,其結(jié)構(gòu)始終是域不變的(domain-invariant);因此,模型若能準(zhǔn)確把握物體的結(jié)構(gòu),將顯著增強(qiáng)其在開(kāi)放世界中的性能表現(xiàn)。結(jié)構(gòu)學(xué)習(xí)在不同數(shù)據(jù)類型上具有不同的表征形式與學(xué)習(xí)難度:某些任務(wù)的數(shù)據(jù)天然蘊(yùn)含明確的結(jié)構(gòu)信息(例如漢字),可借助領(lǐng)域先驗(yàn)知識(shí)輕易獲取并加以利用;而在另一些任務(wù)中,數(shù)據(jù)結(jié)構(gòu)難以清晰界定或直接提取,需依賴輔助工具或采用隱式學(xué)習(xí)方式。

4.1 漢字上的結(jié)構(gòu)學(xué)習(xí)
4.1.1 相關(guān)工作

在漢字中,“部首”(radicals)是筆畫(huà)的組合,構(gòu)成漢字的基本結(jié)構(gòu)單元。過(guò)去十年間,眾多方法 [49, 50] 已將部首作為關(guān)鍵先驗(yàn)知識(shí),用于輔助漢字識(shí)別任務(wù)。特別地,由于大量漢字均由一個(gè)有限的部首集合組合而成,部首層級(jí)的漢字構(gòu)成關(guān)系被廣泛應(yīng)用于訓(xùn)練中未見(jiàn)類別(unseen categories)的識(shí)別 [51, 52]。例如,文獻(xiàn) [53] 將古籍漢字識(shí)別建模為多標(biāo)簽分類問(wèn)題,其中每個(gè)標(biāo)簽對(duì)應(yīng)一個(gè)位置相關(guān)的部首;通過(guò)在已見(jiàn)與未見(jiàn)漢字之間共享同一標(biāo)簽集,所訓(xùn)練的預(yù)測(cè)模型無(wú)需未見(jiàn)類別的訓(xùn)練樣本即可直接識(shí)別新漢字。受圖像描述生成(image captioning)啟發(fā),DenseRAN [54] 將漢字圖像識(shí)別轉(zhuǎn)化為部首描述序列(即“表意部件描述序列”,Ideographic Description Sequence, IDS)的預(yù)測(cè)任務(wù):先用CNN提取圖像特征,再通過(guò)RNN將特征解碼為IDS預(yù)測(cè);其對(duì)未見(jiàn)漢字的識(shí)別,通過(guò)將IDS預(yù)測(cè)結(jié)果與字典中具有最小編輯距離的IDS所對(duì)應(yīng)漢字進(jìn)行匹配實(shí)現(xiàn)。HDE [55] 則通過(guò)手工設(shè)計(jì)的分層分解嵌入(hierarchical decomposition embedding)將漢字類別映射至嵌入空間,并利用多層感知機(jī)(MLP)將圖像特征映射至同一空間,以進(jìn)行相似性度量;模型通過(guò)尋找與其圖像特征最相似的類別嵌入,實(shí)現(xiàn)對(duì)未見(jiàn)類別的樣本識(shí)別。

上述方法主要聚焦于傳統(tǒng)的封閉集漢字識(shí)別以及跨類別漢字識(shí)別(cross-category recognition)任務(wù)。此外,其中多數(shù)方法設(shè)計(jì)精細(xì)而復(fù)雜 [50, 55],且標(biāo)簽數(shù)量過(guò)多 [53] 或使用RNN架構(gòu) [51, 52, 54] 顯著增加了模型優(yōu)化難度。本文針對(duì)跨域漢字識(shí)別任務(wù)——其中訓(xùn)練集與測(cè)試集之間存在顯著分布偏移——提出了一種簡(jiǎn)潔而高效的部首輔助學(xué)習(xí)方法(radical-assisted learning method)。

4.1.2 所提出的 RBML 方法

針對(duì)跨域漢字識(shí)別任務(wù)(即第3.1節(jié)所述的 PF2HC 任務(wù)),我們提出一種簡(jiǎn)潔而高效的基于部首的多標(biāo)簽學(xué)習(xí)方法(Radical-Based Multi-Label learning, RBML)。該方法通過(guò)將結(jié)構(gòu)學(xué)習(xí)引入模型,可為其他方法帶來(lái)一致性的性能提升。下文將詳細(xì)介紹所提出的 RBML 方法。

漢字由一個(gè)或多個(gè)部首按特定位置組合而成,呈現(xiàn)出區(qū)別于其他物體的獨(dú)特結(jié)構(gòu)形式。例如,“枳”字可視為由部首“木”、“口”和“八”組合構(gòu)成。在本研究中,我們依據(jù) Unicode 標(biāo)準(zhǔn) 9.0.0 版中提供的表意部件描述序列(Ideographic Description Sequences, IDS)分解列表,共提取出 260 個(gè)不同的部首。

圖8展示了如何將我們提出的 RBML 方法應(yīng)用于其他模型的框架示意圖。對(duì)于從訓(xùn)練集中隨機(jī)采樣的一批輸入樣本 X,首先將其送入特征提取器。在 ResNet [47] 架構(gòu)中,共包含四個(gè)殘差模塊(residual blocks),記為 res1–res4。為在保留足夠細(xì)節(jié)特征以識(shí)別部首的同時(shí)不損失特征的抽象能力,我們選擇 res3 之后的特征圖接入 RBML 分支。


在 RBML 分支中,我們首先通過(guò)兩個(gè)不改變通道數(shù)的 3×3 卷積層將原始特征映射至新空間,每層后接批歸一化(Batch Normalization)和 ReLU 激活函數(shù);隨后進(jìn)行自適應(yīng)平均池化(adaptive average pooling);接著連接一個(gè)輸出維度為 260 的線性層,并后接 sigmoid 函數(shù),以實(shí)現(xiàn)多標(biāo)簽分類。最終,多標(biāo)簽分類損失函數(shù)定義為:


其中, N r
是不同漢字共享的部首數(shù)量(此處為260), y i
為真實(shí)值, p i
為我們 RBML 分類器的預(yù)測(cè)值。

所提出的 RBML 作為一個(gè)即插即用模塊,與應(yīng)用方法端到端聯(lián)合訓(xùn)練,但在推理階段并不使用。我們也探索并實(shí)現(xiàn)了其他更復(fù)雜的部首建模方法,但相比 RBML 并未觀察到顯著更好的結(jié)果,可能是由于優(yōu)化難度增加所致。

  1. 實(shí)驗(yàn)
    5.1 實(shí)現(xiàn)細(xì)節(jié)

所有實(shí)驗(yàn)均采用 DomainBed [3] 作者發(fā)布的領(lǐng)域泛化(DG)基準(zhǔn)測(cè)試的開(kāi)源實(shí)現(xiàn)?。我們選擇常用的訓(xùn)練域驗(yàn)證法(training-domain validation)[3] 作為模型選擇策略。

在我們的中文字符數(shù)據(jù)集(PaHCC 與 mini-PaHCC)上,鑒于漢字圖像尺寸較小且細(xì)節(jié)關(guān)鍵,我們采用 ResNet-18 [47] 作為骨干網(wǎng)絡(luò),并將首個(gè)卷積層(conv1)的卷積核尺寸由默認(rèn)的 7 × 7 修改為 3 × 3,且從零開(kāi)始訓(xùn)練(training from scratch)。

在數(shù)據(jù)預(yù)處理方面,我們通過(guò) PyTorch 中 transforms.ToTensor() 實(shí)現(xiàn)的標(biāo)準(zhǔn)操作,將像素值范圍歸一化至 [0, 1]。此外,對(duì)于作為測(cè)試集使用的掃描手寫(xiě)數(shù)據(jù),我們將其統(tǒng)一縮放至 64 × 64,以與作為訓(xùn)練集使用的合成印刷數(shù)據(jù)保持一致。

在 PACS 與 DomainNet 數(shù)據(jù)集上,我們遵循 DomainBed 中的默認(rèn)配置。

所有實(shí)驗(yàn)結(jié)果均按 DomainBed [3] 的方式執(zhí)行超參數(shù)搜索:即對(duì)所有超參數(shù)的聯(lián)合分布進(jìn)行 20 次隨機(jī)試驗(yàn),并報(bào)告三次重復(fù)實(shí)驗(yàn)的均值(及其標(biāo)準(zhǔn)誤差)。特別地,在大規(guī)模 PaHCC 數(shù)據(jù)集上,為確保模型收斂,我們將批大小(batch size)的搜索范圍設(shè)為 (64, 362),學(xué)習(xí)率(learning rate)的搜索范圍設(shè)為 (1 × 10??, 1 × 10?2·?)。mini-PaHCC 的超參數(shù)設(shè)置則與常用數(shù)據(jù)集保持一致。

5.2 中文字符數(shù)據(jù)集上存在難以避免的“捷徑學(xué)習(xí)”現(xiàn)象

本節(jié)通過(guò)分別在原始數(shù)據(jù)與二值化數(shù)據(jù)上開(kāi)展實(shí)驗(yàn),發(fā)現(xiàn)中文字符數(shù)據(jù)集上存在一種難以避免的捷徑學(xué)習(xí)(irresistible shortcut learning)現(xiàn)象。

我們?cè)?mini-PaHCC 數(shù)據(jù)集上采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)訓(xùn)練模型。根據(jù)表7中原始灰度圖像的實(shí)驗(yàn)結(jié)果,ERM 訓(xùn)練的模型在不同印刷域之間展現(xiàn)出可接受的泛化能力(準(zhǔn)確率 > 90%)。然而,當(dāng)模型從印刷體遷移到手寫(xiě)體時(shí)(即我們的 PF2HC 任務(wù)設(shè)定),性能急劇下降(從 > 90% 降至 16%)。


通過(guò)觀察數(shù)據(jù)集,我們發(fā)現(xiàn):在原始灰度圖像中,手寫(xiě)數(shù)據(jù)的前景像素值分布極不均勻,而合成印刷數(shù)據(jù)的前景像素值則相對(duì)均勻。對(duì)于漢字識(shí)別任務(wù)而言,這種底層像素值的統(tǒng)計(jì)差異對(duì)模型性能產(chǎn)生了顯著影響。當(dāng)我們將所有訓(xùn)練與測(cè)試圖像進(jìn)行二值化處理后,不出所料地發(fā)現(xiàn):不同印刷域間的泛化性能基本未受影響,而 PF2HC 任務(wù)上的性能大幅提升(從 16% 提升至 60%)。這驗(yàn)證了:采用 ERM 訓(xùn)練的深度模型主要依賴像素值的統(tǒng)計(jì)特征而非漢字的結(jié)構(gòu)特征進(jìn)行分類,呈現(xiàn)出明顯的捷徑學(xué)習(xí)現(xiàn)象。

為緩解該問(wèn)題,研究者通常將前景灰度值歸一化至指定區(qū)間,以避免灰度變化過(guò)大 [56]。然而,此類預(yù)處理操作并未從根本上解決學(xué)習(xí)算法與模型自身的缺陷。此外,即使在消除訓(xùn)練與測(cè)試數(shù)據(jù)間像素值分布差異之后(本文通過(guò)圖像二值化實(shí)現(xiàn)),ERM 在 PF2HC 任務(wù)上仍表現(xiàn)不佳(準(zhǔn)確率僅 60%),這是由于訓(xùn)練與測(cè)試數(shù)據(jù)生成路徑不同所致,反映出其領(lǐng)域泛化能力薄弱,難以應(yīng)對(duì)本數(shù)據(jù)集中存在的分布偏移。

5.3 現(xiàn)有領(lǐng)域泛化方法難以有效應(yīng)對(duì) PF2HC 任務(wù)

本節(jié)考察所選18種領(lǐng)域泛化(DG)方法(見(jiàn)表1)在 PF2HC 任務(wù)上的表現(xiàn)。我們首先分別使用原始灰度圖像與二值圖像評(píng)估這些方法。如圖9所示,這些專門(mén)設(shè)計(jì)的 DG 方法在經(jīng)過(guò)圖像二值化預(yù)處理后,性能均取得一致且顯著的提升(橙色柱→藍(lán)色柱,提升 +26% ~ +55%),呈現(xiàn)出與 ERM 相同的現(xiàn)象。這表明它們同樣未能緩解模型對(duì)像素值統(tǒng)計(jì)特征的捷徑依賴;關(guān)于 ERM 捷徑學(xué)習(xí)現(xiàn)象的詳細(xì)分析,請(qǐng)參見(jiàn)第5.2節(jié)。


由于原始灰度圖像上的結(jié)果整體過(guò)低(見(jiàn)圖9中橙色柱),后續(xù)實(shí)驗(yàn)僅在二值圖像上進(jìn)行,以集中考察不同 DG 方法在 PF2HC 任務(wù)上的性能表現(xiàn),從而聚焦其應(yīng)對(duì)因數(shù)據(jù)生成路徑不同所致分布偏移的領(lǐng)域泛化能力。

表8展示了各算法在 mini-PaHCC 與 PaHCC(二值圖像)數(shù)據(jù)集上的性能:

  • 在 mini-PaHCC 上,部分 DG 方法相較 ERM 顯著提升了性能,例如:

    • 表征學(xué)習(xí)類方法:MMD(+9%)、CORAL(+11%)、SagNet(+13.5%)、IB-ERM(+17%);

    • 學(xué)習(xí)策略類方法:AND-mask(+9%)、RSC(+10%);

    • 數(shù)據(jù)增強(qiáng)類方法:Mixup(+9%)。然而,部分方法(如 CDANN、DANN、IRM)反而導(dǎo)致性能下降,這與 DomainBed [3] 在七個(gè)公開(kāi)物體識(shí)別數(shù)據(jù)集上的觀察一致。值得注意的是,具有理論保障的方法(如 IRM 與 VREx)在實(shí)踐中失效,學(xué)界普遍認(rèn)為 過(guò)參數(shù)化 (overparameterization)是其在深度模型與大規(guī)模數(shù)據(jù)集上失效的主因 [57]。

  • 在完整版 PaHCC 數(shù)據(jù)集上,多數(shù)方法的表現(xiàn)與其在 mini-PaHCC 上的結(jié)果存在差異。尤其值得注意的是,AND-mask、RSC 和 CORAL 等方法在類別規(guī)模增大后無(wú)法維持原有提升效果;相比之下,表征學(xué)習(xí)方法 SagNet 與 IB-ERM 始終保持優(yōu)越性能。

綜上所述,現(xiàn)有 DG 方法在本任務(wù)上仍未能展現(xiàn)出令人滿意的領(lǐng)域泛化能力(遠(yuǎn)低于傳統(tǒng)設(shè)定下的性能水平 [56]),尚無(wú)法滿足實(shí)際應(yīng)用需求。

5.4 所提出的 RBML 方法助力實(shí)現(xiàn)當(dāng)前最優(yōu)結(jié)果

根據(jù)前述實(shí)驗(yàn)結(jié)果可知,現(xiàn)有 DG 方法在本任務(wù)上的性能仍不理想,距離滿足實(shí)際應(yīng)用需求尚有較大差距。

為進(jìn)一步提升性能,我們提出了基于部首的多標(biāo)簽學(xué)習(xí)方法(RBML)。該方法可便捷地嵌入現(xiàn)有 DG 方法中。我們分別將 RBML 應(yīng)用于 ERM 與表現(xiàn)最優(yōu)的 IB-ERM,實(shí)驗(yàn)結(jié)果見(jiàn)表9。在兩個(gè)數(shù)據(jù)集上,我們的方法均取得顯著性能提升:


  • 基于 ERM 時(shí),我們?cè)?mini-PaHCC 上達(dá)到 78%、在 PaHCC 上達(dá)到 68% 的準(zhǔn)確率,優(yōu)于或媲美其他有效的 DG 方法(參見(jiàn)表8);

  • 基于當(dāng)前最優(yōu) DG 方法(IB-ERM)時(shí),我們?nèi)〉昧诵碌?當(dāng)前最優(yōu) (state-of-the-art)結(jié)果:mini-PaHCC 上 81%,PaHCC 上 74%。


有效性與敏感性分析:圖10 展示了不同 RBML 損失權(quán)重對(duì) DG 性能的影響。當(dāng)權(quán)重處于適當(dāng)范圍內(nèi)時(shí),RBML 均能帶來(lái)性能增益。相較 PaHCC 數(shù)據(jù)集,RBML 在 mini-PaHCC 上需設(shè)置更大的權(quán)重以達(dá)到最優(yōu)性能;且當(dāng)應(yīng)用于 ERM 時(shí),相較于 IB-ERM,RBML 同樣需要更大的權(quán)重才能獲得最佳效果。

可視化與案例分析:我們利用 Grad-CAM [58] 繪制類別激活圖(class activation maps),直觀展示本方法的效果。具體而言,我們考察不同模型中特征提取器第三殘差層(layer3,即 RBML 所在位置)與第四殘差層(layer4,即分類器所在位置)的激活情況。如圖11 所示,所提出的 RBML 能夠增強(qiáng)模型對(duì)漢字整體結(jié)構(gòu)組成的關(guān)注,從而實(shí)現(xiàn)正確識(shí)別。與原始方法(無(wú) RBML)相比,我們的模型(含 RBML)對(duì)風(fēng)格與印刷體差異顯著的手寫(xiě)樣本也展現(xiàn)出良好的識(shí)別能力。當(dāng)然,對(duì)于書(shū)寫(xiě)極度不規(guī)范的樣本,模型仍易出現(xiàn)誤判。


5.5 訓(xùn)練域的動(dòng)態(tài)變化揭示更多方法特性

在以往研究中,學(xué)者對(duì)訓(xùn)練域的選擇關(guān)注較少——通常遵循數(shù)據(jù)集上固定的訓(xùn)練域與測(cè)試域劃分,并僅依據(jù)測(cè)試域準(zhǔn)確率評(píng)估算法性能(詳見(jiàn)第2.3節(jié))。本節(jié)通過(guò)一系列“動(dòng)態(tài)”實(shí)驗(yàn),揭示不同方法的更多內(nèi)在特性;這些特性在常規(guī)的“留一域交叉驗(yàn)證”(leave-one-domain-out)協(xié)議下是無(wú)法觀察到的。接下來(lái),我們將詳述兩項(xiàng)重要發(fā)現(xiàn),表明:在開(kāi)發(fā)新算法時(shí),我們不僅應(yīng)關(guān)注固定設(shè)定下的準(zhǔn)確率,還須重視在變動(dòng)設(shè)定下的穩(wěn)定性。

觀察1:部分方法對(duì)訓(xùn)練域敏感,導(dǎo)致性能不穩(wěn)定我們考察不同訓(xùn)練域選擇對(duì)DG方法性能的影響:固定測(cè)試域不變,僅更換訓(xùn)練所用的源域組合。特別地,我們保持訓(xùn)練域數(shù)量不變,且各設(shè)定下訓(xùn)練樣本總數(shù)相近。實(shí)驗(yàn)在 mini-PaHCC(漢字識(shí)別)、PACS(物體識(shí)別)與 DomainNet(物體識(shí)別)三個(gè)數(shù)據(jù)集上分別開(kāi)展。

圖12 展示了 mini-PaHCC 上各類方法的性能對(duì)比??紤]三種源域組合:d0+d1(橙線)、d1+d2(灰線)、d0+d2(黃線)。根據(jù)三組設(shè)定下手寫(xiě)測(cè)試數(shù)據(jù)的準(zhǔn)確率,許多方法表現(xiàn)出明顯的性能波動(dòng)。這表明:盡管某一算法在標(biāo)準(zhǔn)“留一域”協(xié)議下表現(xiàn)優(yōu)于其他方法,但若更換訓(xùn)練域選擇,其優(yōu)勢(shì)可能迅速消失(如圖中灰色虛線框所示)。圖13 在 PACS 與 DomainNet 數(shù)據(jù)集上同樣呈現(xiàn)此現(xiàn)象。



相比之下,以紅點(diǎn)標(biāo)注的方法展現(xiàn)出穩(wěn)健的性能優(yōu)勢(shì):在漢字識(shí)別任務(wù)中,IB-ERM 無(wú)論訓(xùn)練數(shù)據(jù)如何選擇均保持顯著優(yōu)勢(shì);在物體識(shí)別任務(wù)中,CORAL 相較于其他被測(cè)方法表現(xiàn)更優(yōu)。

觀察2:部分方法在引入新的OOD訓(xùn)練數(shù)據(jù)后反而性能下降本實(shí)驗(yàn)考察向原有訓(xùn)練數(shù)據(jù)中添加新的源域數(shù)據(jù),并觀察添加前后各類方法的性能變化。本節(jié)所有實(shí)驗(yàn)仍基于 DomainBed 代碼庫(kù)實(shí)現(xiàn)。

在僅含三個(gè)訓(xùn)練域的 mini-PaHCC 與 PACS 數(shù)據(jù)集上,我們分別將圖12 與圖13(a) 中三種設(shè)定的剩余域加入訓(xùn)練。如圖14 所示:當(dāng)新增訓(xùn)練域的風(fēng)格接近測(cè)試域時(shí)(橙線→紅線),所有 DG 方法與 ERM 均取得性能提升;然而,當(dāng)新增訓(xùn)練域風(fēng)格與測(cè)試域差異較大時(shí)(黃線或灰線→紅線),部分 DG 方法性能反而下降——表明這些方法(見(jiàn)灰色虛線框)無(wú)法有效處理新增的分布外(OOD)訓(xùn)練數(shù)據(jù),反映出其應(yīng)對(duì)分布偏移的能力薄弱。


針對(duì) DomainNet 數(shù)據(jù)集(在“留一域”協(xié)議下有五個(gè)可選訓(xùn)練域),我們逐步增加訓(xùn)練域數(shù)量,并觀察不同方法的泛化性能變化??紤]兩種基礎(chǔ)設(shè)定:(1)初始訓(xùn)練域?yàn)?painting+quickdraw;(2)初始訓(xùn)練域?yàn)?clipart+infograph;隨后分別進(jìn)行三輪新增(每次增加一個(gè)新訓(xùn)練域)。實(shí)驗(yàn)結(jié)果見(jiàn)圖15:在兩種情況下,部分 DG 方法隨訓(xùn)練域增加出現(xiàn)性能下降或無(wú)提升(見(jiàn)灰色虛線框),進(jìn)一步證實(shí)其魯棒性不足。


建議:在開(kāi)發(fā)新算法時(shí),我們不僅應(yīng)關(guān)注其在固定設(shè)定下的準(zhǔn)確率,還應(yīng)重視其在不同設(shè)定下的穩(wěn)定性。值得注意的是,在不同數(shù)據(jù)集上,這些“動(dòng)態(tài)”實(shí)驗(yàn)中失效的方法各不相同,這凸顯了在多種不同識(shí)別任務(wù)上評(píng)估方法的必要性。此外,我們的“動(dòng)態(tài)”實(shí)驗(yàn)揭示:某些在原始“留一域”協(xié)議下表現(xiàn)不佳的方法(例如 IB-IRM,見(jiàn)圖14與圖15),實(shí)際上仍具備應(yīng)對(duì)分布偏移的能力——通過(guò)豐富訓(xùn)練域的多樣性或改進(jìn)模型優(yōu)化,它們?nèi)钥沙?ERM。這一發(fā)現(xiàn)與文獻(xiàn) [59] 的觀點(diǎn)一致:對(duì)于大量基于懲罰項(xiàng)的方法(即通過(guò)聯(lián)合優(yōu)化經(jīng)驗(yàn)風(fēng)險(xiǎn)與替代懲罰項(xiàng)來(lái)求解的方案),一種典型的失效模式在于聯(lián)合優(yōu)化過(guò)程中存在過(guò)大的額外風(fēng)險(xiǎn)(excess risk),即相比 ERM,其未能充分優(yōu)化經(jīng)驗(yàn)風(fēng)險(xiǎn)(也就是域內(nèi)性能)。

  1. 結(jié)論

本文為豐富并推動(dòng)領(lǐng)域泛化(Domain Generalization, DG)研究的發(fā)展,面向真實(shí)應(yīng)用場(chǎng)景,提出了一種大規(guī)模非獨(dú)立同分布(Non-I.I.D.)數(shù)據(jù)集——PaHCC(Printed and Handwritten Chinese Characters,印刷與手寫(xiě)中文字符數(shù)據(jù)集)。大量實(shí)驗(yàn)表明,我們所提出的從印刷體到手寫(xiě)體的泛化任務(wù)(PF2HC)存在顯著的域內(nèi)(in-distribution)與域外(out-of-distribution)性能差距。

為提升領(lǐng)域泛化性能,我們認(rèn)為結(jié)構(gòu)理解(structure understanding)是關(guān)鍵因素,因?yàn)榻Y(jié)構(gòu)可被視為域不變特性(domain-invariant),從而在不同域之間實(shí)現(xiàn)良好泛化。基于此,我們提出一種基于部首的多標(biāo)簽學(xué)習(xí)方法(radical-based multi-label learning, RBML),該方法能顯著且穩(wěn)定地提升其他方法的性能。

最后,通過(guò)所設(shè)計(jì)的“動(dòng)態(tài)”DG實(shí)驗(yàn)設(shè)置,我們發(fā)現(xiàn)部分方法對(duì)訓(xùn)練域的選擇高度敏感;這表明研究者在評(píng)估新算法時(shí),不僅應(yīng)關(guān)注其在固定設(shè)定下的準(zhǔn)確率,還應(yīng)重視其在變動(dòng)設(shè)定下的穩(wěn)定性。

關(guān)于局限性:當(dāng)前方法僅適用于具備顯式結(jié)構(gòu)信息的數(shù)據(jù)(例如漢字,可借助已知的部首先驗(yàn)知識(shí))。未來(lái)工作將探索更具普適性的結(jié)構(gòu)學(xué)習(xí)方法,以處理更廣泛類型的數(shù)據(jù)、提升模型的領(lǐng)域泛化能力——例如:僅依賴類別級(jí)監(jiān)督信號(hào)的弱監(jiān)督結(jié)構(gòu)學(xué)習(xí),或借助大語(yǔ)言模型生成細(xì)粒度結(jié)構(gòu)信息。我們期望本文基于PF2HC基準(zhǔn)與動(dòng)態(tài)評(píng)估所獲得的見(jiàn)解,能夠推動(dòng)更加貼近現(xiàn)實(shí)穩(wěn)健可靠的算法發(fā)展,從而促進(jìn)領(lǐng)域泛化研究的進(jìn)步。

原文鏈接:https://www.sciencedirect.com/science/article/pii/S0031320324006770

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭(zhēng)議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭(zhēng)議

阿SIR觀察
2026-01-27 10:38:05
高詩(shī)巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩(shī)巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

星耀國(guó)際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰(shuí)看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰(shuí)看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國(guó)成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國(guó)成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長(zhǎng)必看

牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長(zhǎng)必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤(pán),無(wú)辜農(nóng)戶欲哭無(wú)淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤(pán),無(wú)辜農(nóng)戶欲哭無(wú)淚

過(guò)了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國(guó)武器庫(kù)!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

突擊檢查全國(guó)武器庫(kù)!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

愛(ài)吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

揚(yáng)子晚報(bào)
2026-01-27 21:52:52
性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機(jī)場(chǎng)“大老虎”:下班飛澳門(mén),早上坐專機(jī)上班,一晚輸600萬(wàn)

首都機(jī)場(chǎng)“大老虎”:下班飛澳門(mén),早上坐專機(jī)上班,一晚輸600萬(wàn)

牛牛叨史
2026-01-27 23:54:21
在盒馬app買(mǎi)鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

在盒馬app買(mǎi)鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

瀟湘晨報(bào)
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

大風(fēng)新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒(méi)找到

爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒(méi)找到

魯中晨報(bào)
2026-01-27 16:23:14
沉默24小時(shí)后,卡尼終于發(fā)聲,與中國(guó)協(xié)議作廢,美財(cái)長(zhǎng)得寸進(jìn)尺

沉默24小時(shí)后,卡尼終于發(fā)聲,與中國(guó)協(xié)議作廢,美財(cái)長(zhǎng)得寸進(jìn)尺

天仙無(wú)味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來(lái)面對(duì)過(guò)的最強(qiáng)大國(guó)家

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來(lái)面對(duì)過(guò)的最強(qiáng)大國(guó)家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂(lè)要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車(chē)要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車(chē)下線

態(tài)度原創(chuàng)

教育
藝術(shù)
親子
房產(chǎn)
公開(kāi)課

教育要聞

對(duì)話陳妤頡:閃閃發(fā)光的賽道,追逐夢(mèng)想

藝術(shù)要聞

震撼!19世紀(jì)油畫(huà)巨匠的作品美得不可思議!

親子要聞

雙職工家庭,孩子上幼兒園后,無(wú)老人幫忙,夫妻倆能獨(dú)立帶娃嗎?

房產(chǎn)要聞

實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版