国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

貝葉斯深度學(xué)習(xí)與泛化的概率視角

0
分享至

Bayesian Deep Learning and a Probabilistic Perspective of Generalization

貝葉斯深度學(xué)習(xí)與泛化的概率視角

https://proceedings.neurips.cc/paper/2020/file/322f62469c5e3c7dc3e58f5a4d1ea399-Paper.pdf


摘要:

貝葉斯方法的關(guān)鍵區(qū)別性特征在于邊緣化(marginalization),而非采用權(quán)重的單一設(shè)定。貝葉斯邊緣化尤其可提升現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性和校準(zhǔn)能力——這類網(wǎng)絡(luò)通常因數(shù)據(jù)不足而欠定(underspecified),從而能表征許多同樣合理但彼此不同的解。我們表明,深度集成(deep ensembles)為近似實現(xiàn)貝葉斯邊緣化提供了一種有效機(jī)制;并進(jìn)一步提出一種相關(guān)方法:在吸引域(basins of attraction)內(nèi)部進(jìn)行邊緣化,從而進(jìn)一步改善預(yù)測分布,且不帶來顯著計算開銷。我們還探究了由神經(jīng)網(wǎng)絡(luò)權(quán)重上的模糊先驗分布所隱含的函數(shù)空間先驗(prior over functions),從概率視角解釋此類模型的泛化特性?;谶@一視角,我們對若干曾被視為神秘且與神經(jīng)網(wǎng)絡(luò)泛化特性“迥異”的現(xiàn)象(例如,網(wǎng)絡(luò)能擬合帶隨機(jī)標(biāo)簽的圖像)給出解釋,并表明這些現(xiàn)象同樣可在高斯過程中復(fù)現(xiàn)。我們還證明,貝葉斯模型平均(Bayesian model averaging)可緩解“雙重下降”(double descent)現(xiàn)象,使模型性能隨靈活性提升而呈現(xiàn)單調(diào)改進(jìn)。

1 引言

想象一下擬合圖1中的航空公司乘客數(shù)據(jù)。你會選擇哪個模型:(1) f?(x) = w? + w?x,(2) f?(x) = Σ???3 w?x?,或 (3) f?(x) = Σ???1?? w?x??


如此提問,大多數(shù)聽眾會壓倒性地傾向于選擇(1)和(2),因為擔(dān)心過擬合。但在這些選項中,選擇(3)最誠實地代表了我們的信念。的確,真實的數(shù)據(jù)生成機(jī)制很可能超出了以上任何一種選擇的范疇,但存在某種系數(shù){w?}的設(shè)定(在選擇(3)中),能比選擇(1)和(2)——它們是選擇(3)的特例——更好地描述現(xiàn)實。此外,我們關(guān)于觀測數(shù)據(jù)生成過程的信念,通常非常復(fù)雜,理應(yīng)獨立于我們觀察到的數(shù)據(jù)點數(shù)量。

而在現(xiàn)代實踐中,我們隱式地偏向選擇(3):我們經(jīng)常使用擁有數(shù)百萬參數(shù)的神經(jīng)網(wǎng)絡(luò)去擬合僅有數(shù)千個數(shù)據(jù)點的數(shù)據(jù)集。此外,諸如高斯過程之類的非參數(shù)方法通常涉及無限多個參數(shù),從而實現(xiàn)了通用近似的能力[40],但在許多情況下卻能提供非常簡單的預(yù)測分布。事實上,參數(shù)計數(shù)對于理解泛化行為而言是一個糟糕的代理指標(biāo)。

從概率論視角出發(fā),我們認(rèn)為泛化很大程度上取決于模型的兩個屬性:支持度(support)和歸納偏置(inductive biases)??紤]圖2(a),其中橫軸概念化了所有可能的數(shù)據(jù)集,縱軸則表示模型的貝葉斯證據(jù)。

模型的證據(jù),或邊緣似然(marginal likelihood),p(D|M) = ∫ p(D|M, w)p(w)dw,是指如果我們從參數(shù)先驗p(w)所誘導(dǎo)的函數(shù)空間先驗p(f(x))中隨機(jī)抽樣,生成一個數(shù)據(jù)集D的概率。我們將“支持度”定義為滿足p(D|M) > 0的數(shù)據(jù)集范圍。我們將“歸納偏置”定義為不同數(shù)據(jù)集的相對先驗概率——即由p(D|M)給出的“支持度分布”。MacKay [26]曾使用與圖2(a)類似的示意圖來理解奧卡姆剃刀效應(yīng)在模型選擇中的應(yīng)用;我們認(rèn)為它同樣可用于推理模型構(gòu)建和泛化問題。

從這一視角出發(fā),我們希望模型的支持度足夠大,以便能夠表征我們相信可能存在的任何假設(shè),即使該假設(shè)可能性很低。我們甚至希望模型能夠表征純粹的噪聲,例如有噪的CIFAR [51],只要我們誠實地相信數(shù)據(jù)完全由噪聲構(gòu)成的概率雖不為零但可能極小。至關(guān)重要的是,我們還需要歸納偏置來仔細(xì)表征我們相信對特定問題類別而言更有可能成立的那些假設(shè)。如果我們正在建模圖像,那么我們的模型應(yīng)具備統(tǒng)計特性,例如卷積結(jié)構(gòu),這是對圖像的良好描述。

圖2(a)展示了三個模型。我們可以將藍(lán)色曲線想象為一個簡單的線性函數(shù)f(x) = w? + w?x,結(jié)合參數(shù)上的分布p(w?, w?),例如N(0, I),這會誘導(dǎo)出函數(shù)空間上的分布p(f(x))。從我們的先驗p(w?, w?)中采樣的參數(shù)會產(chǎn)生對應(yīng)于具有不同斜率和截距的直線的函數(shù)f(x)。因此,該模型具有截斷的支持度:它甚至無法表征一個二次函數(shù)。但由于邊緣似然必須在數(shù)據(jù)集D上歸一化,該模型將其大部分質(zhì)量分配給了它確實支持的數(shù)據(jù)集。紅色曲線可能代表一個大型全連接MLP。該模型高度靈活,但其支持度在數(shù)據(jù)集上分布得過于均勻,以至于對許多圖像數(shù)據(jù)集而言并不特別有說服力。綠色曲線可能代表一個卷積神經(jīng)網(wǎng)絡(luò),它為圖像識別任務(wù)提供了令人信服的支持度和歸納偏置規(guī)范:該模型高度靈活,但針對結(jié)構(gòu)化問題提供了特別好的支持。


當(dāng)支持度很大時,我們?nèi)鱿铝艘粡堊銐驅(qū)挼木W(wǎng),使得后驗分布可以如圖2(b)所示圍繞給定問題的真實解收縮,而現(xiàn)實中我們常認(rèn)為真實解是非常復(fù)雜的。另一方面,如果簡單模型的假設(shè)空間不包含真實解,如圖2(c)所示,則其后驗分布會收縮到一個錯誤的解上。此外,在圖2(d)中,模型具有廣泛的支持度,但由于其支持度過分均勻分布,它不會收縮到一個好的解上。

回到開頭的例子,我們可以用追求大支持度的理由來證明高階多項式的選擇。但我們?nèi)孕柚?jǐn)慎選擇系數(shù)上的先驗分布,以誘導(dǎo)出具有合理歸納偏置的函數(shù)空間分布。事實上,這種貝葉斯意義上的泛化并非基于單一數(shù)值,而是一個二維概念。從這個概率視角來看,切勿將模型的靈活性(flexibility)與模型類別的復(fù)雜度(complexity)混為一談。事實上,采用RBF核的高斯過程具有很大的支持度,因此很靈活,但其歸納偏置傾向于非常簡單的解。我們還看到,在此泛化視角下,參數(shù)計數(shù)毫無意義:重要的是參數(shù)空間上的分布如何與模型的函數(shù)形式相結(jié)合,從而誘導(dǎo)出解空間上的分布。

在本文中,我們從泛化的概率視角出發(fā),探討貝葉斯深度學(xué)習(xí)。貝葉斯方法的關(guān)鍵區(qū)別性特征在于邊緣化(marginalization)而非優(yōu)化,即我們通過所有參數(shù)設(shè)置及其后驗概率加權(quán)來表征解,而不是將所有賭注押在一個單一的參數(shù)設(shè)置上。神經(jīng)網(wǎng)絡(luò)通常因數(shù)據(jù)不足而欠定,并可表征許多不同的高性能模型,這些模型對應(yīng)于不同的參數(shù)設(shè)置——這正是邊緣化將在準(zhǔn)確性和校準(zhǔn)方面產(chǎn)生最大差異之處。此外,我們澄清了近期的深度集成方法[22]并非貝葉斯推斷的競爭性方案,而可視為一種引人入勝的貝葉斯邊緣化機(jī)制。事實上,我們實證表明,深度集成能比標(biāo)準(zhǔn)貝葉斯方法提供更好的貝葉斯預(yù)測分布近似。我們提出MultiSWAG,這是一種受深度集成啟發(fā)的方法,它在吸引域內(nèi)進(jìn)行邊緣化——在訓(xùn)練時間相似的情況下實現(xiàn)性能提升。

隨后,我們研究了由神經(jīng)網(wǎng)絡(luò)權(quán)重先驗所誘導(dǎo)的函數(shù)空間先驗的性質(zhì),表明它們具有合理的歸納偏置,并將這些結(jié)果與溫度調(diào)整(tempering)聯(lián)系起來。我們還表明,Zhang等人[51]最近提出的神秘泛化特性,可以通過對函數(shù)空間先驗分布的推理來理解,且并非神經(jīng)網(wǎng)絡(luò)所獨有。事實上,我們表明高斯過程也能完美擬合帶隨機(jī)標(biāo)簽的圖像,但在無噪聲問題上仍能泛化。這些結(jié)果是大支持度與常見問題設(shè)定下合理歸納偏置共同作用的結(jié)果。我們進(jìn)一步表明,雖然貝葉斯神經(jīng)網(wǎng)絡(luò)可以擬合含噪數(shù)據(jù)集,但邊緣似然對無噪聲數(shù)據(jù)集有更好的支持,這與圖2一致。我們還額外表明,MultiSWAG中的多模態(tài)邊緣化緩解了雙重下降現(xiàn)象,從而在模型靈活性增加時實現(xiàn)單調(diào)的性能提升,這與我們的泛化視角一致。MultiSWAG還在準(zhǔn)確率和負(fù)對數(shù)似然(NLL)上顯著優(yōu)于SGD訓(xùn)練和單峰邊緣化方法。

代碼位于:https://github.com/izmailovpavel/understandingbdl

2 相關(guān)工作

貝葉斯神經(jīng)網(wǎng)絡(luò)領(lǐng)域具有代表性的早期研究包括 MacKay [26]、MacKay [27] 與 Neal [35]。這些工作普遍主張:貝葉斯方法所采用的模型類應(yīng)盡可能靈活,這與 Box 與 Tiao [5] 的觀點一致。相應(yīng)地,Neal [35] 探索了大型貝葉斯神經(jīng)網(wǎng)絡(luò)的極限情形,證明當(dāng)隱藏單元數(shù)量趨于無窮大時,此類模型會收斂為具有特定核函數(shù)的高斯過程。該結(jié)論與近期關(guān)于神經(jīng)正切核(neural tangent kernel)的研究 [例如,16] 相契合。

邊緣似然常被用于貝葉斯假設(shè)檢驗、模型比較以及超參數(shù)調(diào)優(yōu),其中貝葉斯因子(Bayes factors)被用于在不同模型之間進(jìn)行選擇 [18]。MacKay [28, 第28章] 使用了與本文圖2(a)類似的示意圖,說明邊緣似然具有奧卡姆剃刀特性——即使各模型先驗概率相等,邊緣似然仍傾向于選擇與給定數(shù)據(jù)集一致的最簡模型。Rasmussen 與 Ghahramani [41] 則探討了:只要大型靈活模型在函數(shù)空間中對應(yīng)某種合理的分布,邊緣似然仍可對其給予支持。

近年來,針對現(xiàn)代深度學(xué)習(xí)的貝葉斯方法研究興趣顯著增長,所面臨的新挑戰(zhàn)與架構(gòu)設(shè)計遠(yuǎn)超早期研究的范疇。近期工作主要聚焦于以下方向:可擴(kuò)展推斷方法 [例如,4, 9, 19, 42, 20, 29];受函數(shù)空間啟發(fā)的先驗構(gòu)建 [例如,50, 25, 45, 13];以及在參數(shù)空間中構(gòu)建平坦的無信息先驗(flat objective priors),直接利用神經(jīng)網(wǎng)絡(luò)函數(shù)形式本身的歸納偏置 [例如,34]。Wilson [48] 提供了一篇動機(jī)性筆記,對貝葉斯深度學(xué)習(xí)進(jìn)行了闡釋。

總體而言,PAC-Bayes 理論為推導(dǎo)顯式的非漸近泛化界(non-asymptotic generalization bounds)提供了有力框架 [31, 23, 7, 36, 37, 30, 17]。此類泛化界可通過減少參數(shù)數(shù)量或采用極緊湊的先驗得以改進(jìn)——然而,此類緊湊性未必對應(yīng)最優(yōu)泛化性能。從我們的視角出發(fā),模型的靈活性以及具有大支持度的先驗(而非緊湊性)才是理想特性。此外,本文工作還表明:在深度學(xué)習(xí)中,跨多個吸引域的邊緣化(multi-basin marginalization)對泛化至關(guān)重要;而 PAC-Bayes 界本質(zhì)上并不因后驗分布是否多峰而改變。

我們的研究重點與 PAC-Bayes 理論互為補(bǔ)充,且主要是規(guī)范性(prescriptive)的:旨在為模型構(gòu)建、推斷方法、泛化機(jī)制以及神經(jīng)網(wǎng)絡(luò)先驗提供直觀理解;同時建立貝葉斯模型平均與深度集成之間新的聯(lián)系;闡明貝葉斯模型平均在現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)語境下的特定優(yōu)勢;提出對貝葉斯深度學(xué)習(xí)中溫度調(diào)節(jié)(tempering)的新見解;提供一種有別于簡單蒙特卡洛采樣的邊緣化視角;并提出深度學(xué)習(xí)中貝葉斯邊緣化的新方法。

在其他相關(guān)工作中,Pearce 等人 [39] 提出對深度集成的一種改進(jìn),并論證其可實現(xiàn)近似的貝葉斯推斷;Gustafsson 等人 [12] 簡要提及,深度集成可被視為從某種近似后驗分布中抽取的樣本。Fort 等人 [8] 則考察了單次 SGD 運(yùn)行中不同模型之間、以及獨立多次 SGD 運(yùn)行所得模型之間的預(yù)測多樣性,并建議對 SGD 迭代點的平均值進(jìn)行集成。

3 貝葉斯邊緣化

我們通常希望計算的預(yù)測分布為:


輸出為 y(例如,回歸值、類別標(biāo)簽等),由輸入 x(例如,空間位置、圖像等)索引;神經(jīng)網(wǎng)絡(luò) f(x; w) 的權(quán)重(或參數(shù))為 w,D 代表數(shù)據(jù)。公式 (1) 表示一個貝葉斯模型平均(BMA)。我們并非將所有賭注押在一個單一的參數(shù)設(shè)定 w 上,而是希望使用所有可能的參數(shù)設(shè)定,并根據(jù)其后驗概率進(jìn)行加權(quán)。這一過程被稱為對參數(shù) w 的邊緣化,因為所關(guān)注的預(yù)測分布不再以 w 為條件。這并非一個有爭議的方程,而僅僅是概率的求和與乘積法則。

3.1 超越蒙特卡洛方法

當(dāng)公式 (1) 中的積分無法解析計算時,幾乎所有用于估算該積分的方法都涉及一種簡單的蒙特卡洛近似:p(y|x, D) ≈ (1/J) Σ???? p(y|x, w?),其中 w? ~ p(w|D)。在實踐中,從后驗分布 p(w|D) 中抽取的樣本本身也是近似的,通常通過 MCMC 或確定性方法獲得。確定性方法會用另一種更方便采樣的密度 q(w|D, θ) 來近似 p(w|D),這種密度通常被選為高斯分布。參數(shù) θ 的選擇旨在使 q 在某種意義上盡可能接近 p;例如,變分近似 [例如,2] 已成為一種流行的確定性方法,它通過尋找 argminθ K?(q||p) 來實現(xiàn)。其他標(biāo)準(zhǔn)的確定性近似方法包括拉普拉斯近似 [例如,27]、期望傳播 [32] 和 INLA [43]。

從估算公式 (1) 中預(yù)測分布的角度來看,我們可以將簡單蒙特卡洛方法視為用一組點質(zhì)量來近似后驗分布,這些點的質(zhì)量位置由另一個近似后驗 q 抽取的樣本給出,即使 q 本身是一個連續(xù)分布。也就是說,p(w|D) ≈ Σ???? δ(w = w?),其中 w? ~ q(w|D)。

最終目標(biāo)是準(zhǔn)確地計算公式 (1) 中的預(yù)測分布,而非尋求一個總體上精確的后驗分布表示。特別是,我們必須謹(jǐn)慎地在那些對 BMA 積分貢獻(xiàn)最大的區(qū)域中表征后驗分布。在第 3.2 節(jié)和第 4 節(jié)中,我們將探討各種方法如何近似預(yù)測分布。

3.2 深度集成即是貝葉斯模型平均(BMA)

深度集成(Deep ensembles)[22] 正迅速成為構(gòu)建高精度、良好校準(zhǔn)預(yù)測分布的黃金標(biāo)準(zhǔn)。近期研究 [例如,38, 1] 表明,就不確定性表征而言,深度集成似乎優(yōu)于某些特定的貝葉斯神經(jīng)網(wǎng)絡(luò)方法——這導(dǎo)致了一種誤解,即深度集成與貝葉斯方法是相互競爭的兩種路徑。事實上,這些方法常被明確稱為“非貝葉斯的”[例如,22, 38, 47]。

與之相反,我們認(rèn)為:深度集成實際上是一種極具吸引力的貝葉斯模型平均(BMA)實現(xiàn)方式,完全符合第 3.1 節(jié)所述思路。

此外,由于深度集成能夠表征多個吸引域(multiple basins of attraction),它對 BMA 的近似效果甚至優(yōu)于 Ovadia 等人 [38] 研究中所采用的貝葉斯方法。正如第 3.1 節(jié)所述,函數(shù)層面的多樣性(functional diversity)對準(zhǔn)確近似 BMA 積分至關(guān)重要。我們將在第 4 節(jié)中深入探討這些問題。

4 邊緣化的實證研究

我們已表明,深度集成可被理解為一種近似的貝葉斯邊緣化方法:它通過表征后驗分布中的多個吸引域(multiple basins of attraction),從而優(yōu)選函數(shù)層面的多樣性(functional diversity)。而大多數(shù)貝葉斯深度學(xué)習(xí)方法則專注于在單一吸引域內(nèi)精確近似后驗分布。為此,我們提出一種新方法——MultiSWAG:它將多個獨立訓(xùn)練的 SWAG 近似 [29] 相結(jié)合,構(gòu)建一種高斯混合模型(mixture of Gaussians)形式的后驗近似,其中每個高斯分布的中心位于不同的吸引域。值得注意的是,相比標(biāo)準(zhǔn)深度集成,MultiSWAG 無需額外的訓(xùn)練時間。圖 8(附錄中)直觀地展示了深度集成、標(biāo)準(zhǔn)單峰變分方法與 MultiSWAG 三者之間的概念差異。

在圖 3 中,我們在一個可近乎精確計算預(yù)測分布的設(shè)定下,評估了單峰與多峰方法的表現(xiàn)。為近似真實結(jié)果,我們采用來自 hamiltorch 工具包 [6] 的 10 條哈密頓蒙特卡洛(HMC)鏈。數(shù)據(jù)生成、模型訓(xùn)練細(xì)節(jié)以及 HMC 采樣器的收斂性分析詳見附錄 D.1。結(jié)果表明:與單峰變分方法相比,深度集成所得預(yù)測分布在定性上更接近真實分布——在數(shù)據(jù)簇之間的區(qū)域,深度集成對認(rèn)知不確定性(epistemic uncertainty)的刻畫與窮舉式 HMC 相似;而變分方法在這些區(qū)域卻表現(xiàn)出極端的過度自信。此外,我們觀察到:隨著樣本數(shù)量增加,深度集成與真實預(yù)測分布之間的Wasserstein 距離迅速減?。欢兎址椒ǖ脑摼嚯x則幾乎不隨樣本數(shù)變化。因此,深度集成對式 (1) 中貝葉斯模型平均的近似效果優(yōu)于傳統(tǒng)的單峰變分方法(后者常被標(biāo)記為“貝葉斯替代方案”)。若想在貝葉斯預(yù)測分布近似上與深度集成競爭,變分方法必須實現(xiàn)對多個吸引域的邊緣化。


接下來,我們在 CIFAR-10 數(shù)據(jù)集 [21] 上評估 MultiSWAG 在分布偏移(distribution shift)下的表現(xiàn),復(fù)現(xiàn) Ovadia 等人 [38] 的實驗設(shè)置:我們采用 Hendrycks 與 Dietterich [14] 引入的 16 種數(shù)據(jù)擾動,每種擾動包含 5 個不同嚴(yán)重程度等級。針對每種擾動,我們評估深度集成與 MultiSWAG 在不同訓(xùn)練預(yù)算下的性能。對于深度集成,我們以集成中獨立訓(xùn)練模型的數(shù)量為變量繪制性能曲線;對于 MultiSWAG,我們以所構(gòu)建的獨立 SWAG 近似數(shù)量為變量(每個 SWAG 近似再采樣 20 個模型,共同構(gòu)成最終集成)繪制性能曲線。

盡管 MultiSWAG 的訓(xùn)練時間與深度集成相同,但在測試階段它開銷更大——因其對應(yīng)的集成模型數(shù)量更多。為應(yīng)對測試時間受限的場景,我們還提出了 MultiSWA:該方法對獨立訓(xùn)練所得的 SWA 解 [15] 進(jìn)行集成。SWA 解即對應(yīng) SWAG 高斯近似的均值;Izmailov 等人 [15] 認(rèn)為,SWA 解可用單一模型近似 SWAG 所代表的局部集成。

圖 4 展示了在不同強(qiáng)度高斯模糊擾動(從左至右強(qiáng)度遞增)的 CIFAR-10 上,Preactivation ResNet-20 的負(fù)對數(shù)似然(NLL)隨獨立訓(xùn)練模型數(shù)量的變化情況。結(jié)果表明:在高度擾動數(shù)據(jù)上,MultiSWAG 顯著優(yōu)于深度集成;在擾動較輕時,當(dāng)僅有少量獨立訓(xùn)練模型可用時,MultiSWAG 表現(xiàn)尤為出色。我們注意到,MultiSWA 同樣優(yōu)于深度集成,且其訓(xùn)練與測試計算開銷與深度集成完全相同。附錄中圖 9–12 提供了其他擾動類型的結(jié)果,展現(xiàn)出類似趨勢;附錄還包含對 MultiSWAG 的全面評估。


我們的泛化視角與貝葉斯邊緣化緊密相連。要充分實現(xiàn)深度學(xué)習(xí)中邊緣化的優(yōu)勢,我們需通過多峰后驗近似(如 MultiSWAG)盡可能多地納入各種假設(shè)。第 7 節(jié)我們將再次回到 MultiSWAG,展示其如何緩解雙重下降現(xiàn)象,并在準(zhǔn)確率與 NLL 兩方面,相較于 SGD 及單峰邊緣化方法,帶來顯著的泛化性能提升。

5 神經(jīng)網(wǎng)絡(luò)先驗

參數(shù)上的先驗分布 p(w) 與模型 f(x; w) 的函數(shù)形式相結(jié)合,共同誘導(dǎo)出一個函數(shù)空間上的分布 p(f(x; w))。正是這個函數(shù)空間上的分布決定了模型的泛化特性;單獨來看,參數(shù)先驗本身并無意義。神經(jīng)網(wǎng)絡(luò)內(nèi)嵌了結(jié)構(gòu)性屬性(如平移等變性、層次化表征和稀疏性),這些屬性提供了良好的歸納偏置。根據(jù)圖2的意義,由于神經(jīng)網(wǎng)絡(luò)的高度靈活性,其先驗具有很大的支持度(support),但其歸納偏置會將大部分概率質(zhì)量分配給神經(jīng)網(wǎng)絡(luò)常被應(yīng)用的問題場景所對應(yīng)的數(shù)據(jù)集。在本節(jié)中,我們研究由該先驗誘導(dǎo)出的函數(shù)空間分布的性質(zhì)。我們將直接延續(xù)第6節(jié)關(guān)于先驗的討論,重點關(guān)注從泛化的概率視角分析 Zhang 等人 [51] 提出的“含噪 CIFAR”結(jié)果。這兩部分內(nèi)容最好結(jié)合閱讀。在 [49] 中,我們討論了溫度調(diào)節(jié)(tempering)與此類結(jié)果的關(guān)聯(lián)。

5.1 深度圖像先驗與隨機(jī)網(wǎng)絡(luò)特征

最近兩項研究成果提供了有力證據(jù):當(dāng)模糊的高斯參數(shù)先驗與神經(jīng)網(wǎng)絡(luò)架構(gòu)結(jié)合時,會誘導(dǎo)出一種具有實用歸納偏置的函數(shù)空間分布。在“深度圖像先驗”(deep image prior)中,Ulyanov 等人 [46] 表明,未經(jīng)訓(xùn)練的隨機(jī)初始化卷積神經(jīng)網(wǎng)絡(luò)即可在圖像去噪、超分辨率和修復(fù)任務(wù)上取得優(yōu)異性能。這一結(jié)果證明,從神經(jīng)網(wǎng)絡(luò)的隨機(jī)先驗 p(f(x; w)) 中抽取的樣本函數(shù),在任何訓(xùn)練之前就已具備捕捉低層圖像統(tǒng)計特性的能力。類似地,Zhang 等人 [51] 表明,用隨機(jī)初始化的未經(jīng)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)對 CIFAR-10 進(jìn)行預(yù)處理,可將基于簡單高斯核(作用于像素)的測試準(zhǔn)確率從 54% 顯著提升至 71%。加入 ?? 正則化僅能再額外提升 2% 的準(zhǔn)確率。這些結(jié)果再次表明:寬泛的高斯參數(shù)先驗?zāi)茉诰W(wǎng)絡(luò)上誘導(dǎo)出合理的先驗分布,而減小參數(shù)空間先驗方差所帶來的額外收益很小——這正對應(yīng)于 ?? 正則化的作用。

5.2 先驗類別相關(guān)性

在圖5中,我們研究了 LeNet-5 卷積網(wǎng)絡(luò) [24] 在不同 MNIST 類別對象上的輸出先驗相關(guān)性。我們從權(quán)重先驗 p(w) = N(0, α2I) 中采樣網(wǎng)絡(luò),并計算所有圖像對對應(yīng)的第一個類別的 logit 值,然后計算這些 logit 值之間的相關(guān)性。對于所有 α 水平,屬于同一類別的對象之間的相關(guān)性始終高于不同類別的對象之間的相關(guān)性,這表明該網(wǎng)絡(luò)誘導(dǎo)了一種合理的先驗相似性度量。此外,我們觀察到,隨著 α 的增大,先驗相關(guān)性略有下降,這表明限制權(quán)重范數(shù)具有一定微弱效用,這與第 5.1 節(jié)的結(jié)論一致。同樣,在面板 (d) 中,我們看到當(dāng) α 在 [0, 0.5] 區(qū)間內(nèi)增加時,負(fù)對數(shù)似然(NLL)顯著下降,之后略微上升,但隨后保持相對穩(wěn)定。


6 重新思考泛化

Zhang 等人 [51] 證明,深度神經(jīng)網(wǎng)絡(luò)具有足夠的容量去擬合流行圖像分類任務(wù)中被隨機(jī)打亂的標(biāo)簽,并建議這一結(jié)果要求我們重新思考泛化理論以理解深度學(xué)習(xí)。

然而,我們認(rèn)為,從概率論視角來看,這種行為并不令人費(fèi)解,它并非神經(jīng)網(wǎng)絡(luò)所獨有,也不能作為反對采用模糊參數(shù)先驗的貝葉斯神經(jīng)網(wǎng)絡(luò)(BNNs)的證據(jù)。根本原因在于引言中提出的觀點:從概率視角看,泛化至少是一個二維概念,它既與支持度(support,即靈活性)相關(guān)——支持度應(yīng)盡可能大,甚至能涵蓋噪聲解;也與歸納偏置(inductive biases)相關(guān)——后者代表不同解的相對先驗概率。

事實上,我們證明了 Zhang 等人 [51] 所描述的、曾被視為神秘且神經(jīng)網(wǎng)絡(luò)特有的現(xiàn)象,完全可以由高斯過程(GPs)精確復(fù)現(xiàn)。高斯過程是本實驗的理想選擇,因為它們是流行的貝葉斯非參數(shù)模型,且直接在函數(shù)空間上賦予先驗分布。此外,高斯過程具有卓越的靈活性,通過諸如 RBF 核等流行協(xié)方差函數(shù)即可實現(xiàn)通用近似。然而,在 RBF 核高斯過程下,先驗概率較高的函數(shù)卻相對簡單。我們在附錄中進(jìn)一步介紹高斯過程,Rasmussen 和 Williams [40] 提供了詳盡的入門指南。

我們首先用一個簡單例子說明:采用 RBF 核的高斯過程既能輕松擬合被污染的數(shù)據(jù)集,又能在未被污染的數(shù)據(jù)集上表現(xiàn)良好的泛化能力(見圖6)。在圖6(a)中,我們從函數(shù)空間上的 GP 先驗 p(f(x)) 中采樣函數(shù),顯示先驗下“可能”的函數(shù)是平滑且行為良好的。在圖6(b)中,我們看到 GP 能合理擬合來自結(jié)構(gòu)化函數(shù)的數(shù)據(jù)。而在圖6(c)中,GP 同樣能夠擬合高度污染、幾乎無結(jié)構(gòu)的數(shù)據(jù);盡管這些數(shù)據(jù)不太可能是從先驗中采樣的,但 GP 的支持度覆蓋了包括噪聲在內(nèi)的廣泛解。


接下來,我們展示高斯過程可以復(fù)現(xiàn) Zhang 等人 [51] 所描述的泛化行為(實驗細(xì)節(jié)見附錄)。當(dāng)應(yīng)用于帶有隨機(jī)標(biāo)簽的 CIFAR-10 圖像時,高斯過程實現(xiàn)了 100% 的訓(xùn)練準(zhǔn)確率和 10.4% 的測試準(zhǔn)確率(相當(dāng)于隨機(jī)猜測水平)。然而,同一模型在真實標(biāo)簽上訓(xùn)練后,其訓(xùn)練和測試準(zhǔn)確率分別為 72.8% 和 54.3%。因此,Zhang 等人 [51] 描述的泛化行為并非神經(jīng)網(wǎng)絡(luò)獨有,可以通過分別考慮支持度和歸納偏置來解釋。

事實上,盡管高斯過程支持帶隨機(jī)標(biāo)簽的 CIFAR-10 圖像,但這些圖像在 GP 先驗下并不“可能”。在圖6(d)中,我們計算了一個二分類 CIFAR-10 問題上的近似 GP 邊緣似然,其中標(biāo)簽包含不同程度的污染。我們看到,隨著數(shù)據(jù)噪聲增加,近似邊緣似然(以及對這些數(shù)據(jù)的先驗支持度)隨之下降。在圖6(e)中,我們觀察到貝葉斯神經(jīng)網(wǎng)絡(luò)表現(xiàn)出類似的趨勢:隨著被污染標(biāo)簽比例增加,近似邊緣似然下降,表明貝葉斯神經(jīng)網(wǎng)絡(luò)所誘導(dǎo)的函數(shù)空間先驗對這些含噪數(shù)據(jù)集的支持度更低。

我們在附錄中提供了更多實驗細(xì)節(jié)。關(guān)于 BNN 先驗及其與溫度調(diào)節(jié)(tempering)的關(guān)系,我們另在 [49] 中進(jìn)行了進(jìn)一步討論。

Dziugaite 和 Roy [7] 以及 Smith 和 Le [44] 從互補(bǔ)角度探討了 Zhang 等人 [51] 在 MNIST 數(shù)據(jù)集上的結(jié)果:Dziugaite 和 Roy [7] 為無噪二值化 MNIST 給出了非空洞的 PAC-Bayes 泛化界,但在含噪 MNIST 上無法做到;Smith 和 Le [44] 則表明邏輯回歸可以在降采樣的 MNIST 上擬合噪聲標(biāo)簽,并從奧卡姆因子(Occam factor)的角度解讀了該結(jié)果。

7 雙重下降

雙重下降(double descent)[例如,3] 描述的是:隨著模型靈活性(flexibility)的提升,泛化誤差先下降、后上升、再下降的現(xiàn)象。其第一階段的“先降后升”被稱為經(jīng)典區(qū)域(classical regime):在此區(qū)域內(nèi),靈活性不斷提升的模型能更好地捕捉數(shù)據(jù)結(jié)構(gòu)、性能持續(xù)提高,直至開始過擬合。隨后的第二階段被稱為現(xiàn)代插值區(qū)域(modern interpolating regime),該現(xiàn)象常被表述為深度學(xué)習(xí)中一種“神秘”的泛化行為。

然而,依據(jù)我們提出的泛化視角:若采用具有合理先驗的貝葉斯模型平均(BMA),性能應(yīng)隨模型靈活性的增加而單調(diào)提升。事實上,在圖1開頭的例子中,原則上我們希望采用盡可能靈活的模型。我們迄今為止的結(jié)果表明:標(biāo)準(zhǔn)貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)先驗可在函數(shù)空間中誘導(dǎo)出結(jié)構(gòu)良好且實用的先驗分布;因此,對于能進(jìn)行合理邊緣化的貝葉斯深度學(xué)習(xí)模型,我們不應(yīng)觀測到雙重下降現(xiàn)象。

為驗證這一假設(shè),我們參照 Nakkiran 等人 [33] 的設(shè)置,在不同寬度的 ResNet-18 模型上評估 MultiSWAGSWAG 與標(biāo)準(zhǔn) SGD,并同時測量錯誤率與負(fù)對數(shù)似然(NLL)。詳細(xì)實驗設(shè)置見附錄 D;結(jié)果展示于圖7及附錄圖17中。

首先,我們觀察到:使用 SGD 訓(xùn)練的模型確實呈現(xiàn)出雙重下降現(xiàn)象,尤其在訓(xùn)練標(biāo)簽部分被污染時尤為明顯(見圖 7(c)、7(d) 面板)。同時我們發(fā)現(xiàn),SWAG——一種單峰后驗近似方法——在一定程度上緩解了雙重下降的幅度。更重要的是,MultiSWAG 通過更充分的多峰貝葉斯模型平均,完全消除了雙重下降:其性能隨模型規(guī)模增大而單調(diào)提升,即使在標(biāo)簽嚴(yán)重污染的情況下也未出現(xiàn)雙重下降現(xiàn)象。


我們注意到,在圖 7(c) 中,深度集成展現(xiàn)出與 MultiSWAG 類似的趨勢,同樣緩解了雙重下降,盡管其準(zhǔn)確率略低(約低 1–2%)。這一結(jié)果與我們在第 3.2 節(jié)中的觀點一致:即深度集成對貝葉斯預(yù)測分布的近似效果優(yōu)于傳統(tǒng)的單峰貝葉斯邊緣化方法。

我們的結(jié)果凸顯了對后驗分布多個模態(tài)進(jìn)行邊緣化的重要性:在 20% 標(biāo)簽污染條件下,SWAG 仍顯著表現(xiàn)出雙重下降,而 MultiSWAG 則完全避免了該現(xiàn)象。在圖 7(e) 中,我們進(jìn)一步展示了:隨著 MultiSWAG 中所邊緣化的獨立模態(tài)數(shù)量增加,雙重下降現(xiàn)象逐步被消除。

這些結(jié)果還清晰表明:除負(fù)對數(shù)似然(NLL)外,MultiSWAG 在準(zhǔn)確率上也顯著優(yōu)于 SGD 與 SWAG 模型——而 NLL 的提升正是貝葉斯模型平均常被忽視的一大優(yōu)勢。

8 討論

我們提出了一種概率視角下的泛化觀:泛化性能取決于模型的支持度(support)與歸納偏置(inductive biases)。其中,支持度應(yīng)盡可能大,但歸納偏置必須針對特定問題類別進(jìn)行良好校準(zhǔn)。我們認(rèn)為,貝葉斯神經(jīng)網(wǎng)絡(luò)正體現(xiàn)了這些特性;并且,通過概率推斷的視角,我們得以解釋那些以往被視為“神秘”的泛化行為。

此外,我們強(qiáng)調(diào):貝葉斯邊緣化對神經(jīng)網(wǎng)絡(luò)而言尤為有力;我們闡明了深度集成如何為邊緣化提供一種切實可行的實現(xiàn)機(jī)制;并進(jìn)一步提出一種新方法——將深度集成推廣至在吸引域內(nèi)部進(jìn)行邊緣化。我們證明,這種多峰貝葉斯模型平均方法(即 MultiSWAG)可完全消除雙重下降現(xiàn)象,從而實現(xiàn)隨模型靈活性提升而單調(diào)改善的性能表現(xiàn);同時,在泛化準(zhǔn)確率與對數(shù)似然(log likelihood)方面,也顯著優(yōu)于 SGD 與單峰邊緣化方法。

當(dāng)然,在現(xiàn)代深度學(xué)習(xí)中估計貝葉斯模型平均所需的積分仍面臨諸多挑戰(zhàn),包括高維參數(shù)空間與復(fù)雜的后驗地貌。然而,若將該挑戰(zhàn)明確視為一個積分問題,而非僅僅試圖獲取后驗樣本以進(jìn)行簡單蒙特卡洛近似,則有望為未來進(jìn)展開辟新路徑。當(dāng)前,貝葉斯深度學(xué)習(xí)已在實踐中快速推進(jìn)——新方法在幾乎不增加計算開銷的前提下,已能實現(xiàn)比標(biāo)準(zhǔn)訓(xùn)練更優(yōu)的準(zhǔn)確率與校準(zhǔn)性能。

更廣泛的影響

貝葉斯深度學(xué)習(xí)方法與理解的改進(jìn),對于將機(jī)器學(xué)習(xí)應(yīng)用于可靠的決策制定至關(guān)重要。一個良好校準(zhǔn)的預(yù)測分布能為決策提供顯著更豐富的信息,并有助于防范在未校準(zhǔn)推斷中雖罕見卻代價高昂的失誤。貝葉斯深度學(xué)習(xí)還可提升樣本效率,從而減少對通常昂貴且規(guī)模龐大的標(biāo)注數(shù)據(jù)集的依賴——這類數(shù)據(jù)集往往被視為訓(xùn)練高精度神經(jīng)網(wǎng)絡(luò)的必要條件。如我們在雙重下降實驗中所示,貝葉斯神經(jīng)網(wǎng)絡(luò)對噪聲也具有更強(qiáng)的魯棒性。對深度學(xué)習(xí)泛化機(jī)制的更深入理解,亦有助于我們更可靠地預(yù)判:在實際問題中,何時部署神經(jīng)網(wǎng)絡(luò)是合理可行的。

當(dāng)然,潛在的更廣泛弊端亦不容忽視,包括:計算開銷的增加,以及方法復(fù)雜性的提升——有時需要具備近似推斷方面的專家知識,方能達(dá)到良好性能。

原文: https://proceedings.neurips.cc/paper/2020/file/322f62469c5e3c7dc3e58f5a4d1ea399-Paper.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
郭晶晶代言出事沒一周,令人擔(dān)心的事發(fā)生,霍啟剛的做法讓人意外

郭晶晶代言出事沒一周,令人擔(dān)心的事發(fā)生,霍啟剛的做法讓人意外

以茶帶書
2026-01-27 14:22:25
中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預(yù)

中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預(yù)

安珈使者啊
2026-01-27 11:41:27
小學(xué)生“倒數(shù)第一”試卷又火了,老師:這孩子智商太高,我教不了

小學(xué)生“倒數(shù)第一”試卷又火了,老師:這孩子智商太高,我教不了

浩源的媽媽
2026-01-27 06:29:07
在做動手準(zhǔn)備?日本議會狂歡,石破拒喊萬歲,央視怒批:狗膽包天

在做動手準(zhǔn)備?日本議會狂歡,石破拒喊萬歲,央視怒批:狗膽包天

叮當(dāng)當(dāng)科技
2026-01-27 08:09:32
放假通知,2026中小學(xué)生寒假時間確定了,家長卻表示難以接受!

放假通知,2026中小學(xué)生寒假時間確定了,家長卻表示難以接受!

凱旋學(xué)長
2026-01-27 21:47:32
上海知名主持蔚蘭近況!自爆三個月沒洗澡,住進(jìn)月租1.2萬養(yǎng)老院

上海知名主持蔚蘭近況!自爆三個月沒洗澡,住進(jìn)月租1.2萬養(yǎng)老院

青橘罐頭
2026-01-24 21:43:01
媒體人:重慶銅梁龍外援中衛(wèi)薩達(dá)烏斯卡斯將離隊

媒體人:重慶銅梁龍外援中衛(wèi)薩達(dá)烏斯卡斯將離隊

懂球帝
2026-01-27 19:33:21
稅后3000萬!21場2球還獅子大開口,維尼修斯想對標(biāo)姆巴佩有點難

稅后3000萬!21場2球還獅子大開口,維尼修斯想對標(biāo)姆巴佩有點難

夏侯看英超
2026-01-28 00:05:13
技校到底能有多亂?網(wǎng)友的評論真的震驚到我了

技校到底能有多亂?網(wǎng)友的評論真的震驚到我了

夜深愛雜談
2026-01-20 18:54:02
香奈兒高定秀!周迅劉雯撐起中國女星排面,表姐走秀恰逢38歲生日

香奈兒高定秀!周迅劉雯撐起中國女星排面,表姐走秀恰逢38歲生日

露珠聊影視
2026-01-27 22:06:05
OpenAI暴雷:為了活下去,AI正瘋狂“異化”

OpenAI暴雷:為了活下去,AI正瘋狂“異化”

美第奇效應(yīng)
2026-01-26 20:55:37
高市亮戰(zhàn)爭方案不到12小時,49條中日航線取消,中方罕見升級警告

高市亮戰(zhàn)爭方案不到12小時,49條中日航線取消,中方罕見升級警告

輝輝歷史記
2026-01-27 17:45:53
烏戈:作為球隊主帥我也迅速做出調(diào)整,需要把勢頭保持下去

烏戈:作為球隊主帥我也迅速做出調(diào)整,需要把勢頭保持下去

狼叔評論
2026-01-27 22:42:07
1973年,毛主席問楊振寧:萬壽無疆科學(xué)嗎?楊振寧的回答,讓主席笑了

1973年,毛主席問楊振寧:萬壽無疆科學(xué)嗎?楊振寧的回答,讓主席笑了

寄史言志
2026-01-24 17:53:13
蘋果加它是超強(qiáng)肝臟解毒水,連著喝3天,排出身體多年肝臟毒素

蘋果加它是超強(qiáng)肝臟解毒水,連著喝3天,排出身體多年肝臟毒素

江江食研社
2026-01-26 10:30:08
江西湖口抓嫖現(xiàn)場曝光!網(wǎng)友怒喊:包二奶的咋不管?法律真相來了

江西湖口抓嫖現(xiàn)場曝光!網(wǎng)友怒喊:包二奶的咋不管?法律真相來了

叮當(dāng)當(dāng)科技
2026-01-27 11:34:08
黃磊女兒黃多多有意進(jìn)圈,臉是真的小,身材也是真的好,應(yīng)該會爆

黃磊女兒黃多多有意進(jìn)圈,臉是真的小,身材也是真的好,應(yīng)該會爆

民間平哥
2026-01-18 21:36:22
“天仙妹妹”笑稱已是“天仙阿姨”,丈夫曾對她的過去一無所知

“天仙妹妹”笑稱已是“天仙阿姨”,丈夫曾對她的過去一無所知

揚(yáng)子晚報
2026-01-26 12:19:49
聯(lián)合國亂了?秘書長候選人誕生,對華態(tài)度堅決,中方看破美國心思

聯(lián)合國亂了?秘書長候選人誕生,對華態(tài)度堅決,中方看破美國心思

蕭佉影視解說
2026-01-26 20:37:05
周乙在刑場并未死去,在運(yùn)尸車上猛然驚醒時,高彬坐在他面前

周乙在刑場并未死去,在運(yùn)尸車上猛然驚醒時,高彬坐在他面前

蕭竹輕語
2026-01-27 17:40:43
2026-01-28 04:12:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

頭條要聞

美報告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

游戲
家居
時尚
藝術(shù)
教育

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

家居要聞

現(xiàn)代古典 中性又顯韻味

這些韓系穿搭最適合普通人!多穿深色、衣服基礎(chǔ),簡潔耐看

藝術(shù)要聞

震撼!19世紀(jì)油畫巨匠的作品美得不可思議!

教育要聞

對話陳妤頡:閃閃發(fā)光的賽道,追逐夢想

無障礙瀏覽 進(jìn)入關(guān)懷版