国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

貝葉斯深度學(xué)習(xí)綜合介紹

0
分享至

A Comprehensive Introduction to Bayesian Deep Learning

貝葉斯深度學(xué)習(xí)綜合介紹

彌合基礎(chǔ)研究和現(xiàn)代研究之間的差距


  1. 引言貝葉斯(深度)學(xué)習(xí)一直令我既著迷又敬畏——或許因其高度依賴概率論,而后者本身便頗具挑戰(zhàn)性。我注意到,即便掌握基礎(chǔ)概率知識(shí),仍將現(xiàn)代貝葉斯深度學(xué)習(xí)研究中的概念理解和聯(lián)系視為難事。本文旨在彌合這一鴻溝,提供一份全面且易懂的入門(mén)導(dǎo)引。

我將不從基礎(chǔ)講起,而是以 Andrew Wilson 與 Pavel Izmailov(紐約大學(xué))在 NeurIPS 2020 上發(fā)表的一篇杰出論文《貝葉斯深度學(xué)習(xí)與泛化的概率視角》(Bayesian Deep Learning and a Probabilistic Perspective of Generalization)為切入點(diǎn)。該論文為我們提供了一個(gè)生動(dòng)的起點(diǎn),在其中可自然地接觸真實(shí)研究中的貝葉斯概念;我希望這能使貝葉斯視角更具象化,并彰顯其現(xiàn)實(shí)意義。

我將從論文摘要與引言著手,為后續(xù)討論鋪墊背景;每當(dāng)遇到貝葉斯概念時(shí),我會(huì)適時(shí)抽離,從概率論及機(jī)器學(xué)習(xí)/函數(shù)逼近兩個(gè)角度,給出兼具直覺(jué)與深度的系統(tǒng)性闡釋;同時(shí),貫穿全文,我將持續(xù)回歸并關(guān)聯(lián)該論文內(nèi)容。

愿你讀罷此文,不僅能多少“沾上幾分貝葉斯氣息”,更能理解該論文的諸多貢獻(xiàn),并對(duì)“泛化”這一核心議題形成更深刻的認(rèn)識(shí)。

  1. 神經(jīng)網(wǎng)絡(luò)的泛化能力(摘要與引言)

如果你的貝葉斯知識(shí)有些生疏,這篇摘要或許顯得頗為晦澀。其中前兩句話對(duì)我們理解貝葉斯深度學(xué)習(xí)(Bayesian DL)至關(guān)重要;中間部分提出了三項(xiàng)技術(shù)性貢獻(xiàn);最后加粗的兩句話則為理解神經(jīng)網(wǎng)絡(luò)中若干神秘現(xiàn)象(如泛化)提供了新穎洞見(jiàn)的初步引導(dǎo)。我將逐一講解,但按部就班——先從論文引言開(kāi)始。

引言中提出的一個(gè)關(guān)鍵問(wèn)題是:神經(jīng)網(wǎng)絡(luò)為何以及如何實(shí)現(xiàn)泛化?
作者指出:

“從概率視角看,泛化能力主要取決于模型的兩個(gè)屬性:支撐集(support)與歸納偏置(inductive biases)?!?/blockquote>
  • 支撐集(support)指模型所能處理的數(shù)據(jù)集類別范圍,換言之,即模型所能表示的函數(shù)集合——這些函數(shù)旨在逼近數(shù)據(jù)的生成過(guò)程。
  • 歸納偏置則刻畫(huà)了某一模型類對(duì)特定類型數(shù)據(jù)集(如圖像、文本、數(shù)值特征)的擬合能力優(yōu)劣。作者巧妙地將此稱為“支撐上的分布”(distribution of support),即:模型類性能(≈歸納偏置)在所有可能數(shù)據(jù)集(即支撐集)上的分布情況。

讓我們來(lái)看作者給出的幾個(gè)例子:

  • 線性函數(shù)的支撐集是截?cái)嗟?/strong>(truncated),因其甚至無(wú)法表示一個(gè)二次函數(shù);
  • 多層感知機(jī)(MLP)雖高度靈活,但其支撐在各類數(shù)據(jù)集上分布過(guò)于均勻,導(dǎo)致對(duì)許多圖像數(shù)據(jù)集而言缺乏針對(duì)性,因而“不夠有趣”;
  • 卷積神經(jīng)網(wǎng)絡(luò)(CNN)則在圖像識(shí)別任務(wù)中展現(xiàn)出支撐集與歸納偏置之間的良好平衡。圖2a對(duì)此作了清晰展示。

縱軸所表示的,即我此前樸素解釋為“模型對(duì)特定數(shù)據(jù)集擬合能力優(yōu)劣”的量,實(shí)則為貝葉斯證據(jù)(Bayesian evidence),亦稱邊緣似然(marginal likelihood)——這是我們接觸到的第一個(gè)貝葉斯概念!我們將在下一節(jié)深入探討;現(xiàn)在,先完成當(dāng)前思路。

一個(gè)優(yōu)良的模型不僅需要足夠大的支撐集(以確保真實(shí)解在函數(shù)空間中可實(shí)現(xiàn)),還需具備恰當(dāng)?shù)臍w納偏置(以真正收斂至該解)。當(dāng)前可將貝葉斯后驗(yàn)(Bayesian posterior)理解為我們的模型:在恰當(dāng)歸納偏置作用下,后驗(yàn)分布應(yīng)能“收縮”(contract)至正確解;但同時(shí),先驗(yàn)假設(shè)空間必須足夠廣闊,以保證真實(shí)模型在函數(shù)意義上是可實(shí)現(xiàn)的(即具備寬泛的支撐集)。

下圖以三種示例模型直觀展示了這一點(diǎn):從左至右依次為綠色的CNN、紫色的線性函數(shù)與粉色的MLP。

在引言的此處,作者再次強(qiáng)調(diào)——正如摘要首句所述:

“貝葉斯方法的關(guān)鍵區(qū)別性特征在于邊緣化(marginalization)而非優(yōu)化(optimization):我們以所有參數(shù)取值按其后驗(yàn)概率加權(quán)的方式表示解(即對(duì)參數(shù)進(jìn)行積分),而非將全部賭注押在單一參數(shù)配置上。”

此刻正是深入探討“邊緣化 vs 優(yōu)化”之差異,并全面拓展我們對(duì)貝葉斯方法理解的恰當(dāng)時(shí)機(jī)。接下來(lái),我們將逐一闡釋諸如后驗(yàn)(posterior)、先驗(yàn)(prior)、預(yù)測(cè)分布(predictive distribution)、邊緣似然(marginal likelihood)、貝葉斯證據(jù)(Bayesian evidence)、貝葉斯模型平均(Bayesian model averaging)、貝葉斯推斷(Bayesian inference)等核心概念。

3 回歸基礎(chǔ):貝葉斯方法

我們隨處可見(jiàn)“邊緣化是貝葉斯統(tǒng)計(jì)的核心”這一論斷,甚至連 Bishop 的機(jī)器學(xué)習(xí)經(jīng)典教材《模式識(shí)別與機(jī)器學(xué)習(xí)》(PRML)中亦如此強(qiáng)調(diào)。與貝葉斯視角相對(duì)的是頻率學(xué)派(frequentist)視角——這正是大多數(shù)機(jī)器學(xué)習(xí)文獻(xiàn)所采用的范式,也更易于理解。我們先從此處入手。

3.1 頻率學(xué)派方法

頻率學(xué)派的機(jī)器學(xué)習(xí)方法是:通過(guò)優(yōu)化一個(gè)損失函數(shù),以獲得模型參數(shù)的最優(yōu)配置。例如,交叉熵?fù)p失常用于分類任務(wù)(如目標(biāo)檢測(cè)或機(jī)器翻譯);最常用的優(yōu)化技術(shù)則是各類(隨機(jī))梯度下降(SGD)的變體。在 SGD 中,模型參數(shù)沿?fù)p失空間中下降最陡的方向迭代更新——該方向由損失函數(shù)關(guān)于參數(shù)的梯度決定。所期望的結(jié)果是:對(duì)于相同或相似的輸入,新參數(shù)配置能使模型輸出更接近目標(biāo)值。對(duì)于神經(jīng)網(wǎng)絡(luò),梯度通常借助一種名為反向傳播(backpropagation)的計(jì)算技巧高效求得。


值得注意的是,這種通過(guò) 最大似然估計(jì) (Maximum Likelihood Estimation, MLE)來(lái)獲取(或稱“訓(xùn)練”)預(yù)測(cè)模型的頻率學(xué)派做法,實(shí)則可置于更廣闊的貝葉斯框架下理解——事實(shí)上,MLE 可視為 最大后驗(yàn)估計(jì) (Maximum A Posteriori, MAP)的一個(gè)特例:當(dāng)先驗(yàn)分布為均勻分布(uniform prior)時(shí),MAP 即退化為 MLE(MAP 將在下文簡(jiǎn)要討論)。

3.2 貝葉斯學(xué)派

貝葉斯方法的一個(gè)關(guān)鍵特性是真實(shí)地量化不確定性——這在現(xiàn)實(shí)世界應(yīng)用中至關(guān)重要,尤其是在我們需要信賴模型預(yù)測(cè)結(jié)果的場(chǎng)合。因此,貝葉斯方法并不輸出參數(shù)的點(diǎn)估計(jì)(point estimate),而是定義一個(gè)完整的參數(shù)概率分布,我們稱之為后驗(yàn)分布(posterior distribution)。該后驗(yàn)分布表達(dá)了我們對(duì)各參數(shù)(取值)的信念、假設(shè)與不確定性程度。

我們利用貝葉斯定理(Bayes’ Theorem)來(lái)計(jì)算后驗(yàn)分布。該定理是貝葉斯機(jī)器學(xué)習(xí)的核心(也因此得名),且可由基礎(chǔ)概率規(guī)則直接推導(dǎo)得出:



3.3 貝葉斯推斷與邊緣化

我們現(xiàn)已觸及問(wèn)題的核心:貝葉斯推斷(Bayesian inference)是指學(xué)習(xí)(推斷)參數(shù) w w的后驗(yàn)分布的過(guò)程——這與頻率學(xué)派通過(guò)微分優(yōu)化尋找最優(yōu) w w 的學(xué)習(xí)方式形成鮮明對(duì)比。

如前所述,為計(jì)算完整后驗(yàn),我們必須對(duì)整個(gè)參數(shù)空間進(jìn)行邊緣化(即積分)。然而在實(shí)踐中,這項(xiàng)操作通常不可行(不可解,intractable),因?yàn)閰?shù)可能有無(wú)窮多種取值。正因如此,貝葉斯方法本質(zhì)上是以邊緣化而非優(yōu)化為核心。

后驗(yàn)中出現(xiàn)的不可解積分催生了一類不同的參數(shù)學(xué)習(xí)方法。不同于梯度下降,貝葉斯學(xué)派常采用采樣方法(如馬爾可夫鏈蒙特卡洛,MCMC)或變分推斷(variational inference)——后者試圖用一類更簡(jiǎn)單、可解的分布族來(lái)近似真實(shí)后驗(yàn)。類似技術(shù)也廣泛用于生成模型(如變分自編碼器,VAE)。近年來(lái),標(biāo)準(zhǔn)化流(normalizing flows)作為一種較新的方法,也被用于對(duì)復(fù)雜分布進(jìn)行高精度近似。

  1. 如何在實(shí)踐中使用后驗(yàn)分布?

既然我們已理解貝葉斯后驗(yàn)分布的含義,那么在實(shí)際應(yīng)用中該如何使用它呢?例如,若我們想預(yù)測(cè)一個(gè)未見(jiàn)過(guò)的句子 x 對(duì)應(yīng)的下一個(gè)詞 y ,該怎么做?

4.1 最大后驗(yàn)估計(jì)(MAP)

一種做法是:直接取模型 M M 的參數(shù)后驗(yàn)分布,并選擇其中概率密度最高的參數(shù)配置 w (即分布的眾數(shù),mode)——該方法稱為最大后驗(yàn)估計(jì)(Maximum A Posteriori, MAP)。
然而…… 若我們費(fèi)盡周折計(jì)算出完整的參數(shù)概率分布,最終卻僅取一個(gè)點(diǎn)估計(jì),豈非可惜?(除非后驗(yàn)分布的絕大部分概率質(zhì)量確實(shí)高度集中于參數(shù)空間中某一點(diǎn)。)
正因 MAP 仍輸出點(diǎn)估計(jì),它不被視為完整的貝葉斯方法。

4.2 完整的預(yù)測(cè)分布


這一過(guò)程稱為貝葉斯模型平均(Bayesian Model Averaging, BMA)——即對(duì)所有可能的模型(此處指所有可能的參數(shù)配置)進(jìn)行加權(quán)平均。

在貝葉斯機(jī)器學(xué)習(xí)中,預(yù)測(cè)分布的計(jì)算是邊緣化的第二個(gè)關(guān)鍵應(yīng)用場(chǎng)景,第一個(gè)則是后驗(yàn)本身的計(jì)算。

一種直觀理解預(yù)測(cè)分布的方式是借助簡(jiǎn)單回歸任務(wù)進(jìn)行可視化(如下圖所示);具體示例可參見(jiàn)這些幻燈片(第9–21頁(yè))。

4.3 近似預(yù)測(cè)分布

正如我們所知,預(yù)測(cè)分布中的積分往往不可解,至少計(jì)算代價(jià)極高。使用后驗(yàn)的第三種方法是:采樣若干組參數(shù)配置,并融合對(duì)應(yīng)模型的預(yù)測(cè)結(jié)果(例如實(shí)現(xiàn)近似的貝葉斯模型平均,BMA)。該方法實(shí)則被稱為預(yù)測(cè)分布的蒙特卡洛近似(Monte Carlo approximation)!

這最后一種方法隱約讓人聯(lián)想到一個(gè)對(duì)樸素頻率學(xué)派而言或許更熟悉的概念——深度集成(deep ensembles)。深度集成通過(guò)組合多個(gè)架構(gòu)相同、但參數(shù)初始化不同的神經(jīng)網(wǎng)絡(luò)而構(gòu)建。這恰與我們此前論文討論的結(jié)尾處巧妙呼應(yīng)!還記得論文摘要嗎?

“我們證明,深度集成為近似貝葉斯邊緣化提供了一種有效機(jī)制,并提出一種相關(guān)方法,通過(guò)在吸引域(basins of attraction)內(nèi)部進(jìn)一步邊緣化,從而提升預(yù)測(cè)分布的質(zhì)量?!?/blockquote>

如今第二次重讀此摘要,其各項(xiàng)貢獻(xiàn)應(yīng)已清晰許多。同時(shí),我們也終于正式邁入了貝葉斯深度學(xué)習(xí)(Bayesian Deep Learning)的領(lǐng)域!

  1. 貝葉斯深度學(xué)習(xí)

貝葉斯神經(jīng)網(wǎng)絡(luò)(Bayesian Neural Network, BNN)本質(zhì)上就是將后驗(yàn)推斷應(yīng)用于神經(jīng)網(wǎng)絡(luò)架構(gòu):具體而言,為每個(gè)權(quán)重與偏置指定一個(gè)先驗(yàn)分布。然而,由于神經(jīng)網(wǎng)絡(luò)參數(shù)空間極為龐大,其后驗(yàn)推斷比常規(guī)模型更加困難。

那么,為何還要開(kāi)展貝葉斯深度學(xué)習(xí)?

經(jīng)典答案是:為獲得對(duì)不確定性的真實(shí)刻畫(huà)與良好的校準(zhǔn)性(calibration)。當(dāng)分類器對(duì)某類預(yù)測(cè)的置信度(概率)與其實(shí)際錯(cuò)誤率一致時(shí),稱該分類器是校準(zhǔn)良好的——如前所述,這對(duì)現(xiàn)實(shí)應(yīng)用至關(guān)重要。

“神經(jīng)網(wǎng)絡(luò)通常存在校準(zhǔn)不良問(wèn)題,其預(yù)測(cè)往往過(guò)度自信。”

然而,我們正在研讀的這篇論文作者 Wilson 與 Izmailov 指出:貝葉斯模型平均(BMA)不僅能提升不確定性估計(jì),還能提高預(yù)測(cè)準(zhǔn)確率。根據(jù)第3.1節(jié)所述,貝葉斯視角對(duì)神經(jīng)網(wǎng)絡(luò)尤其具有說(shuō)服力:因其龐大的參數(shù)空間,神經(jīng)網(wǎng)絡(luò)可表征大量與觀測(cè)數(shù)據(jù)一致的不同解(即模型嚴(yán)重欠定,underspecified)。正因如此,貝葉斯模型平均極為有用——它能將多種多樣的函數(shù)形式(或稱“視角”)融合為一。

“神經(jīng)網(wǎng)絡(luò)能夠表征眾多與觀測(cè)一致的模型;若依經(jīng)典方法僅擇其一,則當(dāng)這些模型在測(cè)試點(diǎn)上預(yù)測(cè)分歧時(shí),我們便丟失了關(guān)鍵的不確定性信息?!?/blockquote>

5.1 近期(近似)貝葉斯深度學(xué)習(xí)方法

近期,許多研究者嘗試融合傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(如借助 SGD 與反向傳播實(shí)現(xiàn)高效訓(xùn)練)與貝葉斯方法(如良好校準(zhǔn)性)各自的優(yōu)勢(shì)。

蒙特卡洛 Dropout(Monte Carlo Dropout)
一種流行且概念簡(jiǎn)潔的方法?;仡櫩芍珼ropout 傳統(tǒng)上用作正則化手段——通過(guò)在訓(xùn)練中隨機(jī)“關(guān)閉”部分權(quán)重,為網(wǎng)絡(luò)引入隨機(jī)性或多樣性。研究發(fā)現(xiàn),Dropout 可被重新詮釋為一種近似貝葉斯推斷,并可應(yīng)用于測(cè)試階段:此時(shí)多次前向傳播將產(chǎn)生多個(gè)不同的參數(shù)配置。這聽(tīng)起來(lái)是否與“從后驗(yàn)中采樣參數(shù)以近似預(yù)測(cè)分布”頗為相似?

隨機(jī)權(quán)值平均—高斯(Stochastic Weight Averaging – Gaussian, SWAG)
另一類工作源于隨機(jī)權(quán)值平均(SWA)——這是一種優(yōu)雅的集成近似方法,通過(guò)智能地融合同一網(wǎng)絡(luò)在訓(xùn)練不同階段的權(quán)重實(shí)現(xiàn)(若想深入了解,可參閱相關(guān)博客)。SWAG 在其基礎(chǔ)上進(jìn)一步發(fā)展:利用 SGD 過(guò)程中提供的簡(jiǎn)單統(tǒng)計(jì)量,近似后驗(yàn)分布的形狀(即局部幾何結(jié)構(gòu))。
回想一下,SGD 實(shí)質(zhì)是在參數(shù)空間中“移動(dòng)”,以尋找損失函數(shù)的(局部)極小值點(diǎn)。為刻畫(huà)后驗(yàn)的局部幾何特性,SWAG 用高斯分布擬合 SGD 迭代軌跡的一階矩(均值)與二階矩(協(xié)方差):矩(moments)用于描述函數(shù)或分布的形狀——零階矩為總和,一階矩為均值,二階矩為方差。所得高斯近似即可用于貝葉斯模型平均(BMA)。

頻率學(xué)派的不確定性表征替代方法

顯然,我在此僅提及了該領(lǐng)域不到 1% 的工作(例如:用于提升校準(zhǔn)性的 KFAC Laplace 近似、溫度縮放等),所選上述例子部分原因在于它們與我們正在解讀的論文密切相關(guān)。最后再補(bǔ)充一個(gè)近期流行的頻率學(xué)派(抑或……?)不確定性近似方法作為收尾:該方法表明,可訓(xùn)練一個(gè)深度集成(deep ensemble),并利用其構(gòu)建預(yù)測(cè)分布,從而獲得校準(zhǔn)良好的模型。作者還引入若干附加技巧(此處不展開(kāi)),例如使用對(duì)抗訓(xùn)練來(lái)平滑預(yù)測(cè)分布。詳見(jiàn)該論文:https://arxiv.org/abs/1612.01474 。

  1. 回歸論文

至此,我們已充分準(zhǔn)備就緒,可以重返論文本身,系統(tǒng)梳理其核心貢獻(xiàn)了!現(xiàn)在理解起來(lái)應(yīng)當(dāng)輕松許多

6.1 深度集成即貝葉斯模型平均(BMA)

Wilson 與 Izmailov 指出:與近期文獻(xiàn)(包括筆者自己)的通常觀點(diǎn)相反,深度集成并非一種“頻率學(xué)派替代方案”以獲取貝葉斯優(yōu)勢(shì);實(shí)際上,它正是對(duì)后驗(yàn)分布的一種極佳近似。
由于深度集成通過(guò)多次獨(dú)立的 MAP 或 MLE 重訓(xùn)練構(gòu)建,不同成員往往收斂至損失曲面上不同的吸引域(basins of attraction)——即通向某(局部)最優(yōu)解的“盆地”或谷底。然而,損失景觀中通常存在多個(gè)最優(yōu)解(即多個(gè)谷底),而非唯一。
由集成中不同成員所發(fā)現(xiàn)的多個(gè)吸引域,帶來(lái)了比“僅在單個(gè)吸引域內(nèi)近似后驗(yàn)”的貝葉斯方法更豐富的函數(shù)多樣性(functional diversity)。

6.2 融合深度集成與貝葉斯神經(jīng)網(wǎng)絡(luò)(第4節(jié))

上述“利用多個(gè)吸引域”的思想對(duì)下一項(xiàng)貢獻(xiàn)同樣關(guān)鍵——即一種改進(jìn)的預(yù)測(cè)分布近似方法。作者將深度集成所具備的“多吸引域”特性與 SWAG 的貝葉斯處理方式相結(jié)合,提出了一種集兩者之長(zhǎng)的方案:多吸引域隨機(jī)權(quán)值平均高斯法(Multiple basins of attraction Stochastic Weight Averaging Gaussian),簡(jiǎn)稱 MultiSWAG

“MultiSWAG 組合了多個(gè)獨(dú)立訓(xùn)練所得的 SWAG 近似,構(gòu)建出一個(gè)高斯混合后驗(yàn)近似,其中每個(gè)高斯分量中心位于不同的吸引域上。值得注意的是,MultiSWAG 相較于標(biāo)準(zhǔn)深度集成,并未增加任何額外訓(xùn)練時(shí)間?!?/blockquote>

若想了解具體技術(shù)細(xì)節(jié),歡迎查閱原文

6.3 神經(jīng)網(wǎng)絡(luò)先驗(yàn)(第5節(jié))

你或許會(huì)問(wèn):我們?cè)趺纯赡転閿?shù)百萬(wàn)參數(shù)指定一個(gè)有意義的先驗(yàn)?這確實(shí)是個(gè)極為合理的問(wèn)題——事實(shí)上,這也常被用作對(duì)貝葉斯方法的批評(píng)之一。

然而,論文第5節(jié)中,Wilson 與 Izmailov 提供了證據(jù):采用模糊先驗(yàn)(如簡(jiǎn)單高斯先驗(yàn))

“對(duì)參數(shù)施加模糊的高斯先驗(yàn),當(dāng)與神經(jīng)網(wǎng)絡(luò)架構(gòu)相結(jié)合時(shí),可誘導(dǎo)出一個(gè)在函數(shù)空間上具有有益歸納偏置的函數(shù)分布?!? …… “函數(shù)上的分布(distribution over functions)決定了模型的泛化性能;而孤立的參數(shù)先驗(yàn)本身并無(wú)實(shí)際意義?!?/blockquote>

換言之:一個(gè)模糊的參數(shù)先驗(yàn),經(jīng)由神經(jīng)網(wǎng)絡(luò)的函數(shù)形式映射后,可在函數(shù)空間中產(chǎn)生有意義的分布。關(guān)鍵不在于先驗(yàn)本身的形式,而在于它對(duì)最終預(yù)測(cè)分布所產(chǎn)生的影響。

6.4 重新思考泛化與雙重下降現(xiàn)象(第6、7節(jié))

我們現(xiàn)已來(lái)到摘要中所強(qiáng)調(diào)的那些“奇特神經(jīng)網(wǎng)絡(luò)現(xiàn)象”。根據(jù)第6節(jié)所述,神經(jīng)網(wǎng)絡(luò)能夠擬合隨機(jī)標(biāo)簽這一看似驚人的事實(shí),實(shí)則毫不奇怪——只要從支撐集與歸納偏置的視角加以審視。

寬泛的支撐集(即滿足 p ( D ∣ M ) > 0 的數(shù)據(jù)集范圍)對(duì)泛化至關(guān)重要。事實(shí)上,只要具備恰當(dāng)?shù)臍w納偏置,能將模型引導(dǎo)至優(yōu)良解,那么“擬合隨機(jī)標(biāo)簽”的能力本身并無(wú)問(wèn)題。Wilson 與 Izmailov 進(jìn)一步指出,這一現(xiàn)象并非神經(jīng)網(wǎng)絡(luò)所特有;高斯過(guò)程(Gaussian Processes)同樣展現(xiàn)出擬合隨機(jī)標(biāo)簽的能力,因而它并非某種神秘的神經(jīng)網(wǎng)絡(luò)專屬特性。

雙重下降(Double Descent)

第二個(gè)現(xiàn)象是“雙重下降”——這是近期發(fā)現(xiàn)的一種反常現(xiàn)象:模型規(guī)模增大或數(shù)據(jù)量增多時(shí),性能反而意外下降。

Wilson 與 Izmailov 發(fā)現(xiàn):使用 SGD 訓(xùn)練的模型會(huì)出現(xiàn)雙重下降現(xiàn)象,而 SWAG 可在一定程度上緩解該現(xiàn)象;更重要的是,MultiSWAG 與深度集成均能完全消除雙重下降現(xiàn)象!這一結(jié)果與他們此前的論斷高度一致:

“深度集成對(duì)貝葉斯預(yù)測(cè)分布的近似效果,優(yōu)于傳統(tǒng)的單吸引域貝葉斯邊緣化方法。”

同時(shí)也凸顯了:對(duì)后驗(yàn)分布多個(gè)模態(tài)(modes)

https://towardsdatascience.com/a-comprehensive-introduction-to-bayesian-deep-learning-1221d9a051de/

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭(zhēng)議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭(zhēng)議

阿SIR觀察
2026-01-27 10:38:05
高詩(shī)巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩(shī)巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

星耀國(guó)際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰(shuí)看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰(shuí)看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國(guó)成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國(guó)成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長(zhǎng)必看

牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長(zhǎng)必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤(pán),無(wú)辜農(nóng)戶欲哭無(wú)淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤(pán),無(wú)辜農(nóng)戶欲哭無(wú)淚

過(guò)了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國(guó)武器庫(kù)!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

突擊檢查全國(guó)武器庫(kù)!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

愛(ài)吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

揚(yáng)子晚報(bào)
2026-01-27 21:52:52
性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機(jī)場(chǎng)“大老虎”:下班飛澳門(mén),早上坐專機(jī)上班,一晚輸600萬(wàn)

首都機(jī)場(chǎng)“大老虎”:下班飛澳門(mén),早上坐專機(jī)上班,一晚輸600萬(wàn)

牛牛叨史
2026-01-27 23:54:21
在盒馬app買(mǎi)鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

在盒馬app買(mǎi)鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

瀟湘晨報(bào)
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

大風(fēng)新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒(méi)找到

爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒(méi)找到

魯中晨報(bào)
2026-01-27 16:23:14
沉默24小時(shí)后,卡尼終于發(fā)聲,與中國(guó)協(xié)議作廢,美財(cái)長(zhǎng)得寸進(jìn)尺

沉默24小時(shí)后,卡尼終于發(fā)聲,與中國(guó)協(xié)議作廢,美財(cái)長(zhǎng)得寸進(jìn)尺

天仙無(wú)味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來(lái)面對(duì)過(guò)的最強(qiáng)大國(guó)家

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來(lái)面對(duì)過(guò)的最強(qiáng)大國(guó)家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂(lè)要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

本地
親子
時(shí)尚
健康
公開(kāi)課

本地新聞

云游中國(guó)|撥開(kāi)云霧,巫山每幀都是航拍大片

親子要聞

雙職工家庭,孩子上幼兒園后,無(wú)老人幫忙,夫妻倆能獨(dú)立帶娃嗎?

這些韓系穿搭最適合普通人!多穿深色、衣服基礎(chǔ),簡(jiǎn)潔耐看

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版