国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

變分推理、自編碼器與擴(kuò)散模型的頻率學(xué)派統(tǒng)計(jì)導(dǎo)論

0
分享至

A Frequentist Statistical Introduction to Variational Inference,Autoencoders, and Diffusion Models

變分推理、自編碼器與擴(kuò)散模型的頻率學(xué)派統(tǒng)計(jì)導(dǎo)論

https://www.arxiv.org/pdf/2510.18777



摘 要:

盡管變分推斷(VI)是現(xiàn)代生成模型(如變分自編碼器(VAEs)和去噪擴(kuò)散模型(DDMs))的核心,但其教學(xué)處理卻分散在不同的學(xué)科中。在統(tǒng)計(jì)學(xué)中,VI 通常被描述為一種貝葉斯方法,用于近似后驗(yàn)分布。然而,在機(jī)器學(xué)習(xí)中,VAEs 和 DDMs 是從頻率學(xué)派的觀點(diǎn)開發(fā)的,其中 VI 被用于近似最大似然估計(jì)器。這為統(tǒng)計(jì)學(xué)家創(chuàng)造了一個(gè)障礙,因?yàn)槿绻麤]有對(duì)應(yīng)的頻率學(xué)派對(duì) VI 的介紹,VAEs 和 DDMs 背后的原理很難被理解。本文提供了這種介紹:我們從純粹的頻率學(xué)派視角解釋了 VI、VAEs 和 DDMs 的理論,從經(jīng)典的期望最大化(EM)算法開始。我們展示了 VI 如何作為一種可擴(kuò)展的解決方案用于難以處理的 E 步驟,以及 VAEs 和 DDMs 如何成為這一框架的自然的、基于深度學(xué)習(xí)的擴(kuò)展,從而彌合了經(jīng)典統(tǒng)計(jì)推斷與現(xiàn)代生成人工智能之間的差距。

1 引 言
變分推斷(VI)是現(xiàn)代機(jī)器學(xué)習(xí)中一套強(qiáng)大的方法。然而,在統(tǒng)計(jì)學(xué)文獻(xiàn)中,VI 最常被介紹為貝葉斯框架下的方法,它作為一種不可或缺的工具,用于近似那些難以處理的后驗(yàn)分布(Bishop 和 Nasrabadi,2006;Blei 等人,2017;Kejzlar 和 Hu,2024;Sj?lund,2023)。

矛盾的是,VI 最成功的兩個(gè)應(yīng)用——變分自編碼器(VAE)和去噪擴(kuò)散模型(DDM)——通常是基于頻率學(xué)派的觀點(diǎn)構(gòu)建的。關(guān)于 VAE(Doersch,2016;Kingma 和 Welling,2019)和 DDM(Chan,2024;Luo,2022)的重要教程并沒有對(duì)模型參數(shù)設(shè)置先驗(yàn)。相反,它們的目標(biāo)是近似復(fù)雜生成模型的最大似然估計(jì)器(MLE)。這種方法論上的分歧造成了一個(gè)教學(xué)上的空白:盡管 VAE 和 DDM 在人工智能中居于核心地位,但它們?cè)诮y(tǒng)計(jì)學(xué)界的采用速度較慢,部分原因是缺乏以一種對(duì)許多統(tǒng)計(jì)學(xué)家來說更自然的方式來介紹這些方法。

本文旨在填補(bǔ)這一關(guān)鍵空白。我們提供了一個(gè)完全基于頻率學(xué)派原則的關(guān)于 VI、VAE 和 DDM 的自足性介紹。通過展示這些技術(shù)本質(zhì)上是強(qiáng)大的優(yōu)化和函數(shù)近似算法(Chen 等人,2018;Ormerod 和 Wand,2010),且獨(dú)立于貝葉斯背景,我們希望使這些強(qiáng)大的生成模型對(duì)統(tǒng)計(jì)學(xué)界來說更加易于接近和直觀。

大綱。我們?cè)诘?2 節(jié)從頻率學(xué)派的潛變量模型基礎(chǔ)開始,并回顧期望最大化(EM)算法。我們專注于兩個(gè)關(guān)鍵變體——蒙特卡洛 EM(MCEM)算法和正則化 Q 函數(shù)——它們直接推動(dòng)了向變分推斷(VI)的轉(zhuǎn)變。在此基礎(chǔ)上,第 3 節(jié)將 VI 介紹為一種用于近似 EM 算法中難以處理的 E 步驟的通用方法,將證據(jù)下界(ELBO)作為正則化 Q 函數(shù)的變分類比。接下來,在第 4 節(jié),我們通過引入攤銷 VI 和變分自編碼器(VAE)來解決經(jīng)典 VI 的計(jì)算限制,這使得 VI 能夠應(yīng)用于大規(guī)模的深度學(xué)習(xí)模型。最后,第 5 節(jié)將去噪擴(kuò)散模型(DDM)介紹為這一框架的深度、層次化擴(kuò)展,由正向(變分)和反向(生成)過程組成。我們?cè)诩夹g(shù)討論的結(jié)尾推導(dǎo)了簡(jiǎn)化的噪聲預(yù)測(cè)目標(biāo),這是 DDM 作為最先進(jìn)的圖像生成器取得實(shí)際成功的關(guān)鍵。

2 潛變量模型




2.1 EM算法



因此,運(yùn)行 EM 算法保證不會(huì)減少似然值,盡管它可能收斂到局部最大值,而不是全局最大值。

2.2 MCEM:蒙特卡洛

EM 當(dāng) E 步(方程 (1))中的積分難以處理時(shí),一個(gè)常見的解決方案是使用蒙特卡洛積分來近似 Q 函數(shù)。這種方法被稱為蒙特卡洛 EM(MCEM)算法(Wei 和 Tanner,1990)。

這個(gè)原理很簡(jiǎn)單。我們知道,如果同時(shí)觀察到 X 和 Z,那么完整數(shù)據(jù)對(duì)數(shù)似然的最大化是可行的。因此,E 步的一個(gè)簡(jiǎn)單的蒙特卡洛近似方法涉及生成一個(gè)單一的實(shí)現(xiàn):



2.3 Q 函數(shù)的正則化形式

在 EM 算法中,Q 函數(shù)是整個(gè)過程的核心。雖然可以從缺失數(shù)據(jù)的角度來理解它,但另一種替代且強(qiáng)大的視角是將其框架為正則化的對(duì)數(shù)似然函數(shù)(Neal 和 Hinton,1998)。



2.4 示例:EM算法的局限性盡管EM算法在最大似然估計(jì)(MLE)沒有閉式解時(shí)是一種有效方法,但其適用性受限于E步的可處理性。在此,我們通過一個(gè)例子來說明這一局限性。


一般來說,這個(gè)分布不屬于任何標(biāo)準(zhǔn)分布族,這使得方程(1)中 Q 函數(shù)的解析計(jì)算變得難以處理。 如果我們采用 MCEM 方法,從方程(7)中的復(fù)雜分布中采樣也是一個(gè)不簡(jiǎn)單的問題。雖然馬爾可夫鏈蒙特卡洛(MCMC)方法可能對(duì)小的 d 和 k 有效,但當(dāng)這些維度很大時(shí),它們會(huì)變得異常緩慢,這在像圖像生成這樣的高維環(huán)境中是很常見的。

3 變分近似







3.1 ELBO的梯度與重參數(shù)化技巧

變分推斷(VI)的優(yōu)化不同于標(biāo)準(zhǔn)的梯度上升,因?yàn)樽顑?yōu)的變分參數(shù) ω? 依賴于全局參數(shù) θ。這種耦合關(guān)系要求采用嵌套或交替優(yōu)化方案。

在此,我們總結(jié)了一種用于計(jì)算VI估計(jì)量的梯度上升過程,該過程可輕松修改為隨機(jī)梯度上升算法(Hoffman et al., 2013)。我們從初始值 θ??? 開始,然后迭代以下步驟直至收斂:

對(duì)于給定的 θ???,我們首先通過運(yùn)行一個(gè)內(nèi)層梯度上升循環(huán),為每個(gè)觀測(cè)值找到最優(yōu)的變分參數(shù)。對(duì)于每個(gè) i = 1, ..., n,我們通過在 ω???? 處初始化(通常使用熱啟動(dòng),即 ω???? = ω?????1?)并進(jìn)行迭代:


關(guān)于 θ 的梯度。我們現(xiàn)在提供計(jì)算梯度 ?θELBO(θ, ω? | X?) 的詳細(xì)信息。在ELBO定義(公式(8))中的第二項(xiàng),即熵,不依賴于 θ。因此,該梯度為:


該方法類似于MCEM如何近似Q函數(shù)的梯度。在變分推斷(VI)中,此蒙特卡洛平均用于數(shù)值近似ELBO的梯度。相較于MCEM,其關(guān)鍵優(yōu)勢(shì)在于我們從可處理的變分分布 qω? 中采樣,而非從難以處理的 pθ(z|X?) 中采樣,從而避免了主要的計(jì)算瓶頸。

關(guān)于 ω? 的梯度及重參數(shù)化技巧。我們現(xiàn)在考慮關(guān)于變分參數(shù) ω? 的梯度,這在公式(11)的更新步驟中至關(guān)重要。ELBO中的兩項(xiàng)均依賴于 ω?:


其中,H(qω?) = ?∫ qω?(z) log qω?(z) dz 是變分分布的熵。對(duì)于許多標(biāo)準(zhǔn)分布,熵項(xiàng)的梯度 ?ω? H(qω?) 可以解析計(jì)算。因此,主要的挑戰(zhàn)在于計(jì)算第一項(xiàng)的梯度。

為使該梯度可處理,我們必須選擇一個(gè)方便的變分族。一個(gè)常見且強(qiáng)大的選擇是高斯平均場(chǎng)族。具體而言,我們假設(shè) qω?(z) 服從一個(gè)具有對(duì)角協(xié)方差矩陣的多元高斯分布,即 N(α?, diag(β?2)),其中變分參數(shù)為 ω? = (α?, β?) ∈ ?? × ???。這里,α? 是均值向量,β? 是標(biāo)準(zhǔn)差向量。高斯平均場(chǎng)分布是一種坐標(biāo)相互獨(dú)立的多元高斯分布。

這一選擇使得重參數(shù)化技巧得以應(yīng)用。一個(gè)隨機(jī)變量 Z ~ N(α?, diag(β?2)) 可以表示為其參數(shù)與一個(gè)標(biāo)準(zhǔn)正態(tài)隨機(jī)變量 ε ~ N(0, I?) 的確定性變換:



3.1.1 快速梯度上升的條件

上述推導(dǎo)突出了實(shí)現(xiàn)高效、基于梯度的變分推斷的兩個(gè)關(guān)鍵條件:

  • 可微模型。完整數(shù)據(jù)對(duì)數(shù)似然函數(shù) ?(θ|x,z) = log pθ(x,z) 必須關(guān)于模型參數(shù) θ 和潛在變量 z 均可微。對(duì)于現(xiàn)代深度生成模型(例如,X|Z=z ~ N(μθ(z), Σθ(z))),這要求函數(shù) μθ(z) 和 Σθ(z) 可微。這一條件在神經(jīng)網(wǎng)絡(luò)中很容易滿足,因?yàn)檫@些梯度可通過現(xiàn)代自動(dòng)微分框架中使用的反向傳播算法高效計(jì)算(Baydin 等, 2018; Rumelhart 等, 1986)。
  • 可重參數(shù)化的變分族。變分分布 qω(z) 必須是可重參數(shù)化的。許多常見的連續(xù)分布都滿足此性質(zhì),通常通過逆累積分布函數(shù)(CDF)法實(shí)現(xiàn),即樣本可表示為 Z = Fω?1(U),其中 U ~ Uniform[0,1]。這使得梯度 ?ω 能被有效處理。

4 攤銷變分推斷與變分自編碼器

前述VI框架存在兩個(gè)主要局限。首先,它需要優(yōu)化 n 個(gè)不同的變分參數(shù) (ω?, ..., ω?),隨著樣本量 n 增大,計(jì)算成本變得高昂。其次,用邊際分布 qω?(z) 近似條件分布 pθ(z|X?) 在概念上顯得笨拙。

攤銷變分推斷(AVI;Gershman and Goodman 2014)通過用一個(gè)單一的條件推斷模型 qφ(z|x) 替代獨(dú)立的變分分布,解決了這兩個(gè)問題。在此,變分參數(shù) φ 在所有數(shù)據(jù)點(diǎn)間共享。這樣,無論樣本量大小,我們只需優(yōu)化一組參數(shù)。著名的變分自編碼器(VAE;Kingma and Welling 2014)是AVI的一個(gè)重要應(yīng)用,尤其適用于圖像數(shù)據(jù)。

在AVI中,變分分布 qφ(z|x) 可通過建模 ω = fφ(x)(其中 f 通常是一個(gè)神經(jīng)網(wǎng)絡(luò)模型)從非攤銷的變分分布 qω(z) 構(gòu)造而來。在此構(gòu)造下,qφ(z|x) = qω=fφ(x)(z)。第4.1節(jié)提供了此方法的一個(gè)示例。

在AVI下,ELBO的推導(dǎo)類似:


與非攤銷VI相比,當(dāng)樣本量 n 較大時(shí),這大大降低了計(jì)算復(fù)雜度。方程(16)中對(duì)最大值點(diǎn)的搜索通常通過隨機(jī)梯度上升法完成。

4.1 示例:連接攤銷與非攤銷VI

現(xiàn)在我們考慮一個(gè)特例,即我們的攤銷變分分布 qφ(z|x) 是一個(gè)具有對(duì)角協(xié)方差矩陣的高斯分布:N(ηφ(x), diag(δ2φ,?(x), ..., δ2φ,?(x))),其中 ηφ(x), δ2φ(x) ∈ ?? 是某些函數(shù)。這是實(shí)踐中常見的選擇,可視為第3.1節(jié)中高斯平均場(chǎng)族的攤銷版本。

回想一下,在非攤銷的高斯平均場(chǎng)方法中,每個(gè)觀測(cè)值 X? 的變分分布為 qω?(z) = N(α?, diag(β?2)),其中 ω? = (α?, β?) 是一個(gè)直接優(yōu)化的獨(dú)立參數(shù)向量。

在攤銷設(shè)定下,函數(shù) ηφ(x) 和 δφ(x)(例如,由 φ 參數(shù)化的神經(jīng)網(wǎng)絡(luò))被訓(xùn)練用于預(yù)測(cè)任意給定輸入 x 的最優(yōu)均值和標(biāo)準(zhǔn)差。因此,其關(guān)聯(lián)可表示為:


這突顯了根本性差異:非攤銷VI直接優(yōu)化 n 個(gè)獨(dú)立的參數(shù)向量 (ω?, ..., ω?),而AVI則優(yōu)化一個(gè)單一的全局參數(shù)向量 φ,該向量用于生成每個(gè)觀測(cè)值的局部參數(shù)。盡管AVI大幅降低了計(jì)算負(fù)擔(dān)并允許對(duì)新數(shù)據(jù)點(diǎn)進(jìn)行推斷,但這種效率可能以犧牲近似精度為代價(jià)。由于攤銷函數(shù)表達(dá)能力有限而導(dǎo)致的ELBO潛在下降,被稱為“攤銷間隙”(Cremer 等, 2018; Margossian 和 Blei, 2023)。

4.2 攤銷ELBO的梯度

為計(jì)算公式(16)中的AVI估計(jì)量,我們可再次使用梯度上升或隨機(jī)梯度上升算法(Bottou, 2010; Robbins 和 Monro, 1951)。在AVI中,優(yōu)化過程比非攤銷情況要簡(jiǎn)單得多,因?yàn)樽兎謪?shù) φ 在所有觀測(cè)值間共享。這消除了嵌套優(yōu)化循環(huán)的需要。

梯度上升是一個(gè)標(biāo)準(zhǔn)流程。從初始值 θ??? 和 φ??? 開始,參數(shù)在 t = 0, 1, ... 時(shí)更新直至收斂:


這些梯度的計(jì)算方式與非攤銷情況類似。關(guān)于模型參數(shù) θ 的梯度可通過蒙特卡洛平均進(jìn)行估計(jì),而關(guān)于變分參數(shù) φ 的梯度在選擇合適的變分族前提下,可利用重參數(shù)化技巧高效計(jì)算。我們?cè)诟戒?A 中提供了詳細(xì)的推導(dǎo)過程。

在現(xiàn)代應(yīng)用中(如 VAE),通常使用深度神經(jīng)網(wǎng)絡(luò)來指定生成模型 pθ(x|z)。例如,人們可能會(huì)建模


其中,均值函數(shù) μθ(z) 和協(xié)方差函數(shù) Σθ(z) 本身也由神經(jīng)網(wǎng)絡(luò)參數(shù)化。在此設(shè)定下,這些函數(shù)關(guān)于 θ 和 z 所需的梯度可通過現(xiàn)代自動(dòng)微分框架中使用的反向傳播算法高效計(jì)算(Baydin 等, 2018; Rumelhart 等, 1986)。

因此,只要模型是可微的,且變分族是可重參數(shù)化的(即滿足第3.1.1節(jié)中的條件),攤銷變分推斷(AVI)估計(jì)量就可以通過梯度上升或隨機(jī)梯度上升高效地計(jì)算。

4.3 變分自編碼器(VAE)

在潛變量模型中,數(shù)據(jù)生成過程被建模為:首先抽取一個(gè)潛變量 Z ~ p(z),然后抽取一個(gè)觀測(cè)值 X ~ pθ(x|z)。在VAE文獻(xiàn)中,條件分布 pθ(x|z) 的模型被稱為解碼器;它將潛表示 Z 解碼為觀測(cè)值 X。

當(dāng)我們應(yīng)用AVI時(shí),我們引入一個(gè)條件分布 qφ(z|x),作為對(duì)真實(shí)條件分布的可處理近似。該分布可被解釋為一個(gè)從觀測(cè)變量 X 推斷潛變量 Z 的模型。在VAE文獻(xiàn)中,此變分分布 qφ(z|x) 被稱為編碼器;它將觀測(cè)值 X 編碼為潛表示 Z。

然而,從統(tǒng)計(jì)學(xué)角度看,概念起點(diǎn)通常與深度學(xué)習(xí)文獻(xiàn)不同。VAE實(shí)踐者常常先設(shè)計(jì)編碼器的架構(gòu),再構(gòu)建對(duì)應(yīng)的解碼器以建模反向的生成映射。下一節(jié)討論的去噪擴(kuò)散模型就體現(xiàn)了這一方法,其教程通常從正向過程(定義變分分布)開始,再推導(dǎo)反向過程(生成模型)。這種建模哲學(xué)上的差異往往源于對(duì)生成效用與科學(xué)可解釋性關(guān)注點(diǎn)的不同;更多討論請(qǐng)參見第6.2節(jié)。

總結(jié)角色如下:

  • 解碼器:解碼器 pθ(x|z) 是描述數(shù)據(jù)生成過程的模型。
  • 編碼器:編碼器 qφ(z|x) 是變分分布,作為對(duì)真實(shí)但難以處理的 pθ(z|x) 的可處理、可計(jì)算近似。

必須認(rèn)識(shí)到,解碼器 pθ(x|z) 和先驗(yàn) p(z) 足以完整定義聯(lián)合分布 pθ(x,z),并根據(jù)貝葉斯定理確定真實(shí)條件分布 pθ(z|x)。然而,在高維情況下,對(duì)該模型進(jìn)行精確推斷通常是不可行的。因此,為了計(jì)算可行性,我們引入一個(gè)獨(dú)立的、可處理的推斷模型——編碼器 qφ(z|x)——來近似真實(shí) pθ(z|x)。

這意味著編碼器和解碼器在一般情況下是不兼容的。編碼器 qφ(z|x) 并非由解碼器和先驗(yàn)推導(dǎo)出的真實(shí)條件分布。事實(shí)上,如果它們兼容(即,若 qφ(z|x) = pθ(z|x)),則變分推斷將是精確的,EM/MCEM算法也將適用。盡管存在這種不兼容性,編碼器-解碼器配對(duì)仍創(chuàng)建了一種計(jì)算上可行的方案,用于通過可處理的AVI估計(jì)量來近似難以處理的最大似然估計(jì)量 。

5 去噪擴(kuò)散模型(DDM)

去噪擴(kuò)散模型(DDM),也稱為變分?jǐn)U散模型,是一類強(qiáng)大的生成模型,尤其適用于圖像合成(Ho 等, 2020; Sohl-Dickstein 等, 2015)。DDM 可以被理解為 VAE/AVI 框架的一個(gè)特例。在此,我們使用統(tǒng)計(jì)潛變量模型的語(yǔ)言來闡述 DDM。簡(jiǎn)言之,DDM 是一種通過攤銷變分近似進(jìn)行訓(xùn)練的深層潛變量模型。圖1 提供了直觀的總結(jié)。


5.1 一個(gè)深層潛變量模型

傳統(tǒng)的潛變量模型是“淺層”的,僅由單個(gè)潛向量 Z 生成觀測(cè)值 X。DDM 通過引入形成馬爾可夫鏈的一系列潛變量,深化了這一結(jié)構(gòu)。為簡(jiǎn)化起見,我們假設(shè)所有變量(包括觀測(cè)變量和潛變量)維度相同,即 X, Z ∈ ??。

傳統(tǒng)的“淺層”生成過程由一個(gè)有向無環(huán)圖(DAG)表示:



如第2.4節(jié)所示,即使對(duì)于該模型的單一層(T=1),EM算法也會(huì)失效。當(dāng)層數(shù)為T時(shí),問題會(huì)顯著加劇。為解決這一不可處理性,我們?cè)俅无D(zhuǎn)向變分近似,特別是第4節(jié)中介紹的AVI方法。

5.2 變分近似

為了將AVI方法應(yīng)用于深層潛變量模型,我們首先推導(dǎo)相應(yīng)的ELBO:



由于變分模型是一個(gè)高斯自回歸過程,項(xiàng)(B)和(C)可以解析計(jì)算。項(xiàng)(A)則需要蒙特卡洛近似,但由于公式(24)所具有的單次采樣(one-shot sampling)性質(zhì),這一近似可以高效實(shí)現(xiàn)。接下來我們推導(dǎo)(B)和(C)的解析形式。



5.3 DDM的ELBO梯度

由于DDM是AVI/VAE框架的一個(gè)特例,其梯度計(jì)算遵循第4.2節(jié)和附錄A中概述的相同原則。需要注意的是,在標(biāo)準(zhǔn)DDM實(shí)現(xiàn)(Ho等, 2020)中,變分參數(shù) φ?, ..., φ? 并不進(jìn)行學(xué)習(xí),而是作為固定超參數(shù)預(yù)先定義。這使得優(yōu)化僅針對(duì)生成模型參數(shù);更多討論見第5.5節(jié)。然而,若有必要,變分參數(shù) φ?, ..., φ? 也是可學(xué)習(xí)的。根據(jù)構(gòu)造,DDM的前向過程是一個(gè)高斯自回歸模型,因此重參數(shù)化技巧可直接用于計(jì)算關(guān)于變分參數(shù) φ 的梯度。

關(guān)于生成模型參數(shù) θ 的精煉ELBO梯度,對(duì)于每個(gè)參數(shù) θ? 是可分離的:



將數(shù)據(jù)生成過程視為一個(gè)“去噪”過程。公式(27)中梯度的形式提供了一個(gè)關(guān)鍵洞見:參數(shù) θ? 的學(xué)習(xí)信號(hào)來源于 pθ(y???|y?) 的得分函數(shù)。該任務(wù)本質(zhì)上是要求模型在給定一個(gè)更嘈雜的狀態(tài) ?? 時(shí),預(yù)測(cè)出一個(gè)更干凈的狀態(tài) ????。因此,生成(逆向)模型 pθ 學(xué)會(huì)逐步對(duì)一系列潛變量進(jìn)行去噪,從純?cè)肼?Y? 開始,最終得到一張干凈的圖像 Y?。

5.4 前向與逆向過程

上述描述的變分框架將DDM視為一種特定類型的VAE。解碼器是我們的數(shù)據(jù)生成模型 pθ,它描述了如何從純?cè)肼曌兞?Y? = Z 生成觀測(cè)值 Y?。編碼器是我們的變分分布 qφ,它是一個(gè)高斯自回歸模型。在DDM文獻(xiàn)中,這兩個(gè)組件被稱為前向過程和逆向過程。

編碼器 qφ 將觀測(cè)值 Y? 映射到最終的潛噪聲變量 Y?,被稱為前向過程。它是一個(gè)高斯自回歸模型,通過依次向觀測(cè)值添加高斯噪聲(如公式(23)所示),其行為類似于擴(kuò)散過程。

解碼器 pθ 則以相反方向運(yùn)行。它從純?cè)肼?Y? 開始,依次移除噪聲以恢復(fù)原始觀測(cè)值 Y?。這被稱為逆向過程,在功能上是一個(gè)去噪過程。這兩個(gè)組件的結(jié)合賦予了“去噪擴(kuò)散模型”其名稱。

許多關(guān)于DDM的教程先介紹前向過程,再推導(dǎo)逆向過程(Ho等, 2020; Luo, 2022),因?yàn)檫@與實(shí)現(xiàn)方式一致——計(jì)算機(jī)將首先執(zhí)行前向過程,然后利用逆向過程來擬合參數(shù) θ。這與統(tǒng)計(jì)建模的傳統(tǒng)形成對(duì)比,后者通常從數(shù)據(jù)生成模型(即逆向過程)開始,再構(gòu)建變分近似(即前向過程)作為可處理推斷的工具。

總結(jié)對(duì)應(yīng)的術(shù)語(yǔ):

  • 解碼器 = 逆向過程 = 數(shù)據(jù)生成模型:一個(gè)具有馬爾可夫鏈結(jié)構(gòu)的深層潛變量模型,學(xué)會(huì)逐步將變量從純?cè)肼暼ピ霝橛^測(cè)值。
  • 編碼器 = 前向過程 = 變分分布:一個(gè)具有相似馬爾可夫結(jié)構(gòu)的高斯自回歸模型,逐步向觀測(cè)值添加噪聲。

5.5 實(shí)際實(shí)現(xiàn)與簡(jiǎn)化目標(biāo)

完整的ELBO為DDM提供了理論基礎(chǔ),但在實(shí)踐中,從業(yè)者已采用若干關(guān)鍵設(shè)定,以獲得更穩(wěn)定、更高效的目標(biāo)函數(shù),從而支持大規(guī)模訓(xùn)練。

固定變分參數(shù)與協(xié)方差矩陣模型。在實(shí)踐中,DDM的訓(xùn)練過程通過若干關(guān)鍵設(shè)定變得更加高效。首先,變分分布(即前向過程)的參數(shù)并非從數(shù)據(jù)中學(xué)習(xí),而是被固定為預(yù)定義的超參數(shù),統(tǒng)稱為“方差調(diào)度表”(variance schedule)(Ho等, 2020)。此外,逆向(數(shù)據(jù)生成)過程中的協(xié)方差矩陣也被假定為固定且對(duì)角的,通常表示為 Σθ?(y?) = σ?2I_d。方差 σ?2 是已知常數(shù),通常與前向過程的方差調(diào)度表相關(guān)聯(lián)。此設(shè)定具有兩大主要優(yōu)勢(shì):第一,它消除了學(xué)習(xí)任何方差參數(shù)的需求;第二,它將ELBO中與 θ 相關(guān)的部分簡(jiǎn)化為一個(gè)加權(quán)最小二乘目標(biāo)。如公式(26)所示,ELBO關(guān)于均值函數(shù) μθ? 的梯度變?yōu)椋?/p>


5.5.1 噪聲預(yù)測(cè)形式Ho 等人(2020)的關(guān)鍵洞見在于,該目標(biāo)函數(shù)可以被重新表述為一個(gè)噪聲預(yù)測(cè)任務(wù)。公式(30)的核心準(zhǔn)則是如下期望(為簡(jiǎn)化起見,將梯度算子 ?θ 移出):





6 結(jié)論

變分推斷(VI)、變分自編碼器(VAEs)和擴(kuò)散模型(DDMs)在潛變量建模與似然近似方面共享一個(gè)共同的基礎(chǔ)。從經(jīng)典的EM算法出發(fā),我們看到VI是通過用可處理的變分族 qω?(z) 替代難以處理的條件分布 p(z|x=X?; θ???) 而自然衍生出的一種松弛方法。攤銷VI進(jìn)一步通過學(xué)習(xí)條件映射 qφ(z|x) 簡(jiǎn)化了計(jì)算,從而實(shí)現(xiàn)大規(guī)模估計(jì),并構(gòu)成了VAEs的核心框架。最后,DDM將此框架擴(kuò)展為一個(gè)具有馬爾可夫鏈結(jié)構(gòu)的深層潛變量模型,提供了一種最強(qiáng)大的現(xiàn)代生成建模工具。

6.1 變分推斷:頻率學(xué)派還是貝葉斯學(xué)派?

盡管VI常被作為貝葉斯方法引入(Blei等, 2017; Doersch, 2016; Kingma & Welling, 2014),但它本身并非固有的貝葉斯方法。在我們的分析中,VI完全是從頻率學(xué)派視角發(fā)展而來的:我們并未對(duì)感興趣的參數(shù)θ施加任何先驗(yàn)。相反,VI純粹作為一種計(jì)算工具,用于在似然函數(shù)難以處理時(shí)近似最大似然估計(jì)量。

話雖如此,如果推斷的主要目標(biāo)是潛變量Z而非模型參數(shù)θ2,則VI也可置于貝葉斯語(yǔ)境下理解。在這種情況下,分布p(z)扮演先驗(yàn)的角色,而難以處理的條件分布p(z|x;θ)則代表后驗(yàn)分布。變分分布qω(z)或qφ(z|x)隨后便為該后驗(yàn)提供了可處理的近似。

最終,VI最好被理解為一種通用的計(jì)算框架,用于近似難以處理的條件分布p(z|x;θ)。它同樣適用于頻率學(xué)派設(shè)定(如潛空間模型),也適用于貝葉斯問題(如對(duì)潛變量的后驗(yàn)推斷)。無論從哪個(gè)視角出發(fā),VI都通過相同的底層優(yōu)化原則,統(tǒng)一了計(jì)算可處理性與概率近似。

6.2 潛變量建模:生成效用 vs 科學(xué)可解釋性

潛變量在深度生成模型(VAEs、DDMs)中的作用與它們?cè)趥鹘y(tǒng)統(tǒng)計(jì)學(xué)中的作用顯著不同——這體現(xiàn)了“生成效用”與“科學(xué)可解釋性”之間的區(qū)分。

在VAEs和DDMs中,潛變量主要作為一種工具,用于構(gòu)建靈活且高容量的模型,以近似復(fù)雜的數(shù)據(jù)分布(例如自然圖像)。其主要目標(biāo)是生成性能——即產(chǎn)生逼真的數(shù)據(jù)——而計(jì)算可處理性是關(guān)鍵約束。因此,單個(gè)潛變量維度的可解釋性通常是次要的,模型架構(gòu)可以自由修改以提升效果。DDM中允許噪聲預(yù)測(cè)公式的模型設(shè)定(第5.5節(jié))正突顯了這一原則。

相反,在因子分析等經(jīng)典潛變量方法中,主要目標(biāo)是科學(xué)解釋(Anderson, 2003; Harman, 1976)。潛變量被假定代表基于領(lǐng)域知識(shí)的有意義、潛在的構(gòu)造。其含義至關(guān)重要,對(duì)模型潛結(jié)構(gòu)的任何更改都需要強(qiáng)有力的理論或統(tǒng)計(jì)依據(jù)。因此,盡管程序上存在相似之處,這兩種范式由不同的哲學(xué)所引導(dǎo):一種由預(yù)測(cè)能力驅(qū)動(dòng),另一種由解釋性洞察驅(qū)動(dòng)。

原文鏈接:https://www.arxiv.org/pdf/2510.18777

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭(zhēng)議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭(zhēng)議

阿SIR觀察
2026-01-27 10:38:05
高詩(shī)巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩(shī)巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

星耀國(guó)際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰(shuí)看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰(shuí)看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國(guó)成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國(guó)成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長(zhǎng)必看

牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長(zhǎng)必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

過了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國(guó)武器庫(kù)!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

突擊檢查全國(guó)武器庫(kù)!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

揚(yáng)子晚報(bào)
2026-01-27 21:52:52
性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機(jī)場(chǎng)“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

首都機(jī)場(chǎng)“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

瀟湘晨報(bào)
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

大風(fēng)新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

魯中晨報(bào)
2026-01-27 16:23:14
沉默24小時(shí)后,卡尼終于發(fā)聲,與中國(guó)協(xié)議作廢,美財(cái)長(zhǎng)得寸進(jìn)尺

沉默24小時(shí)后,卡尼終于發(fā)聲,與中國(guó)協(xié)議作廢,美財(cái)長(zhǎng)得寸進(jìn)尺

天仙無味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國(guó)家

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國(guó)家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

家居
游戲
藝術(shù)
教育
公開課

家居要聞

現(xiàn)代古典 中性又顯韻味

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

藝術(shù)要聞

震撼!19世紀(jì)油畫巨匠的作品美得不可思議!

教育要聞

對(duì)話陳妤頡:閃閃發(fā)光的賽道,追逐夢(mèng)想

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版