網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

生成式分位數(shù)貝葉斯預測

2026-02-11 16:17:49　來源: CreateAMind

上海舉報

分享至

Generative Quantile Bayesian Prediction

生成式分位數(shù)貝葉斯預測

https://arxiv.org/pdf/2510.21784

摘要

預測是機器學習的核心任務。我們的目標是利用生成式貝葉斯預測（GBP）解決大規(guī)模預測問題。通過直接學習預測分位數(shù)而非概率密度，我們在理論和實踐上獲得了諸多優(yōu)勢。我們將該方法與包括共形預測、基準預測以及邊際似然在內(nèi)的前沿方法進行了對比。我們方法的突出特點是利用生成式方法來構(gòu)建預測分位數(shù)圖。我們通過正態(tài)-正態(tài)學習和因果推斷的案例來展示該方法。最后，我們對未來的研究方向進行了總結(jié)。

關(guān)鍵詞：生成式方法，貝葉斯預測，深度學習，共形預測，分位數(shù)神經(jīng)網(wǎng)絡，不確定性量化

1 引言

預測是現(xiàn)代機器學習的核心任務。我們的目標是提供一個大規(guī)模預測框架。Efron [2020] 闡述了這對現(xiàn)代統(tǒng)計方法如何構(gòu)成挑戰(zhàn)，以及深度學習、神經(jīng)網(wǎng)絡和隨機森林等純粹的“黑箱”方法 [Breiman, 2001] 如何可能超越傳統(tǒng)的統(tǒng)計回歸方法。Hill [1968] 提出了一種無需指定先驗分布的貝葉斯推斷方法，隨后 Lei 和 Wasserman [2014] 將其推廣至回歸情形。我們專注于直接對預測分位數(shù)函數(shù)進行建模的生成式貝葉斯方法，因而無需涉及似然函數(shù)和先驗分布。正如 Ritov [2025] 近期所指出的，這一特性在高維問題中尤為重要。我們的方法建立在 Parzen (2004, 2009) 發(fā)展的分位數(shù)推斷框架之上，我們將對此進行詳細闡述。

我們的方法為機器學習中廣泛使用的共形預測方法提供了一種替代方案。條件生成建模的基本洞見在于，它可以借助非參數(shù)分位數(shù)回歸 [White, 1992] 來實現(xiàn)。具體而言，我們希望找到一個分位數(shù)函數(shù)族，用以描述在給定 X 的條件下，輸出變量 Y 的預測分布，其表達式為：

我們的研究也建立在隱含分位數(shù)神經(jīng)網(wǎng)絡文獻 Dabney 等人 [2018] 以及 Polson 和 Sokolov [2023] 的生成式貝葉斯建模框架之上。

我們旨在直接找到 Breiman [2001] 所提出的預測規(guī)則。我們將規(guī)避對參數(shù)的使用。存在三種方式來表述條件預測期望：
(1) 使用密度函數(shù)，
(2) 使用生存函數(shù)，以及
(3) 使用分位數(shù)。

在貝葉斯框架中，預測密度的計算需要通過積分來求取邊際密度。

在貝葉斯框架中，預測密度的計算需要通過積分來求取邊際密度。這可以通過馬爾可夫鏈蒙特卡洛（MCMC）方法實現(xiàn)。而在生成式人工智能（Polson 和 Sokolov [2023]）中，我們直接將逆條件累積分布函數(shù)
建模為一個神經(jīng)網(wǎng)絡映射。

盡管我們的方法在某種意義上“免先驗”且“免似然”——因為我們沒有明確指定這些量——但必須認識到，該方法隱含著特定的假設。神經(jīng)網(wǎng)絡架構(gòu)、損失函數(shù)和正則化的選擇，共同定義了我們所能表示的一類條件分布。理解這一隱含類的性質(zhì)，仍然是一個重要的理論研究方向。在我們所舉的正態(tài)-正態(tài)學習例子中，其與王（Wang）扭曲函數(shù)的聯(lián)系提供了有價值的理論見解。這表明，我們的分位數(shù)更新過程可以被解釋為運用一個扭曲函數(shù)，將先驗分布轉(zhuǎn)換為后驗分布。對神經(jīng)網(wǎng)絡能夠?qū)W習的扭曲函數(shù)類進行刻畫，將為架構(gòu)設計提供理論指導。

考慮一個純粹的預測問題。“純粹”這一形容詞的合理性在于，算法專注于預測而忽略估計與歸因（Efron [2020]）。其基本策略很簡單：直接追求高預測精度，而無需擔憂“信號加噪聲”這類模型。這種做法具有一些顯著的優(yōu)點，但也存在一些缺點。具體而言，假設我們擁有輸入-輸出數(shù)據(jù)對
。不同的純粹預測算法彼此之間可能差異很大。其中結(jié)構(gòu)最不復雜且最易于描述的是隨機森林（Breiman [2001]）。近期的研究則集中于共形預測和預測驅(qū)動的推斷。

貝葉斯推斷的一個核心原則是一致性：要求所有的概率陳述和預測在內(nèi)部保持一致，并從一個單一的聯(lián)合概率模型中推導出來。這種一致性是通過為參數(shù)指定一個先驗分布來實現(xiàn)的，然后根據(jù)觀測數(shù)據(jù)，通過貝葉斯定理對該分布進行更新。

我們的研究建立在Parzen [2004, 2009]的統(tǒng)計框架之上，他證明了貝葉斯規(guī)則對于分位數(shù)而言是函數(shù)的復合（疊加）。因此，我們可以利用分位數(shù)神經(jīng)網(wǎng)絡（Polson等人 [2024], Polson和Sokolov [2023]），將預測問題替換為一個基于非參數(shù)分布匹配（Lu和Wong [2025]）的問題。

分位數(shù)貝葉斯預測
此方法已廣泛應用于分布決策領(lǐng)域 [Dabney 等人 [2017], Polson 等人 [2024]] 和計量經(jīng)濟學 [Chernozhukov 等人 [2010, 2021]]。雖然經(jīng)典的分位數(shù)方法是為單變量開發(fā)的 [Koenker [2005]]，但最近已有多種針對多變量情況提出的方法 [Carlier 等人 [2016], Kim 等人 [2025]]。這些方法需要使用神經(jīng)網(wǎng)絡來訓練從估計中獲得的傳輸映射。

共形預測這是一種統(tǒng)計技術(shù)，它提供了一個靈活的框架，用以構(gòu)建具有指定置信水平的預測區(qū)間或集合，且不依賴于基礎(chǔ)數(shù)據(jù)分布。其工作原理是通過一個非合群度量，評估新數(shù)據(jù)點與一組先前觀測數(shù)據(jù)的符合程度，以此量化新觀測相對于現(xiàn)有數(shù)據(jù)的異?；虻湫统潭?。借助可交換性的概念，共形預測確保所構(gòu)建的預測區(qū)間或集合具有有效的覆蓋概率，這意味著即使在有限樣本下，它們也能以預先設定的概率包含響應變量的真實值。這使得共形預測成為機器學習和統(tǒng)計推斷中不確定性量化的有力工具，因為它提供了與分布無關(guān)、模型無關(guān)的預測可靠性保證。Angelopoulos 等人 [2022] 和 Angelopoulos 等人 [2023] 描述了共形預測方法的使用。我們將證明，生成式分位數(shù)貝葉斯方法是進行預測推斷的一種自然方法。Polson 和 Sokolov [2023] 為推斷開發(fā)了這些方法，Polson 等人 [2024] 則將其用于強化學習。然而，盡管共形映射提供了不確定性量化，它們并不必然導致一致的推斷，并且可能隱含了一個具有不存在先驗的模型。

預測與基準推斷從基準預測分布導出的預測區(qū)間，并不自動具備共形預測區(qū)間所特有的、強大的、有限樣本的、與分布無關(guān)的邊際覆蓋保證。基準預測區(qū)間的頻率覆蓋性質(zhì)可能很復雜，并且可能依賴于所使用的特定模型和基準論證的性質(zhì) [Liu 和 Martin, 2024]。相比之下，共形預測通過構(gòu)造，利用可交換數(shù)據(jù)上的非合群分數(shù)進行校準步驟，來實現(xiàn)其保證。

分位數(shù)回歸在給定某些預測變量的條件下，對響應變量的條件分位數(shù)（或百分位數(shù)）進行建模，而經(jīng)典回歸則是對條件均值進行建模。這使得我們能夠更全面地理解變量之間的關(guān)系，特別是當響應變量的條件分布非正態(tài)，或關(guān)注分布的不同部分（例如，第10百分位數(shù)、中位數(shù)、第90百分位數(shù)）時。它對于具有異方差性的數(shù)據(jù)尤其有用，因為它可以建模分布的離散程度如何隨預測變量變化。廣義基準推斷 [Hannig 等人, 2016]。后驗預測檢驗 [Box, 1980] 和 [Sinharay 和 Stern, 2003]。

Hannig 等人 [2016] 將這一思想推廣到生成式方法，例如深度基準預測。盡管該方法無需指定似然函數(shù)和先驗分布，但其中無疑隱含了一個先驗。具體而言，Hannig 指出，該先驗是“經(jīng)驗”杰弗里斯先驗。它涉及觀測信息與期望信息的比較，以及三明治估計量。這為這類默認貝葉斯程序提供了一個很好的解釋。

本質(zhì)上， ∣ d u / d θ ∣ 即是該隱含先驗。經(jīng)驗杰弗里斯先驗源于拉普拉斯近似。對于預測問題，其思想是相同的。

一種由Leonard [1976]提出的替代方法被稱為逆向預測貝葉斯，它反向應用了貝葉斯定理。對于未來數(shù)據(jù) z z和當前數(shù)據(jù) x x，反向應用貝葉斯定理可得：

1.1 估計方法

核方法得到了眾多泛化界的支持，這些泛化界通常表現(xiàn)為描述基于核的估計器性能極限的不等式。一個特別重要的例子是k-近鄰（k-NN）的貝葉斯風險，它可以在核框架下表達為：

Schmidt-Hieber 和 Zamolodtchikov [2024] 展示了如何將核方法用于生成式方法。

1.2 分位數(shù)神經(jīng)網(wǎng)絡

分位數(shù)神經(jīng)網(wǎng)絡擴展了傳統(tǒng)神經(jīng)網(wǎng)絡，使其能夠估計條件分位數(shù)，而不僅僅是條件均值，這使得它們對于在特征空間中方差發(fā)生變化的異方差數(shù)據(jù)尤其有價值。該方法結(jié)合了神經(jīng)網(wǎng)絡架構(gòu)的靈活性與分位數(shù)回歸的統(tǒng)計特性 [Koenker, 2005]。

分位數(shù)損失函數(shù)是凸函數(shù)，并提供不對稱的懲罰，這促使網(wǎng)絡學習第 τ 分位的條件分位數(shù)。當 τ = 0.5 時，該函數(shù)簡化為平均絕對誤差，對應于中位數(shù)回歸。

我們使用條件分位數(shù)神經(jīng)網(wǎng)絡（亦稱為隱式分位數(shù)神經(jīng)網(wǎng)絡 IQN）[Dabney et al., 2018]。我們希望估計一個函數(shù)：

2 生成貝葉斯預測

預測貝葉斯充分性存在許多預測充分統(tǒng)計量，包括針對指數(shù)族和降維方法的統(tǒng)計量 [Ressel, 1985]。

神經(jīng)網(wǎng)絡估計有多種方法可用于條件分位數(shù)函數(shù)的神經(jīng)網(wǎng)絡估計。White [1992] 為非參數(shù)條件分位數(shù)估計提供了理論基礎(chǔ)，并在計量經(jīng)濟學文獻中確立了一致性結(jié)果。在此基礎(chǔ)之上，Polson 和 Sokolov [2023] 遵循 Schmidt-Hieber 的理論框架，開發(fā)了使用 ReLU 網(wǎng)絡的方法 [Schmidt-Hieber, 2020]。這些方法也融入了基于核的技術(shù)，類似于近似貝葉斯計算（ABC）中使用的局部加窗技術(shù)。

Kim 等人 [2025] 提出了用于多元分位數(shù)回歸的深度學習方法，將經(jīng)典的單變量方法擴展到處理復雜的多元依賴關(guān)系。他們的框架使用神經(jīng)網(wǎng)絡直接學習條件分位數(shù)函數(shù)，避免了對顯式分布假設的需求。

Lu 和 Wong [2025] 的方法側(cè)重于非參數(shù)分布匹配，這與 ABC 方法有相似之處。其核心見解在于，通過以形如 I ( D ( ? , ? ) < ? )
的指示函數(shù)為條件（其中 D D表示預測密度之間的距離度量），可以將無限維問題降維。

一個關(guān)鍵的考慮因素是預測密度之間距離度量 D D的選擇。推土機距離（EMD）為比較分布提供了一個自然的度量標準。當處理來自分布的樣本時，問題轉(zhuǎn)變?yōu)槿绾斡行У販y量距離，從而引出了非參數(shù)密度估計問題。盡管 Bishop [1994] 在密度估計方面應對了這一挑戰(zhàn)，但直接處理分位數(shù)在計算和理論上具有優(yōu)勢。

3 應用
Efron 示例一個具有未知期望 θ 的正態(tài)分布作為動機示例，

正態(tài)學習考慮正態(tài)分布混合的預測分位數(shù)函數(shù)。我們發(fā)現(xiàn)，相較于處理密度混合，直接處理分位數(shù)混合更具優(yōu)勢。這種方法利用了Wang扭曲映射框架進行分位數(shù)更新。

對于兩成分正態(tài)分布混合，我們可以展示分位數(shù)是如何通過學習過程更新的。依據(jù) Shen 等人 [2002] 的研究，預測分位數(shù)函數(shù)的形式如下：

該公式與 Wang [2000] 的扭曲深度學習框架自然銜接，該框架為貝葉斯預測問題中的分位數(shù)更新提供了一種神經(jīng)網(wǎng)絡方法。

4 討論

我們提出了一種直接操作預測分位數(shù)而非概率密度的生成式貝葉斯預測框架，為大規(guī)模預測問題提供了一種新方法。我們方法的根本理論依據(jù)是Parzen的復合分位數(shù)恒等式，該等式表明條件分位數(shù)通過函數(shù)復合而非積分進行更新。這一數(shù)學性質(zhì)直接轉(zhuǎn)化為計算優(yōu)勢：神經(jīng)網(wǎng)絡憑借其層級架構(gòu)擅長學習復合函數(shù)，這使我們能夠在保持概率一致性的同時，規(guī)避傳統(tǒng)貝葉斯預測密度所需的昂貴計算積分。我們的方法為共形預測方法提供了一個引人注目的替代方案，同時兼具其免似然和免先驗的理想特性。然而，共形預測通過校準來實現(xiàn)與分布無關(guān)的覆蓋，同時將預測模型視為黑箱；與之不同，我們的生成式分位數(shù)方法直接對條件預測分布進行建模，并產(chǎn)生與一個隱含生成模型相一致的預測。這種一致性特性在需要概率推理的應用中可能具有重要價值。

與競爭框架相比，我們的方法具有顯著優(yōu)勢。傳統(tǒng)的貝葉斯預測推斷需要在后驗分布上進行積分，這要求指定似然函數(shù)和設定先驗分布，在高維場景下面臨巨大挑戰(zhàn)。基準推斷雖然也避免了顯式先驗，但通常需要對數(shù)據(jù)生成過程做出很強的結(jié)構(gòu)性假設。我們基于分位數(shù)的方法僅要求具備通過神經(jīng)網(wǎng)絡從數(shù)據(jù)中學習條件分位數(shù)函數(shù)的能力。從計算角度看，一旦訓練完成，預測只需要通過網(wǎng)絡進行一次前向傳播——這是一個常數(shù)時間操作，與核方法或基于MCMC的推斷形成鮮明對比。該方法天然地處理異方差數(shù)據(jù)和分布不對稱性，可擴展到現(xiàn)代深度學習架構(gòu)，并通過直接對條件分位數(shù)建模來適應局部數(shù)據(jù)特征。

盡管有其優(yōu)勢，我們的方法也面臨若干局限。與所有神經(jīng)網(wǎng)絡方法一樣，分位數(shù)神經(jīng)網(wǎng)絡需要仔細的超參數(shù)調(diào)優(yōu)，并且在小樣本情況下可能過擬合。確保分位數(shù)單調(diào)性需要架構(gòu)約束或懲罰項，且其可解釋性可能不如參數(shù)化模型透明。未來的研究有幾個充滿希望的方向：建立有限樣本或漸近保證、擴展到多元輸出空間、通過分位數(shù)處理效應發(fā)展與因果推斷的聯(lián)系，以及通過結(jié)構(gòu)化架構(gòu)融入領(lǐng)域知識。分位數(shù)通過復合進行更新的基本見解，為未來結(jié)合不確定性量化的預測研究奠定了堅實基礎(chǔ)。

原文鏈接：https://arxiv.org/pdf/2510.21784

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.