空間貝葉斯神經(jīng)網(wǎng)絡(luò)

2025-09-30 11:15:26　來源: CreateAMind

上海舉報

分享至

Spatial Bayesian neural networks 空間貝葉斯神經(jīng)網(wǎng)絡(luò)

https://www.sciencedirect.com/science/article/pii/S2211675324000162

摘要
用于空間過程的統(tǒng)計模型在空間數(shù)據(jù)分析中起著核心作用。然而，實踐中常規(guī)使用的往往是那些簡單、可解釋且被充分理解的模型，盡管先驗和后驗預(yù)測檢驗表明，這些模型可能無法很好地刻畫所關(guān)注底層過程中的空間異質(zhì)性。本文提出了一類新的、靈活的空間過程模型，我們稱之為空間貝葉斯神經(jīng)網(wǎng)絡(luò)（Spatial Bayesian Neural Networks, SBNNs）。SBNN 利用貝葉斯神經(jīng)網(wǎng)絡(luò)的表示能力，并通過在網(wǎng)絡(luò)中引入一個空間“嵌入層”（embedding layer），以及可能采用空間變化的網(wǎng)絡(luò)參數(shù)，使其適用于空間場景。SBNN 的校準(zhǔn)方式是：將其在空間精細(xì)網(wǎng)格上各位置處的有限維分布與目標(biāo)過程的有限維分布進(jìn)行匹配。該目標(biāo)過程可能易于模擬，或者我們可能擁有其大量實現(xiàn)樣本。我們提出了 SBNN 的若干變體，其中大多數(shù)在相同復(fù)雜度下比傳統(tǒng) BNN 更能準(zhǔn)確匹配目標(biāo)過程在選定網(wǎng)格上的有限維分布。我們還證明，SBNN 能夠表示實踐中常用的各種空間過程，例如高斯過程、對數(shù)正態(tài)過程和極大穩(wěn)定過程（max-stable processes）。我們簡要討論了可用于 SBNN 推斷的工具，并在最后總結(jié)了其優(yōu)勢與局限性。

關(guān)鍵詞：高斯過程；哈密頓蒙特卡洛；對數(shù)正態(tài)過程；非平穩(wěn)性；Wasserstein 距離

引言
大多數(shù)空間數(shù)據(jù)分析的核心是一種空間過程模型?？臻g統(tǒng)計學(xué)家可選擇的模型種類繁多，從無處不在的高斯過程模型（例如，Rasmussen 和 Williams，2006），到跨高斯類（trans-Gaussian）空間模型（例如，De Oliveira 等，1997），再到更為復(fù)雜的空間極值模型（例如，Davison 和 Huser，2015）。每一類模型本身都十分豐富，由此引發(fā)了一系列問題：應(yīng)選用哪一類協(xié)方差函數(shù)？模型是否應(yīng)考慮各向異性或非平穩(wěn)性？模型是否應(yīng)為非高斯的？該模型是否能帶來計算高效的推斷？在進(jìn)行空間統(tǒng)計分析時，需要做出大量建模決策并進(jìn)行診斷檢驗（Cressie，1993），而每當(dāng)空間統(tǒng)計學(xué)家面對新數(shù)據(jù)時，都必須重復(fù)這一過程。典型的分析流程要求使用者不僅熟悉大量可用的模型，還需掌握同樣多樣且復(fù)雜的計算工具。

在本文中，我們提出了一種空間統(tǒng)計分析的新范式，其核心在于使用 單一且高度自適應(yīng)的空間過程模型類 ，而不依賴于數(shù)據(jù)性質(zhì)或具體應(yīng)用場景。我們將該模型類中的成員稱為 空間貝葉斯神經(jīng)網(wǎng)絡(luò) （Spatial Bayesian Neural Network, SBNN）。我們通過將 SBNN 在空間精細(xì)網(wǎng)格上各位置處的分布與所關(guān)注的空間過程的分布進(jìn)行匹配，來對其進(jìn)行校準(zhǔn)。SBNN 由權(quán)重和偏置參數(shù)化，但其參數(shù)化維度很高，且其形式不隨使用場景而改變。因此，無論具體應(yīng)用或目標(biāo)空間過程如何，均可使用相同的校準(zhǔn)技術(shù)和算法。使用 SBNN 建模的主要目的是 免除空間統(tǒng)計學(xué)家在建模和計算方面做出復(fù)雜決策的負(fù)擔(dān) 。

SBNN 的核心是一個貝葉斯神經(jīng)網(wǎng)絡(luò)（Bayesian Neural Network, BNN；Neal, 1996），即網(wǎng)絡(luò)參數(shù)（權(quán)重和偏置）被賦予先驗分布的神經(jīng)網(wǎng)絡(luò)。

貝葉斯神經(jīng)網(wǎng)絡(luò)在空間或時空統(tǒng)計中并非全新概念。例如，McDermott 和 Wikle（2019）將其用于時空預(yù)測；Payares-Garcia 等（2023）將其用于從磁共振圖像中對神經(jīng)退行性疾病進(jìn)行分類；Kirkwood 等（2022）則將其用于地球化學(xué)制圖。然而，迄今為止的應(yīng)用通?；趯?quán)重和偏置施加較為簡單的先驗分布：這些先驗通常是用戶指定的、固定的，或與參數(shù)無關(guān)的。盡管這類先驗易于定義，但很可能導(dǎo)致先驗空間過程模型退化，或至少嚴(yán)重偏離所關(guān)注的真實過程的特性；參見 Neal（1996）在深度神經(jīng)網(wǎng)絡(luò)背景下、以及 Duvenaud 等（2014）和 Dunlop 等（2018）在深度高斯過程背景下對此的相關(guān)討論。這種退化源于神經(jīng)網(wǎng)絡(luò)的高度非線性特性，以及權(quán)重和偏置上的先驗分布對空間過程性質(zhì)所產(chǎn)生的復(fù)雜且不可預(yù)測的影響。雖然在數(shù)據(jù)量充足時，空間過程模型選擇不當(dāng)可能影響不大，但在數(shù)據(jù)稀缺或?qū)δＰ蛥?shù)信息量不足的情況下，這一問題很可能帶來嚴(yán)重后果。

本文所依托的核心思想源自 Tran 等（2022）提出的方法，我們將其概括如下：如果擁有足夠多來自目標(biāo)過程的實現(xiàn)樣本，則可以校準(zhǔn)一個 BNN，使其有限維分布緊密逼近底層目標(biāo)過程的有限維分布。一旦完成校準(zhǔn)，在觀測到新數(shù)據(jù)后，便可使用 BNN 參數(shù)后驗分布的推斷方法；這些方法通常涉及隨機梯度哈密頓蒙特卡洛（SGHMC；Chen 等，2014）或變分貝葉斯（例如 Graves，2011；Zammit-Mangion 等，2022）。這一范式具有吸引力：從建模角度看，每次開展新分析時無需再尋找合適的空間過程模型類，且無論考慮何種數(shù)據(jù)，均可使用相同的推斷工具。從深度學(xué)習(xí)角度看，校準(zhǔn)避免了在空間或時空分析中使用固定先驗 BNN 可能帶來的病態(tài)問題。

Tran 等（2022）的方法在其通過蒙特卡洛方法實現(xiàn)計算和內(nèi)存高效校準(zhǔn)方面具有創(chuàng)新性。然而，他們所考慮的 BNN 不能直接應(yīng)用于空間問題。我們 SBNN 的一個新穎之處在于：引入了空間嵌入層（spatial embedding layer）。我們證明，這些設(shè)計有助于更好地捕捉目標(biāo)空間過程的空間協(xié)方差結(jié)構(gòu)和非平穩(wěn)行為。具體而言，我們展示了若干此類 SBNN 在匹配目標(biāo)空間過程的選定高維有限維分布方面，優(yōu)于復(fù)雜度相近的傳統(tǒng) BNN。

第 2 節(jié)中，我們闡述 SBNN 的動機并構(gòu)建其結(jié)構(gòu)；第 3 節(jié)詳細(xì)說明 SBNN 的校準(zhǔn)方法，該方法緊密遵循 Tran 等（2022）的思路；第 4 節(jié)表明，我們的 SBNN 可作為高質(zhì)量代理模型，適用于平穩(wěn)和高度非平穩(wěn)的高斯過程，以及對數(shù)正態(tài)空間過程；第 5 節(jié)概述 SBNN 在實踐中的應(yīng)用方式：作為隨機生成器和用于推斷；最后，第 6 節(jié)總結(jié)討論 SBNN 的優(yōu)勢與局限性。

2 方法論

2.1 用于空間數(shù)據(jù)的貝葉斯神經(jīng)網(wǎng)絡(luò)

貝葉斯神經(jīng)網(wǎng)絡(luò)（BNN）（Neal, 1996, pp. 10–19）是由非線性隨機函數(shù)組成的。每個函數(shù)構(gòu)成網(wǎng)絡(luò)中所謂的“層”。在空間數(shù)據(jù)分析的背景下，BNN 用于對空間域 D ? ?? 上的空間過程 Y(·) 建模，其中 s ∈ D 是 BNN 的輸入，空間維度 d 較小；通常，d ∈ {1,2,3}。我們定義 BNN 如下：

過程 Y(·) 的有限維分布完全由定義 θ 的權(quán)重和偏置的先驗分布決定。于是自然會提出一個問題：我們應(yīng)該為權(quán)重和偏置選擇什么樣的分布？這個問題沒有直接的答案，很大程度上是因為 BNN 固有的非線性使得 θ 的先驗分布與過程 Y(·) 的分布之間的關(guān)系難以直觀理解。然而，這一選擇至關(guān)重要：例如，人們可能將權(quán)重和偏置建模為獨立變量，并賦予其 Gau(0,1) 分布，但這種選擇會導(dǎo)致一個看似退化的隨機過程。作為說明，圖 1 顯示了當(dāng)所有權(quán)重和偏置均獨立地從 Gau(0,1) 分布模擬時，在 D ≡ [?4,4] 上從過程 Y(·) 繪制的樣本路徑。請注意，隨著層數(shù)從 L = 1（左上角面板）增加到 L = 8（右下角面板），過程的樣本路徑在 s ∈ D 上趨于平坦化。顯然，L = 8 的隨機過程對于涉及空間數(shù)據(jù)的應(yīng)用而言是一個不合理的模型。

在第 3 節(jié)中，我們展示了如何校準(zhǔn)這些先驗分布（即估計參數(shù)化先驗均值和方差的超參數(shù)），以便使 Y(·) 在 D 的精細(xì)網(wǎng)格點上所選的高維和有限維分布——與另一個用戶指定的空間過程的分布高度匹配。如第 4 節(jié)所示，我們將式 (1) 給出的普通 BNN 校準(zhǔn)到通常使用的空間模型（例如，高斯過程）時遇到了困難，因為我們無法獲得一個其有限維分布接近目標(biāo)空間模型的 BNN。這很可能是因為式 (1) 中的普通 BNN 并未針對空間數(shù)據(jù)進(jìn)行定制。我們的 SBNNS 對式 (1) 進(jìn)行了修改，以兩種專門旨在建?？臻g依賴性的方法。這些修改（將在以下小節(jié)中討論）導(dǎo)致了一類 SBNNS，它們能夠比具有相似復(fù)雜度的 BNN 更緊密地匹配目標(biāo)空間過程。

2.2 空間貝葉斯神經(jīng)網(wǎng)絡(luò)

如下文第 4 節(jié)所示，我們在使用普通 BNNs（即式 (1) 和 (2)，其中 f?(s; θ?) ≡ s，s ∈ D）時，經(jīng)常發(fā)現(xiàn)難以捕捉空間協(xié)方差。這證實了 Chen 等人（2023）的研究結(jié)果，他們認(rèn)為經(jīng)典神經(jīng)網(wǎng)絡(luò)在用于空間預(yù)測時難以輕易整合輸入之間的空間依賴性。在他們的論文中，他們通過在網(wǎng)絡(luò)的第一層使用一組空間基函數(shù)來緩解這一問題，他們稱該過程為 deepKriging。我們還發(fā)現(xiàn)，加入這一“嵌入層”極大地提高了 SBNNS 表達(dá)真實協(xié)方差的能力（見第 2.2.1 節(jié)）。然而，我們發(fā)現(xiàn)即使有了嵌入層，我們的 SBNNS 仍傾向于無法捕捉復(fù)雜的非平穩(wěn)行為。為解決此問題，我們使出現(xiàn)在 SBNNS 中的參數(shù)在空間上變化（見第 2.2.2 節(jié)）。

2.2.1 SBNNS 中的嵌入層

其中，|l| 是歐幾里得范數(shù)。我們設(shè)定 T，使得徑向基函數(shù)具有適當(dāng)?shù)闹丿B程度，這在低秩空間建模中很常見（例如，Cressie 和 Johannesson，2008；Nychka 等人，2018；Zammit-Mangion 和 Cressie，2021）；補充材料中的圖 S1 給出了一個示例。給定一個空間位置 s ∈ ??，嵌入層的輸出為 p(s; T) ∈ ?^{d?}，其維度 d? = K。因此，空間嵌入層表示一個向量 p(s; T) ∈ (0, 1)^K，該向量由空間位置 s 索引，編碼了輸入 s 與每個 RBF 質(zhì)心的鄰近程度。pk(s; T) 的值接近 1 表示點 s 接近質(zhì)心 Sk，隨著 s 遠(yuǎn)離 Sk，其值迅速減小。如果 SBNN 的權(quán)重和偏置是從空間不變先驗分布中抽取的，我們將所得網(wǎng)絡(luò)稱為具有空間不變參數(shù)的 SBNN（SBNN-I）。

2.2.2. 空間變化的網(wǎng)絡(luò)參數(shù)

在第 4 節(jié)中，我們展示了嵌入層對于 SBNN 建模協(xié)方差通常是重要的，但我們也展示了為了建模非平穩(wěn)性，還需要更多的東西。一種自然引入額外靈活性以更好地捕捉空間異質(zhì)性行為的方法，是改變 SBNN-I 的權(quán)重和偏置，使它們隨空間變化。我們通過將每個權(quán)重和偏置的分布定義為高斯分布來實現(xiàn)這一點，其均值和方差都在 D 上平滑變化。作為實際問題，我們采用與嵌入層相同的基函數(shù) p(·; T) 來建模平滑變化的均值和方差。

為便于標(biāo)記，考慮一個現(xiàn)在隨空間變化的權(quán)重或偏置參數(shù) θ。我們將 θ 的先驗均值建模為

在該模型下，對于任意兩個位置 s ∈ D 和 r ∈ D，有 cov(θ(s), θ(r)) = σ(s)σ(r)，因此 corr(θ(s), θ(r)) = 1。這是一個相當(dāng)不靈活的先驗（空間）模型，但它的優(yōu)點是不會引入額外的協(xié)方差超參數(shù)，否則這些超參數(shù)將需要被估計。對于給定權(quán)重或偏置，θ 的所有平滑性都由其 μ(·) 和 σ(·) 所誘導(dǎo)，而這兩者本身在構(gòu)造上就是平滑的。由于存在許多權(quán)重和偏置（即許多 θ），因此也存在許多 θ（每個權(quán)重和偏置對應(yīng)一個），我們將它們建模為相互獨立。在校準(zhǔn)時，我們不是估計標(biāo)量均值和標(biāo)準(zhǔn)差，而是估計每個權(quán)重和偏置參數(shù)（或其組）對應(yīng)的系數(shù) αk 和 βk，k = 1, ..., K。我們將所得網(wǎng)絡(luò)稱為具有空間變化參數(shù)的 SBNN（SBNN-V）。

我們在圖 2 中展示了 SBNN-V 的架構(gòu)。請注意，通過將神經(jīng)網(wǎng)絡(luò)參數(shù)的均值和標(biāo)準(zhǔn)差設(shè)定為（4）和（5）的形式，我們在網(wǎng)絡(luò)架構(gòu)中引入了所謂的跳躍連接（skip connections），這些連接將嵌入層 p(·; T) 的輸出直接饋送到后續(xù)每一層。這種跳躍連接的使用方式類似于其在流行架構(gòu) ResNet 中的用途，用于特征復(fù)用（He 等人，2016）。該 SBNN-V 也可以被視為一個簡單的超網(wǎng)絡(luò)（hyper-network），因為權(quán)重和偏置的先驗均值和標(biāo)準(zhǔn)差本身即為一層淺層網(wǎng)絡(luò)的輸出（例如，Malinin 等人，2020）。

2.2.3. BNN 與 SBNN 的模型設(shè)定

一個 SBNN 包含大量（可能多達(dá)數(shù)千個）權(quán)重和偏置，與典型的 BNN 一樣，我們將這些參數(shù)建模為相互獨立的。然而，必須做出一個選擇：是為所有這些獨立參數(shù)分別賦予不同的先驗分布，還是假設(shè)參數(shù)在組內(nèi)獨立同分布（i.i.d.）。在本研究中，我們將同時考慮這兩種方案。前一種“逐參數(shù)先驗”（prior-per-parameter）方案的優(yōu)點在于它能構(gòu)建出高度靈活的 SBNN，但缺點是在校準(zhǔn)過程中需要存儲和估計大量超參數(shù)。對于后一種方案，我們將參數(shù)按層分組，稱之為“逐層先驗”（prior-per-layer）方案（注意：其他分組方式也是可能的；參見 MacKay, 1992）。該“逐層先驗”方案的優(yōu)點在于校準(zhǔn)過程中所需估計的超參數(shù)數(shù)量顯著減少，因此在此方案下構(gòu)建的 SBNN 更易于且更快速地完成校準(zhǔn)。然而，我們在第 4 節(jié)中發(fā)現(xiàn)，盡管“逐層先驗”方案已足夠靈活，能夠?qū)δ承└信d趣的隨機過程進(jìn)行建模，但在某些情況下，采用“逐參數(shù)先驗”方案的 SBNN 可能對目標(biāo)過程具有更好的校準(zhǔn)效果。

接下來，我們將詳細(xì)闡述這兩種方案下的 SBNN 模型：“逐層先驗”方案（“SBNN-IL” 和 “SBNN-VL”）以及“逐參數(shù)先驗”方案（“SBNN-IP” 和 “SBNN-VP”）。為完整起見，我們還概述了標(biāo)準(zhǔn) BNN 的變體，其參數(shù)在定義上具有空間不變性（“BNN-IL” 和 “BNN-IP”）。

SBNN-IL：采用“逐層先驗”方案的 SBNN-I（SBNN-IL）由以下分層空間統(tǒng)計模型給出：

使用 Wasserstein 距離對 SBNN 進(jìn)行校準(zhǔn)

現(xiàn)在我們假設(shè)可以訪問定義在 D 上的另一個隨機過程 Y(·) 的實現(xiàn)，我們稱之為目標(biāo)過程。這些來自 Y(·) 的實現(xiàn)可以是隨機模擬器的輸出，也可以是再分析產(chǎn)品的數(shù)據(jù)。我們進(jìn)一步希望 SBNN 的某個有限維分布能夠“匹配”該目標(biāo)過程的對應(yīng)分布，具體含義如下所述。在本節(jié)中，我們概述一種調(diào)整 SBNN 超參數(shù) ψ 的方法，以實現(xiàn)這一目標(biāo)；我們將選擇 ψ 使得兩個過程的某個有限維分布盡可能接近的過程稱為“校準(zhǔn)”。

校準(zhǔn)是一項困難的任務(wù)，因為它涉及探索高維分布函數(shù)的空間，直到最近才在計算上變得可行。我們所采用的校準(zhǔn)方法詳見 Tran 等人（2022），該方法使得該問題在計算上可處理。他們的方法基于通過蒙特卡洛近似，最小化兩個過程有限維分布之間的 Wasserstein 距離（參見 Panaretos 和 Zemel，2019）。

考慮一個 d × n 的位置矩陣 S = (s?, ..., s?)，其中 s?, ..., s? ∈ D，n ≥ 1（通常 S 是 D 的一個精細(xì)網(wǎng)格）。對于 SBNN-V，ψ = {θ(s?), ..., θ(s?)} 是在這些位置上的參數(shù)集合。由 (1) 式，Y = (Y(s?), ..., Y(s?))′ = (f(s?; θ(s?)), ..., f(s?; θ(s?)))′ = f_θ 表示一個向量，其元素為過程在這些位置上的取值。對于 SBNN-I 變體，定義相同，只是將 θ(s?) 替換為 θ，i = 1, ..., n。Y 的分布在解析上是不可處理的，但從其進(jìn)行模擬是直接的，因為 p(θ; ψ)（權(quán)重和偏置的先驗分布）易于模擬（參見例如 (6) 式），且 Y = f_θ 是 θ 的確定性函數(shù)（參見 (1) 式）。

我們將第二個或目標(biāo)過程 Y(·) 在相同位置上的取值記為 Y = (Y(s?), ..., Y(s?))。我們通過最小化這兩個分布之間的差異，將 Y 的分布與 Y 的經(jīng)驗分布進(jìn)行匹配。自然的選擇是最小化 Kullback-Leibler 散度；然而，該散度項中包含一個熵項，該項在解析上不可處理，且在計算上難以近似（Flam-Shepherd 等人，2017；Delattre 和 Fournier，2017）。相比之下，Wasserstein 距離不會帶來這樣的困難。

Wasserstein 距離是衡量兩個概率分布之間差異的一種度量。正如 Tran 等人（2022）中所述，我們考慮 Wasserstein-1 距離的一個特例，其形式如下：

注意，(13) 和 (16) 共同構(gòu)成了一個兩階段優(yōu)化問題，我們使用梯度方法來解決。在第一階段，我們稱之為內(nèi)循環(huán)優(yōu)化，我們在保持 ψ 固定的情況下，使用梯度上升法優(yōu)化 λ，以建立固定 ψ 值下的 Wasserstein 距離。在第二階段，我們稱之為外循環(huán)優(yōu)化，我們進(jìn)行一次梯度下降步驟，以找到一個新的 ψ（依賴于 λ），從而減少 Wasserstein 距離。我們在外循環(huán)優(yōu)化階段每次只進(jìn)行一步，因為需要為每個新的 ψ 值重新建立 Wasserstein 距離。我們從 Y、Y? 和 Y? 生成 N 個樣本，每個內(nèi)循環(huán)優(yōu)化一次，每個外循環(huán)步驟一次。我們迭代這兩個階段，直到經(jīng)過幾次外循環(huán)優(yōu)化步驟后，Wasserstein 距離不再顯著減少。

上述概述的校準(zhǔn)過程優(yōu)化 ψ，使得 Y 的分布（即 Y(·) 在 S 上的評估）在 Wasserstein-1 意義上接近 Y?（即 Y?(·) 在相同位置矩陣 S 上的評估）。S 的選擇決定了被比較的有限維分布。在我們可以訪問 Y 的實現(xiàn)但無法從 Y?(·) 在任意位置進(jìn)行模擬的應(yīng)用中，S 由應(yīng)用決定。當(dāng)我們可以從 Y?(·) 自由模擬時，由于 d 在空間應(yīng)用中通常很小，可以將 S 定義為 D 上的一個精細(xì)網(wǎng)格，這也是我們在本文中提出的方法。優(yōu)化的超參數(shù) ψ* 導(dǎo)致一個 SBNN，Y(·)，在 S 上的位置很好地逼近目標(biāo)過程 Y?(·)。

模擬研究

在本節(jié)中給出的所有模擬研究中，我們考慮了一個特殊情況，即目標(biāo)過程 Y?(·) 是已知的，并且可以輕松模擬，以便我們可以將 (S)BNN 與它們校準(zhǔn)的過程進(jìn)行比較。在實踐中，目標(biāo)過程可能是未知的，因此我們可能需要從該過程中獲取實現(xiàn)，以便用于校準(zhǔn) (S)BNN。這些實現(xiàn)可能來自遠(yuǎn)程傳感儀器或隨機模擬器。我們考慮了 Y?(·) 的三種過程：一個平穩(wěn)高斯空間過程（第 4.1 節(jié)）；一個非平穩(wěn)高斯空間過程（第 4.2 節(jié)）；以及一個平穩(wěn)對數(shù)正態(tài)空間過程（第 4.3 節(jié)）。我們定義所有這些過程在一個二維空間域 D = [-4, 4] × [-4, 4] 上，并設(shè)置 s?, ..., s? 作為 D 上 64 × 64 網(wǎng)格的質(zhì)心（因此 S 是一個 2 × 4096 的矩陣）。對于激活函數(shù) φ?(·)，l = 0, ..., L-1，我們使用 tanh(·) 函數(shù)，其中 tanh : t ? (e2? - 1)/(e2? + 1)。我們使用 L = 4 層，并設(shè)置每個隱藏層的維度為 40；也就是說，我們設(shè)置 d? = d? = d? = 40。輸入和輸出維度為 d = 2 和 d? = 1，而對于普通 BNNs，d? = 2，對于 SBNNs，d? = K，其中 K 是嵌入層中基函數(shù)的數(shù)量。我們讓 φ??(·; λ) 成為一個具有兩個隱藏層的神經(jīng)網(wǎng)絡(luò)，每層形式為 (2)，維度為 200，并使用 softplus 激活函數(shù)。我們收集在 λ 中的兩層的權(quán)重和偏置，通過從 [-√z, √z] 的有界均勻分布中模擬來初始化，其中 z 由相應(yīng)層的輸入維度的倒數(shù)給出（He 等人，2015）。

在整個模擬研究中，我們考慮了第 2.2.3 節(jié)中討論的六種 (S)BNN，并在表 1 中進(jìn)行了總結(jié)。對于 SBNNs，我們設(shè)置 f?(·; θ?) = ρ(·; τ) 如 (3) 式，長度尺度 θ? = τ = 1，并使用 K = 152 個徑向基函數(shù)排列在 D 上的 15 × 15 網(wǎng)格中。在補充材料的圖 S1 中，我們展示了基函數(shù)的一個子集的評估，其質(zhì)心在 s = (0, s?)′ 上變化，其中 s? ∈ [-4, 4]。我們沒有進(jìn)行詳細(xì)的實驗來分析結(jié)果如何隨 τ 變化；假設(shè)基函數(shù)之間的重疊是合理的，我們預(yù)計結(jié)果不會因 τ 而顯著變化。

對于我們的六種模型，初始化時將所有 μ? 設(shè)置為零，所有 σ? 設(shè)置為 BNN-I 和 SBNN-I 變體的 1。對于 SBNN-V 變體，我們將所有 α? 設(shè)置為零，同時獨立地從均值為零、方差為單位的正態(tài)分布中模擬所有 β?。在進(jìn)行校準(zhǔn)時，我們從權(quán)重和偏置的先驗分布中采樣 N 個參數(shù)向量 {Θ???? : i = 1, ..., N}，從 (S)BNN {Y???(·) : i = 1, ..., N} 中采樣 N 個相應(yīng)的實現(xiàn)，以及從目標(biāo)過程 {Y???? : i = 1, ..., N} 中采樣 N 個實現(xiàn)，其中 N = 1024 對于 BNN-I 和 SBNN-I 變體，N = 512 對于 SBNN-V 變體，以減少內(nèi)存需求。使用這些模擬，我們在優(yōu)化 λ 并保持 ψ 固定在 (15) 中（內(nèi)循環(huán)優(yōu)化）時進(jìn)行 50 次梯度步驟。然后我們在優(yōu)化 ψ 并保持 λ 固定在 (16) 中（外循環(huán)優(yōu)化）之前重新模擬 Y(·) 和 Y?(·) 的 N 個實現(xiàn)?；叵胍幌?，我們在 (11) 中優(yōu)化 ψ 時，Wasserstein 距離僅依賴于 ψ，并且每次更新 ψ 時都需要重新建立（即，λ 需要重新估計）。我們重復(fù)這個兩階段過程，迭代優(yōu)化 λ 和 ψ（始終使用最近更新的 λ 和 ψ 值作為初始條件），直到 Wasserstein 距離穩(wěn)定。由于我們在進(jìn)行校準(zhǔn)時“即時”生成數(shù)據(jù)，過擬合的風(fēng)險很?。–han 等人，2018）；參見補充材料中的圖 S2，展示了所有模型和模擬實驗的 Wasserstein 距離隨外循環(huán)優(yōu)化步驟的變化情況。請注意，由于 1-Lipschitz 函數(shù)需要使用神經(jīng)網(wǎng)絡(luò)進(jìn)行近似，如第 3 節(jié)所述，我們使用 Adagrad 和 RMSprop（Kochenderfer 和 Wheeler，2019）策略來調(diào)整內(nèi)循環(huán)和外循環(huán)優(yōu)化中的梯度步驟大小。在表 2 中，我們展示了我們考慮的六種 (S)BNN 在最終 100 次外循環(huán)迭代中 Wasserstein-1 距離的平均值。在此表中，我們還列出了與每個模型相關(guān)的超參數(shù)數(shù)量。在“每層先驗”BNN-IL 和 SBNN-IL 的情況下，每層的超參數(shù)數(shù)量為 16（每層兩個均值和兩個方差超參數(shù)）。在“每層先驗”SBNN-VL 的情況下，每層的超參數(shù)數(shù)量為L = 4 層 = 900，總共 4 × 900 = 3600 個超參數(shù)。“每層先驗”模型的參數(shù)化程度更高，因為對于這些模型，超參數(shù)的數(shù)量與模型中的權(quán)重和偏置數(shù)量成線性增長。BNN-IL 和 BNN-IP 的權(quán)重和偏置數(shù)量為 3441，而具有嵌入層的 SBNNs 為 12361。將 BNN-I 和 SBNN-I 變體的參數(shù)數(shù)量乘以 2，SBNN-V 變體乘以 2K，可以得到與這些“每層先驗”模型相關(guān)的總超參數(shù)數(shù)量。表中的粗略觀察表明，更多的超參數(shù)通常（但不總是）會導(dǎo)致更低的 Wasserstein 距離，并且 SBNN 變體通常優(yōu)于 BNN-I 變體，有時優(yōu)勢相當(dāng)大。我們將在以下部分更詳細(xì)地探討這些細(xì)微差別。

可重現(xiàn)的代碼，其中包含本節(jié)模擬研究的額外詳細(xì)信息，可以從 https://github.com/andrewzm/SBNN 獲取。

4.1. 校準(zhǔn)到平穩(wěn)高斯空間過程

在這項模擬研究中，我們考慮了一個均值為零的平穩(wěn)各向同性高斯空間過程，其協(xié)方差函數(shù)為單位方差和平方指數(shù)協(xié)方差函數(shù)，作為我們的目標(biāo)過程 Y?(·)。因此，Y? ~ Gau(0, Σ)，其中 Σ ≡ (cov(Y?(s?), Y?(s?)) : k, l = 1, ..., n)。我們通過平方指數(shù)協(xié)方差函數(shù) C?(·) 來模擬協(xié)方差，

我們設(shè)定長度尺度 ? = 1。從表 2 我們可以看到，所有 SBNN 變體在這種情況下表現(xiàn)相似，并且明顯優(yōu)于 BNN-I 變體。因此，在接下來的討論中，我們將重點比較校準(zhǔn)后的 BNN-IL 和校準(zhǔn)后的 SBNN-IL 與目標(biāo)高斯過程；下面顯示的結(jié)果代表了它們各自變體的結(jié)果。

我們首先通過從網(wǎng)絡(luò)中采樣計算的經(jīng)驗協(xié)方差來比較這兩個模型。我們不僅在最終（在本例中為第 4000 步）優(yōu)化步驟中計算經(jīng)驗協(xié)方差，還在多個中間步驟中計算經(jīng)驗估計，以監(jiān)控 (S)BNN 在優(yōu)化過程中對目標(biāo)過程的適應(yīng)。具體來說，我們在 100、200、400、2000 和 4000 次外循環(huán)梯度步驟后分別計算經(jīng)驗協(xié)方差，并將這些估計與目標(biāo)高斯過程的真實協(xié)方差進(jìn)行比較。圖 3 左側(cè)顯示，校準(zhǔn)后的 BNN-IL 未能恢復(fù)真實的協(xié)方差圖；在收斂時，BNN-IL 的協(xié)方差圖在原點處具有較小的截距，并且隨著空間滯后增加而緩慢減小。另一方面，圖 3 右側(cè)顯示，具有嵌入層的 SBNN-IL 的協(xié)方差圖在大約 2000 次外循環(huán)梯度步驟后收斂到與目標(biāo)過程非常相似的協(xié)方差圖。

在圖 4 中，左上角我們繪制了目標(biāo)過程協(xié)方差 cov(Y?(s?), Y?(S)) 的熱圖，其中 s? 在 D 上的 4 × 4 網(wǎng)格中排列了 16 個值，其中 Y?(·) 是平穩(wěn)的，S 是由 D 的 64 × 64 網(wǎng)格的網(wǎng)格單元質(zhì)心組成的。在左下角我們繪制了 Y 的實現(xiàn)。在右上角我們顯示了從校準(zhǔn)后的 SBNN-IL 得到的協(xié)方差 cov(Y(s?), Y(S)) 的相應(yīng)經(jīng)驗估計。這些協(xié)方差表明平穩(wěn)性和各向同性，并且與目標(biāo)過程的協(xié)方差非常相似。這是令人欣慰的，因為 SBNN-IL 的構(gòu)建或訓(xùn)練過程中沒有任何東西限制該過程為平穩(wěn)或各向同性；協(xié)方差之間的相似性是另一個表明 SBNN-IL 正在瞄準(zhǔn)正確過程的指示。在圖 4 的右下角我們繪制了 Y 的一些樣本實現(xiàn)。這些實現(xiàn)具有與 Y? 非常相似的屬性（相似的長度尺度、平滑度和方差）。

盡管 SBNN-IL 是一個高度非高斯過程，但它已針對高斯過程進(jìn)行了校準(zhǔn)，因此所有從用于校準(zhǔn)的高維分布中得出的有限維分布都應(yīng)近似為高斯分布。為了說明高斯性得到了很好的近似，在圖 5 中我們繪制了從校準(zhǔn)后的 SBNN-IL 和真實高斯過程中抽取的 1000 個樣本的核密度估計。頂部面板顯示了 Y(s?) 和 Y?(s?) 對于 D 上 2 × 4 網(wǎng)格中排列的 s? 的八個值的經(jīng)驗邊際密度，而底部面板顯示了對應(yīng)于 (Y(s?), Y(s?)′) 和 (Y?(s?), Y?(s?)′) 的雙變量密度，對于 s? = (?1.33, ?0.06)′ 和三個 s? 的選擇：一對坐標(biāo)接近 s?（左下角）；一對遠(yuǎn)離 s?（右下角）；最后一對在這兩對之間（中間子面板）。邊際和聯(lián)合密度非常相似，表明有限維分布的高斯性在校準(zhǔn)過程中得到了很好的近似。總體而言，證據(jù)表明校準(zhǔn)后的 SBNN-IL 是對基礎(chǔ)高斯過程的一個很好的近似。

在補充材料的圖 S3、S4 和 S5 中，我們展示了校準(zhǔn)后的 SBNN-VL 的相應(yīng)圖，這也很好地近似了基礎(chǔ)過程。這些結(jié)果令人欣慰，因為它們表明 SBNN-VL 可以很好地模擬平穩(wěn)過程，盡管引入了大量復(fù)雜性來模擬非平穩(wěn)過程。

4.2. 校準(zhǔn)到非平穩(wěn)高斯空間過程

在這項模擬研究中，我們考慮了一個具有零均值、單位方差和協(xié)方差函數(shù)的非平穩(wěn)高斯過程

在圖6中，我們繪制了目標(biāo)高斯過程的真實協(xié)方差函數(shù)（左圖）以及經(jīng)校準(zhǔn)后的 SBNN-VL 的經(jīng)驗協(xié)方差函數(shù)（右圖），后者與經(jīng)校準(zhǔn)的 SBNN-IP（未顯示）和 SBNN-VP（未顯示）的經(jīng)驗協(xié)方差函數(shù)非常相似。這些圖中的每個熱力圖都表示該過程相對于某一特定空間位置（以十字標(biāo)記）處的過程值的協(xié)方差。協(xié)方差結(jié)構(gòu)圍繞點 ξ = (0.5, 1)′ “旋轉(zhuǎn)”，因此在該點附近近似各向同性，而在遠(yuǎn)離中心的位置則呈現(xiàn)各向異性。SBNN-VL 顯然能夠捕捉到這一協(xié)方差結(jié)構(gòu)。相比之下，BNN-IL 和 SBNN-IL（其對應(yīng)的圖見補充材料中的圖 S6）顯然無法做到這一點。其中，SBNN-IL 對協(xié)方差的擬合效果尤其差，表明它僅應(yīng)被用于建模平穩(wěn)過程。

在圖7中，我們繪制了來自目標(biāo)過程及所有經(jīng)校準(zhǔn)模型的多條樣本路徑。經(jīng)校準(zhǔn)的 SBNN-VP 的樣本路徑顯然與目標(biāo)過程的樣本路徑非常相似，而經(jīng)校準(zhǔn)的 BNN-IL、BNN-IP 以及 SBNN-IL 的樣本路徑則明顯不同。通過觀察樣本路徑所得出的結(jié)論與上述基于協(xié)方差函數(shù)的結(jié)論一致。這表明，對于 SBNN 而言，僅使用 IL 是不夠的，還需要額外的機制：要么采用 IP，要么采用 VL（或兩者兼用，即 VP）。

4.3. 校準(zhǔn)到平穩(wěn)對數(shù)正態(tài)空間過程

圖 9 類似于圖 5，但針對的是 SBNN-IP（根據(jù)表 2 是“最佳”模型）和對數(shù)正態(tài)過程。也就是說，該圖顯示了從校準(zhǔn)后的 SBNN-IP 和目標(biāo)對數(shù)正態(tài)過程中的 1000 個樣本中選取的 D 中選定點的邊際和雙變量核密度估計。與高斯情況一樣，邊際和聯(lián)合密度非常相似。補充材料中的圖 S7 中的 SBNN-VL 的密度圖顯示，采用“每層先驗”方案的 SBNN-V 校準(zhǔn)良好，但無法很好地捕捉尾部。另一方面，SBNN-VP 具有所需的靈活性，能夠很好地模擬尾部；參見補充材料中的圖 S8。

總體而言，這些結(jié)果表明，我們的 SBNN 能夠?qū)Ψ歉咚惯^程進(jìn)行建模，并且它們有可能應(yīng)用于比本文所考慮的更廣泛的模型類別，特別是那些似然函數(shù)難以處理（intractable）但相對容易進(jìn)行模擬的模型（例如，空間極值模型，Davison 和 Huser，2015）。

使用 SBNN 進(jìn)行推斷

一旦 SBNN 校準(zhǔn)完成，它就有兩個用途：(i) 高效地模擬底層隨機過程的實現(xiàn)；(ii) 基于觀測數(shù)據(jù)進(jìn)行條件推斷。一旦 SBNN 校準(zhǔn)完成，無條件模擬就很容易進(jìn)行，只需使用第 2.2.3 節(jié)中概述的模型規(guī)范之一，將自由超參數(shù) ψ 替換為優(yōu)化后的 ψ*。在這方面，SBNN 可以用作計算密集型隨機模擬器的替代品，例如隨機天氣生成器（Semenov 等人，1998；Kleiber 等人，2023）。我們注意到，還有其他幾種神經(jīng)網(wǎng)絡(luò)架構(gòu)也非常適合無條件模擬，例如變分自編碼器（VAEs，Kingma 和 Welling，2013）和生成對抗網(wǎng)絡(luò)（GANs，Goodfellow 等人，2014）。另一方面，推斷需要進(jìn)一步計算。具體來說，給定在位置收集的 Y(·) 的噪聲測量數(shù)據(jù)集 Z ≡ (Z?, ..., Z?)′，推斷過程通過評估、近似或采樣權(quán)重和偏置的后驗分布進(jìn)行；即，給定 Z 和校準(zhǔn)后的超參數(shù) ψ* 的神經(jīng)網(wǎng)絡(luò)參數(shù)的條件分布。在從權(quán)重和偏置的后驗分布中采樣后，很容易獲得 Y(·) 的后驗分布樣本，我們稱之為預(yù)測分布。SBNN 的過程模型定義相對于其他生成模型（如 VAEs 和 GANs）的優(yōu)勢在于，它可以很容易地納入空間統(tǒng)計學(xué)中常見的層次模型。因此，在對過程進(jìn)行推斷時，可以以直接的方式處理有關(guān)缺失數(shù)據(jù)、噪聲甚至不確定的數(shù)據(jù)模型的問題。

已經(jīng)為 BNN 開發(fā)了幾種推斷方法（例如，Jospin 等人，2022）。這些包括變分推斷（例如，Zammit-Mangion 等人，2022）和 MCMC。在 MCMC 技術(shù)中，漢密爾頓蒙特卡洛（Neal，1996）是最廣泛使用的。Neal（1996）的原始 HMC 算法是全批量的；也就是說，它使用整個數(shù)據(jù)集 Z 生成每個后驗抽樣。然而，對于大型數(shù)據(jù)集，HMC 所需的梯度計算在計算上是不可行的。Chen 等人（2014）提出通過使用數(shù)據(jù)的小批量來近似每個 MCMC 迭代中的梯度來解決這些計算限制。由此產(chǎn)生的梯度近似稱為隨機梯度，相應(yīng)的 HMC 近似稱為隨機梯度漢密爾頓蒙特卡洛（SGHMC）。SGHMC 及其自適應(yīng)變體（Springenberg 等人，2016）非常適合使用 BNN 進(jìn)行推斷。由于可以很容易地利用現(xiàn)有的 BNN 軟件，因此可以直接將 SGHMC 應(yīng)用于 SBNN-I 變體。為了說明，在本節(jié)中，我們提供了使用 SGHMC 對 Y(·) 進(jìn)行預(yù)測分布，這些分布校準(zhǔn)到第 4.1 節(jié)中的平穩(wěn)高斯分布，以及一個更復(fù)雜的平穩(wěn)最大穩(wěn)定過程，其中使用傳統(tǒng)技術(shù)從多個數(shù)據(jù)點獲得預(yù)測分布極具挑戰(zhàn)性。

5.1. 案例研究 1：GP 目標(biāo)過程

校準(zhǔn)后的 SBNN-IL 和真實（也是目標(biāo)）平穩(wěn) GP 下的。圖 5 的頂部和底部面板顯示了在圖 5 中考慮的相同空間位置的預(yù)測分布的經(jīng)驗邊際預(yù)測密度和聯(lián)合雙變量預(yù)測密度。SBNN-IL 的邊際和聯(lián)合預(yù)測密度似乎是單峰和高斯分布的；這是令人欣慰的，因為任何在數(shù)據(jù) Z 上條件化的目標(biāo)過程的有限維分布確實是高斯分布。另一方面，這些后驗密度的形狀存在輕微差異，SBNN-IL 似乎產(chǎn)生略大的后驗方差。這種差異可能有幾個原因。首先，可能并非所有在最小化 Wasserstein 距離時被針對的隨機過程的有限維分布都被考慮。其次，可能需要使 SBNN 更加靈活（例如，具有更大的嵌入層）以更忠實地表示底層過程的有限維分布。第三，可能是 MCMC 鏈需要更多時間才能收斂：盡管我們運行了四個并行的 MCMC 鏈，每個鏈 300,000 次迭代，排除了 100,000 次作為燒入期，并以 1,000 的因子進(jìn)行稀釋，但我們在幾個預(yù)測位置的有效樣本量在 50-400 之間。盡管有這些缺點，SBNN-IL 的預(yù)測分布顯然與在真實模型下獲得的分布非常相似。

我們重復(fù)了上述實驗，其中。在表 3 中，我們使用傳統(tǒng)的預(yù)測診斷方法對 SBNN-IL 進(jìn)行評分，并將其與真實過程和未校準(zhǔn)的 BNN-IL（即，權(quán)重和偏置具有標(biāo)準(zhǔn)正態(tài)先驗）的評分進(jìn)行比較。表 3 中校準(zhǔn)后的 SBNN-IL 和未校準(zhǔn)的 BNN-IL 之間的差異在小 m=100 情況下最大，其中（先驗）模型在預(yù)測中的作用比大 m 情況更大。在圖 S9 中，我們繪制了從我們空間域的 12 × 12 網(wǎng)格的規(guī)則間隔的空間位置的預(yù)測分布中抽取的樣本；800 個樣本來自四個 MCMC 鏈中的每一個。鏈的收斂沒有明顯問題，三種 m 情況下的預(yù)測分布與預(yù)期相似。由于 SGHMC 使用固定大小的小批量，并且我們保持 SBNN 架構(gòu)不變，因此獲取不同 m 的樣本所需的時間相同。對 m 以及底層“真實”模型的不敏感性是該方法的一個主要優(yōu)勢。在本例中，獲取代表性樣本所需的時間僅為一小時，這可能被認(rèn)為是相當(dāng)可觀的，考慮到底層過程是一個 GP。然而，如我們接下來所示，可以在相同時間內(nèi)為空間模型獲得 SBNN 的預(yù)測分布，其中預(yù)測在計算上困難或不可能。

5.2. 案例研究 2：最大穩(wěn)定目標(biāo)過程

結(jié)論

所提出的將 SBNN 校準(zhǔn)至目標(biāo)空間過程的空間統(tǒng)計方法，與當(dāng)前主流方法存在顯著差異?，F(xiàn)有方法通常以參數(shù)化模型為起點，先估計模型參數(shù)，再利用擬合后的模型對未觀測位置進(jìn)行預(yù)測。而 SBNN 的做法則不同：首先校準(zhǔn)權(quán)重和偏置的先驗分布，然后使用 SGHMC（隨機梯度哈密頓蒙特卡洛）求得這些權(quán)重和偏置的后驗分布，最后基于該后驗分布獲得過程的預(yù)測分布。我們證明，SBNN 可用于建模多種多樣的空間過程，這些過程可能是非平穩(wěn)的和/或非高斯的。

本結(jié)論部分聚焦于 SBNN 的優(yōu)缺點，旨在闡明其在哪些情形下可能有用，又在哪些情形下可能不適用。

6.1. 校準(zhǔn)需要來自底層隨機過程的重復(fù)實現(xiàn)

SBNN 的一個顯著局限在于，其校準(zhǔn)需要大量來自底層隨機過程的實現(xiàn)（realisations）。在許多實際關(guān)注的應(yīng)用中，空間統(tǒng)計學(xué)家手頭通常僅有單一實現(xiàn)。在此類情況下，可以將 SBNN 校準(zhǔn)到一個易于模擬的過程模型上，但尚不清楚這種方法最終是否能帶來任何計算或推斷上的優(yōu)勢。例如，對于高斯過程，已有多種成熟的參數(shù)估計和預(yù)測方法，除了用于軟件驗證之外，幾乎沒有理由需要將 SBNN 校準(zhǔn)到高斯過程上。

另一方面，對于其他一些過程（如第 5.2 節(jié)中的極大穩(wěn)定過程，以及某些類別的隨機偏微分方程），參數(shù)估計、預(yù)測和條件模擬眾所周知地困難，但這些過程卻相對容易進(jìn)行（無條件）模擬。在這些情形下，SBNN 相較于傳統(tǒng)的“先擬合參數(shù)化模型再進(jìn)行預(yù)測”的經(jīng)典方法，有望帶來計算上的優(yōu)勢。

當(dāng)有大量數(shù)據(jù)可用，且這些數(shù)據(jù)可合理地視為來自某個底層隨機過程的重復(fù)實現(xiàn)時，SBNN 便成為建模與預(yù)測的一種自然選擇。它對底層過程幾乎不做假設(shè)，也免除了建模者必須判斷哪類模型最適合其具體應(yīng)用的難題。例如，校準(zhǔn)數(shù)據(jù)可能以某種地球物理量（如海表溫度）的再分析數(shù)據(jù)形式存在。再比如，時間上平穩(wěn)的時空數(shù)據(jù)可提供以時間為索引的空間重復(fù)實現(xiàn)。

6.2. 計算資源

校準(zhǔn) SBNN 以及求解其參數(shù)的后驗分布都需要大量的計算資源和復(fù)雜的算法。然而，一旦這些計算流程被開發(fā)出來，它們就具有廣泛的適用性；這從計算角度帶來了若干優(yōu)勢。

首先，由于 SBNN 對過程本身不作特定假設(shè)（即“過程無關(guān)”，process agnostic），無論底層目標(biāo)過程是什么，其校準(zhǔn)和擬合所需計算資源大致相當(dāng)。而經(jīng)典方法則不然——在經(jīng)典方法中，所采用的空間過程模型和數(shù)據(jù)模型在很大程度上決定了參數(shù)估計和預(yù)測過程的計算復(fù)雜度。

其次，盡管 SBNN 可應(yīng)用于廣泛的不同場景，但其校準(zhǔn)和推斷均可使用相同的算法。這與傳統(tǒng)的基于似然的方法形成鮮明對比：在傳統(tǒng)方法中，模型依賴于具體應(yīng)用，參數(shù)空間維度各異，且復(fù)雜模型通常需要專門設(shè)計復(fù)雜的算法。

最后，對于 SBNN，模型校準(zhǔn)可通過小批量（mini-batches）梯度下降法完成（即在每次優(yōu)化步驟中僅使用少量實現(xiàn)）；這使得即使在內(nèi)存受限的設(shè)備上，也能利用大量實現(xiàn)對 SBNN 進(jìn)行校準(zhǔn)。

6.3. 用于促進(jìn)校準(zhǔn)的計算工具

6.4. SBNN 架構(gòu)和模型解釋

將嵌入層和空間變化的網(wǎng)絡(luò)參數(shù)納入我們的 SBNN 是必要的，以便我們的 SBNN 能夠再現(xiàn)現(xiàn)實的協(xié)方差和非平穩(wěn)性/各向異性。我們已經(jīng)嘗試探索空間過程或 SBNN 架構(gòu)不適合的情況。未來的工作可能會揭示我們的 SBNN 在某些設(shè)置中過于不靈活，即使具有“每層先驗”方案，也需要進(jìn)一步修改。SBNN 的一個缺點是它們在很大程度上是不可解釋的：與經(jīng)典建模不同，經(jīng)典建模通常對參數(shù)有明確的解釋，SBNN 只能以高度間接的方式訪問權(quán)重和偏置的后驗分布，這些分布與輸出高度間接相關(guān)。這個限制本身就可能阻礙 SBNN 在某些設(shè)置中的使用，其中參數(shù)解釋是至關(guān)重要的。另一方面，在預(yù)測和不確定性量化通過預(yù)測方差是主要目標(biāo)的情況下，SBNN 可能具有很高的實用價值。

6.5. 開放問題和未來研究方向

我們認(rèn)為我們的工作是使用 SBNN 模擬空間隨機過程的第一步。雖然我們已經(jīng)證明了它們的多功能性，但仍然有幾個問題需要回答，其中三個問題尤為突出。首先，目前尚不清楚如何使用具有空間變化參數(shù)的 SBNN 進(jìn)行預(yù)測性推斷，盡管有可用的 BNNs 軟件，這些軟件通常假設(shè)權(quán)重和偏置沒有輸入依賴的先驗分布。這就是為什么我們將第 2 節(jié)中的分析限制在平穩(wěn)過程上，我們還沒有研究在現(xiàn)實數(shù)據(jù)設(shè)置中（其中 SBNN 的空間變化參數(shù)化對于模擬非平穩(wěn)性很重要）的預(yù)測。其次，我們尚未探索在存在協(xié)變量的情況下使用 SBNN 進(jìn)行預(yù)測。我們認(rèn)為這個問題相對良性，因為可以在更大的模型中以直接的方式將 SBNN 納入 MCMC（例如，通過添加 Gibbs 步驟）。第三，了解 SBNN 的表示能力是什么，它們的局限性是什么，以及哪些類別的空間過程可以由 SBNN 表示以及在何種程度上表示，將是有用的。SBNN 的表示能力如何隨著其大小的增加而擴展？回答這些問題需要將 SBNN 構(gòu)建為空間統(tǒng)計建模的可行工具。

原文鏈接：https://www.sciencedirect.com/science/article/pii/S2211675324000162

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.