概率性推理模型：綜述

2026-01-15 00:11:40　來源: CreateAMind

上海舉報

分享至

Possibilistic inferential models: a review

概率性推理模型：綜述

https://arxiv.org/pdf/2507.09007

摘要
推斷模型（IM）是一種用于構(gòu)建可證明可靠的、數(shù)據(jù)驅(qū)動的不確定性量化與未知量推斷的框架。IM 與費希爾的可信推斷（fiducial argument）目標相似，但根本區(qū)別在于：IM 不要求不確定性量化必須是概率性的，從而獲得更大靈活性，并能嚴格證明其可靠性。近期的重要進展部分得益于與不精確概率（imprecise probability）文獻——尤其是可能性理論（possibility theory）——的新聯(lián)系。本文所研究的這類可能性型 IM 構(gòu)造簡單，具有極強的類頻率學(xué)派可靠性，并支持完全條件化的、類貝葉斯式的（不精確）概率推理。本文綜述了這些關(guān)鍵的最新進展，闡述了新理論、新方法及計算工具。此外，還提出了一種對基本可能性 IM 的推廣，意外地建立起與現(xiàn)代統(tǒng)計學(xué)和機器學(xué)習(xí)中若干思想（如自助法和保形預(yù)測）的新聯(lián)系。

關(guān)鍵詞與短語：貝葉斯；置信分布；可信推斷；頻率學(xué)派；不精確概率；可能性理論；有效性。

1 引言
推斷模型（IM）是一種用于數(shù)據(jù)驅(qū)動的不確定性量化與關(guān)于相關(guān)未知量的歸納推斷的模型。這些未知量可能是所設(shè)定統(tǒng)計模型中的參數(shù)或其函數(shù)，但也可能涉及其他情形；詳見第6節(jié)。更具體地說，IM 提供一種數(shù)學(xué)上嚴謹、完全條件化的、類貝葉斯式的不確定性量化——無需先驗分布或貝葉斯定理——且在類頻率學(xué)派意義上可證明可靠，即其輸出在重復(fù)抽樣下自然校準。至少在高層次上，這讓人聯(lián)想到費希爾可信推斷的目標，因此有必要從一開始就闡明 IM 的新穎之處：在缺乏真實先驗信息的情況下，概率性不確定性量化存在可靠性極限；而 IM 框架并非通過放松“可靠性”來規(guī)避這些限制，而是通過放松“概率性”，轉(zhuǎn)而在一個更靈活（但仍數(shù)學(xué)嚴謹）的框架中工作，該框架不要求為每個關(guān)于未知量的命題賦予單一或精確的概率值。后續(xù)章節(jié)將深入探討這些細節(jié)。目前只需指出，正是這種在統(tǒng)計推斷中創(chuàng)新性地運用不精確概率理論的概念與工具，促使 Cui 和 Hannig（2024）將 IM 描述為“2010 年代最具原創(chuàng)性的統(tǒng)計創(chuàng)新之一”。

自專著《推斷模型：不確定性推理》（Martin and Liu, 2015b）出版至今已約十年，此后在基礎(chǔ)、理論、方法和計算等各方面均取得了諸多令人振奮的進展。推動這些近期進展的一個動因在于認識到：盡管 IM 偏離常規(guī)概率論使人進入陌生領(lǐng)域，但這一新領(lǐng)域并非無人涉足——整個不精確概率理論研究社群及其豐富文獻蘊藏著重要的洞見、理解以及數(shù)學(xué)與計算工具。這些努力也激發(fā)了其他發(fā)展（例如 Caprio et al. 2025；Williams 2023；Xie and Wang 2022），并為重新理解和改進貝葉斯推斷、可信推斷、自助法、保形預(yù)測等提供了新機遇。本文旨在綜述這些與前述專著相關(guān)但又有所不同的最新進展，并呈現(xiàn)一些新的洞見、方法和結(jié)果。希望本綜述能使這些激動人心的發(fā)展更易于理解，并吸引新一代研究者關(guān)注這些基礎(chǔ)性進展與開放問題。

為此，本文其余部分安排如下：第2節(jié)通過回顧概率性不確定性量化并指出其缺陷來鋪墊背景。特別是，第2.4節(jié)對“虛假置信定理”（Balch et al., 2019）提出了新視角，表明任何依賴數(shù)據(jù)的后驗概率分布——無論是采用何種先驗的貝葉斯方法，還是（廣義）可信推斷等——在本文所考慮的先驗信息為空的情形下，往往會賦予某些錯誤假設(shè)很高的概率或置信度。這一結(jié)論有雙重含義：概率性不確定性量化存在固有的不可靠性；要糾正這一點，必須借助不精確概率世界中更靈活的工具來量化不確定性。第3節(jié)深入探討可能性型 IM 的構(gòu)造細節(jié)，之所以強調(diào)“可能性型”，是因為這一新視角——類似于 Martin and Liu（2015b）中提出的觀點——高度依賴于可能性理論的解釋、演算、計算工具和數(shù)學(xué)結(jié)構(gòu)。隨后介紹了 IM 的關(guān)鍵性質(zhì)，包括有限樣本有效性（finite-sample validity），該性質(zhì)確保其不精確概率輸出得到恰當校準，特別是由此導(dǎo)出的檢驗和置信集具有頻率學(xué)派的錯誤率保證。同時也討論了效率問題，包括一個新的可能性型 Bernstein–von Mises 定理，該定理保證 IM 的輸出在漸近意義下呈可能性高斯分布，且效率與經(jīng)典情形一致（即漸近方差達到 Cramér–Rao 下界）。但 IM 并非純粹的頻率學(xué)派方法——它也提供完全條件化的不確定性量化；第3.4節(jié)綜述了此前工作中較少關(guān)注的相關(guān)類貝葉斯性質(zhì)。IM 的計算并不平凡，第3.5節(jié)簡要回顧了一項令人振奮的新進展，該進展促進了基于抽樣的蒙特卡洛計算，用于評估 IM 的非概率性輸出。第4節(jié)闡釋 IM 提供的遠不止是頻率學(xué)派與貝葉斯學(xué)派的“統(tǒng)一”——IM 框架實際上彌補了兩種范式的缺陷！第5節(jié)處理消除冗余參數(shù)這一重要實踐問題，并由此引出第6節(jié)所呈現(xiàn)的一些新發(fā)展，這些發(fā)展幫助 IM 實現(xiàn)超越統(tǒng)計模型情形的更高層次不確定性量化。該節(jié)還探討了該思想在風險最小化推斷和（保形）預(yù)測中的應(yīng)用。第7節(jié)以簡要總結(jié)收尾，提及本綜述未涵蓋的相關(guān)主題及未來研究的若干開放問題。附錄/補充材料提供了支持性技術(shù)細節(jié)和額外示例。

有人或許會認為此類基礎(chǔ)性工作不切實際，但我持不同看法。多年來，我們一直聽到統(tǒng)計學(xué)作為一門學(xué)科在數(shù)據(jù)科學(xué)浪潮中面臨“錯失良機”的風險；參見 He 等人（2025）的近期報告。統(tǒng)計學(xué)家普遍認同統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)的重要組成部分，那為何如此擔憂？船長從不擔心錯過自己的船，大副和二副亦然；只有輔助船員和乘客才會憂慮趕不上船。這種對錯失數(shù)據(jù)科學(xué)之船的恐懼，暴露了我們社群深層的不安全感——害怕自己只是輔助船員——這顯然并非因為我們參與的應(yīng)用項目不夠多，或證明的一致性定理不夠多。其根源必定在于某種更深層、更重大的缺陷，例如：“一門對科學(xué)和批判性思維至關(guān)重要的學(xué)科，為何擁有兩種方法論、兩種邏輯、兩種常常對同一問題給出截然不同答案的路徑？”（Fraser, 2011b）。只要這類根本性問題懸而未決，我們的學(xué)科就無法對其貢獻充滿信心。通過解決這些基礎(chǔ)問題來為學(xué)科定向，將證明我們擁有獨特的專業(yè)能力，從而讓我們確信：船，不會拋下我們。

2 背景與動機

2.1 問題設(shè)定與符號

由于先驗信息為空白，我們所能依賴的僅有針對數(shù)據(jù) Z Z 及其實現(xiàn) z z 的模型/似然函數(shù)。根據(jù) Hacking（1976）的觀點，“統(tǒng)計學(xué)家希望獲得數(shù)據(jù)支持假設(shè)程度的數(shù)值度量”，在我看來，這聽起來像概率性不確定性量化（見第2.2節(jié)）。因此，盡管存在完全空白的先驗信息（這使得恰當?shù)呢惾~斯推斷無法實現(xiàn)），目標仍然是為關(guān)于未知量 Θ Θ的假設(shè)分配數(shù)據(jù)依賴的概率（或類似的東西）。為此，我將追隨費希爾——“量化不確定性的世界大師”（Pearl 2018）——以及杰弗里斯、鄧普斯特、伯格、瓦利及其他先驅(qū)者的思想。

2.2 概率性不確定性量化

重要的是，必須區(qū)分對未知且不可觀測的 Θ Θ（如本文所考慮的情形）進行概率性不確定性量化，與對未知但可觀測的對象（例如，未來的一個數(shù)據(jù)點）進行量化之間的區(qū)別。在后一種情況下，所涉及的概率模型可以直接根據(jù)觀測結(jié)果進行檢驗：如果模型聲稱某個預(yù)設(shè)事件具有（實際上）零概率，而該事件卻發(fā)生了，則模型必然是錯誤的。這就是庫爾諾原理（Cournot’s principle），參見 Vovk (1993)、Shafer (2007) 以及 Shafer and Vovk (2019, 第10章)。然而，在前一種情況下，真實參數(shù) Θ Θ 通常永遠不會被揭示，因此關(guān)于 Θ Θ 的概率性不確定性量化無法直接對照現(xiàn)實進行檢驗。但它可以通過間接方式接受可靠性審查：

即使未將經(jīng)驗頻率觀點作為推斷的基礎(chǔ)，如果一種表示不確定知識的程序……在反復(fù)使用時會系統(tǒng)性地得出誤導(dǎo)性結(jié)論，那也是不可接受的。（Reid and Cox 2015）

2.3 現(xiàn)有方法

默認先驗貝葉斯方法（Default-prior Bayes）在缺乏真實信息時，采用相等概率作為默認的做法有著悠久歷史。這一思想最早出現(xiàn)在貝葉斯（Bayes, 1763）的原始工作中，并被拉普拉斯（Laplace, 1812）及其同時代學(xué)者所采納，最終被稱為“不充分理由原則”（principle of insufficient reason）（例如 Stigler 1986, 第127–129頁）。凱恩斯（Keynes, 1921, 第4章）后來將其更名為“無差別原則”（principle of indifference），并描述如下：

“無差別原則斷言……若沒有正面理由賦予若干命題以不相等的概率，則必須對它們分配相等的概率?！保↘eynes 1921, 第45頁）

一方面，該原則至少在初步考慮時似乎普遍可接受，并已被廣泛應(yīng)用于各種場景，且以多種方式得到推廣（例如 Jaynes 2003）。另一方面，包括凱恩斯和費希爾在內(nèi)的許多作者對該原則提出了嚴厲批評。

杰弗里斯（Jeffreys）以不同視角回應(yīng)了費希爾的批評。他并未試圖對“無知”進行概率性描述——這是一項不可能完成的任務(wù)（見第2.4節(jié)）——而是專注于構(gòu)建其他方面合理、可辯護的默認先驗：

“…找到一種方式來表達一個參數(shù)的大小未知，而其所有可能取值都不需要特別關(guān)注。”（Jeffreys 1998, 第117頁）

他的努力催生了如今廣為使用的杰弗里斯先驗（Jeffreys priors, Jeffreys 1946），后續(xù)研究證明這些先驗所產(chǎn)生的后驗分布在大樣本下具有優(yōu)良性質(zhì)（例如 Datta and Ghosh 1995；Welch and Peers 1963）。目前，杰弗里斯公式已在多個方向上得到實質(zhì)性推廣（例如 Berger et al. 2024）。然而，盡管取得這些進展，學(xué)界仍未能就哪一種（如果有的話）默認先驗是“正確”的達成普遍共識，因此根本問題顯然仍未解決；參見第20頁埃夫龍（Efron）的引述。

可信推斷及其類似方法（Fiducial and the like）費希爾（Fisher, 1930, 1933, 1935a,b）提出了一種新穎的、非貝葉斯的概率性不確定性量化方法——薩維奇（Savage, 1961）曾著名地將其描述為“試圖不打破貝葉斯之蛋而做出貝葉斯煎蛋卷的大膽嘗試”。此處我不展開細節(jié)，讀者可參考 Zabell (1992) 和 Savage (1976) 了解費希爾的思想，以及 Xie and Singh (2013)、Hannig et al. (2016)、Schweder and Hjort (2016) 獲取關(guān)于現(xiàn)代可信類推斷的視角。

粗略而言，費希爾的可信推斷將模型賦予可觀測數(shù)據(jù)事件的、依賴于參數(shù)的概率，重新解釋為關(guān)于未知參數(shù)的（依賴于數(shù)據(jù)的）斷言，然后將這些事件原先的概率“翻轉(zhuǎn)”為給定觀測數(shù)據(jù)下關(guān)于未知參數(shù)的主觀概率。費希爾選用“fiducial”（意為“基于信念或信任”）一詞來描述其解法，清楚表明他意識到自己的論證并非百分之百數(shù)學(xué)嚴謹。費希爾心中必定存在某種支撐其對可信概率之“信念/信任”的原則，但據(jù)我所知，他從未明確陳述過此類原則。鄧普斯特（Dempster, 1963, 1964）將其描述為一種“繼續(xù)視作”（continue to regard）的操作；漢尼格（Hannig）等人（例如 Hannig et al. 2016；Murph et al. 2024）則稱之為“切換原則”（switching principle），即隨機與固定的角色發(fā)生互換。無論如何，可信推斷融合了數(shù)學(xué)推理與原則應(yīng)用，因此與默認先驗貝葉斯方法并無本質(zhì)區(qū)別。

由于費希爾的聲望及其所提方案的神秘性，可信推斷獲得了大量關(guān)注——同時也遭遇了嚴厲審視。林德利（Lindley, 1958）、鄧普斯特（Dempster, 1963, 1964）以及布勒與費德森（Buehler and Fedderson, 1963）對費希爾的構(gòu)想給予了致命打擊。盡管這些批判極具洞見，但基本上僅證實了可信推斷在數(shù)學(xué)上并不嚴謹。費希爾所提供的解法缺乏數(shù)學(xué)嚴格性，并不意味著該問題本身不切實際、無關(guān)緊要或不可解；因此，可信推斷對統(tǒng)計學(xué)家而言仍是一種“圣杯”：

2.4 概率論是否適合這項任務(wù)？

在統(tǒng)計學(xué)文獻中，幾乎普遍默認不確定性量化必須使用概率論來表述。但值得追問的是：概率性不確定性量化能否實現(xiàn)第2.2節(jié)所描述的可靠性目標？劇透警告——答案是“否”。

這相當于一個假設(shè)：回歸函數(shù)的根大于 -1。假設(shè)真實參數(shù) Θ Θ 為 (0.3, 0.1, 1)，因此上述假設(shè)實際上是錯誤的。圖1展示了基于1000個大小為 n = 25
的數(shù)據(jù)集，該貝葉斯后驗分布所對應(yīng)的虛假置信率 α ? F C R ( α , H )（的一個下界）的圖像。請注意，即使這個下限在整個 α 范圍內(nèi)也相當高。這種貝葉斯后驗傾向于賦予錯誤假設(shè)相對較高概率的趨勢，正是導(dǎo)致系統(tǒng)性誤導(dǎo)性結(jié)論風險的原因。

以概率論來表述統(tǒng)計不確定性量化的風險并非新問題。例如，F(xiàn)raser (2013) 寫道：

[Xie and Singh (2013)] 因此建議我們忽略對置信集的限制或等價物，允許自由地生成參數(shù)分布。當然，分布更容易思考，大體上符合費希爾最初的提議，且更貼近貝葉斯方法的自由度，但它們確實忽視了固有的風險……

這些風險主要涉及在進行邊緣化時所產(chǎn)生的不可靠性（例如 Balch et al. 2019；Dawid et al. 1973；Fraser 2011a）。當 Schweder and Hjort (2013) 警告說“我們認為不應(yīng)尋求聯(lián)合[置信分布]，因為它們可能輕易使統(tǒng)計學(xué)家迷失方向”時，他們擔心的是用戶會無法抗拒進行熟悉的概率性邊緣化的誘惑，從而制造出不可靠性的風險。造成虛假置信或這種不可靠性風險的根本原因，目前仍是一個開放性問題。當前的猜想是：當假設(shè)涉及模型參數(shù)的非線性函數(shù)時，虛假置信往往更容易發(fā)生（Martin 2024b），例如上述假設(shè) H 是關(guān)于比率的假設(shè)；Fraser (2011a) 和 Fraser et al. (2016) 的分析也給出了類似的警示信息。

2.5 若非概率論，那又該是什么？

統(tǒng)計推斷中概率性不確定性量化不可靠的問題具有普遍性，并非某種特定概率方法所獨有。因此，要解決這些問題，就必須超越概率性不確定性量化，轉(zhuǎn)向其他框架。這種“其他框架”應(yīng)當具有類似概率的性質(zhì)，使得不確定性量化仍有意義，但它不能滿足可加性（additivity）。

Choquet（1954）引入的容度（capacities）是非可加的集函數(shù)，下文我將展示：一種特殊類型的數(shù)據(jù)依賴容度能夠?qū)崿F(xiàn)普通概率所無法達到的理想可靠性性質(zhì)。

粗略地說，不精確概率（imprecise probabilities）是經(jīng)過歸一化的容度，并具備額外性質(zhì)，使其適合作為不確定性量化的模型。統(tǒng)計學(xué)家可能熟悉的一些例子包括：

信念函數(shù)（belief functions），最初由 Dempster（1966, 1967, 1968）提出，后由 Shafer（1976）形式化，屬于無窮單調(diào)容度；
在穩(wěn)健性研究中出現(xiàn)的二階單調(diào)容度（2-monotone capacities）（例如 Berger 1984；Huber 1973, 1981；Wasserman 1990b；Wasserman and Kadane 1990）；
Walley（1991）提出的基于下預(yù)視（lower previsions）的廣義貝葉斯框架。

在接下來的討論中，我們并不需要上述不精確概率具體形式的細節(jié)。此處我關(guān)注的是不精確性本身及其作用。

在教科書中，普通的或精確的概率論通常置于機會實驗（chance experiment）的背景下介紹——例如，擲一枚均勻的六面骰子——其中實驗的具體設(shè)定完全明確，但結(jié)果無法確定預(yù)測。此時，概率用于量化人們對實驗不可預(yù)測結(jié)果是否滿足某個性質(zhì)的不確定性。這類不確定性稱為偶然不確定性（aleatory uncertainty）。

但若實驗的具體設(shè)定并未完全明確呢？假如關(guān)于即將擲出的骰子存在模糊性——例如，可能有一半的面都標著“3”，或者骰子不對稱地偏向“6”等——那么顯然不存在一個單一的概率能準確刻畫對結(jié)果的不確定性。這種模糊性就是認知不確定性（epistemic uncertainty）的一個例子，而普通概率論無法容納此類不確定性。

在對骰子完全無知的極端情形下，應(yīng)用無差別原則并假設(shè)各面概率相等是不可接受的：在“對骰子一無所知”與“確信骰子公平”這兩種幾乎正交的情境下，評估結(jié)果怎么可能相同？問題不在于假設(shè)公平性本身，而在于相信單一概率可以同時刻畫偶然不確定性和認知不確定性。

不精確概率旨在直接處理認知不確定性，即模型設(shè)定中的模糊性。因此，不精確性并非源于評估粗糙的缺陷，而是為了誠實地、忠實地捕捉所有不確定性的努力。

這對本文所討論的關(guān)于未知量 Θ Θ 的不確定性量化目標具有重要意義，因為在“先驗無知”（a priori ignorance）的情況下，認知不確定性占主導(dǎo)地位。從這一視角看，“數(shù)據(jù)足夠信息充分，足以將空白的、不精確的先驗——即完全無知——映射為既完全精確又可靠的后驗”的想法是完全不現(xiàn)實的。不精確性是必要的。事實上，Walley (1991) 提出的廣義貝葉斯規(guī)則應(yīng)用于完全空白先驗時，返回的仍是一個空白后驗，這意味著當一個人在先驗上無知時，不可能以貝葉斯方式學(xué)習(xí)；另見 Kyburg (1987)、Walley (2002)，以及近期的 Gong and Meng (2021)。非貝葉斯式學(xué)習(xí)方法不會受到此類批評，但這種“上手”方法顯然要付出相當高昂的代價——即必須徹底放棄概率論，轉(zhuǎn)而采用沒有自然固定數(shù)據(jù)不確定性量化解釋的程序；參見第6頁 Zabell 的引述。

然而，我的主張是：許多這些非貝葉斯學(xué)習(xí)策略實際上對應(yīng)于不精確概率性或更具體地說，可能性性（possibilistic）不確定性量化，只是此前無人意識到這一點。盡管費希爾活躍的時代尚無不精確概率理論，但在他的著作中存在一些段落暗示他可能預(yù)見到了一種不精確或不準確的概率理論：

“[p 值] 比任何關(guān)于該命題的精確概率陳述更原始、更基本，且不能證明其合理性?！保‵isher 1973, 第46頁）
“然而，顯然，任何精確的概率陳述都不能基于[置信限]。”（同上，第74頁）

推測起來，非貝葉斯主義者并不反對固定數(shù)據(jù)不確定性量化的解釋，他們只是不知道如何在不走貝葉斯路線的前提下加以論證，而這可能會危及可靠性。下文所述的發(fā)展展示了如何獲得既可靠又高效的可能性性不確定性量化。

3 可能性推斷模型

3.1 視角

關(guān)于基于隨機集合的構(gòu)造，有一個技術(shù)要點需提供背景知識以支撐后續(xù)內(nèi)容。Martin and Liu (2015b) 中的定理 4.3 指出，用于量化未觀測值 u u 不確定性的唯一可接受的隨機集合是嵌套的，即：對于隨機集合的任意兩個實現(xiàn)，其中一個必為另一個的子集。雖然隨機集合的分布通常可用信念函數(shù)描述，但嵌套隨機集合的分布對應(yīng)于一種特殊類型的信念函數(shù)，即相容信念函數(shù)（consonant belief function）；參見 Shafer (1976, 1987)。相容信念函數(shù)對應(yīng)于可能性測度（possibility measures）（例如 Dubois 2006; Dubois and Prade 1988），而這些測度類似于統(tǒng)計學(xué)家所熟悉的概率分布。鑒于前述定理表明高效的 IM 必須采用 T T 上的可能性測度形式，我將專注于可能性型 IM；另見 Liu and Martin (2024)。對可能性理論基礎(chǔ)不熟悉的讀者，請參閱附錄 A 以了解與下文統(tǒng)計發(fā)展相關(guān)的背景知識。

3.2 構(gòu)造

我將始終假設(shè)，對于幾乎所有 z z，分母是有限的。相對似然可以直接賦予一種不精確概率性（實際上是可能性性）的解釋，且這一點已被廣泛研究（例如 Denceux 2006, 2014；Shafer 1982；Wasserman 1990a）。但基于原始相對似然的可能性性不確定性量化存在與上述討論的概率性不確定性量化類似的問題——顯然無法控制虛假置信率。然而，相對似然扮演著一個重要的角色，即根據(jù)參數(shù)值與觀測數(shù)據(jù) Z = z
的相容性對其進行排序，這正是費希爾所設(shè)想的角色。可以說，上述相對似然函數(shù) θ ? R ( z , θ ) 是“最佳”的此類排序函數(shù)，因為它是極小充分統(tǒng)計量；另見附錄 C 中的注釋1。但這并非唯一可考慮的排序函數(shù)；參見第5–6節(jié)。

可能性型 IM 構(gòu)造的第二步是“驗證”（validifying）（Martin 2022a）相對似然（或其他排序函數(shù)）。這相當于應(yīng)用一種“概率到可能性變換”（probability-to-possibility transform）的版本（例如 Dubois et al. 2004; Hose 2022），并返回可能性型 IM 的等高線函數(shù)：

3.3 基于抽樣的可靠性性質(zhì)

3.3.1 有效性（Validity）

可能性型 IM 的核心可靠性性質(zhì)是強有效性（strong validity）。

定理2?？赡苄孕?IM 具有強有效性，其含義是：

這對應(yīng)于 p 值的熟悉結(jié)果，是基礎(chǔ)數(shù)理統(tǒng)計課程中所教授的概率積分變換的直接推論。盡管這一結(jié)果以及下文部分（但非全部）結(jié)果在 p 值的語境下可能為人所熟知，但重要的是要記?。簆值通常僅用于孤立的顯著性檢驗，而非作為構(gòu)建廣泛、數(shù)學(xué)上嚴謹?shù)目煽坎淮_定性量化框架的基礎(chǔ)模塊。此外，此處的結(jié)果之所以與熟悉的 p 值考量一致，僅僅是因為我假設(shè)了先驗信息為空白；更一般的情形已在 Martin (2022b) 中討論，并在第7節(jié)簡要提及。

強有效性具有若干重要推論。首先，式（4）立即意味著可能性等高線的上 α 水平集是一個 100(1?α)% 置信區(qū)域。請注意，貝葉斯可信集和可信推斷的置信集通常只能在樣本量趨于無窮時漸近地達到置信集的地位。圖2展示了上水平集 C α ( z ) ，其中 α = 0.1 。

那么，正如對式（6）的解釋一樣：IM 將較大的下概率賦予一個錯誤假設(shè)，這是一個小概率事件。

一個自然的問題是：為何同一個量 α 會同時出現(xiàn)在上述兩個表達式的花括號內(nèi)外。原因在于，數(shù)值概率的解釋是與語境無關(guān)的。也就是說，盡管“小”和“大”概率的具體含義可能因人而異，但像“概率為0.1”這樣的陳述，對于某個特定個體而言，無論主題是明天的天氣還是關(guān)于未知量 Θ 的數(shù)據(jù)驅(qū)動不確定性量化，其含義都是相同的。因此，用于解釋關(guān)于 Θ 的概率的尺度，與用于解釋關(guān)于 Z 的模型驅(qū)動概率的尺度完全一致。于是，同一個 α——代表任何被解釋為“小”的值——在式（6）的概率陳述的花括號內(nèi)外均會出現(xiàn)。

推論2?？赡苄孕?IM 在式（6）的意義上是有效的。因此：

最后，盡管有效性與強有效性在例如 Martin and Liu (2013, 2015b) 中曾被或多或少視為等價性質(zhì)，但必須強調(diào)的是：強有效性（4）確實比有效性（6）更強。這一點首次在 Cella and Martin (2023) 中得到確立，其中證明了式（4）中的強有效性與式（6）的一個關(guān)于假設(shè)的一致版本是等價的。有關(guān)進一步解釋，請參見附錄 C 中的注釋2。

3.3.2 效率

此處的問題是基礎(chǔ)性的，與19世紀初勒讓德和高斯發(fā)展出的關(guān)于最小二乘法的基本概念相關(guān)，更一般地說，也涉及觀測值組合（例如 Stigler 1986），以及后來20世紀發(fā)展的充分統(tǒng)計量、費希爾信息、Cramér–Rao 下界等。

在早期 IM 發(fā)展中，Martin and Liu (2015a) 通過手動操作連接數(shù)據(jù) Z Z、參數(shù) Θ Θ 和輔助變量 U U 的關(guān)聯(lián)關(guān)系，處理了跨不同來源的信息整合問題。他們“重新發(fā)現(xiàn)”了經(jīng)典的降維技術(shù)，如充分性和基于輔助統(tǒng)計量的條件化；他們還發(fā)展了一些新見解，超出了本綜述的范圍。雖然他們的手動方法提供了更大的靈活性，并進而具有更高效率的潛力，但通常難以實施。當前的構(gòu)造基于相對似然排序，自動以一種“最優(yōu)”的方式整合觀測值（至少在某些情況下），無需任何手動操作。下文將回顧 Martin and Williams (2025) 的結(jié)果，表明上述有效的可能性型 IM 在熟悉的含義下是漸近高效的。因此，IM 的精確有效性（通過不精確性實現(xiàn)）在效率方面沒有任何代價。

以下總結(jié)的是一個著名的 Bernstein–von Mises 定理的可能性理論版本，該定理出現(xiàn)在貝葉斯和（廣義）可信推斷文獻中，它確保輸出是漸近高斯分布，其協(xié)方差矩陣與 Cramér–Rao 下界一致。Bernstein–von Mises 定理對貝葉斯和可信推斷至關(guān)重要，因為它保證了可信集是漸近置信集。對于可能性型 IM，其等高線水平集自動成為置信集（推論1），因此下面的定理3嚴格關(guān)注 IM 的漸近效率。

3.4 條件性、固定數(shù)據(jù)性質(zhì)

雖然考察 IM 輸出的抽樣性質(zhì)是自然且重要的，但（不精確）概率性不確定性量化常被忽視的一個優(yōu)勢在于：它提供了完全條件化、針對固定數(shù)據(jù)的解釋。這一角度在默認先驗貝葉斯、（廣義）可信推斷、IM 等文獻中往往未被充分討論。遺憾的是，本文篇幅有限，無法對此進行細致闡述，詳見附錄 D。

3.5 計算

直到最近，計算 IM 等高線的方法仍僅限于樸素且相對低效的策略。具體而言，主流方法是通過以下方式近似 π z
：

Martin (2025b) 最近開發(fā)了一種新穎且高效的 IM 計算策略。該方案用一種從 IM 輸出中專門導(dǎo)出的“后驗分布”（而非通過貝葉斯定理）進行蒙特卡洛抽樣，取代了（大部分）式（7）中的樸素等高線評估。這些發(fā)展的起點是所謂的“可信集”（credal set）（例如 Levi 1980, 第5章），它與 IM 輸出相關(guān)聯(lián)。一般而言，可信集就是被給定上概率所支配的一組精確概率；在我們當前的記號下，其定義為：

3.6 示例

4 對頻率學(xué)派與貝葉斯學(xué)派的啟示

4.1 對頻率學(xué)派而言

頻率學(xué)派有充分理由放棄概率主義（probabilism）。這些理由包括上文第2.4節(jié)所述的可靠性警告、Mayo（2018）詳述的基礎(chǔ)性問題，以及概率主義缺乏靈活性所帶來的實際相關(guān)問題，例如：“認為統(tǒng)計問題不必作為一個統(tǒng)一整體來解決，這種想法對貝葉斯學(xué)派而言是不可接受的，但對頻率學(xué)派卻是一種解放”（Wasserman 2008）。然而，僅僅因為概率主義存在缺陷就徹底拋棄形式化的不確定性量化，實屬極端之舉——無異于“把嬰兒和洗澡水一起倒掉”。事實上，這種拋棄既無必要，又有害處。

我先說明為何“無必要”。頻率學(xué)派對其經(jīng)典問題已有偏好的解決方案，因此自然不愿考慮那些對同一經(jīng)典問題提出不同解法的新框架。但上文所述的基于似然的可能性型推斷模型（possibilistic IM）通常恰好與經(jīng)典解法一致（必要時模去適當?shù)倪吘壔幚?；見?節(jié)）。此外，該基于似然的框架易于推廣（第6節(jié)），從而在可能性型 IM 解法與常用頻率學(xué)派解法之間實現(xiàn)更大的靈活性和更廣泛的吻合。更一般地，附錄 G 中正式陳述并證明的結(jié)果大致如下：對于關(guān)于完整參數(shù) Θ 的任意特征 Φ = f(Θ) 的任何具有頻率學(xué)派錯誤率保證的檢驗或置信程序，都存在一個有效的可能性型 IM（即提供完整的不確定性量化！），其所導(dǎo)出的關(guān)于 Φ 的檢驗/置信程序至少與給定程序一樣好。這一結(jié)果推廣了 Martin and Liu（2014）和 Martin（2021a）中的類似結(jié)論，具有重要推論：沒有任何真正的頻率學(xué)派解法——無論是經(jīng)典教科書中的，還是尚未被構(gòu)想出來的——超出了可能性型 IM 框架的能力范圍。因此，頻率學(xué)派實際上已經(jīng)在使用可能性型 IM，故而他們對本文所提出的不確定性量化方式不應(yīng)有任何異議；但他們尚未充分利用可能性型 IM 所能提供的全部優(yōu)勢，這一點我將在下文討論。

頻率學(xué)派若放棄形式化的不確定性量化，其危害已被廣泛記錄；《美國統(tǒng)計學(xué)家》（The American Statistician）近期多期?？劢褂诖?。其中所述的混亂源于教科書一方面強調(diào) p 值和置信區(qū)間沒有概率解釋，另一方面又不提供替代性解釋。缺乏解釋會導(dǎo)致至少兩種后果：一些研究者會自行構(gòu)建解釋，但多種不同的解釋只會造成混淆；另一些研究者則干脆接受“不存在有意義的解釋”這一觀點，使統(tǒng)計分析淪為盲目遵循的規(guī)程，即所謂“統(tǒng)計顯著性的崇拜”（Ziliak and McCloskey 2008）。這種混淆和/或盲目信任導(dǎo)致統(tǒng)計工具的誤用，或許更重要的是，它促使研究者只關(guān)注那些他們認為可用簡單教科書規(guī)程回答的、相對狹窄的科學(xué)問題。

幸運的是，這種混淆是可以克服的，因為頻率學(xué)派方法與 IM 之間的聯(lián)系為 p 值和置信區(qū)間提供了一種簡單且數(shù)學(xué)嚴謹?shù)慕忉?。費希爾曾正確指出，p 值和置信區(qū)間不能對 Θ 作出“精確的概率陳述”，但這并不意味著完全不能作出任何陳述。借用 Shafer 將上概率描述為“合理性”（plausibility）度量的說法，上述聯(lián)系立即意味著：p 值可被解釋為在給定數(shù)據(jù) z 下零假設(shè) H? 的合理性，而置信集可被解釋為在給定數(shù)據(jù) z 下所有個體均具有足夠合理性的參數(shù)值集合。這正是實踐中 p 值和置信集的實際用法，如今這一用法獲得了數(shù)學(xué)上嚴謹?shù)恼斝浴＿@正是我在課程中（包括入門級課程）教授 p 值和置信集的方式——無需涉及不精確概率等技術(shù)細節(jié)——并受到學(xué)生們的廣泛歡迎。

4.2 對貝葉斯學(xué)派而言

與頻率學(xué)派不同，貝葉斯學(xué)派堅定地信奉概率主義（probabilism）。當真實先驗信息可用時，這種承諾是合理的；但在缺乏先驗信息的情況下，這種承諾就值得質(zhì)疑。由于不存在能夠忠實表達“無知”的先驗概率分布，因此任何默認先驗的貝葉斯后驗分布都不可能在任何意義上是“正確”的——“[貝葉斯定理] 無法從假設(shè)的概率中創(chuàng)造出真實的概率”（Fraser 2014）。此外，即使務(wù)實的貝葉斯主義者并不關(guān)心其后驗分布是否“正確”，也必須接受“虛假置信定理”所揭示的可靠性缺失問題?；谶@些（或許還有其他）原因，Efron（2013）寫道：

“……在缺乏先驗信息的情況下使用貝葉斯定理，或許是統(tǒng)計推斷中最重要的未解問題?！?/blockquote>
堅持概率主義是對不確定性量化質(zhì)量與可靠性的限制。為強調(diào)這一點，不精確概率理論與應(yīng)用學(xué)會（Society for Imprecise Probability: Theories and Applications）有一句座右銘：“不確定性遠不止概率。”IM 框架坦然接受概率主義的這一局限，并承認：在缺乏先驗信息時，雖然不存在單一“正確”或完全可靠的后驗概率分布，但存在一個可被合理辯護的后驗概率集合，而該集合可由一個可能性測度來刻畫。
讀者對不精確概率感到不適是可以理解的，出于簡潔性考慮，或許仍傾向于熟悉的（盡管有缺陷的）概率性不確定性量化。但構(gòu)造概率的方式多種多樣，若僅局限于“先驗 × 似然”這類構(gòu)造，同樣會限制不確定性量化的質(zhì)量。Martin（2025c）提出的新思路是：用一個概率分布去近似 IM 的可能性型輸出。下文簡要概述這一方法。

盡管內(nèi)層概率近似通常不是任何先驗下的貝葉斯后驗，但在某些情形下仍可建立直接的貝葉斯聯(lián)系。特別地，對于所謂的不變統(tǒng)計模型（invariant statistical models）（參見 Eaton 1989；Schervish 1995, 第6章），基于右哈爾先驗（right Haar prior）的貝葉斯后驗正是該可能性型 IM 的一個內(nèi)層概率近似（例如 Martin 2023a, 2025c）。
綜上所述，在缺乏先驗信息時，概率主義的局限性與上述可能性主義（possibilism）的優(yōu)勢共同表明：應(yīng)放棄前者，轉(zhuǎn)而采用后者。但即便有人堅持概率主義，“似然 × 先驗”這一貝葉斯式構(gòu)造本身也有其局限：如果真存在一個能解決 Efron 問題的神奇默認先驗，那它早就該被發(fā)現(xiàn)了。因此，該問題的解決方案很可能來自一種全新的視角——其中后驗并非通過貝葉斯定理獲得?；蛟S，正是那個“不打破貝葉斯之蛋卻做出煎蛋卷”的解法，從而解決了 Efron 所稱的“最重要的未解問題”？
5 消除冗余參數(shù)
Basu (1977) 曾寫道：“從模型中消除冗余參數(shù)被普遍認為是統(tǒng)計學(xué)的一個重大問題?！?自 Basu 時代以來，情況并未有多大改變——頻率學(xué)派的不可能性結(jié)果（例如 Gleser and Hwang 1987；Dufour 1997）以及上文討論的貝葉斯推斷的普遍不可靠性表明，邊緣化推斷具有挑戰(zhàn)性，需要謹慎處理。本文所采用的可能性理論視角提供了一些新的洞見，我將在下文進行討論。
在（不精確）概率推斷中執(zhí)行的一種通用操作是“擴展”（extension），即利用不確定性量化框架的演算，將對一個未知量的不確定性量化擴展到相關(guān)的另一個未知量。在可能性理論中，相關(guān)演算是優(yōu)化（optimization），因此這是用于執(zhí)行擴展的操作。遵循 Zadeh (1975, 1978)，可能性型擴展原則的基本構(gòu)件是一種基于優(yōu)化的邊緣化規(guī)則：使用當前記號和術(shù)語，若 Θ 是未知的，其不確定性由帶有等高線 π_z 的可能性型 IM 給出，且若 Φ = g(Θ) 是 Θ 的一個特征，則對應(yīng)的基于擴展的邊緣 IM 等高線定義為

盡管通向式（12）的正式推導(dǎo)可能令人陌生，但所執(zhí)行的操作卻是統(tǒng)計學(xué)家無需多想就會使用的：為了檢驗一個復(fù)合假設(shè)，可以在其包含的所有簡單假設(shè)上最大化 p 值。

該策略的簡潔性和普適性是其優(yōu)勢。但若不對特定問題或感興趣的特征進行任何定制化調(diào)整，人們應(yīng)預(yù)期相應(yīng)的基于擴展的邊緣 IM 會相當保守。

這并非完全由 ? ? 決定。與之前一樣，容易證明強有效性在此基于輪廓的邊緣 IM 構(gòu)造下得以保留。在排序步驟中包含優(yōu)化的合理性，在效率方面通常優(yōu)于在驗證后進行優(yōu)化，但這一點較為微妙，我建議感興趣的讀者參閱 Martin (2022b)。在特定應(yīng)用中，輪廓法往往比擴展法更高效是顯而易見的；詳見下文。Martin and Williams (2025) 表明，雖然基于擴展和基于輪廓的邊緣 IM 構(gòu)造都享有大樣本可能性型 Bernstein–von Mises 定理，但后者極限高斯分布的方差通常更小，因此效率更高。

伽馬例子（續(xù)）。此處我重新分析 Hamada 等人 (2004) 中的數(shù)據(jù)。關(guān)注點在于推斷伽馬分布的均值 2。可以執(zhí)行兩種邊緣化——基于擴展和基于輪廓——兩者均在圖5(b)中展示。如前所述，基于擴展的等高線（可從圖4(b)中的聯(lián)合等高線導(dǎo)出）結(jié)果更寬泛，缺乏基于輪廓解法的效率。圖5(b) 還展示了基于“暴力搜索”策略的“精確”基于輪廓的邊緣 IM 等高線（灰色線）。
我稱其為“精確”，是因為該策略能產(chǎn)生對等高線的逐點無偏估計。我在這里展示這兩條曲線是為了突出第3.5節(jié)簡要描述的 Martin (2025b) 的基于抽樣的蒙特卡洛策略的準確性：圖5(b)中的兩條實線幾乎無法區(qū)分。
關(guān)于基于輪廓似然的 IM 解法的進一步討論和示例見附錄 F。盡管它相比基于擴展的邊緣化具有優(yōu)勢，但必須強調(diào)的是，基于輪廓的邊緣化并非普遍適用，即存在輪廓法次優(yōu)的情形。正如預(yù)期的那樣，當存在許多冗余參數(shù)時會出現(xiàn)問題，例如著名的 Neyman and Scott (1948) 和 Stein (1959) 例子；參見 Martin (2023b, 第3.6節(jié))。更具體地說，基于輪廓的邊緣 IM 始終有效，但隨著冗余參數(shù)數(shù)量的增加，其效率會下降。原因是，當冗余參數(shù)數(shù)量發(fā)散時，最大似然估計量傾向于不一致；由于基于輪廓的邊緣 IM 等高線的峰值位于最大似然估計量處，若該峰值偏離目標，則需要更寬的等高線才能覆蓋相關(guān)范圍。補救方法是用其他東西（例如邊緣似然或條件似然）替換相對輪廓似然排序（例如 Severini 1993, 1994, 1998），但迄今為止，這僅在個案基礎(chǔ)上得到解決（Martin 2023b）。值得再次提及的是，前述 IM 始終有效——不同于貝葉斯和可信推斷，它們在冗余參數(shù)問題上可能具有誤導(dǎo)性——因此問題是如何恰當?shù)貙εd趣參數(shù)值進行排序，以使推斷高效。

技巧1。一個簡單且通用的消除冗余參數(shù)的策略是條件化。費希爾精確檢驗就是一個熟悉的例子，其中 p 值是通過給定零假設(shè)下充分統(tǒng)計量的觀測值所對應(yīng)的條件分布獲得的。根據(jù)定義，給定充分統(tǒng)計量的數(shù)據(jù)的條件分布不依賴于參數(shù)，因此冗余參數(shù)被消除了。當前的目標并非獲得用于檢驗假設(shè)的 p 值，但相關(guān)計算相似，因此可以采用相同的策略。
技巧2。嚴格來說，式（13）外層的上確界并非必要。事實上，一個實際上難以達到的等高線定義為

6 在更一般情境下的 IM
6.1 關(guān)鍵技術(shù)擴展
上述提案的一個明顯局限在于，其對相對似然的強調(diào)隱含地假設(shè)了一個統(tǒng)計模型 { P θ : θ ∈ T }是可用的。例如，機器學(xué)習(xí)應(yīng)用往往傾向于避免此類模型假設(shè)。一個簡單但重要的觀察——已在各種情境中應(yīng)用（包括上文第5節(jié)）——是：驗證步驟并不要求排序必須基于相對似然。也就是說，雖然所設(shè)定模型的似然函數(shù)決定了相對于該模型的“最優(yōu)”排序選擇（附錄 C 中的注釋1），但可能存在其他因素建議采用不同的選擇。以下是幾個關(guān)鍵實例：
如果數(shù)據(jù)來自多個來源，例如在元分析或分治策略中（Hector et al. 2025），或者以匯總統(tǒng)計量的形式出現(xiàn)，可能無法計算完整似然。
更一般地，所設(shè)定的模型可能無法為感興趣的參數(shù)確定一個似然函數(shù)，例如在分位數(shù)回歸中。
如果關(guān)于 Θ 存在部分/不完整的先驗信息——參見 Martin (2022b) 和下文第7節(jié)——或者如果問題背景暗示某些假設(shè)比其他假設(shè)具有更高優(yōu)先級（例如 Liu and Williams 2025；Yang et al. 2023），那么就有理由修改基于似然的排序函數(shù)。
在此，我將簡要描述這一簡單但重要的技術(shù)擴展，然后將其應(yīng)用于一些相關(guān)問題；另見附錄 H。

關(guān)于這一通用 IM 構(gòu)造的更多細節(jié)見附錄 H。可以預(yù)期，Martin 和 Williams（2025）為基于似然的可能性型 IM 所建立的 Bernstein–von Mises 定理，可推廣至此處所述的一些更一般情形，但具體細節(jié)仍有待完善。
當然，挑戰(zhàn)在于如何計算式（14）中的上確界，而這歸結(jié)為對排序函數(shù) ρ ρ 的策略性選擇和/或應(yīng)用第5節(jié)中所述的邊緣化技巧。接下來將討論這兩種情況下的若干有趣且實用的例子。
6.2 對風險最小化者的推斷

誠然，上述解決方案并不完全令人滿意，因為有效性僅在樣本量趨于無窮時近似成立，而非在有限樣本中精確成立。但我認為這里仍有很大的改進空間，因此我在此綜述中提出這一不夠完美的解決方案。事實上，我猜想上述描述的漸近有效性具有更高階的精度，即 π Z n ( Θ ) 收斂到均勻分布的速度比通常的根號 n 速率更快。更一般地，我確信對上述提案的若干變體，至少能達到“更接近精確有效”的程度，是觸手可及的。我希望本綜述能激勵他人貢獻自己的想法，共同解決這一重要且富有挑戰(zhàn)性的開放問題。
6.3 預(yù)測

7 結(jié)論
本文綜述了可能性推斷模型（possibilistic inferential models, IMs）的一些最新進展。最重要的是，IM 提供了類貝葉斯的、完全條件化的不確定性量化，同時具備類頻率學(xué)派的校準性質(zhì)，這意味著由 IM 輸出導(dǎo)出的檢驗和置信程序能夠控制頻率學(xué)派的錯誤率。主流統(tǒng)計推斷方法均無法同時實現(xiàn)類貝葉斯與類頻率學(xué)派的目標，而 IM 框架的獨特之處在于其依賴不精確概率，特別是可能性理論。
費希爾曾暗示：顯著性檢驗和置信區(qū)間“不支持任何精確的概率陳述”，但他并未為此提供數(shù)學(xué)解釋。通過明確不精確性所扮演的角色，我現(xiàn)在能夠修正 Efron（1998）戲稱為“費希爾最大失誤”的可信推斷（fiducial inference）。我必須再次強調(diào)：接受不精確性并不會降低推斷與不確定性量化的質(zhì)量——可能性理論在數(shù)學(xué)和哲學(xué)上都是健全的，且這種不精確性可防止虛假置信，使我們保持誠實。此外，新的可能性型 Bernstein–von Mises 定理確保，至少在漸近意義上，可能性型 IM 解是高效的。
本文及所引文獻的討論大多聚焦于統(tǒng)計模型參數(shù)的不確定性量化，但第6節(jié)描述了將 IM 推廣至這一相對狹窄情形之外的初步步驟，并與文獻中的其他基礎(chǔ)思想建立了關(guān)鍵聯(lián)系。
遺憾的是，本綜述未能涵蓋所有近期進展。以下是幾個未被討論的重要主題：
第一，不確定性量化有諸多用途，其中一個重要應(yīng)用是決策制定。遵循馮·諾依曼–摩根斯坦綱領(lǐng)，貝葉斯框架從損失函數(shù)出發(fā)（該函數(shù)評估給定參數(shù)值下某行動的質(zhì)量），然后尋求最小化期望損失的行動（對后驗分布下的參數(shù)值取平均）?？尚磐茢嗫蚣芤膊捎妙愃品绞剑ɡ?Taraldsen and Lindqvist 2013）。而基于 Choquet 積分的可能性型 IM 則提出了一種新方法：以上期望損失（upper expected loss）來評估行動質(zhì)量，其對應(yīng)的決策理論框架提供了貝葉斯與可信推斷所不具備的可靠性保證（Martin 2021b, 2025a）。
第二，本綜述聚焦于特定統(tǒng)計模型參數(shù)的不確定性量化。但現(xiàn)實中模型本身往往也是不確定的，這對應(yīng)于一種極端的邊緣推斷情形——所有模型特異性參數(shù)均為冗余參數(shù)。Martin and Liu（2015b, 第10章）和 Martin（2019）已就此開展了初步工作。然而，這些早期 IM 嘗試缺乏對模型復(fù)雜度的懲罰機制。貝葉斯方法通過先驗分布實現(xiàn)復(fù)雜度懲罰，而可信推斷則通過人工方式控制復(fù)雜度（例如 Han and Lee 2022；Hannig and Lee 2009；Lai et al. 2015；Shi et al. 2021；Su et al. 2022；Wei and Lee 2023；Williams and Hannig 2019；Wu et al. 2021）。我認為，對模型復(fù)雜度的懲罰源于一種（先驗）信念，即真實模型相對簡單；盡管用概率論難以形式化此類模糊、不完整的信念，但用不精確概率理論卻很容易做到。因此，即將發(fā)表的工作將展示如何將“稀疏性”等模糊信念視為不完整先驗信息，將其表述為不精確概率，并納入 IM 構(gòu)造中，從而對模型本身實現(xiàn)可證明可靠的不確定性量化。
第三，本文假設(shè)先驗信息為空白。盡管這在統(tǒng)計文獻中是標準設(shè)定，但研究者對其欲推斷的量“一無所知”的情況實際上極為罕見。問題在于，可用信息通常也不足以合理地指定一個用于貝葉斯分析的先驗分布。上述模型復(fù)雜度懲罰就是一個典型例子——研究者可能相信“稀疏性”等結(jié)構(gòu)假設(shè)，但對結(jié)構(gòu)相關(guān)參數(shù)一無所知。若僅有兩個選擇：要么夸大已知信息以構(gòu)造精確先驗，要么忽略已知信息并假設(shè)先驗空白，那么后者是更安全的選擇。但本文所采用的放松視角提供了一條替代路徑：將無論多么模糊或不完整的可用先驗信息，精確地編碼為不精確概率并納入分析。這會誘導(dǎo)出一種特殊類型的正則化，在保持有效性的同時提升效率。Martin（2022a,b；2023b）的一系列工作論文正在發(fā)展這些細節(jié)。
有待解決的開放問題太多，無法在此一一列舉，但以下幾點尤為引人關(guān)注，涉及理論、方法、計算與應(yīng)用：
問題：哪些統(tǒng)計假設(shè)會受虛假置信影響？現(xiàn)有理論與實證強烈支持“虛假置信由非線性引起”的觀點，即它是通過全模型參數(shù)的非線性函數(shù)進行概率邊緣化所導(dǎo)致的后果。但這些假設(shè)的具體特征及其受影響程度仍不清楚。
問題：基于從訓(xùn)練數(shù)據(jù)中學(xué)得的模型構(gòu)建的 IM 如何？IM 文獻通常假設(shè)模型形式已給定，這在現(xiàn)實中略顯不切實際。機器學(xué)習(xí)中常利用訓(xùn)練數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)生成過程的某些方面，再將部分訓(xùn)練好的模型用于推斷與預(yù)測。在此背景下，排序和/或驗證步驟均可依賴訓(xùn)練數(shù)據(jù)。這類 IM 的可靠性如何？
問題：如何擴展到高維情形？第3.3.1節(jié)的有效性結(jié)果對所有樣本量和參數(shù)維度均成立；唯一假設(shè)“低維”的是關(guān)于效率的定理3。因此，高維擴展問題歸結(jié)為計算與統(tǒng)計效率。高維問題中的統(tǒng)計效率需通過適當正則化實現(xiàn)（如上所述），相關(guān)工作正在進行。從計算角度看，需結(jié)合優(yōu)化與蒙特卡洛積分的前沿策略。我不認為需要全新思路，良好的起點應(yīng)是不同思想的創(chuàng)新組合。公平而言，貝葉斯與頻率學(xué)派已在高維問題上耕耘多年，相關(guān)計算挑戰(zhàn)仍未真正“解決”——我們通常知道如何在高維中嘗試優(yōu)化與抽樣，但通常無法證明這些嘗試確實有效。
問題：因果推斷、差分隱私等方向如何？當前令人興奮的應(yīng)用涉及因果推斷（例如 Imbens and Rubin 2015；Pearl 2009）和數(shù)據(jù)隱私（例如 Awan and Wang 2024；Garfinkel 2025）等。IM 在這些方向并無根本障礙，尤其考慮到第6節(jié)的擴展。這只是細節(jié)問題。
最后，我想就 IM 及其在人工智能（AI）中可能扮演的角色談些高層次思考。AI 關(guān)注具備執(zhí)行人類智能典型任務(wù)能力的計算系統(tǒng)，如學(xué)習(xí)、推理、問題求解、感知與決策。將其歸入“數(shù)據(jù)驅(qū)動的不確定性量化”這一寬泛范疇并非不合理。事實上，一些心理學(xué)家（例如 Gigerenzer and Murray 1987；Juslin et al. 2007）將認知過程建模為（直覺性的）統(tǒng)計推斷：提出問題、收集相關(guān)數(shù)據(jù)，并基于數(shù)據(jù)與假設(shè)模型做出判斷。目前 AI 與 IM 的聯(lián)系尚難看清，很大程度上是因為本文討論的 IM 構(gòu)造專為統(tǒng)計應(yīng)用量身定制。但其核心思想——具有可靠性保證的不確定性量化——更具普遍性，適用范圍更廣。現(xiàn)代 AI 所用的深度學(xué)習(xí)模型，本質(zhì)上只是“復(fù)雜的非參數(shù)回歸模型”，因此第6節(jié)及補充材料中討論的 IM 細節(jié)顯然相關(guān)。無論如何，正如 Shafer 早年獨立于 Dempster 早期工作的概率語言與統(tǒng)計焦點，發(fā)展出后來被稱為“Dempster–Shafer 理論”的框架，并在1980年代找到了真實的 AI 應(yīng)用，我也樂觀地認為，存在一種足夠通用的 IM 形式，能夠滿足現(xiàn)代 AI 對“可靠不確定性量化”的需求。
https://arxiv.org/pdf/2507.09007

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.