国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

使用Jeffreys先驗的元分析:經(jīng)驗頻率學派性質(zhì)

0
分享至

Meta-analysis with Jeffreys priors: Empirical frequentist properties

使用Jeffreys先驗的元分析:經(jīng)驗頻率學派性質(zhì)

https://www.cambridge.org/core/services/aop-cambridge-core/content/view/B6F787E5BBF8049D473AB896C65ADB39/S1759287924000024a.pdf/meta-analysis-with-jeffreys-priors-empirical-frequentist-properties.pdf


關鍵詞:元分析;貝葉斯;模擬研究;Firth校正;貝葉斯方法;小樣本估計;模擬

摘 要

在小型元分析(例如,最多包含20項研究)中,表現(xiàn)最佳的頻率學派方法可能對元分析均值產(chǎn)生非常寬的置信區(qū)間,同時對異質(zhì)性參數(shù)的估計也存在偏差且不夠精確。我們考察了采用不變杰弗里斯先驗(Jeffreys prior)的替代性貝葉斯方法的頻率學派性質(zhì)。該先驗具有通常的貝葉斯動機,但也具有純粹的頻率學派動機:由此得到的后驗眾數(shù)對應于最大似然估計量中已確立的Firth偏差校正。我們考慮了用于隨機效應元分析的兩種形式的杰弗里斯先驗:“Jeffreys1”先驗將異質(zhì)性視為干擾參數(shù),而“Jeffreys2”先驗則將均值和異質(zhì)性都視為感興趣的待估參數(shù)。在一項大規(guī)模模擬研究中,我們評估了這兩種杰弗里斯先驗的表現(xiàn),考察了不同類型的貝葉斯點估計和區(qū)間估計。我們對均值和異質(zhì)性參數(shù)的點估計與區(qū)間估計進行了評估,并與表現(xiàn)最佳的頻率學派方法進行了比較。對于二分類結局的小型元分析,Jeffreys2先驗在均值參數(shù)的點估計和區(qū)間估計方面可能優(yōu)于標準頻率學派方法。在此類情形下,Jeffreys2先驗能顯著提高估計效率,同時更常實現(xiàn)名義上的頻率學派覆蓋概率。然而,對于連續(xù)結局的小型元分析,標準頻率學派方法似乎仍是最佳選擇。異質(zhì)性參數(shù)估計的最佳方法則隨異質(zhì)性本身的大小而變化。R?ver與Friede開發(fā)的R軟件包bayesmeta實現(xiàn)了上述兩種杰弗里斯先驗。我們還將Jeffreys2先驗推廣至元回歸的情形。

亮點
? 已有認知:在小型元分析中,表現(xiàn)最佳的隨機效應元分析頻率學派方法可能高度不精確,并對異質(zhì)性提供有偏估計。
? 本文新貢獻:我們開展了一項大規(guī)模模擬研究,評估了兩種形式的杰弗里斯先驗在元分析中的表現(xiàn),這兩種先驗對應于最大似然估計量的Firth偏差校正。
? 對RSM讀者的潛在影響:對于二分類結局的小型元分析,Jeffreys2先驗在均值參數(shù)的點估計和區(qū)間估計方面可能優(yōu)于標準頻率學派方法。


  1. 標準的隨機效應元分析包括估計各項研究總體效應(例如,其標準差)的異質(zhì)性,并獲得一個基于倒方差加權的元分析均值估計,其中各項研究的權重取決于所估計的異質(zhì)性。1 常用的異質(zhì)性估計方法包括半?yún)?shù)的矩法估計量1??和參數(shù)化的基于似然的估計量。1,? 這些方法的理論依據(jù)依賴于大樣本漸近性質(zhì),然而在某些科學領域中,大多數(shù)元分析僅包含相對較少數(shù)量的研究。例如,《Cochrane系統(tǒng)評價數(shù)據(jù)庫》中關于醫(yī)療干預措施的元分析,其研究數(shù)量的中位數(shù)僅為3項(第75百分位數(shù):6;第90百分位數(shù):10)。? 在心理學領域,《Psychological Bulletin》上發(fā)表的元分析包含的研究數(shù)量中位數(shù)為12項,盡管有些元分析規(guī)模要大得多(第75百分位數(shù):33;第90百分位數(shù):76)。?,?

一方面,先前的模擬研究表明,即使在非常小的元分析中(此處定義為包含 ≤ 5 項研究),許多現(xiàn)有方法仍能為元分析均值(記為 μ)提供幾乎無偏的點估計。1? 另一方面,基于漸近正態(tài)性(例如,Wald 區(qū)間)構建的置信區(qū)間在小型元分析(≤ 20 項研究)中可能達不到名義覆蓋水平,且在極小型元分析中覆蓋水平會進一步下降。?,11,12 使用 Hartung–Knapp–Sidik–Jonkman (HKSJ) 方法調(diào)整標準誤13,1? 可在許多情境下提供校準更好的區(qū)間,但現(xiàn)有的模擬研究對這些區(qū)間是否始終能達到名義覆蓋水平得出了不一致的結果。?,11,12,1??1? 此外,對于典型樣本量的元分析,此類區(qū)間可能極其寬泛。1??1? 例如,即使真實異質(zhì)性為零,在包含 5 項研究的模擬元分析中,采用 HKSJ 標準誤的矩法估計量產(chǎn)生的 95% 置信區(qū)間平均寬度約為 4–5。1? 這表明,若標準化均值差異尺度上的點估計為 0.5,則典型的置信區(qū)間大約為 [?1.5, 2.5],其寬度如此之大,以至于可能被認為缺乏信息量。此外,異質(zhì)性的標準點估計在小型元分析中可能具有顯著偏差且不夠精確。?,11 許多關于異質(zhì)性估計的現(xiàn)有模擬研究似乎并未評估異質(zhì)性參數(shù)置信區(qū)間的覆蓋概率或?qū)挾?1(但參見 Viechtbauer (2007)1?)。

本文中,我們考察了使用不變杰弗里斯先驗的替代性貝葉斯方法的頻率學派表現(xiàn)。2? 通常,貝葉斯估計通過指定未知參數(shù)的先驗分布,并根據(jù)觀測數(shù)據(jù)獲得這些參數(shù)的后驗分布來進行。21 這本質(zhì)上涉及根據(jù)觀測數(shù)據(jù)的似然函數(shù)更新先驗分布。21 對于具有未知參數(shù) Ψ 和期望費舍爾信息量 I(Ψ) 的任意分布,杰弗里斯先驗與 √det I(Ψ) 成正比。2? 該先驗最初的動機在于其對參數(shù)變換的不變性,2? 這一性質(zhì)并非所有先驗都具備。22,23,i 例如,令 τ 表示各項研究總體效應的標準差,則 (μ, τ) 上的杰弗里斯先驗與 (μ, τ2) 上的杰弗里斯先驗相同,因此所得的后驗估計和區(qū)間將不依賴于分析者對參數(shù)化的任意選擇。這一理想的性質(zhì)促使一些人將杰弗里斯先驗描述為“無信息先驗”,盡管我們同意其他人對此術語的批評。2?,2?

杰弗里斯先驗一個有趣且被低估的特性是:其后驗分布也可從純粹的頻率學派視角進行解釋。2? 特別地,眾所周知,最大似然(ML)估計存在 O(n?1) 階偏差,這主要源于得分函數(shù)的曲率。2? Firth (1993)2? 證明,對于指數(shù)族分布,施加適當懲罰以校正此偏差的似然函數(shù),恰好等同于在杰弗里斯先驗下的估計。這本質(zhì)上是因為杰弗里斯先驗在得分函數(shù)中引入了一個偏差,從而補償了由其曲率導致的偏差。2? 具體而言,在該先驗下的后驗眾數(shù)可從頻率學派角度視為經(jīng)過偏差校正的 ML 估計;因此,杰弗里斯先驗下的后驗眾數(shù)有時被稱為“Firth 校正”。Firth 校正在多個頻率學派估計問題中已顯示出成功應用,并常用于邏輯回歸。2??2?

鑒于杰弗里斯先驗作為小樣本中偏差校正方法的有效性,將其應用于小型元分析以改進點估計和區(qū)間估計似乎是合理的。Bodnar 等人(2016, 2017)1?,3? 推導了僅針對異質(zhì)性 τ 的杰弗里斯先驗(即保持均值 μ 不變),如果 τ 嚴格被視為干擾參數(shù),這種方法可能是最優(yōu)的。2? 他們的模擬研究表明,結合對 μ 的獨立平坦先驗,所得的可信區(qū)間可能比現(xiàn)有的頻率學派方法具有更好的頻率學派覆蓋性能。1? 我們將這種先驗稱為“Jeffreys1”,因為它是針對單個參數(shù)的先驗。Kosmidis 等人(2017)31 獨立推導出一種懲罰似然校正方法,其等價于僅針對 μ 的單參數(shù)杰弗里斯先驗;也就是說,將 μ 而非 τ 視為干擾參數(shù)。這種懲罰與 τ 的受限最大似然(REML)估計密切相關。31

在本文中,我們同時考慮 Jeffreys1 先驗以及針對 μ 和 τ 的雙參數(shù)杰弗里斯先驗。據(jù)我們所知,后者尚未出現(xiàn)在已發(fā)表的元分析文獻中。我們將后者稱為“Jeffreys2”,原因有三。首先,雖然在元分析中均值參數(shù)通常是主要關注對象,但異質(zhì)性也應通常被估計并報告,因此將 τ 視為干擾參數(shù)可能并非最優(yōu)。32 第二,在其他小樣本估計問題中,包含尺度參數(shù)(例如指數(shù)族模型中的離散參數(shù))的多參數(shù)杰弗里斯先驗已被提出,并表現(xiàn)出良好的經(jīng)驗性質(zhì)。2?,2?,33 (我們將在第 3.3 節(jié)中重新討論此問題。)在通過元分析截斷部分隨機效應分布來調(diào)整 p 值挖掘的背景下,我們最近發(fā)現(xiàn),對 μ 和 τ 使用杰弗里斯先驗的表現(xiàn)明顯優(yōu)于 ML,而 ML 在截斷分布情形下通常表現(xiàn)極差。2?,3? 第三,正如我們將要討論的,Jeffreys2 先驗的形狀表明它可能比 Jeffreys1 先驗提供更精確的區(qū)間。Jeffreys2 可信區(qū)間是否能實現(xiàn)名義頻率學派覆蓋,以及對 μ 和 τ 的點估計表現(xiàn)如何,仍是開放性問題。

以往關于元分析中杰弗里斯先驗的模擬研究提供了有希望的初步結果,但也存在局限性。這些模擬僅研究了 Jeffreys1 先驗,而非 Jeffreys2,并且僅考慮了 μ 的點估計和區(qū)間估計,而未考慮 τ。1? 在本文中,我們開展了一項模擬研究,比較在 Jeffreys1 和 Jeffreys2 先驗下,μ 和 τ 的點估計與區(qū)間估計的頻率學派性質(zhì),同時也比較了幾種表現(xiàn)最佳的頻率學派方法。我們采用的模擬設計緊密參照 Langan 等人(2019)? 最近的一項廣泛模擬研究,并大幅擴展了此前 Jeffreys1 先驗模擬研究所使用的比較方法和模擬場景范圍。此前關于 Jeffreys1 先驗的模擬僅考慮了后驗均值作為點估計,1? 而上述偏差校正性質(zhì)則專門適用于后驗眾數(shù)。這對 τ 的點估計尤其重要,因為其后驗分布高度不對稱。因此,我們考慮三種類型的貝葉斯點估計(后驗眾數(shù)、均值和中位數(shù))以及兩種類型的可信區(qū)間(中心區(qū)間和最短區(qū)間)。我們的模擬包括 Langan 等人(2019)? 模擬研究中表現(xiàn)最佳的方法,以及若干其他理論性質(zhì)表明其可能同樣表現(xiàn)良好的方法,例如精確區(qū)間1? 和基于輪廓似然的區(qū)間。?

本文結構如下:我們簡要回顧了現(xiàn)有的用于隨機效應元分析的矩法估計量和基于似然的估計量(第2節(jié)),這些方法在其他文獻中已有更詳細的論述。?,1?,3? 我們還簡要回顧了關于這些方法的現(xiàn)有模擬研究結果(第2.4節(jié))。我們回顧了已確立的Jeffreys1先驗形式1?,并推導出Jeffreys2先驗的形式;隨后討論了在這兩種先驗下的后驗估計(第3節(jié))。我們展示了模擬研究的結果(第4節(jié))和一個簡短的應用實例(第5節(jié)),最后以總體討論作結。

  1. 現(xiàn)有的頻率學派方法

2.1. 矩法估計量

元分析中的矩法估計量屬于半?yún)?shù)方法;它們僅需指定總體效應分布的前兩個矩,即 μ 和 τ2。由于這些方法無需指定更高階矩,因此不需要假設總體效應服從正態(tài)分布。具體而言,考慮 k 項研究,其總體效應 μ? 的期望為 μ,方差為 τ2。這兩個矩正是通常在元分析中感興趣的待估參數(shù)。令 θ?? 和 σ? 分別表示第 i 項研究的點估計值和標準誤,且近似滿足 θ?? ~ N(μ?, σ?2)。

對于給定的異質(zhì)性方差估計值 τ?2,θ?? 的估計邊際方差為 τ?2 + σ?2。μ 的一致最小方差無偏估計量(UMVUE)通過對各研究按其估計邊際方差的倒數(shù)加權得到,記作 w? = 1 / (τ?2 + σ?2):


各種矩法估計量的區(qū)別在于它們對 τ2 的估計方式,從而導致權重 w? 的形式不同。關于這些方法的詳細綜述和原始文獻均有發(fā)表,因此此處我們僅作簡要總結。τ2 的矩法估計量基于廣義 Q 統(tǒng)計量:

Q = Σ???? a?(θ?? ? μ?)2, (1)

其中,系數(shù) a? 的形式在不同的矩法估計量之間有所不同。例如,傳統(tǒng)的 DerSimonian–Laird 估計量(DL)1 設定 a? = 1/σ?2。兩步法 DL 估計量(DL2)2 則設定 a? = 1/(τ?2_DL + σ?2),其中 τ?2_DL 是通過 DL 估計量獲得的初始估計值。Paule–Mandel(PM)3,? 估計量可視為 DL2 的一個極限情形,涉及對 μ? 和 τ?2 的估計值進行迭代直至收斂。該估計量也等價于經(jīng)驗貝葉斯估計量。? 一般而言,經(jīng)驗貝葉斯估計利用觀測數(shù)據(jù)來估計貝葉斯先驗參數(shù),而非獨立于數(shù)據(jù)預先指定先驗。21 在元分析的背景下,經(jīng)驗貝葉斯估計本質(zhì)上是通過后驗均值來估計總體效應的分布,其先驗由數(shù)據(jù)經(jīng)驗確定。?

2.2. 基于似然的估計量


τ 的標準最大似然(ML)估計量通常通過求解 ?/?τ log p(θ? | μ, τ) = 0 得到,其解依賴于 μ。? 由于該估計量未考慮因額外估計 μ 本身而導致的自由度損失,所得估計值通常存在負偏差。? 這一問題促使了限制性最大似然(REML)估計法的產(chǎn)生,該方法通過變換對數(shù)似然函數(shù)以消除參數(shù) μ,從而改進 ML 估計。?

2.3. 區(qū)間估計

一個簡單的 Wald 置信區(qū)間可以通過假設 μ? 服從正態(tài)分布獲得,根據(jù)標準 ML 性質(zhì),當研究數(shù)量 k 趨于無窮大時,該假設漸近成立。如果權重 w? 被視為已知而非被估計,則有 Var(μ?) = 1 / Σ???? w?。一個 Wald 95% 置信區(qū)間為:


其中,c = Φ?1(0.975) ≈ 1.96 是標準正態(tài)分布的臨界值。然而,Wald 區(qū)間在小型元分析中表現(xiàn)出顯著的覆蓋不足,這既是因為正態(tài)近似僅在漸近意義上成立,也是因為近似式 Var(μ?) = 1 / Σ???? w? 未考慮對 τ2 的估計。?,11,12 Wald 區(qū)間也可用于 τ?,但同樣表現(xiàn)不佳。1? 因此,我們不再進一步討論 Wald 區(qū)間,而是轉(zhuǎn)而關注下文所述表現(xiàn)更優(yōu)的替代方法。

關于 μ 的區(qū)間估計,替代性的 HKSJ 方法(有時也稱為“Knapp–Hartung”方法)解決了 Wald 區(qū)間的局限性。13,1? 該方法更靈活地假設 μ? 服從 t 分布,并額外對 Var(μ?) 進行重新縮放,以考慮權重 w? 中 τ2 的估計影響:


對于 τ,可利用 Q 統(tǒng)計量的卡方分布(見公式 (1))1? 構建改進的置信區(qū)間。這些“Q-剖面”區(qū)間的表現(xiàn)顯著優(yōu)于 Wald 區(qū)間。1? 對于 μ 和 τ,ML 剖面區(qū)間也可按常規(guī)方式構建。?

一種有趣且相對較新的方法提供的是精確區(qū)間而非漸近區(qū)間,并在假設總體效應服從正態(tài)分布的前提下,理論上保證提供超過名義覆蓋水平的性能。1? 該方法本質(zhì)上涉及對精確檢驗進行反演。其他參數(shù)化方法則對似然比檢驗統(tǒng)計量提供小樣本校正;這些方法包括 Skovgaard 的二階校正和 Bartlett 校正。3???? 這些方法可改進基礎似然方法在假設檢驗中的表現(xiàn),?? 但 Skovgaard 的二階校正并非為區(qū)間估計而設計,在此情境下數(shù)值上可能不穩(wěn)定。31 使用 Bartlett 校正進行區(qū)間估計是可行的,?1 但在現(xiàn)有軟件中并未實現(xiàn)(I. Visser, 個人通訊,2024 年 7 月 8 日)。?2,?3 由于我們的關注點在于區(qū)間估計而非假設檢驗,因此我們的模擬未包含 Skovgaard 或 Bartlett 校正。最后,各種參數(shù)化或非參數(shù)重抽樣方法可用于獲得自助法置信區(qū)間。1?,?3,?? 非參數(shù)重抽樣可通過有放回地重抽樣行數(shù)據(jù)實現(xiàn),之后可獲得簡單的百分位自助法區(qū)間,或偏差校正并加速(BCa)區(qū)間等多種類型的自助法區(qū)間。??,?? BCa 置信區(qū)間可校正自助抽樣分布中的偏差與偏度,我們推測這在估計 τ 的抽樣分布時可能有所幫助。BCa 自助法在某些依賴于 τ? 的元分析估計量中表現(xiàn)相對良好。?? 然而,自助法是一種漸近方法,其小樣本表現(xiàn)通常需通過模擬評估。

2.4. 現(xiàn)有對這些方法的模擬比較

Langan 等人(2017)11 對不同異質(zhì)性估計量的模擬研究進行了出色的系統(tǒng)綜述。? 簡言之,當異質(zhì)性為中等至較高水平時,DerSimonian–Laird(DL)估計量對 τ 的估計存在負偏倚,而 Paule–Mandel(PM)估計量通常偏倚較小。11 所綜述的研究似乎并未評估 τ 的區(qū)間估計。基于他們自己更廣泛的模擬研究,Langan 等人(2019)? 通常推薦使用 REML、PM 或 DL2 進行異質(zhì)性估計,并結合 HKSJ 置信區(qū)間用于 μ;然而,他們建議在小型元分析中謹慎解釋異質(zhì)性估計結果。

Langan 等人(2019)? 的模擬研究未評估基于輪廓似然、自助法(bootstrapping)或精確方法(exact method)的區(qū)間;其中后者是近期才被提出。關于輪廓似然區(qū)間,文獻中的建議并不一致。一篇有影響力的文章指出:“輪廓似然是計算置信區(qū)間的一種良好方法?!?? 一項模擬研究似乎支持這一建議,發(fā)現(xiàn)當異質(zhì)性大于零時,輪廓似然區(qū)間最接近名義覆蓋水平。1? 然而,另一項模擬研究則表明,在僅包含5項研究的元分析中,輪廓似然區(qū)間常常出現(xiàn)覆蓋不足的問題。3? 精確方法的提出者提供了模擬結果,表明盡管該方法在理論上保證至少達到名義覆蓋水平,但其所得區(qū)間并不比現(xiàn)有方法顯著更寬。1? 盡管我們的模擬研究主要動機在于考察杰弗里斯方法,但其次要貢獻在于更全面地評估輪廓似然、自助法和精確區(qū)間。

我們現(xiàn)在轉(zhuǎn)向建立 Jeffreys1 和 Jeffreys2 先驗的理論基礎。

  1. 使用杰弗里斯先驗的貝葉斯方法

3.1. 杰弗里斯先驗

在總體效應服從正態(tài)分布的假設下,Bodnar 等人(2017)1? 證明了非正?;?Jeffreys1 先驗為:


如果將 μ 視為唯一感興趣的參數(shù),而 τ 被視為干擾參數(shù),則 Jeffreys1 先驗也與 Berger–Bernardo 參考先驗一致。3? 一般來說,對于給定分布,Berger–Bernardo 先驗的設計目標是在最小化先驗所提供信息量的同時,最大化數(shù)據(jù)所提供的信息量。3?,?? 具體而言,該先驗使先驗與后驗之間的 Kullback–Leibler 散度達到最大。??

關于 Jeffreys2 先驗,式 (2) 中的聯(lián)合似然函數(shù)意味著期望費舍爾信息矩陣的元素為:



為便于說明,圖1展示了四種標準化均值差異元分析中兩種先驗在 τ 上的分布。這些元分析是通過從四種不同分布中抽取研究樣本量 N 模擬生成的。盡管先驗的幅度當然會受研究數(shù)量 k 的影響,但其形狀受 k 的影響極小,因此圖1描繪的是 k = 10 項研究的元分析所對應的先驗。請注意,對于每項元分析,Jeffreys2 先驗比 Jeffreys1 先驗略窄,這表明前者可能提供更窄的區(qū)間;這一假設將在模擬研究(第4節(jié))中進一步深入探討。當 k > 1 時,這兩種先驗均可導出適當?shù)暮篁灧植迹▍⒁?Bodnar (2017)1? 關于 Jeffreys1 的論述,以及補充材料第1節(jié)關于 Jeffreys2 的內(nèi)容)。此外,兩種先驗均可輕松推廣至元回歸情形:Jeffreys1 先驗將與 Bodnar 等人(2024)?? 提出的廣義邊際隨機效應模型中的先驗一致;而 Jeffreys2 先驗在元回歸中的形式則推導于補充材料第1節(jié)。本文正文不再進一步討論元回歸。



3.2. 各先驗下的后驗分布

對于任一先驗,由于 p(μ, τ) ∝ p(τ),τ 的邊緣后驗分布為:1?


離散近似方法無需通過混合鏈蒙特卡洛(MCMC)進行抽樣,并已在 R 軟件包 bayesmeta 中實現(xiàn)。?,?1 我們在模擬研究和應用實例中均使用了該軟件包。

在已獲得聯(lián)合后驗分布和邊緣后驗分布的近似形式的前提下,點估計可根據(jù)各種集中趨勢度量來定義,例如后驗眾數(shù)、中位數(shù)或均值。對于任一先驗,在許多情況下(例如,圖4),p(μ | θ?) 似乎近似對稱,因此這三種集中趨勢度量通常會高度一致。然而,對于 p(τ | θ?),情況并非如此,因為在任一先驗下該分布均為不對稱?,F(xiàn)有針對 Jeffreys1 先驗的研究主要關注后驗均值和中位數(shù)1?,但我們重點關注后驗眾數(shù),因為其具有前述理論優(yōu)勢2?。事實上,正如第4.4節(jié)所討論的,我們的模擬結果表明,τ 的后驗眾數(shù)相比后驗均值和中位數(shù),具有顯著更低的偏倚、均方根誤差(RMSE)和平均絕對誤差(MAE)。與最大似然(ML)估計類似,點估計既可基于邊緣分布,也可基于聯(lián)合分布的眾數(shù)來定義。在貝葉斯框架下,邊緣眾數(shù)表示僅針對某一參數(shù)(例如 μ)最大化后驗概率時該參數(shù)的取值,同時將另一參數(shù)(例如 τ)積分掉。相比之下,聯(lián)合眾數(shù)表示使聯(lián)合后驗概率同時達到最大的兩個參數(shù)的取值。


同樣類比于 ML 估計,有時可通過將后驗分布近似為以“后驗眾數(shù)”為中心的漸近正態(tài)分布,并以負對數(shù)后驗在后驗眾數(shù)處的 Hessian 矩陣的逆作為方差-協(xié)方差矩陣,從而構建對稱的 Wald 可信區(qū)間。21 然而,正如當似然函數(shù)不對稱時,圍繞 ML 估計值的 Wald 區(qū)間可能表現(xiàn)不佳一樣,當后驗分布不對稱時,圍繞后驗眾數(shù)的 Wald 區(qū)間也可能表現(xiàn)不佳。?2 為了獲得合適的非對稱后驗區(qū)間,我們考慮兩種方法。第一種,可通過取估計后驗分布的第2.5百分位數(shù)和第97.5百分位數(shù),獲得中心(也稱為“等尾”)95% 后驗分位數(shù)區(qū)間。第二種,可通過數(shù)值方法獲得最短的95%后驗分位數(shù)區(qū)間;對于單峰分布,該區(qū)間等價于最高后驗密度區(qū)間。21 在我們的模擬研究和應用實例中,這兩種類型的區(qū)間均通過 R 軟件包 bayesmeta 獲得。?

3.3. 兩種先驗之間的理論與實質(zhì)區(qū)別

Jeffreys1 先驗與 Jeffreys2 先驗之間的區(qū)別涉及多參數(shù)杰弗里斯先驗所普遍面臨的理論與實質(zhì)考量。Jeffreys 及其他學者曾指出,若希望估計所有參數(shù)(在元分析中即 μ 和 τ),則應使用多參數(shù)杰弗里斯先驗;但若僅希望估計部分參數(shù)(例如僅 μ),而將其他參數(shù)視為干擾參數(shù),則不應使用該先驗。2?,2?,?3 如引言所述,隨機效應元分析通常不僅應估計和報告 μ,還應估計并報告 τ(或相關指標32,??,??),這提示我們應考慮使用 Jeffreys2 先驗。另一方面,在一般的位置-尺度問題中,Jeffreys 建議僅針對尺度參數(shù)(而將位置參數(shù)視為固定)構造先驗。2?,?3 這對應于 Jeffreys1 先驗。Jeffreys 的這一建議源于當位置參數(shù)數(shù)量隨樣本量增加而增長時可能出現(xiàn)的問題,類似于著名的 Neyman–Scott 問題——在該問題中,最大似然估計量不具備一致性。2?,?3 有趣的是,F(xiàn)irth 后來證明,在 Neyman–Scott 問題的一個特定且嚴重的情形下,多參數(shù)杰弗里斯先驗(即 Firth 校正)實際上能導出一個一致且嚴格無偏的估計量。2? 考慮到 Firth 校正的漸近論證在此類參數(shù)數(shù)量遞增的情形下并不成立,這一結果出人意料。2? 當然,在本文所討論的隨機效應元分析情境中,參數(shù)數(shù)量是固定的,因此上述潛在問題根本不會出現(xiàn)。我們認為,現(xiàn)有的理論與實質(zhì)考量并未明確排除其中任一先驗在隨機效應元分析中的適用性,因此我們的模擬研究對兩者均進行了評估。

  1. 模擬研究

我們設計本模擬研究時,力求緊密參照 Langan 等人(2019)? 的研究,而后者本身正是為了克服以往模擬研究中的諸多局限性而設計的。11 如下文詳述,我們考慮了二分類結局的元分析(效應量采用對數(shù)優(yōu)勢比尺度)和連續(xù)結局的元分析(效應量采用 Hedges’ g 尺度??),納入的研究數(shù)量最少為 2 項,異質(zhì)性程度各異,均值和結局發(fā)生率(針對二分類結局)也各不相同,同時研究內(nèi)樣本量的分布也有所變化。由于我們評估了多種參數(shù)化、半?yún)?shù)化和非參數(shù)化方法,我們還初步考察了模型誤設下的穩(wěn)健性,即除了通常假設的正態(tài)分布總體效應外,還考慮了指數(shù)分布的總體效應。

4.1. 點估計與區(qū)間估計方法

表 1 列出了本模擬研究中評估的方法。我們評估了兩種杰弗里斯先驗。在每種先驗下進行點估計時,我們主要考慮邊緣后驗眾數(shù),其次也考察了后驗均值和中位數(shù)(見補充材料第 2.2 節(jié))。關于 μ 的區(qū)間估計,中心區(qū)間與最短區(qū)間通常非常接近,因此我們僅展示最短區(qū)間的結果。關于 τ 的區(qū)間估計,我們對每種先驗均考慮了兩種類型的區(qū)間,分別稱為 “Jeffreys1-shortest”(Jeffreys1 最短區(qū)間)、“Jeffreys1-central”(Jeffreys1 中心區(qū)間)、“Jeffreys2-shortest”(Jeffreys2 最短區(qū)間)和 “Jeffreys2-central”(Jeffreys2 中心區(qū)間)。


我們將兩種杰弗里斯先驗的表現(xiàn)與第 2 節(jié)所述的若干現(xiàn)有頻率學派方法進行了比較。所選方法包括:在已有大規(guī)模模擬研究中表現(xiàn)良好的方法,或具有理想理論性質(zhì)的方法(例如,能為 τ 提供適當非對稱區(qū)間的估計方法)?,?,1?,3?,??,??。在點估計方面,比較方法包括:最大似然估計(ML)、限制性最大似然估計(REML)、DerSimonian–Laird(DL)、兩步法 DL(DL2)和 Paule–Mandel(PM)。在 μ 的區(qū)間估計方面,我們考慮了每種頻率學派估計方法對應的 HKSJ 區(qū)間、ML 輪廓似然區(qū)間(ML-profile)、精確區(qū)間1?、非參數(shù) BCa 自助法區(qū)間以及非參數(shù)百分位自助法區(qū)間??,??。在 τ 的區(qū)間估計方面,我們考慮了每種頻率學派估計方法對應的 Q-輪廓區(qū)間(Q-profile)、ML 輪廓區(qū)間以及兩種自助法區(qū)間。


所有頻率學派方法和區(qū)間均通過 R 軟件包 metafor?? 實現(xiàn),以下情況除外:ML 輪廓區(qū)間使用自編 R 代碼實現(xiàn),精確方法通過 R 軟件包 rma.exact1? 實現(xiàn),自助法通過 R 軟件包 boot?? 實現(xiàn)。

4.2. 數(shù)據(jù)生成

表 2 總結了我們操縱的模擬參數(shù),這些參數(shù)與 Langan 等人(2019)? 的模擬研究相似。我們考慮了連續(xù)結局(效應量采用 Hedges’ g 尺度??)和二分類結局(效應量采用對數(shù)優(yōu)勢比尺度)。我們同時考慮了總體效應服從正態(tài)分布和指數(shù)分布的情形;在后一種情況下,除矩法估計量外,所有點估計方法的基本假設均被違反。統(tǒng)計理論表明,在具有正態(tài)效應的大樣本元分析中,所有方法的表現(xiàn)將大致相當,因此我們的重點在于較小規(guī)模元分析(k ≤ 20)中的點估計和區(qū)間估計。正文報告的主要模擬結果對應 k ∈ {2, 3, 5, 10, 20} 的情形。此外,我們還額外運行了 k = 100 的模擬,以確認漸近行為(見補充材料第 3 節(jié))。由于自助法區(qū)間所需的計算時間遠多于其他方法,我們首先在所有情境下使用單一的樣本量(k = 10)對這些方法進行了試點測試,以評估它們是否能與其他方法競爭。

數(shù)據(jù)生成過程如下:在每次模擬迭代中,我們生成一個元分析,其潛在的總體效應(μ?)要么服從正態(tài)分布,要么服從指數(shù)分布。正態(tài)分布的總體效應按 μ? ~ N(μ, τ2) 生成,其中 μ 和 τ 按表 2 中所示進行變化。指數(shù)分布的總體效應則通過適當縮放和位移的分布生成,以達到期望的總體矩(μ 和 τ2)。對于元分析中的每項研究,我們從表 2 所列的四種分布中隨機抽取一個總樣本量 N。然后我們模擬個體參與者數(shù)據(jù),使得 N/2 名參與者被分配到治療組,另外 N/2 名參與者被分配到對照組。在連續(xù)結局的情境下,我們模擬對照組的結局均值為 0,治療組的結局均值為 μ?,且各組內(nèi)標準差均為 1。隨后,我們使用 Hedges’ g 校正法估計標準化均值差異??,??。我們使用 Hedges (1982)?? 中的標準大樣本近似公式(式 (8))來計算各項研究的標準誤:



其中,P(Y = 1 | X = 0) 是我們在表 2 所列數(shù)值中操縱的一個情景參數(shù)。隨后我們估計了優(yōu)勢比;為處理可能出現(xiàn)的零單元格計數(shù),當任何單元格計數(shù)為零時,我們在每個單元格中添加 0.5。??

我們預期,對于二分類結局且研究內(nèi)樣本量較小時,某些極端的情景參數(shù)組合(例如,N = 40 且 μ = 2.3,對應一個極端的優(yōu)勢比為 10)將導致研究內(nèi)優(yōu)勢比出現(xiàn)偏差。2?,?1 在試點模擬中,我們識別出了導致研究內(nèi)絕對偏倚大于 0.05 的情景參數(shù)組合。由于我們的關注點在于元分析估計方法所引起的偏倚,而非研究內(nèi)偏倚,因此我們排除了這些參數(shù)組合。在排除這些組合后,我們最終對連續(xù)結局模擬了 240 種獨特情景,對二分類結局模擬了 2267 種獨特情景。

4.3. 性能指標

對于每種情景,我們以頻率學派通常意義下的偏倚、平均絕對誤差(MAE)和均方根誤差(RMSE)來評估點估計量的表現(xiàn)與變異性。即,對于一個在 500 次模擬迭代 r 中變化的通用參數(shù) ω?:


對于每種情景,我們從頻率學派覆蓋概率和 95% 置信區(qū)間或可信區(qū)間的寬度兩個方面評估區(qū)間估計的表現(xiàn)。某些方法的區(qū)間在部分情景下表現(xiàn)出過度覆蓋,而在其他情景下則出現(xiàn)覆蓋不足。因此,在跨情景匯總結果時,我們還考慮了每種方法在多少比例的情景中實現(xiàn)了近似名義覆蓋水平——嚴格定義為覆蓋概率 >94%。在討論部分,我們將進一步闡述我們評估貝葉斯方法頻率學派性質(zhì)的理由,以及該方法的含義。我們未評估統(tǒng)計功效。盡管 p 值在被解釋為連續(xù)性證據(jù)度量時確實可能有用,但我們同意其他人長期以來對“閾值式顯著性檢驗”的擔憂?2,?3——這種做法已導致對已發(fā)表元分析的嚴重誤解??,??,且很可能也導致了發(fā)表偏倚。

4.4. 結果

鑒于情景數(shù)量眾多,有必要進行一定程度的匯總,以便緊湊地呈現(xiàn)結果。在正文部分,我們提供按 k、τ、總體效應分布和結局類型分層的線圖,并對 N 的分布(對于二分類結局,還包括 μ 和 P(Y=1 | X=0))進行匯總。由于某一估計量的偏倚方向可能在不同情景間有所不同,我們使用箱形圖而非線圖來展示各估計量在不同情景下的偏倚,以避免跨情景的匯總。對于其他性能指標,我們額外提供了一系列表格,這些表格根據(jù)結局類型和 k 對情景子集內(nèi)的平均表現(xiàn)進行了匯總(表 3–10)。每個單獨情景的完整模擬結果作為數(shù)據(jù)集公開提供(https://osf.io/9qfah)。









如上所述,我們的重點是小型元分析。因此,除非另有說明,所有后續(xù)結果均針對 k ≤ 20 的情景,我們將其稱為“所有情景”。盡管表格和圖表同時展示了正態(tài)效應和指數(shù)效應的結果,但我們的文字描述主要聚焦于正態(tài)效應情景;在這些情景中,所有方法的設定均正確。我們次要討論了指數(shù)分布效應下結果的變化情況。請注意,圖表按效應分布分層,而表格因空間限制對正態(tài)和指數(shù)效應進行了匯總。

4.4.1. 收斂性指標

除精確方法和 BCa 自助法外,所有方法的算法在 >99% 的模擬數(shù)據(jù)集中均收斂(即能給出 μ? 和 τ? 的點估計和/或區(qū)間)。精確方法僅設計用于提供 μ? 的區(qū)間,其算法在 >98% 的模擬數(shù)據(jù)集中成功運行。在我們運行自助法方法的情景子集(即 k = 10 的情景)中,BCa 自助法僅在 67% 的數(shù)據(jù)集中提供了 μ? 和 τ? 的區(qū)間。當未提供區(qū)間時,這是因為估計的偏倚校正值為無窮大,這種情況可能發(fā)生在經(jīng)驗影響值因離群值或小樣本量而接近零時。

4.4.2. μ 的點估計與區(qū)間估計

與先前已發(fā)表的模擬研究一致1?,所有方法在 μ 的點估計方面表現(xiàn)非常相似,且近似無偏(圖 6 及補充材料第 2.1 節(jié))。在所有情景中,任意兩種方法在偏倚、RMSE 和 MAE 上的最大場景內(nèi)絕對差異分別為 0.056、0.064 和 0.036。鑒于 μ 的點估計在不同方法間相對差異較小,我們主要討論該參數(shù)的區(qū)間估計。在 k = 10 情景的試點測試中,自助法方法與其他方法相比缺乏競爭力(補充材料第 3.7 和 3.8 節(jié))。因此,我們未在其他樣本量下運行這些計算密集型方法,且自助法方法在正文結果中被省略。


圖7展示了95%區(qū)間的覆蓋概率。所有采用HKSJ區(qū)間的頻率學派方法表現(xiàn)相似。在總體效應為正態(tài)分布的情景中,這些方法的表現(xiàn)受k和τ的影響極小,且在80%的情景中覆蓋概率超過94%。這種描述略顯悲觀,因為這些方法的覆蓋概率很少低于約93%。ML-輪廓區(qū)間在71%的正態(tài)效應情景中覆蓋概率超過94%,但與HKSJ方法不同,其覆蓋概率在不同情景間波動較大。特別是,該方法在中等異質(zhì)性水平及k=20時接近名義覆蓋水平,但在較高異質(zhì)性值(例如,τ ≥ 0.20)時表現(xiàn)出覆蓋不足。精確區(qū)間在較小k值時表現(xiàn)出過度覆蓋,在k=20時則接近名義覆蓋水平。所有這些發(fā)現(xiàn)均與先前的模擬研究一致。1?,1?


Jeffreys1-最短區(qū)間和Jeffreys2-最短區(qū)間在正態(tài)總體效應情景下,分別在98%和88%的情景中實現(xiàn)了超過94%的覆蓋概率。這超過了HKSJ區(qū)間(80%)和ML-輪廓區(qū)間(71%)所觀察到的比例。在單個情景中,Jeffreys1-最短區(qū)間和Jeffreys2-最短區(qū)間通常表現(xiàn)為過度覆蓋或達到名義覆蓋,僅有一個例外:當k ≤ 5、結局為連續(xù)變量且異質(zhì)性高(τ = 0.50)時,Jeffreys2-最短區(qū)間表現(xiàn)出輕微的覆蓋不足(約89–93%)。

圖8展示了95%區(qū)間的寬度。當k < 10時,不同區(qū)間的寬度差異顯著,有時甚至非常大。在這些情景中,ML-輪廓區(qū)間始終是最窄的,對于極小型元分析尤為如此。相比之下,Jeffreys1-最短區(qū)間通常是所有區(qū)間中最寬的,尤其在極小型元分析中。另一方面,Jeffreys2-最短區(qū)間通常是僅次于ML-輪廓區(qū)間的第二窄區(qū)間,并且在極小型元分析中明顯比所有HKSJ區(qū)間更窄。雖然看起來反直覺——Jeffreys2-最短區(qū)間比HKSJ區(qū)間更窄,同時卻能更穩(wěn)定地達到至少名義覆蓋水平——我們在下文第4.4.3節(jié)中對此現(xiàn)象進行了解釋。當k ≥ 10且結局為連續(xù)變量時,所有類型的區(qū)間寬度幾乎完全相同。當k ≥ 10且結局為二分類變量時,兩種Jeffreys區(qū)間和精確區(qū)間均略寬于HKSJ方法,但應結合圖7所示這些情景下頻率學派方法的輕微覆蓋不足來理解這一結果。


在總體效應為指數(shù)分布的情景中,所有方法的相對表現(xiàn)相似,盡管當異質(zhì)性較高(τ = 0.50)時,覆蓋概率略有下降。這也與先前的模擬研究一致。1? 補充材料第3節(jié)提供了按結局類型分層的額外結果。首先,我們展示了k=100情景的結果,因為這些情景未包含在正文的所有結果中。在這些情景中,正如理論預期,無論結局類型如何,所有點估計量的表現(xiàn)都非常相似。對于二分類結局,大多數(shù)方法的覆蓋概率在k=100時略有下降。這一發(fā)現(xiàn)與先前涉及稀有二分類結局的模擬研究結果一致(Langan 等人 (2019)?;附錄圖4),并且可能反映了元分析對數(shù)優(yōu)勢比時已知的兩種誤設來源。具體而言:(1) 估計的對數(shù)優(yōu)勢比與其估計的標準誤相關;(2) 常規(guī)的方差估計是一種不完美的近似,尤其當存在零單元格計數(shù)時,即使在每個單元格中添加了正數(shù)常數(shù)也是如此。??,?? 我們將在討論部分重新探討這些問題。

在這些情景中,杰弗里斯方法比頻率學派方法更接近名義覆蓋水平。附加的補充表格將正文中的結果(即k ≤ 20的情景)按各研究中N固定與否進行了分層。在所有這些分層中,方法性能的相對排序與匯總分析中的結果非常相似。

4.4.3. 關于μ的結果討論

對于具有二分類結局的小型元分析(k ≤ 20),Jeffreys2-最短區(qū)間可能是一種有用的方法,因為其區(qū)間至少能達到名義覆蓋水平(在正態(tài)效應下),且通常比除ML-輪廓區(qū)間外的所有其他區(qū)間都要窄得多,而ML-輪廓區(qū)間的覆蓋水平在不同情景中不穩(wěn)定。為說明這一點,我們提供了一些針對二分類結局元分析的數(shù)值比較,以Jeffreys2-最短區(qū)間與REML-HKSJ區(qū)間為例。為簡化起見,我們僅與一種頻率學派區(qū)間進行比較。在具有二分類結局和正態(tài)總體效應的情景中,Jeffreys2-最短區(qū)間在90%的情景中覆蓋概率超過94%,而REML-HKSJ區(qū)間僅在80%的情景中達到此標準。相應地,Jeffreys2-最短區(qū)間的覆蓋概率在85%的情景中至少等于REML-HKSJ區(qū)間。同時,Jeffreys2-最短區(qū)間平均比REML-HKSJ區(qū)間窄27%;而在k ≤ 5的元分析中,這種效率提升增加至51%。對于二分類結局,Jeffreys1-最短區(qū)間似乎并未表現(xiàn)出優(yōu)于Jeffreys2-最短區(qū)間或其他方法的明顯優(yōu)勢,因為Jeffreys1-最短區(qū)間的寬度甚至比精確方法還要寬。

對于具有連續(xù)結局的小型元分析,使用Jeffreys2-最短區(qū)間時需要更加謹慎,因為在極小型元分析(k ≤ 5)且異質(zhì)性高的情況下,它們會表現(xiàn)出輕微的覆蓋不足(約89–93%)。由于Jeffreys2-最短區(qū)間在k > 5的連續(xù)結局元分析中僅帶來適度的效率提升,因此保守起見,無論k取值如何,均可優(yōu)先選擇帶有HKSJ區(qū)間的頻率學派方法。盡管Jeffreys1-最短區(qū)間在連續(xù)結局下通常仍能保持至少名義覆蓋水平,但該區(qū)間比精確區(qū)間更寬,且比HKSJ區(qū)間要寬得多。

如上所述,Jeffreys2-最短區(qū)間通常比HKSJ區(qū)間更窄,同時卻能更穩(wěn)定地達到至少名義覆蓋水平,這看似違反直覺。造成這一發(fā)現(xiàn)的原因有兩個。第一,HKSJ區(qū)間對于μ總是基于所分析的效應尺度(即,連續(xù)結局下的Hedges’ g和二分類結局下的對數(shù)優(yōu)勢比)對稱的,而Jeffreys1-最短和Jeffreys2-最短區(qū)間則可根據(jù)后驗分布的形狀呈現(xiàn)對稱或不對稱(見補充材料第2.3節(jié))。第二,在給定情景下,Jeffreys2-最短區(qū)間的寬度在重復抽樣中通常比HKSJ區(qū)間的寬度變化小得多。因此,在許多Jeffreys2-最短區(qū)間表現(xiàn)出過度覆蓋而對比方法僅達到名義或更低覆蓋水平的情景中,這是因為HKSJ方法在重復抽樣中常常產(chǎn)生極寬的區(qū)間,而Jeffreys2-最短區(qū)間則被限制在一個更窄的范圍內(nèi)(見補充材料第2.3節(jié))。

4.4.4. τ 的點估計與區(qū)間估計

對于連續(xù)結局和二分類結局,τ 的點估計和區(qū)間估計結果取決于 τ 是否接近邊界值零,特別是對于杰弗里斯方法。在點估計方面,頻率學派方法(尤其是 ML)通常表現(xiàn)出輕微的負偏倚(圖9)。來自 Jeffreys1 和 Jeffreys2 的點估計在偏倚的符號和幅度上比頻率學派點估計更為多變(圖9)。在 MAE 和 RMSE 方面,頻率學派方法 DL、DL2、REML 和 PM 彼此表現(xiàn)相當。相比之下,ML 在這些指標上通常略優(yōu)(圖10 和 圖11)。Jeffreys1 和 Jeffreys2 的 MAE 和 RMSE 彼此相當。相對于頻率學派方法,Jeffreys1 和 Jeffreys2 通常在 τ 中等取值時(例如,τ = 0.10)表現(xiàn)出可比的 MAE 和 RMSE,在 τ > 0.10 時表現(xiàn)更好,而在 τ < 0.10 時表現(xiàn)更差。這些模式在二分類結局中更為顯著。




盡管兩種結局類型的方法相對排序相似,但上述模式在正態(tài)效應和指數(shù)效應下也基本一致。

關于區(qū)間估計,自助法方法的試點測試再次表明,這些方法相比其他方法表現(xiàn)相對較差(補充材料第3.7節(jié)和第3.8節(jié)),因此我們再次將自助法方法從正文結果中省略。圖12展示了95%區(qū)間的覆蓋概率。在總體效應為正態(tài)分布的情景下,所有 Q-輪廓區(qū)間表現(xiàn)相似,并接近名義覆蓋水平(在83%的情景中覆蓋率 >94%)。ML-輪廓區(qū)間在大多數(shù)情景中通常表現(xiàn)為名義覆蓋或過度覆蓋;在正態(tài)效應情景下,這些區(qū)間的覆蓋率在82%的情景中超過94%,與Q-輪廓方法類似。然而,當元分析規(guī)模較小且異質(zhì)性較高時,ML-輪廓區(qū)間確實表現(xiàn)出覆蓋不足。這種覆蓋不足在二分類結局中最小(最低約90%),但在連續(xù)結局中可能較為嚴重(最低約75%)。


Jeffreys1-最短區(qū)間在 τ > 0.01 時至少達到名義覆蓋水平,但在 τ = 0.01 時表現(xiàn)出顯著的覆蓋不足。Jeffreys2-最短區(qū)間表現(xiàn)類似,但額外在高異質(zhì)性(τ = 0.50)的連續(xù)結局元分析中也表現(xiàn)出覆蓋不足,尤其在 k ≤ 5 時。Jeffreys1-最短和 Jeffreys2-最短區(qū)間的覆蓋率分別在83%和74%的情景中超過94%。Jeffreys1-中心區(qū)間和 Jeffreys2-中心區(qū)間的覆蓋表現(xiàn)則明顯更差(即,表現(xiàn)出更嚴重的覆蓋不足),相較于 Jeffreys1-最短和 Jeffreys2-最短區(qū)間在較小 τ 值時的表現(xiàn):在正態(tài)總體效應情景下,Jeffreys1-中心和 Jeffreys2-中心區(qū)間的覆蓋率分別僅在54%和56%的情景中超過94%。這種覆蓋不足反映了當 τ 接近參數(shù)空間邊界時對 τ 的高估。

圖13展示了95%區(qū)間的寬度。我們現(xiàn)在僅討論具有最高至少名義覆蓋率的方法,因此不討論 Jeffreys2-最短、Jeffreys1-中心和 Jeffreys2-中心區(qū)間。各種 Q-輪廓區(qū)間的寬度彼此相當,但 ML-輪廓區(qū)間的寬度通常要窄得多,特別是在極小型元分析中。


在總體效應為指數(shù)分布的情景中,所有方法在 τ 的估計和區(qū)間估計方面的相對表現(xiàn)相似,盡管所有方法的覆蓋概率均有所下降。附加的分層結果(補充材料第3節(jié))表明,k=100以及各研究中N固定或變動的情形下,性能模式也大致可比。

4.4.5. 關于 τ 的結果討論

在 τ 的點估計方面,沒有任何一種方法表現(xiàn)出明顯最優(yōu),因為各方法的性能強烈依賴于 τ 本身。杰弗里斯方法的低覆蓋概率出現(xiàn)在 τ 接近零(即參數(shù)空間邊界)時。這反映了對 τ 的高估,而在隨機效應元分析的背景下,這種高估通常被視為保守的。關于 τ 的區(qū)間估計,帶有 Q-輪廓或 ML-輪廓區(qū)間的頻率學派估計量似乎比杰弗里斯方法更可取。

在兩種杰弗里斯先驗和兩種區(qū)間類型中,只有 Jeffreys1-最短區(qū)間在覆蓋水平上與頻率學派方法具有競爭力。然而,由于 Jeffreys1-最短區(qū)間的寬度略大于頻率學派方法的區(qū)間,因此該方法似乎并未在整體上優(yōu)于頻率學派區(qū)間。Q-輪廓區(qū)間在不同情景下的表現(xiàn)比 ML-輪廓區(qū)間稍顯穩(wěn)定,盡管其平均表現(xiàn)相似。但 ML-輪廓區(qū)間卻顯著窄于 Q-輪廓區(qū)間。

4.5. 總體結論

所有方法在 μ 的點估計方面表現(xiàn)相似??傮w而言,對于 μ 采用 HKSJ 區(qū)間、對于 τ 采用 Q-輪廓區(qū)間的標準頻率學派方法在不同結局類型下表現(xiàn)最為穩(wěn)定一致。Jeffreys2-最短區(qū)間在二分類結局的元分析中也表現(xiàn)出一貫良好的性能,并且所得區(qū)間明顯比頻率學派方法更窄。然而,Jeffreys2-最短區(qū)間在連續(xù)結局下的表現(xiàn)不夠穩(wěn)定:在異質(zhì)性較高且元分析規(guī)模極?。╧ ≤ 5)的情形下,該方法出現(xiàn)了輕微的覆蓋不足。關于 τ 的點估計,所有方法在平均意義上再次表現(xiàn)相當,但最優(yōu)方法取決于 τ 本身的取值。關于 τ 的區(qū)間估計,Q-輪廓方法的表現(xiàn) arguably(可認為)最佳,并在各種情景下表現(xiàn)穩(wěn)定一致。

總體而言,對于連續(xù)結局的小型元分析,我們推薦使用標準頻率學派方法,即對 μ 采用 HKSJ 區(qū)間、對 τ 采用 Q-輪廓區(qū)間,這與以往的建議一致。然而,對于二分類結局的小型元分析,如果元分析者主要關注 μ 的點估計和區(qū)間估計(盡管再次強調(diào),τ 的最優(yōu)估計方法取決于 τ 本身的取值),則 Jeffreys2 方法可能優(yōu)于標準頻率學派方法。這是因為 Jeffreys2-最短區(qū)間更頻繁地達到至少名義覆蓋水平,同時精確度顯著更高。如果元分析者還希望獲得 τ 的區(qū)間,則使用帶有 Q-輪廓區(qū)間的頻率學派方法可能會比 Jeffreys2-最短區(qū)間提供更接近名義覆蓋水平的 τ 區(qū)間;但這樣做很可能會犧牲 μ 估計的大量精確度。

  1. 應用實例

Zito 等人?? 對隨機對照試驗進行了元分析,比較了多種用于檢測冠狀動脈疾?。–AD)的診斷策略,研究對象為出現(xiàn) CAD 相關癥狀的患者。作者針對多種診斷方法之間的每一對比較均進行了元分析;為簡化起見,我們重點關注比較冠狀動脈計算機斷層掃描血管造影(CCTA)與負荷單光子發(fā)射計算機斷層掃描心肌灌注成像(SPECT-MPI)的研究。我們復制了作者對六種結局的元分析:心血管死亡和心肌梗死(k=2)、全因死亡(k=3)、心肌梗死(k=2)、首次侵入性冠狀動脈造影(ICA)(k=4)、后續(xù)再血管化治療(k=4)以及下游檢查(k=4)。作者的元分析?? 使用了 DL 方法,并采用了 Wald 區(qū)間而非 HKSJ 置信區(qū)間。iii 我們從已發(fā)表的森林圖中提取了各研究層面的匯總統(tǒng)計量,并使用 DL、REML、精確方法、Jeffreys1-最短和 Jeffreys2-最短方法重新分析了各項結局。?,12?1? 對于 DL 和 REML,我們根據(jù)既定建議采用了 HKSJ 區(qū)間。由于我們的模擬研究表明,帶有 HKSJ 區(qū)間的各種頻率學派方法之間差異相對較小,因此為簡潔起見,我們僅聚焦于 DL 和 REML。所有用于復現(xiàn)該應用實例所需的代碼和數(shù)據(jù)均已公開并有文檔記錄(https://osf.io/9qfah)。

圖2展示了針對單一結局(全因死亡)的 Jeffreys1 和 Jeffreys2 先驗,圖3展示了在 Jeffreys2 先驗下的聯(lián)合后驗分布。圖5展示了所有方法對所有結局的 μ? 點估計和區(qū)間;關于異質(zhì)性估計的類似森林圖見補充材料第4節(jié)。與模擬研究一樣,所有點估計幾乎完全相同,但 Jeffreys2-最短區(qū)間的寬度通常比 Jeffreys1-最短、REML、DL 和精確方法所得區(qū)間窄得多。在全部六種結局中,Jeffreys2-最短區(qū)間在對數(shù)優(yōu)勢比尺度上的平均寬度比其他方法中最窄的區(qū)間還要窄 45%。對于僅包含兩項研究的元分析,這種精確度提升增加至 112%。

據(jù)我們所知,本文提供了首個對元分析中 Jeffreys2 先驗的經(jīng)驗評估。我們將來自 Jeffreys2 先驗的點估計和區(qū)間與 Jeffreys1 先驗以及若干表現(xiàn)最佳的參數(shù)化、半?yún)?shù)化和非參數(shù)化頻率學派方法進行了比較。在擴展先前關于 Jeffreys1 先驗的模擬研究的基礎上,我們額外考慮了不同類型的貝葉斯點估計和區(qū)間,并考察了 μ 和 τ 的點估計和區(qū)間估計。正如第 4.5 節(jié)總結的那樣,對于二分類結局的小型元分析,Jeffreys2 在 μ 的點估計和區(qū)間估計方面可能優(yōu)于標準頻率學派方法,其效率提升有時相當可觀。然而,對于連續(xù)結局的小型元分析,帶有 HKSJ 區(qū)間的標準頻率學派方法和帶有 Q-輪廓置信區(qū)間的 τ 似乎是最佳選擇,可避免 Jeffreys2-最短區(qū)間在極小型且高異質(zhì)性的元分析中可能出現(xiàn)的輕微覆蓋不足。對于兩種結局類型,τ 的最優(yōu)點估計方法隨 τ 本身而變化。當 τ 非常小時,杰弗里斯方法表現(xiàn)保守,因為它們通常會高估 τ。最后,我們證明了 Jeffreys2 先驗可以被直接推廣到元回歸的情形(見補充材料第1節(jié))。

鑒于我們關注的是作為最大似然估計 Firth 校正的杰弗里斯先驗的頻率學派性質(zhì),我們從頻率學派角度處理了點估計和區(qū)間估計問題。例如,我們的模擬研究考慮了基于固定參數(shù)值生成的重復樣本所估計的 95% 區(qū)間的覆蓋概率。相比之下,在貝葉斯推斷中,參數(shù)被視為從先驗分布中隨機抽取的,而非固定的量。貝葉斯框架允許對某些類似于“覆蓋”的概念進行經(jīng)驗評估,但這需要從先驗分布中抽樣參數(shù),而非保持參數(shù)恒定。?,??,?? 作為附加的復雜因素,執(zhí)行這些貝葉斯校準檢驗需要一個合適的先驗來進行抽樣,而兩個杰弗里斯先驗均為非正常先驗。?? Cook 等人(2006)認為,使用非正常先驗時評估校準的困難是這類先驗的缺點之一。?? 鑒于我們對方法的頻率學派動機及其頻率學派經(jīng)驗性質(zhì)的興趣,我們未考慮為元分析提出的眾多其他貝葉斯先驗(例如,如 R?ver (2020)? 所綜述的)。將標準頻率學派方法與缺乏頻率學派解釋的貝葉斯方法進行比較具有一定難度,這或許正是許多先前的模擬研究未包含任何貝葉斯方法的原因?,11(但也有例外1??1?)。

我們的模擬研究也存在其他局限性。首先,我們只考慮了一種模型誤設形式,即總體效應服從指數(shù)分布,并發(fā)現(xiàn)方法的相對排序基本未受影響。然而,我們并未評估其他形式的誤設,例如嚴重偏離正態(tài)性或聚集的總體效應。其次,對于二分類結局的元分析,我們僅考慮了標準的逆方差加權元分析,但基于臂的方法可能具有更好的統(tǒng)計特性。?? 另一方面,基于臂的方法可能因試驗間不可交換性而引入偏倚,??,?1 而逆方差元分析更容易適應研究調(diào)整協(xié)變量的可能性,并且在原始論文僅報告有限匯總統(tǒng)計量時可能更可行。此外,評估逆方差元分析能與先前的模擬研究進行更直接的比較。11 第三,我們使用的兩種研究內(nèi)估計量——對數(shù)優(yōu)勢比和 Hedges’ g——都涉及近似,這可能引入輕微的小樣本偏倚。此類決策可能非平凡地影響模擬研究的結果,?2 我們使用這些估計量是為了確保與先前模擬研究的直接可比性。?3 此外,這兩種度量是元分析中最常用的度量之一。?3 未來的工作可以探索無需近似的效應度量(如原始均值差異)的相對表現(xiàn),盡管這些度量在實踐中并不常用。?3 第四,我們僅考慮了兩個待估參數(shù) μ 和 τ,但這兩者僅能提供隨機效應分布的有限概括。其他可能具有信息量的指標包括超過某一有意義效應大小閾值的總體效應比例??,??,??;新總體效應的預測區(qū)間??,??;以及每個研究總體效應的收縮估計。2?,?? 貝葉斯估計的一個優(yōu)勢是,此類指標可以直接從后驗分布中輕松獲得;其中一些已在 R 軟件包 bayesmeta 中實現(xiàn)。? 未來的模擬研究也可以考慮這些待估參數(shù)和區(qū)間。第五,我們做出了通常的假設,即研究內(nèi)標準誤的估計誤差可忽略不計。我們并未評估這種近似在多大程度上損害了區(qū)間估計。已有若干方法被提出以應對這種形式的估計誤差;也許未來的工作可以將這些進展納入杰弗里斯先驗中。?????

我們的工作仍是對 Jeffreys1 和 Jeffreys2 先驗的初步探究。我們特別鼓勵未來的研究考慮對這些先驗的其他推廣,除了我們將其推廣至元回歸的情形之外。例如,如引言所述,我們最近發(fā)現(xiàn),對 μ 和 τ 的杰弗里斯先驗在一個涉及嚴重 p 值挖掘的估計問題中表現(xiàn)良好,該問題需要估計截斷分布的參數(shù)。3? 某些出版偏倚的選擇模型會導致相關分布,這些分布涉及出版概率中的階躍函數(shù)。?1 這些模型在小型元分析中可能表現(xiàn)不佳,往往對與出版偏倚嚴重程度相關的參數(shù)產(chǎn)生極其寬泛的區(qū)間。?2,?3 是否通過在 μ、τ 和偏倚參數(shù)上使用杰弗里斯先驗也能改善這些模型在小型元分析中的表現(xiàn)?其他可能的擴展包括容納聚集的總體效應。我們期待沿著這些方向開展未來的研究。

原文鏈接: https://www.cambridge.org/core/services/aop-cambridge-core/content/view/B6F787E5BBF8049D473AB896C65ADB39/S1759287924000024a.pdf/meta-analysis-with-jeffreys-priors-empirical-frequentist-properties.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀錄

凱恩將續(xù)約拜仁,創(chuàng)隊史頂薪紀錄

星耀國際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學圈炸了!陪讀媽媽、女留學生成狩獵目標,家長必看

牢A爆火后留學圈炸了!陪讀媽媽、女留學生成狩獵目標,家長必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

過了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國武器庫!一定要嚴防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

突擊檢查全國武器庫!一定要嚴防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

揚子晚報
2026-01-27 21:52:52
性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機場“大老虎”:下班飛澳門,早上坐專機上班,一晚輸600萬

首都機場“大老虎”:下班飛澳門,早上坐專機上班,一晚輸600萬

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應

瀟湘晨報
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負責人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負責人已被逮捕

大風新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對講機掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

爬山遺失80克金吊墜男子:把對講機掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

魯中晨報
2026-01-27 16:23:14
沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進尺

沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財長得寸進尺

天仙無味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關鍵信息

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

頭條要聞

美報告稱中國是其19世紀以來面對過的最強大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

游戲
家居
房產(chǎn)
教育
數(shù)碼

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

家居要聞

現(xiàn)代古典 中性又顯韻味

房產(chǎn)要聞

實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

教育要聞

對話陳妤頡:閃閃發(fā)光的賽道,追逐夢想

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

無障礙瀏覽 進入關懷版