国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

柳葉刀子刊:評估AI預(yù)測模型性能的幾大類指標(biāo)總結(jié)(區(qū)分度、校準(zhǔn)度…)

0
分享至

2025年12月,《Lancet Digital Health》發(fā)表了一篇總結(jié)文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,對評估AI預(yù)測模型性能的幾大類指標(biāo)進行了評估。文章討論了五大性能維度的32種性能指標(biāo)及其圖形化評估方法,這五個維度包括:

1)區(qū)分度(discrimination)

2)校準(zhǔn)度(calibration)

3)整體性能(overall performance)

4)分類(classification)

5)臨床效用(clinical utility)

其中,前四個維度反映統(tǒng)計性能,第五個維度則體現(xiàn)決策分析性能。

文章以ADNEX模型為例來講解這些指標(biāo)及其特性(該模型用于預(yù)測女性卵巢腫瘤的惡性概率)。文章建議以下指標(biāo)和圖表應(yīng)作為AI預(yù)測模型報告中的核心內(nèi)容:受試者工作特征曲線下面積(AUC-ROC)、校準(zhǔn)圖(calibration plot)、基于決策曲線分析的臨床效用指標(biāo)(如凈收益[net benefit])、按結(jié)局類別展示的概率分布圖。

五大性能維度

1、區(qū)分度(discrimination)

區(qū)分度關(guān)注模型是否能為實際發(fā)生事件的個體比未發(fā)生事件的個體分配更高的事件概率。區(qū)分度反映的是相對性能,即模型所估計的概率絕對值大小并不重要,關(guān)鍵在于這些概率能否有效區(qū)分有事件個體與無事件個體

2、校準(zhǔn)度(calibration)

校準(zhǔn)度關(guān)注模型估計的概率與實際觀察到的事件發(fā)生率之間的一致性。校準(zhǔn)度體現(xiàn)的是絕對性能,用于評估概率估計值是否過高或過低。因此,一個模型可能具有良好的區(qū)分度但校準(zhǔn)度較差,反之亦然。

3、整體性能(overall performance)

整體性能綜合了區(qū)分度與校準(zhǔn)度,通過量化模型估計的概率與真實結(jié)局(0表示無事件,1表示事件)之間的接近程度,來評估模型表現(xiàn)。

4、分類(classification)

第四和第五個性能維度需要設(shè)定一個事件風(fēng)險的閾值,將個體劃分為兩個互斥的組別低風(fēng)險組(估計風(fēng)險低于閾值)和高風(fēng)險組(估計風(fēng)險等于或高于閾值)。這種分組通常關(guān)聯(lián)著某種干預(yù)措施(例如手術(shù)),即建議對高風(fēng)險個體實施干預(yù),對低風(fēng)險個體則不建議干預(yù)。因此,該閾值可稱為“決策閾值”。也可以使用多個決策閾值將個體劃分為三個或更多組別,本文聚焦于常見的單閾值情形。

分類性能關(guān)注個體被正確歸類為高風(fēng)險或低風(fēng)險的程度。該維度基于列聯(lián)表(又稱混淆矩陣),對分類結(jié)果(低風(fēng)險 vs. 高風(fēng)險)與實際結(jié)局(事件 vs. 無事件)進行交叉匯總。當(dāng)所有發(fā)生事件的個體預(yù)測概率均高于決策閾值,所有未發(fā)生事件的個體預(yù)測概率均低于該閾值時,分類性能達(dá)到完美。分類性能受區(qū)分度和校準(zhǔn)度的影響。

5、臨床效用(clinical utility)

臨床效用更進一步,在評估個體被劃分進低風(fēng)險或高風(fēng)險組時,明確考慮了誤分類成本(misclassification costs)。"誤分類成本"是一個成熟術(shù)語,泛指各類誤分類(包括假陽性與假陰性)所帶來的危害。

臨床效用評估的是基于特定決策閾值所做決策的質(zhì)量,以及使用該模型是否比不使用模型或使用其他競爭模型能帶來更優(yōu)的臨床決策。因此,決策閾值應(yīng)具有臨床意義,并與誤分類成本相關(guān)聯(lián)。由于臨床效用直接關(guān)注決策質(zhì)量,它是五個性能維度中最重要的一個。

“決策閾值”的定義

大多數(shù)用于醫(yī)學(xué)的預(yù)測性AI模型,主要目標(biāo)是支持后續(xù)的臨床決策。模型得到的概率估計值可幫助改善健康結(jié)局:對低風(fēng)險個體避免實施獲益有限且負(fù)擔(dān)較重的干預(yù)措施,為高風(fēng)險個體更合理地選擇干預(yù)方案。因此,決策閾值應(yīng)基于醫(yī)學(xué)考量而非統(tǒng)計學(xué)依據(jù)來確定

然而,在實踐中,決策閾值常常通過某個統(tǒng)計指標(biāo)來定(如約登指數(shù),即靈敏度+特異度?1)。采用統(tǒng)計學(xué)指標(biāo)來設(shè)定決策閾值,不僅違背決策理論的基本原則,也脫離了臨床醫(yī)生的實際使用需求

正確的做法是:一旦模型所要支持的具體臨床決策被明確定義后,就應(yīng)考慮使用該模型輔助決策可能產(chǎn)生的四種后果:

  • 真陽性(實際發(fā)生事件且被歸類為高風(fēng)險)
  • 真陰性(未發(fā)生事件且被歸類為低風(fēng)險)
  • 假陰性(實際發(fā)生事件卻被歸類為低風(fēng)險)
  • 假陽性(未發(fā)生事件卻被歸類為高風(fēng)險)

這些后果的重要性權(quán)重因干預(yù)措施的性質(zhì)與影響、醫(yī)療體系特點,以及醫(yī)生和患者的偏好而有所不同

本文中的案例涉及需要手術(shù)切除卵巢腫瘤的患者。臨床使用ADNEX模型來決定應(yīng)采取高級別手術(shù)還是保守手術(shù),通常建議將惡性概率的決策閾值設(shè)為0.1(即10%)。這意味著,當(dāng)ADNEX模型預(yù)測某患者的惡性風(fēng)險為10%時,便建議其接受高級別手術(shù)。在此閾值下,每發(fā)現(xiàn)1例真正需要高級別手術(shù)的惡性腫瘤患者(真陽性),就需要對另外9名實際為良性腫瘤的患者實施了不必要的高級別手術(shù)(即最多接受9例假陽性)。換言之,采用這一閾值隱含的前提是:對惡性腫瘤患者實施高級別手術(shù)所帶來的醫(yī)學(xué)獲益,至少是良性腫瘤患者接受不必要高級別手術(shù)所造成傷害的9倍。

本文討論了32種性能指標(biāo)(3種區(qū)分度指標(biāo)、6種校準(zhǔn)度指標(biāo)、9種整體性能指標(biāo)、11種分類指標(biāo)、3種臨床效用指標(biāo))(見表1),以及相應(yīng)的可視化評估方法。

表1. 本文所討論的性能指標(biāo)以及案例研究中ADNEX模型在校準(zhǔn)前后的結(jié)果






良好性能指標(biāo)應(yīng)具備的關(guān)鍵特征

本文定義了性能指標(biāo)應(yīng)具備的兩項關(guān)鍵特征:(1)該指標(biāo)應(yīng)為“恰當(dāng)”(proper)的指標(biāo);(2)該指標(biāo)應(yīng)明確聚焦于是反映統(tǒng)計價值還是決策分析價值。不具備第一項特征的指標(biāo)不可信賴,缺乏第二項特征的指標(biāo)則含義模糊、難以解釋。

第三項理想特征是具有直觀易懂的可解釋性,但本文不詳細(xì)討論這一特征,因為可解釋性具有主觀性,且受使用者背景知識和熟悉程度的影響。

在醫(yī)學(xué)實踐中,對預(yù)測性AI模型的性能評估可清晰區(qū)分為統(tǒng)計性能評估決策分析性能評估兩類。前四個性能維度關(guān)注統(tǒng)計性能的不同方面,而臨床效用維度則聚焦于決策分析性能。

統(tǒng)計性能指標(biāo)對于模型評估至關(guān)重要,但不能單獨用于判斷模型是否應(yīng)投入臨床實踐。例如,僅憑良好的區(qū)分度和校準(zhǔn)度就聲稱“該模型可用于輔助卵巢手術(shù)決策”是不恰當(dāng)?shù)摹H裟承阅苤笜?biāo)旨在超越單純的統(tǒng)計價值,則必須依據(jù)決策分析原則,要納入誤分類成本。

案例研究:卵巢癌診斷模型(ADNEX模型)

本文所使用的案例是對有卵巢腫瘤的女性預(yù)期其惡性風(fēng)險。ADNEX模型由國際卵巢腫瘤分析(IOTA)聯(lián)盟開發(fā),可在術(shù)前估計計劃接受手術(shù)的卵巢腫瘤患者患惡性腫瘤的概率[1]。該模型可用于指導(dǎo)兩類決策:(1)在腫瘤中心就診的患者選擇高級別手術(shù)還是保守手術(shù);(2)在其他機構(gòu)就診的患者是否應(yīng)轉(zhuǎn)診至腫瘤中心。

ADNEX模型基于1999-2012年間來自10個國家(意大利、比利時、瑞典、捷克、波蘭、法國、英國、中國、西班牙、加拿大)的24家二級和三級醫(yī)療機構(gòu)共5909名患者的數(shù)據(jù)開發(fā)而成。

隨后,TransIOTA研究利用2015-2019年間來自4個國家(比利時、意大利、捷克和英國)的1家二級和5家三級醫(yī)療機構(gòu)的894名女性數(shù)據(jù),對ADNEX模型區(qū)分良性與惡性腫瘤的能力進行了外部驗證[2]。

出于教學(xué)目的,本文使用該數(shù)據(jù)集計算了所有要討論的性能指標(biāo)及其95%CI,并展示了所有相關(guān)的可視化圖表。

本文評估了原始ADNEX模型的性能,以及經(jīng)邏輯校準(zhǔn)(logistic recalibration)更新后的性能(見前表1)。更新方法為:以結(jié)局為因變量,以ADNEX輸出的事件概率的logit值(線性預(yù)測因子)為自變量,擬合一個logistic回歸模型。該方法類似于機器學(xué)習(xí)中的Platt縮放(Platt scaling),常用于改善預(yù)測的校準(zhǔn)度。邏輯校準(zhǔn)本質(zhì)上是對線性預(yù)測因子進行線性變換,因此是一種保序方法(rank-preserving method),即患者按惡性概率排序的結(jié)果在校準(zhǔn)前后保持不變。

所有R和Python代碼,以及894名參與者的惡性風(fēng)險估計值和實際結(jié)局?jǐn)?shù)據(jù),均已公開于GitHub代碼倉庫,鏈接如下:

https://github.com/benvancalster/PerfMeasuresOverview

參考文獻:

1.BMJ. 2014; 349:g5920

2. Br J Cancer. 2024; 130:934-940

本文整理自:Lancet Digit Health. 2025 Dec 13:100916.

受篇幅限制,本篇文章先介紹到這里,在后面一篇推文中,我們再介紹這篇文章的后半部分,即針對各種性能指標(biāo)的描述以及相應(yīng)的可視化方法,敬請期待。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美國坑我,中國揍我,日媒:我們最后一個支柱產(chǎn)業(yè)如今也陷入困境

美國坑我,中國揍我,日媒:我們最后一個支柱產(chǎn)業(yè)如今也陷入困境

歷史有些冷
2026-01-04 21:25:03
59歲王祖賢大變樣!素顏臉腫眼小滿臉苦相,虎背熊腰體重超149斤

59歲王祖賢大變樣!素顏臉腫眼小滿臉苦相,虎背熊腰體重超149斤

小咪侃娛圈
2026-01-05 09:59:14
破案了!邱彪罕見暴走摔西裝要打裁判的原因找到,郭昊文是導(dǎo)火索

破案了!邱彪罕見暴走摔西裝要打裁判的原因找到,郭昊文是導(dǎo)火索

后仰大風(fēng)車
2026-01-05 07:15:06
郭月蘭:丈夫留下1600億,她只分到35億,無兒女最后給了別人

郭月蘭:丈夫留下1600億,她只分到35億,無兒女最后給了別人

徐俠客有話說
2025-07-10 10:49:17
后續(xù)!司曉迪刪內(nèi)容:唯獨留下一條,再次更新賬號,驚曝奇怪排名

后續(xù)!司曉迪刪內(nèi)容:唯獨留下一條,再次更新賬號,驚曝奇怪排名

李健政觀察
2026-01-03 16:57:41
委副總統(tǒng)已代理總統(tǒng)職權(quán),特朗普稱要“管理”委內(nèi)瑞拉,多國要求美釋放馬杜羅夫婦

委副總統(tǒng)已代理總統(tǒng)職權(quán),特朗普稱要“管理”委內(nèi)瑞拉,多國要求美釋放馬杜羅夫婦

環(huán)球網(wǎng)資訊
2026-01-05 07:13:30
CBA最新排名!廣東第二北京第五,上海殺入四強,山東連升三級!

CBA最新排名!廣東第二北京第五,上海殺入四強,山東連升三級!

中國籃壇快訊
2026-01-05 00:01:24
就在剛剛,29家A股上市公司發(fā)布重大利好消息,看看都有哪些?

就在剛剛,29家A股上市公司發(fā)布重大利好消息,看看都有哪些?

股市皆大事
2026-01-05 08:47:14
痛心溫州16歲女孩玩迷室逃脫去世,家屬悲痛,商家回應(yīng),姐姐發(fā)聲

痛心溫州16歲女孩玩迷室逃脫去世,家屬悲痛,商家回應(yīng),姐姐發(fā)聲

可愛的羅
2026-01-05 12:50:56
美軍能打贏解放軍嗎?俄媒:兩軍差距巨大,除兵員其他全是劣勢!

美軍能打贏解放軍嗎?俄媒:兩軍差距巨大,除兵員其他全是劣勢!

薦史
2026-01-02 17:25:30
金正恩的神經(jīng)繃得很緊,特朗普一動手,朝鮮立馬發(fā)射高超音速導(dǎo)彈

金正恩的神經(jīng)繃得很緊,特朗普一動手,朝鮮立馬發(fā)射高超音速導(dǎo)彈

科普100克克
2026-01-05 16:51:23
特朗普估計現(xiàn)在很發(fā)愁,因為售臺這批110億美元的武器可能完不成

特朗普估計現(xiàn)在很發(fā)愁,因為售臺這批110億美元的武器可能完不成

忠于法紀(jì)
2026-01-05 21:29:15
特朗普再度警告委政府:若不配合,或進行第二次軍事打擊!

特朗普再度警告委政府:若不配合,或進行第二次軍事打擊!

財聯(lián)社
2026-01-05 16:14:08
華為誕生“降價王”,從16999元跌至8799元,折疊屏跌至谷底價

華為誕生“降價王”,從16999元跌至8799元,折疊屏跌至谷底價

知心數(shù)碼
2026-01-04 21:45:14
50歲老護士詳解護士繁重工作流程 稱張水華但凡有背景早就調(diào)崗了

50歲老護士詳解護士繁重工作流程 稱張水華但凡有背景早就調(diào)崗了

削桐作琴
2026-01-04 18:13:13
趙露思不尷尬嗎?寶格麗900萬珠寶給她戴了,卻一身廉價味顯難堪

趙露思不尷尬嗎?寶格麗900萬珠寶給她戴了,卻一身廉價味顯難堪

嫹筆牂牂
2025-12-23 07:09:08
嚴(yán)懲無良裁判,把CBA最老實教練都給逼急了,籃協(xié)再不管真晚了

嚴(yán)懲無良裁判,把CBA最老實教練都給逼急了,籃協(xié)再不管真晚了

宗介說體育
2026-01-05 21:29:34
中國最牛騙子,勞改犯搖身一變成空降高官,銳意改革政績突出

中國最牛騙子,勞改犯搖身一變成空降高官,銳意改革政績突出

史政先鋒
2026-01-05 19:53:45
突發(fā)!知名影帝安圣基因吃飯被噎去世,曾與劉德華出演《墨攻》

突發(fā)!知名影帝安圣基因吃飯被噎去世,曾與劉德華出演《墨攻》

心靜物娛
2026-01-05 13:49:36
楊冪藍(lán)色鏤空裙照瘋傳!雪白肌膚若隱若現(xiàn),這腰臀比太頂了?

楊冪藍(lán)色鏤空裙照瘋傳!雪白肌膚若隱若現(xiàn),這腰臀比太頂了?

娛樂領(lǐng)航家
2026-01-04 22:00:03
2026-01-05 22:47:00
醫(yī)咖會
醫(yī)咖會
生動有趣的形式傳遞醫(yī)學(xué)新進展
2718文章數(shù) 10955關(guān)注度
往期回顧 全部

科技要聞

4100家科技企業(yè)集結(jié)賭城,CES揭開AI新戰(zhàn)場

頭條要聞

臺官員稱美抓捕馬杜羅是對大陸的有力威懾 外交部回應(yīng)

頭條要聞

臺官員稱美抓捕馬杜羅是對大陸的有力威懾 外交部回應(yīng)

體育要聞

50年最差曼聯(lián)主帥!盤點阿莫林尷尬紀(jì)錄

娛樂要聞

《探索新境2》王一博挑戰(zhàn)酋長巖

財經(jīng)要聞

丁一凡:中美進入相對穩(wěn)定的競爭共存期

汽車要聞

海獅06EV冬季續(xù)航挑戰(zhàn) "電"這事比亞迪絕對玩明白了

態(tài)度原創(chuàng)

親子
藝術(shù)
手機
數(shù)碼
公開課

親子要聞

寶媽必學(xué),孩子做噩夢,警惕這樣的反應(yīng)!

藝術(shù)要聞

19幅 列賓美院學(xué)生優(yōu)秀畢業(yè)作品

手機要聞

榮耀Magic8 Air再次被確認(rèn):天璣9500+長焦鏡頭,電池竟超5000mAh

數(shù)碼要聞

戶外輕旗艦榮耀Power2發(fā)布 10080mAh大電池 2699元起售

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版