国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

柳葉刀子刊:評估AI預測模型性能的幾大類指標總結(區(qū)分度、校準度…)

0
分享至

2025年12月,《Lancet Digital Health》發(fā)表了一篇總結文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,對評估AI預測模型性能的幾大類指標進行了評估。文章討論了五大性能維度的32種性能指標及其圖形化評估方法,這五個維度包括:

1)區(qū)分度(discrimination)

2)校準度(calibration)

3)整體性能(overall performance)

4)分類(classification)

5)臨床效用(clinical utility)

其中,前四個維度反映統(tǒng)計性能,第五個維度則體現(xiàn)決策分析性能。

文章以ADNEX模型為例來講解這些指標及其特性(該模型用于預測女性卵巢腫瘤的惡性概率)。文章建議以下指標和圖表應作為AI預測模型報告中的核心內容:受試者工作特征曲線下面積(AUC-ROC)、校準圖(calibration plot)、基于決策曲線分析的臨床效用指標(如凈收益[net benefit])、按結局類別展示的概率分布圖。

五大性能維度

1、區(qū)分度(discrimination)

區(qū)分度關注模型是否能為實際發(fā)生事件的個體比未發(fā)生事件的個體分配更高的事件概率。區(qū)分度反映的是相對性能,即模型所估計的概率絕對值大小并不重要,關鍵在于這些概率能否有效區(qū)分有事件個體與無事件個體

2、校準度(calibration)

校準度關注模型估計的概率與實際觀察到的事件發(fā)生率之間的一致性。校準度體現(xiàn)的是絕對性能,用于評估概率估計值是否過高或過低。因此,一個模型可能具有良好的區(qū)分度但校準度較差,反之亦然。

3、整體性能(overall performance)

整體性能綜合了區(qū)分度與校準度,通過量化模型估計的概率與真實結局(0表示無事件,1表示事件)之間的接近程度,來評估模型表現(xiàn)。

4、分類(classification)

第四和第五個性能維度需要設定一個事件風險的閾值,將個體劃分為兩個互斥的組別低風險組(估計風險低于閾值)和高風險組(估計風險等于或高于閾值)。這種分組通常關聯(lián)著某種干預措施(例如手術),即建議對高風險個體實施干預,對低風險個體則不建議干預。因此,該閾值可稱為“決策閾值”。也可以使用多個決策閾值將個體劃分為三個或更多組別,本文聚焦于常見的單閾值情形。

分類性能關注個體被正確歸類為高風險或低風險的程度。該維度基于列聯(lián)表(又稱混淆矩陣),對分類結果(低風險 vs. 高風險)與實際結局(事件 vs. 無事件)進行交叉匯總。當所有發(fā)生事件的個體預測概率均高于決策閾值,所有未發(fā)生事件的個體預測概率均低于該閾值時,分類性能達到完美。分類性能受區(qū)分度和校準度的影響

5、臨床效用(clinical utility)

臨床效用更進一步,在評估個體被劃分進低風險或高風險組時,明確考慮了誤分類成本(misclassification costs)。"誤分類成本"是一個成熟術語,泛指各類誤分類(包括假陽性與假陰性)所帶來的危害。

臨床效用評估的是基于特定決策閾值所做決策的質量,以及使用該模型是否比不使用模型或使用其他競爭模型能帶來更優(yōu)的臨床決策。因此,決策閾值應具有臨床意義,并與誤分類成本相關聯(lián)。由于臨床效用直接關注決策質量,它是五個性能維度中最重要的一個。

“決策閾值”的定義

大多數(shù)用于醫(yī)學的預測性AI模型,主要目標是支持后續(xù)的臨床決策。模型得到的概率估計值可幫助改善健康結局:對低風險個體避免實施獲益有限且負擔較重的干預措施,為高風險個體更合理地選擇干預方案。因此,決策閾值應基于醫(yī)學考量而非統(tǒng)計學依據(jù)來確定。

然而,在實踐中,決策閾值常常通過某個統(tǒng)計指標來定(如約登指數(shù),即靈敏度+特異度?1)。采用統(tǒng)計學指標來設定決策閾值,不僅違背決策理論的基本原則,也脫離了臨床醫(yī)生的實際使用需求

正確的做法是:一旦模型所要支持的具體臨床決策被明確定義后,就應考慮使用該模型輔助決策可能產(chǎn)生的四種后果:

  • 真陽性(實際發(fā)生事件且被歸類為高風險)
  • 真陰性(未發(fā)生事件且被歸類為低風險)
  • 假陰性(實際發(fā)生事件卻被歸類為低風險)
  • 假陽性(未發(fā)生事件卻被歸類為高風險)

這些后果的重要性權重因干預措施的性質與影響、醫(yī)療體系特點,以及醫(yī)生和患者的偏好而有所不同。

本文中的案例涉及需要手術切除卵巢腫瘤的患者。臨床使用ADNEX模型來決定應采取高級別手術還是保守手術,通常建議將惡性概率的決策閾值設為0.1(即10%)。這意味著,當ADNEX模型預測某患者的惡性風險為10%時,便建議其接受高級別手術。在此閾值下,每發(fā)現(xiàn)1例真正需要高級別手術的惡性腫瘤患者(真陽性),就需要對另外9名實際為良性腫瘤的患者實施了不必要的高級別手術(即最多接受9例假陽性)。換言之,采用這一閾值隱含的前提是:對惡性腫瘤患者實施高級別手術所帶來的醫(yī)學獲益,至少是良性腫瘤患者接受不必要高級別手術所造成傷害的9倍。

本文討論了32種性能指標(3種區(qū)分度指標、6種校準度指標、9種整體性能指標、11種分類指標、3種臨床效用指標)(見表1),以及相應的可視化評估方法。

表1. 本文所討論的性能指標以及案例研究中ADNEX模型在校準前后的結果






良好性能指標應具備的關鍵特征

本文定義了性能指標應具備的兩項關鍵特征:(1)該指標應為“恰當”(proper)的指標;(2)該指標應明確聚焦于是反映統(tǒng)計價值還是決策分析價值。不具備第一項特征的指標不可信賴,缺乏第二項特征的指標則含義模糊、難以解釋。

第三項理想特征是具有直觀易懂的可解釋性,但本文不詳細討論這一特征,因為可解釋性具有主觀性,且受使用者背景知識和熟悉程度的影響。

在醫(yī)學實踐中,對預測性AI模型的性能評估可清晰區(qū)分為統(tǒng)計性能評估決策分析性能評估兩類。前四個性能維度關注統(tǒng)計性能的不同方面,而臨床效用維度則聚焦于決策分析性能。

統(tǒng)計性能指標對于模型評估至關重要,但不能單獨用于判斷模型是否應投入臨床實踐。例如,僅憑良好的區(qū)分度和校準度就聲稱“該模型可用于輔助卵巢手術決策”是不恰當?shù)?。若某性能指標旨在超越單純的統(tǒng)計價值,則必須依據(jù)決策分析原則,要納入誤分類成本。

案例研究:卵巢癌診斷模型(ADNEX模型)

本文所使用的案例是對有卵巢腫瘤的女性預期其惡性風險。ADNEX模型由國際卵巢腫瘤分析(IOTA)聯(lián)盟開發(fā),可在術前估計計劃接受手術的卵巢腫瘤患者患惡性腫瘤的概率[1]。該模型可用于指導兩類決策:(1)在腫瘤中心就診的患者選擇高級別手術還是保守手術;(2)在其他機構就診的患者是否應轉診至腫瘤中心。

ADNEX模型基于1999-2012年間來自10個國家(意大利、比利時、瑞典、捷克、波蘭、法國、英國、中國、西班牙、加拿大)的24家二級和三級醫(yī)療機構共5909名患者的數(shù)據(jù)開發(fā)而成。

隨后,TransIOTA研究利用2015-2019年間來自4個國家(比利時、意大利、捷克和英國)的1家二級和5家三級醫(yī)療機構的894名女性數(shù)據(jù),對ADNEX模型區(qū)分良性與惡性腫瘤的能力進行了外部驗證[2]。

出于教學目的,本文使用該數(shù)據(jù)集計算了所有要討論的性能指標及其95%CI,并展示了所有相關的可視化圖表。

本文評估了原始ADNEX模型的性能,以及經(jīng)邏輯校準(logistic recalibration)更新后的性能(見前表1)。更新方法為:以結局為因變量,以ADNEX輸出的事件概率的logit值(線性預測因子)為自變量,擬合一個logistic回歸模型。該方法類似于機器學習中的Platt縮放(Platt scaling),常用于改善預測的校準度。邏輯校準本質上是對線性預測因子進行線性變換,因此是一種保序方法(rank-preserving method),即患者按惡性概率排序的結果在校準前后保持不變。

所有R和Python代碼,以及894名參與者的惡性風險估計值和實際結局數(shù)據(jù),均已公開于GitHub代碼倉庫,鏈接如下:

https://github.com/benvancalster/PerfMeasuresOverview

參考文獻:

1.BMJ. 2014; 349:g5920

2. Br J Cancer. 2024; 130:934-940

本文整理自:Lancet Digit Health. 2025 Dec 13:100916.

受篇幅限制,本篇文章先介紹到這里,在后面一篇推文中,我們再介紹這篇文章的后半部分,即針對各種性能指標的描述以及相應的可視化方法,敬請期待。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國際籃聯(lián)向中國隊道歉

國際籃聯(lián)向中國隊道歉

觀察者網(wǎng)
2026-02-27 18:58:13
后春節(jié)檔的頭號“硬菜”來了

后春節(jié)檔的頭號“硬菜”來了

犀牛娛樂
2026-02-26 08:32:14
布滿陷阱!別再罵許家印了!恒大真正的贏家,早已悄悄套現(xiàn)離場

布滿陷阱!別再罵許家印了!恒大真正的贏家,早已悄悄套現(xiàn)離場

歷史偉人錄
2026-02-27 18:25:29
突發(fā) | 知名品牌宣布:關閉中國所有門店!

突發(fā) | 知名品牌宣布:關閉中國所有門店!

天津廣播
2026-02-28 00:02:12
中共中央政治局會議:實施更加積極有為的宏觀政策

中共中央政治局會議:實施更加積極有為的宏觀政策

21世紀經(jīng)濟報道
2026-02-27 15:58:08
臺北禁令全面失效,國臺辦震撼表態(tài)

臺北禁令全面失效,國臺辦震撼表態(tài)

愛意隨風起呀
2026-02-28 01:02:24
為什么交通部約談高德?業(yè)務全踩紅線,五天被約談三次

為什么交通部約談高德?業(yè)務全踩紅線,五天被約談三次

小蜜情感說
2026-02-27 06:43:29
夜間氣溫達零下30℃!澤連斯基:烏面臨幾十年來最難冬天,下輪會談或在阿布扎比

夜間氣溫達零下30℃!澤連斯基:烏面臨幾十年來最難冬天,下輪會談或在阿布扎比

紅星新聞
2026-02-27 17:33:09
反詐老陳抖音賬號被罰:以所謂“打假”“反詐”等為名,刻意煽動網(wǎng)友情緒、營造對立,借此引發(fā)關注收割流量

反詐老陳抖音賬號被罰:以所謂“打假”“反詐”等為名,刻意煽動網(wǎng)友情緒、營造對立,借此引發(fā)關注收割流量

晉江電視臺
2026-02-27 22:59:07
中朝邊境鴨綠江口現(xiàn)狀:朝鮮領土正在不斷增加,中方卻在逐漸減少

中朝邊境鴨綠江口現(xiàn)狀:朝鮮領土正在不斷增加,中方卻在逐漸減少

普覽
2026-02-26 21:29:19
晚上九點!中國男籃上訴成功,國際籃協(xié)正式道歉,郭士強被聲討

晚上九點!中國男籃上訴成功,國際籃協(xié)正式道歉,郭士強被聲討

多特體育說
2026-02-27 20:52:20
上海電影院現(xiàn)場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

壹月情感
2026-02-27 19:45:48
姜還是老的辣!港口被強收僅3天,李嘉誠一招破局,令人刮目相看

姜還是老的辣!港口被強收僅3天,李嘉誠一招破局,令人刮目相看

離離言幾許
2026-02-27 21:17:18
巴拿馬強吞中國18億資產(chǎn),竟是自掘墳墓,這下后悔也來不及!

巴拿馬強吞中國18億資產(chǎn),竟是自掘墳墓,這下后悔也來不及!

梁訊
2026-02-27 20:39:31
張本智和回應出局!周雨直言弗朗西斯卡受高人指點,國乒爭冠利好

張本智和回應出局!周雨直言弗朗西斯卡受高人指點,國乒爭冠利好

排球黃金眼
2026-02-27 23:59:07
泰國新內閣組建完成,前總理佩通坦贏了,他信贏了,為泰黨也贏了

泰國新內閣組建完成,前總理佩通坦贏了,他信贏了,為泰黨也贏了

藍色海邊
2026-02-28 00:47:33
3000萬打工人逃離北上廣,卻不知道縣城已被161個家族瓜分

3000萬打工人逃離北上廣,卻不知道縣城已被161個家族瓜分

流蘇晚晴
2026-02-27 18:06:43
老朋友伊朗,快要退出群聊了

老朋友伊朗,快要退出群聊了

基本常識
2026-02-27 23:10:46
美國推動“谷愛凌法案”,沒收全部收入:背叛美國,必須付出代價

美國推動“谷愛凌法案”,沒收全部收入:背叛美國,必須付出代價

十點街球體育
2026-02-27 11:42:31
兩位英雄駕機撞向俄軍!不是所有烏克蘭人都是扎波羅熱哥薩克的種

兩位英雄駕機撞向俄軍!不是所有烏克蘭人都是扎波羅熱哥薩克的種

鷹眼Defence
2026-02-27 12:55:26
2026-02-28 05:56:49
醫(yī)咖會
醫(yī)咖會
生動有趣的形式傳遞醫(yī)學新進展
2770文章數(shù) 10976關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

特朗普警告伊朗:“有時候不得不打”

頭條要聞

特朗普警告伊朗:“有時候不得不打”

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
房產(chǎn)
數(shù)碼
教育
公開課

本地新聞

津南好·四時總相宜

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

數(shù)碼要聞

Omdia:時隔5年,小米去年再度回歸可穿戴設備出貨榜首

教育要聞

寫字歪歪扭扭?四線格本輕松搞定!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版