国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI醫(yī)生終于有了硬標(biāo)尺!螞蟻發(fā)布全球首個專病循證評測框架GAPS

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

螞蟻健康與北京大學(xué)人民醫(yī)院王俊院士團隊歷時6個多月,聯(lián)合十余位胸外科醫(yī)生共同打磨,發(fā)布了全球首個大模型專病循證能力的評測框架

GAPS(Grounding, Adequacy, Perturbation, Safety),及其配套評測集 GAPS-NSCLC-preview。

旨在解決現(xiàn)有醫(yī)療AI評測局限于考試式問答、缺乏臨床深度、完整性、魯棒性與安全性綜合評估的問題。

該評測集聚焦肺癌領(lǐng)域,包含92個問題、覆蓋1691個臨床要點,并配套全自動化的評測工具鏈,通過指南錨定、多智能體協(xié)同實現(xiàn)從問題生成、評分標(biāo)準(zhǔn)制定到多維度打分的端到端自動化。

目前,相關(guān)成果已應(yīng)用于“螞蟻阿?!?,論文《GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians》、配套評測集GAPS-NSCLC-preview、自動化評測框架已全面公開。



這項研究客觀評價了大模型的臨床能力:當(dāng)前主流醫(yī)療大模型雖已具備“醫(yī)學(xué)百科全書”般的知識廣度,但在臨床實踐中仍處于成長階段——

它們在系統(tǒng)掌握醫(yī)學(xué)知識方面表現(xiàn)卓越,但在應(yīng)對真實臨床場景中的不確定性挑戰(zhàn)時,尚需進一步提升判斷力與可靠性。

權(quán)威引領(lǐng):北大人民醫(yī)院院士團隊深度主導(dǎo)臨床標(biāo)準(zhǔn)構(gòu)建

本項目由中國工程院院士、北京大學(xué)人民醫(yī)院院長王俊教授領(lǐng)銜的團隊全程主導(dǎo),并與螞蟻團隊深度協(xié)作完成。

在GAPS構(gòu)建過程中,院士團隊原創(chuàng)性地提出了GAPS評測的理論框架,并組織十余位胸外科醫(yī)生持續(xù)參與評測題庫構(gòu)建、臨床金標(biāo)準(zhǔn)答案撰寫、模型輸出的專業(yè)審核與迭代優(yōu)化,提供NSCLC(非小細胞肺癌)領(lǐng)域前沿臨床指南的權(quán)威解讀與循證醫(yī)學(xué)方法論指導(dǎo),確保每一項指標(biāo)都扎根真實臨床實踐,具備高度專業(yè)性與可信度。

螞蟻團隊則發(fā)揮大模型與工程化能力優(yōu)勢,經(jīng)過多輪高強度醫(yī)工協(xié)同與反復(fù)迭代,將專家腦海中的復(fù)雜“臨床金標(biāo)準(zhǔn)”精準(zhǔn)沉淀為大模型可理解、可執(zhí)行的結(jié)構(gòu)化邏輯,實現(xiàn)GAPS的規(guī)?;?、自動化與可落地應(yīng)用。

此次合作實現(xiàn)了“臨床專家定標(biāo)準(zhǔn)、AI 技術(shù)做轉(zhuǎn)化”的深度融合,突破了傳統(tǒng)醫(yī)療AI評測中專家淺層參與的局限,標(biāo)志著頂尖臨床專家與AI技術(shù)團隊的深度協(xié)作,為醫(yī)療AI從“技術(shù)驅(qū)動”走向“臨床價值驅(qū)動”樹立了新的范式。

行業(yè)痛點:考得好,信不過

在和大模型討論醫(yī)療問題時,有時候回答得很好,有時候回答得很差,由于大模型的變化日新月異,醫(yī)生和患者都沒有辦法在短時間對大模型產(chǎn)生客觀評價,因此對大模型的信任就無從談起。

為了客觀評價大模型的能力,學(xué)界通常采用基準(zhǔn)測試的方法。

然而,當(dāng)前醫(yī)療AI的基準(zhǔn)測試普遍缺乏對模型循證能力、可解釋性與安全性的系統(tǒng)評估。

長期以來,醫(yī)療AI的評估依賴MedQA、PubMedQA等“試卷型”基準(zhǔn),僅考察事實記憶能力;而HealthBench等基于人工評分細則(Rubric)的方法又受限于主觀性強、擴展性差。

這些方法無法反映真實診療場景:患者描述模糊、檢查結(jié)果矛盾、治療方案需權(quán)衡利弊……正如論文所強調(diào):

  • 真正的醫(yī)療能力不在于背誦事實,而在于管理不確定性。

尤其在肺癌這一全球致死率最高的癌癥領(lǐng)域,缺乏細粒度、專病化的評估工具,使得醫(yī)療機構(gòu)和開發(fā)者難以客觀判斷醫(yī)療AI是否真正具備臨床可用性。

GAPS的誕生,正是為了填補這一關(guān)鍵空白。

破局之道:GAPS——從“考試機器”到“臨床醫(yī)生”的四維標(biāo)尺

GAPS是一個基于循證醫(yī)學(xué)、全自動構(gòu)建的AI臨床能力評測框架,首次將臨床勝任力解構(gòu)為四個正交維度,并聚焦NSCLC(非小細胞肺癌)這一高難度專病場景進行系統(tǒng)驗證:

1、G(Grounding)認知深度:不止于“是什么”,更考驗“為什么”和“怎么辦”。

  • G1和G2:事實回憶與解釋(AI的舒適區(qū))
  • G3:基于指南的循證決策(如NCCN推薦方案)
  • G4:推理性思維(Inferential Reasoning)——在證據(jù)沖突或缺失的“灰色地帶”做出合理判斷,這是當(dāng)前所有模型的“死亡區(qū)”。

2、A(Adequacy)回答完備性:醫(yī)生的一句話可能關(guān)乎生死。GAPS引入三級評價:

  • A1(必須有):核心診療建議
  • A2(應(yīng)該有):關(guān)鍵限定條件(如劑量、禁忌癥、監(jiān)測指標(biāo))
  • A3(錦上添花):患者教育、多學(xué)科協(xié)作建議等

缺少A2,再“正確”的建議也可能導(dǎo)致臨床誤用。

3、P(Perturbation)魯棒性:真實患者不會照著教科書說話。GAPS通過三類擾動測試模型抗干擾能力:

  • P1:語言噪音(口誤、方言)
  • P2:冗余信息(無關(guān)癥狀堆砌)
  • P3:對抗性前提(如誘導(dǎo)性錯誤假設(shè))

實驗顯示,多數(shù)模型極易被誤導(dǎo),甚至順從用戶的錯誤引導(dǎo)。

4、S(Safety)安全底線:醫(yī)療容不得“差不多”。GAPS 建立四級風(fēng)險體系:

S1(無關(guān)回答)→ S4(災(zāi)難性錯誤/Never Events,如推薦禁忌藥物)

一旦觸犯S4,無論其他維度得分多高,總分直接歸零——這是不可逾越的紅線。

GAPS解決了現(xiàn)有醫(yī)療AI評測僅關(guān)注“準(zhǔn)確率”的局限,首次實現(xiàn)對循證決策能力、回答完備性、現(xiàn)實魯棒性與安全底線的系統(tǒng)性、自動化評估。

其優(yōu)勢在于:以臨床指南為錨點,全自動構(gòu)建高保真評測項與評分規(guī)則,兼具可擴展性、可復(fù)現(xiàn)性與臨床真實性,為AI向可信臨床伙伴演進提供精準(zhǔn)導(dǎo)航。

核心黑科技:全自動化的“循證評測集”流水線

GAPS最大的技術(shù)亮點在于其端到端自動化與可擴展性

不同于以往依賴人工命題,GAPS構(gòu)建了一套基于臨床指南(Guidelines)的自動化生成工廠:

  1. 證據(jù)鄰域構(gòu)建:以NCCN、ESMO等權(quán)威指南為核心,自動抓取3跳內(nèi)引用文獻,構(gòu)建高可信醫(yī)學(xué)知識圖譜與疾病話題樹;
  2. Deep Research Agent:基于GRADE方法學(xué),模擬人類專家圍繞PICO(人群、干預(yù)、對照、結(jié)果)展開的證據(jù)檢索、證據(jù)評估、強弱推薦的流程,自動生成帶證據(jù)等級與推薦強度的高質(zhì)量評分細則;
  3. 虛擬患者生成:利用大模型合成去隱私化臨床病例,并精準(zhǔn)對齊知識圖譜,確保每道題“有據(jù)可依、有理可循”。

該流水線已成功應(yīng)用于胸外科的專病——NSCLC(非小細胞肺癌),生成包含92道題、1691個臨床要點的評測集GAPS-NSCLC-preview

題目按認知深度分為G1~G4四級(從事實回憶到不確定性下的推理),每題均配備平均12項完整性(A1~A3)與7項安全性(S1~S4)評分要點,并支持P0~P3四級擾動測試。

未來可快速擴展至心血管、兒科、內(nèi)分泌等任意??频膶2☆I(lǐng)域——只要有指南,就能生成高質(zhì)量評測集。



可靠的裁判:自動化評測讓AI醫(yī)療能力可量化、可復(fù)現(xiàn)、可進化

GAPS評測集同時搭配了一套高可靠性的自動化評測框架,實現(xiàn)了對AI臨床能力的客觀、細粒度、端到端的自動化評估。

為確保評測本身可信,團隊將自動化評分結(jié)果與五位資深專家的獨立標(biāo)注進行嚴(yán)格比對:

在92個真實臨床查詢、1691個臨床要點上,該框架與專家共識的整體一致率達90.00%,Cohen’s Kappa系數(shù)達0.77(“實質(zhì)性一致”),Macro-F1達0.88——不僅顯著優(yōu)于現(xiàn)有基準(zhǔn)(如HealthBench中GPT-4的0.79),已達到人類專家間一致性水平(88.5%~92.0%)。

這證明GAPS評測集的自動評判能力具備專家級可靠性。

在此基礎(chǔ)上,評測不再是終點,而是進化的起點。

框架輸出的結(jié)構(gòu)化評分(G/A/P/S四維、MET/NOT-MET標(biāo)記)可精準(zhǔn)定位模型在循證決策、回答完備性、擾動魯棒性或安全紅線上的缺陷;

由此,GAPS具備成為“評測即反饋、反饋即迭代”的最重要基石——AI醫(yī)療能力不再依賴模糊經(jīng)驗,而是通過可量化的指標(biāo)、可復(fù)現(xiàn)的流程、可積累的進化路徑,穩(wěn)步向臨床可用邁進。



實戰(zhàn)揭秘:頂尖大模型的“滑鐵盧”

研究團隊使用GAPS對GPT-5、Gemini 2.5 Pro、Claude Opus 4、Qwen3-235B-A22B-Instruct-2507、DeepSeek-V3.1-Terminus等主流模型進行“體檢”,結(jié)果發(fā)人深省:

1、“百科全書”易做,“專家”難當(dāng):

所有模型在G1(事實)和G2(解釋)階段表現(xiàn)優(yōu)異(GPT-5得分約0.72)。但一旦進入G3(確定性決策)和G4(非確定性推理),分?jǐn)?shù)呈斷崖式下跌,GPT-5在G4階段跌至0.45,其他模型甚至跌破0.35。這說明 AI目前還只是“背書機器”,而非“推理伙伴”。



2、不僅要“對”,還要“全”:

在Adequacy(完備性)測試中,模型往往只給出核心建議(A1),卻忽略了關(guān)鍵的限定條件(A2),導(dǎo)致臨床建議缺乏可操作性。



3、極其脆弱的耳根子:

在P3(對抗性測試)中,只要在提問中加入一點誤導(dǎo)性前提(例如暗示某種錯誤療法有效),模型的判斷力就會崩塌,甚至順從用戶的錯誤引導(dǎo)。



4、安全隱患:

雖然GPT-5和Gemini 2.5在極高風(fēng)險錯誤(S4)上控制較好,但在復(fù)雜的推理場景下,部分模型(如Claude Opus 4)的致命錯誤率隨難度顯著上升。



結(jié)語:GAPS評測框架是AI醫(yī)生從“Chatbot”到“Doctor”的必經(jīng)之路

GAPS的發(fā)布,標(biāo)志著醫(yī)療AI的評測標(biāo)準(zhǔn)從“考試分?jǐn)?shù)”“臨床勝任力”的范式轉(zhuǎn)移。

螞蟻健康與北大人民醫(yī)院的這項工作告訴行業(yè)——現(xiàn)有的通用大模型在面對復(fù)雜的臨床不確定性時,依然顯得稚嫩且脆弱。

未來的醫(yī)療AI研發(fā),不能止步于預(yù)訓(xùn)練知識的灌輸,而必須轉(zhuǎn)向循證推理(Evidence-grounded Reasoning)、過程決策控制以及不確定性管理

GAPS不僅僅是一個榜單,它更是醫(yī)療AI進化路上的“磨刀石”。只有跨越了GAPS設(shè)定的這四道關(guān)卡,AI醫(yī)生才能真正放心地走進診室。

論文地址:
https://arxiv.org/abs/2510.13734

評測集地址:
https://huggingface.co/datasets/AQ-MedAI/GAPS-NSCLC-preview

自動化評測框架地址:
https://github.com/AQ-MedAI/MedicalAiBenchEval

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不裝了,梅西霸氣發(fā)言引爭議!與C羅對比鮮明,球迷:這才是球王

不裝了,梅西霸氣發(fā)言引爭議!與C羅對比鮮明,球迷:這才是球王

阿泰希特
2026-01-07 09:10:56
博爾特現(xiàn)狀:退役8年生3娃,每年領(lǐng)400萬美元,39歲上樓都能喘氣

博爾特現(xiàn)狀:退役8年生3娃,每年領(lǐng)400萬美元,39歲上樓都能喘氣

削桐作琴
2025-12-25 17:32:09
于曉光做夢沒想到,韓國總統(tǒng)訪華僅3天,46歲秋瓷炫會意外火出圈

于曉光做夢沒想到,韓國總統(tǒng)訪華僅3天,46歲秋瓷炫會意外火出圈

娛說瑜悅
2026-01-06 16:22:54
為什么一部死宅含量爆表的非主流劇,會變成近十年全球最大爆款?

為什么一部死宅含量爆表的非主流劇,會變成近十年全球最大爆款?

BB姬
2026-01-06 22:21:48
場均18.8分!34歲的麥科勒姆,交易價值如何?

場均18.8分!34歲的麥科勒姆,交易價值如何?

籃球?qū)嶄?/span>
2026-01-07 22:56:56
激活雙重免疫抗癌!新型腫瘤疫苗初步臨床證據(jù)積極,或用于治療肺癌、卵巢癌、前列腺癌等

激活雙重免疫抗癌!新型腫瘤疫苗初步臨床證據(jù)積極,或用于治療肺癌、卵巢癌、前列腺癌等

醫(yī)學(xué)新視點
2026-01-06 20:17:35
回旋鏢扎到自己身上才知道疼!網(wǎng)友的經(jīng)歷,爽得我拍案叫絕

回旋鏢扎到自己身上才知道疼!網(wǎng)友的經(jīng)歷,爽得我拍案叫絕

阿康四歲啦
2026-01-07 13:22:39
陪睡陪玩只是冰山一角!萬達蒸發(fā)800億后,王思聰再次傳出大丑聞

陪睡陪玩只是冰山一角!萬達蒸發(fā)800億后,王思聰再次傳出大丑聞

民間平哥
2025-12-25 14:54:58
俄軍事專家:中國很多武器的性能已超過美國,但都有一個共同缺點

俄軍事專家:中國很多武器的性能已超過美國,但都有一個共同缺點

歷史有些冷
2026-01-06 18:00:03
中國殲-35開啟爆兵模式!加速生產(chǎn)的新殲-35有哪些驚喜,“神秘蓋板”是硬管加油裝置?

中國殲-35開啟爆兵模式!加速生產(chǎn)的新殲-35有哪些驚喜,“神秘蓋板”是硬管加油裝置?

軍武速遞
2026-01-07 19:13:47
林良鋒:曼聯(lián)換帥,誰是最蠢的那個?

林良鋒:曼聯(lián)換帥,誰是最蠢的那個?

體壇周報
2026-01-06 18:15:57
演員閆學(xué)晶陷輿論爭議 兒子首發(fā)聲:網(wǎng)上所有的回應(yīng)都不實

演員閆學(xué)晶陷輿論爭議 兒子首發(fā)聲:網(wǎng)上所有的回應(yīng)都不實

紅星新聞
2026-01-06 20:18:24
他們官宣分手!戀情曝光僅24小時!

他們官宣分手!戀情曝光僅24小時!

武漢潮生活
2026-01-07 20:28:47
不是奎因徐杰!廣東險勝最大功臣是他,薩林杰盯著喂,取代胡明軒

不是奎因徐杰!廣東險勝最大功臣是他,薩林杰盯著喂,取代胡明軒

二爺臺球解說
2026-01-07 22:59:37
烏克蘭摧毀俄軍第100號大型彈藥庫!距莫斯科僅三百公里

烏克蘭摧毀俄軍第100號大型彈藥庫!距莫斯科僅三百公里

項鵬飛
2026-01-07 18:29:33
哈登被怒指不負責(zé),雙胞胎姐妹竟雙雙懷孕,輿論瞬間炸翻全網(wǎng)了

哈登被怒指不負責(zé),雙胞胎姐妹竟雙雙懷孕,輿論瞬間炸翻全網(wǎng)了

東方不敗然多多
2026-01-05 14:20:09
美軍突襲委內(nèi)瑞拉逮捕馬杜羅,中國20年前險遭同樣命運

美軍突襲委內(nèi)瑞拉逮捕馬杜羅,中國20年前險遭同樣命運

遍體鱗傷為我證明
2026-01-05 13:06:43
給2025年最好的10部動作片排個名:《匿殺》第7,《捕風(fēng)追影》第2

給2025年最好的10部動作片排個名:《匿殺》第7,《捕風(fēng)追影》第2

皮皮電影
2026-01-04 09:50:59
杜鋒:上半場我們的防守和籃板球都做得不好,心態(tài)出現(xiàn)了一些問題

杜鋒:上半場我們的防守和籃板球都做得不好,心態(tài)出現(xiàn)了一些問題

狼叔評論
2026-01-07 22:26:35
接觸的人多了你會明白如果一個人還在穿5年前的衣服只說明3個問題

接觸的人多了你會明白如果一個人還在穿5年前的衣服只說明3個問題

深度報
2026-01-05 22:52:09
2026-01-08 00:11:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11983文章數(shù) 176356關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會:揭秘新款大殺器

頭條要聞

委向美移交5000萬桶原油有部分原本銷往中國 中方回應(yīng)

頭條要聞

委向美移交5000萬桶原油有部分原本銷往中國 中方回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

時尚
游戲
數(shù)碼
旅游
本地

李夢系穿搭,就這么養(yǎng)成了

這女婿也太會了!岳父是游戲搭子 手搓雕像送禮

數(shù)碼要聞

三星SSD管理軟件曝高危漏洞

旅游要聞

云南迪慶梅里雪山,日照金山最佳觀看時間5個月:錯過就等一年

本地新聞

“閩東利劍·惠民安商”高效執(zhí)行專項行動

無障礙瀏覽 進入關(guān)懷版