国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

AI診斷真實病例準確率超醫(yī)生,哈佛稱醫(yī)學評估標準或應重新改寫

0
分享至



隨著能力的提升,AI 在某個醫(yī)療基準數據集上獲得 SOTA 已不足為奇。但現(xiàn)在,研究人員證明 AI 在真實病例場景下表現(xiàn)出與醫(yī)生相當或更高的準確率。這意味著,AI 不是在訓練過的場景下背誦標準答案,而是在臨床實戰(zhàn)中給出診斷推理。

近日,哈佛醫(yī)學院、斯坦福大學等研究團隊在 Science 發(fā)布了一項迄今最大規(guī)模 AI 醫(yī)療對比研究[1],并首次用真實的患者病歷來檢驗 AI 的推理能力,真實場景意味著可能存在病歷混亂、信息不全的情況。

研究人員讓 OpenAI 的 o1 模型與幾百名醫(yī)生在六種不同場景中進行診斷 比對。結果表明,AI 在多項臨床推理任務中的準確率與醫(yī)生持平甚至更高,包括急診決策、診斷以及為患者制定下一步的治療方案。

該研究結果預示著一個重要的轉折點:隨著模型能力越來越強,傳統(tǒng)的醫(yī)學評估基準和人工設計的測試案例可能正面臨失效。“過去可用多項選擇題來評估模型的能力,現(xiàn)在它們的得分已長期接近 100%,對于進一步追蹤進展并無太大意義?!痹撜撐墓餐谝蛔髡?、哈佛醫(yī)學院研究員 Peter Brodeur 說。

研究人員強調,AI 或許能給出更準確的的文本建議、避免一些不必要的檢查,以及減少漏診和誤診,但并不意味著 AI 已經能夠獨立行醫(yī),特別是在生死悠關的急診情景。并且,醫(yī)生在處理影像、聽診、面部表情等方面具有不可替代的優(yōu)勢。研究團隊還呼吁,需盡早開展前瞻性試驗,以在真實的患者護理環(huán)境中評估相關技術。


圖丨相關論文(來源:Science)

研究團隊設計了不同方面的實驗,來考察 AI 的臨床推理能力。在第一組實驗中,研究人員使用了 The New England Journal of Medicine(NEJM)自 20 世紀 50 年代開始作為“金牌標準”的臨床病理會議病例。

在 2012 年至 2024 年期間的 143 個臨床病例中,o1-preview 覆蓋了 78.3% 的正確病因,其給出的首個診斷即是正確答案的比例占 52%。如果將“非常接近”的診斷也看作正確答案,該比例則進一步提升至 97.9%。

研究人員還將 GPT-4 與 o1-preview 進行了性能對比。結果顯示,GPT-4 在同一批病例上的準確率是 72.9%,而 o1-preview 在 70 個重疊病例中,24.3% 的病例表現(xiàn)優(yōu)于 GPT-4,僅 7.1% 的病例表現(xiàn)落后。

值得關注的是,在 136 例診斷檢查選擇測試中,o1-preview 選擇檢查項目的正確率是 87.5%。評審醫(yī)生認為,AI 提出的檢查建議中有 11% 具備臨床價值,僅 1.5% 的建議無幫助。


(來源:Science)

在臨床推理的書寫質量評估中,差距進一步凸顯。研究團隊采用 20 個來自 NEJM Healer 課程的教學病例,該項能力采用經過驗證的 R-IDEA 量表評分。

o1-preview 在 80 次評分中 78 次獲得滿分,與之對比的是,GPT-4 僅獲得 47 次滿分,而主治醫(yī)師和住院醫(yī)師得到滿分的次數分別是 28 次和 16 次。在高風險誤診項識別上,o1-preview 的中位命中率是 92%。但需要了解的是,盡管其在數值上比人類更高,但與醫(yī)生并未達到統(tǒng)計學顯著差異的水平。


(來源:Science)

管理決策能力的測試結果同樣值得關注。研究團隊使用了五個基于真實病例開發(fā)的臨床場景,并在每個場景下設置了一系列治療決策問題。結果顯示,o1-preview 的中位得分是 89%,GPT-4 為 42%,將 GPT-4 作為輔助工具的醫(yī)生則獲得 41% 的中位得分,而使用傳統(tǒng)資源制定方案的醫(yī)生得分僅 34%。

圖丨 o1-preview、GPT-4 與臨床醫(yī)師在診斷推理能力方面的比較(來源:Science)



此外,為防止模型“刷題”,研究人員還使用了 6 個從未公開發(fā)布的標志性診斷病例進行實驗。結果發(fā)現(xiàn),盡管 o1-preview 獲得了 97% 的中位得分,但與 GPT-4 的 92% 以及人類醫(yī)師的 74% 相比,統(tǒng)計學的優(yōu)勢并不顯著。這也從側面上說明,大模型能力的提升并非在所有任務上都保持同一幅度。

在最接近真實臨床環(huán)境實驗中,研究人員以波士頓一家醫(yī)院急診室的 76 名患者作為研究對象,并設置了三個臨床決策節(jié)點從早期分診、接診后以及決定收入病房。

標準電子病歷涵蓋了生命體征數據、人口統(tǒng)計信息以及對患者就診原因的簡要描述等信息。與此前研究不同,研究人員提供給模型的信息未進行預處理,而是直接來源于真實的電子病歷。模型基于這些數據,生成相關診斷結果,并提出下一步治療建議。

結果顯示,在分診階段醫(yī)生的正確率僅 50% 至 55%,而 AI 在 67% 的病例中做出了接近醫(yī)生或更準確的診斷。研究人員發(fā)現(xiàn),在需要快速決策且信息有限的緊急情況下,AI 的優(yōu)勢更加突出。當提供更多細節(jié)信息,人類專家的準確率提升至 70% 至 79%;而 OpenAI 的 o1 模型的診斷準確率則提升至近 82%。

值得一提的是,整個實驗的過程采取的是嚴格的盲法設計,兩位評審醫(yī)生在判斷答案來源是人還是 AI 時,猜對的比例分別僅 15.2% 和 3.1%,大多數情況下他們無法區(qū)分回答是來自 AI 還是人類。


(來源:Science)

需要了解的是,急診室的核心決策通常是分診、處理和即時管理,而非僅取決于診斷的正確性。因此,這項研究并不意味著 AI 將全面替代急診醫(yī)生。

此外,這項研究仍存在局限性,例如實驗中僅測試了 AI 與人類在解讀可通過文本傳遞的患者數據方面的表現(xiàn),并未測試患者痛苦程度和外貌等信號方面的解讀能力。與此同時,研究所覆蓋的臨床推理場景也有限,病例主要集中在內科和急診領域,未來仍需進一步驗證在外科、??频雀鼜V泛領域的適用性。

今年 3 月,美國醫(yī)學協(xié)會發(fā)布的一項研究顯示 [2],現(xiàn)在已有近 20% 的美國醫(yī)生正在使用 AI 作為輔助診斷的工具。在英國,16% 的醫(yī)生每天使用 AI。據英國皇家內科醫(yī)師學會今年 1 月發(fā)布的一項調查 [3],在臨床決策中醫(yī)生將 AI 作為輔助診斷是最常見的一種用途。

盡管 AI 在相關方面表現(xiàn)出色,但 AI 并不是萬能的。不容忽視的是,一方面,AI 有可能帶來出錯和承擔責任風險。另一方面,也需要警惕的是,醫(yī)生可能在無意中接受了 AI 給出的建議,而非自己的獨立思考。此外,AI 在診斷老年患者或非英語母語患者方面仍存在相關挑戰(zhàn)。

因此,綜合來看,當前 AI 的核心角色仍然是輔助醫(yī)生決策而非獨立診療,它可以幫助整合海量文獻、指南與歷史病例,在信息處理的速度與廣度方面具有獨特優(yōu)勢,有利于快速給出醫(yī)生容易遺漏的重要信息或輔助判斷。但是,在非結構化臨床情境的感知、倫理權衡及醫(yī)患共情等場景下,醫(yī)生具有不可替代的作用。

因此,人機協(xié)同或是一種理想的模式:AI 提供精準、實時的數據支持,而醫(yī)生則把握整體判斷與人文溫度。未來,更重要的或許不是比較人和 AI 誰的能力更強,而是誰先學會與機器高效協(xié)作。

參考資料:

1. 相關論文:https://www.science.org/doi/10.1126/science.adz4433

2.https://www.ama-assn.org/system/files/physician-ai-sentiment-report.pdf

3.https://www.rcp.ac.uk/policy-and-campaigns/policy-documents/snapshot-of-uk-physicians-artificial-intelligence-in-healthcare/

4.https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing

5.https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses

排版:劉雅坤

注:封面/首圖由 AI 輔助生成

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小時候顏值爆表,長大后其貌不揚,這些星二代怎么突然“長殘”了

小時候顏值爆表,長大后其貌不揚,這些星二代怎么突然“長殘”了

農村黃煮任
2026-05-04 20:29:50
鐵娘子倒了,權力大到沒人敢查,她到底動了誰的奶酪?

鐵娘子倒了,權力大到沒人敢查,她到底動了誰的奶酪?

小鹿姐姐情感說
2026-05-04 13:53:49
加盟廣東隊?CBA最強外教打出身價,有望成下一任男籃國家隊主帥

加盟廣東隊?CBA最強外教打出身價,有望成下一任男籃國家隊主帥

緋雨兒
2026-05-04 14:40:56
富甲一方,刻意降標!金甬鐵路 160 時速,戳穿浙江基建的底層邏輯

富甲一方,刻意降標!金甬鐵路 160 時速,戳穿浙江基建的底層邏輯

金哥說新能源車
2026-05-03 11:59:32
季麟連事件新進展,臺媒發(fā)出六連問,侯友宜無地自容!傅崐萁出手

季麟連事件新進展,臺媒發(fā)出六連問,侯友宜無地自容!傅崐萁出手

蘭妮搞笑分享
2026-05-04 19:56:59
越扒越有!工程師徐澤偉歐洲度假被抓,被疑自投羅網,網友吵翻天

越扒越有!工程師徐澤偉歐洲度假被抓,被疑自投羅網,網友吵翻天

番外行
2026-05-04 14:45:35
海南一佳人太漂亮 啦!身高173cm ,體重56公斤, 五官精致到無懈可擊

海南一佳人太漂亮 啦!身高173cm ,體重56公斤, 五官精致到無懈可擊

小椰的奶奶
2026-05-03 20:40:26
什么事讓你知道好言難勸該死的鬼?全族都沒攔住,父子倆終身殘疾

什么事讓你知道好言難勸該死的鬼?全族都沒攔住,父子倆終身殘疾

夜深愛雜談
2026-05-01 10:49:01
3-0完勝東南亞勁旅,中國女足迎亞洲杯2連勝,提前一輪晉級8強

3-0完勝東南亞勁旅,中國女足迎亞洲杯2連勝,提前一輪晉級8強

側身凌空斬
2026-05-04 21:23:08
米切爾取代杜鋒?廣東隊打滿3場狂賺1500萬,教練組大洗牌成定局

米切爾取代杜鋒?廣東隊打滿3場狂賺1500萬,教練組大洗牌成定局

緋雨兒
2026-05-04 14:55:06
五一,撒貝寧丈母娘全家來武漢,跨國界家庭大團聚,李白在旁翻譯

五一,撒貝寧丈母娘全家來武漢,跨國界家庭大團聚,李白在旁翻譯

天馬幸福的人生
2026-05-03 23:23:48
有一種超快順產叫“高速生孩子”,生娃比大便快,醫(yī)生:五大危害

有一種超快順產叫“高速生孩子”,生娃比大便快,醫(yī)生:五大危害

菁媽育兒
2026-05-04 17:18:29
已致8人亡!丹東發(fā)生一起交通事故!原因調查中!假期返程安全為要

已致8人亡!丹東發(fā)生一起交通事故!原因調查中!假期返程安全為要

聲情專遞
2026-05-04 18:08:46
賴昌星的情人蔡玲玲:悔不該委身于他,58歲的她現(xiàn)狀如何?

賴昌星的情人蔡玲玲:悔不該委身于他,58歲的她現(xiàn)狀如何?

細品名人
2026-04-29 07:06:35
消化科主任:胃癌最危險信號,不是胃疼,而是頻繁出現(xiàn)這4種異常

消化科主任:胃癌最危險信號,不是胃疼,而是頻繁出現(xiàn)這4種異常

路醫(yī)生健康科普
2026-05-04 16:45:03
你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

混沌錄
2026-04-22 20:55:37
警告三次不如動真格一次!中國下達逐客令,巴拿馬的反應出乎意料

警告三次不如動真格一次!中國下達逐客令,巴拿馬的反應出乎意料

共工之錨
2026-04-19 00:10:58
徐昕將赴美試訓,北京男籃球迷希望換外籍裁判,山西青島被處罰

徐昕將赴美試訓,北京男籃球迷希望換外籍裁判,山西青島被處罰

中國籃壇快訊
2026-05-04 20:14:44
豆包開始收費,騰訊和阿里估計要樂開花了吧

豆包開始收費,騰訊和阿里估計要樂開花了吧

開柒
2026-05-04 16:06:42
融捷股份王炸開局

融捷股份王炸開局

富凱財經
2026-05-04 20:15:35
2026-05-04 23:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16658文章數 514915關注度
往期回顧 全部

科技要聞

在中國市場搞「付費訂閱」,豆包咋想的?

頭條要聞

上科大39歲博導王晨輝為救孩子去世 同學發(fā)聲

頭條要聞

上科大39歲博導王晨輝為救孩子去世 同學發(fā)聲

體育要聞

騎士破猛龍:加雷特·阿倫的活力

娛樂要聞

張敬軒還是站上了英皇25周年舞臺

財經要聞

魔幻的韓國股市,父母給嬰兒開戶買股票

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

健康
手機
房產
公開課
軍事航空

干細胞治燒燙傷面臨這些“瓶頸”

手機要聞

REDMI K100會漲價?后續(xù)新機曝光

房產要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普回絕伊朗新方案

無障礙瀏覽 進入關懷版