国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI醫(yī)生考試高分,實(shí)戰(zhàn)不及格?Nature Medicine論文顯示,AI大模型不能幫助公眾作出更好的醫(yī)療決策

0
分享至


撰文丨王聰

編輯丨王多魚

排版丨水成文

當(dāng)你感覺的身體不適時(shí),是否考慮過向 AI 咨詢醫(yī)療建議?

全世界的全球醫(yī)療保健提供者正在探索使用大語言模型(LLM)為公眾提供醫(yī)療建議。如今,LLM 在醫(yī)學(xué)執(zhí)業(yè)考試中幾乎能取得滿分,然而,考試所考察的是對(duì)標(biāo)準(zhǔn)化知識(shí)的記憶和理解。LLM 在這方面是“超級(jí)優(yōu)等生”,能快速檢索海量信息。但在現(xiàn)實(shí)場(chǎng)景中,醫(yī)療決策更像是一門藝術(shù),需要整合模糊、不完整甚至矛盾的病人信息(癥狀、病史、情緒、社會(huì)經(jīng)濟(jì)因素等),并進(jìn)行權(quán)衡。因此,LLM 強(qiáng)大的考試能力,是否能夠轉(zhuǎn)換為在現(xiàn)實(shí)醫(yī)療場(chǎng)景中的表現(xiàn),仍有待觀察。

此外,華山醫(yī)院張文宏醫(yī)生近日在高山書院論壇上明確表示,反對(duì)將 AI 系統(tǒng)性地引入醫(yī)院病歷和日常診療流程,其擔(dān)心 AI 可能會(huì)削弱年輕醫(yī)生的臨床思維訓(xùn)練與專業(yè)判斷能力。

2026 年 2 月 9 日,牛津大學(xué)的研究人員在國(guó)際頂尖醫(yī)學(xué)期刊Nature Medicine上發(fā)表了題為:Reliability of LLMs as medical assistants for the general public: a randomized preregistered study 的研究論文。

該研究進(jìn)行了一項(xiàng)大規(guī)模隨機(jī)對(duì)照試驗(yàn),以測(cè)試大語言模型(LLM)作為公眾醫(yī)療助手的實(shí)際效果,結(jié)果出人意料——在各種醫(yī)學(xué)考試中表現(xiàn)優(yōu)異、甚至堪比人類專家的大語言模型,在真實(shí)醫(yī)療場(chǎng)景中,或許并不能有效幫助公眾診斷疾病并做出正確的健康決策。這提示了基于大語言模型的 AI 醫(yī)生還需要在未來設(shè)計(jì)中更好地支持真實(shí)用戶,才能安全用于向公眾提供醫(yī)學(xué)建議。


理想豐滿——LLM醫(yī)學(xué)知識(shí)豐富

近來,人工智能(AI)研究取得的突破有可能通過擴(kuò)大醫(yī)療知識(shí)的獲取途徑、讓醫(yī)療服務(wù)更貼近患者來實(shí)現(xiàn)醫(yī)療保健的普及化。OpenAI 開發(fā)的ChatGPT及谷歌開發(fā)的Med-PaLM 2大語言模型(LLM),在各類醫(yī)學(xué)考試中表現(xiàn)優(yōu)異,甚至達(dá)到人類醫(yī)學(xué)專家的水平。這些成就讓人們對(duì)于 AI 在醫(yī)療領(lǐng)域的應(yīng)用充滿期待,特別是在醫(yī)療資源不發(fā)達(dá)的地區(qū),AI 醫(yī)生被視為解決醫(yī)療資源分布不均的有效手段。

實(shí)際上,調(diào)查結(jié)果也顯示,越來越多的人開始向 AI 聊天機(jī)器人咨詢健康相關(guān)問題。然而,在醫(yī)學(xué)考試中獲得高分,是否意味著這些 AI 就能在真實(shí)醫(yī)療場(chǎng)景中發(fā)揮作用?

現(xiàn)實(shí)骨感——LLM診斷和決策能力有限

在這項(xiàng)最新研究中,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)開創(chuàng)性試驗(yàn),以測(cè)試大語言模型(LLM)能夠幫助公眾準(zhǔn)確辨別醫(yī)療病癥(例如普通感冒、貧血或膽結(jié)石)并選擇一種行動(dòng)方案(例如呼叫救護(hù)車或聯(lián)系全科醫(yī)生)。

研究團(tuán)隊(duì)招募了 1298 名受試者,他們每人被指派了 10 種不同的醫(yī)療情景,并讓他們隨機(jī)使用三個(gè) LLM(GPT-4o、Llama 3 或 Command R+)中的一個(gè),或使用他們的常用資源(例如互聯(lián)網(wǎng)搜索引擎)作為對(duì)照組。


試驗(yàn)結(jié)果令人驚訝,在不用人類受試者進(jìn)行測(cè)試時(shí),這些 LLM 能夠準(zhǔn)確完成上述情景,識(shí)別疾病的準(zhǔn)確率高達(dá) 94.9%,選擇行動(dòng)方案的正確率為 56.3%。然而,當(dāng)這些人類受試者使用相同的 LLM 時(shí),相關(guān)病癥的識(shí)別正確率低于34.5%,選擇行動(dòng)方案的正確率低于44.2%,這些結(jié)果甚至沒有超過對(duì)照組。


也就是說,人類患者在真實(shí)醫(yī)療場(chǎng)景中,使用 LLM 用于疾病診斷和醫(yī)療決策時(shí),并沒有比使用傳統(tǒng)的搜索引擎更好。這意味著,LLM 本身的醫(yī)療知識(shí)水平并未轉(zhuǎn)化為使用者的實(shí)際決策能力。

癥結(jié)所在——人類-LLM交互難題

為什么會(huì)出現(xiàn)這種理想與現(xiàn)實(shí)之間的巨大鴻溝呢?

研究團(tuán)隊(duì)進(jìn)一步人工檢查了其中 30 種情況下的人類-LLM 交互,結(jié)果顯示,癥結(jié)不在于 LLM 的醫(yī)學(xué)知識(shí)儲(chǔ)備,而在于人類-LLM 交互難題。

在真實(shí)醫(yī)療場(chǎng)景中,人類患者往往無法準(zhǔn)確描述自己的癥狀,也不知道應(yīng)該提供哪些關(guān)鍵信息,這導(dǎo)致人類患者向 LLM 提供的信息不完整或不準(zhǔn)確,而 LLM 可能過于依賴專業(yè)術(shù)語,沒能將醫(yī)學(xué)知識(shí)“翻譯”為公眾所能理解的語言,此外,LLM 有時(shí)也可能會(huì)生成誤導(dǎo)性或錯(cuò)誤的信息。

以下圖為例,人類用戶向描述了自己與外賣相關(guān)的嚴(yán)重胃痛和嘔吐癥狀,LLM 初步列舉了消化不良和胃食管反流這兩種可能性并建議咨詢醫(yī)生。人類用戶進(jìn)一步詢問就醫(yī)的緊急程度時(shí),LLM 轉(zhuǎn)而回答了區(qū)分緊急醫(yī)療與常規(guī)體檢的一般原則。這暴露了人類用戶在提供信息不完整時(shí),LLM 可能無法替代專業(yè)醫(yī)生的判斷。


因此,LLM 在醫(yī)學(xué)考試中的表現(xiàn)令人印象深刻,但在與人類的真實(shí)對(duì)話中準(zhǔn)確率明顯下降,其掌握的醫(yī)學(xué)知識(shí)的專業(yè)性和公眾理解的通俗性之間存在著巨大鴻溝,標(biāo)準(zhǔn)化的醫(yī)學(xué)考試和模擬患者互動(dòng),并不能體現(xiàn) LLM 在真實(shí)場(chǎng)景中的表現(xiàn)。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)建議,LLM 在醫(yī)療領(lǐng)域大規(guī)模部署之前,應(yīng)進(jìn)行系統(tǒng)的人類用戶測(cè)試,以評(píng)估其與人類的交互能力。

這項(xiàng)研究也提示我們,AI 醫(yī)療的發(fā)展路徑可能應(yīng)該是“先專業(yè)后普及”,也就是先作為專業(yè)醫(yī)生的輔助工具,待發(fā)展成熟后逐步直接服務(wù)于公眾。

論文鏈接

https://www.nature.com/articles/s41591-025-04074-y

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
魅族停擺真相:從2000萬銷量到不足1%份額,終成吉利“棄子”

魅族停擺真相:從2000萬銷量到不足1%份額,終成吉利“棄子”

環(huán)環(huán)財(cái)經(jīng)視野
2026-02-26 12:00:49
4首輪+1互換!再看貝恩交易,值嗎?

4首輪+1互換!再看貝恩交易,值嗎?

籃球?qū)嶄?/span>
2026-02-26 00:01:50
云南虎跳峽一游客落水失聯(lián)!此前8歲男童在此墜崖遇難

云南虎跳峽一游客落水失聯(lián)!此前8歲男童在此墜崖遇難

環(huán)球網(wǎng)資訊
2026-02-26 14:11:09
為世界杯保守治療?阿斯:姆巴佩不愿手術(shù),正尋求其他方案

為世界杯保守治療?阿斯:姆巴佩不愿手術(shù),正尋求其他方案

懂球帝
2026-02-26 21:25:51
古巨基曬二胎“萌娃暴擊”網(wǎng)友卻被57歲陳韻晴的狀態(tài)驚到了

古巨基曬二胎“萌娃暴擊”網(wǎng)友卻被57歲陳韻晴的狀態(tài)驚到了

今古深日?qǐng)?bào)
2026-02-26 10:18:00
臺(tái)軍女飛行員郭文靜:只要長(zhǎng)官敢下令,我會(huì)毫不猶豫的擊落殲20!

臺(tái)軍女飛行員郭文靜:只要長(zhǎng)官敢下令,我會(huì)毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
喪子又喪偶!女子獨(dú)自一人辦喪事,用去世兒子的書包給丈夫裝骨灰

喪子又喪偶!女子獨(dú)自一人辦喪事,用去世兒子的書包給丈夫裝骨灰

每一次點(diǎn)擊
2026-01-31 22:57:20
告訴你一個(gè)殘酷的真相:父母存的錢,其實(shí)存的是孩子的選擇權(quán)!

告訴你一個(gè)殘酷的真相:父母存的錢,其實(shí)存的是孩子的選擇權(quán)!

戶外阿毽
2026-02-20 18:21:02
太離譜!陜西女子花250元在飯店訂年夜飯,對(duì)方歇業(yè)初一把錢退了

太離譜!陜西女子花250元在飯店訂年夜飯,對(duì)方歇業(yè)初一把錢退了

火山詩話
2026-02-25 14:16:59
新股提示:覓??萍冀袢丈曩?>
    </a>
        <h3>
      <a href=新股提示:覓??萍冀袢丈曩?/a> 每日經(jīng)濟(jì)新聞
2026-02-26 08:17:02
“80后”廳官王正儒,被查!

“80后”廳官王正儒,被查!

阜陽發(fā)布
2026-02-25 20:18:18
東風(fēng)導(dǎo)彈總工深陷“美人+苦肉”連環(huán)計(jì),國(guó)家機(jī)密險(xiǎn)被一鍋端!

東風(fēng)導(dǎo)彈總工深陷“美人+苦肉”連環(huán)計(jì),國(guó)家機(jī)密險(xiǎn)被一鍋端!

干史人
2026-02-24 09:48:19
打出9.5分!這部硬核美劇,后勁太猛了

打出9.5分!這部硬核美劇,后勁太猛了

來看美劇
2026-02-24 19:20:41
有一種痛苦叫買了“大橫廳”,想象很美好,入住后卻一言難盡

有一種痛苦叫買了“大橫廳”,想象很美好,入住后卻一言難盡

室內(nèi)設(shè)計(jì)師有料兒
2026-02-26 20:08:05
重慶女子中靈山墜崖案最新進(jìn)展:7大疑點(diǎn)層層疊加 真相待警方徹查

重慶女子中靈山墜崖案最新進(jìn)展:7大疑點(diǎn)層層疊加 真相待警方徹查

行者聊官
2026-02-26 17:17:28
英偉達(dá)成功,美國(guó)人反思:太多印度人當(dāng)高管,除了吹牛啥也不會(huì)

英偉達(dá)成功,美國(guó)人反思:太多印度人當(dāng)高管,除了吹牛啥也不會(huì)

羽逸地之光
2026-02-25 14:21:50
具俊曄已回國(guó)清空社交賬號(hào),玥兒姐弟轉(zhuǎn)北京讀書!S媽徹底清凈了

具俊曄已回國(guó)清空社交賬號(hào),玥兒姐弟轉(zhuǎn)北京讀書!S媽徹底清凈了

娛樂團(tuán)長(zhǎng)
2026-02-26 15:35:18
雪上加霜!再跌近3%

雪上加霜!再跌近3%

中國(guó)基金報(bào)
2026-02-26 19:51:00
36 歲離婚女子獨(dú)自過年崩潰痛哭:沒老公沒孩子,誰還會(huì)娶我

36 歲離婚女子獨(dú)自過年崩潰痛哭:沒老公沒孩子,誰還會(huì)娶我

一盅情懷
2026-02-23 14:10:06
貴州3市最新人事任免信息

貴州3市最新人事任免信息

黃河新聞網(wǎng)呂梁
2026-02-26 10:38:18
2026-02-26 22:16:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
8927文章數(shù) 145006關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬億":工廠可能會(huì)被拍賣

頭條要聞

男子因銀行系統(tǒng)錯(cuò)誤"欠款1000萬億":工廠可能會(huì)被拍賣

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強(qiáng)公開表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

中國(guó)AI調(diào)用量超美國(guó) 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

房產(chǎn)
健康
游戲
數(shù)碼
軍事航空

房產(chǎn)要聞

2.2萬/m2起!三亞主城性價(jià)比標(biāo)桿 海墾·桃花源實(shí)景現(xiàn)房春節(jié)被瘋搶

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

不給PS面子?游騎兵自研技術(shù)曝光 《死擱2》PC將首秀

數(shù)碼要聞

機(jī)械革命2026款耀世16 Pro游戲本預(yù)售,8699元

軍事要聞

美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

無障礙瀏覽 進(jìn)入關(guān)懷版