国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

考試滿分,實(shí)戰(zhàn)卻“翻車”!《自然·醫(yī)學(xué)》刊文:AI醫(yī)療助手為何難以應(yīng)用?

0
分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條

作者:王躍然

身體不適時(shí),你首先會怎么做?

越來越多的人開始習(xí)慣向以 ChatGPT 為代表的 AI 助手尋求初步的健康分析與建議。這一趨勢背后存在切實(shí)依據(jù):當(dāng)前大語言模型(LLM)在醫(yī)學(xué)知識測評中「得分越來越高」,甚至能夠在專業(yè)醫(yī)師執(zhí)照考試中達(dá)到或超越合格水平。

然而,一項(xiàng)來自牛津大學(xué)研究團(tuán)隊(duì)及其合作者的最新研究,卻在《自然·醫(yī)學(xué)》(

Nature Medicine
)上給出了警示性的答案。


論文鏈接:https://www.nature.com/articles/s41591-025-04074-y

研究發(fā)現(xiàn),盡管 LLM 在標(biāo)準(zhǔn)化醫(yī)學(xué)測試中表現(xiàn)優(yōu)異,但在實(shí)際與公眾交互的應(yīng)用場景里,其輔助效果卻大幅衰減,不僅未能顯著提升普通人的醫(yī)療決策質(zhì)量,甚至不如傳統(tǒng)搜索引擎的效用。這一發(fā)現(xiàn)對當(dāng)前 AI 醫(yī)療應(yīng)用的有效性評估與系統(tǒng)設(shè)計(jì)提出了根本性的質(zhì)疑。

醫(yī)療大模型在理論與應(yīng)用的落差

為檢驗(yàn) LLM 在真實(shí)場景中的輔助能力,研究團(tuán)隊(duì)設(shè)計(jì)了一項(xiàng)嚴(yán)謹(jǐn)?shù)膶φ諏?shí)驗(yàn)。他們招募了 1298 名英國公眾作為參與者,要求每個(gè)人針對由醫(yī)生精心編寫的 10 個(gè)不同醫(yī)療場景,完成兩項(xiàng)核心任務(wù):判斷病情嚴(yán)重程度,并選擇下一步應(yīng)采取的行動。


圖|三位醫(yī)生起草了十個(gè)醫(yī)療情景,通過反復(fù)修訂直至就最佳處置方案達(dá)成五分制共識(從自我護(hù)理到救護(hù)車)。

參與者被隨機(jī)分為四組:三個(gè)實(shí)驗(yàn)組分別使用 GPT-4o、Llama 3 或 Command R+ 作為對話助手,通過聊天界面咨詢以幫助決策;一個(gè)對照組被要求使用他們通常在家庭環(huán)境中會采用的任何方法,如使用搜索引擎、查閱網(wǎng)站或依靠個(gè)人經(jīng)驗(yàn)。


圖|研究團(tuán)隊(duì)招募了 1298 名參與者,并隨機(jī)分配至四種實(shí)驗(yàn)條件之一。每位參與者被隨機(jī)分配到十個(gè)醫(yī)療場景中的一個(gè)。治療組需與 LLM 對話以協(xié)助評估場景。對照組可自由使用任何方法,多數(shù)參與者采用網(wǎng)絡(luò)搜索或自身知識。

實(shí)驗(yàn)結(jié)果揭示了令人驚訝的差距:

當(dāng)研究團(tuán)隊(duì)將完整的場景描述直接輸入 LLM,并要求其做出診斷和處置建議時(shí),模型展現(xiàn)了強(qiáng)大的知識儲備。平均能正確識別出相關(guān)病癥的比例可達(dá)到 94.9%,對最佳處置方案的建議正確率也達(dá)到 56.3%,遠(yuǎn)高于隨機(jī)猜測水平。

然而,當(dāng)同樣的模型交到普通參與者手中,用于輔助其決策時(shí),效果卻急轉(zhuǎn)直下。使用 LLM 的參與者,能夠識別出至少一個(gè)相關(guān)病癥的比例驟降至不足 34.5%,選擇正確處置方案的比例也低于 44.2%。更關(guān)鍵的是,他們的表現(xiàn)與使用搜索引擎的對照組相比,在統(tǒng)計(jì)上并無顯著優(yōu)勢,甚至在識別關(guān)鍵病癥方面表現(xiàn)更差。


圖|LLM 單獨(dú)使用與用戶協(xié)作的性能對比。a)當(dāng)直接要求 LLM 單獨(dú)完成各項(xiàng)任務(wù)時(shí)的表現(xiàn),上圖:LLM 識別相關(guān)條件的響應(yīng)比例,下圖:LLM 正確識別最佳處置方案的響應(yīng)比例;b)參與者在四種實(shí)驗(yàn)條件下的表現(xiàn),上圖:參與者識別相關(guān)條件的響應(yīng)比例,下圖:參與者正確識別最佳處置方案的響應(yīng)比例。

人機(jī)交互為何失效?

研究通過對交互記錄的深度分析,揭示了阻礙 AI 成為可靠醫(yī)療助手的核心癥結(jié)。

在真實(shí)的醫(yī)療場景中,醫(yī)生會通過專業(yè)問診主動引導(dǎo),提取關(guān)鍵信息。但在人機(jī)對話中,這一過程出現(xiàn)了雙重失靈:缺乏醫(yī)學(xué)常識的普通人,往往不知道哪些癥狀是診斷的關(guān)鍵;而目前的 LLM 大多缺乏主動、系統(tǒng)性的問診能力,當(dāng)用戶提供的信息不完整時(shí),AI 往往基于有限的信息給出推測,便可能導(dǎo)致誤判。

AI 的回答方式也給用戶制造了巨大的認(rèn)知障礙。研究數(shù)據(jù)顯示,LLM 在對話中平均會給出 2.21 種可能的疾病建議。對于沒有醫(yī)學(xué)背景的普通人來說,面對 AI 拋出的一系列專業(yè)名詞,他們很難分辨其中的輕重緩急。同時(shí),AI 常常將正確回答與誤導(dǎo)性信息混雜在一起,用戶在篩選信息時(shí)往往力不從心,極易誤判病情。

更重要的是,目前的AI 安全測試存在嚴(yán)重局限。像 MedQA 這類基于醫(yī)學(xué)考題的測試,雖然能檢驗(yàn)知識存儲,但其成績與模型在真實(shí)人機(jī)交互中的表現(xiàn)幾乎無關(guān)。采用另一個(gè) AI 來模擬患者進(jìn)行測試,雖然結(jié)果看起來更優(yōu),但其行為模式無法反映真實(shí)人類用戶的巨大變異性與復(fù)雜性。模擬測試的結(jié)果與真人實(shí)驗(yàn)結(jié)果相關(guān)性極弱,無法作為可靠的安全預(yù)篩。


圖|模型基準(zhǔn)測試。

研究啟示與未來展望

這項(xiàng)研究不僅揭示了當(dāng)前 LLM 在醫(yī)療應(yīng)用中的短板,更為未來的 AI 醫(yī)療發(fā)展指明了方向。

研究有力地證明,LLM 在醫(yī)學(xué)考試中獲得高分,絕不意味著它們能在現(xiàn)實(shí)世界中成為合格的助手。單純依賴現(xiàn)有的基準(zhǔn)測試來評估 AI 的安全性是遠(yuǎn)遠(yuǎn)不夠的,真實(shí)且多樣化的用戶測試在部署前必不可少。

要解決當(dāng)前的“人機(jī)協(xié)作”困境,不能僅靠擴(kuò)充模型的知識庫,未來的開發(fā)重點(diǎn)必須轉(zhuǎn)向提升 AI 的主動交互能力,像醫(yī)生一樣學(xué)會問診,主動收集關(guān)鍵信息,并以更易理解的方式呈現(xiàn)建議,降低非專業(yè)用戶的使用門檻。

對于公眾而言,必須清醒地認(rèn)識到 LLM 目前的局限性。雖然它們能提供看似合理的建議,但在識別病情嚴(yán)重程度、判斷何時(shí)需要緊急救治方面,AI 依然存在風(fēng)險(xiǎn),過度依賴 AI 可能會延誤治療。

展望未來,監(jiān)管機(jī)構(gòu)可借鑒此項(xiàng)研究的方法,建立以真實(shí)用戶交互效果為核心的新型評估框架。對于旨在提供醫(yī)療建議的 AI 系統(tǒng),應(yīng)要求其提供基于廣泛、多樣人群的實(shí)證有效性證據(jù)。LLMs 的理想角色應(yīng)是提升健康素養(yǎng)的輔助工具,而非做出最終診斷的決策主體。任何情況下,對于急重癥狀,最安全的行動方案始終是直接聯(lián)系專業(yè)醫(yī)療人員或急救服務(wù)。

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
決戰(zhàn)時(shí)刻:美軍增兵一萬即將抵達(dá),伊朗公布海底光纜圖!

決戰(zhàn)時(shí)刻:美軍增兵一萬即將抵達(dá),伊朗公布海底光纜圖!

勝研集
2026-04-23 14:26:39
不打了!退出G3和G4!雷霆遭遇最大危機(jī)

不打了!退出G3和G4!雷霆遭遇最大危機(jī)

籃球教學(xué)論壇
2026-04-23 17:14:19
一雞爆火,老板直接累癱了

一雞爆火,老板直接累癱了

南風(fēng)窗
2026-04-23 16:11:15
最新公布:韓國兩戰(zhàn)機(jī)“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

最新公布:韓國兩戰(zhàn)機(jī)“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

環(huán)球時(shí)報(bào)國際
2026-04-23 20:42:17
我在日本生活了15年,娶過三任妻子,日本女人大多數(shù)都很物質(zhì)

我在日本生活了15年,娶過三任妻子,日本女人大多數(shù)都很物質(zhì)

千秋文化
2026-04-22 20:21:49
鴻蒙智行發(fā)布會被質(zhì)疑出意外,僅尚界新車最后停留在舞臺上沒有移動,“尚界Z7 趴窩”沖上熱搜,工作人員:請大家不要過度解讀傳播

鴻蒙智行發(fā)布會被質(zhì)疑出意外,僅尚界新車最后停留在舞臺上沒有移動,“尚界Z7 趴窩”沖上熱搜,工作人員:請大家不要過度解讀傳播

魯中晨報(bào)
2026-04-23 07:04:04
庫克反思其15年CEO任期:蘋果地圖發(fā)布是“首個(gè)重大錯(cuò)誤”,Apple Watch是最引以為豪的作品

庫克反思其15年CEO任期:蘋果地圖發(fā)布是“首個(gè)重大錯(cuò)誤”,Apple Watch是最引以為豪的作品

魯中晨報(bào)
2026-04-23 13:16:04
50億!國產(chǎn)保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

50億!國產(chǎn)保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

李砍柴
2026-04-23 16:41:54
李鴻武:榮威20年,從家庭到“家越”

李鴻武:榮威20年,從家庭到“家越”

AutoBusiness
2026-04-23 12:23:29
又抓一個(gè)!知名男星被判刑,整個(gè)事件太離譜了……

又抓一個(gè)!知名男星被判刑,整個(gè)事件太離譜了……

桌子的生活觀
2026-04-23 12:01:50
反超重慶!中國最強(qiáng)省會,逆轉(zhuǎn)了

反超重慶!中國最強(qiáng)省會,逆轉(zhuǎn)了

國民經(jīng)略
2026-04-23 11:44:00
外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

丁丁鯉史紀(jì)
2026-04-23 13:56:03
加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

懂球帝
2026-04-23 18:35:02
俄副外長:俄方獲邀以最高級別參加美國G20峰會

俄副外長:俄方獲邀以最高級別參加美國G20峰會

財(cái)聯(lián)社
2026-04-23 11:20:05
不裝了?馬斯克罕見承認(rèn):美國是第一,但第二到第十全都來自中國

不裝了?馬斯克罕見承認(rèn):美國是第一,但第二到第十全都來自中國

大衛(wèi)聊科技
2026-04-23 12:13:36
特朗普“狂怒”滅掉了伊朗軍隊(duì)?美國官員悄悄說:不,并沒有!

特朗普“狂怒”滅掉了伊朗軍隊(duì)?美國官員悄悄說:不,并沒有!

國是直通車
2026-04-23 20:07:07
76歲的萬科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點(diǎn)。

76歲的萬科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點(diǎn)。

夢錄的西方史話
2026-04-23 14:36:39
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
納斯達(dá)克中國金龍指數(shù)跌幅擴(kuò)大,現(xiàn)跌2.0%,最新報(bào)6874.98點(diǎn)

納斯達(dá)克中國金龍指數(shù)跌幅擴(kuò)大,現(xiàn)跌2.0%,最新報(bào)6874.98點(diǎn)

每日經(jīng)濟(jì)新聞
2026-04-23 22:00:07
李斌回應(yīng)樂道L90“背刺老車主”:“直接現(xiàn)金補(bǔ)償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

李斌回應(yīng)樂道L90“背刺老車主”:“直接現(xiàn)金補(bǔ)償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

驅(qū)動中國
2026-04-23 18:56:09
2026-04-24 02:36:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

藝術(shù)
本地
時(shí)尚
公開課
軍事航空

藝術(shù)要聞

吉達(dá)塔蓋到第100層,“它是沙特唯一能按期完成的大項(xiàng)目”

本地新聞

SAGA GIRLS 2026女團(tuán)選秀

李昀銳:林深見木

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進(jìn)入關(guān)懷版