網易首頁 > 網易號 > 正文申請入駐

AI能給你看病嗎？

2026-03-31 15:12:36　來源: DeepTech深科技

北京舉報

分享至

（來源：麻省理工科技評論）

AI 健康發(fā)展正盛。近日，微軟在旗下產品 Copilot 中推出了子模塊 Copilot Health，用戶可以在這個新板塊中接入自己的醫(yī)療記錄，并就健康問題進行提問；幾天前，亞馬遜宣布此前僅限 One Medical 會員使用的 Health AI 將向公眾全面開放；同時，這些產品加入了 OpenAI 今年 1 月發(fā)布的 ChatGPT Health 以及 Anthropic 的 Claude 的行列。

面向大眾的健康 AI 已經正式成為一股趨勢，市場對提供健康建議的聊天機器人有明確的需求，因為很多人難以通過現(xiàn)有醫(yī)療體系獲得幫助；一些研究也表明，當前的大語言模型能夠給出安全且有用的建議。但研究人員表示，這些工具應當在大范圍發(fā)布之前接受獨立專家更嚴格的評估。

在健康這樣的高風險領域，信任公司自行評估自家產品可能并不明智，尤其是當這些評估結果沒有公開供外部專家審查時。即使公司確實在做高質量、嚴謹?shù)难芯浚鼈內匀豢赡艽嬖诿^(qū)，需要更廣泛的研究界來補充。

“在你始終需要更多醫(yī)療服務的前提下，我認為我們確實應該追求每一條可行的路徑，”牛津互聯(lián)網研究所的博士生安德魯·比恩（Andrew Bean）說，“在我看來，這些模型完全有可能已經到了值得推廣的水平?！?/p>

“但是，”他補充道，“評估必須非常嚴格?！?/p>

龐大的市場需求

在開發(fā)者看來，這些健康產品之所以現(xiàn)在推出，是因為大語言模型確實已經達到了能有效提供醫(yī)療建議的水平。微軟 AI 健康業(yè)務副總裁、前外科醫(yī)生多米尼克·金（Dominic King）將 AI 能力的進步列為公司組建健康團隊以及 Copilot Health 問世的核心原因?！拔覀兛吹缴墒?AI 在回答健康問題、給出優(yōu)質回復方面取得了巨大進步，”他說。

另一個關鍵因素是需求。在 Copilot Health 推出前不久，微軟發(fā)布了一份報告和配套博文，詳細說明了人們如何使用 Copilot 獲取健康建議。微軟表示，每天收到 5000 萬個健康相關問題，健康是 Copilot 移動端應用上最熱門的討論話題

其他 AI 公司也注意到了這一趨勢并做出了回應?！吧踔猎谖覀兺瞥鼋】诞a品之前，就已經看到人們使用 ChatGPT 咨詢健康問題的速度在飛快增長，”O(jiān)penAI 健康 AI 團隊負責人卡蘭·辛格爾（Karan Singhal）說。（OpenAI 和微軟有長期合作關系，Copilot 由 OpenAI 的模型驅動。）

人們可能只是更喜歡向一個 24 小時在線、不帶評判的機器人傾訴自己的健康問題。但很多專家從當前醫(yī)療體系的現(xiàn)狀來解讀這一現(xiàn)象?！斑@些工具的存在和它們在整個格局中的定位是有原因的，”西奈山醫(yī)療系統(tǒng)的首席 AI 官吉里什·納德卡尼（Girish Nadkarni）說，“因為獲取醫(yī)療服務很難，對某些人群來說尤其難?！?/p>

面向消費者的健康聊天機器人的理想愿景在于，它們可以在改善用戶健康的同時，減輕醫(yī)療系統(tǒng)的壓力。這可能包括幫助用戶判斷自己是否需要就醫(yī)，這項任務被稱為分診。如果聊天機器人的分診功能有效，那些需要急救的患者可能比原本更早地尋求治療，而癥狀較輕的患者則可能安心地在家根據聊天機器人的建議管理癥狀，而不是給急診室和診所增加不必要的負擔。

但納德卡尼和西奈山其他研究人員最近發(fā)表的一項廣受討論的研究發(fā)現(xiàn)，ChatGPT Health 有時會對輕癥建議過度治療，同時未能識別緊急情況。雖然辛格爾和其他一些專家認為該研究的方法論可能無法全面反映 ChatGPT Health 的能力，但這項研究引發(fā)了人們對這些工具在面向公眾發(fā)布前缺乏外部評估的擔憂。

為本文接受采訪的大多數(shù)學術專家都認為，考慮到一些人獲取醫(yī)療服務的渠道多么有限，健康聊天機器人確實可能帶來實際好處。但六位專家全部表達了擔憂：這些工具在沒有經過獨立研究者安全評估的情況下就上線了。這些工具的一些用途相對無害，比如推薦鍛煉計劃或建議用戶向醫(yī)生提什么問題，但另一些用途有明顯風險。分診是其中之一，讓聊天機器人提供診斷或治療方案是另一個。

ChatGPT Health 的界面上有醒目的免責聲明，表示該工具不用于診斷或治療；Copilot Health 和亞馬遜 Health AI 的發(fā)布公告中也包含類似警告。但這些警告很容易被忽略?！拔覀兌贾廊藗儠盟鼇碜鲈\斷和管理病情，”貝斯以色列女執(zhí)事醫(yī)療中心的內科醫(yī)生和研究員、Google 訪問研究員亞當·羅德曼（Adam Rodman）說。

嚴謹?shù)尼t(yī)學測試

這些公司表示，他們在測試聊天機器人以確保它們在絕大多數(shù)情況下提供安全回復。OpenAI 設計并發(fā)布了 HealthBench，這是一個基準測試，評估大語言模型在模擬真實健康對話中的表現(xiàn)。去年 GPT-5 發(fā)布時（GPT-5 同時驅動 ChatGPT Health 和 Copilot Health），OpenAI 公布了該模型的 HealthBench 得分：它大幅優(yōu)于此前的 OpenAI 模型，但整體表現(xiàn)遠非完美。

但 HealthBench 這類評估存在局限性。比恩和同事上月發(fā)表的一項研究發(fā)現(xiàn)，即使大語言模型能獨立從虛構的書面場景中準確識別出一種疾病，一個沒有醫(yī)學背景的用戶拿到同樣的場景后借助 LLM 輔助判斷，可能只有三分之一的時間能得出正確結論。如果用戶缺乏醫(yī)學知識，他們可能不知道場景中哪些信息（或自身真實經歷中哪些信息）對提問來說是重要的，也可能誤讀大語言模型給出的信息。

比恩說，這個表現(xiàn)差距對 OpenAI 的模型來說可能意義重大。在最初的 HealthBench 研究中，OpenAI 報告其模型在需要向用戶追問更多信息的對話中表現(xiàn)相對較差。如果情況確實如此，那些缺乏足夠醫(yī)學知識、無法一開始就為健康聊天機器人提供所需信息的用戶，可能會收到無用甚至不準確的建議。

OpenAI 的辛格爾指出，公司當前的 GPT-5 系列模型在最初的 HealthBench 研究進行時尚未發(fā)布，這一代模型在主動追問信息方面比前代有很大改進。不過 OpenAI 也報告稱，當前的旗艦模型 GPT-5.4 在主動獲取上下文方面實際上不如早期版本 GPT-5.2。

比恩認為，理想情況下，健康聊天機器人應該像他的研究那樣，在發(fā)布前先經過有真人用戶參與的對照測試。這可能是一項艱巨的任務，尤其考慮到 AI 領域的發(fā)展速度和人類研究所需的時間。比恩自己的研究用的還是將近一年前發(fā)布的 GPT-4o，現(xiàn)在已經過時了。

本月早些時候，Google 發(fā)布了一項符合比恩標準的研究。在這項研究中，患者先與 Google 的 AMIE（Articulate Medical Intelligence Explorer，一款尚未公開發(fā)布的醫(yī)療大語言模型聊天機器人）討論醫(yī)療問題，然后再去見真人醫(yī)生?？傮w來看，AMIE 的診斷準確率與醫(yī)生持平，研究人員也未在任何對話中發(fā)現(xiàn)重大安全隱患。

盡管結果令人鼓舞，Google 并不打算近期發(fā)布 AMIE?！半m然研究取得了進展，但在系統(tǒng)真正應用于診斷和治療之前，還有重大局限性需要解決，包括在公平性、公正性和安全性測試方面的進一步研究，”Google DeepMind 的研究科學家艾倫·卡蒂克薩林加姆（Alan Karthikesalingam）在郵件中寫道。Google 最近透露，它與 CVS 合作搭建的健康平臺 Health100 將包含一個由旗艦 Gemini 模型驅動的 AI 助手，不過這個工具大概不會用于診斷或治療。

羅德曼與卡蒂克薩林加姆共同主導了 AMIE 研究，他并不認為這種耗時數(shù)年的大型研究一定是評估 ChatGPT Health 和 Copilot Health 這類聊天機器人的正確方式?！芭R床試驗的范式在生成式 AI 領域并不總是適用，原因很多，”他說，“這就是基準測試討論的意義所在。有沒有一個來自可信第三方的基準測試，大家都認可它是有意義的，各實驗室可以用它來自我約束？”

這里的關鍵是“第三方”。無論公司對自家產品做了多全面的評估，要完全信任他們的結論仍然很難。第三方評估帶來的不僅是公正性，如果有多個第三方參與，還能幫助彌補盲區(qū)。

OpenAI 的辛格爾表示他非常支持外部評估?！拔覀儽M力支持學術社區(qū)，”他說，“我們發(fā)布 HealthBench 的部分原因就是給學術界和其他模型開發(fā)者提供一個高質量評估的范例?！?/p>

他說，鑒于產出一項高質量評估的成本很高，他懷疑任何單個學術實驗室能否做出他所說的“統(tǒng)治一切的唯一評估”。但他高度評價了學術團體將已有評估和新評估整合成綜合評估套件的努力，比如斯坦福的 MedHELM 框架，它在各種醫(yī)療任務上對模型進行測試。目前，OpenAI 的 GPT-5 在 MedHELM 上擁有最高分。

斯坦福大學醫(yī)學教授、MedHELM 項目負責人尼加姆·沙阿（Nigam Shah）說，這個框架也有局限性。它只評估聊天機器人的單輪回復，但一個向聊天機器人尋求醫(yī)療建議的人可能會進行多輪來回對話。他說自己和一些合作者正在著手構建一個能夠評估這類復雜對話的體系，但這需要時間和資金?！澳阄彝耆珱]有能力阻止這些公司發(fā)布面向健康的產品，它們想干嘛就干嘛，”他說，“像我們這樣的人唯一能做的就是想辦法為基準測試找到資金。”

不過，醫(yī)生自己也會犯錯——對于一個只能偶爾看到醫(yī)生的人來說，一個隨時可用但偶爾出錯的大語言模型仍然可能比現(xiàn)狀好得多，只要它的錯誤不會太嚴重。

但以目前的證據水平來看，我們無法確切判斷現(xiàn)有的這些工具是否真的帶來了改善，還是它們的風險超過了收益。

https://www.technologyreview.com/2026/03/30/1134795/there-are-more-ai-health-tools-than-ever-but-how-well-do-they-work/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.