AI健康助手能取代搜索引擎嗎？

2026-01-24 21:07:22　來源: DeepTech深科技

北京舉報

分享至

（來源：麻省理工科技評論）

在過去二十年里，當人們感到身體不適時，往往會下意識地上網(wǎng)搜索相關信息。這種做法過于普遍，以至于人們常常戲稱搜索引擎為“Google 醫(yī)生”。但隨著大語言模型的出現(xiàn)，越來越多人習慣于轉(zhuǎn)向 LLMs 搜尋信息。根據(jù) OpenAI 的數(shù)據(jù)，每周約有 2.3 億人向 ChatGPT 提出與健康相關的問題。

正是在這樣的背景下，OpenAI 于本月早些時候推出了新的 ChatGPT Health 產(chǎn)品。但這一發(fā)布時機并不理想。就在兩天前，新聞網(wǎng)站 SFGate 披露了一起案件：一名名為 Sam Nelson 的青少年在去年因藥物過量去世，而在此之前，他曾與 ChatGPT 進行了大量關于如何組合多種藥物的對話。隨著這兩則消息接連出現(xiàn)，多名記者開始質(zhì)疑，將醫(yī)療建議寄托在一種可能造成嚴重傷害的工具上是否明智。

盡管 ChatGPT Health 在界面上以獨立的側(cè)邊欄標簽形式存在，但它并不是一個全新的模型。更準確地說，它是一層封裝，為 OpenAI 現(xiàn)有模型提供指導和工具，使其能夠給出健康相關建議，其中還包括在獲得用戶許可的情況下，訪問其電子病歷和健身應用數(shù)據(jù)的功能。毫無疑問，ChatGPT 和其他大語言模型可能在醫(yī)療問題上出錯，OpenAI 也反復強調(diào)，ChatGPT Health 的定位是輔助工具，而不是醫(yī)生的替代品。但在醫(yī)生無法及時提供幫助的情況下，人們?nèi)匀粫䦟で笃渌x擇。

一些醫(yī)生認為，LLMs 有助于提升公眾的醫(yī)學素養(yǎng)。普通患者往往難以在龐雜的在線醫(yī)療信息中進行判斷，尤其難以區(qū)分高質(zhì)量內(nèi)容與看似專業(yè)但事實存疑的網(wǎng)站，而從理論上看，LLMs 可以代替他們完成這一篩選工作。哈佛醫(yī)學院副教授、執(zhí)業(yè)放射科醫(yī)生 Marc Succi 表示，在過去，接診那些先在 Google 上搜索過癥狀的患者時，醫(yī)生往往需要花費大量精力緩解患者焦慮并糾正錯誤信息。但他指出，現(xiàn)在可以看到，不論是大學學歷還是高中學歷的患者，提出的問題已經(jīng)接近醫(yī)學院低年級學生的水平。

ChatGPT Health 的推出，以及 Anthropic 隨后宣布為 Claude 提供新的健康相關功能，表明大型 AI 公司正越來越愿意正視并鼓勵模型在健康領域的應用。然而，這類用途顯然伴隨著風險，因為 LLMs 已被充分記錄存在迎合用戶觀點、在不確定時編造信息的傾向。

但這些風險也需要與潛在收益一并權(quán)衡。這里可以類比自動駕駛汽車。當政策制定者考慮是否允許 Waymo 在城市中運行時，關鍵指標并不是其車輛是否從不發(fā)生事故，而是它們是否比依賴人類駕駛員的現(xiàn)狀造成更少的傷害。如果 ChatGPT 醫(yī)生確實優(yōu)于 Google 醫(yī)生，而早期證據(jù)表明可能如此，那么它或許能夠緩解互聯(lián)網(wǎng)帶來的大量醫(yī)療錯誤信息和不必要的健康焦慮。

不過，要準確評估像 ChatGPT 或 Claude 這樣的聊天機器人在面向消費者的健康場景中的效果，并不容易。麻省總醫(yī)院與布里格姆醫(yī)療系統(tǒng)的數(shù)據(jù)科學與 AI 臨床負責人 Danielle Bitterman 表示，評估一個開放式聊天機器人極其困難。大語言模型在醫(yī)學執(zhí)照考試中成績優(yōu)異，但這些考試采用的是選擇題形式，并不能反映人們在實際使用聊天機器人查詢醫(yī)療信息時的方式。

滑鐵盧大學管理科學與工程系助理教授 Sirisha Rambhatla 嘗試通過一種方式縮小這一差距：評估 GPT-4o 在沒有備選答案列表的情況下，對執(zhí)照考試問題的回答表現(xiàn)。醫(yī)學專家對這些回答進行評分后認為，只有大約一半完全正確。不過，選擇題本身就被設計得較為刁鉆，答案選項并不會直接暴露正確結(jié)論，這種形式仍然與用戶在 ChatGPT 中輸入的真實問題存在較大差距。

另一項研究在更貼近現(xiàn)實的測試使用人類志愿者提交的問題來評估 GPT-4o，結(jié)果發(fā)現(xiàn)其在約 85% 的情況下能夠正確回答醫(yī)療問題。我在采訪該研究負責人、賓夕法尼亞州立大學副教授、Responsible AI for Social Emancipation Lab 負責人 Amulya Yadav 時，他明確表示，自己并不認同面向患者的醫(yī)療 LLMs。但他也坦言，從技術角度來看，這些系統(tǒng)似乎能夠勝任這項任務——畢竟，人類醫(yī)生的誤診率也在 10% 到 15% 之間：“如果冷靜地看待這件事，世界似乎正在改變，不管我是否愿意�！�

在 Yadav 看來，對于在線尋找醫(yī)療信息的人來說，LLMs 的確比 Google 是更好的選擇。放射科醫(yī)生 Succi 也得出了類似結(jié)論。他將 GPT-4 對常見慢性疾病問題的回答，與 Google 搜索結(jié)果右側(cè)有時出現(xiàn)的知識面板中的信息進行比較后認為，LLMs 在這一場景下可以成為更優(yōu)的替代方案。

自 Yadav 和 Succi 的研究在 2025 年上半年發(fā)布以來，OpenAI 已推出了多個新版 GPT，因此有理由預期 GPT-5.2 的表現(xiàn)會優(yōu)于前代模型。但這些研究也存在重要局限：它們主要關注簡單、事實型問題，并且只考察了用戶與聊天機器人或搜索工具之間的短暫互動。LLMs 的一些弱點，尤其是迎合傾向和幻覺問題，在更長時間的對話或更復雜的情境中，可能更容易顯現(xiàn)。墨爾本大學研究技術與健康的教授 Reeva Lederman 指出，如果患者不認可醫(yī)生給出的診斷或治療建議，可能會轉(zhuǎn)而向 LLM 尋求另一種意見，而具有迎合傾向的 LLM 可能會鼓勵他們拒絕醫(yī)生的建議。

一些研究發(fā)現(xiàn)，LLMs 在回應健康相關問題時會出現(xiàn)幻覺和迎合行為。例如，有研究顯示，GPT-4 和 GPT-4o 會直接接受并基于用戶問題中包含的錯誤藥物信息展開回答。在另一項研究中，GPT-4o 經(jīng)常為用戶提到的虛構(gòu)綜合征和檢測項目編造定義�？紤]到互聯(lián)網(wǎng)上充斥著存疑的醫(yī)療診斷和治療方法，如果人們將 LLMs 視為可信來源，這種行為模式可能會加劇醫(yī)療錯誤信息的傳播。

OpenAI 表示，GPT-5 系列模型在迎合性和幻覺傾向方面已明顯優(yōu)于前代模型，因此上述研究結(jié)果未必適用于 ChatGPT Health。公司還使用其公開的 HealthBench 基準，對支撐 ChatGPT Health 的模型在健康問題上的表現(xiàn)進行了評估。HealthBench 鼓勵模型在適當時表達不確定性，在必要時建議用戶尋求醫(yī)療幫助，并避免通過夸大病情來給用戶造成不必要的心理壓力。可以合理推測，ChatGPT Health 背后的模型在測試中符合這些要求，不過 Bitterman 指出，HealthBench 中的一些提示是由 LLMs 而非真實用戶生成的，這可能會影響該基準在現(xiàn)實世界中的適用性。

一個避免制造恐慌的 LLM，顯然優(yōu)于那些讓人瀏覽幾分鐘網(wǎng)頁后就懷疑自己患癌的系統(tǒng)。隨著大語言模型及其衍生產(chǎn)品持續(xù)發(fā)展，ChatGPT 醫(yī)生相對于 Google 醫(yī)生的優(yōu)勢很可能會進一步擴大，ChatGPT Health 的推出正是朝這一方向邁出的一步。通過查看醫(yī)療記錄，ChatGPT 有可能獲得比任何一次 Google 搜索都更豐富的個人健康背景，盡管多位專家也因隱私問題而警告不要輕易賦予其這種權(quán)限。

即便 ChatGPT Health 和其他新工具相較 Google 搜索確實帶來了實質(zhì)性改進，它們?nèi)杂锌赡茉谡w上對健康產(chǎn)生負面影響。正如自動駕駛汽車即便比人類駕駛更安全，如果因此減少了公共交通使用，仍可能帶來凈負面效應一樣，LLMs 也可能因為促使人們依賴互聯(lián)網(wǎng)而非醫(yī)生，從而損害用戶健康，即使它們提升了在線醫(yī)療信息的整體質(zhì)量。

Lederman 表示，這種結(jié)果并非不可想象。她在研究中發(fā)現(xiàn)，以健康為主題的在線社區(qū)成員往往更信任表達能力強的用戶，而不一定關注信息本身是否可靠。由于 ChatGPT 的交流方式類似一位言辭清晰的人，一些人可能會對它過度信任，甚至排斥醫(yī)生的建議。但至少在目前階段，LLMs 仍然無法取代人類醫(yī)生。

https://www.technologyreview.com/2026/01/22/1131692/dr-google-had-its-issues-can-chatgpt-health-do-better/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.