網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI健康助手能取代搜索引擎嗎？

2026-01-24 21:07:22　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

（來(lái)源：麻省理工科技評(píng)論）

在過(guò)去二十年里，當(dāng)人們感到身體不適時(shí)，往往會(huì)下意識(shí)地上網(wǎng)搜索相關(guān)信息。這種做法過(guò)于普遍，以至于人們常常戲稱搜索引擎為“Google 醫(yī)生”。但隨著大語(yǔ)言模型的出現(xiàn)，越來(lái)越多人習(xí)慣于轉(zhuǎn)向 LLMs 搜尋信息。根據(jù) OpenAI 的數(shù)據(jù)，每周約有 2.3 億人向 ChatGPT 提出與健康相關(guān)的問(wèn)題。

正是在這樣的背景下，OpenAI 于本月早些時(shí)候推出了新的 ChatGPT Health 產(chǎn)品。但這一發(fā)布時(shí)機(jī)并不理想。就在兩天前，新聞網(wǎng)站 SFGate 披露了一起案件：一名名為 Sam Nelson 的青少年在去年因藥物過(guò)量去世，而在此之前，他曾與 ChatGPT 進(jìn)行了大量關(guān)于如何組合多種藥物的對(duì)話。隨著這兩則消息接連出現(xiàn)，多名記者開(kāi)始質(zhì)疑，將醫(yī)療建議寄托在一種可能造成嚴(yán)重傷害的工具上是否明智。

盡管 ChatGPT Health 在界面上以獨(dú)立的側(cè)邊欄標(biāo)簽形式存在，但它并不是一個(gè)全新的模型。更準(zhǔn)確地說(shuō)，它是一層封裝，為 OpenAI 現(xiàn)有模型提供指導(dǎo)和工具，使其能夠給出健康相關(guān)建議，其中還包括在獲得用戶許可的情況下，訪問(wèn)其電子病歷和健身應(yīng)用數(shù)據(jù)的功能。毫無(wú)疑問(wèn)，ChatGPT 和其他大語(yǔ)言模型可能在醫(yī)療問(wèn)題上出錯(cuò)，OpenAI 也反復(fù)強(qiáng)調(diào)，ChatGPT Health 的定位是輔助工具，而不是醫(yī)生的替代品。但在醫(yī)生無(wú)法及時(shí)提供幫助的情況下，人們?nèi)匀粫?huì)尋求其他選擇。

一些醫(yī)生認(rèn)為，LLMs 有助于提升公眾的醫(yī)學(xué)素養(yǎng)。普通患者往往難以在龐雜的在線醫(yī)療信息中進(jìn)行判斷，尤其難以區(qū)分高質(zhì)量?jī)?nèi)容與看似專業(yè)但事實(shí)存疑的網(wǎng)站，而從理論上看，LLMs 可以代替他們完成這一篩選工作。哈佛醫(yī)學(xué)院副教授、執(zhí)業(yè)放射科醫(yī)生 Marc Succi 表示，在過(guò)去，接診那些先在 Google 上搜索過(guò)癥狀的患者時(shí)，醫(yī)生往往需要花費(fèi)大量精力緩解患者焦慮并糾正錯(cuò)誤信息。但他指出，現(xiàn)在可以看到，不論是大學(xué)學(xué)歷還是高中學(xué)歷的患者，提出的問(wèn)題已經(jīng)接近醫(yī)學(xué)院低年級(jí)學(xué)生的水平。

ChatGPT Health 的推出，以及 Anthropic 隨后宣布為 Claude 提供新的健康相關(guān)功能，表明大型 AI 公司正越來(lái)越愿意正視并鼓勵(lì)模型在健康領(lǐng)域的應(yīng)用。然而，這類用途顯然伴隨著風(fēng)險(xiǎn)，因?yàn)?LLMs 已被充分記錄存在迎合用戶觀點(diǎn)、在不確定時(shí)編造信息的傾向。

但這些風(fēng)險(xiǎn)也需要與潛在收益一并權(quán)衡。這里可以類比自動(dòng)駕駛汽車。當(dāng)政策制定者考慮是否允許 Waymo 在城市中運(yùn)行時(shí)，關(guān)鍵指標(biāo)并不是其車輛是否從不發(fā)生事故，而是它們是否比依賴人類駕駛員的現(xiàn)狀造成更少的傷害。如果 ChatGPT 醫(yī)生確實(shí)優(yōu)于 Google 醫(yī)生，而早期證據(jù)表明可能如此，那么它或許能夠緩解互聯(lián)網(wǎng)帶來(lái)的大量醫(yī)療錯(cuò)誤信息和不必要的健康焦慮。

不過(guò)，要準(zhǔn)確評(píng)估像 ChatGPT 或 Claude 這樣的聊天機(jī)器人在面向消費(fèi)者的健康場(chǎng)景中的效果，并不容易。麻省總醫(yī)院與布里格姆醫(yī)療系統(tǒng)的數(shù)據(jù)科學(xué)與 AI 臨床負(fù)責(zé)人 Danielle Bitterman 表示，評(píng)估一個(gè)開(kāi)放式聊天機(jī)器人極其困難。大語(yǔ)言模型在醫(yī)學(xué)執(zhí)照考試中成績(jī)優(yōu)異，但這些考試采用的是選擇題形式，并不能反映人們?cè)趯?shí)際使用聊天機(jī)器人查詢醫(yī)療信息時(shí)的方式。

滑鐵盧大學(xué)管理科學(xué)與工程系助理教授 Sirisha Rambhatla 嘗試通過(guò)一種方式縮小這一差距：評(píng)估 GPT-4o 在沒(méi)有備選答案列表的情況下，對(duì)執(zhí)照考試問(wèn)題的回答表現(xiàn)。醫(yī)學(xué)專家對(duì)這些回答進(jìn)行評(píng)分后認(rèn)為，只有大約一半完全正確。不過(guò)，選擇題本身就被設(shè)計(jì)得較為刁鉆，答案選項(xiàng)并不會(huì)直接暴露正確結(jié)論，這種形式仍然與用戶在 ChatGPT 中輸入的真實(shí)問(wèn)題存在較大差距。

另一項(xiàng)研究在更貼近現(xiàn)實(shí)的測(cè)試使用人類志愿者提交的問(wèn)題來(lái)評(píng)估 GPT-4o，結(jié)果發(fā)現(xiàn)其在約 85% 的情況下能夠正確回答醫(yī)療問(wèn)題。我在采訪該研究負(fù)責(zé)人、賓夕法尼亞州立大學(xué)副教授、Responsible AI for Social Emancipation Lab 負(fù)責(zé)人 Amulya Yadav 時(shí)，他明確表示，自己并不認(rèn)同面向患者的醫(yī)療 LLMs。但他也坦言，從技術(shù)角度來(lái)看，這些系統(tǒng)似乎能夠勝任這項(xiàng)任務(wù)——畢竟，人類醫(yī)生的誤診率也在 10% 到 15% 之間：“如果冷靜地看待這件事，世界似乎正在改變，不管我是否愿意�！�

在 Yadav 看來(lái)，對(duì)于在線尋找醫(yī)療信息的人來(lái)說(shuō)，LLMs 的確比 Google 是更好的選擇。放射科醫(yī)生 Succi 也得出了類似結(jié)論。他將 GPT-4 對(duì)常見(jiàn)慢性疾病問(wèn)題的回答，與 Google 搜索結(jié)果右側(cè)有時(shí)出現(xiàn)的知識(shí)面板中的信息進(jìn)行比較后認(rèn)為，LLMs 在這一場(chǎng)景下可以成為更優(yōu)的替代方案。

自 Yadav 和 Succi 的研究在 2025 年上半年發(fā)布以來(lái)，OpenAI 已推出了多個(gè)新版 GPT，因此有理由預(yù)期 GPT-5.2 的表現(xiàn)會(huì)優(yōu)于前代模型。但這些研究也存在重要局限：它們主要關(guān)注簡(jiǎn)單、事實(shí)型問(wèn)題，并且只考察了用戶與聊天機(jī)器人或搜索工具之間的短暫互動(dòng)。LLMs 的一些弱點(diǎn)，尤其是迎合傾向和幻覺(jué)問(wèn)題，在更長(zhǎng)時(shí)間的對(duì)話或更復(fù)雜的情境中，可能更容易顯現(xiàn)。墨爾本大學(xué)研究技術(shù)與健康的教授 Reeva Lederman 指出，如果患者不認(rèn)可醫(yī)生給出的診斷或治療建議，可能會(huì)轉(zhuǎn)而向 LLM 尋求另一種意見(jiàn)，而具有迎合傾向的 LLM 可能會(huì)鼓勵(lì)他們拒絕醫(yī)生的建議。

一些研究發(fā)現(xiàn)，LLMs 在回應(yīng)健康相關(guān)問(wèn)題時(shí)會(huì)出現(xiàn)幻覺(jué)和迎合行為。例如，有研究顯示，GPT-4 和 GPT-4o 會(huì)直接接受并基于用戶問(wèn)題中包含的錯(cuò)誤藥物信息展開(kāi)回答。在另一項(xiàng)研究中，GPT-4o 經(jīng)常為用戶提到的虛構(gòu)綜合征和檢測(cè)項(xiàng)目編造定義�？紤]到互聯(lián)網(wǎng)上充斥著存疑的醫(yī)療診斷和治療方法，如果人們將 LLMs 視為可信來(lái)源，這種行為模式可能會(huì)加劇醫(yī)療錯(cuò)誤信息的傳播。

OpenAI 表示，GPT-5 系列模型在迎合性和幻覺(jué)傾向方面已明顯優(yōu)于前代模型，因此上述研究結(jié)果未必適用于 ChatGPT Health。公司還使用其公開(kāi)的 HealthBench 基準(zhǔn)，對(duì)支撐 ChatGPT Health 的模型在健康問(wèn)題上的表現(xiàn)進(jìn)行了評(píng)估。HealthBench 鼓勵(lì)模型在適當(dāng)時(shí)表達(dá)不確定性，在必要時(shí)建議用戶尋求醫(yī)療幫助，并避免通過(guò)夸大病情來(lái)給用戶造成不必要的心理壓力�？梢院侠硗茰y(cè)，ChatGPT Health 背后的模型在測(cè)試中符合這些要求，不過(guò) Bitterman 指出，HealthBench 中的一些提示是由 LLMs 而非真實(shí)用戶生成的，這可能會(huì)影響該基準(zhǔn)在現(xiàn)實(shí)世界中的適用性。

一個(gè)避免制造恐慌的 LLM，顯然優(yōu)于那些讓人瀏覽幾分鐘網(wǎng)頁(yè)后就懷疑自己患癌的系統(tǒng)。隨著大語(yǔ)言模型及其衍生產(chǎn)品持續(xù)發(fā)展，ChatGPT 醫(yī)生相對(duì)于 Google 醫(yī)生的優(yōu)勢(shì)很可能會(huì)進(jìn)一步擴(kuò)大，ChatGPT Health 的推出正是朝這一方向邁出的一步。通過(guò)查看醫(yī)療記錄，ChatGPT 有可能獲得比任何一次 Google 搜索都更豐富的個(gè)人健康背景，盡管多位專家也因隱私問(wèn)題而警告不要輕易賦予其這種權(quán)限。

即便 ChatGPT Health 和其他新工具相較 Google 搜索確實(shí)帶來(lái)了實(shí)質(zhì)性改進(jìn)，它們?nèi)杂锌赡茉谡w上對(duì)健康產(chǎn)生負(fù)面影響。正如自動(dòng)駕駛汽車即便比人類駕駛更安全，如果因此減少了公共交通使用，仍可能帶來(lái)凈負(fù)面效應(yīng)一樣，LLMs 也可能因?yàn)榇偈谷藗円蕾嚮ヂ?lián)網(wǎng)而非醫(yī)生，從而損害用戶健康，即使它們提升了在線醫(yī)療信息的整體質(zhì)量。

Lederman 表示，這種結(jié)果并非不可想象。她在研究中發(fā)現(xiàn)，以健康為主題的在線社區(qū)成員往往更信任表達(dá)能力強(qiáng)的用戶，而不一定關(guān)注信息本身是否可靠。由于 ChatGPT 的交流方式類似一位言辭清晰的人，一些人可能會(huì)對(duì)它過(guò)度信任，甚至排斥醫(yī)生的建議。但至少在目前階段，LLMs 仍然無(wú)法取代人類醫(yī)生。

https://www.technologyreview.com/2026/01/22/1131692/dr-google-had-its-issues-can-chatgpt-health-do-better/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.