螞蟻集團團隊顛覆醫(yī)療AI訓(xùn)練方式：用醫(yī)生智慧教AI更懂看病

2026-02-26 19:45:45　來源: 至頂AI實驗室

北京舉報

分享至

這項由螞蟻集團聯(lián)合香港中文大學(xué)（深圳）和北京大學(xué)共同完成的研究發(fā)表于2026年2月，研究編號為arXiv:2602.09653v2，為醫(yī)療人工智能的訓(xùn)練方式帶來了突破性的改進。

當我們?nèi)メt(yī)院看病時，好醫(yī)生和普通醫(yī)生的差別在哪里？好醫(yī)生不僅知識豐富，更重要的是，他們知道在什么情況下該說什么話，什么時候該緊張，什么時候該安撫患者。這種細膩的臨床判斷力，正是當前醫(yī)療AI最缺乏的能力。

目前的醫(yī)療AI就像一個只會背書的學(xué)霸。它們在醫(yī)學(xué)考試中表現(xiàn)優(yōu)異，能夠回答各種醫(yī)學(xué)知識問題，但真正面對病人時，卻常常不知道如何恰當?shù)販贤?。比如，當一個焦慮的母親詢問孩子發(fā)燒是否嚴重時，AI可能會機械地列出所有可能的疾病，把人嚇得夠嗆；而經(jīng)驗豐富的兒科醫(yī)生會先安撫情緒，再有針對性地詢問關(guān)鍵癥狀，給出恰當?shù)慕ㄗh。

研究團隊發(fā)現(xiàn)了這個問題的根源：傳統(tǒng)的AI訓(xùn)練方法就像讓學(xué)生只做標準化考試，而忽略了真實的臨床情境訓(xùn)練。為了解決這個問題，他們開發(fā)了一套全新的訓(xùn)練體系，名為ClinAlign（臨床對齊），這套方法的核心思想是讓真正的醫(yī)生來教AI如何在不同情況下給出恰當?shù)幕貞?yīng)。

一、醫(yī)生手把手教AI的智慧傳承體系

研究團隊設(shè)計了一套類似師傅帶徒弟的訓(xùn)練模式。他們首先收集了7034個真實的醫(yī)療咨詢案例，這些案例覆蓋了從簡單的健康咨詢到緊急醫(yī)療建議的各種情況。然后，他們讓GPT-5.1這個強大的AI先給出初步的評判標準，就像讓一個聰明的實習(xí)生先寫個診療方案草稿。

接下來，真正的醫(yī)生登場了。這111位來自不同科室的醫(yī)生，包括外科、內(nèi)科、婦產(chǎn)科等各個專業(yè)領(lǐng)域的主治醫(yī)生和科室主任，開始像批改作業(yè)一樣仔細審查這些AI生成的評判標準。他們不僅要糾正錯誤，更要根據(jù)自己的臨床經(jīng)驗來完善這些標準。

這個過程就像廚師改進食譜一樣。AI給出的初始"食譜"可能在理論上沒問題，但缺乏實際操作的細節(jié)。醫(yī)生們會說："這里應(yīng)該強調(diào)安全性"，"那里需要考慮患者的心理感受"，"遇到緊急情況時措辭要更明確"。經(jīng)過平均1.34輪的修改，每個評判標準都得到了醫(yī)生們的一致認可。

整個過程耗費了632.2個工作小時，成本約15172.80美元。雖然聽起來不少，但考慮到這是在訓(xùn)練一個能服務(wù)千萬患者的醫(yī)療AI，這個投入是非常值得的。最終，他們建立了一個名為HealthRubrics的數(shù)據(jù)集，這相當于一本由經(jīng)驗豐富的醫(yī)生共同編寫的"AI臨床行為指南"。

二、從具體案例中提煉通用醫(yī)療智慧

有了醫(yī)生驗證的7034個具體案例后，研究團隊面臨一個新問題：如何讓AI從這些具體案例中學(xué)會舉一反三？畢竟，真實世界的醫(yī)療咨詢千變?nèi)f化，不可能為每一種情況都準備專門的訓(xùn)練案例。

研究團隊的解決方案非常巧妙，他們開發(fā)了一套叫做HealthPrinciples的系統(tǒng)，把醫(yī)生們在具體案例中體現(xiàn)的智慧提煉成119條通用原則。這個過程就像從無數(shù)個成功的烹飪案例中總結(jié)出一套完整的烹飪原理。

這119條原則按照四個維度進行分類：緊急程度、不確定性、用戶專業(yè)程度和任務(wù)類型。緊急程度分為三個級別：非緊急（如常規(guī)健康咨詢）、條件緊急（無法排除重要風險，需要關(guān)鍵信息）、緊急（明確的高風險特征，需要立即保護性行動）。不確定性也分為三個級別：信息充足、可減少的不確定性（通過對話可以澄清）、不可減少的不確定性（需要面診、檢查或化驗）。

用戶專業(yè)程度分為非專業(yè)人士和專業(yè)人士兩類，這很重要，因為對普通患者和醫(yī)學(xué)專業(yè)人員的溝通方式完全不同。任務(wù)類型則細分為21個類別，包括急診分診、癥狀評估、居家護理指導(dǎo)、藥物安全、檢查結(jié)果解讀等等。

每條原則都像一個智慧的提醒。比如，對于"條件緊急"情況的原則是："用冷靜、非警示性的語言傳達潛在嚴重性；給出有序的下一步：停止不安全暴露，現(xiàn)在就做低風險行動，避免傷害，監(jiān)控癥狀，并具體說明何時何地尋求面診或急診護理。"這樣的表達既體現(xiàn)了醫(yī)學(xué)的專業(yè)性，又保持了人文關(guān)懷。

三、讓AI學(xué)會在不同情況下恰當應(yīng)答

有了這119條通用原則后，研究團隊就可以大規(guī)模地訓(xùn)練AI了。他們又收集了16872個額外的醫(yī)療問題，利用這些原則為每個問題生成恰當?shù)脑u判標準。這個過程就像一個經(jīng)驗豐富的主廚，可以根據(jù)不同食材和顧客需求，快速調(diào)配出合適的調(diào)料配方。

具體來說，當AI遇到一個新的醫(yī)療咨詢時，系統(tǒng)首先會分析這個問題屬于哪個類別：是緊急情況嗎？信息是否充足？咨詢者是專業(yè)人士還是普通患者？主要任務(wù)是什么？然后，系統(tǒng)會從119條原則中選擇相關(guān)的原則，平均每個問題會匹配到22.9條原則。

接著，系統(tǒng)會把這些通用原則轉(zhuǎn)化為針對具體問題的評判標準。比如，如果有人問"我孩子發(fā)燒了怎么辦"，系統(tǒng)會識別這是一個"條件緊急"的"癥狀評估"任務(wù)，咨詢者是"非專業(yè)人士"，然后生成相應(yīng)的評判標準：回答應(yīng)該詢問關(guān)鍵癥狀（如發(fā)燒溫度、持續(xù)時間、伴隨癥狀），提供明確的就醫(yī)指征，使用安撫性語言等。

研究團隊還開發(fā)了一個推理時工具，可以在AI生成回答后，根據(jù)這些原則進行自我修正。這就像給AI配備了一個內(nèi)在的臨床督導(dǎo)，隨時提醒它是否遵循了恰當?shù)呐R床溝通原則。

四、訓(xùn)練效果令人驚艷的實際表現(xiàn)

研究團隊使用強化學(xué)習(xí)技術(shù)，基于這些醫(yī)生驗證的評判標準來訓(xùn)練AI模型。他們選擇了相對較小的Qwen3-4B模型作為基礎(chǔ)，通過精心設(shè)計的訓(xùn)練過程，讓它學(xué)會了如何在不同情況下給出恰當?shù)尼t(yī)療建議。

訓(xùn)練效果簡直令人驚艷。在HealthBench-Hard這個專門測試醫(yī)療AI實用性的嚴格評測中，基礎(chǔ)的Qwen3-4B模型原本只能得到5.2%的分數(shù)，經(jīng)過醫(yī)生手工標注的評判標準訓(xùn)練后，分數(shù)躍升到22.9%。當使用提煉的119條通用原則進行大規(guī)模訓(xùn)練后，分數(shù)進一步提升到24.4%。

最令人印象深刻的是，當研究團隊使用稍大一些的Qwen3-30B-A3B模型時，經(jīng)過完整的ClinAlign訓(xùn)練后，在HealthBench-Hard上達到了33.4%的分數(shù)。這個成績不僅超越了許多規(guī)模更大的開源模型，甚至超過了一些知名的商業(yè)模型，包括DeepSeek-R1和o3等。

在其他評測中，這個經(jīng)過特殊訓(xùn)練的醫(yī)療AI同樣表現(xiàn)出色。在LLMEval-Med這個測試醫(yī)療語言理解、推理和安全倫理的綜合評測中，模型在各個子項目上都有顯著提升。特別值得注意的是，這種訓(xùn)練方法不僅提升了醫(yī)療專業(yè)表現(xiàn)，在Arena-Hard-v2這個測試通用能力的評測中也有顯著提升，創(chuàng)意寫作分數(shù)從34.9%躍升至79.4%。

研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象：隨著訓(xùn)練問題數(shù)量的增加，模型性能持續(xù)提升。從1000個問題訓(xùn)練到20000個問題，在固定計算資源下，性能呈現(xiàn)單調(diào)上升趨勢。這說明多樣化的臨床情境訓(xùn)練比單純的重復(fù)訓(xùn)練更有效，就像醫(yī)學(xué)生需要接觸各種不同病例才能真正成長一樣。

五、推理時智能修正讓AI越來越聰明

研究團隊還開發(fā)了一個特殊功能，讓AI在回答問題時能夠進行自我反思和改進。這個功能基于提煉出的119條醫(yī)療智慧原則，當AI生成一個回答后，它會自動檢查這個回答是否符合相關(guān)的臨床原則，如果發(fā)現(xiàn)不足，會自動進行修正。

這個過程就像一個醫(yī)生在給出診斷建議后，會習(xí)慣性地再檢查一遍："我有沒有遺漏什么重要信息？表達是否恰當？患者能理解嗎？是否考慮了安全因素？"實驗結(jié)果顯示，通過這種自我修正，AI的表現(xiàn)能夠進一步提升，且修正效果在經(jīng)過幾輪后會趨于穩(wěn)定。

測試顯示，無論是使用哪種基礎(chǔ)模型，通過多次推理時修正，HealthBench-Hard的表現(xiàn)都會穩(wěn)步提升。雖然改進幅度會逐漸減小，但這證明了這種方法的普適性和有效性。這意味著即使是現(xiàn)有的AI模型，也可以通過這套原則獲得更好的醫(yī)療咨詢能力。

六、突破性成果重新定義醫(yī)療AI訓(xùn)練標準

這項研究的意義遠超表面的性能提升數(shù)字。它首次證明了一個重要觀點：對于醫(yī)療AI而言，純粹的規(guī)模擴展不如精心設(shè)計的專業(yè)訓(xùn)練。一個經(jīng)過臨床智慧訓(xùn)練的小模型，可以在醫(yī)療應(yīng)用中超越規(guī)模大十倍的通用模型。

研究團隊的方法解決了醫(yī)療AI領(lǐng)域的一個根本性問題：如何讓AI真正理解臨床情境的復(fù)雜性和細致性。傳統(tǒng)方法就像讓學(xué)生只背教科書，而ClinAlign方法則像讓學(xué)生跟著優(yōu)秀的臨床醫(yī)生實習(xí)，學(xué)習(xí)在真實情況下如何恰當應(yīng)對。

更重要的是，這套方法具有很強的可擴展性。119條提煉出的醫(yī)療智慧原則可以應(yīng)用到新的醫(yī)療問題上，不需要每次都重新請醫(yī)生標注。這就像有了一套完整的臨床思維框架，可以指導(dǎo)AI處理各種新遇到的情況。

研究還顯示，這種訓(xùn)練方法不僅提升了醫(yī)療專業(yè)能力，也增強了AI的通用交流能力。這表明，深度的專業(yè)訓(xùn)練實際上能夠促進更廣泛的智能表現(xiàn)，就像一個優(yōu)秀的醫(yī)生往往在其他需要細致溝通的領(lǐng)域也會表現(xiàn)出色。

從計算資源的角度來看，這個研究也具有重要的實用價值。它證明了通過精巧的訓(xùn)練方法，可以用相對較小的模型達到甚至超越大型模型的專業(yè)表現(xiàn)。這對于資源有限的醫(yī)療機構(gòu)來說，提供了一個現(xiàn)實可行的AI應(yīng)用方案。

研究團隊已經(jīng)承諾將完整的數(shù)據(jù)集和工具開源，這意味著全球的研究者都可以基于這套方法來改進醫(yī)療AI。這種開放合作的精神，將加速整個醫(yī)療AI領(lǐng)域的發(fā)展，最終讓更多患者受益于更智能、更貼心的AI醫(yī)療助手。

這項研究為我們展示了一個令人興奮的未來：AI不再是冷冰冰的機器回答，而是能夠像經(jīng)驗豐富的醫(yī)生一樣，在不同情況下給出恰當、安全、有溫度的醫(yī)療建議。當技術(shù)與人文關(guān)懷完美結(jié)合時，我們看到了醫(yī)療AI真正的價值所在。

Q&A

Q1：ClinAlign和傳統(tǒng)醫(yī)療AI訓(xùn)練方法有什么不同？

A：傳統(tǒng)方法讓AI像背書一樣學(xué)習(xí)醫(yī)學(xué)知識，ClinAlign則讓真正的醫(yī)生手把手教AI在不同情況下如何恰當回應(yīng)。就像從紙上談兵變成了跟著師父實習(xí)，AI學(xué)會了不僅要答對，還要答得合適、安全、有溫度。

Q2：為什么小模型訓(xùn)練后能超過大模型性能？

A：因為醫(yī)療咨詢不只是知識問題，更重要的是臨床判斷和溝通技巧。經(jīng)過醫(yī)生驗證的專業(yè)訓(xùn)練讓小模型掌握了關(guān)鍵的臨床智慧，就像一個有經(jīng)驗的專科醫(yī)生比博學(xué)但缺乏臨床經(jīng)驗的醫(yī)學(xué)博士更適合看病一樣。

Q3：普通人什么時候能用上這種更智能的醫(yī)療AI？

A：研究團隊已承諾開源相關(guān)數(shù)據(jù)集和工具，這將加速全球醫(yī)療AI的改進。雖然還需要時間來完善和部署，但這項技術(shù)為開發(fā)更貼心、更安全的AI醫(yī)療助手奠定了重要基礎(chǔ)，相信不久的將來我們就能體驗到。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.