国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻集團團隊顛覆醫(yī)療AI訓(xùn)練方式:用醫(yī)生智慧教AI更懂看病

0
分享至


這項由螞蟻集團聯(lián)合香港中文大學(xué)(深圳)和北京大學(xué)共同完成的研究發(fā)表于2026年2月,研究編號為arXiv:2602.09653v2,為醫(yī)療人工智能的訓(xùn)練方式帶來了突破性的改進。

當我們?nèi)メt(yī)院看病時,好醫(yī)生和普通醫(yī)生的差別在哪里?好醫(yī)生不僅知識豐富,更重要的是,他們知道在什么情況下該說什么話,什么時候該緊張,什么時候該安撫患者。這種細膩的臨床判斷力,正是當前醫(yī)療AI最缺乏的能力。

目前的醫(yī)療AI就像一個只會背書的學(xué)霸。它們在醫(yī)學(xué)考試中表現(xiàn)優(yōu)異,能夠回答各種醫(yī)學(xué)知識問題,但真正面對病人時,卻常常不知道如何恰當?shù)販贤?。比如,當一個焦慮的母親詢問孩子發(fā)燒是否嚴重時,AI可能會機械地列出所有可能的疾病,把人嚇得夠嗆;而經(jīng)驗豐富的兒科醫(yī)生會先安撫情緒,再有針對性地詢問關(guān)鍵癥狀,給出恰當?shù)慕ㄗh。

研究團隊發(fā)現(xiàn)了這個問題的根源:傳統(tǒng)的AI訓(xùn)練方法就像讓學(xué)生只做標準化考試,而忽略了真實的臨床情境訓(xùn)練。為了解決這個問題,他們開發(fā)了一套全新的訓(xùn)練體系,名為ClinAlign(臨床對齊),這套方法的核心思想是讓真正的醫(yī)生來教AI如何在不同情況下給出恰當?shù)幕貞?yīng)。

一、醫(yī)生手把手教AI的智慧傳承體系

研究團隊設(shè)計了一套類似師傅帶徒弟的訓(xùn)練模式。他們首先收集了7034個真實的醫(yī)療咨詢案例,這些案例覆蓋了從簡單的健康咨詢到緊急醫(yī)療建議的各種情況。然后,他們讓GPT-5.1這個強大的AI先給出初步的評判標準,就像讓一個聰明的實習(xí)生先寫個診療方案草稿。

接下來,真正的醫(yī)生登場了。這111位來自不同科室的醫(yī)生,包括外科、內(nèi)科、婦產(chǎn)科等各個專業(yè)領(lǐng)域的主治醫(yī)生和科室主任,開始像批改作業(yè)一樣仔細審查這些AI生成的評判標準。他們不僅要糾正錯誤,更要根據(jù)自己的臨床經(jīng)驗來完善這些標準。

這個過程就像廚師改進食譜一樣。AI給出的初始"食譜"可能在理論上沒問題,但缺乏實際操作的細節(jié)。醫(yī)生們會說:"這里應(yīng)該強調(diào)安全性","那里需要考慮患者的心理感受","遇到緊急情況時措辭要更明確"。經(jīng)過平均1.34輪的修改,每個評判標準都得到了醫(yī)生們的一致認可。

整個過程耗費了632.2個工作小時,成本約15172.80美元。雖然聽起來不少,但考慮到這是在訓(xùn)練一個能服務(wù)千萬患者的醫(yī)療AI,這個投入是非常值得的。最終,他們建立了一個名為HealthRubrics的數(shù)據(jù)集,這相當于一本由經(jīng)驗豐富的醫(yī)生共同編寫的"AI臨床行為指南"。

二、從具體案例中提煉通用醫(yī)療智慧

有了醫(yī)生驗證的7034個具體案例后,研究團隊面臨一個新問題:如何讓AI從這些具體案例中學(xué)會舉一反三?畢竟,真實世界的醫(yī)療咨詢千變?nèi)f化,不可能為每一種情況都準備專門的訓(xùn)練案例。

研究團隊的解決方案非常巧妙,他們開發(fā)了一套叫做HealthPrinciples的系統(tǒng),把醫(yī)生們在具體案例中體現(xiàn)的智慧提煉成119條通用原則。這個過程就像從無數(shù)個成功的烹飪案例中總結(jié)出一套完整的烹飪原理。

這119條原則按照四個維度進行分類:緊急程度、不確定性、用戶專業(yè)程度和任務(wù)類型。緊急程度分為三個級別:非緊急(如常規(guī)健康咨詢)、條件緊急(無法排除重要風險,需要關(guān)鍵信息)、緊急(明確的高風險特征,需要立即保護性行動)。不確定性也分為三個級別:信息充足、可減少的不確定性(通過對話可以澄清)、不可減少的不確定性(需要面診、檢查或化驗)。

用戶專業(yè)程度分為非專業(yè)人士和專業(yè)人士兩類,這很重要,因為對普通患者和醫(yī)學(xué)專業(yè)人員的溝通方式完全不同。任務(wù)類型則細分為21個類別,包括急診分診、癥狀評估、居家護理指導(dǎo)、藥物安全、檢查結(jié)果解讀等等。

每條原則都像一個智慧的提醒。比如,對于"條件緊急"情況的原則是:"用冷靜、非警示性的語言傳達潛在嚴重性;給出有序的下一步:停止不安全暴露,現(xiàn)在就做低風險行動,避免傷害,監(jiān)控癥狀,并具體說明何時何地尋求面診或急診護理。"這樣的表達既體現(xiàn)了醫(yī)學(xué)的專業(yè)性,又保持了人文關(guān)懷。

三、讓AI學(xué)會在不同情況下恰當應(yīng)答

有了這119條通用原則后,研究團隊就可以大規(guī)模地訓(xùn)練AI了。他們又收集了16872個額外的醫(yī)療問題,利用這些原則為每個問題生成恰當?shù)脑u判標準。這個過程就像一個經(jīng)驗豐富的主廚,可以根據(jù)不同食材和顧客需求,快速調(diào)配出合適的調(diào)料配方。

具體來說,當AI遇到一個新的醫(yī)療咨詢時,系統(tǒng)首先會分析這個問題屬于哪個類別:是緊急情況嗎?信息是否充足?咨詢者是專業(yè)人士還是普通患者?主要任務(wù)是什么?然后,系統(tǒng)會從119條原則中選擇相關(guān)的原則,平均每個問題會匹配到22.9條原則。

接著,系統(tǒng)會把這些通用原則轉(zhuǎn)化為針對具體問題的評判標準。比如,如果有人問"我孩子發(fā)燒了怎么辦",系統(tǒng)會識別這是一個"條件緊急"的"癥狀評估"任務(wù),咨詢者是"非專業(yè)人士",然后生成相應(yīng)的評判標準:回答應(yīng)該詢問關(guān)鍵癥狀(如發(fā)燒溫度、持續(xù)時間、伴隨癥狀),提供明確的就醫(yī)指征,使用安撫性語言等。

研究團隊還開發(fā)了一個推理時工具,可以在AI生成回答后,根據(jù)這些原則進行自我修正。這就像給AI配備了一個內(nèi)在的臨床督導(dǎo),隨時提醒它是否遵循了恰當?shù)呐R床溝通原則。

四、訓(xùn)練效果令人驚艷的實際表現(xiàn)

研究團隊使用強化學(xué)習(xí)技術(shù),基于這些醫(yī)生驗證的評判標準來訓(xùn)練AI模型。他們選擇了相對較小的Qwen3-4B模型作為基礎(chǔ),通過精心設(shè)計的訓(xùn)練過程,讓它學(xué)會了如何在不同情況下給出恰當?shù)尼t(yī)療建議。

訓(xùn)練效果簡直令人驚艷。在HealthBench-Hard這個專門測試醫(yī)療AI實用性的嚴格評測中,基礎(chǔ)的Qwen3-4B模型原本只能得到5.2%的分數(shù),經(jīng)過醫(yī)生手工標注的評判標準訓(xùn)練后,分數(shù)躍升到22.9%。當使用提煉的119條通用原則進行大規(guī)模訓(xùn)練后,分數(shù)進一步提升到24.4%。

最令人印象深刻的是,當研究團隊使用稍大一些的Qwen3-30B-A3B模型時,經(jīng)過完整的ClinAlign訓(xùn)練后,在HealthBench-Hard上達到了33.4%的分數(shù)。這個成績不僅超越了許多規(guī)模更大的開源模型,甚至超過了一些知名的商業(yè)模型,包括DeepSeek-R1和o3等。

在其他評測中,這個經(jīng)過特殊訓(xùn)練的醫(yī)療AI同樣表現(xiàn)出色。在LLMEval-Med這個測試醫(yī)療語言理解、推理和安全倫理的綜合評測中,模型在各個子項目上都有顯著提升。特別值得注意的是,這種訓(xùn)練方法不僅提升了醫(yī)療專業(yè)表現(xiàn),在Arena-Hard-v2這個測試通用能力的評測中也有顯著提升,創(chuàng)意寫作分數(shù)從34.9%躍升至79.4%。

研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:隨著訓(xùn)練問題數(shù)量的增加,模型性能持續(xù)提升。從1000個問題訓(xùn)練到20000個問題,在固定計算資源下,性能呈現(xiàn)單調(diào)上升趨勢。這說明多樣化的臨床情境訓(xùn)練比單純的重復(fù)訓(xùn)練更有效,就像醫(yī)學(xué)生需要接觸各種不同病例才能真正成長一樣。

五、推理時智能修正讓AI越來越聰明

研究團隊還開發(fā)了一個特殊功能,讓AI在回答問題時能夠進行自我反思和改進。這個功能基于提煉出的119條醫(yī)療智慧原則,當AI生成一個回答后,它會自動檢查這個回答是否符合相關(guān)的臨床原則,如果發(fā)現(xiàn)不足,會自動進行修正。

這個過程就像一個醫(yī)生在給出診斷建議后,會習(xí)慣性地再檢查一遍:"我有沒有遺漏什么重要信息?表達是否恰當?患者能理解嗎?是否考慮了安全因素?"實驗結(jié)果顯示,通過這種自我修正,AI的表現(xiàn)能夠進一步提升,且修正效果在經(jīng)過幾輪后會趨于穩(wěn)定。

測試顯示,無論是使用哪種基礎(chǔ)模型,通過多次推理時修正,HealthBench-Hard的表現(xiàn)都會穩(wěn)步提升。雖然改進幅度會逐漸減小,但這證明了這種方法的普適性和有效性。這意味著即使是現(xiàn)有的AI模型,也可以通過這套原則獲得更好的醫(yī)療咨詢能力。

六、突破性成果重新定義醫(yī)療AI訓(xùn)練標準

這項研究的意義遠超表面的性能提升數(shù)字。它首次證明了一個重要觀點:對于醫(yī)療AI而言,純粹的規(guī)模擴展不如精心設(shè)計的專業(yè)訓(xùn)練。一個經(jīng)過臨床智慧訓(xùn)練的小模型,可以在醫(yī)療應(yīng)用中超越規(guī)模大十倍的通用模型。

研究團隊的方法解決了醫(yī)療AI領(lǐng)域的一個根本性問題:如何讓AI真正理解臨床情境的復(fù)雜性和細致性。傳統(tǒng)方法就像讓學(xué)生只背教科書,而ClinAlign方法則像讓學(xué)生跟著優(yōu)秀的臨床醫(yī)生實習(xí),學(xué)習(xí)在真實情況下如何恰當應(yīng)對。

更重要的是,這套方法具有很強的可擴展性。119條提煉出的醫(yī)療智慧原則可以應(yīng)用到新的醫(yī)療問題上,不需要每次都重新請醫(yī)生標注。這就像有了一套完整的臨床思維框架,可以指導(dǎo)AI處理各種新遇到的情況。

研究還顯示,這種訓(xùn)練方法不僅提升了醫(yī)療專業(yè)能力,也增強了AI的通用交流能力。這表明,深度的專業(yè)訓(xùn)練實際上能夠促進更廣泛的智能表現(xiàn),就像一個優(yōu)秀的醫(yī)生往往在其他需要細致溝通的領(lǐng)域也會表現(xiàn)出色。

從計算資源的角度來看,這個研究也具有重要的實用價值。它證明了通過精巧的訓(xùn)練方法,可以用相對較小的模型達到甚至超越大型模型的專業(yè)表現(xiàn)。這對于資源有限的醫(yī)療機構(gòu)來說,提供了一個現(xiàn)實可行的AI應(yīng)用方案。

研究團隊已經(jīng)承諾將完整的數(shù)據(jù)集和工具開源,這意味著全球的研究者都可以基于這套方法來改進醫(yī)療AI。這種開放合作的精神,將加速整個醫(yī)療AI領(lǐng)域的發(fā)展,最終讓更多患者受益于更智能、更貼心的AI醫(yī)療助手。

這項研究為我們展示了一個令人興奮的未來:AI不再是冷冰冰的機器回答,而是能夠像經(jīng)驗豐富的醫(yī)生一樣,在不同情況下給出恰當、安全、有溫度的醫(yī)療建議。當技術(shù)與人文關(guān)懷完美結(jié)合時,我們看到了醫(yī)療AI真正的價值所在。

Q&A

Q1:ClinAlign和傳統(tǒng)醫(yī)療AI訓(xùn)練方法有什么不同?

A:傳統(tǒng)方法讓AI像背書一樣學(xué)習(xí)醫(yī)學(xué)知識,ClinAlign則讓真正的醫(yī)生手把手教AI在不同情況下如何恰當回應(yīng)。就像從紙上談兵變成了跟著師父實習(xí),AI學(xué)會了不僅要答對,還要答得合適、安全、有溫度。

Q2:為什么小模型訓(xùn)練后能超過大模型性能?

A:因為醫(yī)療咨詢不只是知識問題,更重要的是臨床判斷和溝通技巧。經(jīng)過醫(yī)生驗證的專業(yè)訓(xùn)練讓小模型掌握了關(guān)鍵的臨床智慧,就像一個有經(jīng)驗的專科醫(yī)生比博學(xué)但缺乏臨床經(jīng)驗的醫(yī)學(xué)博士更適合看病一樣。

Q3:普通人什么時候能用上這種更智能的醫(yī)療AI?

A:研究團隊已承諾開源相關(guān)數(shù)據(jù)集和工具,這將加速全球醫(yī)療AI的改進。雖然還需要時間來完善和部署,但這項技術(shù)為開發(fā)更貼心、更安全的AI醫(yī)療助手奠定了重要基礎(chǔ),相信不久的將來我們就能體驗到。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
男子走失25年后漂洋過?;貒J親:第一次用微信支付買了兒時吃過的冰糖葫蘆,賬號注冊1小時粉絲已破7000

男子走失25年后漂洋過?;貒J親:第一次用微信支付買了兒時吃過的冰糖葫蘆,賬號注冊1小時粉絲已破7000

極目新聞
2026-02-28 17:53:15
當一個人不再聯(lián)系你,最好的對策,1個字

當一個人不再聯(lián)系你,最好的對策,1個字

十點讀書
2026-02-27 19:01:46
英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導(dǎo)彈給伊朗!

英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導(dǎo)彈給伊朗!

快看張同學(xué)
2026-02-26 14:22:43
女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

離離言幾許
2026-02-27 21:13:58
特朗普:美國正在“大規(guī)?!贝驌粢晾?消息人士:伊朗遇難者身份將令人震驚

特朗普:美國正在“大規(guī)模”打擊伊朗 消息人士:伊朗遇難者身份將令人震驚

環(huán)球網(wǎng)資訊
2026-02-28 16:16:05
擊落全部巡航導(dǎo)彈和高超音速導(dǎo)彈!俄軍最優(yōu)秀防空專家陣亡

擊落全部巡航導(dǎo)彈和高超音速導(dǎo)彈!俄軍最優(yōu)秀防空專家陣亡

鷹眼Defence
2026-02-28 16:56:22
突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

股市皆大事
2026-02-28 16:03:03
最高領(lǐng)袖辦公室附近遭襲,伊朗權(quán)力體系如何“去中心化”強化韌性?

最高領(lǐng)袖辦公室附近遭襲,伊朗權(quán)力體系如何“去中心化”強化韌性?

澎湃新聞
2026-02-28 15:10:31
美國關(guān)閉GPS,導(dǎo)彈依舊精準轟炸以色列,誰干的?中國還是俄羅斯

美國關(guān)閉GPS,導(dǎo)彈依舊精準轟炸以色列,誰干的?中國還是俄羅斯

高山非凡創(chuàng)作
2024-05-09 05:48:13
訪華回國后默茨真急了:中國太拼,我們得加油了

訪華回國后默茨真急了:中國太拼,我們得加油了

界面新聞
2026-02-28 15:07:04
火爆沖突!多爾特絆倒約基奇二級惡犯被驅(qū)逐 約基奇推搡杰林均吃T

火爆沖突!多爾特絆倒約基奇二級惡犯被驅(qū)逐 約基奇推搡杰林均吃T

醉臥浮生
2026-02-28 12:59:52
以色列突然襲擊伊朗,不是強拉美國上車,而是為特朗普緩解壓力

以色列突然襲擊伊朗,不是強拉美國上車,而是為特朗普緩解壓力

以辛德之名
2026-02-28 15:29:13
特朗普應(yīng)該想不到:他對伊朗的滅國之戰(zhàn),讓中俄歐看清了一個真相

特朗普應(yīng)該想不到:他對伊朗的滅國之戰(zhàn),讓中俄歐看清了一個真相

頭條爆料007
2026-02-28 18:49:20
外媒:伊朗擊落一架美軍機,價值幾十億的戰(zhàn)略飛機

外媒:伊朗擊落一架美軍機,價值幾十億的戰(zhàn)略飛機

大國之翼
2026-02-28 06:30:03
伊朗唯一的反擊手段恐遭破解!面對美以聯(lián)合打擊,如何絕境逢生?

伊朗唯一的反擊手段恐遭破解!面對美以聯(lián)合打擊,如何絕境逢生?

儒雅隨和老泰勒
2026-02-28 15:41:41
伊朗高層投降意志不夠堅決,美以斬首戰(zhàn)開打

伊朗高層投降意志不夠堅決,美以斬首戰(zhàn)開打

深度財線
2026-02-28 15:25:43
持續(xù)4天空襲!從德黑蘭到伊斯法罕:美以優(yōu)先癱瘓伊朗指揮體系

持續(xù)4天空襲!從德黑蘭到伊斯法罕:美以優(yōu)先癱瘓伊朗指揮體系

裝甲鏟史官
2026-02-28 16:11:24
太扎心了!火化名單全是40到50歲中年男性,一殯儀館大廳信息流出

太扎心了!火化名單全是40到50歲中年男性,一殯儀館大廳信息流出

火山詩話
2026-02-28 07:08:55
建業(yè)集團董事長胡葆森滯留香港

建業(yè)集團董事長胡葆森滯留香港

地產(chǎn)微資訊
2026-02-28 12:39:40
大熊貓“半半”“香果” 因病救治無效死亡

大熊貓“半半”“香果” 因病救治無效死亡

界面新聞
2026-02-28 18:10:45
2026-02-28 20:36:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
1958文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

房產(chǎn)
本地
家居
公開課
軍事航空

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

本地新聞

津南好·四時總相宜

家居要聞

素色肌理 品意式格調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關(guān)懷版