伊斯法罕醫(yī)科大學(xué)：小型語言模型也能準(zhǔn)確識別波斯語醫(yī)療信息

2026-02-27 23:01:04　來源: 至頂AI實驗室

北京舉報

分享至

這項來自伊斯法罕醫(yī)科大學(xué)學(xué)生研究委員會的突破性研究發(fā)表于2026年，論文編號為arXiv:2602.21374v1。對于那些關(guān)心醫(yī)療技術(shù)發(fā)展的讀者來說，這項研究具有重要意義，因為它首次證明了相對較小的人工智能模型也能在資源有限的環(huán)境中處理非英語醫(yī)療數(shù)據(jù)，這為全球醫(yī)療保健的公平性開辟了新的可能性。

在當(dāng)今的數(shù)字醫(yī)療時代，人工智能就像一位永不疲倦的醫(yī)療助手，能夠從大量的病歷和醫(yī)療記錄中快速提取關(guān)鍵信息。然而，絕大多數(shù)這類技術(shù)都是為英語設(shè)計的，就好比一個只會說英語的翻譯，面對其他語言的文檔就束手無策了。更令人頭疼的是，那些表現(xiàn)出色的大型人工智能模型往往需要巨大的計算資源，就像需要一座發(fā)電廠才能運轉(zhuǎn)的超級計算機，這對于醫(yī)療資源本就緊張的地區(qū)來說幾乎是不可能負(fù)擔(dān)的。

研究團(tuán)隊面臨的挑戰(zhàn)就像是要在一個偏遠(yuǎn)小鎮(zhèn)上建立一套完整的醫(yī)療信息處理系統(tǒng)。這個小鎮(zhèn)使用的是當(dāng)?shù)卣Z言（波斯語），而且電力供應(yīng)有限，無法支撐那些需要大量電力的設(shè)備。傳統(tǒng)的解決方案要么是引入昂貴的大型設(shè)備，要么是將所有數(shù)據(jù)發(fā)送到遠(yuǎn)程的處理中心，但這樣做不僅成本高昂，還可能泄露患者的隱私信息。

為了解決這個難題，研究團(tuán)隊設(shè)計了一個巧妙的兩步驟方案。第一步是使用一個叫做Aya-expanse-8B的翻譯模型，它就像一個精通波斯語和英語的醫(yī)療翻譯員，能夠?qū)⒉ㄋ拐Z的醫(yī)療記錄準(zhǔn)確翻譯成英語。第二步則是使用五個不同大小的小型語言模型來分析這些翻譯后的內(nèi)容，就像安排五個不同專業(yè)背景的醫(yī)生來審閱同一份病歷，每個醫(yī)生都有自己的特長和局限性。

這五個模型分別是Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct、Qwen2.5-1.5B-Instruct和Gemma-3-1B-it。它們的名字雖然聽起來很技術(shù)化，但可以簡單理解為五個不同"體重"的人工智能助手。其中7B和8B的模型就像經(jīng)驗豐富的主治醫(yī)師，而1.5B和1B的模型則像是剛?cè)肼毜淖≡横t(yī)師，各有各的優(yōu)勢和不足。

研究團(tuán)隊選擇了一個非常實際的測試場景：分析來自癌癥姑息治療呼叫中心的1221通電話記錄。姑息治療專注于減輕患者痛苦、提高生活質(zhì)量，這些電話記錄就像是患者和家屬向醫(yī)護(hù)人員傾訴的心聲，包含了大量關(guān)于癥狀、需求和擔(dān)憂的信息。研究人員需要從這些對話中提取13種不同的臨床特征，包括疼痛、發(fā)熱、呼吸困難、心理困擾等癥狀，以及患者對醫(yī)生就診、保險費用等問題的關(guān)切。

為了確保研究結(jié)果的可靠性，團(tuán)隊采用了人工標(biāo)注作為金標(biāo)準(zhǔn)。就像廚師品嘗菜品需要有標(biāo)準(zhǔn)的味覺基準(zhǔn)一樣，研究人員讓兩名專家獨立審閱每一份記錄，標(biāo)記出其中包含的癥狀和問題。當(dāng)兩人意見不一致時，由資深研究者進(jìn)行最終裁決，確保每份數(shù)據(jù)都有準(zhǔn)確的參考答案。

在模型訓(xùn)練方面，研究團(tuán)隊采用了"少樣本提示"的方法，這就像是給新員工提供幾個工作示例，然后讓他們按照這些示例來處理新任務(wù)。具體來說，他們?yōu)槊總€模型提供了系統(tǒng)指令和三個輸入輸出示例，告訴模型應(yīng)該如何識別和提取醫(yī)療信息。這種方法的優(yōu)勢在于不需要大量的訓(xùn)練數(shù)據(jù)，就像不需要讓學(xué)徒花費數(shù)年時間學(xué)習(xí)，只需要通過幾個精心設(shè)計的案例就能掌握基本技能。

研究結(jié)果令人振奮。在這場"醫(yī)療信息提取競賽"中，Qwen2.5-7B-Instruct表現(xiàn)最為出色，它的綜合評分達(dá)到了0.899分（滿分1分），這意味著它能夠正確識別將近90%的醫(yī)療信息。這個成績就像是一個學(xué)生在考試中獲得了89.9分，雖然不是滿分，但已經(jīng)是相當(dāng)優(yōu)秀的表現(xiàn)了。

更有趣的是，研究團(tuán)隊發(fā)現(xiàn)了一個重要規(guī)律：模型的"體重"（參數(shù)數(shù)量）與性能之間存在明顯的關(guān)系。那些參數(shù)更多的模型（7B-8B）就像經(jīng)驗更豐富的醫(yī)生，在識別各種癥狀時表現(xiàn)更加穩(wěn)定和準(zhǔn)確。相比之下，較小的模型（1B-3B）雖然運行更快、占用資源更少，但在處理復(fù)雜癥狀時容易出現(xiàn)遺漏。

在具體的癥狀識別方面，研究發(fā)現(xiàn)了一個有趣的現(xiàn)象：生理癥狀比心理和行政類問題更容易被識別。疼痛是所有模型表現(xiàn)最好的特征，準(zhǔn)確率高達(dá)93%，這可能是因為患者在描述疼痛時通常會使用比較直接和具體的語言。發(fā)熱和呼吸系統(tǒng)癥狀也表現(xiàn)不錯，大多數(shù)模型的識別準(zhǔn)確率都超過了90%。

然而，當(dāng)涉及到更復(fù)雜的癥狀時，模型的表現(xiàn)就開始分化了。比如虛弱疲勞、意識水平下降等癥狀，以及心理抱怨，這些往往需要更細(xì)致的判斷和理解。最具挑戰(zhàn)性的是患者要求看醫(yī)生這類行政需求，最好的模型也只能達(dá)到83.2%的準(zhǔn)確率，而表現(xiàn)最差的只有41%。這就像是人工智能在理解直接的身體癥狀方面已經(jīng)相當(dāng)不錯，但在理解人類的復(fù)雜需求和情感表達(dá)方面還有待提高。

研究的另一個重要發(fā)現(xiàn)涉及翻譯的影響。團(tuán)隊比較了直接處理波斯語和先翻譯成英語再處理的效果差異。結(jié)果發(fā)現(xiàn)，翻譯成英語后再處理能夠提高模型的敏感性，也就是說，更不容易遺漏真正存在的癥狀。這就像是給醫(yī)生提供了一份更清晰的病歷，能夠幫助他們發(fā)現(xiàn)更多的問題。

具體來說，英語版本的綜合評分為0.855，而直接處理波斯語的評分為0.842。雖然差異不大，但翻譯版本在減少遺漏方面表現(xiàn)更好，這對于醫(yī)療應(yīng)用來說是非常重要的，因為遺漏癥狀可能導(dǎo)致嚴(yán)重后果。不過，翻譯也帶來了一些副作用，比如可能增加誤報率，也就是把不存在的癥狀識別為存在。

有趣的是，在某些癥狀的識別上，直接處理波斯語反而表現(xiàn)更好。特別是心理抱怨、睡眠障礙、食欲不振等相對主觀的癥狀，波斯語版本的識別準(zhǔn)確率更高。這可能是因為這些癥狀的表達(dá)往往帶有文化色彩，直接翻譯可能會丟失一些微妙的語言nuances。

從實際應(yīng)用的角度來看，這項研究為醫(yī)療資源有限的地區(qū)提供了一個可行的解決方案。傳統(tǒng)的大型人工智能模型需要強大的服務(wù)器和穩(wěn)定的網(wǎng)絡(luò)連接，就像需要在醫(yī)院里建設(shè)一個大型數(shù)據(jù)中心。而這些小型模型可以在普通的電腦上運行，甚至可以完全在本地處理數(shù)據(jù)，不需要將敏感的患者信息發(fā)送到云端，這大大降低了隱私泄露的風(fēng)險。

研究團(tuán)隊特別強調(diào)了隱私保護(hù)的重要性。他們使用的所有模型都可以在本地運行，不需要調(diào)用外部的在線服務(wù)。這就像是在醫(yī)院內(nèi)部培訓(xùn)了一個專門的醫(yī)療助手，所有的患者信息都不會離開醫(yī)院，從而最大程度地保護(hù)了患者隱私。這對于處理敏感醫(yī)療數(shù)據(jù)來說是至關(guān)重要的。

從技術(shù)實現(xiàn)的角度來看，整個系統(tǒng)相當(dāng)節(jié)約資源。所有的實驗都在一臺配備24GB顯存的L4 GPU和8GB內(nèi)存的計算機上完成，這樣的配置在今天的標(biāo)準(zhǔn)下并不昂貴，許多中等規(guī)模的醫(yī)療機構(gòu)都能夠負(fù)擔(dān)得起。這意味著這項技術(shù)不僅理論上可行，在實踐中也具有很好的可推廣性。

研究還揭示了一些有價值的性能權(quán)衡關(guān)系。較大的模型在識別真實癥狀方面表現(xiàn)更好（高敏感性），這意味著它們不容易遺漏問題，這在醫(yī)療場景中非常重要。而較小的模型在避免誤報方面表現(xiàn)更好（高特異性），也就是說它們不容易把正常情況誤判為有問題。這種差異為不同應(yīng)用場景提供了選擇的依據(jù)：如果更擔(dān)心遺漏問題，可以選擇較大的模型；如果更關(guān)注避免不必要的醫(yī)療干預(yù)，可以選擇較小的模型。

研究團(tuán)隊使用了多種評價指標(biāo)來全面衡量模型性能，其中馬修斯相關(guān)系數(shù)（MCC）是一個特別重要的指標(biāo)。這個指標(biāo)就像是一個公正的裁判，能夠在數(shù)據(jù)不平衡的情況下給出客觀的評價。在醫(yī)療數(shù)據(jù)中，某些癥狀可能很少見，而某些癥狀相對常見，普通的準(zhǔn)確率指標(biāo)可能會被常見癥狀主導(dǎo)，而MCC能夠平衡地考慮各種情況的識別效果。

研究的局限性也很明顯。首先，數(shù)據(jù)集相對較小，只有1221通電話記錄，而且都來自同一個癌癥姑息治療中心，這可能限制了結(jié)果的普遍適用性。其次，翻譯過程可能會引入噪音，改變原始語言中的某些細(xì)微含義。此外，研究僅涉及姑息治療這一個特定醫(yī)療領(lǐng)域，其他醫(yī)療?？频那闆r可能有所不同。

盡管存在這些局限性，這項研究的意義依然重大。它首次系統(tǒng)性地證明了小型開源語言模型在處理非英語醫(yī)療信息提取任務(wù)中的可行性，為低資源語言的醫(yī)療信息化提供了新的思路。特別是對于那些無法負(fù)擔(dān)昂貴的大型人工智能系統(tǒng)、但又迫切需要提高醫(yī)療效率的地區(qū)來說，這項研究提供了一個實用的解決方案。

從更廣闊的視角來看，這項研究反映了人工智能民主化的趨勢。過去，先進(jìn)的人工智能技術(shù)主要掌握在少數(shù)大型科技公司手中，就像昂貴的醫(yī)療設(shè)備只有大醫(yī)院才能擁有一樣。而隨著小型高效模型的發(fā)展，這些技術(shù)正在變得更加普及和可及，讓更多的機構(gòu)和地區(qū)能夠受益。

研究的實際應(yīng)用前景非常廣闊。在癌癥姑息治療領(lǐng)域，這樣的系統(tǒng)可以幫助醫(yī)護(hù)人員快速了解患者的主要癥狀和需求，從而更有針對性地提供支持。在資源有限的醫(yī)療環(huán)境中，這種自動化的信息提取可以顯著減輕醫(yī)護(hù)人員的工作負(fù)擔(dān)，讓他們有更多時間專注于直接的患者護(hù)理。

對于政策制定者來說，這項研究提供了推動醫(yī)療信息化的新思路。傳統(tǒng)的醫(yī)療信息化往往需要大量投資購買昂貴的系統(tǒng)和設(shè)備，而基于小型語言模型的解決方案可能為資源有限的醫(yī)療機構(gòu)提供了一條更可行的路徑。這對于促進(jìn)醫(yī)療公平、縮小地區(qū)間醫(yī)療水平差距具有重要意義。

展望未來，研究團(tuán)隊建議在更大規(guī)模、多中心的數(shù)據(jù)集上驗證這些發(fā)現(xiàn)，并擴展到其他醫(yī)療專科和語言。同時，他們也認(rèn)識到需要建立更完善的人工監(jiān)督機制，確保人工智能系統(tǒng)在實際應(yīng)用中的安全性和可靠性。畢竟，醫(yī)療是一個容不得馬虎的領(lǐng)域，任何自動化系統(tǒng)都需要與人類專家的判斷相結(jié)合。

說到底，這項研究最大的價值在于它為醫(yī)療人工智能的普及化開辟了新的道路。它證明了我們不必總是依賴那些資源消耗巨大的"重型武器"，有時候一些"輕巧靈活"的工具同樣能夠解決實際問題。對于那些正在努力提升醫(yī)療服務(wù)質(zhì)量、但資源相對有限的醫(yī)療機構(gòu)來說，這項研究提供了一個充滿希望的選擇。更重要的是，它讓我們看到了一個更加公平的未來：無論身處何地、使用何種語言，每個人都有可能享受到人工智能帶來的醫(yī)療服務(wù)改善。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2602.21374v1查詢完整研究內(nèi)容。

Q&A

Q1：小型語言模型在波斯語醫(yī)療信息提取中的準(zhǔn)確率有多高？

A：研究中表現(xiàn)最好的Qwen2.5-7B-Instruct模型達(dá)到了89.9%的綜合準(zhǔn)確率。在具體癥狀識別方面，疼痛識別準(zhǔn)確率最高達(dá)93%，發(fā)熱和呼吸癥狀也超過90%，但心理問題和行政需求的識別相對較難，準(zhǔn)確率在40-83%之間。

Q2：翻譯成英語處理和直接用波斯語處理哪個效果更好？

A：各有優(yōu)勢。翻譯成英語后處理能減少癥狀遺漏，綜合評分0.855略高于直接波斯語處理的0.842，但可能增加誤報。而直接波斯語處理在識別心理抱怨、睡眠障礙等主觀癥狀方面表現(xiàn)更好，因為避免了翻譯中的文化語言細(xì)節(jié)丟失。

Q3：這些小型語言模型需要什么樣的硬件配置才能運行？

A：研究使用的硬件配置相當(dāng)經(jīng)濟實用：一臺配備24GB顯存的L4 GPU和8GB內(nèi)存的計算機就能完成所有處理。這樣的配置對中等規(guī)模醫(yī)療機構(gòu)來說是可負(fù)擔(dān)的，而且可以完全本地運行，不需要網(wǎng)絡(luò)連接或向云端發(fā)送患者數(shù)據(jù)，有效保護(hù)隱私。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.