ETH蘇黎世聯(lián)合多機構(gòu)研究團隊打造"AI放射科醫(yī)生助手"

2026-04-27 21:34:28　來源: 科技行者

北京舉報

分享至

這項由蘇黎世聯(lián)邦理工學(xué)院生物系統(tǒng)科學(xué)與工程系、ETH AI中心、蘇黎世聯(lián)邦理工學(xué)院計算機系、海德堡大學(xué)、斯坦福大學(xué)醫(yī)學(xué)人工智能與影像中心、斯坦福大學(xué)放射科、蘇黎世大學(xué)定量生物醫(yī)學(xué)系以及蘇黎世應(yīng)用科學(xué)大學(xué)計算機科學(xué)系聯(lián)合開展的研究，于2026年4月16日以預(yù)印本形式發(fā)布，論文編號為arXiv:2604.15231v1。感興趣的讀者可以通過該編號在arXiv平臺查閱完整論文。

一、當AI讀CT片變成一個"黑箱"，醫(yī)生如何信任它？

每天，全球的放射科醫(yī)生都要對著厚厚的CT掃描圖像逐層分析，一份胸部CT往往包含數(shù)百張切面圖像，光是看完就需要相當?shù)臅r間和精力。正因如此，用人工智能來輔助、甚至自動生成影像報告的呼聲越來越高，而近年來涌現(xiàn)出的各種三維視覺-語言模型（可以理解為"能看懂3D醫(yī)學(xué)圖像并用文字描述的AI"）也確實展現(xiàn)出了不錯的性能。

然而，一個根本問題始終懸而未決：AI給出了一份診斷報告，但醫(yī)生完全不知道它是怎么得出這個結(jié)論的。就好比你雇了一位新來的助手，他每天遞給你一份分析報告，但從來不解釋他是怎么查的、看了哪些資料、經(jīng)過了怎樣的推理——你敢直接簽字嗎？在涉及生命健康的醫(yī)學(xué)診斷領(lǐng)域，這種"黑箱"式的AI輸出是一個相當嚴重的問題。醫(yī)生無法審查推理過程，無法驗證證據(jù)來源，也無法在AI犯錯時及時發(fā)現(xiàn)并糾正。

正是為了解決這個核心矛盾，來自多所頂尖機構(gòu)的研究團隊開發(fā)了RadAgent——一個能夠"邊查邊說、有據(jù)可查"的AI放射科助手。它不是簡單地讀完CT圖像然后吐出一份報告，而是像一位認真的住院醫(yī)生一樣，按照規(guī)范的診斷清單逐項核查，調(diào)用各種專業(yè)分析工具，把每一步的思考和發(fā)現(xiàn)都記錄下來，最終綜合所有證據(jù)給出報告。整個過程透明、可追溯，醫(yī)生可以打開"查閱記錄"，看清楚每一個診斷結(jié)論是如何一步一步推導(dǎo)出來的。

二、一位會使用工具的"住院醫(yī)生"：RadAgent是怎么工作的？

理解RadAgent的工作方式，可以把它想成一位剛上崗的住院醫(yī)生，配備了十種專業(yè)檢查儀器，手邊有一份標準的胸部CT診斷核查清單，還有一本隨時記錄臨時發(fā)現(xiàn)的工作日志。

整個診斷流程分幾個階段展開。接到任務(wù)后，這位"住院醫(yī)生"會先調(diào)用一個叫CT-Chat的工具，它是一個專門為3D CT圖像設(shè)計的視覺-語言模型，負責(zé)快速瀏覽整個CT體積并生成一份初步報告草稿，就像住院醫(yī)生先快速瀏覽一遍片子，形成初步印象。有了這份草稿之后，RadAgent并不就此停步，而是翻開診斷核查清單，開始逐項審查。

這份核查清單由研究團隊中的放射科醫(yī)生設(shè)計，涵蓋了胸部CT必須檢查的九大類別，包括氣道（氣管的位置、管徑、壁厚，以及主支氣管、支氣管擴張等情況）、肺實質(zhì)（肺結(jié)節(jié)、腫塊、局灶性異常，以及磨玻璃影、實變等彌漫性改變）、胸膜（積液、氣胸、胸膜增厚）、心臟（心包積液、冠狀動脈、心腔）、心血管和縱隔（主動脈、肺動脈、縱隔淋巴結(jié)等）、膈肌和上腹部臟器、脊柱和骨骼、胸壁、以及體內(nèi)醫(yī)療器械（導(dǎo)管、起搏器、手術(shù)夾等）。

在逐項核查的過程中，RadAgent會根據(jù)當前需要判斷該調(diào)用哪種工具，向工具提出具體的診斷問題，接收工具的回答，將新的發(fā)現(xiàn)記錄到"工作日志"（也就是系統(tǒng)中的暫存區(qū)，論文里稱之為scratchpad），并據(jù)此更新自己的臨時診斷清單。如果不同工具給出了矛盾的結(jié)果，它還會繼續(xù)調(diào)用更多工具來協(xié)調(diào)和仲裁，直到形成一個沒有矛盾的共識。最終，當它認為已經(jīng)收集了足夠充分的證據(jù)，便將工作日志中的所有發(fā)現(xiàn)綜合整理，生成最終診斷報告。

這個循環(huán)迭代的工作方式在計算機科學(xué)中有個專業(yè)名稱叫"ReAct模式"（推理與行動相結(jié)合），但對普通人來說，只需要理解它的本質(zhì)：不是一次性地"看了就說"，而是"看了想一想、查一查、再想一想、再查一查"，直到有把握了才給出結(jié)論。

三、十件專業(yè)儀器：RadAgent的工具箱里都有什么？

如果說RadAgent是那位住院醫(yī)生，那么它手邊的工具箱就是這套系統(tǒng)真正的"硬件支撐"。研究團隊為RadAgent配備了十種專業(yè)工具，每種工具都有自己的專長。

第一類是視覺問答工具，分3D和2D兩種。3D視覺問答工具（ct_vqa）基于CT-Chat模型，可以接收整個CT體積和一個自然語言問題，比如"肺部有沒有結(jié)節(jié)？"然后給出文字回答。這就像你可以對助手說"幫我看看這個病人的整個CT里有沒有胸腔積液"，助手能直接看完整個3D數(shù)據(jù)集后告訴你。2D視覺問答工具（slice_vqa）則基于谷歌的Gemma-3-27B模型，它不能直接處理3D數(shù)據(jù)，需要先從CT中提取出2D切面圖像，然后對這些切面進行問答。它就像一位專門看單張X光片的專家，看不了立體數(shù)據(jù)，但對切面圖像的理解能力非常強。

第二類是疾病分類工具（disease_classifier），基于CT-CLIP模型。這個工具會把整個CT體積掃描一遍，直接輸出18種常見胸部疾病的概率估計，包括心臟擴大、胸腔積液、肺氣腫、肺實變、支氣管擴張等。它更像一個"篩查儀器"，快速告訴你哪些病值得重點關(guān)注。

第三類是報告生成工具（report_generation），同樣基于CT-Chat模型，專門負責(zé)根據(jù)CT圖像生成完整的文字報告草稿。它是RadAgent在開始核查之前調(diào)用的第一個工具，相當于先起草一份初稿。

第四類是分割工具，分兩種。解剖結(jié)構(gòu)分割工具（anatomy_segmentation）基于TotalSegmentator，能夠識別并標記出CT中的特定解剖結(jié)構(gòu)，比如肝臟、脾臟、腎臟、肺葉、心臟、主動脈等，生成對應(yīng)的三維掩碼圖像。積液分割工具（effusion_segmentation）則專門用于識別胸腔積液和心包積液，生成兩個獨立的分割結(jié)果，可以直接用于可視化或進一步分析。

第五類是切面選擇工具，共三種。最大切面選擇工具（biggest_slice_selection）接收CT和對應(yīng)的分割掩碼，找出每個病變區(qū)域中面積最大的軸位切面，也就是異常最明顯的那一層。多切面選擇工具（get_several_slices_from_segmentation）則能在每個病變區(qū)域中均勻提取若干張（默認3張）切面，捕捉病變的全貌。直接切面提取工具（extract_slices_from_ct）不需要分割掩碼，直接從CT中均勻提取若干張切面（默認5張軸位、冠位或矢狀位），適合在沒有預(yù)先分割結(jié)果時快速獲取概覽圖像。

第六類是窗寬窗位調(diào)整工具（windowing）。CT圖像在不同的"窗口設(shè)置"下會呈現(xiàn)出截然不同的內(nèi)容——肺窗下肺部紋理清晰，骨窗下骨骼細節(jié)突出，腹部窗下軟組織對比度更好，縱隔窗下心臟和大血管輪廓分明。這個工具支持這四種常用預(yù)設(shè)，可以處理完整的3D CT體積，也可以處理已經(jīng)提取的2D切面圖像。

所有這十種工具都通過一種叫做MCP（模型上下文協(xié)議）的標準接口連接到RadAgent，整個系統(tǒng)部署在兩個計算節(jié)點上共八塊GPU上：一個節(jié)點運行RadAgent的主體決策模型，另一個節(jié)點上的四塊GPU分別運行各種工具模型。這種分布式部署保證了系統(tǒng)能夠高效運轉(zhuǎn)，而MCP接口的設(shè)計也確保了未來可以很方便地加入新工具。

四、強化學(xué)習(xí)：讓RadAgent學(xué)會"聰明地用工具"

有工具只是第一步，更關(guān)鍵的問題是RadAgent如何知道什么時候該用什么工具、怎么用才能達到最好的效果？這正是研究團隊引入強化學(xué)習(xí)（Reinforcement Learning，簡稱RL）訓(xùn)練的核心目的。

可以用一個通俗的比方來理解這個過程。剛才說RadAgent像住院醫(yī)生，現(xiàn)在想象一下這位住院醫(yī)生在實習(xí)期間面對一個特殊的考核機制：每次完成一份診斷報告后，都會有一套評分系統(tǒng)從多個維度給他打分，包括報告的準確性、工具使用的合理性、有沒有遺漏核查清單上的項目、以及整個檢查流程有沒有邏輯意義。這位醫(yī)生會不斷接收反饋、調(diào)整自己的行為方式，逐漸摸索出最有效的診斷策略。這就是強化學(xué)習(xí)的核心邏輯。

具體來說，RadAgent的核心決策模型是阿里巴巴開發(fā)的開源大型語言模型Qwen3-14B（140億參數(shù)），采用了一種叫做LoRA的參數(shù)高效微調(diào)方法進行訓(xùn)練，在8塊NVIDIA GH200 GPU上運行。訓(xùn)練算法是GRPO（群體相對策略優(yōu)化），每個訓(xùn)練樣本會生成8個不同的"嘗試版本"，通過比較這些版本的得分來更新模型參數(shù)。

整個訓(xùn)練過程持續(xù)150步，使用了CT-RATE數(shù)據(jù)集中的訓(xùn)練集數(shù)據(jù)。研究團隊還專門從訓(xùn)練集中劃出1000個樣本作為驗證集，在訓(xùn)練過程中監(jiān)控模型性能，直到驗證指標不再提升為止。

五、精心設(shè)計的"評分卡"：獎勵函數(shù)的秘密

強化學(xué)習(xí)的靈魂在于獎勵函數(shù)——也就是那張"評分卡"。設(shè)計得好，AI能學(xué)到真正有用的行為；設(shè)計得不好，AI可能學(xué)到各種歪門邪道來"騙分"。研究團隊為RadAgent設(shè)計了一套復(fù)合獎勵體系，由五個維度的分數(shù)組成。

報告質(zhì)量獎勵由兩部分構(gòu)成。第一部分基于CT-RATE數(shù)據(jù)集提供的18種常見病理的標簽，用一個專門訓(xùn)練的文本分類器從生成報告中提取病理標簽，然后與真實標簽計算F1分數(shù)（一種綜合考慮召回率和精確率的評分指標）。第二部分叫做異常發(fā)現(xiàn)F1分，由另一個推理模型（Qwen3-30B-A3B-Thinking）負責(zé)從候選報告和參考報告中分別提取異常發(fā)現(xiàn)，然后逐一比對哪些發(fā)現(xiàn)完全匹配、哪些部分匹配（比如病種對了但位置說錯了）、哪些完全缺失，并據(jù)此計算精確率和召回率，最終合并為F1分數(shù)，部分匹配的發(fā)現(xiàn)會獲得0.5倍的積分。為了提高可靠性，這個評分過程會進行兩輪，第二輪負責(zé)審核并修正第一輪的判斷。這兩部分之和構(gòu)成總報告質(zhì)量獎勵。

工具使用質(zhì)量由三個指標衡量。工具調(diào)用成功率指的是所有工具調(diào)用中成功執(zhí)行的比例，鼓勵A(yù)I學(xué)會正確地調(diào)用工具而不是胡亂調(diào)用。工具多樣性分數(shù)衡量AI使用了多少種不同的工具，分子是使用的不同工具數(shù)量，分母是可用工具總數(shù)，這是為了鼓勵A(yù)I主動探索和使用各種工具，而不是總是依賴同一兩種熟悉的工具。工具調(diào)用邏輯連貫性分數(shù)則衡量工具調(diào)用鏈的合理性：每一次工具調(diào)用，要么它的輸出被直接用于最終報告，要么它的輸出被后續(xù)的工具調(diào)用所消費。如果某個工具調(diào)用的結(jié)果被完全無視，既沒有體現(xiàn)在報告里也沒有傳遞給下一步，那就屬于"無效調(diào)用"，會拉低這個分數(shù)。

此外還有一個LLM評判分數(shù)（RtoolJudge），由一個大型語言模型扮演評委，閱讀完整的對話軌跡后從兩個角度打分：一是工具調(diào)用序列整體是否連貫合理（比如調(diào)用分割工具后是否真的用了分割結(jié)果，同樣的工具和參數(shù)是否只調(diào)用一次，流程是否不必要地冗長），二是AI是否覆蓋了診斷核查清單上的所有項目。每個維度打1到5分，兩者之和除以10構(gòu)成最終的LLM評判分數(shù)。

特別值得一提的是，這套獎勵體系采用了分階段的課程式訓(xùn)練策略。在前90個訓(xùn)練步驟中，使用早期獎勵方案，給工具多樣性和連貫性較高的權(quán)重，給LLM評判分數(shù)較低的權(quán)重（只有0.1權(quán)重），目的是讓AI在早期能夠自由探索各種工具調(diào)用策略，形成多樣化的行為模式。進入后90步后，切換到晚期獎勵方案，降低多樣性權(quán)重，提高LLM評判分數(shù)的權(quán)重（提升到0.2），重點約束AI遵循核查清單并保持調(diào)用邏輯的連貫性。

這種兩階段設(shè)計的必要性在消融實驗中得到了驗證：如果從一開始就施加LLM評判約束，會過早地懲罰"探索性"的調(diào)用序列，導(dǎo)致AI保守地固守少數(shù)幾種工具，報告質(zhì)量反而更差；但如果全程都不加LLM評判約束，AI在后期會逐漸放棄核查清單，產(chǎn)生越來越多邏輯不連貫的工具調(diào)用。先放開探索、再收緊約束，是兩全其美的訓(xùn)練策略。

六、在兩個數(shù)據(jù)集上證明自己：RadAgent的成績單

研究團隊使用了兩個數(shù)據(jù)集來評估RadAgent的性能。CT-RATE數(shù)據(jù)集包含25692份非對比增強胸部CT掃描和配對的放射科報告，來自21304名患者，是當前3D CT分析領(lǐng)域最重要的公開基準之一。除了官方提供的訓(xùn)練集和測試集，研究團隊還額外劃出了1000個樣本作為內(nèi)部驗證集。RadChestCT是由杜克大學(xué)衛(wèi)生系統(tǒng)收集的大規(guī)模數(shù)據(jù)集，包含約36316份非對比增強胸部CT，在掃描儀類型、采集參數(shù)和重建設(shè)置上具有很高的異質(zhì)性，是測試模型泛化能力的重要外部評估基準。目前該數(shù)據(jù)集公開了約10%的部分（3632份），研究團隊使用這部分作為外部測試集。

在評估指標的選擇上，研究團隊做了一番考量，并解釋了為何不采用一些現(xiàn)有指標。GREEN分數(shù)（一種基于LLM評判的報告評分方法）被發(fā)現(xiàn)存在明顯的"長度偏差"問題——當參考報告包含大量關(guān)于正常發(fā)現(xiàn)的陳述，而候選報告只聚焦于異常發(fā)現(xiàn)時，GREEN分數(shù)會大幅降低，即使候選報告準確識別了所有異常。在醫(yī)學(xué)報告中，不提及某個發(fā)現(xiàn)通常就意味著該區(qū)域正常，因此這種偏差會扭曲評估結(jié)果，讓那些只會套模板列舉大量"正常"的報告獲得不當?shù)母叻帧?/p>

相比之下，CT-RATE提供的18種常見病理標簽體系更合理：只關(guān)注異常是否被正確識別，用專門訓(xùn)練的文本分類器從生成報告中提取病理標簽，然后計算與真實標簽之間的宏觀F1（每種病理同等權(quán)重）和微觀F1（按樣本頻率加權(quán)）。這個方法已成為CT-RATE相關(guān)研究中最廣泛使用的評估體系。

在CT-RATE測試集上，RadAgent的宏觀F1達到約0.32，比基線CT-Chat的約0.26提升了6.0個百分點，相當于36.4%的相對提升；微觀F1達到約0.33，比基線的約0.27提升了5.4個百分點，相當于19.6%的相對提升。這兩個差異都經(jīng)過了統(tǒng)計顯著性檢驗，置信度為95%。在CT-RATE驗證集和外部的RadChestCT數(shù)據(jù)集上，類似的改善同樣可以觀察到，表明RadAgent的提升不是對特定數(shù)據(jù)集的過擬合，而是真實的泛化性能改善。

從具體病理的F1分數(shù)分析來看，RadAgent的提升主要集中在基線模型本來就表現(xiàn)不佳的那些病理上，也就是那些相對罕見或更難識別的病理。對于基線模型已經(jīng)能夠很好識別的常見病理，兩者差距相對較小。這種規(guī)律符合直覺：工具輔助的逐項核查方式對那些容易被遺漏或誤判的病理幫助最大。

七、沒有強化學(xué)習(xí)訓(xùn)練會怎樣？對比實驗揭示RL的價值

研究團隊還專門評估了"無強化學(xué)習(xí)訓(xùn)練版本"的RadAgent，也就是保留完整工具箱和診斷核查清單、但不進行RL優(yōu)化的版本。這相當于測試：僅靠工具的存在和提示詞設(shè)計，RadAgent能走多遠？

結(jié)果頗為有趣。在宏觀F1指標上，即便沒有RL訓(xùn)練，僅憑工具的存在，這個版本就已經(jīng)能夠超過CT-Chat基線。這說明工具的加入本身就帶來了顯著價值。然而，在外部的RadChestCT數(shù)據(jù)集上，未經(jīng)訓(xùn)練的版本在微觀F1上反而不如CT-Chat基線，甚至被基線顯著超過。經(jīng)過RL訓(xùn)練后，這種情況發(fā)生了逆轉(zhuǎn)——訓(xùn)練后的RadAgent在外部數(shù)據(jù)集上顯著優(yōu)于CT-Chat。

這個結(jié)果說明：RL訓(xùn)練的價值不只是"讓AI學(xué)會用工具"，更重要的是"讓AI學(xué)會正確地、高效地、穩(wěn)健地用工具"。沒有訓(xùn)練時，AI可能以一種低效或不合理的方式使用工具，在熟悉的數(shù)據(jù)分布上能湊合，但遇到分布略有不同的外部數(shù)據(jù)時就暴露了問題。訓(xùn)練過后，AI掌握了更通用的工具使用策略，在陌生數(shù)據(jù)集上的表現(xiàn)也更加穩(wěn)健。

八、不被"錯誤提示"忽悠：魯棒性測試

僅僅生成更準確的報告還不夠——研究團隊還關(guān)心另一個關(guān)鍵問題：如果有人在請求中夾帶了錯誤的"提示信息"，RadAgent會不會被帶偏？

為了測試這一點，研究團隊設(shè)計了一個精心控制的實驗。從CT-RATE測試集中隨機抽取1000個病例，對每個病例隨機挑選一種病理，然后構(gòu)造兩種修改版的問題：一種加入正確提示（比如"我覺得這個掃描顯示了動脈壁鈣化"，而該患者確實有這個發(fā)現(xiàn)），另一種加入錯誤提示（比如同樣這句話，但該患者實際上沒有動脈壁鈣化）。同時保留原始的無提示版本的預(yù)測結(jié)果。

魯棒性被定義為：在原始情況下模型判斷正確的那些病例中，即便被喂入了錯誤提示，模型依然能保持正確判斷的比例。換句話說，魯棒性衡量的是"抵抗錯誤誘導(dǎo)"的能力。

結(jié)果顯示，RadAgent的魯棒性為83.7%，而CT-Chat只有58.9%，差距達到24.7個百分點。這意味著當有人告訴RadAgent"我覺得這個病人有X病"，而實際上沒有，RadAgent能以更高的概率通過工具驗證發(fā)現(xiàn)這個提示是錯的，并堅持正確判斷；而CT-Chat則更容易被這類錯誤提示帶偏。

研究團隊將這個現(xiàn)象歸因于RadAgent的迭代驗證機制：當收到一個提示說可能有某種病時，它會調(diào)用相應(yīng)的分割工具、視覺問答工具等進行核查，如果工具的返回結(jié)果無法支持這個假設(shè)，它就會在工作日志中記錄"工具未找到支持證據(jù)"，并最終以工具證據(jù)為準。這相當于用客觀檢查來對抗主觀偏見。

九、說了真話才算誠實：忠實性測試

與魯棒性測試同步進行的，還有一個叫做"忠實性"（faithfulness）的評估。這個概念來源于陳等人的相關(guān)研究，核心思想是：如果一個模型確實被某個提示信息影響了最終判斷，那么它的報告或生成過程應(yīng)當明確承認這種影響；如果影響存在但從不被承認，就是不忠實的。

可以用一個例子來理解這個區(qū)別。假設(shè)一個醫(yī)生在看CT片時，邊上有人提示說"我感覺這個病人可能有肺結(jié)節(jié)"，這個提示影響了醫(yī)生，導(dǎo)致他在原本不確定的情況下在報告中寫上了"發(fā)現(xiàn)細小肺結(jié)節(jié)"。忠實的做法是在報告或記錄中寫上"參考臨床提示，懷疑有肺結(jié)節(jié)"；不忠實的做法是假裝這個發(fā)現(xiàn)完全來自于獨立的影像觀察，報告里不提任何提示的存在。

在這個測試中，判斷"是否承認了提示的影響"由另一個強大的AI模型（Qwen3-235B-A22B-Instruct-2507）來完成，它會閱讀整個對話軌跡和最終報告，判斷其中是否有明確提及提示信息的影響。為了驗證這個AI判斷的可靠性，研究團隊還用GPT模型對隨機子集進行了二次標注，結(jié)果顯示Qwen的判斷準確率在RadAgent案例中為91%，在CT-Chat案例中為100%，說明這個評判方法是可靠的。

測試結(jié)果非常清晰：CT-Chat的忠實性得分是0%，也就是說，在所有被錯誤提示影響而改變了判斷的案例中，CT-Chat從未在報告中承認這種影響。它的報告總是看起來完全基于影像證據(jù)，毫無破綻，但實際上結(jié)論已經(jīng)被提示偷偷改變了。而RadAgent的忠實性達到了37%，也就是說，在被提示影響的案例中，有37%的情況下，它的診斷軌跡或最終報告明確提及了提示信息的存在。

研究團隊指出，這一差距源于兩種系統(tǒng)的本質(zhì)架構(gòu)差異。CT-Chat是"一步生成"模式——輸入CT圖像和問題，直接輸出報告，中間沒有任何外部可見的推理步驟，因此即使內(nèi)部被提示影響了，也沒有任何機會在輸出中反映這種影響。RadAgent則有完整的、外部可見的推理軌跡，每一步工具調(diào)用和思考過程都被記錄，當工具無法支持提示中的假設(shè)時，這種矛盾就會自然呈現(xiàn)在軌跡中，并有機會被反映到最終報告里。

當然，37%仍然遠非完美——研究團隊也坦誠指出這一點留有很大的提升空間，未來需要更多工作來進一步提高AI系統(tǒng)的忠實性。

十、這項研究的更大意義：AI診斷的未來走向

歸根結(jié)底，RadAgent所代表的不只是一個性能更好的CT報告生成工具，它更像是一次關(guān)于"AI輔助醫(yī)療診斷應(yīng)該是什么樣子"的思想實驗和實證探索。

研究團隊在討論中提出了幾個值得深思的視角。第一，RadAgent的訓(xùn)練過程本身可以被理解為一個"自動發(fā)現(xiàn)高效診斷策略"的過程。與其讓研究人員手工設(shè)計最優(yōu)的工具調(diào)用流程，不如讓AI通過強化學(xué)習(xí)自己摸索出一套有效策略。從系統(tǒng)學(xué)到的工具調(diào)用軌跡（研究中用?；鶊D可視化呈現(xiàn)）來看，AI形成了以報告生成開頭、繼以疾病分類、然后反復(fù)調(diào)用3D視覺問答工具進行逐項核查的主要策略，這與臨床實踐中的工作流程頗為吻合。

第二，一旦通過RL找到了有效策略，理論上可以將其"蒸餾"為一個固定的推理流程。這對于計算資源分配有實際價值——可以為最常用的工具預(yù)分配更多GPU資源，關(guān)閉很少被用到的工具，從而在不損失性能的前提下降低運營成本。這種固定流程在醫(yī)療監(jiān)管環(huán)境中也有額外優(yōu)勢，因為監(jiān)管部門通常要求系統(tǒng)行為穩(wěn)定可預(yù)期，并需要前瞻性的臨床驗證。

第三，RadAgent的框架為人機協(xié)作打開了新的可能?？梢栽O(shè)想這樣一種工作模式：RadAgent先運行完整的診斷流程，生成報告和完整的推理軌跡；然后放射科醫(yī)生打開軌跡記錄，檢查某個具體發(fā)現(xiàn)是怎么被確認的，如果覺得某個環(huán)節(jié)有疑問，可以直接在RadAgent環(huán)境中追加查詢，比如"把左側(cè)胸腔積液的分割結(jié)果顯示出來"，直接在CT上看看AI的判斷是否有視覺支撐。這種"可以被審查和追問"的AI，與傳統(tǒng)的"黑箱AI"相比，在臨床信任度上有本質(zhì)的不同。

第四，研究團隊也坦誠地討論了局限性。計算資源需求是一個實際障礙——整個系統(tǒng)需要兩個計算節(jié)點共八塊高性能GPU才能運行，對于資源受限的醫(yī)療機構(gòu)來說門檻很高。另外，訓(xùn)練好的RadAgent是針對特定工具組合優(yōu)化的，一旦工具集發(fā)生重大變化（比如某個工具被更新的版本替代），可能需要重新運行RL訓(xùn)練流程。不過研究團隊也指出，這恰恰進一步凸顯了"可訓(xùn)練的RL智能體"相對于"手工設(shè)計固定流程"的優(yōu)勢——只要有新工具，就可以重新訓(xùn)練，而手工設(shè)計的流程則需要人工重新設(shè)計。

說到底，RadAgent的故事是一個關(guān)于"透明度"和"可信賴性"的故事。在醫(yī)療AI領(lǐng)域，性能固然重要，但如果臨床醫(yī)生無法信任、無法驗證一個AI系統(tǒng)的輸出，再好的性能也難以在實際工作中發(fā)揮價值。通過引入迭代驗證、工具調(diào)用軌跡和診斷核查清單，RadAgent走出了讓AI診斷"從黑箱變成玻璃箱"的關(guān)鍵一步。這個方向是否會成為未來醫(yī)療AI的主流路徑，目前還是一個開放的問題，但RadAgent提供的實證證據(jù)，無疑是一個有說服力的論據(jù)。

Q&A

Q1：RadAgent與普通的CT報告AI系統(tǒng)有什么本質(zhì)區(qū)別？

A：普通的3D視覺語言模型（如CT-Chat）采用"一步生成"模式，直接把CT圖像輸入后輸出報告，中間沒有可見的推理過程，醫(yī)生無法了解AI是如何得出結(jié)論的。RadAgent則是一個"工具調(diào)用+迭代推理"的代理系統(tǒng)，它會按照診斷清單逐項核查，調(diào)用十種專業(yè)工具收集證據(jù)，把每一步的思考和工具返回結(jié)果都記錄在可視的軌跡中，最終綜合所有證據(jù)才給出報告。整個過程透明可追溯，醫(yī)生可以審查每個診斷結(jié)論的來源。

Q2：RadAgent的強化學(xué)習(xí)訓(xùn)練獎勵函數(shù)是怎么設(shè)計的？

A：RadAgent的獎勵函數(shù)由五部分構(gòu)成：報告質(zhì)量由兩種F1分數(shù)衡量（基于18種病理標簽的分類F1，以及基于LLM提取異常發(fā)現(xiàn)的匹配F1）；工具使用質(zhì)量包括調(diào)用成功率、工具多樣性比例、工具調(diào)用邏輯連貫性；另有一個LLM評判分數(shù)評估清單覆蓋率和流程合理性。訓(xùn)練分兩階段：前90步鼓勵自由探索，給多樣性更高權(quán)重；后60步收緊約束，加大清單遵從和邏輯連貫性的權(quán)重。

Q3：RadAgent的忠實性測試為什么CT-Chat得分是0%？

A：忠實性測試檢查的是：當模型被錯誤提示影響而改變了判斷時，報告中有沒有明確承認這種影響。CT-Chat得0%是因為它采用單步生成模式，輸入圖像和問題后直接輸出報告，沒有任何中間推理軌跡被記錄，即便內(nèi)部被提示影響了，也完全沒有機會在輸出中體現(xiàn)這種影響。結(jié)果就是報告總是看起來完全基于影像，但實際結(jié)論可能已被提示悄悄改變，這是"黑箱"架構(gòu)的固有缺陷。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.