国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ETH蘇黎世聯(lián)合多機構(gòu)研究團隊打造"AI放射科醫(yī)生助手"

0
分享至


這項由蘇黎世聯(lián)邦理工學(xué)院生物系統(tǒng)科學(xué)與工程系、ETH AI中心、蘇黎世聯(lián)邦理工學(xué)院計算機系、海德堡大學(xué)、斯坦福大學(xué)醫(yī)學(xué)人工智能與影像中心、斯坦福大學(xué)放射科、蘇黎世大學(xué)定量生物醫(yī)學(xué)系以及蘇黎世應(yīng)用科學(xué)大學(xué)計算機科學(xué)系聯(lián)合開展的研究,于2026年4月16日以預(yù)印本形式發(fā)布,論文編號為arXiv:2604.15231v1。感興趣的讀者可以通過該編號在arXiv平臺查閱完整論文。

一、當AI讀CT片變成一個"黑箱",醫(yī)生如何信任它?

每天,全球的放射科醫(yī)生都要對著厚厚的CT掃描圖像逐層分析,一份胸部CT往往包含數(shù)百張切面圖像,光是看完就需要相當?shù)臅r間和精力。正因如此,用人工智能來輔助、甚至自動生成影像報告的呼聲越來越高,而近年來涌現(xiàn)出的各種三維視覺-語言模型(可以理解為"能看懂3D醫(yī)學(xué)圖像并用文字描述的AI")也確實展現(xiàn)出了不錯的性能。

然而,一個根本問題始終懸而未決:AI給出了一份診斷報告,但醫(yī)生完全不知道它是怎么得出這個結(jié)論的。就好比你雇了一位新來的助手,他每天遞給你一份分析報告,但從來不解釋他是怎么查的、看了哪些資料、經(jīng)過了怎樣的推理——你敢直接簽字嗎?在涉及生命健康的醫(yī)學(xué)診斷領(lǐng)域,這種"黑箱"式的AI輸出是一個相當嚴重的問題。醫(yī)生無法審查推理過程,無法驗證證據(jù)來源,也無法在AI犯錯時及時發(fā)現(xiàn)并糾正。

正是為了解決這個核心矛盾,來自多所頂尖機構(gòu)的研究團隊開發(fā)了RadAgent——一個能夠"邊查邊說、有據(jù)可查"的AI放射科助手。它不是簡單地讀完CT圖像然后吐出一份報告,而是像一位認真的住院醫(yī)生一樣,按照規(guī)范的診斷清單逐項核查,調(diào)用各種專業(yè)分析工具,把每一步的思考和發(fā)現(xiàn)都記錄下來,最終綜合所有證據(jù)給出報告。整個過程透明、可追溯,醫(yī)生可以打開"查閱記錄",看清楚每一個診斷結(jié)論是如何一步一步推導(dǎo)出來的。

二、一位會使用工具的"住院醫(yī)生":RadAgent是怎么工作的?

理解RadAgent的工作方式,可以把它想成一位剛上崗的住院醫(yī)生,配備了十種專業(yè)檢查儀器,手邊有一份標準的胸部CT診斷核查清單,還有一本隨時記錄臨時發(fā)現(xiàn)的工作日志。

整個診斷流程分幾個階段展開。接到任務(wù)后,這位"住院醫(yī)生"會先調(diào)用一個叫CT-Chat的工具,它是一個專門為3D CT圖像設(shè)計的視覺-語言模型,負責(zé)快速瀏覽整個CT體積并生成一份初步報告草稿,就像住院醫(yī)生先快速瀏覽一遍片子,形成初步印象。有了這份草稿之后,RadAgent并不就此停步,而是翻開診斷核查清單,開始逐項審查。

這份核查清單由研究團隊中的放射科醫(yī)生設(shè)計,涵蓋了胸部CT必須檢查的九大類別,包括氣道(氣管的位置、管徑、壁厚,以及主支氣管、支氣管擴張等情況)、肺實質(zhì)(肺結(jié)節(jié)、腫塊、局灶性異常,以及磨玻璃影、實變等彌漫性改變)、胸膜(積液、氣胸、胸膜增厚)、心臟(心包積液、冠狀動脈、心腔)、心血管和縱隔(主動脈、肺動脈、縱隔淋巴結(jié)等)、膈肌和上腹部臟器、脊柱和骨骼、胸壁、以及體內(nèi)醫(yī)療器械(導(dǎo)管、起搏器、手術(shù)夾等)。

在逐項核查的過程中,RadAgent會根據(jù)當前需要判斷該調(diào)用哪種工具,向工具提出具體的診斷問題,接收工具的回答,將新的發(fā)現(xiàn)記錄到"工作日志"(也就是系統(tǒng)中的暫存區(qū),論文里稱之為scratchpad),并據(jù)此更新自己的臨時診斷清單。如果不同工具給出了矛盾的結(jié)果,它還會繼續(xù)調(diào)用更多工具來協(xié)調(diào)和仲裁,直到形成一個沒有矛盾的共識。最終,當它認為已經(jīng)收集了足夠充分的證據(jù),便將工作日志中的所有發(fā)現(xiàn)綜合整理,生成最終診斷報告。

這個循環(huán)迭代的工作方式在計算機科學(xué)中有個專業(yè)名稱叫"ReAct模式"(推理與行動相結(jié)合),但對普通人來說,只需要理解它的本質(zhì):不是一次性地"看了就說",而是"看了想一想、查一查、再想一想、再查一查",直到有把握了才給出結(jié)論。

三、十件專業(yè)儀器:RadAgent的工具箱里都有什么?

如果說RadAgent是那位住院醫(yī)生,那么它手邊的工具箱就是這套系統(tǒng)真正的"硬件支撐"。研究團隊為RadAgent配備了十種專業(yè)工具,每種工具都有自己的專長。

第一類是視覺問答工具,分3D和2D兩種。3D視覺問答工具(ct_vqa)基于CT-Chat模型,可以接收整個CT體積和一個自然語言問題,比如"肺部有沒有結(jié)節(jié)?"然后給出文字回答。這就像你可以對助手說"幫我看看這個病人的整個CT里有沒有胸腔積液",助手能直接看完整個3D數(shù)據(jù)集后告訴你。2D視覺問答工具(slice_vqa)則基于谷歌的Gemma-3-27B模型,它不能直接處理3D數(shù)據(jù),需要先從CT中提取出2D切面圖像,然后對這些切面進行問答。它就像一位專門看單張X光片的專家,看不了立體數(shù)據(jù),但對切面圖像的理解能力非常強。

第二類是疾病分類工具(disease_classifier),基于CT-CLIP模型。這個工具會把整個CT體積掃描一遍,直接輸出18種常見胸部疾病的概率估計,包括心臟擴大、胸腔積液、肺氣腫、肺實變、支氣管擴張等。它更像一個"篩查儀器",快速告訴你哪些病值得重點關(guān)注。

第三類是報告生成工具(report_generation),同樣基于CT-Chat模型,專門負責(zé)根據(jù)CT圖像生成完整的文字報告草稿。它是RadAgent在開始核查之前調(diào)用的第一個工具,相當于先起草一份初稿。

第四類是分割工具,分兩種。解剖結(jié)構(gòu)分割工具(anatomy_segmentation)基于TotalSegmentator,能夠識別并標記出CT中的特定解剖結(jié)構(gòu),比如肝臟、脾臟、腎臟、肺葉、心臟、主動脈等,生成對應(yīng)的三維掩碼圖像。積液分割工具(effusion_segmentation)則專門用于識別胸腔積液和心包積液,生成兩個獨立的分割結(jié)果,可以直接用于可視化或進一步分析。

第五類是切面選擇工具,共三種。最大切面選擇工具(biggest_slice_selection)接收CT和對應(yīng)的分割掩碼,找出每個病變區(qū)域中面積最大的軸位切面,也就是異常最明顯的那一層。多切面選擇工具(get_several_slices_from_segmentation)則能在每個病變區(qū)域中均勻提取若干張(默認3張)切面,捕捉病變的全貌。直接切面提取工具(extract_slices_from_ct)不需要分割掩碼,直接從CT中均勻提取若干張切面(默認5張軸位、冠位或矢狀位),適合在沒有預(yù)先分割結(jié)果時快速獲取概覽圖像。

第六類是窗寬窗位調(diào)整工具(windowing)。CT圖像在不同的"窗口設(shè)置"下會呈現(xiàn)出截然不同的內(nèi)容——肺窗下肺部紋理清晰,骨窗下骨骼細節(jié)突出,腹部窗下軟組織對比度更好,縱隔窗下心臟和大血管輪廓分明。這個工具支持這四種常用預(yù)設(shè),可以處理完整的3D CT體積,也可以處理已經(jīng)提取的2D切面圖像。

所有這十種工具都通過一種叫做MCP(模型上下文協(xié)議)的標準接口連接到RadAgent,整個系統(tǒng)部署在兩個計算節(jié)點上共八塊GPU上:一個節(jié)點運行RadAgent的主體決策模型,另一個節(jié)點上的四塊GPU分別運行各種工具模型。這種分布式部署保證了系統(tǒng)能夠高效運轉(zhuǎn),而MCP接口的設(shè)計也確保了未來可以很方便地加入新工具。

四、強化學(xué)習(xí):讓RadAgent學(xué)會"聰明地用工具"

有工具只是第一步,更關(guān)鍵的問題是RadAgent如何知道什么時候該用什么工具、怎么用才能達到最好的效果?這正是研究團隊引入強化學(xué)習(xí)(Reinforcement Learning,簡稱RL)訓(xùn)練的核心目的。

可以用一個通俗的比方來理解這個過程。剛才說RadAgent像住院醫(yī)生,現(xiàn)在想象一下這位住院醫(yī)生在實習(xí)期間面對一個特殊的考核機制:每次完成一份診斷報告后,都會有一套評分系統(tǒng)從多個維度給他打分,包括報告的準確性、工具使用的合理性、有沒有遺漏核查清單上的項目、以及整個檢查流程有沒有邏輯意義。這位醫(yī)生會不斷接收反饋、調(diào)整自己的行為方式,逐漸摸索出最有效的診斷策略。這就是強化學(xué)習(xí)的核心邏輯。

具體來說,RadAgent的核心決策模型是阿里巴巴開發(fā)的開源大型語言模型Qwen3-14B(140億參數(shù)),采用了一種叫做LoRA的參數(shù)高效微調(diào)方法進行訓(xùn)練,在8塊NVIDIA GH200 GPU上運行。訓(xùn)練算法是GRPO(群體相對策略優(yōu)化),每個訓(xùn)練樣本會生成8個不同的"嘗試版本",通過比較這些版本的得分來更新模型參數(shù)。

整個訓(xùn)練過程持續(xù)150步,使用了CT-RATE數(shù)據(jù)集中的訓(xùn)練集數(shù)據(jù)。研究團隊還專門從訓(xùn)練集中劃出1000個樣本作為驗證集,在訓(xùn)練過程中監(jiān)控模型性能,直到驗證指標不再提升為止。

五、精心設(shè)計的"評分卡":獎勵函數(shù)的秘密

強化學(xué)習(xí)的靈魂在于獎勵函數(shù)——也就是那張"評分卡"。設(shè)計得好,AI能學(xué)到真正有用的行為;設(shè)計得不好,AI可能學(xué)到各種歪門邪道來"騙分"。研究團隊為RadAgent設(shè)計了一套復(fù)合獎勵體系,由五個維度的分數(shù)組成。

報告質(zhì)量獎勵由兩部分構(gòu)成。第一部分基于CT-RATE數(shù)據(jù)集提供的18種常見病理的標簽,用一個專門訓(xùn)練的文本分類器從生成報告中提取病理標簽,然后與真實標簽計算F1分數(shù)(一種綜合考慮召回率和精確率的評分指標)。第二部分叫做異常發(fā)現(xiàn)F1分,由另一個推理模型(Qwen3-30B-A3B-Thinking)負責(zé)從候選報告和參考報告中分別提取異常發(fā)現(xiàn),然后逐一比對哪些發(fā)現(xiàn)完全匹配、哪些部分匹配(比如病種對了但位置說錯了)、哪些完全缺失,并據(jù)此計算精確率和召回率,最終合并為F1分數(shù),部分匹配的發(fā)現(xiàn)會獲得0.5倍的積分。為了提高可靠性,這個評分過程會進行兩輪,第二輪負責(zé)審核并修正第一輪的判斷。這兩部分之和構(gòu)成總報告質(zhì)量獎勵。

工具使用質(zhì)量由三個指標衡量。工具調(diào)用成功率指的是所有工具調(diào)用中成功執(zhí)行的比例,鼓勵A(yù)I學(xué)會正確地調(diào)用工具而不是胡亂調(diào)用。工具多樣性分數(shù)衡量AI使用了多少種不同的工具,分子是使用的不同工具數(shù)量,分母是可用工具總數(shù),這是為了鼓勵A(yù)I主動探索和使用各種工具,而不是總是依賴同一兩種熟悉的工具。工具調(diào)用邏輯連貫性分數(shù)則衡量工具調(diào)用鏈的合理性:每一次工具調(diào)用,要么它的輸出被直接用于最終報告,要么它的輸出被后續(xù)的工具調(diào)用所消費。如果某個工具調(diào)用的結(jié)果被完全無視,既沒有體現(xiàn)在報告里也沒有傳遞給下一步,那就屬于"無效調(diào)用",會拉低這個分數(shù)。

此外還有一個LLM評判分數(shù)(RtoolJudge),由一個大型語言模型扮演評委,閱讀完整的對話軌跡后從兩個角度打分:一是工具調(diào)用序列整體是否連貫合理(比如調(diào)用分割工具后是否真的用了分割結(jié)果,同樣的工具和參數(shù)是否只調(diào)用一次,流程是否不必要地冗長),二是AI是否覆蓋了診斷核查清單上的所有項目。每個維度打1到5分,兩者之和除以10構(gòu)成最終的LLM評判分數(shù)。

特別值得一提的是,這套獎勵體系采用了分階段的課程式訓(xùn)練策略。在前90個訓(xùn)練步驟中,使用早期獎勵方案,給工具多樣性和連貫性較高的權(quán)重,給LLM評判分數(shù)較低的權(quán)重(只有0.1權(quán)重),目的是讓AI在早期能夠自由探索各種工具調(diào)用策略,形成多樣化的行為模式。進入后90步后,切換到晚期獎勵方案,降低多樣性權(quán)重,提高LLM評判分數(shù)的權(quán)重(提升到0.2),重點約束AI遵循核查清單并保持調(diào)用邏輯的連貫性。

這種兩階段設(shè)計的必要性在消融實驗中得到了驗證:如果從一開始就施加LLM評判約束,會過早地懲罰"探索性"的調(diào)用序列,導(dǎo)致AI保守地固守少數(shù)幾種工具,報告質(zhì)量反而更差;但如果全程都不加LLM評判約束,AI在后期會逐漸放棄核查清單,產(chǎn)生越來越多邏輯不連貫的工具調(diào)用。先放開探索、再收緊約束,是兩全其美的訓(xùn)練策略。

六、在兩個數(shù)據(jù)集上證明自己:RadAgent的成績單

研究團隊使用了兩個數(shù)據(jù)集來評估RadAgent的性能。CT-RATE數(shù)據(jù)集包含25692份非對比增強胸部CT掃描和配對的放射科報告,來自21304名患者,是當前3D CT分析領(lǐng)域最重要的公開基準之一。除了官方提供的訓(xùn)練集和測試集,研究團隊還額外劃出了1000個樣本作為內(nèi)部驗證集。RadChestCT是由杜克大學(xué)衛(wèi)生系統(tǒng)收集的大規(guī)模數(shù)據(jù)集,包含約36316份非對比增強胸部CT,在掃描儀類型、采集參數(shù)和重建設(shè)置上具有很高的異質(zhì)性,是測試模型泛化能力的重要外部評估基準。目前該數(shù)據(jù)集公開了約10%的部分(3632份),研究團隊使用這部分作為外部測試集。

在評估指標的選擇上,研究團隊做了一番考量,并解釋了為何不采用一些現(xiàn)有指標。GREEN分數(shù)(一種基于LLM評判的報告評分方法)被發(fā)現(xiàn)存在明顯的"長度偏差"問題——當參考報告包含大量關(guān)于正常發(fā)現(xiàn)的陳述,而候選報告只聚焦于異常發(fā)現(xiàn)時,GREEN分數(shù)會大幅降低,即使候選報告準確識別了所有異常。在醫(yī)學(xué)報告中,不提及某個發(fā)現(xiàn)通常就意味著該區(qū)域正常,因此這種偏差會扭曲評估結(jié)果,讓那些只會套模板列舉大量"正常"的報告獲得不當?shù)母叻帧?/p>

相比之下,CT-RATE提供的18種常見病理標簽體系更合理:只關(guān)注異常是否被正確識別,用專門訓(xùn)練的文本分類器從生成報告中提取病理標簽,然后計算與真實標簽之間的宏觀F1(每種病理同等權(quán)重)和微觀F1(按樣本頻率加權(quán))。這個方法已成為CT-RATE相關(guān)研究中最廣泛使用的評估體系。

在CT-RATE測試集上,RadAgent的宏觀F1達到約0.32,比基線CT-Chat的約0.26提升了6.0個百分點,相當于36.4%的相對提升;微觀F1達到約0.33,比基線的約0.27提升了5.4個百分點,相當于19.6%的相對提升。這兩個差異都經(jīng)過了統(tǒng)計顯著性檢驗,置信度為95%。在CT-RATE驗證集和外部的RadChestCT數(shù)據(jù)集上,類似的改善同樣可以觀察到,表明RadAgent的提升不是對特定數(shù)據(jù)集的過擬合,而是真實的泛化性能改善。

從具體病理的F1分數(shù)分析來看,RadAgent的提升主要集中在基線模型本來就表現(xiàn)不佳的那些病理上,也就是那些相對罕見或更難識別的病理。對于基線模型已經(jīng)能夠很好識別的常見病理,兩者差距相對較小。這種規(guī)律符合直覺:工具輔助的逐項核查方式對那些容易被遺漏或誤判的病理幫助最大。

七、沒有強化學(xué)習(xí)訓(xùn)練會怎樣?對比實驗揭示RL的價值

研究團隊還專門評估了"無強化學(xué)習(xí)訓(xùn)練版本"的RadAgent,也就是保留完整工具箱和診斷核查清單、但不進行RL優(yōu)化的版本。這相當于測試:僅靠工具的存在和提示詞設(shè)計,RadAgent能走多遠?

結(jié)果頗為有趣。在宏觀F1指標上,即便沒有RL訓(xùn)練,僅憑工具的存在,這個版本就已經(jīng)能夠超過CT-Chat基線。這說明工具的加入本身就帶來了顯著價值。然而,在外部的RadChestCT數(shù)據(jù)集上,未經(jīng)訓(xùn)練的版本在微觀F1上反而不如CT-Chat基線,甚至被基線顯著超過。經(jīng)過RL訓(xùn)練后,這種情況發(fā)生了逆轉(zhuǎn)——訓(xùn)練后的RadAgent在外部數(shù)據(jù)集上顯著優(yōu)于CT-Chat。

這個結(jié)果說明:RL訓(xùn)練的價值不只是"讓AI學(xué)會用工具",更重要的是"讓AI學(xué)會正確地、高效地、穩(wěn)健地用工具"。沒有訓(xùn)練時,AI可能以一種低效或不合理的方式使用工具,在熟悉的數(shù)據(jù)分布上能湊合,但遇到分布略有不同的外部數(shù)據(jù)時就暴露了問題。訓(xùn)練過后,AI掌握了更通用的工具使用策略,在陌生數(shù)據(jù)集上的表現(xiàn)也更加穩(wěn)健。

八、不被"錯誤提示"忽悠:魯棒性測試

僅僅生成更準確的報告還不夠——研究團隊還關(guān)心另一個關(guān)鍵問題:如果有人在請求中夾帶了錯誤的"提示信息",RadAgent會不會被帶偏?

為了測試這一點,研究團隊設(shè)計了一個精心控制的實驗。從CT-RATE測試集中隨機抽取1000個病例,對每個病例隨機挑選一種病理,然后構(gòu)造兩種修改版的問題:一種加入正確提示(比如"我覺得這個掃描顯示了動脈壁鈣化",而該患者確實有這個發(fā)現(xiàn)),另一種加入錯誤提示(比如同樣這句話,但該患者實際上沒有動脈壁鈣化)。同時保留原始的無提示版本的預(yù)測結(jié)果。

魯棒性被定義為:在原始情況下模型判斷正確的那些病例中,即便被喂入了錯誤提示,模型依然能保持正確判斷的比例。換句話說,魯棒性衡量的是"抵抗錯誤誘導(dǎo)"的能力。

結(jié)果顯示,RadAgent的魯棒性為83.7%,而CT-Chat只有58.9%,差距達到24.7個百分點。這意味著當有人告訴RadAgent"我覺得這個病人有X病",而實際上沒有,RadAgent能以更高的概率通過工具驗證發(fā)現(xiàn)這個提示是錯的,并堅持正確判斷;而CT-Chat則更容易被這類錯誤提示帶偏。

研究團隊將這個現(xiàn)象歸因于RadAgent的迭代驗證機制:當收到一個提示說可能有某種病時,它會調(diào)用相應(yīng)的分割工具、視覺問答工具等進行核查,如果工具的返回結(jié)果無法支持這個假設(shè),它就會在工作日志中記錄"工具未找到支持證據(jù)",并最終以工具證據(jù)為準。這相當于用客觀檢查來對抗主觀偏見。

九、說了真話才算誠實:忠實性測試

與魯棒性測試同步進行的,還有一個叫做"忠實性"(faithfulness)的評估。這個概念來源于陳等人的相關(guān)研究,核心思想是:如果一個模型確實被某個提示信息影響了最終判斷,那么它的報告或生成過程應(yīng)當明確承認這種影響;如果影響存在但從不被承認,就是不忠實的。

可以用一個例子來理解這個區(qū)別。假設(shè)一個醫(yī)生在看CT片時,邊上有人提示說"我感覺這個病人可能有肺結(jié)節(jié)",這個提示影響了醫(yī)生,導(dǎo)致他在原本不確定的情況下在報告中寫上了"發(fā)現(xiàn)細小肺結(jié)節(jié)"。忠實的做法是在報告或記錄中寫上"參考臨床提示,懷疑有肺結(jié)節(jié)";不忠實的做法是假裝這個發(fā)現(xiàn)完全來自于獨立的影像觀察,報告里不提任何提示的存在。

在這個測試中,判斷"是否承認了提示的影響"由另一個強大的AI模型(Qwen3-235B-A22B-Instruct-2507)來完成,它會閱讀整個對話軌跡和最終報告,判斷其中是否有明確提及提示信息的影響。為了驗證這個AI判斷的可靠性,研究團隊還用GPT模型對隨機子集進行了二次標注,結(jié)果顯示Qwen的判斷準確率在RadAgent案例中為91%,在CT-Chat案例中為100%,說明這個評判方法是可靠的。

測試結(jié)果非常清晰:CT-Chat的忠實性得分是0%,也就是說,在所有被錯誤提示影響而改變了判斷的案例中,CT-Chat從未在報告中承認這種影響。它的報告總是看起來完全基于影像證據(jù),毫無破綻,但實際上結(jié)論已經(jīng)被提示偷偷改變了。而RadAgent的忠實性達到了37%,也就是說,在被提示影響的案例中,有37%的情況下,它的診斷軌跡或最終報告明確提及了提示信息的存在。

研究團隊指出,這一差距源于兩種系統(tǒng)的本質(zhì)架構(gòu)差異。CT-Chat是"一步生成"模式——輸入CT圖像和問題,直接輸出報告,中間沒有任何外部可見的推理步驟,因此即使內(nèi)部被提示影響了,也沒有任何機會在輸出中反映這種影響。RadAgent則有完整的、外部可見的推理軌跡,每一步工具調(diào)用和思考過程都被記錄,當工具無法支持提示中的假設(shè)時,這種矛盾就會自然呈現(xiàn)在軌跡中,并有機會被反映到最終報告里。

當然,37%仍然遠非完美——研究團隊也坦誠指出這一點留有很大的提升空間,未來需要更多工作來進一步提高AI系統(tǒng)的忠實性。

十、這項研究的更大意義:AI診斷的未來走向

歸根結(jié)底,RadAgent所代表的不只是一個性能更好的CT報告生成工具,它更像是一次關(guān)于"AI輔助醫(yī)療診斷應(yīng)該是什么樣子"的思想實驗和實證探索。

研究團隊在討論中提出了幾個值得深思的視角。第一,RadAgent的訓(xùn)練過程本身可以被理解為一個"自動發(fā)現(xiàn)高效診斷策略"的過程。與其讓研究人員手工設(shè)計最優(yōu)的工具調(diào)用流程,不如讓AI通過強化學(xué)習(xí)自己摸索出一套有效策略。從系統(tǒng)學(xué)到的工具調(diào)用軌跡(研究中用?;鶊D可視化呈現(xiàn))來看,AI形成了以報告生成開頭、繼以疾病分類、然后反復(fù)調(diào)用3D視覺問答工具進行逐項核查的主要策略,這與臨床實踐中的工作流程頗為吻合。

第二,一旦通過RL找到了有效策略,理論上可以將其"蒸餾"為一個固定的推理流程。這對于計算資源分配有實際價值——可以為最常用的工具預(yù)分配更多GPU資源,關(guān)閉很少被用到的工具,從而在不損失性能的前提下降低運營成本。這種固定流程在醫(yī)療監(jiān)管環(huán)境中也有額外優(yōu)勢,因為監(jiān)管部門通常要求系統(tǒng)行為穩(wěn)定可預(yù)期,并需要前瞻性的臨床驗證。

第三,RadAgent的框架為人機協(xié)作打開了新的可能??梢栽O(shè)想這樣一種工作模式:RadAgent先運行完整的診斷流程,生成報告和完整的推理軌跡;然后放射科醫(yī)生打開軌跡記錄,檢查某個具體發(fā)現(xiàn)是怎么被確認的,如果覺得某個環(huán)節(jié)有疑問,可以直接在RadAgent環(huán)境中追加查詢,比如"把左側(cè)胸腔積液的分割結(jié)果顯示出來",直接在CT上看看AI的判斷是否有視覺支撐。這種"可以被審查和追問"的AI,與傳統(tǒng)的"黑箱AI"相比,在臨床信任度上有本質(zhì)的不同。

第四,研究團隊也坦誠地討論了局限性。計算資源需求是一個實際障礙——整個系統(tǒng)需要兩個計算節(jié)點共八塊高性能GPU才能運行,對于資源受限的醫(yī)療機構(gòu)來說門檻很高。另外,訓(xùn)練好的RadAgent是針對特定工具組合優(yōu)化的,一旦工具集發(fā)生重大變化(比如某個工具被更新的版本替代),可能需要重新運行RL訓(xùn)練流程。不過研究團隊也指出,這恰恰進一步凸顯了"可訓(xùn)練的RL智能體"相對于"手工設(shè)計固定流程"的優(yōu)勢——只要有新工具,就可以重新訓(xùn)練,而手工設(shè)計的流程則需要人工重新設(shè)計。

說到底,RadAgent的故事是一個關(guān)于"透明度"和"可信賴性"的故事。在醫(yī)療AI領(lǐng)域,性能固然重要,但如果臨床醫(yī)生無法信任、無法驗證一個AI系統(tǒng)的輸出,再好的性能也難以在實際工作中發(fā)揮價值。通過引入迭代驗證、工具調(diào)用軌跡和診斷核查清單,RadAgent走出了讓AI診斷"從黑箱變成玻璃箱"的關(guān)鍵一步。這個方向是否會成為未來醫(yī)療AI的主流路徑,目前還是一個開放的問題,但RadAgent提供的實證證據(jù),無疑是一個有說服力的論據(jù)。

Q&A

Q1:RadAgent與普通的CT報告AI系統(tǒng)有什么本質(zhì)區(qū)別?

A:普通的3D視覺語言模型(如CT-Chat)采用"一步生成"模式,直接把CT圖像輸入后輸出報告,中間沒有可見的推理過程,醫(yī)生無法了解AI是如何得出結(jié)論的。RadAgent則是一個"工具調(diào)用+迭代推理"的代理系統(tǒng),它會按照診斷清單逐項核查,調(diào)用十種專業(yè)工具收集證據(jù),把每一步的思考和工具返回結(jié)果都記錄在可視的軌跡中,最終綜合所有證據(jù)才給出報告。整個過程透明可追溯,醫(yī)生可以審查每個診斷結(jié)論的來源。

Q2:RadAgent的強化學(xué)習(xí)訓(xùn)練獎勵函數(shù)是怎么設(shè)計的?

A:RadAgent的獎勵函數(shù)由五部分構(gòu)成:報告質(zhì)量由兩種F1分數(shù)衡量(基于18種病理標簽的分類F1,以及基于LLM提取異常發(fā)現(xiàn)的匹配F1);工具使用質(zhì)量包括調(diào)用成功率、工具多樣性比例、工具調(diào)用邏輯連貫性;另有一個LLM評判分數(shù)評估清單覆蓋率和流程合理性。訓(xùn)練分兩階段:前90步鼓勵自由探索,給多樣性更高權(quán)重;后60步收緊約束,加大清單遵從和邏輯連貫性的權(quán)重。

Q3:RadAgent的忠實性測試為什么CT-Chat得分是0%?

A:忠實性測試檢查的是:當模型被錯誤提示影響而改變了判斷時,報告中有沒有明確承認這種影響。CT-Chat得0%是因為它采用單步生成模式,輸入圖像和問題后直接輸出報告,沒有任何中間推理軌跡被記錄,即便內(nèi)部被提示影響了,也完全沒有機會在輸出中體現(xiàn)這種影響。結(jié)果就是報告總是看起來完全基于影像,但實際結(jié)論可能已被提示悄悄改變,這是"黑箱"架構(gòu)的固有缺陷。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

壹家言
2026-04-28 11:11:27
王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國基金報
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

外交部:按一國兩制叫“臺灣特別行政區(qū)行政長官”“臺灣省省長”

阿七說史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個大白胸脯,在這兒干什么呢?

妹子,你露個大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國聯(lián)通推出全新手機套餐品牌“魔方”,自由組合,階梯定價,39元起

中國聯(lián)通推出全新手機套餐品牌“魔方”,自由組合,階梯定價,39元起

TMT流程審計
2026-04-28 10:35:38
誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭議進行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭議進行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會議,傳遞三重利好

政治局會議,傳遞三重利好

劉勝軍經(jīng)濟學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

美伊大戰(zhàn)暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

世乒賽戰(zhàn)況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰(zhàn)韓隊

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰拍下了那張后臺照片?

誰拍下了那張后臺照片?

追星雷達站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國企開始慌了

倒查13年,央國企開始慌了

職場資深秘書
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴能提質(zhì)|我國養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴能提質(zhì)|我國養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財經(jīng)要聞

中央政治局會議定調(diào),八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

態(tài)度原創(chuàng)

時尚
游戲
教育
健康
軍事航空

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運行60幀+光追的游戲畫面

教育要聞

教育部通知,今年9月份開始,上學(xué)的規(guī)則全變了

干細胞治療燒燙傷三大優(yōu)勢!

軍事要聞

德國總理默茨:美國正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無障礙瀏覽 進入關(guān)懷版