国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Cell子刊:龍爾平/萬沛星團(tuán)隊(duì)發(fā)布大模型“圓桌會(huì)議”框架,大幅提升醫(yī)療AI推理能力

0
分享至


編輯丨王多魚

排版丨水成文

醫(yī)療人工智能快速發(fā)展的當(dāng)下,GPT-4、Med-PaLM2 等大型語言模型在醫(yī)學(xué)問答與考試中不斷刷新紀(jì)錄,展現(xiàn)出接近人類的認(rèn)知能力。然而,單一模型固有的“黑箱”局限、缺乏多視角校驗(yàn)的推理機(jī)制,已成為其在真實(shí)、高風(fēng)險(xiǎn)臨床場景中安全落地的關(guān)鍵瓶頸。如何讓 AI 像多學(xué)科專家會(huì)診一樣,實(shí)現(xiàn)交叉質(zhì)證、協(xié)同決策,是醫(yī)療 AI 走向可信、可靠必須跨越的科學(xué)鴻溝。

2026 年 1 月 5 日,中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所龍爾平團(tuán)隊(duì)與北京大學(xué)基礎(chǔ)醫(yī)學(xué)院萬沛星團(tuán)隊(duì)合作(中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所博士生孫欣提、洪奇陽為論文共同第一作者),在Cell Reports Medicine期刊在線發(fā)表了題為:Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models 的研究論文。

該研究提出了“模型對抗與協(xié)作”(Model confrontation and collaboration,MCC)框架,推動(dòng)醫(yī)療 AI 從“單點(diǎn)智能”邁向“協(xié)同推理”的范式躍遷,通過構(gòu)建可辯論、可追溯、動(dòng)態(tài)協(xié)作的模型圓桌,從根本上促進(jìn)了醫(yī)療 AI 向可靠、可解釋、可協(xié)作的下一代形態(tài)演進(jìn)。



MCC 框架:模型對抗與協(xié)作

在這項(xiàng)最新研究中,研究團(tuán)隊(duì)提出了“模型對抗與協(xié)作”(Model Confrontation and Collaboration,MCC)框架,將不同的大型語言模型組合成一個(gè)動(dòng)態(tài)的、具備“推理-行動(dòng)-反思”的圓桌式智囊團(tuán)。MCC 引入共享的“上下文工作區(qū)”(shared context):將問題、已生成的候選答案、關(guān)鍵證據(jù)點(diǎn)與各模型的立場變化以結(jié)構(gòu)化方式寫入同一上下文記憶,并在每一輪辯論中保持對完整對話歷史的可見性,從而確保批判與修正始終基于同一事實(shí)與語境。

其核心流程可概括為——

第一步,獨(dú)立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1 在同一問題上并行生成答案與關(guān)鍵論證點(diǎn);隨后引入分歧門控(Gate):系統(tǒng)/主持 LLM 對候選答案進(jìn)行一致性檢測,僅在出現(xiàn)分歧時(shí)激活辯論,從源頭控制額外計(jì)算開銷。

第二步,對抗辯論(Debate as Action):進(jìn)入多輪消息傳遞,每輪中模型執(zhí)行“質(zhì)疑-舉證-反駁-修正”四類動(dòng)作,圍繞共享上下文中的證據(jù)缺口與推理斷點(diǎn)開展交叉驗(yàn)證:定位論證中的跳步、證據(jù)不足或概念混淆,進(jìn)一步補(bǔ)充指南、機(jī)制與鑒別診斷依據(jù);隨后進(jìn)行自我反思,審計(jì)自身推理鏈與關(guān)鍵假設(shè),并以可解釋方式更新立場與結(jié)論。

第三步,共識優(yōu)化(Consensus Optimization):每輪結(jié)束后進(jìn)行共識判定與早停;若三輪內(nèi)仍不收斂,則以多數(shù)投票作為保底輸出策略。與傳統(tǒng)“靜態(tài)集成/硬投票”不同,MCC將多模型互補(bǔ)性顯式轉(zhuǎn)化為“基于上下文的迭代糾錯(cuò)”協(xié)作過程,使異構(gòu)模型在知識覆蓋與推理偏好上的差異得以用于錯(cuò)誤定位與證據(jù)對齊,從而顯著提升難題場景下的收斂質(zhì)量與輸出穩(wěn)定性。


MCC 在 MedQA 基準(zhǔn)上的表現(xiàn)與決策動(dòng)態(tài)

多項(xiàng)醫(yī)學(xué)基準(zhǔn)測試獲得 SOTA 表現(xiàn)

MCC 在多項(xiàng)代表性醫(yī)學(xué)基準(zhǔn)上展現(xiàn)出一致而穩(wěn)定的性能:在 MedQA 上取得 92.6%(±0.3)的平均準(zhǔn)確率,并在多次獨(dú)立運(yùn)行中顯示出穩(wěn)定性。PubMedQA 達(dá)到 84.8%;在 MMLU 醫(yī)學(xué)子集中覆蓋遺傳學(xué)、解剖學(xué)等多個(gè)科目,整體維持 90%+,并在其中五個(gè)科目獲得 SOTA 表現(xiàn)。

更重要的是,MCC 不僅在“常規(guī)題”上提升準(zhǔn)確率,也在“更難、更接近真實(shí)風(fēng)險(xiǎn)”的評測中保持穩(wěn)?。涸?MedXpertQA 上準(zhǔn)確率約 40%,在該基準(zhǔn)的對比評測中表現(xiàn)位居前列。在 MetaMedQA 中能夠識別不確定或無明確標(biāo)準(zhǔn)答案的情形并給出“未知/需補(bǔ)充信息”的保守處理,體現(xiàn)出更強(qiáng)的元認(rèn)知邊界管理能力。此外,在 RABBITS 魯棒性測試中,面對藥物商品名與學(xué)名的混用與替換,MCC 性能幾乎不受影響,顯示其對臨床語言變體具有更強(qiáng)的泛化與穩(wěn)定性。

長文本問答:綜合回答水平更高

在開放式長問答任務(wù)中,研究團(tuán)隊(duì)使用 MultiMedQA 基準(zhǔn)并邀請醫(yī)生與非專業(yè)評審開展雙視角盲評,以評估模型在真實(shí)醫(yī)療咨詢中的綜合表達(dá)與建議能力。結(jié)果顯示,MCC 在所有維度上均優(yōu)于 GPT-o1、Qwen、DeepSeek-R1 以及 Med-PaLM2:醫(yī)生評審的 12 項(xiàng)指標(biāo)中,MCC 在病情要點(diǎn)提取、推理正確性與偏差控制等關(guān)鍵維度提升 8–12 個(gè)百分點(diǎn)且錯(cuò)誤內(nèi)容率更低;在另一組 9 項(xiàng)綜合質(zhì)量指標(biāo)中,其缺陷率下降 3%–9%,一致性與知識覆蓋更為穩(wěn)定。進(jìn)一步在 HealthBench 上,MCC 在與臨床專家共識對齊的任務(wù)中取得 92.1 的綜合評分,并在更高難度的 HealthBench Hard 中保持領(lǐng)先,體現(xiàn)出在復(fù)雜場景下的穩(wěn)健性與安全性優(yōu)勢。


開放式醫(yī)學(xué)問答輸出的多維度評估

模擬診斷對話:對話版“診療小組”

為評估 MCC 在交互式診療場景中的能力,研究團(tuán)隊(duì)構(gòu)建了類醫(yī)學(xué)院 OSCE 的模擬病例對話測試:模型作為醫(yī)生與模擬患者實(shí)時(shí)交互,在完成病史采集后給出診斷與鑒別診斷。結(jié)果顯示,MCC 在病史采集階段平均可捕獲 80% 以上的關(guān)鍵患者信息點(diǎn);在 16 個(gè)病例中,有 14 例的信息覆蓋率超過 80%,而單一模型在同等標(biāo)準(zhǔn)下難以穩(wěn)定達(dá)到該水平。與此同時(shí),MCC 提出的問題與患者主訴的相關(guān)性更高(多數(shù)病例>80%),提示其問診路徑更聚焦關(guān)鍵線索、減少遺漏。在診斷結(jié)論階段,在 15 個(gè)可判定病例中,MCC 的首選診斷正確率達(dá)到 80%(12/15),并在鑒別診斷的完整性上呈現(xiàn)優(yōu)勢。典型案例是一位 56 歲女性出現(xiàn)多飲多尿、乏力與體重下降,既往以 2 型糖尿病處理但血糖控制不佳。辯論過程中,模型間交叉質(zhì)詢促使補(bǔ)問胰腺相關(guān)病史與上腹痛向背部放射等線索,進(jìn)而將診斷從“糖尿病本身”推進(jìn)至“胰腺腫瘤相關(guān)繼發(fā)性糖尿病”的更深層解釋,體現(xiàn)出“圓桌式會(huì)診”對關(guān)鍵線索召回與深入診斷推理的促進(jìn)作用。


MCC 在診斷對話任務(wù)中的表現(xiàn)

展望與意義

這項(xiàng)研究表明,多模型對抗與協(xié)作可作為醫(yī)療推理能力增強(qiáng)的一種通用范式:在不引入額外任務(wù)訓(xùn)練與外部知識庫的條件下,借助結(jié)構(gòu)化辯論將不同模型的知識覆蓋與推理偏好差異顯式用于交叉核驗(yàn)、證據(jù)對齊與錯(cuò)誤糾偏,從而提高復(fù)雜問題上的推理收斂質(zhì)量與輸出穩(wěn)定性。需要強(qiáng)調(diào)的是,MCC 并非替代醫(yī)生,而是提供多角度論據(jù)與可追溯的辯論日志,幫助臨床人員降低漏診誤判風(fēng)險(xiǎn)并提升決策透明度,同時(shí)亦具備教學(xué)示范意義。面向臨床應(yīng)用,仍需進(jìn)一步推進(jìn)與電子病歷及檢查結(jié)果的端到端集成、對不確定/沖突信息的處理策略,以及隱私合規(guī)與計(jì)算成本控制,使其能夠以安全、高效的方式融入真實(shí)工作流。

論文鏈接

https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00620-2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從扣船到炸港僅數(shù)小時(shí),俄軍讓北約明白,手伸太長必被砍

從扣船到炸港僅數(shù)小時(shí),俄軍讓北約明白,手伸太長必被砍

星辰夜語
2026-01-10 11:55:24
河南一男子花2萬買7座商務(wù)車,剛提車就發(fā)現(xiàn)漏水漏油,“四缸車只有三個(gè)缸在工作”,商家回應(yīng)

河南一男子花2萬買7座商務(wù)車,剛提車就發(fā)現(xiàn)漏水漏油,“四缸車只有三個(gè)缸在工作”,商家回應(yīng)

臺州交通廣播
2026-01-10 18:22:27
商業(yè)航天+核聚變!5家硬核隱形冠軍全解析,搶占雙萬億賽道風(fēng)口

商業(yè)航天+核聚變!5家硬核隱形冠軍全解析,搶占雙萬億賽道風(fēng)口

Thurman在昆明
2026-01-10 09:35:46
你見過的土豪是什么樣子的?網(wǎng)友:前臺小姐直接跟著他走了

你見過的土豪是什么樣子的?網(wǎng)友:前臺小姐直接跟著他走了

特約前排觀眾
2025-08-19 00:20:03
土超級杯2-0,穆帥前東家掀翻土超第1奪冠,26歲阿森納舊將首秀破門

土超級杯2-0,穆帥前東家掀翻土超第1奪冠,26歲阿森納舊將首秀破門

側(cè)身凌空斬
2026-01-11 01:46:17
調(diào)查:30歲健美冠軍之死

調(diào)查:30歲健美冠軍之死

新民周刊
2026-01-09 21:18:09
刮一個(gè)穴位,把肝膽里面的瘀滯排干凈,還能治難言之隱??!

刮一個(gè)穴位,把肝膽里面的瘀滯排干凈,還能治難言之隱??!

神奇故事
2025-12-13 23:55:36
短發(fā)女神太絕了!165cm 跨界女主播,43 萬網(wǎng)友追著粉

短發(fā)女神太絕了!165cm 跨界女主播,43 萬網(wǎng)友追著粉

開心果果社
2025-12-07 10:11:28
叛徒就在自己身邊,特朗普氣炸!轉(zhuǎn)身大談中俄,普京是自己好朋友

叛徒就在自己身邊,特朗普氣炸!轉(zhuǎn)身大談中俄,普京是自己好朋友

近史閣
2026-01-11 06:07:41
自拍:一份私我的授權(quán)書

自拍:一份私我的授權(quán)書

疾跑的小蝸牛
2026-01-10 22:26:46
重磅!阿森納開啟創(chuàng)紀(jì)錄談判,瞄準(zhǔn)世界級巨星邊鋒

重磅!阿森納開啟創(chuàng)紀(jì)錄談判,瞄準(zhǔn)世界級巨星邊鋒

奶蓋熊本熊
2026-01-11 03:52:24
遠(yuǎn)華集團(tuán)老總賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

遠(yuǎn)華集團(tuán)老總賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

曉艾故事匯
2025-01-09 22:01:49
特朗普表明“棄臺”立場,直言中方怎么做是自由,但別讓我不高興

特朗普表明“棄臺”立場,直言中方怎么做是自由,但別讓我不高興

博覽歷史
2026-01-09 18:17:28
可控核聚變,重磅大會(huì)將舉辦!融資客潛伏8只概念股

可控核聚變,重磅大會(huì)將舉辦!融資客潛伏8只概念股

數(shù)據(jù)寶
2026-01-10 18:45:01
善惡終有報(bào)。離婚半年婆婆“落網(wǎng)”,孫怡給董子健好好上了一課

善惡終有報(bào)。離婚半年婆婆“落網(wǎng)”,孫怡給董子健好好上了一課

失寵的小野豬
2026-01-10 22:27:10
上海一家大模型公司成功上市,員工僅385人,市值超1000億!

上海一家大模型公司成功上市,員工僅385人,市值超1000億!

胡華成
2026-01-10 17:11:15
中央氣象臺1月11日06時(shí)繼續(xù)發(fā)布大風(fēng)藍(lán)色預(yù)警

中央氣象臺1月11日06時(shí)繼續(xù)發(fā)布大風(fēng)藍(lán)色預(yù)警

環(huán)球網(wǎng)資訊
2026-01-11 06:56:19
直打七寸了!伊朗騷亂再有人死亡,美軍就開戰(zhàn)!俄軍導(dǎo)彈連夜抵達(dá)

直打七寸了!伊朗騷亂再有人死亡,美軍就開戰(zhàn)!俄軍導(dǎo)彈連夜抵達(dá)

阿策聊實(shí)事
2026-01-11 04:36:56
任素汐下半身欲望失控,終為自己的風(fēng)流行為買單

任素汐下半身欲望失控,終為自己的風(fēng)流行為買單

車窗起霧q
2026-01-01 20:12:16
成都一大熊貓觸摸電網(wǎng)后被電出慘叫!工作人員回應(yīng):使用瞬時(shí)脈沖電壓防外逃,不造成傷害

成都一大熊貓觸摸電網(wǎng)后被電出慘叫!工作人員回應(yīng):使用瞬時(shí)脈沖電壓防外逃,不造成傷害

南國今報(bào)
2026-01-10 19:59:04
2026-01-11 07:27:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
8701文章數(shù) 144963關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開年最頂格的AI對話

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國家緊急狀態(tài)

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國家緊急狀態(tài)

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

教育
時(shí)尚
親子
旅游
數(shù)碼

教育要聞

填志愿怕代碼查錯(cuò)?三步精準(zhǔn)查詢避免失誤!

伊姐周六熱推:電視劇《小城大事》;電視劇《軋戲》......

親子要聞

方媛曬三個(gè)女兒:大寶趴地上畫畫,二寶讀英文書!三胎睡嬰兒車?yán)?/h3>

旅游要聞

12.7億元營收、15倍增長背后:誰在操盤萬歲山武俠城?頂流景區(qū)直面“長紅”之困|主題樂園資本論

數(shù)碼要聞

熊貓主題圈粉老外,長虹AI家電亮相CES,東方元素成頂流

無障礙瀏覽 進(jìn)入關(guān)懷版