国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Cell子刊:龍爾平/萬(wàn)沛星團(tuán)隊(duì)發(fā)布大模型“圓桌會(huì)議”框架,大幅提升醫(yī)療AI推理能力

0
分享至


編輯丨王多魚(yú)

排版丨水成文

醫(yī)療人工智能快速發(fā)展的當(dāng)下,GPT-4、Med-PaLM2 等大型語(yǔ)言模型在醫(yī)學(xué)問(wèn)答與考試中不斷刷新紀(jì)錄,展現(xiàn)出接近人類的認(rèn)知能力。然而,單一模型固有的“黑箱”局限、缺乏多視角校驗(yàn)的推理機(jī)制,已成為其在真實(shí)、高風(fēng)險(xiǎn)臨床場(chǎng)景中安全落地的關(guān)鍵瓶頸。如何讓 AI 像多學(xué)科專家會(huì)診一樣,實(shí)現(xiàn)交叉質(zhì)證、協(xié)同決策,是醫(yī)療 AI 走向可信、可靠必須跨越的科學(xué)鴻溝。

2026 年 1 月 5 日,中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所龍爾平團(tuán)隊(duì)與北京大學(xué)基礎(chǔ)醫(yī)學(xué)院萬(wàn)沛星團(tuán)隊(duì)合作(中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所博士生孫欣提洪奇陽(yáng)為論文共同第一作者),在Cell Reports Medicine期刊在線發(fā)表了題為:Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models 的研究論文。

該研究提出了“模型對(duì)抗與協(xié)作”(Model confrontation and collaboration,MCC)框架,推動(dòng)醫(yī)療 AI 從“單點(diǎn)智能”邁向“協(xié)同推理”的范式躍遷,通過(guò)構(gòu)建可辯論、可追溯、動(dòng)態(tài)協(xié)作的模型圓桌,從根本上促進(jìn)了醫(yī)療 AI 向可靠、可解釋、可協(xié)作的下一代形態(tài)演進(jìn)。



MCC 框架:模型對(duì)抗與協(xié)作

在這項(xiàng)最新研究中,研究團(tuán)隊(duì)提出了“模型對(duì)抗與協(xié)作”(Model Confrontation and Collaboration,MCC)框架,將不同的大型語(yǔ)言模型組合成一個(gè)動(dòng)態(tài)的、具備“推理-行動(dòng)-反思”的圓桌式智囊團(tuán)。MCC 引入共享的“上下文工作區(qū)”(shared context):將問(wèn)題、已生成的候選答案、關(guān)鍵證據(jù)點(diǎn)與各模型的立場(chǎng)變化以結(jié)構(gòu)化方式寫(xiě)入同一上下文記憶,并在每一輪辯論中保持對(duì)完整對(duì)話歷史的可見(jiàn)性,從而確保批判與修正始終基于同一事實(shí)與語(yǔ)境。

其核心流程可概括為——

第一步,獨(dú)立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1 在同一問(wèn)題上并行生成答案與關(guān)鍵論證點(diǎn);隨后引入分歧門控(Gate):系統(tǒng)/主持 LLM 對(duì)候選答案進(jìn)行一致性檢測(cè),僅在出現(xiàn)分歧時(shí)激活辯論,從源頭控制額外計(jì)算開(kāi)銷。

第二步,對(duì)抗辯論(Debate as Action):進(jìn)入多輪消息傳遞,每輪中模型執(zhí)行“質(zhì)疑-舉證-反駁-修正”四類動(dòng)作,圍繞共享上下文中的證據(jù)缺口與推理斷點(diǎn)開(kāi)展交叉驗(yàn)證:定位論證中的跳步、證據(jù)不足或概念混淆,進(jìn)一步補(bǔ)充指南、機(jī)制與鑒別診斷依據(jù);隨后進(jìn)行自我反思,審計(jì)自身推理鏈與關(guān)鍵假設(shè),并以可解釋方式更新立場(chǎng)與結(jié)論。

第三步,共識(shí)優(yōu)化(Consensus Optimization):每輪結(jié)束后進(jìn)行共識(shí)判定與早停;若三輪內(nèi)仍不收斂,則以多數(shù)投票作為保底輸出策略。與傳統(tǒng)“靜態(tài)集成/硬投票”不同,MCC將多模型互補(bǔ)性顯式轉(zhuǎn)化為“基于上下文的迭代糾錯(cuò)”協(xié)作過(guò)程,使異構(gòu)模型在知識(shí)覆蓋與推理偏好上的差異得以用于錯(cuò)誤定位與證據(jù)對(duì)齊,從而顯著提升難題場(chǎng)景下的收斂質(zhì)量與輸出穩(wěn)定性。


MCC 在 MedQA 基準(zhǔn)上的表現(xiàn)與決策動(dòng)態(tài)

多項(xiàng)醫(yī)學(xué)基準(zhǔn)測(cè)試獲得 SOTA 表現(xiàn)

MCC 在多項(xiàng)代表性醫(yī)學(xué)基準(zhǔn)上展現(xiàn)出一致而穩(wěn)定的性能:在 MedQA 上取得 92.6%(±0.3)的平均準(zhǔn)確率,并在多次獨(dú)立運(yùn)行中顯示出穩(wěn)定性。PubMedQA 達(dá)到 84.8%;在 MMLU 醫(yī)學(xué)子集中覆蓋遺傳學(xué)、解剖學(xué)等多個(gè)科目,整體維持 90%+,并在其中五個(gè)科目獲得 SOTA 表現(xiàn)。

更重要的是,MCC 不僅在“常規(guī)題”上提升準(zhǔn)確率,也在“更難、更接近真實(shí)風(fēng)險(xiǎn)”的評(píng)測(cè)中保持穩(wěn)?。涸?MedXpertQA 上準(zhǔn)確率約 40%,在該基準(zhǔn)的對(duì)比評(píng)測(cè)中表現(xiàn)位居前列。在 MetaMedQA 中能夠識(shí)別不確定或無(wú)明確標(biāo)準(zhǔn)答案的情形并給出“未知/需補(bǔ)充信息”的保守處理,體現(xiàn)出更強(qiáng)的元認(rèn)知邊界管理能力。此外,在 RABBITS 魯棒性測(cè)試中,面對(duì)藥物商品名與學(xué)名的混用與替換,MCC 性能幾乎不受影響,顯示其對(duì)臨床語(yǔ)言變體具有更強(qiáng)的泛化與穩(wěn)定性。

長(zhǎng)文本問(wèn)答:綜合回答水平更高

在開(kāi)放式長(zhǎng)問(wèn)答任務(wù)中,研究團(tuán)隊(duì)使用 MultiMedQA 基準(zhǔn)并邀請(qǐng)醫(yī)生與非專業(yè)評(píng)審開(kāi)展雙視角盲評(píng),以評(píng)估模型在真實(shí)醫(yī)療咨詢中的綜合表達(dá)與建議能力。結(jié)果顯示,MCC 在所有維度上均優(yōu)于 GPT-o1、Qwen、DeepSeek-R1 以及 Med-PaLM2:醫(yī)生評(píng)審的 12 項(xiàng)指標(biāo)中,MCC 在病情要點(diǎn)提取、推理正確性與偏差控制等關(guān)鍵維度提升 8–12 個(gè)百分點(diǎn)且錯(cuò)誤內(nèi)容率更低;在另一組 9 項(xiàng)綜合質(zhì)量指標(biāo)中,其缺陷率下降 3%–9%,一致性與知識(shí)覆蓋更為穩(wěn)定。進(jìn)一步在 HealthBench 上,MCC 在與臨床專家共識(shí)對(duì)齊的任務(wù)中取得 92.1 的綜合評(píng)分,并在更高難度的 HealthBench Hard 中保持領(lǐng)先,體現(xiàn)出在復(fù)雜場(chǎng)景下的穩(wěn)健性與安全性優(yōu)勢(shì)。


開(kāi)放式醫(yī)學(xué)問(wèn)答輸出的多維度評(píng)估

模擬診斷對(duì)話:對(duì)話版“診療小組”

為評(píng)估 MCC 在交互式診療場(chǎng)景中的能力,研究團(tuán)隊(duì)構(gòu)建了類醫(yī)學(xué)院 OSCE 的模擬病例對(duì)話測(cè)試:模型作為醫(yī)生與模擬患者實(shí)時(shí)交互,在完成病史采集后給出診斷與鑒別診斷。結(jié)果顯示,MCC 在病史采集階段平均可捕獲 80% 以上的關(guān)鍵患者信息點(diǎn);在 16 個(gè)病例中,有 14 例的信息覆蓋率超過(guò) 80%,而單一模型在同等標(biāo)準(zhǔn)下難以穩(wěn)定達(dá)到該水平。與此同時(shí),MCC 提出的問(wèn)題與患者主訴的相關(guān)性更高(多數(shù)病例>80%),提示其問(wèn)診路徑更聚焦關(guān)鍵線索、減少遺漏。在診斷結(jié)論階段,在 15 個(gè)可判定病例中,MCC 的首選診斷正確率達(dá)到 80%(12/15),并在鑒別診斷的完整性上呈現(xiàn)優(yōu)勢(shì)。典型案例是一位 56 歲女性出現(xiàn)多飲多尿、乏力與體重下降,既往以 2 型糖尿病處理但血糖控制不佳。辯論過(guò)程中,模型間交叉質(zhì)詢促使補(bǔ)問(wèn)胰腺相關(guān)病史與上腹痛向背部放射等線索,進(jìn)而將診斷從“糖尿病本身”推進(jìn)至“胰腺腫瘤相關(guān)繼發(fā)性糖尿病”的更深層解釋,體現(xiàn)出“圓桌式會(huì)診”對(duì)關(guān)鍵線索召回與深入診斷推理的促進(jìn)作用。


MCC 在診斷對(duì)話任務(wù)中的表現(xiàn)

展望與意義

這項(xiàng)研究表明,多模型對(duì)抗與協(xié)作可作為醫(yī)療推理能力增強(qiáng)的一種通用范式:在不引入額外任務(wù)訓(xùn)練與外部知識(shí)庫(kù)的條件下,借助結(jié)構(gòu)化辯論將不同模型的知識(shí)覆蓋與推理偏好差異顯式用于交叉核驗(yàn)、證據(jù)對(duì)齊與錯(cuò)誤糾偏,從而提高復(fù)雜問(wèn)題上的推理收斂質(zhì)量與輸出穩(wěn)定性。需要強(qiáng)調(diào)的是,MCC 并非替代醫(yī)生,而是提供多角度論據(jù)與可追溯的辯論日志,幫助臨床人員降低漏診誤判風(fēng)險(xiǎn)并提升決策透明度,同時(shí)亦具備教學(xué)示范意義。面向臨床應(yīng)用,仍需進(jìn)一步推進(jìn)與電子病歷及檢查結(jié)果的端到端集成、對(duì)不確定/沖突信息的處理策略,以及隱私合規(guī)與計(jì)算成本控制,使其能夠以安全、高效的方式融入真實(shí)工作流。

論文鏈接

https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00620-2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
科技匯:存儲(chǔ)芯片+AMD+可控核聚變+新凱來(lái)+電池企業(yè)盤(pán)點(diǎn)等

科技匯:存儲(chǔ)芯片+AMD+可控核聚變+新凱來(lái)+電池企業(yè)盤(pán)點(diǎn)等

Thurman在昆明
2026-01-11 17:29:03
孫穎莎教練懸念引爆國(guó)乒!前主管教練回歸,邱貽可讓位?

孫穎莎教練懸念引爆國(guó)乒!前主管教練回歸,邱貽可讓位?

曹老師評(píng)球
2026-01-12 18:33:58
CBA排名更新:浙江四連勝升第四北控第七

CBA排名更新:浙江四連勝升第四北控第七

吳朑愛(ài)游泳
2026-01-12 22:58:11
土豪有多任性?看完開(kāi)眼界了,窮限制了我的想象啊

土豪有多任性?看完開(kāi)眼界了,窮限制了我的想象啊

夜深愛(ài)雜談
2026-01-03 22:15:07
微軟官方確認(rèn):Windows存在20多年的激活方式徹底終止

微軟官方確認(rèn):Windows存在20多年的激活方式徹底終止

快科技
2026-01-12 18:29:07
進(jìn)口藥突然買不到了,價(jià)格翻幾倍誰(shuí)來(lái)管?

進(jìn)口藥突然買不到了,價(jià)格翻幾倍誰(shuí)來(lái)管?

寶哥精彩賽事
2026-01-12 07:32:01
到底什么叫洗錢?網(wǎng)友"完美閉環(huán)"式回答,感覺(jué)錯(cuò)過(guò)了一個(gè)億

到底什么叫洗錢?網(wǎng)友"完美閉環(huán)"式回答,感覺(jué)錯(cuò)過(guò)了一個(gè)億

另子維愛(ài)讀史
2026-01-09 22:18:04
1953年,林彪支持高崗篡權(quán),毛主席派陳云警告他:不要上高崗的當(dāng)

1953年,林彪支持高崗篡權(quán),毛主席派陳云警告他:不要上高崗的當(dāng)

帝哥說(shuō)史
2025-12-16 15:31:05
同仇敵愾!LG杯,一力遼讀秒逆轉(zhuǎn)對(duì)局90%勝率,申旻埈嘆氣不斷!

同仇敵愾!LG杯,一力遼讀秒逆轉(zhuǎn)對(duì)局90%勝率,申旻埈嘆氣不斷!

L76號(hào)
2026-01-12 15:44:35
1月開(kāi)始轉(zhuǎn)運(yùn),霉運(yùn)逐漸散去,運(yùn)勢(shì)穩(wěn)步走高的三個(gè)星座

1月開(kāi)始轉(zhuǎn)運(yùn),霉運(yùn)逐漸散去,運(yùn)勢(shì)穩(wěn)步走高的三個(gè)星座

小晴星座說(shuō)
2026-01-10 18:49:41
是活通透了?湖北35歲男子不工作不結(jié)婚躺平,“這輩子就這樣吧”

是活通透了?湖北35歲男子不工作不結(jié)婚躺平,“這輩子就這樣吧”

唐小糖說(shuō)情感
2026-01-12 11:14:15
形同宣布進(jìn)入“準(zhǔn)戰(zhàn)”狀態(tài)?馬英九公開(kāi)發(fā)聲,國(guó)臺(tái)辦正告賴清德

形同宣布進(jìn)入“準(zhǔn)戰(zhàn)”狀態(tài)?馬英九公開(kāi)發(fā)聲,國(guó)臺(tái)辦正告賴清德

二大爺觀世界
2026-01-12 22:43:16
你見(jiàn)過(guò)的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬(wàn)人的奇跡

你見(jiàn)過(guò)的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬(wàn)人的奇跡

夜深愛(ài)雜談
2026-01-04 23:05:06
中方是否計(jì)劃采取行動(dòng)幫助馬杜羅夫婦獲釋?外交部回應(yīng)

中方是否計(jì)劃采取行動(dòng)幫助馬杜羅夫婦獲釋?外交部回應(yīng)

新京報(bào)政事兒
2026-01-07 15:41:25
秋瓷炫全家韓國(guó)過(guò)年!回眸殺太撩人,這身材氣質(zhì)絕了?

秋瓷炫全家韓國(guó)過(guò)年!回眸殺太撩人,這身材氣質(zhì)絕了?

娛樂(lè)領(lǐng)航家
2026-01-12 23:00:03
廣東記者關(guān)辛,中肯點(diǎn)評(píng)徐杰

廣東記者關(guān)辛,中肯點(diǎn)評(píng)徐杰

體育哲人
2026-01-12 17:17:59
美國(guó)一富豪被冷凍50年,原定2017年蘇醒,解凍時(shí)工作人員緊急叫停

美國(guó)一富豪被冷凍50年,原定2017年蘇醒,解凍時(shí)工作人員緊急叫停

蜉蝣說(shuō)
2025-12-01 11:20:58
國(guó)家發(fā)改委原副主任扶持公司上市,原始股十三年后獲利數(shù)千萬(wàn)

國(guó)家發(fā)改委原副主任扶持公司上市,原始股十三年后獲利數(shù)千萬(wàn)

南方都市報(bào)
2026-01-12 22:21:05
高峰也沒(méi)想到,他當(dāng)年拋棄的兒子,如今開(kāi)始給那英爭(zhēng)光了

高峰也沒(méi)想到,他當(dāng)年拋棄的兒子,如今開(kāi)始給那英爭(zhēng)光了

趣文說(shuō)娛
2026-01-04 16:34:24
外媒披露:美對(duì)委內(nèi)瑞拉行動(dòng)中曾悍然使用電子戰(zhàn)飛機(jī)

外媒披露:美對(duì)委內(nèi)瑞拉行動(dòng)中曾悍然使用電子戰(zhàn)飛機(jī)

參考消息
2026-01-12 16:21:05
2026-01-12 23:51:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
8715文章數(shù) 144966關(guān)注度
往期回顧 全部

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國(guó)正面接招

頭條要聞

外媒問(wèn)王毅調(diào)整索馬里行程是否出于安全考慮 中方回應(yīng)

頭條要聞

外媒問(wèn)王毅調(diào)整索馬里行程是否出于安全考慮 中方回應(yīng)

體育要聞

一場(chǎng)安東尼奧式勝利,給中國(guó)足球帶來(lái)驚喜

娛樂(lè)要聞

蔡少芬結(jié)婚18周年,與張晉過(guò)二人世界

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

教育
房產(chǎn)
時(shí)尚
親子
旅游

教育要聞

勸退:英國(guó)挨罵率最高的專業(yè)!

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!海口西海岸又要爆發(fā)!

看了日本主婦的搭配才明白,年紀(jì)大了這么穿,優(yōu)雅又不油膩

親子要聞

輪班,寶媽理所應(yīng)當(dāng)固定周日休,網(wǎng)友:家庭地位低,把同事當(dāng)老公

旅游要聞

四川米易一條街的冬櫻花都開(kāi)了 粉色花海夢(mèng)幻綻放

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版