国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

把醫(yī)療AI禁錮在嚴(yán)肅區(qū)間:百川M3 Plus首創(chuàng)證據(jù)錨定,幻覺率2.6%

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

誰還沒拿自己日常的小病小痛問過AI?

就是這種日常場景,讓AI悄悄成為很多人就醫(yī)流程里的前置入口。

尋醫(yī)問診時,咱普通人可以拿DeepSeek、ChatGPT的回答作參考,醫(yī)生卻不能。但在嚴(yán)肅的醫(yī)療領(lǐng)域,不準(zhǔn)確的建議甚至比沒有建議更危險

但我們注意到,隨著AI智能越發(fā)涌現(xiàn),很多醫(yī)生,尤其是年輕醫(yī)生已經(jīng)開始嘗試擁抱AI。

All in醫(yī)療AI的百川智能告訴我們,他們的專業(yè)版模型已有約10萬醫(yī)生用戶,而且年輕人偏多,“用我們模型的用戶畫像和喝瑞幸的用戶畫像高度重合”。



不過年齡只是影響因素之一,醫(yī)療界對AI大勢的判斷并不存在根本分歧。

只是在嚴(yán)肅醫(yī)療領(lǐng)域,AI想要真正進臨床,必須翻過兩座大山:信任與成本。

百川智能最新發(fā)布的循證增強醫(yī)療大模型Baichuan-M3 Plus給出了極具誠意的答案。

憑借百川智能獨創(chuàng)的六源循證技術(shù),結(jié)合Baichuan-M3基座,Baichuan-M3 Plus幻覺率降低至2.6%,處于目前公開評測中的全球最低水平。

借用這個模型,百川希望在嚴(yán)肅醫(yī)療場景下,正面回答“如何讓AI真正成為醫(yī)生可信賴的助手,最終惠及每一位患者”這個問題。

全球最低幻覺率

Baichuan-M3 Plus(以下簡稱M3 Plus)是一個循證增強醫(yī)療大模型,幻覺率全球最低,不到3%。

“循證增強醫(yī)療大模型”是百川如今的模型主線。

循證是個醫(yī)學(xué)概念,旨在將最佳研究證據(jù)、專業(yè)經(jīng)驗以及當(dāng)事人的意愿三者相結(jié)合,以做出更科學(xué)、可靠的決策。



就在10天前,百川醫(yī)療大模型迭代至M3版本,在OpenAI發(fā)布的醫(yī)療評測集HealthBench上奪得全球第一,反超GPT-5.2 High。

登頂背后最核心的技術(shù)殺手锏是Fact-Aware RL(事實感知強化學(xué)習(xí))。

傳統(tǒng)的強化學(xué)習(xí)(RLHF)往往只關(guān)注人類的偏好,F(xiàn)act-Aware RL技術(shù)通過在獎勵模型(Reward Model)中引入醫(yī)學(xué)事實的硬性約束,讓模型在訓(xùn)練階段就形成了對幻覺的過敏反應(yīng)。

在訓(xùn)練過程中,百川還特別引入了Citation Reward Model,專門懲罰錯誤引用。

具體到HealthBench的評測表現(xiàn)上,M3在無工具輔助的原始設(shè)定下,將幻覺率壓低到了3.5%,水平是當(dāng)時的行業(yè)天花板。

此次最新發(fā)布的M3 Plus,正是由M3模型和日臻成熟的六源循證深度融合而來。

這種結(jié)構(gòu)讓M3 Plus的幻覺率再創(chuàng)新低,來到2.6%。



這個幻覺率水平,已經(jīng)低于目前業(yè)內(nèi)公認的標(biāo)桿產(chǎn)品水平,也低于部分人類醫(yī)生在復(fù)雜醫(yī)學(xué)問題上的平均誤判率區(qū)間。

“如果模型幻覺低能力強,但成本太高,醫(yī)生和醫(yī)院也會難以真正用起來。”調(diào)用成本下不來,談嚴(yán)肅落地就沒有意義。

為此,M3 Plus在工程層面進行了多輪極致優(yōu)化。

M3 Plus 在系統(tǒng)層面進行了全面的工程重構(gòu),通過 MoE 架構(gòu)優(yōu)化、模型量化以及 Gated Eagle-3 投機解碼等關(guān)鍵技術(shù),在嚴(yán)格保證模型能力與可靠性的前提下,實現(xiàn)了 API 調(diào)用成本較上一代降低 70%。

根據(jù)百川給出的數(shù)據(jù),相同配置下,Gated Eagle-3相較原始Eagle-3可帶來約15%的推理吞吐量提升,從而直接壓低單位請求的推理成本。

好一個一邊讓嚴(yán)肅性提上去,一邊把價格打下來。

既有助于消解醫(yī)學(xué)界對AI時代來臨想用又不敢用的情緒,又讓大家都用得起。

首創(chuàng)“證據(jù)錨定”,模型說的每一句都是據(jù)實回答

此前的醫(yī)療大模型雖然大多支持標(biāo)注“文獻引用”,但在實際使用中,醫(yī)生經(jīng)常遇到兩個頭疼的痛點。

一種是“張冠李戴”。

模型給出了引用角標(biāo),但點開發(fā)現(xiàn)引用的文獻里壓根兒沒有那句話。

另一種是“內(nèi)容沖突”。

也是標(biāo)明了有引用,但其實是AI瞎湊瞎引的,索引的文獻并不能支持AI得出的結(jié)論。

據(jù)統(tǒng)計,目前醫(yī)療行業(yè)常見的引用準(zhǔn)確率區(qū)間是40%到50%,也就是一半左右的引用在語義或事實上站不住腳。

溝通會上,百川智能模型技術(shù)負責(zé)人鞠強現(xiàn)場提供了一個真實案例素材——

在腫瘤藥物不良反應(yīng)的測試中,某些看起來非常專業(yè)的回答,標(biāo)明引用匯總了權(quán)威協(xié)會共識、專家指南和說明書,從形式上看幾乎無可挑剔。

但逐條核對后發(fā)現(xiàn),約90%的引用內(nèi)容與結(jié)論本身沒有直接關(guān)系,有的甚至給出的引用里,連藥物都不是詢問模型的那一個。

一個看起來有據(jù)可查的答案,背后隱藏著不可接受的嚴(yán)肅錯誤。但因為看上去高度專業(yè),有經(jīng)驗的醫(yī)生不留神都可能踩坑,更別提還有許多初出茅廬的那些醫(yī)生可能面對這樣的答案了。

這成了百川在M3 Plus中試圖解決的核心問題。

針對這一痛點,百川在M3 Plus中引入了證據(jù)錨定(Evidence Anchoring),將循證從理念變成模型必須遵守的結(jié)構(gòu)性約束。

與傳統(tǒng)“標(biāo)明引用”的方式不同,證據(jù)錨定并不是要求模型多列幾篇文獻,它反過來約束模型:如果一句醫(yī)學(xué)結(jié)論找不到能與之精確對應(yīng)的原始證據(jù)段落,這句話就不應(yīng)該被說出來。

具體實現(xiàn)上,M3 Plus在生成答案時,不僅需要標(biāo)注文獻來源,還必須將每一句關(guān)鍵醫(yī)學(xué)判斷,逐條錨定到原始論文、指南或共識中的具體段落。

每一個結(jié)論,都需要能在原文中找到明確對應(yīng)。

說得通俗易懂一點,使用M3 Plus的醫(yī)生可以直接核查AI說的每一句話是否真的有原文支持,判斷其是否真正支持當(dāng)前結(jié)論。

引用內(nèi)容豐富,包括但不限于藥品說明書:



中英文文獻:



以及專家共識等:



在訓(xùn)練層面,百川將“證據(jù)是否準(zhǔn)確錨定”作為獨立目標(biāo)進行建模,通過Citation Reward Model,顯式懲罰“張冠李戴”“內(nèi)容沖突”等情況。

鞠強解釋,沒有證據(jù)錨定,大多數(shù)大模型就不能真正理解證據(jù)與結(jié)論之間的邏輯關(guān)系。

所謂的引用文獻往往發(fā)生在生成之后,是對輸出結(jié)果的補充,并不是推理過程的一部分。

模型只學(xué)會了怎么“像醫(yī)生一樣說有證據(jù)的話”,卻沒有學(xué)會如何“像醫(yī)生一樣查證”。

但模型有幻覺這件事目前還沒有完美解法。百川團隊也反復(fù)強調(diào),在醫(yī)學(xué)問題中,不確定性本身就是客觀存在的事實。

真正重要的是讓錯誤盡可能提前暴露,讓使用者能夠盡早識別風(fēng)險。

百川M3 Plus之前,業(yè)內(nèi)少有把“引用準(zhǔn)確性”本身當(dāng)成模型核心能力來重新定義的嘗試。

M3 Plus用證據(jù)錨定技術(shù),把“引用”這件事量化成了可審計的技術(shù)指標(biāo),并且提升了模型自己的引用準(zhǔn)確率——從行業(yè)普遍約75%的水平提升至95%以上。

面向醫(yī)療服務(wù),推出“海納百川”免費計劃

為了讓這套“證據(jù)錨定”技術(shù)真正跑在醫(yī)院的電腦和醫(yī)生的手機里,百川一邊M3 Plus的API降價70%之外,一邊同步開啟了 “海納百川計劃”。

該計劃中,M3 Plus將以API形式永久免費開放,不限Token數(shù)量。

唯一要求是產(chǎn)品需在前臺展示“Powered by 百川”,且不得對模型輸出進行影響準(zhǔn)確性的修改。

計劃限定對象為服務(wù)醫(yī)務(wù)工作者的機構(gòu),包括但不限于醫(yī)療信息化廠商、醫(yī)療教育機構(gòu)、醫(yī)學(xué)研究項目、垂直創(chuàng)業(yè)公司等。



目前,國內(nèi)有上千家醫(yī)院和數(shù)百億投入的專項工程正在探索AI?!昂<{百川計劃”這種技術(shù)普惠戰(zhàn)略,有助于避免行業(yè)在底層技術(shù)上重復(fù)造輪子,也讓醫(yī)生端和醫(yī)療軟件廠商可以在真實場景中進行多輪反復(fù)驗證、持續(xù)迭代。

王小川透露,百川智能不是沒有算過“海納百川計劃”背后的這筆賬。

如果全國500萬醫(yī)學(xué)工作者都來使用,百川一年預(yù)計投入成本約1億元,“這是我們能接受的”。

因為賬單背后有更昂貴的成本。在醫(yī)療領(lǐng)域,技術(shù)試錯的代價往往最終由具體的生命來承擔(dān)。

對在診室外等號的普通人來說,很難感受到幻覺率從3%降到2.6%究竟意味著什么……但對于每一位身處一線、需要應(yīng)對海量文獻和復(fù)雜決策的醫(yī)生與醫(yī)學(xué)生來說,這0.4%的跨越就是更堅實的專業(yè)底氣。

這種底氣不應(yīng)只停留在實驗室的PPT里,應(yīng)該去往最需要它的地方。

現(xiàn)在,每一位醫(yī)生和醫(yī)學(xué)生,都可以走進“百小應(yīng)”去親身體驗 M3 Plus 帶來的改變,看看一條結(jié)論如何被證據(jù)段落精準(zhǔn)支撐。

M3 Plus隨著免費開放給行業(yè)伙伴之后,這種證據(jù)錨定的專業(yè)能力,會在更多真實臨床場景里被實際使用反復(fù)檢驗。

醫(yī)療AI的進步,最終會落到走廊里焦急等待的每一個普通人身上。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普:美國正調(diào)集重兵前往伊朗

特朗普:美國正調(diào)集重兵前往伊朗

界面新聞
2026-01-23 13:11:44
以為她不敢報警!浙江男子跨省約女網(wǎng)友,發(fā)生關(guān)系時勒頸搶4.7萬

以為她不敢報警!浙江男子跨省約女網(wǎng)友,發(fā)生關(guān)系時勒頸搶4.7萬

一絲不茍的法律人
2026-01-23 21:54:34
沒有陽剛之氣就別演“大俠”,《鏢人》中謝霆鋒,給內(nèi)娛上了一課

沒有陽剛之氣就別演“大俠”,《鏢人》中謝霆鋒,給內(nèi)娛上了一課

糊咖娛樂
2026-01-22 11:48:48
賽力斯拿下車企第一,華為贏麻了!

賽力斯拿下車企第一,華為贏麻了!

互聯(lián)網(wǎng)品牌官
2026-01-21 18:36:41
上海市政府發(fā)布一組人事任免信息:陳殷華任中共一大紀(jì)念館館長

上海市政府發(fā)布一組人事任免信息:陳殷華任中共一大紀(jì)念館館長

澎湃新聞
2026-01-23 18:17:07
戰(zhàn)日本隊,轉(zhuǎn)播計劃出爐!

戰(zhàn)日本隊,轉(zhuǎn)播計劃出爐!

新京報政事兒
2026-01-23 20:51:25
紫牛頭條|患病女碩士走失十余年被找回已有兒女,孩子父親刑拘后不予起訴,另有兩村民涉嫌強奸被訴

紫牛頭條|患病女碩士走失十余年被找回已有兒女,孩子父親刑拘后不予起訴,另有兩村民涉嫌強奸被訴

揚子晚報
2026-01-23 17:37:16
央視揭秘“奪命紅薯”!商家故意投毒,已蔓延全國多地,趕緊扔掉

央視揭秘“奪命紅薯”!商家故意投毒,已蔓延全國多地,趕緊扔掉

攬星河的筆記
2026-01-23 20:15:24
孫濤發(fā)聲,閆學(xué)晶失去了她最后的一個“盟友”……

孫濤發(fā)聲,閆學(xué)晶失去了她最后的一個“盟友”……

麥杰遜
2026-01-23 20:11:42
剛剛,羅永浩大量資產(chǎn)被凍結(jié)!

剛剛,羅永浩大量資產(chǎn)被凍結(jié)!

大佬灼見
2026-01-23 17:51:31
央視四個字力挺,吳京《鏢人》仍被抵制,網(wǎng)友給出的理由出奇一致

央視四個字力挺,吳京《鏢人》仍被抵制,網(wǎng)友給出的理由出奇一致

阿纂看事
2026-01-21 19:10:57
最后的瘋狂,開始了!

最后的瘋狂,開始了!

金牛遠望號
2026-01-23 20:16:51
江暮:一場關(guān)于流逝的靜觀

江暮:一場關(guān)于流逝的靜觀

疾跑的小蝸牛
2026-01-23 20:27:30
嫣然醫(yī)院房東心態(tài)崩了?從強硬要李亞鵬道歉,到開始求過個好年

嫣然醫(yī)院房東心態(tài)崩了?從強硬要李亞鵬道歉,到開始求過個好年

安寧007
2026-01-22 23:02:37
剛剛,楊蘭蘭本人澳洲出庭!正式低頭承認!

剛剛,楊蘭蘭本人澳洲出庭!正式低頭承認!

澳洲紅領(lǐng)巾
2026-01-23 11:40:24
永遠不可能被抹殺的歷史:四野部隊里的那三萬日籍士兵

永遠不可能被抹殺的歷史:四野部隊里的那三萬日籍士兵

深度報
2026-01-21 21:25:16
工廠停擺、門店撤退:理想汽車的“嚴(yán)冬”,比預(yù)想中來得更冷

工廠停擺、門店撤退:理想汽車的“嚴(yán)冬”,比預(yù)想中來得更冷

科技Nice
2026-01-23 11:27:59
日本政壇巨震!166票封喉,公明黨倒戈,高市時代終結(jié),中方回應(yīng)

日本政壇巨震!166票封喉,公明黨倒戈,高市時代終結(jié),中方回應(yīng)

黑鷹觀軍事
2026-01-23 15:54:04
猝死程序員家屬說因沒打卡舉證困難:“找的律師都不太想接”

猝死程序員家屬說因沒打卡舉證困難:“找的律師都不太想接”

封面新聞
2026-01-23 16:37:03
特朗普警告歐洲:若拋售美國資產(chǎn),將面臨大規(guī)模報復(fù);格陵蘭島協(xié)議將賦予美方“全面軍事進入權(quán)”,且不會支付費用

特朗普警告歐洲:若拋售美國資產(chǎn),將面臨大規(guī)模報復(fù);格陵蘭島協(xié)議將賦予美方“全面軍事進入權(quán)”,且不會支付費用

每日經(jīng)濟新聞
2026-01-23 00:03:02
2026-01-23 23:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12054文章數(shù) 176363關(guān)注度
往期回顧 全部

科技要聞

TikTok守住了算法"靈魂" 更握緊了"錢袋子"

頭條要聞

賭徒當(dāng)著兒子面殺死前妻 檢方量刑建議為死刑立即執(zhí)行

頭條要聞

賭徒當(dāng)著兒子面殺死前妻 檢方量刑建議為死刑立即執(zhí)行

體育要聞

杜蘭特鏖戰(zhàn)44分鐘累癱 轟36+7卻致命失誤

娛樂要聞

演員孫濤澄清閆學(xué)晶言論 落淚維護妻子

財經(jīng)要聞

2026年,消費沒有新故事?

汽車要聞

主打家庭大六座 奕境首款SUV將北京車展亮相

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
親子
健康
軍事航空

房產(chǎn)要聞

正式官宣!三亞又一所名校要來了!

數(shù)碼要聞

華碩ExpertBook B3 G2筆記本發(fā)布,性能與安全兼顧

親子要聞

云南4個月女嬰母嬰店離奇死亡事件,不能這么快消失在熱搜……

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

軍事要聞

美軍首艘“高超導(dǎo)彈戰(zhàn)艦”出海測試

無障礙瀏覽 進入關(guān)懷版