国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI診斷準(zhǔn)確率首超醫(yī)生:67% vs 50%

0
分享至

《科學(xué)》期刊周四發(fā)表的一項(xiàng)研究顯示,OpenAI的推理模型在真實(shí)醫(yī)療場(chǎng)景診斷中,準(zhǔn)確率超過(guò)三分之二,而資深醫(yī)生只有一半。

這不是實(shí)驗(yàn)室玩具。研究人員用的是波士頓一家醫(yī)院急診科的電子病歷,病例從未公開(kāi),模型和醫(yī)生都是第一次見(jiàn)。


誰(shuí)在做這個(gè)測(cè)試

研究團(tuán)隊(duì)來(lái)自波士頓貝斯以色列女執(zhí)事醫(yī)療中心。他們?cè)O(shè)計(jì)了一套殘酷的對(duì)比實(shí)驗(yàn):讓OpenAI的o1推理模型、舊版GPT-4、執(zhí)業(yè)醫(yī)生和住院醫(yī)師,同場(chǎng)競(jìng)技診斷真實(shí)病例。

o1是OpenAI去年推出的新架構(gòu),專(zhuān)門(mén)強(qiáng)化"推理"能力——不是簡(jiǎn)單匹配答案,而是模擬人類(lèi)醫(yī)生的逐步思考過(guò)程。

結(jié)果很刺眼。在急診科初始分診環(huán)節(jié),o1的診斷準(zhǔn)確率超過(guò)三分之二。兩位專(zhuān)家級(jí)主治醫(yī)師的正確率,大約只有一半。

舊版GPT-4的表現(xiàn)更差,o1相對(duì)它提升顯著。

加州大學(xué)舊金山分校醫(yī)學(xué)系主任羅伯特·瓦赫特沒(méi)參與研究,但評(píng)價(jià)很高。他在郵件中寫(xiě)道:「現(xiàn)代AI在識(shí)別正確診斷和下一步操作上,將優(yōu)于舊版大語(yǔ)言模型和醫(yī)生,這一點(diǎn)現(xiàn)已無(wú)可爭(zhēng)議。」

瓦赫特剛出版了《巨大飛躍:AI如何改變醫(yī)療以及這對(duì)我們的未來(lái)意味著什么》。他的判斷有分量。

但實(shí)驗(yàn)有個(gè)關(guān)鍵缺陷

瓦赫特也潑了冷水。他說(shuō):「問(wèn)題在于這能在多大程度上復(fù)現(xiàn)真實(shí)生活,答案是中等程度,但并非完美!

研究作者自己也承認(rèn)限制:實(shí)驗(yàn)只用純文本輸入,沒(méi)包含視覺(jué)和聽(tīng)覺(jué)線索——而醫(yī)生診斷高度依賴這些。

患者的痛苦表情、呼吸節(jié)奏、皮膚顏色,CT片和心電圖,這些都沒(méi)進(jìn)數(shù)據(jù)集。病例是書(shū)面的,而且經(jīng)過(guò)人工"清理",比急診室的混亂現(xiàn)實(shí)整齊得多。

瓦赫特的原話很生動(dòng):「生成式AI或許開(kāi)始整合這些輸入,但目前,對(duì)書(shū)面且常被人為'凈化'的臨床病例場(chǎng)景的測(cè)試,并不等于走進(jìn)急診室應(yīng)對(duì)混亂。去看看《匹茲堡醫(yī)護(hù)前線》就知道了!

這部醫(yī)療劇今年剛播,講急診室的極端壓力。瓦赫特用它說(shuō)明:真實(shí)醫(yī)療不是干凈的選擇題。

為什么作者仍喊"緊急"

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)強(qiáng)調(diào)了一個(gè)「緊急」需求:進(jìn)一步研究和前瞻性臨床試驗(yàn),以確定AI系統(tǒng)如何改善臨床實(shí)踐和患者結(jié)局。

他們的判斷寫(xiě)在論文里:「大語(yǔ)言模型的快速改進(jìn)速度,對(duì)臨床醫(yī)學(xué)的科學(xué)和實(shí)踐具有重大影響!

同一期《科學(xué)》還配發(fā)了澳大利亞弗林德斯健康與醫(yī)學(xué)研究所兩位專(zhuān)家的評(píng)論文章。他們沒(méi)參與研究,但同意其緊迫性。

不過(guò)他們明確反對(duì)用AI取代醫(yī)生。設(shè)想的模式是協(xié)作:AI提供能力,醫(yī)生保留監(jiān)督、情境判斷和問(wèn)責(zé)。

評(píng)論寫(xiě)得直接:「如果沒(méi)有經(jīng)過(guò)充分證明的有效性、公平性和安全性,許多AI系統(tǒng)將不足以用于臨床!

67% vs 50%的真正含義

這個(gè)數(shù)字對(duì)比需要拆解。

o1的67%是在"初始分診"環(huán)節(jié)——患者剛進(jìn)來(lái),信息最有限的時(shí)候。醫(yī)生50%的準(zhǔn)確率,是兩位專(zhuān)家級(jí)主治醫(yī)師的表現(xiàn),不是住院醫(yī)師(后者通常更低)。

這意味著在最吃信息、最考驗(yàn)快速判斷的環(huán)節(jié),AI已經(jīng)能給出比資深人類(lèi)更穩(wěn)的答案。

但"穩(wěn)"不等于"能用"。研究沒(méi)測(cè)后續(xù)治療建議,沒(méi)測(cè)復(fù)雜共病,沒(méi)測(cè)AI犯錯(cuò)時(shí)的代價(jià)。

更關(guān)鍵的是,醫(yī)療決策的容錯(cuò)率極低。一個(gè)漏診的胸痛患者,可能是心梗,也可能是焦慮發(fā)作——AI和醫(yī)生都可能在概率上"對(duì)",但后者會(huì)觀察臉色、聽(tīng)語(yǔ)氣、摸脈搏,這些目前無(wú)法量化輸入模型。

瓦赫特說(shuō)的"中等程度復(fù)現(xiàn)",精確描述了現(xiàn)狀:技術(shù)曲線陡峭,但落地曲線平緩。

產(chǎn)品視角:誰(shuí)在押注這個(gè)未來(lái)

從商業(yè)邏輯看,這項(xiàng)研究釋放了兩個(gè)信號(hào)。

第一,"推理"正在成為AI醫(yī)療的新壁壘。o1相對(duì)GPT-4的顯著提升,說(shuō)明單純堆參數(shù)的時(shí)代正在過(guò)去,架構(gòu)創(chuàng)新——讓模型像醫(yī)生一樣逐步思考——才是差異化關(guān)鍵。

第二,醫(yī)院數(shù)據(jù)正在成為核心資產(chǎn)。貝斯以色列女執(zhí)事醫(yī)療中心能拿真實(shí)急診病歷做測(cè)試,這種數(shù)據(jù)獲取能力是學(xué)術(shù)機(jī)構(gòu)和創(chuàng)業(yè)公司難以復(fù)制的。

OpenAI顯然在布局。o1的發(fā)布節(jié)奏、醫(yī)療場(chǎng)景的優(yōu)先測(cè)試,都指向同一個(gè)判斷:臨床決策支持是通用大模型最容易商業(yè)化的垂直場(chǎng)景之一。

但阻力同樣真實(shí)。FDA審批、醫(yī)療責(zé)任歸屬、醫(yī)生職業(yè)認(rèn)同、患者信任——這些都不是技術(shù)問(wèn)題,但都會(huì)決定產(chǎn)品生死。

澳大利亞專(zhuān)家的評(píng)論文章提供了一個(gè)中間路線:不取代,但重構(gòu) workflow。AI做初篩和概率排序,醫(yī)生做最終決策和人際溝通。這種分工下,67%的準(zhǔn)確率可能足夠釋放價(jià)值——如果它能幫醫(yī)生把50%提升到80%,或者把診斷時(shí)間從30分鐘壓縮到5分鐘。

研究作者呼吁的"前瞻性臨床試驗(yàn)",本質(zhì)是要求用真實(shí)世界的ROI(投資回報(bào)率)來(lái)驗(yàn)證技術(shù)。這是醫(yī)療AI從論文走向產(chǎn)品的必經(jīng)之路。

瓦赫特的書(shū)名已經(jīng)說(shuō)明立場(chǎng):《巨大飛躍》。他認(rèn)為變革不可避免,但節(jié)奏和形態(tài)仍開(kāi)放。

這項(xiàng)研究的價(jià)值,在于給出了第一個(gè)硬數(shù)據(jù)錨點(diǎn):在特定條件下,AI確實(shí)能超越人類(lèi)專(zhuān)家。這個(gè)"特定條件"的邊界在哪里,就是接下來(lái)所有產(chǎn)品決策的核心問(wèn)題。

急診室的混亂、患者的非語(yǔ)言信號(hào)、醫(yī)療系統(tǒng)的激勵(lì)機(jī)制——這些變量還沒(méi)被納入模型。但67% vs 50%的對(duì)比已經(jīng)存在,它會(huì)被記住,會(huì)被引用,會(huì)成為下一輪融資和采購(gòu)談判的籌碼。

技術(shù)已經(jīng)跑在前面。現(xiàn)在的問(wèn)題是,醫(yī)療系統(tǒng)愿意以多快的速度,用什么樣的代價(jià),去追趕它。

數(shù)據(jù)收束:研究測(cè)試了波士頓醫(yī)院急診科的真實(shí)病歷,o1模型初始分診準(zhǔn)確率超過(guò)三分之二,兩位專(zhuān)家級(jí)主治醫(yī)師約為一半。作者承認(rèn)實(shí)驗(yàn)僅限文本輸入,未包含視覺(jué)和聽(tīng)覺(jué)線索。瓦赫特評(píng)價(jià)"現(xiàn)代AI將優(yōu)于舊版模型和醫(yī)生"現(xiàn)已無(wú)可爭(zhēng)議,但補(bǔ)充真實(shí)臨床環(huán)境的復(fù)現(xiàn)程度為"中等"。研究團(tuán)隊(duì)強(qiáng)調(diào)需"緊急"開(kāi)展進(jìn)一步臨床試驗(yàn),同期刊評(píng)論文章反對(duì)取代醫(yī)生,主張協(xié)作模式并強(qiáng)調(diào)有效性、公平性和安全性的證明門(mén)檻。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
賣(mài)爆了!為了能吃上這一口,日照這里人山人海!

賣(mài)爆了!為了能吃上這一口,日照這里人山人海!

日照日?qǐng)?bào)
2026-05-02 10:28:21
美國(guó)不是拿不下伊朗,一旦盡全力對(duì)付伊朗,中國(guó)那邊就“看不住”

美國(guó)不是拿不下伊朗,一旦盡全力對(duì)付伊朗,中國(guó)那邊就“看不住”

安安說(shuō)
2026-05-02 14:14:09
美專(zhuān)家曾一語(yǔ)驚人:美軍一旦把核彈扔向京滬,中國(guó)并不會(huì)還手

美專(zhuān)家曾一語(yǔ)驚人:美軍一旦把核彈扔向京滬,中國(guó)并不會(huì)還手

林子說(shuō)事
2026-05-02 14:45:17
隱瞞26年后,韓紅首度公開(kāi)養(yǎng)子韓厚厚:如今他是我最大的驕傲

隱瞞26年后,韓紅首度公開(kāi)養(yǎng)子韓厚厚:如今他是我最大的驕傲

情感大頭說(shuō)說(shuō)
2026-05-02 18:40:52
38軍“最慘”團(tuán)長(zhǎng):死扛美軍,全團(tuán)打光,反成鐵血典范!

38軍“最慘”團(tuán)長(zhǎng):死扛美軍,全團(tuán)打光,反成鐵血典范!

近史談
2026-05-01 22:10:56
突破228%!巴菲特指標(biāo)失靈?美股連漲五周,創(chuàng)一年半最長(zhǎng)記錄!總市值突破75萬(wàn)億美元!

突破228%!巴菲特指標(biāo)失靈?美股連漲五周,創(chuàng)一年半最長(zhǎng)記錄!總市值突破75萬(wàn)億美元!

雪球
2026-05-02 13:15:52
一張“初三女孩體測(cè)”照片,讓家長(zhǎng)被數(shù)萬(wàn)網(wǎng)友指責(zé):太不用心了!

一張“初三女孩體測(cè)”照片,讓家長(zhǎng)被數(shù)萬(wàn)網(wǎng)友指責(zé):太不用心了!

川渝視覺(jué)
2026-04-25 20:19:24
俄羅斯人大量涌入中國(guó),卻發(fā)現(xiàn)中俄差距越來(lái)越大

俄羅斯人大量涌入中國(guó),卻發(fā)現(xiàn)中俄差距越來(lái)越大

杰絲聊古今
2026-04-28 03:43:50
戴安娜婚姻的失敗,根本不是學(xué)歷性格,而是這致命一點(diǎn)

戴安娜婚姻的失敗,根本不是學(xué)歷性格,而是這致命一點(diǎn)

小魚(yú)愛(ài)魚(yú)樂(lè)
2026-05-02 18:32:56
出場(chǎng)7分鐘!得0分,遭到杜鋒棄用 球迷:快點(diǎn)送走

出場(chǎng)7分鐘!得0分,遭到杜鋒棄用 球迷:快點(diǎn)送走

體育哲人
2026-05-02 18:13:19
毛主席晚年時(shí),失望地說(shuō):為什么大家都沒(méi)有理想了?

毛主席晚年時(shí),失望地說(shuō):為什么大家都沒(méi)有理想了?

海佑講史
2026-05-02 14:25:12
賴清德竄訪非洲、鄭麗文訪美,大陸口徑大不同,對(duì)國(guó)民黨把話挑明

賴清德竄訪非洲、鄭麗文訪美,大陸口徑大不同,對(duì)國(guó)民黨把話挑明

王墨觀察
2026-05-02 18:55:04
莫氏雞煲開(kāi)多家分店后老店熱度不減,9名剁雞師傅每天工作十三四個(gè)小時(shí),老板娘發(fā)聲:人多人少都開(kāi)心

莫氏雞煲開(kāi)多家分店后老店熱度不減,9名剁雞師傅每天工作十三四個(gè)小時(shí),老板娘發(fā)聲:人多人少都開(kāi)心

極目新聞
2026-05-01 18:33:42
這種“痛到尖叫”的放松,為什么大家都喜歡?網(wǎng)友:,很爽…

這種“痛到尖叫”的放松,為什么大家都喜歡?網(wǎng)友:,很爽…

馬拉松跑步健身
2026-04-02 06:30:12
黃金創(chuàng)史上最大雙月跌幅,拋售何時(shí)有望結(jié)束

黃金創(chuàng)史上最大雙月跌幅,拋售何時(shí)有望結(jié)束

第一財(cái)經(jīng)資訊
2026-05-02 07:19:22
身份證復(fù)印給他人時(shí),記得畫(huà)上一條橫線,很多人不知道有啥用

身份證復(fù)印給他人時(shí),記得畫(huà)上一條橫線,很多人不知道有啥用

小談食刻美食
2026-04-28 07:33:04
劉曉慶回應(yīng)和王婆互動(dòng)冷淡

劉曉慶回應(yīng)和王婆互動(dòng)冷淡

逍遙論經(jīng)
2026-05-02 18:15:25
老板娘問(wèn)我她身材好不好?我該怎么回答?

老板娘問(wèn)我她身材好不好?我該怎么回答?

太急張三瘋
2026-05-02 11:47:18
凌晨,直線跳水!特朗普重大宣布!

凌晨,直線跳水!特朗普重大宣布!

證券時(shí)報(bào)
2026-05-02 07:51:03
近照嚴(yán)重韓化,47歲高齡拼二胎的湯唯,這次要為自己的選擇買(mǎi)單了

近照嚴(yán)重韓化,47歲高齡拼二胎的湯唯,這次要為自己的選擇買(mǎi)單了

白面書(shū)誏
2026-05-01 18:02:02
2026-05-02 19:31:00
爬蟲(chóng)飼養(yǎng)員
爬蟲(chóng)飼養(yǎng)員
業(yè)余養(yǎng)了只叫“龍蝦”的AI爬蟲(chóng),主業(yè)是給互聯(lián)網(wǎng)打工。
2056文章數(shù) 20關(guān)注度
往期回顧 全部

科技要聞

AI熱潮耗盡庫(kù)存,Mac Mini起售調(diào)高200美元

頭條要聞

單親媽媽被無(wú)辜羈押821天申請(qǐng)國(guó)賠遭叫停 最新消息來(lái)了

頭條要聞

單親媽媽被無(wú)辜羈押821天申請(qǐng)國(guó)賠遭叫停 最新消息來(lái)了

體育要聞

休賽期總冠軍,輪到休斯頓火箭

娛樂(lè)要聞

白百何罕曬大兒子 18歲元寶越來(lái)越帥

財(cái)經(jīng)要聞

雷軍很努力 小米還是跌破了30港元大關(guān)

汽車(chē)要聞

新紀(jì)錄!零跑汽車(chē)4月交付達(dá)71387臺(tái)

態(tài)度原創(chuàng)

本地
房產(chǎn)
家居
手機(jī)
公開(kāi)課

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

房產(chǎn)要聞

所有戶型全賣(mài)爆!海口TOP級(jí)豪宅,景觀樣板間五一全線開(kāi)放!

家居要聞

靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

手機(jī)要聞

小米R(shí)EDMI K Pad 2體驗(yàn):專(zhuān)為電競(jìng)而生的Mini小平板

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版