国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI“世界模型”離真實(shí)手術(shù)還有多遠(yuǎn)?首個(gè)外科視頻生成基準(zhǔn)SurgVeo揭示“合理性差距”

0
分享至

文章來(lái)源:我愛計(jì)算機(jī)視覺(ID:aicvml)

最近,視頻生成領(lǐng)域的基石模型正展現(xiàn)出作為潛在“世界模型”模擬物理世界的驚人能力。然而,當(dāng)這些技術(shù)被應(yīng)用于像外科手術(shù)這樣高風(fēng)險(xiǎn)、需要深度專業(yè)因果知識(shí)而非普適物理規(guī)則的領(lǐng)域時(shí),其表現(xiàn)如何?這是一個(gè)至關(guān)重要但尚未被探索的領(lǐng)域。

為了系統(tǒng)地應(yīng)對(duì)這一挑戰(zhàn),來(lái)自耶魯大學(xué)、諾丁漢大學(xué)等機(jī)構(gòu)的研究者們進(jìn)行了一項(xiàng)開創(chuàng)性的研究。他們提出了 SurgVeo,這是首個(gè)由專家策劃的、用于評(píng)估手術(shù)視頻生成模型的基準(zhǔn);同時(shí),他們還設(shè)計(jì)了一個(gè)新穎的四層評(píng)估框架——手術(shù)合理性金字塔(Surgical Plausibility Pyramid, SPP),旨在從基本外觀到復(fù)雜手術(shù)策略等多個(gè)層面評(píng)估模型生成內(nèi)容的質(zhì)量。



  • 論文標(biāo)題 : How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

  • 中文標(biāo)題 ::外科醫(yī)生離手術(shù)世界模型還有多遠(yuǎn)?基于專家評(píng)估的零樣本手術(shù)視頻生成研究

  • 作者 : Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding,Nassir Navab, Jiebo Luo

  • 機(jī)構(gòu) : 耶魯大學(xué),諾丁漢大學(xué),中國(guó)科學(xué)院,山西醫(yī)科大學(xué),山東大學(xué),慕尼黑工業(yè)大學(xué),羅切斯特大學(xué)

  • 論文地址 : https://arxiv.org/pdf/2511.01775

  • Benchmark (待開源): https://github.com/franciszchen/SurgVeo

當(dāng)前挑戰(zhàn):通用世界模型難以駕馭專業(yè)領(lǐng)域

“世界模型”的核心思想是讓機(jī)器建立一個(gè)關(guān)于世界如何運(yùn)作的內(nèi)部表征,理解環(huán)境如何演變、行為如何導(dǎo)致后果。近期的視頻生成模型,如谷歌的Veo,已經(jīng)能夠生成非常逼真的通用場(chǎng)景視頻,似乎讓我們離通用物理世界的模擬器越來(lái)越近。

然而,外科手術(shù)領(lǐng)域與日常物理世界有著本質(zhì)的不同。它不僅僅是關(guān)于物體如何移動(dòng)或碰撞,而是充滿了需要“專家直覺”的知識(shí),比如解剖學(xué)、生理學(xué)和生物力學(xué)。一個(gè)成功的“手術(shù)世界模型”必須理解手術(shù)刀切開不同組織時(shí)會(huì)發(fā)生什么,理解特定操作背后的戰(zhàn)略意圖。將為模擬“常識(shí)物理”而生的模型直接應(yīng)用于手術(shù)這樣需要“專家知識(shí)”的領(lǐng)域,其能力邊界在哪里?這正是本研究試圖回答的核心問(wèn)題。

研究方法:SurgVeo基準(zhǔn)與SPP評(píng)估框架

為了科學(xué)地衡量現(xiàn)有視頻生成模型在手術(shù)領(lǐng)域的真實(shí)能力,研究者構(gòu)建了一套完整的評(píng)測(cè)流程。


首先,他們創(chuàng)建了 SurgVeo 基準(zhǔn)。該基準(zhǔn)包含了兩種具有代表性但風(fēng)格迥異的手術(shù)視頻:腹腔鏡子宮切除術(shù)和內(nèi)窺鏡垂體手術(shù)。前者代表了在密閉空間內(nèi)的軟組織操作,后者則要求在關(guān)鍵神經(jīng)血管結(jié)構(gòu)附近進(jìn)行極其精細(xì)的操作。研究者從這些真實(shí)手術(shù)錄像中提取視頻片段,形成“起始幀-后續(xù)真實(shí)視頻”的數(shù)據(jù)對(duì)。

接著,他們讓先進(jìn)的 Veo-3 模型執(zhí)行一項(xiàng)零樣本(zero-shot)預(yù)測(cè)任務(wù):給定手術(shù)場(chǎng)景的起始幀和一段文本提示(prompt),模型需要生成接下來(lái)8秒的手術(shù)視頻。


最關(guān)鍵的一步,是由四位具有執(zhí)業(yè)資格的外科醫(yī)生組成的專家小組,使用研究者提出的 手術(shù)合理性金字塔(SPP) 框架來(lái)對(duì)生成的視頻進(jìn)行打分。SPP框架將評(píng)估分為四個(gè)層級(jí),從下到上,要求越來(lái)越高:

  1. 視覺感知合理性 (Visual Perceptual Plausibility) :評(píng)估視頻最基本的外觀質(zhì)量,如清晰度、光照、組織紋理和視頻流暢度。

  2. 器械操作合理性 (Instrument Operation Plausibility) :評(píng)估手術(shù)器械的運(yùn)動(dòng)軌跡、操作技術(shù)是否符合物理規(guī)律和手術(shù)規(guī)范。

  3. 環(huán)境反饋合理性 (Environment Feedback Plausibility) :評(píng)估手術(shù)場(chǎng)景(如組織、器官)對(duì)器械操作的反應(yīng)是否真實(shí),例如,組織被牽拉后的變形、切割后的出血模式是否符合生物力學(xué)和解剖學(xué)原理。

  4. 手術(shù)意圖合理性 (Surgical Intent Plausibility) :評(píng)估預(yù)測(cè)的系列動(dòng)作是否展現(xiàn)出清晰、邏輯自洽且符合當(dāng)前手術(shù)階段的戰(zhàn)略目標(biāo)。這是最高層次的評(píng)估,考驗(yàn)?zāi)P褪欠窭斫狻盀槭裁础币@么做。

專家們會(huì)在生成的視頻播放到第1秒、第3秒和第8秒時(shí),參照真實(shí)視頻,對(duì)這四個(gè)維度進(jìn)行1-5分的打分。

實(shí)驗(yàn)結(jié)果:驚人的“合理性差距”

研究結(jié)果揭示了一個(gè)深刻的斷層,研究者稱之為“合理性差距”(plausibility gap):盡管Veo-3在生成視覺上令人信服的手術(shù)場(chǎng)景方面表現(xiàn)出色,但在SPP框架的更高層級(jí)上卻嚴(yán)重失敗。

量化數(shù)據(jù)分析

下方的兩個(gè)表格分別展示了在腹腔鏡手術(shù)和神經(jīng)外科手術(shù)中,不同提示策略下,模型在三個(gè)時(shí)間點(diǎn)的得分情況。


腹腔鏡手術(shù)評(píng)估分?jǐn)?shù)


神經(jīng)外科手術(shù)評(píng)估分?jǐn)?shù)

我們可以清晰地看到:

  • 視覺質(zhì)量高 :在兩個(gè)手術(shù)類別中,“視覺感知合理性”的初始得分都很高(例如,基線提示下腹腔鏡手術(shù)為3.72分,神經(jīng)外科為3.88分)。外科醫(yī)生評(píng)價(jià)生成的圖像“清晰得驚人”。

  • 高層邏輯差 :然而,分?jǐn)?shù)在SPP金字塔的更高層級(jí)急劇下降。器械操作、環(huán)境反饋和手術(shù)意圖的得分要低得多,并且隨著時(shí)間的推移(從1秒到8秒)迅速惡化。例如,在腹腔鏡手術(shù)中,環(huán)境反饋合理性得分從1秒時(shí)的3.06分驟降至8秒時(shí)的1.64分。


腹腔鏡手術(shù)評(píng)估分?jǐn)?shù)的小提琴圖


神經(jīng)外科手術(shù)評(píng)估分?jǐn)?shù)的小提琴圖

小提琴圖更直觀地展示了這種差異。視覺感知的得分(最左側(cè))密集分布在高分區(qū)域,而其他三個(gè)維度的得分則大量堆積在低分區(qū)域,且隨著時(shí)間推移(顏色由淺到深)不斷下移。

有趣的是,研究還發(fā)現(xiàn),為模型提供更明確的“階段感知”提示(例如,明確告知當(dāng)前是“血管結(jié)扎”階段)并不能顯著改善其表現(xiàn)。這有力地證明,模型的問(wèn)題不在于缺少上下文信息,而在于根本無(wú)法理解和運(yùn)用這些專業(yè)的領(lǐng)域知識(shí)。

典型失敗案例

定性的案例分析讓這些冰冷的數(shù)字變得更加觸目驚心。


上圖展示了一些典型的失敗案例:

  • (a) 視覺質(zhì)量失真 :生成的視頻畫面亮度發(fā)生突兀且不自然的變化,與穩(wěn)定的手術(shù)照明條件不符。

  • (b) 器械錯(cuò)誤 :模型“幻覺”出了一種現(xiàn)實(shí)中不存在的手術(shù)器械。

  • (c) 操作不當(dāng) :真實(shí)操作需要向左移動(dòng),模型卻生成了向右的錯(cuò)誤動(dòng)作。模型展示的器械在處理黏液,而正確的手術(shù)操作應(yīng)是在另一目標(biāo)部位上進(jìn)行沖洗與吸引的協(xié)同動(dòng)作。

  • (d) 不當(dāng)手術(shù)目標(biāo) :模型展示的器械在處理黏液,而正確的手術(shù)操作應(yīng)是在另一目標(biāo)部位上進(jìn)行沖洗與吸引的協(xié)同動(dòng)作。

  • (e) 環(huán)境反饋錯(cuò)誤 :模型違反物理定律,讓吸引器像提拉固體一樣將一整塊明膠海綿吸走,而不是吸走表面的液體。

  • (f) 意圖錯(cuò)誤 :真實(shí)意圖是在硬腦膜上注射生物膠水,模型卻錯(cuò)誤地預(yù)測(cè)了一個(gè)完全不相關(guān)的動(dòng)作——用棉片擦拭。

錯(cuò)誤類型的量化分布(上圖)進(jìn)一步證實(shí)了“合理性差距”。在兩種手術(shù)中,與高層手術(shù)邏輯相關(guān)的錯(cuò)誤(如手術(shù)意圖、器械操作錯(cuò)誤)占了絕大多數(shù),而底層的視覺質(zhì)量問(wèn)題僅占一小部分(腹腔鏡6.2%,神外2.8%)。

當(dāng)然,模型偶爾也能生成一些高分案例,但這些通常是手術(shù)動(dòng)作簡(jiǎn)單、甚至是暫停的場(chǎng)景。


高分案例:(a)中生成了自然的解剖動(dòng)作,(b)中則幾乎完美復(fù)刻了手術(shù)暫停的場(chǎng)景。


災(zāi)難性失敗案例:(a)中需要縫合,模型卻幻覺出器械并執(zhí)行無(wú)法識(shí)別的操作;(b)中需要涂膠水,模型完全搞錯(cuò)了意圖。

研究意義與未來(lái)展望

這項(xiàng)研究首次提供了量化證據(jù),揭示了當(dāng)前最先進(jìn)的視頻生成模型在手術(shù)AI領(lǐng)域中,令人信服的視覺模仿與真正的因果理解之間存在巨大鴻溝。

CV君認(rèn)為,這項(xiàng)工作意義重大。它告訴我們,僅僅依靠在通用數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練,可能不足以讓模型掌握專家領(lǐng)域的復(fù)雜規(guī)則。未來(lái)的“手術(shù)世界模型”可能需要新的架構(gòu)范式,能夠整合結(jié)構(gòu)化的領(lǐng)域知識(shí),并在生成過(guò)程中強(qiáng)制執(zhí)行嚴(yán)格的物理和邏輯約束。

SurgVeo基準(zhǔn)和SPP評(píng)估框架為未來(lái)的研究奠定了一個(gè)至關(guān)重要的基礎(chǔ)和路線圖,指引著我們?nèi)绾伍_發(fā)能夠駕馭真實(shí)世界醫(yī)療領(lǐng)域復(fù)雜性的下一代模型。雖然通往真正的手術(shù)世界模型道阻且長(zhǎng),但這項(xiàng)研究無(wú)疑是邁出的清醒而關(guān)鍵的一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
裝逼撞到你擅長(zhǎng)的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過(guò)這種事呀

裝逼撞到你擅長(zhǎng)的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過(guò)這種事呀

夜深愛雜談
2025-12-21 17:57:28
又一百年巨頭塌了!從技術(shù)神話到貼牌代工,網(wǎng)友:買了個(gè)牌子殼!

又一百年巨頭塌了!從技術(shù)神話到貼牌代工,網(wǎng)友:買了個(gè)牌子殼!

青眼財(cái)經(jīng)
2025-11-18 23:16:47
定居美國(guó)13年回國(guó)撈金遭驅(qū)逐,52歲被笑話

定居美國(guó)13年回國(guó)撈金遭驅(qū)逐,52歲被笑話

白日追夢(mèng)人
2025-12-24 04:30:11
宗慶后被曝有7子,看了宗馥莉?yàn)樗⒌哪贡?,才知道她早就布局?>
    </a>
        <h3>
      <a href=麥大人
2025-07-18 12:05:16
紫牛頭條|下班遭車禍,接受公司賠償后他發(fā)現(xiàn)一份意外險(xiǎn)保單被公司隱瞞

紫牛頭條|下班遭車禍,接受公司賠償后他發(fā)現(xiàn)一份意外險(xiǎn)保單被公司隱瞞

揚(yáng)子晚報(bào)
2025-12-23 09:06:09
南京博物院又揭大瓜,前文物局局長(zhǎng)曾問(wèn):賣幾個(gè)兵馬俑行不行?

南京博物院又揭大瓜,前文物局局長(zhǎng)曾問(wèn):賣幾個(gè)兵馬俑行不行?

攬星河的筆記
2025-12-22 18:12:17
突發(fā)!法拉利撞上護(hù)欄后迅速起火,知名游戲大佬被困車內(nèi)身亡,警方通報(bào)!他被譽(yù)為“《使命召喚》之父”,眾多同行與玩家哀悼

突發(fā)!法拉利撞上護(hù)欄后迅速起火,知名游戲大佬被困車內(nèi)身亡,警方通報(bào)!他被譽(yù)為“《使命召喚》之父”,眾多同行與玩家哀悼

每日經(jīng)濟(jì)新聞
2025-12-23 15:06:07
受中國(guó)004核航母刺激太大,法國(guó)掀桌子了,砸鍋賣鐵也要建新航母

受中國(guó)004核航母刺激太大,法國(guó)掀桌子了,砸鍋賣鐵也要建新航母

云舟史策
2025-12-24 07:22:16
CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

CBA歷史第一人!新秀直接打成本土得分王,球迷:讓混子情何以堪

弄月公子
2025-12-23 23:10:43
錢多有什么用?42歲離婚無(wú)兒無(wú)女的尼格買提,走上了另外一條道路

錢多有什么用?42歲離婚無(wú)兒無(wú)女的尼格買提,走上了另外一條道路

古事尋蹤記
2025-12-20 07:13:47
南京博物院盜賣文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國(guó)寶還有多少黑幕

南京博物院盜賣文物,捐贈(zèng)后人追查十年遭打碼“證據(jù)”糊弄,失蹤五件國(guó)寶還有多少黑幕

爆角追蹤
2025-12-18 15:36:33
他用藥7年換來(lái)肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

他用藥7年換來(lái)肌肉,卻失去了X欲!完美肌肉背后的秘密:98%都在上科技...

健身迷
2025-12-22 10:19:04
轉(zhuǎn)告父母:這6種病屬于老年病,過(guò)度治療反而傷身,安然接受

轉(zhuǎn)告父母:這6種病屬于老年病,過(guò)度治療反而傷身,安然接受

讀懂世界歷史
2025-12-23 20:31:37
卷走53億!又一大佬帶全家跑路,欠中國(guó)銀行20億,投資者血本無(wú)歸

卷走53億!又一大佬帶全家跑路,欠中國(guó)銀行20億,投資者血本無(wú)歸

以茶帶書
2025-12-09 23:33:58
向大陸交底、對(duì)內(nèi)攤牌,鄭麗文把最怕被說(shuō)破的那層窗戶紙,捅穿了

向大陸交底、對(duì)內(nèi)攤牌,鄭麗文把最怕被說(shuō)破的那層窗戶紙,捅穿了

科普100克克
2025-12-24 00:10:32
哈佛大學(xué)研究:活過(guò)90歲的人29項(xiàng)共同特征

哈佛大學(xué)研究:活過(guò)90歲的人29項(xiàng)共同特征

尚曦讀史
2025-12-06 08:27:08
廣東5連勝,杜鋒:在廣東打球是幸福的!

廣東5連勝,杜鋒:在廣東打球是幸福的!

帶你領(lǐng)略快樂(lè)真諦
2025-12-24 02:50:13
黃金狂飆,一種交易正在悄悄進(jìn)行

黃金狂飆,一種交易正在悄悄進(jìn)行

鳳凰網(wǎng)財(cái)經(jīng)
2025-12-23 09:08:05
美國(guó)外交開始大洗牌

美國(guó)外交開始大洗牌

陸棄
2025-12-23 08:25:03
肥腸再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會(huì)出現(xiàn)6大變化

肥腸再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃肥腸,身體會(huì)出現(xiàn)6大變化

看世界的人
2025-12-04 10:51:31
2025-12-24 08:47:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5276文章數(shù) 64597關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強(qiáng)黑產(chǎn)攻擊

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應(yīng)

體育要聞

楊瀚森連續(xù)5場(chǎng)DNP!開拓者遭活塞雙殺

娛樂(lè)要聞

朱孝天回應(yīng)阿信感謝,自曝沒(méi)再收到邀約

財(cái)經(jīng)要聞

快手到底惹了誰(shuí)?

汽車要聞

四款新車集中發(fā)布 星途正式走進(jìn)3.0時(shí)代

態(tài)度原創(chuàng)

旅游
時(shí)尚
藝術(shù)
本地
家居

旅游要聞

這趟俄羅斯之行,感覺很割裂

歲月不敗美人,50歲銀發(fā)的她們也太會(huì)穿了

藝術(shù)要聞

毛主席手書《水調(diào)歌頭》,生前最后發(fā)表的詞作曝光。

本地新聞

云游安徽|宣城何以動(dòng)人心,百年塔影一城徽韻

家居要聞

通透明亮 大氣輕奢風(fēng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版