国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓大模型理解真實(shí)醫(yī)療視頻,全球首個(gè)開源技術(shù)方案來(lái)了!

0
分享至



編輯|冷貓

讓 AI 進(jìn)入醫(yī)療領(lǐng)域,是一件需要慎之又慎的事情。

在這種事情上,總有人走得特別激進(jìn)。今年 2 月,路透社發(fā)布了一篇調(diào)查報(bào)道,標(biāo)題觸目驚心 ——《As AI enters the operating room, reports arise of botched surgeries and misidentified body parts》。

翻譯一下,該報(bào)道題為《當(dāng) AI 進(jìn)入手術(shù)室:手術(shù)失誤及人體部位識(shí)別錯(cuò)誤的報(bào)告頻發(fā)》。在美國(guó),醫(yī)療設(shè)備廠商將不甚成熟的 AI 引入手術(shù)場(chǎng)景,但隨之而來(lái)的誤判案例也在不斷增加 —— 系統(tǒng)錯(cuò)誤識(shí)別了人體部位,有機(jī)器人輔助手術(shù)中出現(xiàn)了本可避免的操作失誤。

醫(yī)療器械廠商正爭(zhēng)相將 AI 整合進(jìn)其產(chǎn)品之中。盡管支持者堅(jiān)信這項(xiàng)新技術(shù)將顛覆醫(yī)療領(lǐng)域,但監(jiān)管機(jī)構(gòu)收到的關(guān)于患者受傷的指控卻在持續(xù)攀升。

在這些直接應(yīng)用到臨床實(shí)踐的醫(yī)學(xué) AI 中,大部分都是以視覺(jué)和圖像(視頻)識(shí)別技術(shù)作為核心。

在學(xué)術(shù)界我們很熟悉,視頻大模型已經(jīng)成為了計(jì)算機(jī)視覺(jué)領(lǐng)域最擁擠的賽道之一。雖說(shuō)有非常大量成熟的視覺(jué)識(shí)別大模型,但幾乎都集中在通用視頻領(lǐng)域。當(dāng)鏡頭轉(zhuǎn)向手術(shù)室,局面陡然變難。我們?nèi)匀幻媾R幾個(gè)巨大的問(wèn)題:

通用模型無(wú)法專精于醫(yī)療領(lǐng)域的任務(wù),并且醫(yī)療領(lǐng)域并非單一任務(wù)種類;醫(yī)療領(lǐng)域的相關(guān)數(shù)據(jù)缺失;大模型在醫(yī)療實(shí)際任務(wù)中的表現(xiàn)幾乎無(wú)法進(jìn)行統(tǒng)一評(píng)估。

不過(guò),讓 AI 參與到醫(yī)療領(lǐng)域,提高效率,減輕醫(yī)院和醫(yī)務(wù)人員的負(fù)擔(dān),是非常有意義的。

我們看到,來(lái)自 Global Information 的《2026 年人工智慧(AI)增強(qiáng)型手術(shù)影像分析全球市場(chǎng)報(bào)告》,也預(yù)測(cè)了 AI 在醫(yī)療領(lǐng)域手術(shù)視頻分析的增長(zhǎng)潛力。

基于人工智能(AI)的手術(shù)視頻分析市場(chǎng)發(fā)展迅速,預(yù)計(jì)將從 2025 年的 7.3 億美元增長(zhǎng)到 2026 年的 9.1 億美元,年復(fù)合增長(zhǎng)率(CAGR)為 24.1%。預(yù)計(jì)未來(lái)幾年,人工智能(AI)增強(qiáng)型手術(shù)視頻分析市場(chǎng)將呈指數(shù)級(jí)增長(zhǎng),到 2030 年市場(chǎng)規(guī)模將達(dá)到 21.4 億美元,年復(fù)合增長(zhǎng)率(CAGR)為 23.8%。

令人驚喜的是,全球首個(gè),規(guī)模最大、性能最強(qiáng)的醫(yī)療視頻理解領(lǐng)域大模型 —— 元智醫(yī)療視頻理解大模型 (uAI-NEXUS-MedVLM) 已經(jīng)正式發(fā)布并開源!

這一模型直接解決了在醫(yī)療視頻領(lǐng)域的任務(wù)優(yōu)化,數(shù)據(jù)缺失,以及無(wú)法評(píng)測(cè)的三大痛點(diǎn),敲開了大模型在醫(yī)療領(lǐng)域大規(guī)模應(yīng)用的大門。

相關(guān)研究成果已獲 IEEE 國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR 2026)收錄。



  • 論文標(biāo)題:MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
  • 論文鏈接:https://arxiv.org/pdf/2512.06581
  • 項(xiàng)目主頁(yè):https://uii-ai.github.io/MedGRPO/
  • 開源鏈接:https://github.com/UII-AI/MedGRPO-Code

把「不可解」變成「可解」

在過(guò)去,讓大模型理解真正的臨床醫(yī)療視頻,幾乎是一個(gè)「不可解」的問(wèn)題。

醫(yī)療視頻不僅涉及圖像識(shí)別,還需要解決空間、時(shí)間和語(yǔ)義的復(fù)雜性,手術(shù)過(guò)程中的每個(gè)細(xì)節(jié)都至關(guān)重要,任何疏忽都可能帶來(lái)嚴(yán)重后果。

  • 空間維度要求模型精確識(shí)別手術(shù)視頻中各個(gè)工具、器官和組織的空間位置以及它們之間的關(guān)系。
  • 時(shí)間維度帶來(lái)了動(dòng)態(tài)性,手術(shù)視頻不僅是靜態(tài)的圖像集合,還涉及到不同動(dòng)作和步驟的時(shí)序變化。
  • 語(yǔ)義維度則要求模型具備深厚的醫(yī)學(xué)背景知識(shí),能夠理解手術(shù)中每個(gè)設(shè)備和動(dòng)作的醫(yī)學(xué)意義。

視覺(jué)理解的無(wú)人區(qū)

「空間 — 時(shí)間 — 語(yǔ)義」的三重復(fù)雜性疊加,即使是 GPT-5.4 和 Gemini-3.1 這樣的通用巨頭,在面對(duì)真實(shí)手術(shù)視頻時(shí)幾乎全面潰敗。



圖 1:在 MedVidBench 8 項(xiàng)任務(wù)上的主要結(jié)果。

在實(shí)驗(yàn)中,研究團(tuán)隊(duì)比較了 2025 年和 2026 年的開箱即用基線模型(采用 one-shot 提示進(jìn)行評(píng)估)、 SFT 基線,以及在 Qwen2.5VL-7B、Qwen3-VL-4B 和 Qwen3.5-4B 上的完整 MedGRPO 方法。

具體數(shù)據(jù)很能說(shuō)明問(wèn)題。在關(guān)鍵安全視野評(píng)估(CVS)任務(wù)上,GPT-5.4 的準(zhǔn)確率只有 16.4%,Gemini-3.1 為 24.2%,基本上是在瞎猜。在時(shí)空動(dòng)作定位(STG)任務(wù)中,預(yù)測(cè)區(qū)域與真實(shí)區(qū)域的交并比(mIoU)低到可以忽略不計(jì)。即便是看起來(lái)最「容易」的視頻摘要生成任務(wù)中,滿分 5 分的情況下,GPT-5.4 只拿到 3.976 分,Gemini-3.1 拿到 3.737 分。

聯(lián)影智能的研究團(tuán)隊(duì)選擇了一條突破無(wú)人區(qū)的全新道路。方案可以概括為三件事:造一把標(biāo)尺、建一套數(shù)據(jù)、發(fā)明一種訓(xùn)練方法

MedVidBench:全球公共標(biāo)尺

要走進(jìn)廣闊的無(wú)人區(qū),必須有勇于探索的先行者,建立起最初的標(biāo)尺。

換言之,任何領(lǐng)域的進(jìn)步都離不開統(tǒng)一的評(píng)測(cè)基準(zhǔn)。在其他研究領(lǐng)域里,ImageNet 定義了圖像分類的標(biāo)準(zhǔn),GLUE 奠定了自然語(yǔ)言理解的基礎(chǔ),但在醫(yī)療視頻理解領(lǐng)域,長(zhǎng)期以來(lái)連一把「標(biāo)尺」都沒(méi)有。

為了探索,并能夠便于后來(lái)者的研究,研究團(tuán)隊(duì)構(gòu)建了MedVidBench,一個(gè)包含53 萬(wàn)余條視頻 - 指令對(duì)的大規(guī);鶞(zhǔn)數(shù)據(jù)集。它覆蓋了8 個(gè)專業(yè)醫(yī)學(xué)數(shù)據(jù)源(CholecT50、CholecTrack20、Cholec80-CVS、CoPESD、AVOS、EgoSurgery、JIGSAWS、NurViD),橫跨腹腔鏡、開放手術(shù)、機(jī)器人手術(shù)及護(hù)理操作等核心臨床場(chǎng)景。



圖 2:MedVidBench 概述。(a) MedVidBench 的高質(zhì)量數(shù)據(jù)管理流程。研究團(tuán)隊(duì)將專家知識(shí)應(yīng)用于提示構(gòu)建,并使用 2 個(gè) VLM(Gemini-2.5-Flash 和 GPT-4.1)生成高質(zhì)量文本。(b) MedVidBench 包含 8 個(gè)不同的數(shù)據(jù)集,總樣本量為 532k,涵蓋 4 個(gè)不同的領(lǐng)域。(c) 不同領(lǐng)域中多樣化任務(wù)示例。

更關(guān)鍵的是,MedVidBench 不只是「量大」。它包含了了8 大個(gè)不同的數(shù)據(jù)集,涵蓋三個(gè)粒度層級(jí):

  • 視頻級(jí):理解整段視頻的全局信息,包含 VS(視頻摘要)、NAP(下一步操作預(yù)測(cè))的任務(wù);
  • 片段級(jí):定位和理解特定時(shí)間段的內(nèi)容,包含 TAG(時(shí)間動(dòng)作定位)、STG(時(shí)空定位)、DVC(密集視頻描述)的任務(wù);
  • 幀級(jí):對(duì)單幀畫面進(jìn)行精細(xì)分析,包含 RC(區(qū)域描述)、CVS(關(guān)鍵安全視野評(píng)估)、SA(技能評(píng)估)的任務(wù)

這種「視頻 — 片段 — 幀」的三層架構(gòu),完整還原了人類醫(yī)生觀看手術(shù)視頻時(shí),由粗到細(xì)的認(rèn)知過(guò)程:從整體流程出發(fā),再聚焦關(guān)鍵步驟,最后審視細(xì)節(jié)。

數(shù)據(jù)質(zhì)量方面,團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的質(zhì)量保障流水線:專家引導(dǎo)式提示詞工程 + 雙模型交叉驗(yàn)證(GPT + Gemini),確保每一條指令 - 響應(yīng)對(duì)都經(jīng)過(guò)雙重把關(guān)。數(shù)據(jù)集分為兩個(gè)版本 —— 大規(guī)模版(53 萬(wàn)樣本,用于擴(kuò)展實(shí)驗(yàn))和標(biāo)準(zhǔn)版(5.15 萬(wàn)樣本,任務(wù)均衡,用于高效多任務(wù)學(xué)習(xí))。

GRPO:好上加好

有了數(shù)據(jù),下一個(gè)問(wèn)題是:用什么訓(xùn)練方法最好?

我們知道,在特定任務(wù)和數(shù)據(jù)集上訓(xùn)練大模型,直觀的方法是通過(guò)監(jiān)督微調(diào)(SFT)。

基于 Qwen2.5-VL-7B,團(tuán)隊(duì)在 MedVidBench 上進(jìn)行了 SFT ,結(jié)果相當(dāng)驚艷。在全部 8 項(xiàng)任務(wù)中,模型的表現(xiàn)全面超越了 GPT-4.1、Gemini-2.5-Flash、GPT-5.4 和 Gemini-3.1-flash-lite。在僅 7B 參數(shù)規(guī)模下,CVS 準(zhǔn)確率高達(dá) 89.4%,是 GPT-5.4 的近 50 倍;而在 TAG@0.3 的 mIoU 上,更是達(dá)到了 Gemini-3.1 的 3 倍之多。

但 SFT 的方法是有上限的。為了能夠更進(jìn)一步,團(tuán)隊(duì)希望通過(guò)引入強(qiáng)化學(xué)習(xí)(RL),進(jìn)一步提升模型輸出的質(zhì)量。

然而,標(biāo)準(zhǔn)的 RL 方法在這里遇到了一個(gè)致命問(wèn)題:跨數(shù)據(jù)集獎(jiǎng)勵(lì)尺度失衡

不同醫(yī)療視頻任務(wù)的難度差異極大。CoPESD 數(shù)據(jù)集上的 STG 任務(wù)中位 mIoU 約 0.5,而 EgoSurgery 上同樣的任務(wù)中位 mIoU 只有約 0.12。如果直接用原始獎(jiǎng)勵(lì)信號(hào)做 RL 訓(xùn)練,簡(jiǎn)單任務(wù)的梯度會(huì)淹沒(méi)困難任務(wù)的信號(hào),導(dǎo)致優(yōu)化失衡甚至訓(xùn)練崩潰

實(shí)驗(yàn)證實(shí)了這一點(diǎn):不做歸一化時(shí),CVS 準(zhǔn)確率從 0.894 崩塌到 0.020,STG 的 mIoU 從 0.177 掉到 0.010。

團(tuán)隊(duì)的解決方案是MedGRPO,核心是兩項(xiàng)算法創(chuàng)新:



圖 3:MedGRPO 概述。(a)包含跨數(shù)據(jù)集獎(jiǎng)勵(lì)歸一化和醫(yī)療 LLM 裁判評(píng)估的 MedGRPO 框架。(b)使用和未使用獎(jiǎng)勵(lì)歸一化訓(xùn)練的模型之間的訓(xùn)練熵比較。

第一項(xiàng):跨數(shù)據(jù)集獎(jiǎng)勵(lì)歸一化(Cross-Dataset Reward Normalization)。

關(guān)鍵洞察是中位數(shù)公平性:所有數(shù)據(jù)集 - 任務(wù)對(duì)的中位性能獲得相等的歸一化獎(jiǎng)勵(lì),消除了梯度更新中的偏差。團(tuán)隊(duì)引入 Logistic 歸一化函數(shù),將每個(gè)數(shù)據(jù)集的中位性能統(tǒng)一映射到相同的獎(jiǎng)勵(lì)值 0.5:



其中 p_50是該數(shù)據(jù)集的中位性能,IQR 是四分位距。這個(gè)設(shè)計(jì)的精妙之處在于四重保證:

  • 中位公平性:所有數(shù)據(jù)集在中位性能處獲得相同獎(jiǎng)勵(lì),無(wú)論絕對(duì)難度如何
  • 平滑梯度:Logistic 函數(shù)處處可導(dǎo),不會(huì)出現(xiàn)梯度消失或爆炸
  • 離群值魯棒性:基于 IQR 縮放,極端異常值不會(huì)扭曲整體分布
  • 有界輸出:獎(jiǎng)勵(lì)值被限制在 (0,1) 區(qū)間內(nèi),天然兼容 GRPO 的組歸一化機(jī)制

第二項(xiàng):醫(yī)學(xué) LLM 評(píng)審(Medical LLM Judge)。

這是整個(gè)工作中最具洞察力的部分。團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的語(yǔ)義相似度指標(biāo)根本無(wú)法衡量醫(yī)學(xué)描述的臨床正確性 —— 前面提到的例子就是最好的佐證:「工具在上方區(qū)域抓取組織」與「抓鉗在右上象限分離膽囊管」,語(yǔ)義相似度高達(dá) 0.82,但醫(yī)學(xué)準(zhǔn)確性天壤之別。

為此,團(tuán)隊(duì)設(shè)計(jì)了基于 GPT-4.1 的比較評(píng)分系統(tǒng),從五個(gè)臨床維度進(jìn)行評(píng)判:

  • 醫(yī)學(xué)術(shù)語(yǔ)精確性:使用的是臨床術(shù)語(yǔ)還是外行語(yǔ)言?
  • 器械與解剖結(jié)構(gòu)識(shí)別:能否準(zhǔn)確命名具體工具和人體結(jié)構(gòu)?
  • 描述具體性:給出的是精確細(xì)節(jié)還是籠統(tǒng)概括?
  • 臨床上下文感知:是否理解手術(shù)流程和安全規(guī)范?
  • 動(dòng)作與狀態(tài)準(zhǔn)確性:對(duì)手術(shù)動(dòng)作和組織狀態(tài)的判斷是否正確?

最終評(píng)分采用混合策略:LLM 評(píng)審得分占 50%,傳統(tǒng)語(yǔ)義相似度占 50%—— 既捕捉臨床正確性,又保留整體連貫性。

實(shí)際效果

說(shuō)了這么多,采用了如此完善的數(shù)據(jù)集,以及團(tuán)隊(duì)創(chuàng)新的 SFT + RL 方法,能否徹底改變大模型在醫(yī)療視頻理解領(lǐng)域只會(huì)「瞎猜」的現(xiàn)狀呢?

答案自然是肯定的,我們?cè)谇拔牡膱D 1 中已經(jīng)能夠發(fā)現(xiàn),采用完整訓(xùn)練的元智醫(yī)療視頻理解大模型在各項(xiàng)任務(wù)中成績(jī)遠(yuǎn)遠(yuǎn)領(lǐng)先于通用大模型。



圖 4:四個(gè)模型在 MedVidBench 上 8 個(gè)任務(wù)的主要結(jié)果。

這張多維圖像把元智醫(yī)療視頻理解大模型在 8 個(gè)主要任務(wù)上的優(yōu)勢(shì)表現(xiàn)的非常清晰,非常接近「八邊形戰(zhàn)士」。

以 GPT-5.4,Gemini-3.1 和 Qwen3.5-4B 為代表的前沿通用大模型表現(xiàn)出非常一致的「偏科」問(wèn)題,但哪怕在其最擅長(zhǎng)的視頻摘要任務(wù)中,仍然不敵元智醫(yī)療視頻理解大模型。



圖 5:uAI-NEXUS-MedVLM-1.0a-7B-RL在獎(jiǎng)勵(lì)歸一化和 LLM 判斷上的消融研究。

比數(shù)據(jù)更能讓人直觀感受到大模型強(qiáng)大能力的自然是定性對(duì)比。在這里,我們選擇了畫面相對(duì)溫和的臨床護(hù)理中「青霉素皮試」操作的示例:



圖 6:臨床護(hù)理區(qū)域描述任務(wù)實(shí)驗(yàn)結(jié)果

仔細(xì)看,對(duì)于大模型而言,對(duì)一個(gè)高于一分鐘時(shí)長(zhǎng)的視頻進(jìn)行內(nèi)容識(shí)別和理解,尤其是涉及醫(yī)學(xué)專用術(shù)語(yǔ)和精準(zhǔn)定位的任務(wù),即使對(duì)一個(gè)未經(jīng)醫(yī)學(xué)培訓(xùn)的人類而言都是極具挑戰(zhàn)性的。

  • GPT-5.4 描述的內(nèi)容詳細(xì),但出現(xiàn)了「排除殘留空氣」等幻覺(jué)現(xiàn)象。
  • Gemini-3.1-Flash-lite 結(jié)果與 GPT-5.4 有些類似,但其出現(xiàn)了更明顯的時(shí)間標(biāo)記錯(cuò)誤。
  • Qwen3.5-4B 則出現(xiàn)了典型的時(shí)間定位偏移,并出現(xiàn)描述兩次「進(jìn)行皮內(nèi)注射」的顯著錯(cuò)誤。

uAI-NEXUS-MedVLM-1.0b-4B-RL 的表現(xiàn)產(chǎn)生了顯著的進(jìn)化。它不僅準(zhǔn)確識(shí)別「皮膚消毒」和「皮內(nèi)注射」的時(shí)間位置,并準(zhǔn)確描述人體前臂部位,準(zhǔn)確表達(dá)醫(yī)療專業(yè)術(shù)語(yǔ),并成功描述出細(xì)粒度操作過(guò)程。

模型輸出已經(jīng)從表層動(dòng)作識(shí)別,走向?qū)ψo(hù)理操作邏輯的流程化的深度理解。這種提升說(shuō)明,模型開始逐步建立起更接近臨床視角的視頻理解能力。

而且 MedGRPO 具備良好的泛化性,甚至在 4B 小模型 + RL 的配置下,多數(shù)任務(wù)的表現(xiàn)已經(jīng)超過(guò) 7B 的 SFT 基線。這意味著高效的醫(yī)療視頻理解不一定需要堆參數(shù),正確的訓(xùn)練方法論同樣關(guān)鍵。

廣發(fā)「英雄帖」,共建基礎(chǔ)設(shè)施

通往醫(yī)療視頻理解領(lǐng)域的標(biāo)尺已經(jīng)確立,向這一領(lǐng)域探索有了評(píng)估基準(zhǔn),一切都變得有跡可循。

要想真正讓醫(yī)療領(lǐng)域的人工智能走向?qū)嵱,就需要讓全行業(yè)都來(lái)用這把標(biāo)尺,共同推進(jìn)醫(yī)療領(lǐng)域 AI 的模型進(jìn)步和基礎(chǔ)設(shè)施建設(shè)。

團(tuán)隊(duì)上線了MedVidBench 公開排行榜(Leaderboard),面向全球開發(fā)者發(fā)出正式邀請(qǐng):任何團(tuán)隊(duì)都可以提交自有模型的測(cè)試結(jié)果,由系統(tǒng)基于這一標(biāo)準(zhǔn)自動(dòng)評(píng)分,動(dòng)態(tài)更新統(tǒng)一榜單。

這是一張「英雄帖」,是一個(gè)持續(xù)運(yùn)轉(zhuǎn)的全球競(jìng)技平臺(tái),開發(fā)者提交、系統(tǒng)評(píng)分、榜單刷新、排名迭代,形成完整的閉環(huán)。



  • 排行榜鏈接:https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

作為領(lǐng)域內(nèi)首個(gè)完善的評(píng)測(cè)體系,具有深遠(yuǎn)的意義:

構(gòu)建可信的統(tǒng)一評(píng)測(cè)框架。在醫(yī)療這樣一個(gè)極度依賴信任的行業(yè),「自說(shuō)自話」的 benchmark 沒(méi)有說(shuō)服力。只有當(dāng)全球不同機(jī)構(gòu)、不同技術(shù)路線的模型在同一套標(biāo)準(zhǔn)下接受檢驗(yàn)時(shí),評(píng)測(cè)框架本身才能獲得公信力。MedVidBench 的公開排行榜正是為此而生,打造一個(gè)共同認(rèn)可的「行業(yè)標(biāo)準(zhǔn)」,讓所有參與者站在同一條起跑線上。

吸引全球開發(fā)者參與挑戰(zhàn)。排行榜天然具有競(jìng)技屬性,競(jìng)爭(zhēng)是推動(dòng)領(lǐng)域進(jìn)步的最有效引擎之一。當(dāng)一家醫(yī)院的研究組、一所大學(xué)的實(shí)驗(yàn)室、一家創(chuàng)業(yè)公司的工程師都能在同一個(gè)榜單上看到自己的排名,這種開放競(jìng)技模式在大模型的經(jīng)典 benchmark 和 Arena 上已被反復(fù)驗(yàn)證。

提升國(guó)際影響力與信任度。從更宏觀的視角看,一個(gè)被全球開發(fā)者廣泛使用的評(píng)測(cè)基準(zhǔn)和排行榜,意味著打造這一大模型和評(píng)測(cè)標(biāo)準(zhǔn)的聯(lián)影智能正在從「中國(guó)的一家醫(yī)療 AI 公司」轉(zhuǎn)變?yōu)椤溉蜥t(yī)療視頻理解領(lǐng)域的基礎(chǔ)設(shè)施提供者」。

醫(yī)療 AI 走到今天,競(jìng)爭(zhēng)焦點(diǎn)已經(jīng)不再局限于單個(gè)模型、單項(xiàng)指標(biāo)或某一次榜單成績(jī),而是技術(shù)突破的背后是否具備持續(xù)連接真實(shí)臨床場(chǎng)景、醫(yī)學(xué)數(shù)據(jù)體系、算法研究和工程落地的綜合能力。

在醫(yī)療視頻理解大模型的領(lǐng)域,元智醫(yī)療視頻理解大模型首次實(shí)現(xiàn)里程碑式的技術(shù)突破、其背后的研發(fā)團(tuán)隊(duì),正是長(zhǎng)期深耕 AI 領(lǐng)域的創(chuàng)新企業(yè):聯(lián)影智能

作為聯(lián)影集團(tuán)旗下獨(dú)立運(yùn)營(yíng)的子公司,聯(lián)影智能專注于醫(yī)療數(shù)字化和智能化方向上的技術(shù)創(chuàng)新與商業(yè)落地布局,致力于成為全球數(shù)智醫(yī)療創(chuàng)新引領(lǐng)者。

去年聯(lián)影智能正式發(fā)布了面向醫(yī)療垂域、多模態(tài)協(xié)同的「元智」醫(yī)療大模型(簡(jiǎn)稱:uAI NEXUS)。該大模型由文本、影像、視覺(jué)、語(yǔ)音、混合五個(gè)大模型組成,作為醫(yī)療數(shù)智化體系的堅(jiān)實(shí)基座,可面向不同醫(yī)療場(chǎng)景輸出底層智能。本次開源的視頻理解大模型正是「元智」視覺(jué)大模型的重要能力延展與關(guān)鍵組成部分,進(jìn)一步拓展了其在動(dòng)態(tài)醫(yī)療場(chǎng)景中的理解、推理與決策能力。

為什么聯(lián)影智能攻克視覺(jué)理解這一公認(rèn)的技術(shù)難題?我們認(rèn)為,這是一個(gè)長(zhǎng)期的、系統(tǒng)性的投入,常年的技術(shù)積累與業(yè)內(nèi)的綜合實(shí)力的厚積薄發(fā),水到渠成。

第一層:真實(shí)臨床場(chǎng)景的長(zhǎng)期浸潤(rùn)。

聯(lián)影智能深耕醫(yī)療影像與人工智能融合領(lǐng)域多年,在真實(shí)臨床環(huán)境中積累了海量的多模態(tài)數(shù)據(jù)與應(yīng)用經(jīng)驗(yàn),并對(duì)醫(yī)院臨床需求有深刻洞察力。這種基于真實(shí)醫(yī)療體系長(zhǎng)期沉淀的積累,讓模型從一開始就具備「臨床可用性」的基因。

第二層:頂會(huì)級(jí)算法研究的持續(xù)輸出。

聯(lián)影智能的研究團(tuán)隊(duì)長(zhǎng)期深耕計(jì)算機(jī)視覺(jué)與醫(yī)學(xué)影像分析方向,在手術(shù)視頻理解和多模態(tài)大模型等領(lǐng)域有深厚的技術(shù)儲(chǔ)備。相關(guān)成果已發(fā)表于 CVPR、NeurIPS、ICLR、ICCV、ECCV、AAAI 等國(guó)際頂級(jí) AI 會(huì)議 —— 這意味著團(tuán)隊(duì)在方法論層面始終站在領(lǐng)域最前沿。

第三層:從數(shù)據(jù)源頭到模型落地的完整閉環(huán)。

這是最關(guān)鍵、也最難復(fù)制的一環(huán)。團(tuán)隊(duì)直接從數(shù)據(jù)源頭入手:對(duì)海量公共醫(yī)療視頻數(shù)據(jù)進(jìn)行逐幀級(jí)精細(xì)標(biāo)注,精確到每一幀畫面中的器械類型、空間位置、手術(shù)操作步驟、風(fēng)險(xiǎn)評(píng)估等級(jí)等核心要素。這種近乎嚴(yán)苛的高顆粒度、多維度標(biāo)注模式,使模型從訓(xùn)練的第一天起就建立起強(qiáng)大的視覺(jué)理解基礎(chǔ),并逐步構(gòu)建出一套覆蓋多場(chǎng)景的 「感知 — 推理 — 決策」 完整能力體系。

通用大模型在互聯(lián)網(wǎng)文本和圖像上攻城略地的同時(shí),手術(shù)室里的那臺(tái)攝像機(jī)仍在靜靜地記錄著一切。在這里,語(yǔ)言的華麗毫無(wú)意義,唯有毫米級(jí)的精度和對(duì)生命的絕對(duì)嚴(yán)肅才是金標(biāo)準(zhǔn)。

未來(lái),元智醫(yī)療視頻理解大模型也有潛力深入融合具身智能,成為打通醫(yī)療影像、臨床決策與物理執(zhí)行的智能樞紐。形成「視覺(jué)感知 - 邏輯推理 - 物理執(zhí)行」的完整能力閉環(huán),推動(dòng)復(fù)雜醫(yī)療操作邁向全面數(shù)字化、結(jié)構(gòu)化與智能化。

醫(yī)療 AI 的落地是一場(chǎng)接力賽。聯(lián)影智能把模型和數(shù)據(jù)開源,把「接力棒」遞到了全行業(yè)手里。畢竟,手術(shù)刀尖上的事,只有全行業(yè)一起努力,才能讓 AI 真正從冷冰冰的論文數(shù)據(jù),變成手術(shù)室里那盞照亮生命的「無(wú)影燈」。

https://www.reuters.com/investigations/ai-enters-operating-room-reports-arise-botched-surgeries-misidentified-body-2026-02-09/

https://www.gii.tw/report/tbrc1939265-artificial-intelligence-ai-enhanced-surgical-video.html

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
Claude 官方客戶端 + DeepSeek-V4:免登錄,無(wú)需訂閱!(保姆級(jí)教程)

Claude 官方客戶端 + DeepSeek-V4:免登錄,無(wú)需訂閱。ūD芳(jí)教程)

新浪財(cái)經(jīng)
2026-04-29 06:42:05
山西大同“訂婚強(qiáng)奸案”男子將于5月4日出獄,母親:為兒子買了新衣,計(jì)劃親自去接,帶他回歸正常生活

山西大同“訂婚強(qiáng)奸案”男子將于5月4日出獄,母親:為兒子買了新衣,計(jì)劃親自去接,帶他回歸正常生活

大風(fēng)新聞
2026-04-28 17:18:06
去銀行注銷銀行卡,柜員問(wèn)銷卡還是銷戶?一字之差后果完全不一樣

去銀行注銷銀行卡,柜員問(wèn)銷卡還是銷戶?一字之差后果完全不一樣

復(fù)轉(zhuǎn)這些年
2026-04-16 12:15:01
英偉達(dá)要慌了?一家中國(guó)GPU通過(guò)微軟WHQL認(rèn)證,是全球第4家

英偉達(dá)要慌了?一家中國(guó)GPU通過(guò)微軟WHQL認(rèn)證,是全球第4家

互聯(lián)網(wǎng).亂侃秀
2026-04-28 14:49:09
風(fēng)管機(jī)賣6199元,小米在賭什么?

風(fēng)管機(jī)賣6199元,小米在賭什么?

硅嶼手記
2026-04-28 16:06:20
四年虧光74億!華誼走到今天,全是當(dāng)年坑周星馳作的!

四年虧光74億!華誼走到今天,全是當(dāng)年坑周星馳作的!

喜歡歷史的阿繁
2026-04-26 14:01:13
廣東21個(gè)市都有客家話!分布最廣的竟然不是粵語(yǔ)

廣東21個(gè)市都有客家話!分布最廣的竟然不是粵語(yǔ)

糖逗在娛樂(lè)
2026-04-28 10:16:29
男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

丫頭舫
2026-04-27 17:39:57
倒戈!廣東主場(chǎng)響起“杜鋒下課”+朱芳雨臉色鐵青 會(huì)被黑12嗎

倒戈!廣東主場(chǎng)響起“杜鋒下課”+朱芳雨臉色鐵青 會(huì)被黑12嗎

醉臥浮生
2026-04-28 22:14:37
湖人傷情更新,41歲老詹G5抗壓!東契奇二輪難回歸+小里出戰(zhàn)成疑

湖人傷情更新,41歲老詹G5抗壓!東契奇二輪難回歸+小里出戰(zhàn)成疑

鍋?zhàn)踊@球
2026-04-29 13:32:08
土以要開打?埃爾多安威脅攻打以色列后,不到1天,卡茨強(qiáng)勢(shì)出招

土以要開打?埃爾多安威脅攻打以色列后,不到1天,卡茨強(qiáng)勢(shì)出招

老謝談史
2026-04-14 17:08:45
為討好美國(guó)和日本,叫囂中國(guó)該解除核武的時(shí)殷弘,他現(xiàn)狀如何?

為討好美國(guó)和日本,叫囂中國(guó)該解除核武的時(shí)殷弘,他現(xiàn)狀如何?

談史論天地
2026-03-27 11:35:07
大家提前做好準(zhǔn)備,5月開始,不出意外的話,中國(guó)或?qū)⒊霈F(xiàn)4大變化

大家提前做好準(zhǔn)備,5月開始,不出意外的話,中國(guó)或?qū)⒊霈F(xiàn)4大變化

貓叔東山再起
2026-04-29 09:20:21
清朝一個(gè)很特殊的官職,叫“道臺(tái)”,幾乎沒(méi)人能說(shuō)清他是干啥的

清朝一個(gè)很特殊的官職,叫“道臺(tái)”,幾乎沒(méi)人能說(shuō)清他是干啥的

抽象派大師
2026-04-24 12:23:42
女子啃老10年,自盡后老母親收拾房間發(fā)現(xiàn)銀行卡,查看余額后崩潰

女子啃老10年,自盡后老母親收拾房間發(fā)現(xiàn)銀行卡,查看余額后崩潰

白云故事
2025-03-17 07:55:10
彭總在哈軍工用餐時(shí),一學(xué)員同坐,責(zé)問(wèn)陳賡:他有什么資格坐這?

彭總在哈軍工用餐時(shí),一學(xué)員同坐,責(zé)問(wèn)陳賡:他有什么資格坐這?

小莜讀史
2026-04-20 15:17:58
英媒:曼城如果奪冠且115項(xiàng)指控罪名成立,冠軍可能判給槍手

英媒:曼城如果奪冠且115項(xiàng)指控罪名成立,冠軍可能判給槍手

懂球帝
2026-04-28 19:46:05
民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

民進(jìn)黨,極有可能在下一屆臺(tái)灣地區(qū)選舉后,成為長(zhǎng)期一家獨(dú)大政黨

李橑在北漂
2026-04-02 10:22:26
澤連斯基指責(zé)以色列接收烏克蘭被盜糧食,以色列暗示烏克蘭說(shuō)謝謝

澤連斯基指責(zé)以色列接收烏克蘭被盜糧食,以色列暗示烏克蘭說(shuō)謝謝

山河路口
2026-04-28 23:32:52
倒查13年,央國(guó)企開始慌了

倒查13年,央國(guó)企開始慌了

職場(chǎng)資深秘書
2026-04-28 22:06:07
2026-04-29 18:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12890文章數(shù) 142640關(guān)注度
往期回顧 全部

科技要聞

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

頭條要聞

俄首富超級(jí)游艇穿越霍爾木茲海峽:6層甲板 25米長(zhǎng)泳池

頭條要聞

俄首富超級(jí)游艇穿越霍爾木茲海峽:6層甲板 25米長(zhǎng)泳池

體育要聞

一場(chǎng)九球狂歡,各路神仙批量下凡

娛樂(lè)要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時(shí)

財(cái)經(jīng)要聞

曾經(jīng)的新能源首富,希望又破了!

汽車要聞

技術(shù)天花板再摸高 全能型的奕境X9首秀

態(tài)度原創(chuàng)

健康
教育
家居
游戲
數(shù)碼

干細(xì)胞治燒燙傷能用了么?

教育要聞

山東省家庭教育志愿服務(wù)總隊(duì)走進(jìn)東營(yíng)市河口區(qū)巡講活動(dòng)圓滿完成

家居要聞

寂然無(wú)界 簡(jiǎn)潔風(fēng)格

《卡片魔王:只剩個(gè)頭!》評(píng)測(cè):手快動(dòng)兩下"/> 主站 商城 論壇 自運(yùn)營(yíng) 登錄 注冊(cè) 《卡片魔王:只剩個(gè)頭!》評(píng)測(cè):手快動(dòng)兩下 Haine 2026-0...

數(shù)碼要聞

威剛發(fā)布全新產(chǎn)品戰(zhàn)略,公布ADATA NEXRA固態(tài)硬盤

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版