網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓大模型理解真實(shí)醫(yī)療視頻，全球首個(gè)開源技術(shù)方案來(lái)了！

2026-04-28 15:52:34　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜冷貓

讓 AI 進(jìn)入醫(yī)療領(lǐng)域，是一件需要慎之又慎的事情。

在這種事情上，總有人走得特別激進(jìn)。今年 2 月，路透社發(fā)布了一篇調(diào)查報(bào)道，標(biāo)題觸目驚心 ——《As AI enters the operating room, reports arise of botched surgeries and misidentified body parts》。

翻譯一下，該報(bào)道題為《當(dāng) AI 進(jìn)入手術(shù)室：手術(shù)失誤及人體部位識(shí)別錯(cuò)誤的報(bào)告頻發(fā)》。在美國(guó)，醫(yī)療設(shè)備廠商將不甚成熟的 AI 引入手術(shù)場(chǎng)景，但隨之而來(lái)的誤判案例也在不斷增加 —— 系統(tǒng)錯(cuò)誤識(shí)別了人體部位，有機(jī)器人輔助手術(shù)中出現(xiàn)了本可避免的操作失誤。

醫(yī)療器械廠商正爭(zhēng)相將 AI 整合進(jìn)其產(chǎn)品之中。盡管支持者堅(jiān)信這項(xiàng)新技術(shù)將顛覆醫(yī)療領(lǐng)域，但監(jiān)管機(jī)構(gòu)收到的關(guān)于患者受傷的指控卻在持續(xù)攀升。

在這些直接應(yīng)用到臨床實(shí)踐的醫(yī)學(xué) AI 中，大部分都是以視覺(jué)和圖像（視頻）識(shí)別技術(shù)作為核心。

在學(xué)術(shù)界我們很熟悉，視頻大模型已經(jīng)成為了計(jì)算機(jī)視覺(jué)領(lǐng)域最擁擠的賽道之一。雖說(shuō)有非常大量成熟的視覺(jué)識(shí)別大模型，但幾乎都集中在通用視頻領(lǐng)域。當(dāng)鏡頭轉(zhuǎn)向手術(shù)室，局面陡然變難。我們?nèi)匀幻媾R幾個(gè)巨大的問(wèn)題：

通用模型無(wú)法專精于醫(yī)療領(lǐng)域的任務(wù)，并且醫(yī)療領(lǐng)域并非單一任務(wù)種類；醫(yī)療領(lǐng)域的相關(guān)數(shù)據(jù)缺失；大模型在醫(yī)療實(shí)際任務(wù)中的表現(xiàn)幾乎無(wú)法進(jìn)行統(tǒng)一評(píng)估。

不過(guò)，讓 AI 參與到醫(yī)療領(lǐng)域，提高效率，減輕醫(yī)院和醫(yī)務(wù)人員的負(fù)擔(dān)，是非常有意義的。

我們看到，來(lái)自 Global Information 的《2026 年人工智慧（AI）增強(qiáng)型手術(shù)影像分析全球市場(chǎng)報(bào)告》，也預(yù)測(cè)了 AI 在醫(yī)療領(lǐng)域手術(shù)視頻分析的增長(zhǎng)潛力。

基于人工智能（AI）的手術(shù)視頻分析市場(chǎng)發(fā)展迅速，預(yù)計(jì)將從 2025 年的 7.3 億美元增長(zhǎng)到 2026 年的 9.1 億美元，年復(fù)合增長(zhǎng)率（CAGR）為 24.1%。預(yù)計(jì)未來(lái)幾年，人工智能（AI）增強(qiáng)型手術(shù)視頻分析市場(chǎng)將呈指數(shù)級(jí)增長(zhǎng)，到 2030 年市場(chǎng)規(guī)模將達(dá)到 21.4 億美元，年復(fù)合增長(zhǎng)率（CAGR）為 23.8%。

令人驚喜的是，全球首個(gè)，規(guī)模最大、性能最強(qiáng)的醫(yī)療視頻理解領(lǐng)域大模型 —— 元智醫(yī)療視頻理解大模型 (uAI-NEXUS-MedVLM) 已經(jīng)正式發(fā)布并開源！

這一模型直接解決了在醫(yī)療視頻領(lǐng)域的任務(wù)優(yōu)化，數(shù)據(jù)缺失，以及無(wú)法評(píng)測(cè)的三大痛點(diǎn)，敲開了大模型在醫(yī)療領(lǐng)域大規(guī)模應(yīng)用的大門。

相關(guān)研究成果已獲 IEEE 國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議（CVPR 2026）收錄。

論文標(biāo)題：MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
論文鏈接：https://arxiv.org/pdf/2512.06581
項(xiàng)目主頁(yè)：https://uii-ai.github.io/MedGRPO/
開源鏈接：https://github.com/UII-AI/MedGRPO-Code

把「不可解」變成「可解」

在過(guò)去，讓大模型理解真正的臨床醫(yī)療視頻，幾乎是一個(gè)「不可解」的問(wèn)題。

醫(yī)療視頻不僅涉及圖像識(shí)別，還需要解決空間、時(shí)間和語(yǔ)義的復(fù)雜性，手術(shù)過(guò)程中的每個(gè)細(xì)節(jié)都至關(guān)重要，任何疏忽都可能帶來(lái)嚴(yán)重后果。

空間維度要求模型精確識(shí)別手術(shù)視頻中各個(gè)工具、器官和組織的空間位置以及它們之間的關(guān)系。
時(shí)間維度帶來(lái)了動(dòng)態(tài)性，手術(shù)視頻不僅是靜態(tài)的圖像集合，還涉及到不同動(dòng)作和步驟的時(shí)序變化。
語(yǔ)義維度則要求模型具備深厚的醫(yī)學(xué)背景知識(shí)，能夠理解手術(shù)中每個(gè)設(shè)備和動(dòng)作的醫(yī)學(xué)意義。

視覺(jué)理解的無(wú)人區(qū)

「空間 — 時(shí)間 — 語(yǔ)義」的三重復(fù)雜性疊加，即使是 GPT-5.4 和 Gemini-3.1 這樣的通用巨頭，在面對(duì)真實(shí)手術(shù)視頻時(shí)幾乎全面潰敗。

圖 1：在 MedVidBench 8 項(xiàng)任務(wù)上的主要結(jié)果。

在實(shí)驗(yàn)中，研究團(tuán)隊(duì)比較了 2025 年和 2026 年的開箱即用基線模型（采用 one-shot 提示進(jìn)行評(píng)估）、 SFT 基線，以及在 Qwen2.5VL-7B、Qwen3-VL-4B 和 Qwen3.5-4B 上的完整 MedGRPO 方法。

具體數(shù)據(jù)很能說(shuō)明問(wèn)題。在關(guān)鍵安全視野評(píng)估（CVS）任務(wù)上，GPT-5.4 的準(zhǔn)確率只有 16.4%，Gemini-3.1 為 24.2%，基本上是在瞎猜。在時(shí)空動(dòng)作定位（STG）任務(wù)中，預(yù)測(cè)區(qū)域與真實(shí)區(qū)域的交并比（mIoU）低到可以忽略不計(jì)。即便是看起來(lái)最「容易」的視頻摘要生成任務(wù)中，滿分 5 分的情況下，GPT-5.4 只拿到 3.976 分，Gemini-3.1 拿到 3.737 分。

聯(lián)影智能的研究團(tuán)隊(duì)選擇了一條突破無(wú)人區(qū)的全新道路。方案可以概括為三件事：造一把標(biāo)尺、建一套數(shù)據(jù)、發(fā)明一種訓(xùn)練方法

MedVidBench：全球公共標(biāo)尺

要走進(jìn)廣闊的無(wú)人區(qū)，必須有勇于探索的先行者，建立起最初的標(biāo)尺。

換言之，任何領(lǐng)域的進(jìn)步都離不開統(tǒng)一的評(píng)測(cè)基準(zhǔn)。在其他研究領(lǐng)域里，ImageNet 定義了圖像分類的標(biāo)準(zhǔn)，GLUE 奠定了自然語(yǔ)言理解的基礎(chǔ)，但在醫(yī)療視頻理解領(lǐng)域，長(zhǎng)期以來(lái)連一把「標(biāo)尺」都沒(méi)有。

為了探索，并能夠便于后來(lái)者的研究，研究團(tuán)隊(duì)構(gòu)建了MedVidBench，一個(gè)包含53 萬(wàn)余條視頻 - 指令對(duì)的大規(guī)�；鶞�(zhǔn)數(shù)據(jù)集。它覆蓋了8 個(gè)專業(yè)醫(yī)學(xué)數(shù)據(jù)源（CholecT50、CholecTrack20、Cholec80-CVS、CoPESD、AVOS、EgoSurgery、JIGSAWS、NurViD），橫跨腹腔鏡、開放手術(shù)、機(jī)器人手術(shù)及護(hù)理操作等核心臨床場(chǎng)景。

圖 2：MedVidBench 概述。(a) MedVidBench 的高質(zhì)量數(shù)據(jù)管理流程。研究團(tuán)隊(duì)將專家知識(shí)應(yīng)用于提示構(gòu)建，并使用 2 個(gè) VLM（Gemini-2.5-Flash 和 GPT-4.1）生成高質(zhì)量文本。(b) MedVidBench 包含 8 個(gè)不同的數(shù)據(jù)集，總樣本量為 532k，涵蓋 4 個(gè)不同的領(lǐng)域。(c) 不同領(lǐng)域中多樣化任務(wù)示例。

更關(guān)鍵的是，MedVidBench 不只是「量大」。它包含了了8 大個(gè)不同的數(shù)據(jù)集，涵蓋三個(gè)粒度層級(jí)：

視頻級(jí)：理解整段視頻的全局信息，包含 VS（視頻摘要）、NAP（下一步操作預(yù)測(cè)）的任務(wù)；
片段級(jí)：定位和理解特定時(shí)間段的內(nèi)容，包含 TAG（時(shí)間動(dòng)作定位）、STG（時(shí)空定位）、DVC（密集視頻描述）的任務(wù)；
幀級(jí)：對(duì)單幀畫面進(jìn)行精細(xì)分析，包含 RC（區(qū)域描述）、CVS（關(guān)鍵安全視野評(píng)估）、SA（技能評(píng)估）的任務(wù)

這種「視頻 — 片段 — 幀」的三層架構(gòu)，完整還原了人類醫(yī)生觀看手術(shù)視頻時(shí)，由粗到細(xì)的認(rèn)知過(guò)程：從整體流程出發(fā)，再聚焦關(guān)鍵步驟，最后審視細(xì)節(jié)。

數(shù)據(jù)質(zhì)量方面，團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的質(zhì)量保障流水線：專家引導(dǎo)式提示詞工程 + 雙模型交叉驗(yàn)證（GPT + Gemini），確保每一條指令 - 響應(yīng)對(duì)都經(jīng)過(guò)雙重把關(guān)。數(shù)據(jù)集分為兩個(gè)版本 —— 大規(guī)模版（53 萬(wàn)樣本，用于擴(kuò)展實(shí)驗(yàn)）和標(biāo)準(zhǔn)版（5.15 萬(wàn)樣本，任務(wù)均衡，用于高效多任務(wù)學(xué)習(xí)）。

GRPO：好上加好

有了數(shù)據(jù)，下一個(gè)問(wèn)題是：用什么訓(xùn)練方法最好？

我們知道，在特定任務(wù)和數(shù)據(jù)集上訓(xùn)練大模型，直觀的方法是通過(guò)監(jiān)督微調(diào)（SFT）。

基于 Qwen2.5-VL-7B，團(tuán)隊(duì)在 MedVidBench 上進(jìn)行了 SFT ，結(jié)果相當(dāng)驚艷。在全部 8 項(xiàng)任務(wù)中，模型的表現(xiàn)全面超越了 GPT-4.1、Gemini-2.5-Flash、GPT-5.4 和 Gemini-3.1-flash-lite。在僅 7B 參數(shù)規(guī)模下，CVS 準(zhǔn)確率高達(dá) 89.4%，是 GPT-5.4 的近 50 倍；而在 TAG@0.3 的 mIoU 上，更是達(dá)到了 Gemini-3.1 的 3 倍之多。

但 SFT 的方法是有上限的。為了能夠更進(jìn)一步，團(tuán)隊(duì)希望通過(guò)引入強(qiáng)化學(xué)習(xí)（RL），進(jìn)一步提升模型輸出的質(zhì)量。

然而，標(biāo)準(zhǔn)的 RL 方法在這里遇到了一個(gè)致命問(wèn)題：跨數(shù)據(jù)集獎(jiǎng)勵(lì)尺度失衡

不同醫(yī)療視頻任務(wù)的難度差異極大。CoPESD 數(shù)據(jù)集上的 STG 任務(wù)中位 mIoU 約 0.5，而 EgoSurgery 上同樣的任務(wù)中位 mIoU 只有約 0.12。如果直接用原始獎(jiǎng)勵(lì)信號(hào)做 RL 訓(xùn)練，簡(jiǎn)單任務(wù)的梯度會(huì)淹沒(méi)困難任務(wù)的信號(hào)，導(dǎo)致優(yōu)化失衡甚至訓(xùn)練崩潰

實(shí)驗(yàn)證實(shí)了這一點(diǎn)：不做歸一化時(shí)，CVS 準(zhǔn)確率從 0.894 崩塌到 0.020，STG 的 mIoU 從 0.177 掉到 0.010。

團(tuán)隊(duì)的解決方案是MedGRPO，核心是兩項(xiàng)算法創(chuàng)新：

圖 3：MedGRPO 概述。（a）包含跨數(shù)據(jù)集獎(jiǎng)勵(lì)歸一化和醫(yī)療 LLM 裁判評(píng)估的 MedGRPO 框架。（b）使用和未使用獎(jiǎng)勵(lì)歸一化訓(xùn)練的模型之間的訓(xùn)練熵比較。

第一項(xiàng)：跨數(shù)據(jù)集獎(jiǎng)勵(lì)歸一化（Cross-Dataset Reward Normalization）。

關(guān)鍵洞察是中位數(shù)公平性：所有數(shù)據(jù)集 - 任務(wù)對(duì)的中位性能獲得相等的歸一化獎(jiǎng)勵(lì)，消除了梯度更新中的偏差。團(tuán)隊(duì)引入 Logistic 歸一化函數(shù)，將每個(gè)數(shù)據(jù)集的中位性能統(tǒng)一映射到相同的獎(jiǎng)勵(lì)值 0.5：

其中 p_50是該數(shù)據(jù)集的中位性能，IQR 是四分位距。這個(gè)設(shè)計(jì)的精妙之處在于四重保證：

中位公平性：所有數(shù)據(jù)集在中位性能處獲得相同獎(jiǎng)勵(lì)，無(wú)論絕對(duì)難度如何
平滑梯度：Logistic 函數(shù)處處可導(dǎo)，不會(huì)出現(xiàn)梯度消失或爆炸
離群值魯棒性：基于 IQR 縮放，極端異常值不會(huì)扭曲整體分布
有界輸出：獎(jiǎng)勵(lì)值被限制在 (0,1) 區(qū)間內(nèi)，天然兼容 GRPO 的組歸一化機(jī)制

第二項(xiàng)：醫(yī)學(xué) LLM 評(píng)審（Medical LLM Judge）。

這是整個(gè)工作中最具洞察力的部分。團(tuán)隊(duì)發(fā)現(xiàn)，傳統(tǒng)的語(yǔ)義相似度指標(biāo)根本無(wú)法衡量醫(yī)學(xué)描述的臨床正確性 —— 前面提到的例子就是最好的佐證：「工具在上方區(qū)域抓取組織」與「抓鉗在右上象限分離膽囊管」，語(yǔ)義相似度高達(dá) 0.82，但醫(yī)學(xué)準(zhǔn)確性天壤之別。

為此，團(tuán)隊(duì)設(shè)計(jì)了基于 GPT-4.1 的比較評(píng)分系統(tǒng)，從五個(gè)臨床維度進(jìn)行評(píng)判：

醫(yī)學(xué)術(shù)語(yǔ)精確性：使用的是臨床術(shù)語(yǔ)還是外行語(yǔ)言？
器械與解剖結(jié)構(gòu)識(shí)別：能否準(zhǔn)確命名具體工具和人體結(jié)構(gòu)？
描述具體性：給出的是精確細(xì)節(jié)還是籠統(tǒng)概括？
臨床上下文感知：是否理解手術(shù)流程和安全規(guī)范？
動(dòng)作與狀態(tài)準(zhǔn)確性：對(duì)手術(shù)動(dòng)作和組織狀態(tài)的判斷是否正確？

最終評(píng)分采用混合策略：LLM 評(píng)審得分占 50%，傳統(tǒng)語(yǔ)義相似度占 50%—— 既捕捉臨床正確性，又保留整體連貫性。

實(shí)際效果

說(shuō)了這么多，采用了如此完善的數(shù)據(jù)集，以及團(tuán)隊(duì)創(chuàng)新的 SFT + RL 方法，能否徹底改變大模型在醫(yī)療視頻理解領(lǐng)域只會(huì)「瞎猜」的現(xiàn)狀呢？

答案自然是肯定的，我們?cè)谇拔牡膱D 1 中已經(jīng)能夠發(fā)現(xiàn)，采用完整訓(xùn)練的元智醫(yī)療視頻理解大模型在各項(xiàng)任務(wù)中成績(jī)遠(yuǎn)遠(yuǎn)領(lǐng)先于通用大模型。

圖 4：四個(gè)模型在 MedVidBench 上 8 個(gè)任務(wù)的主要結(jié)果。

這張多維圖像把元智醫(yī)療視頻理解大模型在 8 個(gè)主要任務(wù)上的優(yōu)勢(shì)表現(xiàn)的非常清晰，非常接近「八邊形戰(zhàn)士」。

以 GPT-5.4，Gemini-3.1 和 Qwen3.5-4B 為代表的前沿通用大模型表現(xiàn)出非常一致的「偏科」問(wèn)題，但哪怕在其最擅長(zhǎng)的視頻摘要任務(wù)中，仍然不敵元智醫(yī)療視頻理解大模型。

圖 5：uAI-NEXUS-MedVLM-1.0a-7B-RL在獎(jiǎng)勵(lì)歸一化和 LLM 判斷上的消融研究。

比數(shù)據(jù)更能讓人直觀感受到大模型強(qiáng)大能力的自然是定性對(duì)比。在這里，我們選擇了畫面相對(duì)溫和的臨床護(hù)理中「青霉素皮試」操作的示例：

圖 6：臨床護(hù)理區(qū)域描述任務(wù)實(shí)驗(yàn)結(jié)果

仔細(xì)看，對(duì)于大模型而言，對(duì)一個(gè)高于一分鐘時(shí)長(zhǎng)的視頻進(jìn)行內(nèi)容識(shí)別和理解，尤其是涉及醫(yī)學(xué)專用術(shù)語(yǔ)和精準(zhǔn)定位的任務(wù)，即使對(duì)一個(gè)未經(jīng)醫(yī)學(xué)培訓(xùn)的人類而言都是極具挑戰(zhàn)性的。

GPT-5.4 描述的內(nèi)容詳細(xì)，但出現(xiàn)了「排除殘留空氣」等幻覺(jué)現(xiàn)象。
Gemini-3.1-Flash-lite 結(jié)果與 GPT-5.4 有些類似，但其出現(xiàn)了更明顯的時(shí)間標(biāo)記錯(cuò)誤。
Qwen3.5-4B 則出現(xiàn)了典型的時(shí)間定位偏移，并出現(xiàn)描述兩次「進(jìn)行皮內(nèi)注射」的顯著錯(cuò)誤。

uAI-NEXUS-MedVLM-1.0b-4B-RL 的表現(xiàn)產(chǎn)生了顯著的進(jìn)化。它不僅準(zhǔn)確識(shí)別「皮膚消毒」和「皮內(nèi)注射」的時(shí)間位置，并準(zhǔn)確描述人體前臂部位，準(zhǔn)確表達(dá)醫(yī)療專業(yè)術(shù)語(yǔ)，并成功描述出細(xì)粒度操作過(guò)程。

模型輸出已經(jīng)從表層動(dòng)作識(shí)別，走向?qū)ψo(hù)理操作邏輯的流程化的深度理解。這種提升說(shuō)明，模型開始逐步建立起更接近臨床視角的視頻理解能力。

而且 MedGRPO 具備良好的泛化性，甚至在 4B 小模型 + RL 的配置下，多數(shù)任務(wù)的表現(xiàn)已經(jīng)超過(guò) 7B 的 SFT 基線。這意味著高效的醫(yī)療視頻理解不一定需要堆參數(shù)，正確的訓(xùn)練方法論同樣關(guān)鍵。

廣發(fā)「英雄帖」，共建基礎(chǔ)設(shè)施

通往醫(yī)療視頻理解領(lǐng)域的標(biāo)尺已經(jīng)確立，向這一領(lǐng)域探索有了評(píng)估基準(zhǔn)，一切都變得有跡可循。

要想真正讓醫(yī)療領(lǐng)域的人工智能走向?qū)嵱�，就需要讓全行業(yè)都來(lái)用這把標(biāo)尺，共同推進(jìn)醫(yī)療領(lǐng)域 AI 的模型進(jìn)步和基礎(chǔ)設(shè)施建設(shè)。

團(tuán)隊(duì)上線了MedVidBench 公開排行榜（Leaderboard），面向全球開發(fā)者發(fā)出正式邀請(qǐng)：任何團(tuán)隊(duì)都可以提交自有模型的測(cè)試結(jié)果，由系統(tǒng)基于這一標(biāo)準(zhǔn)自動(dòng)評(píng)分，動(dòng)態(tài)更新統(tǒng)一榜單。

這是一張「英雄帖」，是一個(gè)持續(xù)運(yùn)轉(zhuǎn)的全球競(jìng)技平臺(tái)，開發(fā)者提交、系統(tǒng)評(píng)分、榜單刷新、排名迭代，形成完整的閉環(huán)。

排行榜鏈接：https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

作為領(lǐng)域內(nèi)首個(gè)完善的評(píng)測(cè)體系，具有深遠(yuǎn)的意義：

構(gòu)建可信的統(tǒng)一評(píng)測(cè)框架。在醫(yī)療這樣一個(gè)極度依賴信任的行業(yè)，「自說(shuō)自話」的 benchmark 沒(méi)有說(shuō)服力。只有當(dāng)全球不同機(jī)構(gòu)、不同技術(shù)路線的模型在同一套標(biāo)準(zhǔn)下接受檢驗(yàn)時(shí)，評(píng)測(cè)框架本身才能獲得公信力。MedVidBench 的公開排行榜正是為此而生，打造一個(gè)共同認(rèn)可的「行業(yè)標(biāo)準(zhǔn)」，讓所有參與者站在同一條起跑線上。

吸引全球開發(fā)者參與挑戰(zhàn)。排行榜天然具有競(jìng)技屬性，競(jìng)爭(zhēng)是推動(dòng)領(lǐng)域進(jìn)步的最有效引擎之一。當(dāng)一家醫(yī)院的研究組、一所大學(xué)的實(shí)驗(yàn)室、一家創(chuàng)業(yè)公司的工程師都能在同一個(gè)榜單上看到自己的排名，這種開放競(jìng)技模式在大模型的經(jīng)典 benchmark 和 Arena 上已被反復(fù)驗(yàn)證。

提升國(guó)際影響力與信任度。從更宏觀的視角看，一個(gè)被全球開發(fā)者廣泛使用的評(píng)測(cè)基準(zhǔn)和排行榜，意味著打造這一大模型和評(píng)測(cè)標(biāo)準(zhǔn)的聯(lián)影智能正在從「中國(guó)的一家醫(yī)療 AI 公司」轉(zhuǎn)變?yōu)椤溉蜥t(yī)療視頻理解領(lǐng)域的基礎(chǔ)設(shè)施提供者」。

醫(yī)療 AI 走到今天，競(jìng)爭(zhēng)焦點(diǎn)已經(jīng)不再局限于單個(gè)模型、單項(xiàng)指標(biāo)或某一次榜單成績(jī)，而是技術(shù)突破的背后是否具備持續(xù)連接真實(shí)臨床場(chǎng)景、醫(yī)學(xué)數(shù)據(jù)體系、算法研究和工程落地的綜合能力。

在醫(yī)療視頻理解大模型的領(lǐng)域，元智醫(yī)療視頻理解大模型首次實(shí)現(xiàn)里程碑式的技術(shù)突破、其背后的研發(fā)團(tuán)隊(duì)，正是長(zhǎng)期深耕 AI 領(lǐng)域的創(chuàng)新企業(yè)：聯(lián)影智能

作為聯(lián)影集團(tuán)旗下獨(dú)立運(yùn)營(yíng)的子公司，聯(lián)影智能專注于醫(yī)療數(shù)字化和智能化方向上的技術(shù)創(chuàng)新與商業(yè)落地布局，致力于成為全球數(shù)智醫(yī)療創(chuàng)新引領(lǐng)者。

去年聯(lián)影智能正式發(fā)布了面向醫(yī)療垂域、多模態(tài)協(xié)同的「元智」醫(yī)療大模型（簡(jiǎn)稱：uAI NEXUS）。該大模型由文本、影像、視覺(jué)、語(yǔ)音、混合五個(gè)大模型組成，作為醫(yī)療數(shù)智化體系的堅(jiān)實(shí)基座，可面向不同醫(yī)療場(chǎng)景輸出底層智能。本次開源的視頻理解大模型正是「元智」視覺(jué)大模型的重要能力延展與關(guān)鍵組成部分，進(jìn)一步拓展了其在動(dòng)態(tài)醫(yī)療場(chǎng)景中的理解、推理與決策能力。

為什么聯(lián)影智能攻克視覺(jué)理解這一公認(rèn)的技術(shù)難題？我們認(rèn)為，這是一個(gè)長(zhǎng)期的、系統(tǒng)性的投入，常年的技術(shù)積累與業(yè)內(nèi)的綜合實(shí)力的厚積薄發(fā)，水到渠成。

第一層：真實(shí)臨床場(chǎng)景的長(zhǎng)期浸潤(rùn)。

聯(lián)影智能深耕醫(yī)療影像與人工智能融合領(lǐng)域多年，在真實(shí)臨床環(huán)境中積累了海量的多模態(tài)數(shù)據(jù)與應(yīng)用經(jīng)驗(yàn)，并對(duì)醫(yī)院臨床需求有深刻洞察力。這種基于真實(shí)醫(yī)療體系長(zhǎng)期沉淀的積累，讓模型從一開始就具備「臨床可用性」的基因。

第二層：頂會(huì)級(jí)算法研究的持續(xù)輸出。

聯(lián)影智能的研究團(tuán)隊(duì)長(zhǎng)期深耕計(jì)算機(jī)視覺(jué)與醫(yī)學(xué)影像分析方向，在手術(shù)視頻理解和多模態(tài)大模型等領(lǐng)域有深厚的技術(shù)儲(chǔ)備。相關(guān)成果已發(fā)表于 CVPR、NeurIPS、ICLR、ICCV、ECCV、AAAI 等國(guó)際頂級(jí) AI 會(huì)議 —— 這意味著團(tuán)隊(duì)在方法論層面始終站在領(lǐng)域最前沿。

第三層：從數(shù)據(jù)源頭到模型落地的完整閉環(huán)。

這是最關(guān)鍵、也最難復(fù)制的一環(huán)。團(tuán)隊(duì)直接從數(shù)據(jù)源頭入手：對(duì)海量公共醫(yī)療視頻數(shù)據(jù)進(jìn)行逐幀級(jí)精細(xì)標(biāo)注，精確到每一幀畫面中的器械類型、空間位置、手術(shù)操作步驟、風(fēng)險(xiǎn)評(píng)估等級(jí)等核心要素。這種近乎嚴(yán)苛的高顆粒度、多維度標(biāo)注模式，使模型從訓(xùn)練的第一天起就建立起強(qiáng)大的視覺(jué)理解基礎(chǔ)，并逐步構(gòu)建出一套覆蓋多場(chǎng)景的「感知 — 推理 — 決策」完整能力體系。

通用大模型在互聯(lián)網(wǎng)文本和圖像上攻城略地的同時(shí)，手術(shù)室里的那臺(tái)攝像機(jī)仍在靜靜地記錄著一切。在這里，語(yǔ)言的華麗毫無(wú)意義，唯有毫米級(jí)的精度和對(duì)生命的絕對(duì)嚴(yán)肅才是金標(biāo)準(zhǔn)。

未來(lái)，元智醫(yī)療視頻理解大模型也有潛力深入融合具身智能，成為打通醫(yī)療影像、臨床決策與物理執(zhí)行的智能樞紐。形成「視覺(jué)感知 - 邏輯推理 - 物理執(zhí)行」的完整能力閉環(huán)，推動(dòng)復(fù)雜醫(yī)療操作邁向全面數(shù)字化、結(jié)構(gòu)化與智能化。

醫(yī)療 AI 的落地是一場(chǎng)接力賽。聯(lián)影智能把模型和數(shù)據(jù)開源，把「接力棒」遞到了全行業(yè)手里。畢竟，手術(shù)刀尖上的事，只有全行業(yè)一起努力，才能讓 AI 真正從冷冰冰的論文數(shù)據(jù)，變成手術(shù)室里那盞照亮生命的「無(wú)影燈」。

https://www.reuters.com/investigations/ai-enters-operating-room-reports-arise-botched-surgeries-misidentified-body-2026-02-09/

https://www.gii.tw/report/tbrc1939265-artificial-intelligence-ai-enhanced-surgical-video.html

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.