網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Project Imaging-X發(fā)布：1000+開(kāi)放醫(yī)學(xué)影像數(shù)據(jù)集全景式綜述

2025-09-26 23:44:06　來(lái)源: ScienceAI

北京舉報(bào)

分享至

作者丨項(xiàng)目團(tuán)隊(duì)

編輯丨ScienceAI

過(guò)去幾年，通用領(lǐng)域的基礎(chǔ)模型（Foundation Models）在大規(guī)模、異質(zhì)、高質(zhì)量數(shù)據(jù)的推動(dòng)下快速演進(jìn)。在醫(yī)學(xué)影像場(chǎng)景中，基礎(chǔ)模型同樣被寄予厚望：期望以一次預(yù)訓(xùn)練，支持多模態(tài)（CT/MR/PET/內(nèi)鏡等）、多任務(wù)（分割/檢測(cè)/配準(zhǔn)/追蹤等）與多解剖部位的統(tǒng)一處理，成為從研究到臨床的“通用底座”。

然而，醫(yī)學(xué)影像數(shù)據(jù)的獲取與標(biāo)注高度依賴醫(yī)學(xué)專業(yè)知識(shí)，并受倫理與隱私的嚴(yán)格約束，現(xiàn)有公開(kāi)數(shù)據(jù)長(zhǎng)期呈現(xiàn)“小而散、偏科嚴(yán)重”的格局：與通用視覺(jué)領(lǐng)域的數(shù)十億圖像相比，目前公開(kāi)的醫(yī)學(xué)影像數(shù)據(jù)集的規(guī)模普遍較小，通常只有數(shù)千張圖像，與通用視覺(jué)領(lǐng)域的數(shù)據(jù)集相差數(shù)個(gè)數(shù)量級(jí)。

此外，數(shù)據(jù)分布也嚴(yán)重不均：從類型上看，2D 數(shù)據(jù)占主導(dǎo)，病理、X 射線和 CT 數(shù)據(jù)較為常見(jiàn)，而 PET 和內(nèi)鏡數(shù)據(jù)則相對(duì)稀缺；從任務(wù)上看，主要集中在分類和分割任務(wù)，檢測(cè)、配準(zhǔn)和追蹤等任務(wù)的數(shù)據(jù)供給不足；從部位上看，數(shù)據(jù)大多覆蓋腦、肺、肝和乳腺等，心血管和肌骨等部位的相關(guān)資源則比較薄弱。由于缺乏對(duì)現(xiàn)有數(shù)據(jù)的全面系統(tǒng)性梳理和一套行之有效的數(shù)據(jù)融合方法，醫(yī)學(xué)基礎(chǔ)模型的發(fā)展正面臨著關(guān)鍵瓶頸。

Project Imaging-X 由上海人工智能實(shí)驗(yàn)室、上海創(chuàng)智學(xué)院、劍橋大學(xué)、中國(guó)科學(xué)院大學(xué)、上海交通大學(xué)、蒙納士大學(xué)、上海科學(xué)智能研究院、復(fù)旦大學(xué)等多家國(guó)內(nèi)外頂尖高校與研究機(jī)構(gòu)聯(lián)合發(fā)起。項(xiàng)目匯聚了人工智能、醫(yī)學(xué)影像、數(shù)據(jù)科學(xué)與臨床醫(yī)學(xué)等領(lǐng)域的專家學(xué)者，構(gòu)建跨地域、跨學(xué)科的協(xié)作網(wǎng)絡(luò)。

為填補(bǔ)相關(guān)方法的空白，通過(guò)產(chǎn)學(xué)研一體化的深度合作，Project Imaging-X 系統(tǒng)性梳理了過(guò)去二十余年（2000–2025）間的 1000+ 開(kāi)放醫(yī)學(xué)影像數(shù)據(jù)集，并提出了“元數(shù)據(jù)驅(qū)動(dòng)融合范式（MDFP）”，給出從元數(shù)據(jù)統(tǒng)一→語(yǔ)義對(duì)齊→融合藍(lán)圖→索引共享的可執(zhí)行流程，并配套交互式數(shù)據(jù)發(fā)現(xiàn)與自動(dòng)化融合門(mén)戶，為社區(qū)提供可搜索、可復(fù)用、可擴(kuò)展的公共資源與路線圖，助力醫(yī)學(xué)基礎(chǔ)模型更大規(guī)模、更高質(zhì)量、更加合規(guī)地發(fā)展。

論文標(biāo)題：Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development
論文鏈接：https://github.com/uni-medical/Project-Imaging-X/blob/main/project-imaging-x_dataset-survey.pdf
Github 鏈接：https://github.com/uni-medical/Project-Imaging-X

醫(yī)學(xué)基礎(chǔ)模型的“數(shù)據(jù)缺口時(shí)刻”：規(guī)模與增速的錯(cuò)位

過(guò)去幾年，AI 在通用領(lǐng)域迎來(lái)“曲線陡升”的爆炸時(shí)刻：GPT-4 訓(xùn)練使用了約 13 萬(wàn)億 tokens，CLIP 在 4 億圖像-文本對(duì)上預(yù)訓(xùn)練，SAM 在 11 億掩碼上訓(xùn)練。然而放到醫(yī)學(xué)影像，這條曲線卻明顯“掉速”——數(shù)據(jù)采集依賴專業(yè)設(shè)備與臨床流程，標(biāo)注需要專家投入，還必須兼顧倫理與隱私合規(guī)，導(dǎo)致可公開(kāi)、可訓(xùn)練的大規(guī)模統(tǒng)一語(yǔ)料長(zhǎng)期稀缺。

項(xiàng)目研究團(tuán)隊(duì)對(duì) 2000-2025 年醫(yī)學(xué)影像數(shù)據(jù)的全景分析顯示，雖然數(shù)據(jù)集數(shù)量持續(xù)增長(zhǎng)，但與通用 AI 領(lǐng)域存在巨大差距。最大的醫(yī)學(xué)數(shù)據(jù)集如 AbdomenAtlas 僅有 150 萬(wàn)張圖像，而通用視覺(jué)模型動(dòng)輒訓(xùn)練于數(shù)十億圖像，差距達(dá)數(shù)個(gè)數(shù)量級(jí)。

圖 1：醫(yī)學(xué)基礎(chǔ)模型與通用領(lǐng)域基礎(chǔ)模型的演進(jìn)。

這種錯(cuò)位直接體現(xiàn)在模型側(cè)：訓(xùn)練語(yǔ)料“吃不飽、吃不均”，常被迫集中在少數(shù)模態(tài)（CT/MR/X-ray）、任務(wù)（分割/分類）與解剖部位（腦、胸腹等熱點(diǎn)）上，難以形成"多模態(tài)×多任務(wù)×多解剖”的一體化能力版圖。

因此，團(tuán)隊(duì)提出將“規(guī)模差距”界定為通才型醫(yī)學(xué)基礎(chǔ)模型的第一約束：不是單一數(shù)據(jù)集的不足，而是結(jié)構(gòu)性的數(shù)據(jù)生態(tài)失衡——增長(zhǎng)在發(fā)生，但增得不均、增得不對(duì)齊。

圖 2：2000 年至 2025 年發(fā)布的醫(yī)學(xué)影像數(shù)據(jù)集中病例數(shù)的概覽。(a) 總影像數(shù)；以及按不同 (b) 維度、(c) 模態(tài)、(d) 任務(wù)和 (e) 前五大器官劃分的影像數(shù)。

數(shù)據(jù)分布圖譜：長(zhǎng)尾效應(yīng)與碎片化特征

圖 3：醫(yī)學(xué)影像數(shù)據(jù)集概覽：按解剖區(qū)域劃分的代表性模態(tài)（左圖），數(shù)據(jù)集在不同模態(tài)、器官和任務(wù)上的分布（右上），以及數(shù)據(jù)集數(shù)量的時(shí)間趨勢(shì)（右下）。

團(tuán)隊(duì)對(duì) 2000–2025 年間超過(guò) 1000 個(gè)公開(kāi)醫(yī)學(xué)影像數(shù)據(jù)集進(jìn)行了全景式分析，采用了一個(gè)包含數(shù)據(jù)維度、成像模態(tài)、分析任務(wù)和解剖部位的“四維框架”進(jìn)行系統(tǒng)性量化。分析結(jié)果揭示，這些數(shù)據(jù)集在規(guī)模、增長(zhǎng)趨勢(shì)及分布上呈現(xiàn)出顯著的不均衡性和長(zhǎng)尾效應(yīng)。

數(shù)據(jù)維度：2D 圖像在絕對(duì)數(shù)量上占據(jù)壓倒性優(yōu)勢(shì)，尤其在 2023 年后增速迅猛。這主要得益于其存儲(chǔ)共享的便捷性、通過(guò)病理全切片圖像（WSI）切片技術(shù)能極大擴(kuò)充樣本規(guī)模，以及現(xiàn)有主流基準(zhǔn)測(cè)試多聚焦于 2D 任務(wù)。相比之下，3D 與視頻數(shù)據(jù)因采集成本高昂、存儲(chǔ)和標(biāo)注復(fù)雜，規(guī)模和增速均顯滯后。
成像模態(tài)：病理數(shù)據(jù)集的圖像數(shù)量遠(yuǎn)超其他類型，這源于千兆像素級(jí)的 WSI 可被分割成海量圖塊（Patch）進(jìn)行分析，且其固有的多尺度特性也促進(jìn)了數(shù)據(jù)擴(kuò)增。其后是臨床普及度高、通量大的 X 射線和 CT。然而，盡管 MRI 在軟組織成像中效果顯著，其數(shù)據(jù)量占比僅約 10.4%，而 PET、乳腺 X 線攝影和內(nèi)鏡等模態(tài)的數(shù)據(jù)則相對(duì)匱乏。
任務(wù)類型：分類與分割任務(wù)歷來(lái)占據(jù)主導(dǎo)，因其與臨床診斷流程緊密相關(guān)。2023 年后，生成式任務(wù)的關(guān)注度與數(shù)據(jù)量激增。相比之下，面向配準(zhǔn)、檢測(cè)和追蹤等任務(wù)的數(shù)據(jù)集則供給不足。
解剖部位：數(shù)據(jù)分布同樣高度集中。腦、肺、乳腺和肝臟的影像數(shù)量遙遙領(lǐng)先，這反映出學(xué)術(shù)界與臨床對(duì)腦部疾?。ㄈ绨柎暮Ｄ。┮约叭橄侔⒎伟┑戎卮蠹膊〉母叨汝P(guān)注。而心臟、腸道、四肢等其他部位的代表性則嚴(yán)重不足。

圖 4：(a) 數(shù)據(jù)維度、(b) 模態(tài)、(c) 任務(wù)以及 (d) 器官/身體部位的分布情況。

2D 數(shù)據(jù)：規(guī)模優(yōu)勢(shì)與“任務(wù)/器官偏科”

2D 數(shù)據(jù)量級(jí)與可獲取性遠(yuǎn)超 3D 與視頻，已成為醫(yī)學(xué)基礎(chǔ)模型預(yù)訓(xùn)練的主要基礎(chǔ)。在模態(tài)上，病理與 X-ray 占據(jù)主導(dǎo)，其次是 CT、MR 與眼底彩照；解剖聚焦于“有成熟篩查流程”的部位（如視網(wǎng)膜、乳腺、腦），而子結(jié)構(gòu)與不常見(jiàn)部位明顯稀缺；任務(wù)側(cè)以分類/分割為主，配準(zhǔn)、跟蹤、重建等供給不足，整體呈現(xiàn)顯著長(zhǎng)尾與不均衡格局。

2D 數(shù)據(jù)的豐富性也帶來(lái)了顯著的碎片化與異質(zhì)性問(wèn)題。首先，數(shù)據(jù)來(lái)源多樣（例如來(lái)自不同的數(shù)據(jù)庫(kù)、機(jī)構(gòu)和競(jìng)賽），導(dǎo)致其成像協(xié)議、分辨率和元數(shù)據(jù)標(biāo)準(zhǔn)不一，帶來(lái)了嚴(yán)重的域偏移問(wèn)題。其次，數(shù)據(jù)標(biāo)注的質(zhì)量也參差不齊，從粗略的弱標(biāo)簽到精確的像素級(jí)真值差異巨大，且缺乏統(tǒng)一的標(biāo)注體系（本體）。

此外，數(shù)據(jù)在模態(tài)、解剖部位和任務(wù)類型上的分布嚴(yán)重失衡，這會(huì)加劇預(yù)訓(xùn)練模型中的偏見(jiàn)。最后，二維圖像天生缺少三維空間上下文，這也限制了模型對(duì)復(fù)雜形態(tài)結(jié)構(gòu)的理解與分析能力。

圖 5：二維數(shù)據(jù)集中不同 (a) 模態(tài)、(b) 解剖結(jié)構(gòu)和 (c) 任務(wù)的分布。

3D 數(shù)據(jù)：信息密度高，標(biāo)準(zhǔn)化是勝負(fù)手

3D 醫(yī)學(xué)影像（如CT、MR、PET）為臨床決策提供了關(guān)鍵的三維空間信息。然而，由于采集、存儲(chǔ)、標(biāo)注及算力成本高昂，其整體數(shù)據(jù)規(guī)模和增長(zhǎng)速度均落后于 2D 影像。

同時(shí)，3D 數(shù)據(jù)也存在著嚴(yán)重的分布不均衡問(wèn)題：在模態(tài)上，CT 和 MRI 占據(jù)主導(dǎo)地位，而 PET、超聲等數(shù)據(jù)相對(duì)不足；在解剖部位上，數(shù)據(jù)高度集中于腦部與腹部，心血管、肌骨等領(lǐng)域的資源則相對(duì)薄弱；在任務(wù)類型上，研究長(zhǎng)期由分割任務(wù)主導(dǎo)，配準(zhǔn)、重建等任務(wù)的數(shù)據(jù)集明顯短缺。

3D 影像的“高信息密度”也伴隨著“高成本”與“高異質(zhì)性”的挑戰(zhàn)。一方面，高成本與高難度體現(xiàn)在：?jiǎn)螐堄跋耋w積大、信噪比較低，使得微小病灶的檢測(cè)變得困難；昂貴的硬件、較長(zhǎng)的掃描時(shí)間以及對(duì)患者配合度的高要求，共同限制了數(shù)據(jù)采集的規(guī)模；體素級(jí)的精細(xì)標(biāo)注需要專家進(jìn)行逐個(gè)切片的精細(xì)描畫(huà)，耗時(shí)耗力。

另一方面，高異質(zhì)性源于：不同設(shè)備和掃描協(xié)議會(huì)導(dǎo)致體素間距、圖像方向、強(qiáng)度標(biāo)定及序列參數(shù)存在差異。如果沒(méi)有經(jīng)過(guò)高保真的預(yù)處理和元數(shù)據(jù)對(duì)齊，直接進(jìn)行跨庫(kù)聯(lián)合訓(xùn)練很容易導(dǎo)致模型性能下降或結(jié)果失真。

圖 6：三維數(shù)據(jù)集中不同 (a) 模態(tài)、(b) 解剖結(jié)構(gòu)和 (c) 任務(wù)的分布。

視頻數(shù)據(jù)：通往“流程級(jí)智能”的鑰匙

醫(yī)學(xué)視頻數(shù)據(jù)因其承載了豐富的時(shí)序信息和操作語(yǔ)義，是實(shí)現(xiàn)手術(shù)、內(nèi)鏡分析等“流程級(jí)智能”的關(guān)鍵。然而，目前公開(kāi)的數(shù)據(jù)集以內(nèi)鏡視頻為主，且高度集中于腹部（特別是膽囊、結(jié)腸）和眼科等領(lǐng)域，而超聲心動(dòng)圖（cine）、顯微手術(shù)視頻以及用于醫(yī)學(xué)教育的 RGB 視頻等則相對(duì)稀缺。盡管 EndoVis 等學(xué)術(shù)社區(qū)的基準(zhǔn)數(shù)據(jù)集在一定程度上推動(dòng)了該領(lǐng)域的標(biāo)準(zhǔn)化和技術(shù)發(fā)展，但目前仍普遍缺乏跨模態(tài)的覆蓋范圍和統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn)。

當(dāng)前，醫(yī)學(xué)視頻數(shù)據(jù)的發(fā)展主要受限于三大瓶頸：昂貴的標(biāo)注成本、嚴(yán)格的隱私安全限制以及設(shè)備的技術(shù)異質(zhì)性。首先，無(wú)論是像素級(jí)還是幀級(jí)的精細(xì)標(biāo)注，都需要投入巨大的專家資源，并且對(duì)操作步驟的定義和標(biāo)注一致性有著極高的要求。

其次，醫(yī)療視頻天然包含患者的敏感信息。特別是在內(nèi)鏡和手術(shù)場(chǎng)景中，獨(dú)特的解蒙結(jié)構(gòu)本身就可能被用于患者的“反向識(shí)別”，這極大地限制了數(shù)據(jù)集的開(kāi)放規(guī)模與共享范圍。最后，來(lái)源于不同記錄系統(tǒng)和攝像鏡頭的視頻，在光照條件、畫(huà)面抖動(dòng)和拍攝視角上存在顯著差異，導(dǎo)致模型難以在不同來(lái)源的數(shù)據(jù)集之間進(jìn)行有效的泛化。

圖 7：視頻數(shù)據(jù)集中不同 (a) 模態(tài)、(b) 解剖結(jié)構(gòu)和 (c) 任務(wù)的分布。

元數(shù)據(jù)驅(qū)動(dòng)融合范式（MDFP）：從碎片化到統(tǒng)一化

通過(guò)上述分析，可以清楚地看到醫(yī)學(xué)影像數(shù)據(jù)在 2D、3D 和視頻三個(gè)維度上都存在顯著的碎片化和不均衡問(wèn)題。為解決這些挑戰(zhàn)，團(tuán)隊(duì)提出了元數(shù)據(jù)驅(qū)動(dòng)融合范式（MDFP），提供了一種高效、可擴(kuò)展、以元數(shù)據(jù)為中心的策略，用于系統(tǒng)化發(fā)現(xiàn)、審計(jì)和組合多個(gè)數(shù)據(jù)集。

MDFP 的核心創(chuàng)新主要在于在元數(shù)據(jù)而非原始像素上操作，這帶來(lái)了多重優(yōu)勢(shì)：減少處理開(kāi)銷和隱私風(fēng)險(xiǎn)，提高可重現(xiàn)性和可審計(jì)性，并支持快速的目標(biāo)導(dǎo)向數(shù)據(jù)集組裝。通過(guò)這種元數(shù)據(jù)驅(qū)動(dòng)的方法，團(tuán)隊(duì)能夠在不直接處理敏感醫(yī)學(xué)圖像的情況下，實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集的智能整合。

圖 8：數(shù)據(jù)集收集、處理、融合和總結(jié)系統(tǒng)的流程圖。

MDFP四階段系統(tǒng)化流程：

階段 1：元數(shù)據(jù)統(tǒng)一化- 通過(guò)強(qiáng)制執(zhí)行嚴(yán)格定義的元數(shù)據(jù)模式解決語(yǔ)義異質(zhì)性，基于權(quán)威醫(yī)學(xué)術(shù)語(yǔ)（如 UMLS 和 MeSH）進(jìn)行半自動(dòng)化處理。具體包括：標(biāo)準(zhǔn)化主要模態(tài)（映射到 CT、MR、PET、US、X-ray 等枚舉集）、規(guī)范化數(shù)據(jù)維度（解析為 2D、3D 或視頻）、建立基于標(biāo)準(zhǔn)醫(yī)學(xué)本體的多級(jí)分類系統(tǒng)、分配質(zhì)量等級(jí)（基于機(jī)構(gòu)來(lái)源、文獻(xiàn)計(jì)量影響、成像分辨率和注釋粒度）、量化數(shù)據(jù)集影響（基于引用頻率、基準(zhǔn)采用和下游重用）。

階段 2：語(yǔ)義對(duì)齊- 通過(guò)將抽象機(jī)器學(xué)習(xí)任務(wù)映射到其具體臨床意義來(lái)緩解不一致性，系統(tǒng)審查數(shù)據(jù)集文檔、源出版物和官方指南。這包括定義下游任務(wù)（將 ML 任務(wù)標(biāo)準(zhǔn)化并明確映射到臨床應(yīng)用）、指定次要成像模態(tài)（捕獲每個(gè)主要模態(tài)下的細(xì)粒度協(xié)議級(jí)區(qū)別）、指示標(biāo)簽可用性（標(biāo)注是否提供真實(shí)注釋）、記錄特殊考慮事項(xiàng)（捕獲數(shù)據(jù)集特定的細(xì)微差別、假設(shè)或已知限制）。

階段 3：融合藍(lán)圖- 利用統(tǒng)一元數(shù)據(jù)設(shè)計(jì)戰(zhàn)略性數(shù)據(jù)集集成計(jì)劃，基于主要和次要成像模態(tài)、臨床任務(wù)和解剖覆蓋進(jìn)行聚類。定量評(píng)估包括數(shù)據(jù)量（評(píng)估可用圖像總數(shù)，以及明確的訓(xùn)練、驗(yàn)證和測(cè)試分割）、有效圖像計(jì)數(shù)（確定有多少圖像具有可靠和驗(yàn)證的注釋）、存儲(chǔ)估計(jì)（評(píng)估實(shí)際存儲(chǔ)需求）、解剖和任務(wù)多樣性（量化每個(gè)融合集群內(nèi)的解剖廣度和任務(wù)多樣性）。

階段 4：數(shù)據(jù)集索引和社區(qū)共享- 將統(tǒng)一元數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化、公開(kāi)可訪問(wèn)的數(shù)據(jù)集索引，支持社區(qū)規(guī)模的發(fā)現(xiàn)和重用。這包括數(shù)據(jù)集名稱（用于標(biāo)準(zhǔn)化引用的規(guī)范名稱）、發(fā)布日期（官方發(fā)布或發(fā)布時(shí)間戳）、主頁(yè) URL（直接訪問(wèn)數(shù)據(jù)集文檔或托管平臺(tái)的鏈接）、許可證（明確定義的使用權(quán)限）。

圖 9：團(tuán)隊(duì)所提出的元數(shù)據(jù)驅(qū)動(dòng)融合范式（MDFP）的詳細(xì)流程。

交互式發(fā)現(xiàn)門(mén)戶與案例研究：

團(tuán)隊(duì)構(gòu)建了輕量級(jí)交互式發(fā)現(xiàn)門(mén)戶“醫(yī)學(xué)數(shù)據(jù)集瀏覽器”，部署為 GitHub Pages 上的單頁(yè)靜態(tài)應(yīng)用程序，完全在客戶端執(zhí)行，并在運(yùn)行時(shí)消費(fèi)標(biāo)準(zhǔn)化 JSON 工件。門(mén)戶提供兩種互補(bǔ)的數(shù)據(jù)集過(guò)濾模式：基于規(guī)則的過(guò)濾（實(shí)現(xiàn)MDFP）和直接分面搜索，支持實(shí)時(shí)可視化摘要和統(tǒng)計(jì)導(dǎo)出。

作為 MDFP 有效性的證明，團(tuán)隊(duì)展示了一個(gè)具體案例：構(gòu)建一個(gè)針對(duì)模態(tài){CT, MR, Fundus}和任務(wù){(diào)分類、分割、檢測(cè)、回歸}的 2D 模型。通過(guò) MDFP 組合，研究獲得了 57 個(gè)數(shù)據(jù)集和 2,135,301 張可用圖像，跨三個(gè)模態(tài)，標(biāo)簽可用性接近完整。CT 和 MR 在體積上占主導(dǎo)地位（合計(jì)約 185 萬(wàn)張圖像），提供了來(lái)自多個(gè)組織的實(shí)質(zhì)性解剖和采集多樣性，而 Fundus 貢獻(xiàn)了最多的數(shù)據(jù)集數(shù)量。

MDFP 的成功實(shí)施為醫(yī)學(xué)基礎(chǔ)模型的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。然而，要真正實(shí)現(xiàn)醫(yī)學(xué) AI 的變革性突破，還需要深入思考當(dāng)前數(shù)據(jù)生態(tài)的根本性挑戰(zhàn)和未來(lái)發(fā)展方向。

討論：從數(shù)據(jù)碎片化到智能體生態(tài)的演進(jìn)路徑

任務(wù)定義局限性與數(shù)據(jù)工程范式的演進(jìn)

當(dāng)前開(kāi)放訪問(wèn)醫(yī)學(xué)影像數(shù)據(jù)集在任務(wù)定義方面普遍存在局限性，這與早期深度學(xué)習(xí)實(shí)踐的任務(wù)導(dǎo)向性質(zhì)密切相關(guān)。隨著 LLM 和基礎(chǔ)模型的進(jìn)步，數(shù)據(jù)收集原則正逐漸從單一任務(wù)導(dǎo)向轉(zhuǎn)向更全面的科學(xué)數(shù)據(jù)工程范式?，F(xiàn)有數(shù)據(jù)集大多針對(duì)單一目標(biāo)（如分割、分類或檢測(cè)），對(duì)多任務(wù)或跨任務(wù)學(xué)習(xí)場(chǎng)景考慮甚少，這種單一性限制了 AI 模型開(kāi)發(fā)和泛化。這種范式轉(zhuǎn)變需要數(shù)據(jù)工程的根本性變革。傳統(tǒng)任務(wù)特定的注釋協(xié)議必須演變?yōu)殪`活的框架，能夠適應(yīng)新興用例和新型 AI 架構(gòu)。從任務(wù)導(dǎo)向到基礎(chǔ)導(dǎo)向的數(shù)據(jù)工程轉(zhuǎn)變需要重新思考注釋策略、元數(shù)據(jù)結(jié)構(gòu)以及質(zhì)量保證流程。

多模態(tài)醫(yī)學(xué)數(shù)據(jù)集稀缺性與發(fā)展約束

多模態(tài)醫(yī)學(xué)數(shù)據(jù)結(jié)合成像模態(tài)（如 CT、MRI、2D 和 3D 圖像）與臨床報(bào)告、病理學(xué)甚至視頻，在臨床診斷中具有特殊價(jià)值，但在公共領(lǐng)域極其罕見(jiàn)。大多數(shù)開(kāi)放訪問(wèn)醫(yī)學(xué)數(shù)據(jù)集僅限于單模態(tài)結(jié)構(gòu)，往往缺乏多模態(tài)數(shù)據(jù)收集和注釋的標(biāo)準(zhǔn)化框架。這種稀缺性嚴(yán)重限制了高級(jí)研究方向的探索，如跨模態(tài)推理和聯(lián)合表示學(xué)習(xí)。挑戰(zhàn)不僅限于數(shù)據(jù)可用性，還涵蓋模態(tài)對(duì)齊和語(yǔ)義一致性的基本問(wèn)題。不同模態(tài)通常在不同的時(shí)間和空間尺度上運(yùn)行——病理切片提供微觀細(xì)胞細(xì)節(jié)，而放射學(xué)捕獲器官級(jí)結(jié)構(gòu)，臨床記錄記錄時(shí)間疾病進(jìn)展。協(xié)調(diào)這些異構(gòu)數(shù)據(jù)流需要復(fù)雜的對(duì)齊協(xié)議和跨模態(tài)驗(yàn)證標(biāo)準(zhǔn)，而當(dāng)前數(shù)據(jù)集很少提供這些。

醫(yī)學(xué)基礎(chǔ)模型的挑戰(zhàn)與機(jī)遇

醫(yī)學(xué)基礎(chǔ)模型需要前所未有的訓(xùn)練數(shù)據(jù)規(guī)模和多樣性，但當(dāng)前資源仍不足以開(kāi)發(fā)真正可泛化的系統(tǒng)?；A(chǔ)模型需要跨成像模態(tài)、臨床專業(yè)和患者人群的全面覆蓋，以在醫(yī)學(xué)環(huán)境中實(shí)現(xiàn)穩(wěn)健性能。三個(gè)相互關(guān)聯(lián)的挑戰(zhàn)從根本上制約了醫(yī)學(xué)基礎(chǔ)模型的發(fā)展：

1.規(guī)模挑戰(zhàn)：擴(kuò)展不僅涉及數(shù)量，還涵蓋表示多樣性。基礎(chǔ)模型必須遇到疾病表現(xiàn)、成像協(xié)議和人群特征的足夠變化，以開(kāi)發(fā)強(qiáng)大的內(nèi)部表示。當(dāng)前醫(yī)學(xué)數(shù)據(jù)集通常捕獲臨床現(xiàn)實(shí)的狹窄切片，錯(cuò)過(guò)了罕見(jiàn)疾病和非典型表現(xiàn)的長(zhǎng)尾分布。

2.許可限制和隱私法規(guī)：與通用領(lǐng)域 AI 不同，醫(yī)學(xué)數(shù)據(jù)面臨患者隱私要求和機(jī)構(gòu)知識(shí)產(chǎn)權(quán)政策的雙重約束。即使基礎(chǔ)模型能夠生成高質(zhì)量合成數(shù)據(jù)用于訓(xùn)練增強(qiáng)，限制性許可也阻止這些增強(qiáng)的醫(yī)學(xué)數(shù)據(jù)集惠及更廣泛的醫(yī)學(xué)研究社區(qū)。

3.上下文智能需求：有效的醫(yī)學(xué) AI 必須理解緊急協(xié)議與常規(guī)篩查的區(qū)別，資源約束如何影響診斷路徑，以及患者歷史如何影響治療選擇。這些能力超越了模式識(shí)別，涵蓋工作流集成、臨床推理和自適應(yīng)決策支持。

邁向科學(xué)智能體的未來(lái)愿景

正如科學(xué)大語(yǔ)言模型（Sci-LLMs）正從單純的“知識(shí)模型”向“推理引擎”和“科研伙伴”演進(jìn)，醫(yī)學(xué)基礎(chǔ)模型也正朝著科學(xué)智能體的方向發(fā)展。未來(lái)的醫(yī)學(xué) AI 系統(tǒng)將不再僅僅是被動(dòng)回答問(wèn)題的模型，而是能夠被賦予高級(jí)目標(biāo)（如“為某疾病尋找候選藥物”或“制定個(gè)性化治療方案”）后，自主進(jìn)行任務(wù)分解、規(guī)劃、工具調(diào)用、虛擬實(shí)驗(yàn)和結(jié)果分析的自治系統(tǒng)。實(shí)現(xiàn)這一目標(biāo)的核心在于構(gòu)建一個(gè)閉環(huán)的“智能體-數(shù)據(jù)”生態(tài)系統(tǒng)。在這個(gè)系統(tǒng)中，智能體通過(guò)與外部工具（數(shù)據(jù)庫(kù)、模擬器、甚至自動(dòng)化實(shí)驗(yàn)室）交互來(lái)主動(dòng)獲取和生成新的實(shí)驗(yàn)數(shù)據(jù)；這些“AI-ready”的數(shù)據(jù)再反哺數(shù)據(jù)生態(tài)，用于迭代和優(yōu)化智能體自身，形成一個(gè)能夠自我進(jìn)化的良性循環(huán)。

總結(jié)

Project Imaging-X 作為迄今為止最全面的醫(yī)學(xué)影像開(kāi)源數(shù)據(jù)集調(diào)研，系統(tǒng)梳理了 2000-2025 年間 1000+ 數(shù)據(jù)集，覆蓋 2D、3D、視頻等不同維度，涉及 CT、MRI、X-ray、病理、超聲等多模態(tài)影像，全面分析了分類、分割、檢測(cè)、生成等任務(wù)類型與解剖部位分布。調(diào)研揭示了醫(yī)學(xué)影像數(shù)據(jù)生態(tài)的關(guān)鍵特征：數(shù)據(jù)規(guī)模與通用領(lǐng)域存在數(shù)量級(jí)差距，模態(tài)和任務(wù)分布嚴(yán)重失衡，碎片化程度高。

針對(duì)這一現(xiàn)狀，研究提出了元數(shù)據(jù)驅(qū)動(dòng)融合范式（MDFP），通過(guò)四階段系統(tǒng)化流程實(shí)現(xiàn)數(shù)據(jù)集的有效整合，并構(gòu)建了交互式數(shù)據(jù)發(fā)現(xiàn)門(mén)戶。通過(guò)具體案例驗(yàn)證，MDFP 能夠?qū)?57 個(gè)數(shù)據(jù)集整合為包含 213 萬(wàn)張圖像的統(tǒng)一訓(xùn)練資源，為醫(yī)學(xué)基礎(chǔ)模型的大規(guī)模預(yù)訓(xùn)練提供了可行路徑。

正如科學(xué)大語(yǔ)言模型正從“知識(shí)模型”向“推理引擎”和“科研伙伴”演進(jìn)，醫(yī)學(xué)基礎(chǔ)模型也將朝著能夠自主進(jìn)行臨床推理、實(shí)驗(yàn)設(shè)計(jì)和治療規(guī)劃的科學(xué)智能體方向發(fā)展。通過(guò) MDFP 的戰(zhàn)略數(shù)據(jù)集整合，結(jié)合隱私保護(hù)技術(shù)與智能體生態(tài)的構(gòu)建，醫(yī)學(xué) AI 將迎來(lái)從數(shù)據(jù)驅(qū)動(dòng)到智能體驅(qū)動(dòng)的范式躍遷，最終實(shí)現(xiàn) AI 與臨床實(shí)踐的深度融合。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.