国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ScDiVa:首個基于掩碼離散擴散的單細胞基礎(chǔ)模型

0
分享至


單細胞測序的稀疏性曾被視為技術(shù)局限,ScDiVa卻將其轉(zhuǎn)化為建模優(yōu)勢。

單細胞RNA測序(scRNA-seq)技術(shù)的快速發(fā)展使研究者能夠以前所未有的分辨率解析細胞異質(zhì)性。然而,該技術(shù)產(chǎn)生的數(shù)據(jù)具有高維、極度稀疏(零值比例常超過80%)和無序集合(unordered multiset)的特性,給計算建模帶來根本性挑戰(zhàn)。

針對上述問題,來自中國人民大學高瓴人工智能學院和開睿醫(yī)療的團隊提出ScDiVa(Single-cell Masked Diffusion for Identity & Value),全球首個基于掩碼離散擴散的單細胞基礎(chǔ)模型。該模型在59,162,450個單細胞轉(zhuǎn)錄組上完成預訓練,系統(tǒng)性驗證了其在重建、整合、注釋及因果推斷等任務(wù)上的優(yōu)越性能,大幅度領(lǐng)先已有細胞基礎(chǔ)模型。該工作第一作者為中國人民大學研究生王銘軒,通訊作者為中國人民大學高瓴人工智能學院馬彥彪老師和開睿醫(yī)療施璐博士。

項目已全面開源:

? 論文:https://arxiv.org/abs/2602.03477

? 模型:https://huggingface.co/warming666/ScDiVa

? 代碼:https://github.com/wangmingxuan666/ScDiVa

? 數(shù)據(jù)集:https://huggingface.co/datasets/warming666/ScDiVa

? 項目網(wǎng)站:https://wangmingxuan666.github.io/ScDiVa-web/

01
結(jié)構(gòu)性錯配到機制對齊:為什么掩碼擴散更適合單細胞數(shù)據(jù)?

理解ScDiVa的創(chuàng)新,需先厘清現(xiàn)有方法的局限。

自回歸模型的順序困境
自回歸(AR)模型通過“從左到右”依次預測基因表達來生成細胞狀態(tài)。這種設(shè)計隱含了一個假設(shè):基因之間存在嚴格的因果時序。然而在真實的基因調(diào)控網(wǎng)絡(luò)中,調(diào)控關(guān)系多為對稱或循環(huán)的——轉(zhuǎn)錄因子A激活基因B的同時,B的產(chǎn)物也可能反饋調(diào)節(jié)A。強制線性順序不僅引入了生物學上不存在的依賴關(guān)系,還會導致“暴露偏差”(exposure bias):早期預測的微小誤差會沿序列級聯(lián)放大,使整個細胞狀態(tài)的重建偏離真實軌跡。

高斯擴散的數(shù)值困境
另一類方法將表達值視為連續(xù)變量,通過添加高斯噪聲進行擴散建模。但單細胞測序中的“零值”具有雙重含義:可能是基因真實不表達,也可能是技術(shù)性信號丟失。高斯噪聲假設(shè)數(shù)值擾動是平滑連續(xù)的,卻無法區(qū)分“低表達”與“信號丟失”這兩種本質(zhì)不同的狀態(tài)。這導致模型傾向于生成“過度平滑”的表達譜,丟失了基因激活/失活的離散事件特性。

ScDiVa的機制同構(gòu)設(shè)計

ScDiVa的核心突破在于建立了前向擴散過程與技術(shù)性dropout之間的數(shù)學同構(gòu)。模型定義了一個連續(xù)時間的馬爾可夫過程 :在任意時刻 ,每個基因位置以概率 被替換為吸收態(tài)[MASK](即完全信息丟失),以概率 1-t 保留原始狀態(tài)。這一設(shè)計與單細胞測序的物理機制高度一致——當 時,所有信號消失,對應(yīng)極低測序深度;當 趨于0時,信號完整保留,對應(yīng)高深度測序。

更重要的是,ScDiVa采用雙向Transformer編碼器進行去噪,可同時利用所有未掩碼位置的全局上下文推斷被掩碼基因。這完美契合基因調(diào)控的非順序性:推斷基因A的狀態(tài)時,既可參考上游調(diào)控因子,也可參考下游效應(yīng)基因,形成閉環(huán)推理。該設(shè)計從根本上避免了AR模型的暴露偏差及人為順序依賴。


ScDiVa架構(gòu)概覽。該框架采用掩碼建模方法,引入潛在編碼器以捕獲細胞的全局上下文信息。輸入的基因表達譜經(jīng)隨機掩碼后,通過一個配備RoPE相對位置編碼和SwiGLU激活函數(shù)的12層Transformer編碼器進行處理。模型優(yōu)化雙重目標損失(L):結(jié)合交叉熵損失(LCE)用于基因身份重建,以及均方誤差損失(LMSE)用于表達量值回歸,實現(xiàn)基因調(diào)控拓撲與表達劑量的聯(lián)合建模。

02
關(guān)鍵技術(shù)組件:如何實現(xiàn)身份與表達量的聯(lián)合建模?

單細胞表達譜包含兩類異質(zhì)信息:基因身份(決定調(diào)控拓撲)與表達量值(編碼功能劑量)。傳統(tǒng)方法往往側(cè)重其一:離散tokenization擅長捕獲身份結(jié)構(gòu)但丟失數(shù)值精度;連續(xù)回歸保留數(shù)值信息卻模糊了基因事件的離散性。

ScDiVa提出雙重去噪損失(Dual Denoising Loss),在統(tǒng)一框架下同步優(yōu)化兩類目標:

? 身份損失(L id ):對掩碼位置進行基因分類,重建調(diào)控網(wǎng)絡(luò)的拓撲結(jié)構(gòu)

? 值損失(L val ):對同一位置進行表達值回歸,恢復精確的劑量信息

二者通過加權(quán)組合: 。理論推導表明,該目標等價于聯(lián)合分布的變分下界(ELBO)最大化,確保模型學習到身份與值的聯(lián)合概率分布。

為在有限上下文窗口(ScDiVa設(shè)為1200)內(nèi)編碼最大信息量,模型進一步引入熵歸一化序列化(Entropy-Normalized Serialization)。傳統(tǒng)按表達量降序選取基因的方法易陷入“高豐度陷阱”:管家基因(如GAPDH、ACTB)在所有細胞中高表達,占據(jù)大量token卻提供極少的細胞類型判別信息。ScDiVa對每個基因計算群體水平的Shannon熵 ,熵值越低表示該基因在細胞群體中表達越一致(判別力弱)。排序分數(shù)定義為:

該公式對高豐度但低熵的管家基因施加“懲罰”,使模型將token預算分配給高判別性的稀有基因。實驗表明,該策略在細胞注釋任務(wù)中使Macro-F1提升5.3%,尤其改善了稀有細胞類型的識別。

針對不同單細胞實驗測序深度差異巨大的問題(10x Genomics平臺通常每個細胞測得1000–5000個UMI,而Smart-seq2可達數(shù)十萬),ScDiVa設(shè)計了深度不變采樣(Depth-Invariant Sampling)策略:將擴散時間 視為測序深度的倒數(shù)代理,訓練時均勻采樣 ,迫使模型學習一個深度不變的規(guī)范流形。該設(shè)計使模型無需顯式批次校正即可在多批次整合任務(wù)中實現(xiàn)技術(shù)噪聲消除與生物信號保留的最優(yōu)平衡。

03
系統(tǒng)性驗證:從重建到因果推斷的全棧能力

ScDiVa在5900余萬個單細胞轉(zhuǎn)錄組上完成預訓練,系統(tǒng)性評估覆蓋四大任務(wù)層級:

1.重建任務(wù):同時恢復基因排序與表達量
重建任務(wù)要求模型同時恢復基因的相對排序(Rank)與絕對表達量(Value)。ScDiVa在4個基準數(shù)據(jù)集上全面超越基線:在極度稀疏的Immune數(shù)據(jù)集(88%零值)上,Spearman秩相關(guān)系數(shù)達0.970,比次優(yōu)模型GeneMamba(0.844)提升14.9%;在PBMC12k上,相關(guān)性達0.812,提升14.2%。關(guān)鍵的是,ScDiVa在Value維度的提升未以犧牲Rank為代價——BLEU分數(shù)保持0.987,證明其避免了“數(shù)值平滑化”陷阱。


使用L-Dist(↓)、BLEU(↑) 和Spearman(↑) 對多個數(shù)據(jù)集的重建質(zhì)量進行評估。

2.多批次整合:消除技術(shù)噪聲同時保留生物信號
整合任務(wù)要求模型消除不同實驗平臺、不同測序深度引入的技術(shù)批次效應(yīng),同時保留真實的生物異質(zhì)性。ScDiVa在5個異構(gòu)數(shù)據(jù)集上實現(xiàn)Avg-Batch(批次混合度)與Avg-Bio(生物結(jié)構(gòu)保留度)的帕累托最優(yōu):在PBMC12k上,Avg-Batch達0.9960(近乎完美混合),Avg-Bio達0.9566(生物結(jié)構(gòu)高度保留);在病理狀態(tài)復雜的COVID-19數(shù)據(jù)集上,Avg-Bio達0.6689,比次優(yōu)模型scGPT(0.6476)提升3.3%。


ScDiVa展現(xiàn)出卓越

的批次集成能力,在各種基準測試中,平衡了技術(shù)噪聲消除(
Avg-Batch
)和生物保護(
Avg-Bio
scDiVa
與領(lǐng)先基準在各種基準測試中的比較。

3.細胞注釋:精準識別稀有細胞類型
在4個組織特異性數(shù)據(jù)集上的微調(diào)實驗中,ScDiVa在hPancreas上達到98.6%準確率0.7919 Macro-F1;在高度不平衡的多發(fā)性硬化癥(MS)數(shù)據(jù)集上,Macro-F1達0.7271,比GeneMamba提升36%。零樣本評估(凍結(jié)主干,僅訓練分類頭)在8個數(shù)據(jù)集上平均準確率91.4%,Macro-F10.841,表明預訓練表征具備強大的泛化能力。


ScDiVa 在精細調(diào)整(針對特定組織)和零樣本場景中均能實現(xiàn)高精度

4.擾動預測與調(diào)控網(wǎng)絡(luò)推斷:邁向因果理解
在Adamson單基因擾動數(shù)據(jù)集上,ScDiVa預測與觀測的表達變化相關(guān)性達0.837,MSE 0.134;在Norman雙基因擾動數(shù)據(jù)集上,相關(guān)性0.709,成功建模非加性遺傳互作。對髓系主調(diào)控因子SPI1的分析顯示:模型精準識別其促進髓系標記(MS4A3、FTH1)同時抑制紅系基因(HBG1/2)的雙重邏輯,且排除了非因果的細胞周期基因(CCNB2、TOP2A),驗證了模型的生物學可解釋性。


03

范式轉(zhuǎn)移:離散擴散為何是單細胞建模的“自然選擇”?

ScDiVa的成功驗證了一種領(lǐng)域原生的建模范式。與自回歸和高斯擴散相比,掩碼離散擴散在三個維度上與單細胞數(shù)據(jù)本質(zhì)對齊:

維度

自回歸模型

掩碼離散擴散(ScDiVa)

結(jié)構(gòu)假設(shè)

強制線性順序,破壞調(diào)控對稱性

無序集合建模,尊重基因調(diào)控的非順序性

噪聲建模

無顯式噪聲模型

掩碼吸收態(tài),與技術(shù)性dropout同構(gòu)

生成機制

順序采樣,誤差級聯(lián)

并行去噪,利用全局上下文,避免暴露偏差

這種對齊不是工程技巧的堆砌,而是將數(shù)據(jù)生成的物理機制內(nèi)化為模型先驗。當AI模型的歸納偏置與數(shù)據(jù)的生成機制一致時,學習效率與泛化能力將獲得質(zhì)的提升。

05
應(yīng)用前景

? 基礎(chǔ)研究:作為“ 計算顯微鏡 ” ,通過注意力分析揭示未知調(diào)控關(guān)系,指導濕實驗驗證

? 臨床轉(zhuǎn)化:在癌癥異質(zhì)性分析中識別稀有耐藥亞群;在免疫治療中預測T 細胞響應(yīng);在再生醫(yī)學中設(shè)計最優(yōu)重編程路徑

? 技術(shù)融合:框架可擴展至空間轉(zhuǎn)錄組、多組學整合等場景,構(gòu)建統(tǒng)一的單細胞多模態(tài)生成模型

單細胞測序的稀疏性曾被視為技術(shù)局限,ScDiVa卻將其轉(zhuǎn)化為建模優(yōu)勢。這不僅是工程創(chuàng)新,更是對“如何讓AI理解生命數(shù)據(jù)”這一根本問題的重新思考——真正的智能不在于對抗世界的不完美,而在于理解不完美背后的生成邏輯,并與之共舞。

06
ScDiVa 背后的科研工作者

本文第一作者王銘軒本科就讀吉林大學數(shù)學學院,現(xiàn)為中國人民大學統(tǒng)計學院2026級碩士研究生,研究方向聚焦于AI for Science,大模型機理等,于高瓴人工智能學院馬彥彪老師處進行科研實習。

2023至2024年,他曾在吉林大學數(shù)學學院進行科研實習,從事時間序列領(lǐng)域的研究。

自2024年起,王銘軒開始參與馬彥彪老師課題,深度參與與開睿公司合作的細胞大模型項目。


本文的通訊作者為馬彥彪,他是中國人民大學高瓴人工智能學院講師。于2020年和2025年獲得西安電子科技大學學士和博士學位,導師為焦李成教授。

他的研究方向涵蓋大模型機理,多模態(tài)大模型圖文理解,多智能體系統(tǒng)優(yōu)化,長尾學習等,以第一作者和通訊作者在TPAMI、IJCV、CVPR、ICLR等人工智能領(lǐng)域頂級期刊發(fā)表論文20余篇,曾獲6項由IGARSS、CVPR、ICCV等舉辦的國際競賽冠軍。長期擔任TPAMI、CVPR、NeurIPS、ICLR等期刊和會議的審稿人。


未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
90后常德小伙歷時8天從伊朗回到湖南:此前赴死的心都有了,和平真好

90后常德小伙歷時8天從伊朗回到湖南:此前赴死的心都有了,和平真好

瀟湘晨報
2026-03-10 19:14:12
伊朗女足抵達機場!球員被困車內(nèi)+發(fā)出求救信號 家人警告:別回來

伊朗女足抵達機場!球員被困車內(nèi)+發(fā)出求救信號 家人警告:別回來

念洲
2026-03-10 19:45:58
新款奧迪A6L預售價公布:32.3萬元起

新款奧迪A6L預售價公布:32.3萬元起

界面新聞
2026-03-10 15:38:51
2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當耳旁風

2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當耳旁風

老特有話說
2026-03-08 15:30:41
曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

風過鄉(xiāng)
2026-03-10 21:14:19
江蘇:“巨無霸”高鐵站破土而出,投資152億震撼來襲。...

江蘇:“巨無霸”高鐵站破土而出,投資152億震撼來襲。...

科學發(fā)掘
2026-03-10 11:12:41
1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

1930年,37歲白崇禧和副官未婚妻生下長子,妻子直接殺了過來

史之銘
2026-03-10 17:55:32
金與正發(fā)出警告:后果可怕,不堪設(shè)想!

金與正發(fā)出警告:后果可怕,不堪設(shè)想!

IN朝鮮
2026-03-10 16:38:48
揪心!曝伊朗女足球員被強行拖上車:淚流滿面去機場 大巴車內(nèi)求救

揪心!曝伊朗女足球員被強行拖上車:淚流滿面去機場 大巴車內(nèi)求救

風過鄉(xiāng)
2026-03-10 21:00:08
打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

打亂套了!俄羅斯公開支持伊朗,烏克蘭軍隊將赴中東協(xié)助美以作戰(zhàn)

史政先鋒
2026-03-09 19:30:53
第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導彈

第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導彈

裝甲鏟史官
2026-03-10 14:12:51
毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

毛主席:晚年重用了這3個人物,從此徹底改寫了中國未來命運

優(yōu)趣紀史記
2026-03-10 11:15:34
陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

陳皮加它一起煮,倒頭就睡還疏肝寧神,我靠這招睡飽覺氣色好

江江食研社
2026-03-10 14:13:03
李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

李大齊是最懂周迅美的人,他給周迅做的造型將周迅的美發(fā)揮到極致

上官晚安
2026-03-10 06:04:00
隨著印度1-3,越南0-4,中國女足四分之一決賽對手正式誕生

隨著印度1-3,越南0-4,中國女足四分之一決賽對手正式誕生

側(cè)身凌空斬
2026-03-10 19:01:07
行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

科普100克克
2026-03-10 16:14:17
「俠客島」美國打伊朗,歐洲為啥“不跟”?

「俠客島」美國打伊朗,歐洲為啥“不跟”?

海外網(wǎng)
2026-03-10 19:32:05
別盯著比亞迪了,干掉蔚來換電的大概率是寧德時代

別盯著比亞迪了,干掉蔚來換電的大概率是寧德時代

鈦媒體APP
2026-03-10 17:22:25
伊朗提出停火首要條件 伊外長稱新任最高領(lǐng)袖不會與美談判

伊朗提出?;鹗滓獥l件 伊外長稱新任最高領(lǐng)袖不會與美談判

上游新聞
2026-03-10 13:40:14
中國女足或直通世界杯!八強戰(zhàn)對陣中國臺北,26戰(zhàn)全勝僅丟2球

中國女足或直通世界杯!八強戰(zhàn)對陣中國臺北,26戰(zhàn)全勝僅丟2球

奧拜爾
2026-03-10 19:03:04
2026-03-10 23:12:49
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

頭條要聞

小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

親子
游戲
數(shù)碼
旅游
家居

親子要聞

程曉玥自曝喜歡懷孕:我愛我的工作,然后我愛懷孕懷著孕工作

羨慕嗎?國外圖書館都能借上3A大作了

數(shù)碼要聞

羅德R?DE新推一體化音視頻方案,功能超強大!

旅游要聞

瀘溪縣大陂流村油菜花綻放 滿目金黃迎客來

家居要聞

自然肌理 溫度質(zhì)感婚房

無障礙瀏覽 進入關(guān)懷版