国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)AI第一次讀完整本基因之書,十億參數(shù)單細(xì)胞大模型能干什么?

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】十億參數(shù)單細(xì)胞基礎(chǔ)模型scLong不再只看少數(shù)高表達(dá)基因,而是把一個細(xì)胞里接近 2.8 萬個基因 都納入建模,并結(jié)合 Gene Ontology(GO) 的生物學(xué)知識,去理解更完整的基因上下文。

在單細(xì)胞轉(zhuǎn)錄組學(xué)領(lǐng)域,研究者希望從每個細(xì)胞的基因表達(dá)中讀出細(xì)胞狀態(tài)、調(diào)控關(guān)系,甚至預(yù)測當(dāng)某個基因被敲除、某種藥物被加入后,細(xì)胞會發(fā)生什么變化。

過去幾年,foundation model(基礎(chǔ)模型)開始進(jìn)入這一領(lǐng)域,顯示出強(qiáng)大的遷移能力;但長期以來,現(xiàn)有方法往往為了節(jié)省計算,只關(guān)注少量高表達(dá)基因,忽略了大量低表達(dá)甚至零表達(dá)基因,同時也缺少對外部基因功能知識的系統(tǒng)整合。這不僅會丟失重要調(diào)控信號,也容易讓模型對復(fù)雜生物過程「只見樹木,不見森林」。


近日,MBZUAI、加州大學(xué)圣地亞哥分校(UC San Diego)等機(jī)構(gòu)聯(lián)合團(tuán)隊在 Nature Communications 發(fā)表研究成果scLong。


論文鏈接:https://www.nature.com/articles/s41467-026-69102-y

這是一種擁有10億參數(shù)的單細(xì)胞基礎(chǔ)模型,基于約4800萬個細(xì)胞進(jìn)行預(yù)訓(xùn)練,能夠在整個人類轉(zhuǎn)錄組范圍內(nèi)對約27874個基因建模,并將GO(Gene Ontology) 提供的結(jié)構(gòu)化生物學(xué)知識融入模型中。

論文報告顯示,scLong在遺傳擾動預(yù)測、化學(xué)擾動預(yù)測、癌癥藥物反應(yīng)預(yù)測、基因調(diào)控網(wǎng)絡(luò)推斷等多項任務(wù)上,均優(yōu)于現(xiàn)有單細(xì)胞基礎(chǔ)模型和多種任務(wù)專用模型。

研究背景

為什么單細(xì)胞領(lǐng)域需要一個「更長」的模型?

因為一個細(xì)胞并不是只由少數(shù)幾個「明星基因」決定的。很多現(xiàn)有模型只在約 1500 到 2000 個高表達(dá)基因上做 self-attention,這樣確實更省算力,但代價是:大量低表達(dá)基因被排除在外。

而這些低表達(dá)基因雖然「聲音不大」,卻常常扮演調(diào)控開關(guān)、信號微調(diào)器,甚至在稀有細(xì)胞類型、應(yīng)激反應(yīng)、疾病進(jìn)展中發(fā)揮關(guān)鍵作用。

換句話說,過去很多模型更像是在讀「摘要」,而不是在讀「全文」。

另一個問題是,單靠表達(dá)矩陣本身,模型未必能真正理解「這個基因是干什么的」。

而Gene Ontology恰恰提供了基因在生物過程(Biological Process)、分子功能(Molecular Function)、細(xì)胞組分(Cellular Component)上的結(jié)構(gòu)化知識。過去很多模型主要從數(shù)據(jù)里「自己悟」,但沒有顯式利用這些成熟的生物學(xué)先驗,因此在理解功能關(guān)聯(lián)、調(diào)控關(guān)系和跨條件泛化時仍然受限。

于是,scLong想做的事情很直接:不僅把基因看全,還要把基因「看懂」。

把一個細(xì)胞,讀成一整句話


如果用自然語言來打比方,scLong的核心思想很有畫面感:把一個細(xì)胞的整條基因表達(dá)譜,當(dāng)成一句非常長、非常復(fù)雜的話來讀。

在這個「句子」里,每個「詞」不是普通單詞,而是一個 「基因 ID + 表達(dá)值」 的組合。模型先用一個表達(dá)編碼器,把數(shù)值型表達(dá)量映射成向量;再用一個基因編碼器,為每個基因生成帶有生物學(xué)含義的表示;兩者相加后,就得到這個「詞」的初始表示。

隨后,模型通過上下文編碼器,讓這些基因彼此「看見對方」,從而學(xué)習(xí)基因之間在當(dāng)前細(xì)胞中的上下文關(guān)系。

這里最有意思的一點(diǎn)是:scLong并沒有粗暴地把低表達(dá)基因扔掉。 它采用了一個雙編碼器設(shè)計:對高表達(dá)基因使用更大的Performer編碼器,對低表達(dá)基因使用更小的Performer編碼器,最后再通過一個full-length Performer把全體基因整合起來。這樣既盡量保住了全基因組范圍的上下文信息,又在計算量和建模能力之間做了平衡。

更進(jìn)一步,scLong還把GO知識圖譜 接進(jìn)來了。研究團(tuán)隊先根據(jù)基因共享的GO注釋來構(gòu)建基因圖:

如果兩個基因在生物過程、分子功能或細(xì)胞定位上足夠相似,它們就會被連接起來;

然后再用圖卷積網(wǎng)絡(luò)(GCN)來學(xué)習(xí)基因表示。

這樣一來,模型不僅知道「這個基因在這個細(xì)胞里表達(dá)了多少」,還知道「這個基因通常和哪些功能、哪些基因有關(guān)系」。這相當(dāng)于給每個「詞」都加了一層背景知識。

預(yù)訓(xùn)練方面,scLong使用的是一種類似BERT的思路:隨機(jī)遮掉一部分表達(dá)值,讓模型去重建它們。

研究團(tuán)隊用來自1618個單細(xì)胞數(shù)據(jù)集、覆蓋50多種組織 的約4800萬個人類細(xì)胞 進(jìn)行預(yù)訓(xùn)練,覆蓋27874個基因,其中既包括蛋白編碼基因,也包括非編碼基因。對單細(xì)胞領(lǐng)域來說,這相當(dāng)于讓模型先在海量真實細(xì)胞中「通讀語料」,再去做各種下游任務(wù)。

還有一個非常值得注意的設(shè)計:scLong甚至把零表達(dá)也當(dāng)作信息來建模。 因為零不一定意味著「沒意義」,它可能代表「表達(dá)太低沒測到」,也可能代表「這個基因在該細(xì)胞里確實被關(guān)閉了」。

前者可能對應(yīng)弱但真實的生物信號,后者則可能恰恰揭示了某種細(xì)胞身份或調(diào)控狀態(tài)。對于單細(xì)胞數(shù)據(jù)來說,這種「把缺席也當(dāng)作信息」的思路非常重要。

從基因擾動到藥物反應(yīng)

遺傳擾動預(yù)測:沒見過的擾動,也更會猜


在遺傳擾動任務(wù)中,模型需要根據(jù)細(xì)胞擾動前的表達(dá)和擾動條件,預(yù)測擾動后的表達(dá)變化。

論文使用Norman數(shù)據(jù)集進(jìn)行評測,并特別關(guān)注模型對未見過擾動組合的泛化能力。結(jié)果顯示,scLong在大多數(shù)場景下都優(yōu)于 Geneformer、scGPT、scFoundation、UCE,以及任務(wù)專用模型GEARS、ALM和簡單基線No-Change。尤其是在更困難的Seen 0/1和Seen 0/2場景中,scLong的優(yōu)勢更明顯:例如在Seen 0/1 場景下,scLong的Pearson相關(guān)系數(shù)達(dá)到0.625,高于GEARS的0.561;在Seen 0/2場景下,scLong的MSE為0.170,也優(yōu)于多數(shù)基線。

不僅如此,scLong對雙基因擾動中的協(xié)同(synergy)和抑制(suppressor)兩類遺傳互作的識別也優(yōu)于GEARS。

這意味著它不僅能預(yù)測「會變多少」,還更接近理解「這些基因之間是怎樣一起起作用的」。

化學(xué)擾動預(yù)測:新藥上來,先讓模型「測一測」

在化學(xué)擾動任務(wù)中,模型輸入藥物分子圖、劑量和細(xì)胞系信息,輸出擾動后的基因表達(dá)。論文在L1000子集上評估了scLong,結(jié)果顯示:無論是RMSE、Spearman/Pearson 相關(guān),還是Top-100精度指標(biāo),scLong都顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE和任務(wù)專用模型DeepCE。

換句話說,面對一個新化合物,scLong更擅長預(yù)判它會把細(xì)胞「推向什么狀態(tài)」。

癌癥藥物反應(yīng)預(yù)測:更懂癌細(xì)胞,也更懂聯(lián)合用藥

在癌癥藥物反應(yīng)預(yù)測任務(wù)中,模型需要根據(jù)藥物結(jié)構(gòu)和癌細(xì)胞表達(dá)譜,預(yù)測藥物療效。論文在DeepCDR數(shù)據(jù)集上報告,scLong的Pearson相關(guān)系數(shù)達(dá)到0.878,高于Geneformer 的0.852、scFoundation的0.867、DeepCDR的0.837以及線性模型的0.746


更有意思的是,研究團(tuán)隊還把問題升級到藥物組合預(yù)測:同一個癌細(xì)胞系面對兩種藥物聯(lián)用,會不會有更好的反應(yīng)?

在分布外測試集上,scLong的AUROC達(dá)到0.652,同樣超過了多種基礎(chǔ)模型和任務(wù)模型。這說明它不僅能看單藥,還能在更復(fù)雜的聯(lián)合治療場景中提供線索。

基因調(diào)控網(wǎng)絡(luò)與批次整合:不僅會預(yù)測,還會「組織知識」

在基因調(diào)控網(wǎng)絡(luò)(GRN)推斷任務(wù)中,scLong從基因表示之間的相似性出發(fā),去重建誰調(diào)控誰。

結(jié)果顯示,其AUPR達(dá)到1.35,顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3以及直接使用GO圖的基線。

也就是說,scLong學(xué)到的并不是「死記硬背」的GO網(wǎng)絡(luò),而是結(jié)合具體細(xì)胞數(shù)據(jù)后更貼近真實生物系統(tǒng)的關(guān)系圖。


在零樣本批次整合任務(wù)中,scLong在pancreas數(shù)據(jù)集上取得0.96的batch ASW,超過Raw、HVG、scVI以及其他foundation model

值得注意的是,scLong既沒有在這個數(shù)據(jù)集上預(yù)訓(xùn)練,也沒有微調(diào),卻仍然超過了專門在該數(shù)據(jù)集上訓(xùn)練的scVI,顯示出很強(qiáng)的遷移性。

最后,消融實驗也給出了很強(qiáng)的支撐:去掉低表達(dá)基因建模、或者去掉 GO 圖后,性能都會下降。這說明scLong的提升不是偶然,而正是來自「看全基因」和「引入生物知識」這兩件事本身。

核心亮點(diǎn)總結(jié)

從「看少數(shù)基因」走向「看全基因組」:它把約 2.8 萬個基因都納入上下文建模,而不是只盯著高表達(dá)基因。

把生物知識真正嵌進(jìn)模型:GO 不再只是注釋表,而是參與到基因表示學(xué)習(xí)的核心結(jié)構(gòu)中。

大規(guī)模預(yù)訓(xùn)練帶來強(qiáng)遷移能力:基于 4800 萬細(xì)胞的預(yù)訓(xùn)練,讓模型在多個下游任務(wù)上都能穩(wěn)健發(fā)揮。

不只是「更大」,而是「更懂生物」:論文最重要的啟發(fā)不是參數(shù)量本身,而是證明了低表達(dá)/零表達(dá)基因和結(jié)構(gòu)化先驗知識,對單細(xì)胞 foundation model 來說都非常關(guān)鍵。

實際應(yīng)用前景

從應(yīng)用角度看,scLong 展示出的潛力相當(dāng)清晰。

首先,在基因擾動與功能研究中,它可以幫助研究者更快預(yù)測敲除、過表達(dá)、組合擾動可能帶來的轉(zhuǎn)錄組變化,從而減少大量濕實驗試錯成本。

其次,在藥物發(fā)現(xiàn)和精準(zhǔn)醫(yī)學(xué)中,它能夠預(yù)測化學(xué)擾動和癌癥藥物反應(yīng),為候選藥物篩選、聯(lián)合用藥設(shè)計和個體化治療提供計算支持。

再次,在系統(tǒng)生物學(xué)層面,它還能輔助重建基因調(diào)控網(wǎng)絡(luò)、理解細(xì)胞狀態(tài)轉(zhuǎn)換,并在多批次數(shù)據(jù)整合中提供更穩(wěn)定的細(xì)胞表示。論文作者也指出,這樣的模型有望進(jìn)一步推動精準(zhǔn)醫(yī)療、藥物研發(fā)和細(xì)胞生物學(xué)研究。

更長遠(yuǎn)地看,scLong代表了一種很值得關(guān)注的方向:單細(xì)胞基礎(chǔ)模型不應(yīng)只是把Transformer搬到生物數(shù)據(jù)上,而應(yīng)該同時擁抱「全局上下文」和「領(lǐng)域知識」。

當(dāng)模型既能「讀完整本基因之書」,又能理解每個基因在生物學(xué)中的位置,它才更有可能真正成為生命科學(xué)里的通用智能工具。

參考資料:

https://www.nature.com/articles/s41467-026-69102-y

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
利空突襲,全線殺跌!

利空突襲,全線殺跌!

中國基金報
2026-03-26 13:16:51
人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

掠影后有感
2026-03-26 10:39:36
41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

180視角
2026-03-26 13:01:03
萬科高管被要求退還薪酬

萬科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
中國禁止AI公司Manus兩名高管離境?外交部回應(yīng)

中國禁止AI公司Manus兩名高管離境?外交部回應(yīng)

澎湃新聞
2026-03-26 15:36:31
和富商離婚后,上海知名主持淪為網(wǎng)紅,如今8歲兒子成她唯一依靠

和富商離婚后,上海知名主持淪為網(wǎng)紅,如今8歲兒子成她唯一依靠

往史過眼云煙
2026-03-25 14:51:15
廣東女子十幾萬愛馬仕包被狗啃壞,配色稀有沒法修復(fù),回應(yīng):心疼包,更擔(dān)心狗子的腸胃

廣東女子十幾萬愛馬仕包被狗啃壞,配色稀有沒法修復(fù),回應(yīng):心疼包,更擔(dān)心狗子的腸胃

大象新聞
2026-03-26 13:53:02
6900萬元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎金+獎牌 后者強(qiáng)硬拒絕

6900萬元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎金+獎牌 后者強(qiáng)硬拒絕

風(fēng)過鄉(xiāng)
2026-03-26 19:13:28
一覺醒來,大量美軍逃匿!伊朗全力搜捕!美議長透露重要信息

一覺醒來,大量美軍逃匿!伊朗全力搜捕!美議長透露重要信息

安安說
2026-03-26 13:00:12
博主被陌生網(wǎng)友辱罵3個月,默默觀察其2年半,終于找到機(jī)會碰面了

博主被陌生網(wǎng)友辱罵3個月,默默觀察其2年半,終于找到機(jī)會碰面了

離離言幾許
2026-03-26 15:01:41
廣東一男子買啤酒抽中電動車大獎,將中獎二維碼發(fā)網(wǎng)上詢問后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

廣東一男子買啤酒抽中電動車大獎,將中獎二維碼發(fā)網(wǎng)上詢問后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

洪觀新聞
2026-03-26 10:56:49
越扒越有!張雪峰去世早有預(yù)兆,他的3個不良愛好,或成催命符

越扒越有!張雪峰去世早有預(yù)兆,他的3個不良愛好,或成催命符

潮鹿逐夢
2026-03-26 11:24:44
跌麻了!筆記本開年銷量暴跌40%近乎腰斬:沒人買了

跌麻了!筆記本開年銷量暴跌40%近乎腰斬:沒人買了

中國能源網(wǎng)
2026-03-26 14:13:04
昨天杭州有醫(yī)院門診突然多了不少“跑友”,主動要求檢查心臟功能!醫(yī)生:長期跑步不等于心肺功能沒問題

昨天杭州有醫(yī)院門診突然多了不少“跑友”,主動要求檢查心臟功能!醫(yī)生:長期跑步不等于心肺功能沒問題

都市快報橙柿互動
2026-03-26 08:00:05
首個因中東戰(zhàn)爭宣布進(jìn)入緊急狀態(tài)的國家,為何是菲律賓?

首個因中東戰(zhàn)爭宣布進(jìn)入緊急狀態(tài)的國家,為何是菲律賓?

上觀新聞
2026-03-26 19:36:04
4-3爆冷!中國隊雙殺亞洲勁旅,比5連勝更驚喜的,又出現(xiàn)一個李昊

4-3爆冷!中國隊雙殺亞洲勁旅,比5連勝更驚喜的,又出現(xiàn)一個李昊

侃球熊弟
2026-03-26 00:35:10
砸6700億建雄安,面積抵3個紐約,如今究竟咋樣了?

砸6700億建雄安,面積抵3個紐約,如今究竟咋樣了?

娛樂圈的筆娛君
2026-03-26 12:15:32
全新速騰S價格盲猜:若真10萬左右,這波“值”字贏麻了!

全新速騰S價格盲猜:若真10萬左右,這波“值”字贏麻了!

車知事
2026-03-26 21:34:27
塞爾維亞購買中國超音速導(dǎo)彈?國防部:正常軍貿(mào)合作,不針對第三方

塞爾維亞購買中國超音速導(dǎo)彈?國防部:正常軍貿(mào)合作,不針對第三方

澎湃新聞
2026-03-26 17:24:26
以牙還牙!歐盟凍結(jié)對匈牙利160億援助,投降俄軍助烏軍消滅150人

以牙還牙!歐盟凍結(jié)對匈牙利160億援助,投降俄軍助烏軍消滅150人

史政先鋒
2026-03-26 20:22:48
2026-03-26 23:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14821文章數(shù) 66721關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

游戲
手機(jī)
藝術(shù)
家居
軍事航空

"死亡擱淺"外骨骼來了!小島工作室轉(zhuǎn)發(fā)聯(lián)名 原度拉滿

手機(jī)要聞

OPPO K15 Pro 系列定檔,嵐影呼吸燈搭配金屬中框

藝術(shù)要聞

哪一座橋不是風(fēng)景?

家居要聞

傍海而居 靜觀蝴蝶海

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版