国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nat Commun丨沈?qū)巿F隊開發(fā)大模型RNA相關(guān)預(yù)測的統(tǒng)一基準(zhǔn)測試框架

0
分享至


RNA在生物體中占據(jù)核心地位,其功能范疇涵蓋基因表達調(diào)控、蛋白質(zhì)合成及疾病發(fā)生機制等關(guān)鍵生命過程。隨著高通量測序數(shù)據(jù)的爆發(fā)式增長,如何從海量序列中破譯生命密碼成為了新的挑戰(zhàn)。近年來,借鑒自然語言處理技術(shù)的預(yù)訓(xùn)練基因組語言模型(gLMs) 迅速崛起。這些預(yù)訓(xùn)練大模型如同掌握了基因組語法的“通才”,通過人類及多物種基因組數(shù)據(jù)預(yù)訓(xùn)練大型 Transformer 架構(gòu),無需重新開發(fā)即可低成本遷移至各類 RNA 相關(guān)預(yù)測任務(wù),憑借 “開箱即用” 的優(yōu)勢,讓缺乏大模型開發(fā)能力或硬件條件的團隊也能高效開展研究。

然而,已發(fā)表的 gLMs 普遍存在規(guī)模龐大、架構(gòu)復(fù)雜的問題,且不同模型的應(yīng)用場景各有側(cè)重,其在各類任務(wù)中的性能差異缺乏系統(tǒng)性驗證。面對琳瑯滿目的模型,研究者往往陷入“選擇困難癥”,難以判斷哪個模型最適配自己的研究場景,這在很大程度上限制了gLMs的廣泛應(yīng)用。

近日,良渚實驗室沈?qū)?/strong>研究團隊在Nature Communications上發(fā)表了題為

Benchmarking Pre-trained Genomic Language Models for RNA Sequence-Related Predictive Applications
的論文,針對以上痛點 開發(fā)了統(tǒng)一的基準(zhǔn)測試框架。 該框架系統(tǒng)評估了 11 種主流 預(yù)訓(xùn)練 gLMs 在四類核心 RNA 生物過程任務(wù)中的表現(xiàn),包括非編碼 RNA 分類、m6A 修飾預(yù)測、可變剪接位點預(yù)測及翻譯效率預(yù)測。研究通過詳盡的多指標(biāo)對比與消融實驗,揭示了數(shù)據(jù)與算法協(xié)同的重要性,并證實了gLMs在小樣本及長上下文場景下的獨特優(yōu)勢。同時,研究發(fā)現(xiàn)以往“模型越大越好”的觀點并不絕對成立。例如,與應(yīng)用場景語義適配的預(yù)訓(xùn)練數(shù)據(jù),以及編碼方式同樣會對模型性能產(chǎn)生明顯的影響。除分析結(jié)果外,該工作也留下了一套易用的代碼框架,方便用戶把感興趣的模型加進去一起測試。這項工作不僅填補了評測空白,更為廣大科研人員提供了一份極具實操價值的RNA序列分析模型選擇指南。



圖 1 Benchmark框架示意圖

為了確保公平比較,研究團隊設(shè)計了一個靈活可擴展的評估框架 (1a)。他們聚焦于RNA轉(zhuǎn)錄后調(diào)控中的四個關(guān)鍵任務(wù),這些任務(wù)同時也涵蓋了生物問題的四種建模方式:非編碼RNA (ncRNA) 分類要求模型將整個序列劃分為16個類別中的一種(如miRNA、circRNA等),涉及序列級多分類問題;N6-甲基腺苷 (N6-methyladenosine, m6A) 修飾預(yù)測是二分類任務(wù),需判斷序列中心位點是否發(fā)生甲基化;可變剪接位點預(yù)測 (splice site prediction) 則需在核苷酸分辨率上識別剪接供體和受體,并進一步對組織特異性使用情況進行多標(biāo)簽分類;翻譯效率預(yù)測 (translation efficiency prediction) 則是一項回歸任務(wù),目標(biāo)是根據(jù)5'UTR序列預(yù)測核糖體負載均值 (mean ribosome loading, MRL)。每個任務(wù)都配備了代表性數(shù)據(jù)集,樣本量從數(shù)千到數(shù)億不等,涵蓋了不同數(shù)據(jù)規(guī)模和平衡性場景。除了大模型之間的比較,研究還引入了對應(yīng)領(lǐng)域的傳統(tǒng)深度學(xué)習(xí)算法 (如DeepM6ASeq、SpliceAI等),作為對比基準(zhǔn)。本研究系統(tǒng)整合了11種主流預(yù)訓(xùn)練基因組語言模型(gLMs) 進行標(biāo)準(zhǔn)化評估,涵蓋RNA-FM、SpliceBERT、DNABERT2等代表性架構(gòu)(1b)。這些模型在架構(gòu)設(shè)計、參數(shù)規(guī)模 (百萬級至十億級參數(shù))、預(yù)訓(xùn)練數(shù)據(jù)構(gòu)成 (單物種特異性數(shù)據(jù)至跨物種泛化數(shù)據(jù)) 及tokenization策略 (傳統(tǒng)k-mer分詞、BPE分詞、全核苷酸編碼) 等方面呈現(xiàn)顯著異質(zhì)性。例如,RNA-FM基于無標(biāo)注RNA數(shù)據(jù)集進行預(yù)訓(xùn)練,SpliceBERT整合了72種脊椎動物pre-mRNA數(shù)據(jù)構(gòu)建跨物種表征,DNABERT2與GENA-LM采用BPE分詞實現(xiàn)長程依賴建模 (支持36,000 bp上下文),而Nucleotide Transformer通過全局注意力機制支持長達12,000 bp的輸入序列同時,評測還包含多種任務(wù)專用方法,如ncRDense (融合結(jié)構(gòu)特征) 和SpliceTransformer (專為剪接設(shè)計)。所有模型均采用統(tǒng)一微調(diào)策略,在相同數(shù)據(jù)分割下訓(xùn)練,以避免偏差。值得注意的是,gLMs作為“基礎(chǔ)模型”,可通過微調(diào)適配不同任務(wù),但其性能受預(yù)訓(xùn)練數(shù)據(jù)匹配度、輸入長度等因素影響。這種多樣性使本次評測能深入揭示模型特性,為后續(xù)應(yīng)用提供依據(jù)。

綜合測試結(jié)果表明“沒有包治百病的模型”,不同架構(gòu)在特定任務(wù)上各有所長:例如,SpliceBERT憑借其對進化保守性知識的利用在m6A任務(wù)中脫穎而出,而Nucleotide Transformer則在處理長序列剪接預(yù)測方面表現(xiàn)優(yōu)異。研究深入揭示了模型性能背后的關(guān)鍵驅(qū)動因素:模型表現(xiàn)是預(yù)訓(xùn)練數(shù)據(jù)匹配度、輸入長度和分詞策略復(fù)雜交互的結(jié)果?;诖耍撐奶岢鲆粡圧NA序列分析模型的選擇導(dǎo)引圖:首先考慮數(shù)據(jù)量——小樣本或不平衡數(shù)據(jù)優(yōu)選gLMs;大數(shù)據(jù)時任務(wù)專用方法更高效。其次,任務(wù)類型決定輸入長度需求 (如剪接需長上下文),而多模態(tài)數(shù)據(jù) (如臨床圖像) 可能需定制模型。計算資源也是關(guān)鍵:SpliceAI等CNN模型訓(xùn)練快50倍,適合初步驗證。最后,生物背景至關(guān)重要——選用預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)匹配的模型。這一指南幫助用戶避開“越大越好”的誤區(qū),實現(xiàn)性能與效率的平衡。當(dāng)然,AI x 生物學(xué)的領(lǐng)域無窮廣闊,這些已有的預(yù)訓(xùn)練大模型仍有許多可提升的空間。對于有能力探索和開發(fā)新模型的研究者,作者也希望目前的benchmark工作能給他們帶來啟發(fā)和幫助,推動生物信息學(xué)領(lǐng)域的發(fā)展。

本基準(zhǔn)測試證實了gLMs在RNA生物學(xué)中的巨大潛力,但也揭示當(dāng)前局限:如長序列處理與計算成本的矛盾、模態(tài)表征的不足等。未來,融合多組學(xué)數(shù)據(jù)、開發(fā)更高效架構(gòu)或可突破這些瓶頸。同時,研究強調(diào)“生物語境”的重要性——預(yù)訓(xùn)練需貼合下游任務(wù),而非盲目擴規(guī)模。這項工作不僅為研究者提供了選型“路線圖”,還推動了標(biāo)準(zhǔn)化評估流程的建設(shè)。隨著AI技術(shù)進步,下一代gLM有望成為生物醫(yī)學(xué)發(fā)現(xiàn)的強大引擎,在疾病機制解析、藥物設(shè)計等領(lǐng)域發(fā)揮更大價值。團隊已公開所有代碼與數(shù)據(jù),鼓勵社區(qū)共同完善。

文章相關(guān)代碼已開源,發(fā)布在GitHub平臺(https://github.com/ShenLab-Genomics/biombenchmark)。

本研究由浙江大學(xué)醫(yī)學(xué)院良渚實驗室的游寧遠、劉暢為共同第一作者,沈?qū)幯芯繂T為通訊作者。浙江大學(xué)區(qū)塊鏈與數(shù)據(jù)安全國家重點實驗室的伍賽、陳剛等人參與了工作設(shè)計與指導(dǎo)。

https://www.nature.com/articles/s41467-025-66899-y

制版人: 十一

學(xué)術(shù)合作組織

(*排名不分先后)



戰(zhàn)略合作伙伴

(*排名不分先后)



轉(zhuǎn)載須知


【非原創(chuàng)文章】本文著作權(quán)歸文章作者所有,歡迎個人轉(zhuǎn)發(fā)分享,未經(jīng)作者的允許禁止轉(zhuǎn)載,作者擁有所有法定權(quán)利,違者必究。

BioArt

Med

Plants

人才招聘

近期直播推薦


點擊主頁推薦活動

關(guān)注更多最新活動!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

林林故事揭秘
2024-12-25 12:24:41
內(nèi)地女子在香港涉持假匯款單被拘捕!要求提款160億歐元

內(nèi)地女子在香港涉持假匯款單被拘捕!要求提款160億歐元

南方都市報
2026-01-09 22:30:13
周五深夜定方向,下一周90%的人或?qū)俅伪幌闯鋈?

周五深夜定方向,下一周90%的人或?qū)俅伪幌闯鋈?

股市皆大事
2026-01-09 22:20:00
人潮涌動!上海宜家恢復(fù)營業(yè)首日,顧客狂購物不停!

人潮涌動!上海宜家恢復(fù)營業(yè)首日,顧客狂購物不停!

別人都叫我阿腈
2026-01-10 01:36:26
陳博彰當(dāng)選長沙市市長,原市長已進京任職

陳博彰當(dāng)選長沙市市長,原市長已進京任職

上觀新聞
2026-01-09 18:12:06
都被騙了?委元首被捕后,一架美洲專機將抵華,卡尼在中國待4天

都被騙了?委元首被捕后,一架美洲專機將抵華,卡尼在中國待4天

阿釗是個小小評論員
2026-01-10 03:24:18
對于中國收臺,特朗普表態(tài):中方怎么做自己決定,這是他們的自由

對于中國收臺,特朗普表態(tài):中方怎么做自己決定,這是他們的自由

阿釗是個小小評論員
2026-01-10 03:04:49
45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

45歲富哥“北京肖哥”去世,前一天還曬老婆,死因曝光仇人都惋惜

嫹筆牂牂
2025-12-31 07:07:52
“大尺度”新年掛歷火了!活菩薩椰樹慫了

“大尺度”新年掛歷火了!活菩薩椰樹慫了

李東陽朋友圈
2026-01-09 20:01:49
丹麥議員嗆聲:被槍指頭還談什么,都要倒向中國了…

丹麥議員嗆聲:被槍指頭還談什么,都要倒向中國了…

觀察者網(wǎng)
2026-01-08 15:30:04
日方召見中國大使抗議,吳江浩大使當(dāng)場駁回:中方意志不會改變

日方召見中國大使抗議,吳江浩大使當(dāng)場駁回:中方意志不會改變

阿釗是個小小評論員
2026-01-10 02:47:26
考辛斯戳破勇士遮羞布:追夢的脾氣是你們慣的,贏球時咋沒人罵?

考辛斯戳破勇士遮羞布:追夢的脾氣是你們慣的,贏球時咋沒人罵?

林子說事
2026-01-09 08:09:55
分手傳聞持續(xù)發(fā)酵后,一言不發(fā)的龐眾望,終于不再顧忌所謂的體面

分手傳聞持續(xù)發(fā)酵后,一言不發(fā)的龐眾望,終于不再顧忌所謂的體面

觀察者海風(fēng)
2026-01-08 09:35:23
無錫博物院嚴(yán)正聲明!

無錫博物院嚴(yán)正聲明!

江南晚報
2026-01-09 17:46:57
山東高速豪取五連勝凸顯兩笑話:北京首鋼總冠軍,周琦是第一中鋒

山東高速豪取五連勝凸顯兩笑話:北京首鋼總冠軍,周琦是第一中鋒

姜大叔侃球
2026-01-09 22:36:46
這組數(shù)據(jù),見證“大國水網(wǎng)”新畫卷!

這組數(shù)據(jù),見證“大國水網(wǎng)”新畫卷!

新華社
2026-01-09 14:03:09
西工大連夜宣布好消息!全世界都沒想到,中國居然“彎道超車”

西工大連夜宣布好消息!全世界都沒想到,中國居然“彎道超車”

八斗小先生
2026-01-09 16:11:04
中鐵五局被停業(yè)整頓180日

中鐵五局被停業(yè)整頓180日

第一財經(jīng)資訊
2026-01-09 10:22:53
老鷹奇才1換2交易官宣!特雷-楊改穿3號球衣:滿懷欣喜開啟新篇章

老鷹奇才1換2交易官宣!特雷-楊改穿3號球衣:滿懷欣喜開啟新篇章

羅說NBA
2026-01-10 04:37:12
中國購買了20架伊爾-78MK-90A加油機

中國購買了20架伊爾-78MK-90A加油機

Ck的蜜糖
2026-01-09 15:52:05
2026-01-10 05:08:49
BioArt incentive-icons
BioArt
探索生物藝術(shù)之奧秘
8877文章數(shù) 18483關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

丹麥專家:美軍“拿下”格陵蘭島只要45分鐘

頭條要聞

丹麥專家:美軍“拿下”格陵蘭島只要45分鐘

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

家居
教育
藝術(shù)
本地
公開課

家居要聞

木色留白 演繹現(xiàn)代自由

教育要聞

教育愛打人的學(xué)生,老師不能惹禍上身??!

藝術(shù)要聞

撲面而來的激情:俄羅斯畫家斯拉因斯基 大筆觸繪畫作品!

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版