国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Evo-2登上Nature:AI模型實現(xiàn)對所有生命基因組的建模和設計,甚至能從頭設計生命

0
分享至


撰文丨王聰

編輯丨王多魚

排版丨水成文

所有生命都是用 DNA 編碼信息。盡管基因組測序、合成和基因組編輯工具已經(jīng)改變了生物學研究,但我們對基因組所編碼的巨大復雜性的理解,仍不充分,無法預測許多類型的基因組變化的影響,也無法智能地構建新的生物系統(tǒng)。

飛速發(fā)展的人工智能模型(AI Model)能夠從不同生物的基因組序列中學習、提取信息,其預測和設計能力日益增強,為我們實現(xiàn)預測生命和設計生命提供了前所未有的機會。

2026 年 3 月 4 日,Arc 研究所的Patrick HsuBrian Hie團隊聯(lián)合斯坦福大學、加州大學伯克利分校、加州大學舊金山分校以及英偉達的科學家,在國際頂尖學術期刊Nature上發(fā)表了題為:Genome modelling and design across all domains of life with Evo 2 的研究論文。

這標志著有史以來最大的生物學人工智能模型(AI model for biology)——Evo-2,經(jīng)過了同行評議后正式發(fā)表。該模型訓練了從病毒到單細胞的細菌、古菌,再到真核生物以及多細胞的植物以及人類的生命之樹中的 12.8 萬個基因組的9.3 萬億個核苷酸,從而能夠?qū)崿F(xiàn)對所有生命域的理解、建模和設計遺傳密碼,從頭開始編寫整個染色體,甚至從頭設計生命,還能準確預測所有類型的基因突變(包括編碼基因和非編碼基因)的影響。

Evo-2 的訓練使用了 2000 多個英偉達 H100 GPU,并得到了英偉達研究人員和工程師的合作支持。更重要的是,Evo-2 是完全開源的,在 GitHub 上共享了模型參數(shù)、訓練代碼、推理代碼以及訓練使用的 OpenGenome 2 數(shù)據(jù)集。世界各地的研究人員可以通過英偉達 BioNeMo 平臺免費訪問以及部署 Evo-2,從而加速對生物復雜性的探索和設計。


Evo-1

2024 年 11 月 15 日,Patrick HsuBrian Hie團隊在國際頂尖學術期刊Sciencce上發(fā)表了題為:Sequence modeling and design from molecular to genome scale with Evo 的研究論文,該論文還被選為當期封面論文。

該論文發(fā)布了首個在全基因組規(guī)模上以單核苷酸分辨率預測和生成 DNA 序列的 AI 模型——Evo

Evo是在原核生物(細菌、古菌)和噬菌體的基因組上進行訓練,能夠在 DNA、RNA 和蛋白質(zhì)模式下實現(xiàn)零樣本功能預測,還能夠生成長度超過百萬堿基對的具有合理基因組結構的 DNA 序列。研究團隊使用 Evo 生成了CRISPR-Cas分子復合物和IS200/IS605轉(zhuǎn)座子,并驗證了它們的功能活性,這也是首次通過語言模型實現(xiàn)蛋白質(zhì)-RNA 和蛋白質(zhì)-DNA 協(xié)同設計的實例。



Brian Hie(左)和Patrick Hsu(右)

Evo-2

所有生命都以DNA編碼信息,就像人類用語言記錄思想。盡管基因測序、合成和編輯技術已經(jīng)相當成熟,但我們?nèi)匀浑y以完全理解基因組中蘊含的復雜信息,更無法精準預測基因突變的影響或智能設計新的生物系統(tǒng)。

Evo-2的核心理念是將DNA視為一種“生命語言”,通過大規(guī)模無監(jiān)督學習,讓 AI 自行掌握這種語言的語法和語義。

Evo-2 的前身 Evo 完全是在單細胞生命的基因組上進行訓練的,而 Evo-2 進一步將其訓練數(shù)據(jù)擴展到了生命的所有域——從細菌、古細菌、噬菌體,以及植物、動物、人類和其它單細胞和多細胞的真核生物,總計12.8 萬個全基因組和宏基因組數(shù)據(jù)的 9.3 萬億個核苷酸(包含編碼序列和非編碼序列),訓練參數(shù)高達 400 億(Evo-2 有兩個版本,訓練參數(shù)分別是 70 億和 400 億)。訓練過程使用了超過 2000 張英偉達 H100 GPU,持續(xù)數(shù)月時間,規(guī)模接近頂尖通用大模型。


Evo-2 最引人注目的技術突破是其 100 萬個 token 的上下文窗口,相當于能夠一次性處理長達 100 萬堿基對的 DNA 序列。

在生物學中,許多關鍵功能依賴于長距離相互作用。例如,一個增強子可能距離它調(diào)控的基因數(shù)十萬堿基之遙,通過染色體折疊在三維空間上接觸目標基因。而傳統(tǒng)模型受限于上下文長度,難以捕捉這種長距離相互作用關系。

為了實現(xiàn)這一能力,研究團隊使用全新的StripedHyena 2架構,這是一種新的卷積混合架構,融合了輸入依賴卷積和注意力機制,相比 Transformer 架構,能夠大幅提高訓練速度和推理效率,在處理長序列時比標準 Transformer 快了 3 倍,顯存占用也更低。


Evo-2 的模型架構、訓練程序、數(shù)據(jù)集和評估概述

核心能力:預測與生成的雙重突破

1、零樣本預測基因突變的影響

Evo-2 最強大的能力之一是零樣本預測——無需針對特定任務進行微調(diào),就能準確評估基因突變的功能影響。

在 ClinVar 數(shù)據(jù)庫(包含人類疾病相關變異注釋)的測試中,Evo-2 表現(xiàn)出色——

  • 編碼區(qū)單核苷酸突變:AUROC 達到 0.841,雖然略低于專門訓練的 AlphaMissense(0.958),但作為通用模型已相當出色。

  • 非編碼區(qū)突變:表現(xiàn)尤為突出,AUROC 高達 0.987,顯著優(yōu)于其他模型。

  • 復雜變異類型:對于插入、缺失、重復等非單核苷酸突變,Evo-2 更是全面領先。

精準預測剪接突變

剪接是基因表達的關鍵步驟,剪接錯誤與多種疾病相關。在 SpliceVarDB 數(shù)據(jù)集(包含實驗驗證的剪接突變)上,Evo-2 在內(nèi)含子突變預測中與專業(yè)監(jiān)督模型競爭激烈,略低于 SpliceAI 和 CADD,但優(yōu)于 Pangolin;在外顯子突變預測中,雖然落后于專業(yè)模型,但超越了所有零樣本模型。

生成完整的基因組序列

除了預測,Evo-2 還能生成全新的DNA序列。研究團隊用它生成了——

  • 線粒體基因組(細胞中的能量工廠的遺傳物質(zhì))

  • 最小細菌基因組(生殖支原體)

  • 酵母染色體(真核生物,染色體長達 33 萬堿基對)。

這些生成的序列在結構上與自然序列高度相似,rRNA、tRNA 的數(shù)量分布也接近天然基因組。


Evo-2 跨越生命域的基因組規(guī)模的生成能力

重點應用:從臨床診斷到合成生物學

臨床基因突變解讀與精準醫(yī)療

BRCA1是著名的乳腺癌易感基因,準確預測其突變后果對風險評估和預防策略至關重要。該研究顯示,Evo-2 在沒有針對特定任務進行訓練(即零樣本)的情況下,能夠準確預測 BRCA1 基因的編碼區(qū)和非編碼區(qū)單核苷酸突變,這一能力擴展到相關基因 BRCA2 時同樣突出,這表明了 Evo-2 是一個有效的零樣本預測器,能夠廣泛應用于多種類型的人類功能性基因突變評估。

合成生物學與基因組工程

Evo-2 的生成能力為合成生物學開辟了新可能。通過推理時搜索技術,研究人員可以引導模型設計具有特定功能的 DNA 序列。例如,團隊成功設計了具有預設染色質(zhì)可及性模式的序列,甚至在表觀基因組上“寫”出了“EVO2”、“ARC”這樣的摩斯電碼。這種可控生成能力,使得定制化設計啟動子、增強子等調(diào)控元件成為可能。

基礎生物學研究

Evo-2 的內(nèi)部表示捕捉了多種生物學特征,包括外顯子-內(nèi)含子邊界(基因的結構單元)、轉(zhuǎn)錄因子結合位點(基因開關)、蛋白質(zhì)結構元素(α螺旋、β折疊)、噬菌體基因組區(qū)域(細菌病毒的遺傳物質(zhì))。這些發(fā)現(xiàn)不僅驗證了模型的學習能力,也為發(fā)現(xiàn)新的功能元件提供了工具。

開放生態(tài):加速生命科學創(chuàng)新

與許多封閉的 AI 模型不同,Evo-2 實現(xiàn)了完全開源——包括模型參數(shù)、訓練代碼、推理代碼以及 OpenGenome2 數(shù)據(jù)集。

這種開放性對生物計算領域是結構性的事件。長期以來,該領域被工具生態(tài)割裂、數(shù)據(jù)許可復雜、基準標準不統(tǒng)一所困擾。Evo-2 的完全開源意味著它不是一個“演示模型”,而是一個可能成為標準生態(tài)的平臺。

生物學開始擁有自己的“通用底座”,研究人員可以在其基礎上開發(fā)各種應用,加速整個領域的創(chuàng)新。

生物安全與倫理考量

值得一提的是,研究團隊在生物安全方面采取了謹慎措施,在訓練數(shù)據(jù)中排除了能夠感染真核生物的病毒序列,以確保模型不會被濫用于設計和操縱致病性病毒。

這一策略不僅降低了潛在的生物安全風險,也體現(xiàn)了對倫理問題的高度重視。團隊驗證了這些數(shù)據(jù)排除導致模型對真核病毒基因組序列的建模性能較差,表明數(shù)據(jù)排除達到了預期效果。

總的來說,Evo 系列模型為生物學建模與設計奠定了基礎,該框架通過統(tǒng)一的表征方式整合了生物學的多尺度特征。這些能力結合大規(guī)模 DNA 操作技術,或?qū)崿F(xiàn)更復雜生物功能的可編程設計。預計未來通過整合基因組序列數(shù)據(jù)與其他模態(tài)數(shù)據(jù),有望開發(fā)出能夠有效模擬健康與疾病狀態(tài)下復雜表型的模型。

Evo-2 的出現(xiàn)標志著生命科學正站在一個新時代的門檻,當 AI 不僅能讀懂基因組的“語言”,還能像作家一樣創(chuàng)作全新的生命代碼,我們對于生命的理解和設計能力將發(fā)生質(zhì)的飛躍。

論文鏈接

https://www.nature.com/articles/s41586-026-10176-5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩會新華鮮報|這些小事得到回應!高質(zhì)量司法守護高品質(zhì)生活

兩會新華鮮報|這些小事得到回應!高質(zhì)量司法守護高品質(zhì)生活

新華社
2026-03-09 23:46:17
“養(yǎng)龍蝦”狂潮來了:一款開源AI如何攪動資本、產(chǎn)業(yè)與政策

“養(yǎng)龍蝦”狂潮來了:一款開源AI如何攪動資本、產(chǎn)業(yè)與政策

國際金融報
2026-03-10 11:47:38
值得珍藏:電力+衛(wèi)星互聯(lián)網(wǎng)+光刻機+商業(yè)航天+英偉達+硅+半導體等

值得珍藏:電力+衛(wèi)星互聯(lián)網(wǎng)+光刻機+商業(yè)航天+英偉達+硅+半導體等

Thurman在昆明
2026-03-10 00:16:42
如果你買的是小米汽車,那么恭喜你,百分百是“純血”小米!

如果你買的是小米汽車,那么恭喜你,百分百是“純血”小米!

i王石頭
2026-03-08 23:26:37
喜歡把家里打掃得很干凈的人,往往會有這3種命運,很準!

喜歡把家里打掃得很干凈的人,往往會有這3種命運,很準!

品讀時刻
2026-02-12 00:06:27
“龍蝦補貼”密集出爐:龍崗、合肥、常熟、無錫…最高1000萬!

“龍蝦補貼”密集出爐:龍崗、合肥、常熟、無錫…最高1000萬!

華爾街見聞官方
2026-03-10 14:41:43
兒科醫(yī)生不光會看病更得會斷案!網(wǎng)友:嘴巴跟不上腦子的速度

兒科醫(yī)生不光會看病更得會斷案!網(wǎng)友:嘴巴跟不上腦子的速度

夜深愛雜談
2026-03-09 21:19:47
注資20億元!寧德時代落子泉州!計劃二季度開工!

注資20億元!寧德時代落子泉州!計劃二季度開工!

泉州熱榜
2026-03-10 11:06:54
納斯:馬克西精神狀態(tài)良好 本周將去看??漆t(yī)生確定治療方案

納斯:馬克西精神狀態(tài)良好 本周將去看??漆t(yī)生確定治療方案

北青網(wǎng)-北京青年報
2026-03-10 19:23:36
皇馬新帥候選?波切蒂諾:傳聞一直都會有,這種情況很正常

皇馬新帥候選?波切蒂諾:傳聞一直都會有,這種情況很正常

懂球帝
2026-03-11 02:05:13
新一代寶馬3系外觀預覽 隱藏式門把手 這個顏值打幾分?

新一代寶馬3系外觀預覽 隱藏式門把手 這個顏值打幾分?

CNMO科技
2026-03-10 14:06:10
馬克龍:派出10艘軍艦

馬克龍:派出10艘軍艦

環(huán)球時報國際
2026-03-11 00:08:58
負債后別再以貸養(yǎng)貸!3 個動作切斷債務滾雪球,幫你快速止損

負債后別再以貸養(yǎng)貸!3 個動作切斷債務滾雪球,幫你快速止損

負債老莫
2026-03-09 19:23:11
特朗普稱伊朗也有戰(zhàn)斧導彈

特朗普稱伊朗也有戰(zhàn)斧導彈

界面新聞
2026-03-10 08:51:57
北京炒股冠軍罕見發(fā)聲:炒股其實很簡單,只是沒有人愿意慢慢變富

北京炒股冠軍罕見發(fā)聲:炒股其實很簡單,只是沒有人愿意慢慢變富

股經(jīng)縱橫談
2026-03-10 20:38:58
飛奪瀘定橋英雄團長高燒后舉槍自盡,多年后楊成武表示:并非自盡

飛奪瀘定橋英雄團長高燒后舉槍自盡,多年后楊成武表示:并非自盡

章潱解說體育
2026-03-09 16:06:45
中國退無可退,美軍已選好他們的主戰(zhàn)場,正逼著我們跳進戰(zhàn)爭陷阱

中國退無可退,美軍已選好他們的主戰(zhàn)場,正逼著我們跳進戰(zhàn)爭陷阱

南權先生
2026-03-02 15:26:15
被人當傻子是什么體驗?網(wǎng)友:天王老子來了,我也只給100

被人當傻子是什么體驗?網(wǎng)友:天王老子來了,我也只給100

夜深愛雜談
2026-03-10 21:17:15
不顧央視警告頂風作案,與劉濤傳出緋聞的楊爍,到底是誰給的底氣

不顧央視警告頂風作案,與劉濤傳出緋聞的楊爍,到底是誰給的底氣

白色得季節(jié)
2026-03-10 23:59:39
柳某、王某等4人被西安警方查獲

柳某、王某等4人被西安警方查獲

91.6陜西交通廣播
2026-03-10 08:09:25
2026-03-11 03:07:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學研究
9000文章數(shù) 145022關注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

伊朗新最高領袖在襲擊中受傷未公開發(fā)表講話 官方回應

頭條要聞

伊朗新最高領袖在襲擊中受傷未公開發(fā)表講話 官方回應

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

游戲
時尚
本地
親子
軍事航空

《德波尼亞》Steam 免費領 / 《超級馬力歐銀河大電影》最終預告曝光

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

親子要聞

家長和同學們都應該知道的20英里法則

軍事要聞

剛說完戰(zhàn)爭很快結束 特朗普改口

無障礙瀏覽 進入關懷版