国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind獨家揭秘AlphaGenome內幕:讓AI讀懂基因組98%的非編碼區(qū)

0
分享至

當 2003 年人類基因組測序首次完成時,我們獲得了一本厚達 30 億個遺傳字母的“天書”,卻發(fā)現(xiàn)自己只能讀懂其中 2% 的“文字”(編碼區(qū)),剩下的 98% 被稱為基因組的“暗物質”。

近日,由谷歌旗下 DeepMind 公司開發(fā)的人工智能模型 AlphaGenome 登上 Nature 封面。該模型主要用于理解 DNA 序列如何調控基因,幫助科學家發(fā)現(xiàn)為什么我們 DNA 中的細微差異會讓我們面臨高血壓、癡呆癥和肥胖癥等疾病的風險。

DeepMind 于 2025 年 6 月首次在 bioRxiv 發(fā)布 AlphaGenome 的預印本,并開放 API 預覽。但模型在 Nature 正式發(fā)表后,團隊同時宣布了完全開源研究代碼和模型權重。

AlphaGenome 是 DeepMind 繼 AlphaFold 之后的又一力作。

該模型的核心優(yōu)勢在于其統(tǒng)一預測能力:它能一次性輸入長達 100 萬個堿基對的 DNA 序列,以單個堿基分辨率同時輸出數(shù)千種功能基因組特征,包括基因表達水平(RNA-seq、CAGE)、RNA 剪接位點與強度、染色質開放性、組蛋白修飾、轉錄因子結合位點以及染色質三維接觸圖。通過對比突變序列與野生型序列,AlphaGenome 能在幾秒內高效評分遺傳變異的功能影響,這在過去往往需要數(shù)年濕實驗驗證。

在 Nature 論文中,該模型在 26 個變異效應預測基準任務中,有 25 個達到或超越現(xiàn)有最強模型(如 Enformer、Borzoi、ChromBPNet),尤其在非編碼變異解讀上表現(xiàn)出色。它基于人類和小鼠的 ENCODE、GTEx 等大規(guī)模多組學數(shù)據(jù)訓練,覆蓋數(shù)百種細胞類型和組織。

AlphaGenome 的潛在應用前景尤為廣泛。

在癌癥研究上,AlphaGenome 已成功破解 T 細胞急性淋巴細胞白血病的致病機制,能精準找到導致癌基因異常激活的非編碼突變,還能說清這些突變是如何通過改變基因調控引發(fā)癌癥的。這能幫科學家更快鎖定癌癥驅動突變,找到新的治療靶點。

在罕見病診斷方面,對于很多病因不明的罕見病,它能準確識別 DNA 中導致疾病的關鍵變異,比如哪些變異破壞了基因正常功能、影響了蛋白質結合。這些信息能幫醫(yī)生解讀疑難病例,給 “不知道是什么變異致病” 的情況提供明確線索。

在合成生物學中,可以指導設計定制化的 DNA 序列,比如打造只在神經(jīng)細胞里起作用、在肌肉細胞里 “沉默” 的基因開關,或是優(yōu)化用于治療的核酸藥物。這能讓生物設計少走彎路,加速基因療法和生物制造的發(fā)展。

在藥物開發(fā)和精準醫(yī)療方面,能更準確判斷基因變異對疾病的影響,幫科學家從海量基因數(shù)據(jù)中快速找到關鍵靶點,縮短藥物研發(fā)時間。還能為個性化治療提供依據(jù),比如針對不同人的基因調控特點,設計專屬療法,不管是罕見病還是高血壓、癡呆癥這類復雜疾病,都能提升診斷和治療效率。

此外,YouTube 上還放出一支視頻,DeepMind 產(chǎn)品經(jīng)理 Dhavi Hariharan 與基因組學項目負責人、研究科學家 Ziga Avsec 以及 AlphaGenome 的參與者 Natasha Latysheva、Jun Cheng 和 Tom Ward 一起,分享了 AlphaGenome 背后的故事。

他們討論了為什么開發(fā) AlphaGenome、對模型進行了深度剖析,并分享了下一步計劃。


(來源:YouTube)

AlphaGenome 為何為“生命暗物質”而來?

Dhavi:為什么要構建 AlphaGenome?它如何契合團隊的整體使命?

Ziga:我們團隊的核心使命是構建一套能夠“破譯基因組序列”的 AI 系統(tǒng)?;蚪M(即 DNA)是進化歷程在數(shù)百萬年間、為數(shù)百萬個物種編寫的“源代碼”。它是生命的底層邏輯。破譯這一代碼將為人類健康及諸多領域帶來不可估量的益處。而衡量這一目標進展的關鍵指標,就是看我們能否準確預測 DNA 的微小變化(即突變)對讀取這些代碼的細胞分子機制產(chǎn)生何種影響。

Dhavi:為什么這種能幫助我們破譯基因組的 AI 如此重要?

Ziga:深入理解基因組對每個人的生活都有著深遠影響。目前,仍有很大一部分罕見遺傳病處于“無法診斷”的狀態(tài)。我們對基因組整體的認知其實非常匱乏,而 AI 正是讀取基因組、并對遺傳突變做出有意義預測的絕佳利器。在我看來,理解基因組并預測突變影響,是 AI 最具社會價值的應用之一。

這群研究者為何一頭扎進基因組?

Dhavi:你是如何對這個領域產(chǎn)生興趣的?

Jun:我從博士期間就開始研究遺傳突變預測,并一直深耕至今。加入 DeepMind 后,我主導了 AlphaMissense 項目,該方法主要預測編碼區(qū)(僅占基因組 2%)的遺傳效應。但剩下的 98% 呢?這正是我們今天推出 AlphaGenome 的原因——它聚焦于占據(jù)基因組絕大部分的非編碼區(qū),力求照亮這些未知的領域。

從感性層面來說,我投身生物學是因為高中時讀到的一本大學教科書,書中描述了生命中那些精妙、復雜且優(yōu)雅的分子機制,那份震撼讓我決定將其作為終身事業(yè)。Tom,你的經(jīng)歷是怎樣的?

Tom:身處這樣一支跨學科團隊感覺非常棒。對于非生物學背景的人來說,遺傳學是一個極具魅力的未知領域。能夠探究 DNA 中極其微小的變化如何在人類及其他物種中產(chǎn)生宏觀影響,這本身就令人神往。目前,尤其是機器學習與計算生物學的交叉領域,正處于爆發(fā)式增長期,這里充滿了無限可能。

Ziga:我還記得加入 DeepMind 之前,我研究過一個叫 VPNet 的小模型。以今天的標準來看,它很“迷你”:輸入 1,000 個 DNA 堿基對,預測極高分辨率的轉錄因子結合。當時我驚嘆于這種堿基級信息的豐富與精確,但它更像是對特定生命過程的“微距攝影”。

因此,加入 DeepMind 后,我渴望挑戰(zhàn)更復雜的生命過程。我們與 Calico 的 David Kelly 合作,挑戰(zhàn)了從 DNA 序列預測基因表達這一極難的課題。為了捕捉盡可能多的相關片段,我們必須顯著增加序列長度,但這又不得不犧牲掉 VPNet 引以為傲的高分辨率。在“序列長度”與“分辨率”之間,似乎永遠存在著一種不可兼得的權衡。

AlphaGenome 憑什么刷新行業(yè)天花板?

Dhavi:那么,AlphaGenome 試圖填補的行業(yè)空白是什么?

Ziga:此前已有一些序列到功能的模型,最接近的是我們團隊的 Enformer 和 Calico 的 Basenji。此外還有許多單任務模型,如預測剪接的 SpliceAI、預測染色體接觸圖的 Akita 等。

AlphaGenome 的突破在于,它在單一模型中集成了前所未有的多模態(tài)能力。它擁有兆堿基(Megabase)級的輸入長度,同時輸出單堿基分辨率的精準預測。這種多模態(tài)覆蓋、超長序列與精細輸出的結合,使其在變異效應預測和解讀方面異常強大。以前你可能需要多個模型才能完成的分析,現(xiàn)在只需這一個模型,就能從多個維度審視變異對分子生物學各層面的影響。

一頓午餐,竟解開了技術死結?

Dhavi:為什么“長上下文、高分辨率、多模態(tài)”同時實現(xiàn)如此困難?

Tom:這類模型的工作原理是輸入 DNA 片段并預測現(xiàn)實世界的實驗數(shù)據(jù)。當你追求更長范圍、更高分辨率且包含多種實驗模態(tài)時,會迅速觸及計算極限和海量的顯存占用。從工程角度來看,這極具挑戰(zhàn)性。在開發(fā) AlphaGenome 時,我們極其渴望打破這些權衡,將一切功能整合進同一個模型。

Dhavi:你們最終是如何攻克這個難題的?

Ziga:我們采用了序列切分技術,將長序列分成不同的子段,利用多個 TPU 并行處理。這種方法讓單個 TPU 的顯存壓力驟減。關鍵在于確保這些 TPU 之間依然能實時“對話”,讓序列開頭的 TPU 1 能與序列末尾的 TPU 保持通信。

我至今記得和同事 Guido 吃午飯時分享這個靈感的場景。午飯結束時,我們都不確定這是否可行。幾天后,他跑來告訴我:他用模擬數(shù)據(jù)跑通了一個原型,速度幾乎與我們以前的訓練循環(huán)一樣快,且能處理超長序列。那一刻我激動不已,因為我知道我們從理論上打破了長序列與分辨率之間的枷鎖。但在實踐中,距離真正的成功其實還有很長的路要走,對吧 Tom?

Tom:沒錯。搞定模型并行化后,下一個難關是海量訓練數(shù)據(jù)的吞吐。我們一度需要每秒加載 40-50 GB 的數(shù)據(jù)才能跟上訓練速度。我們有兩個核心發(fā)現(xiàn):首先,生物數(shù)據(jù)其實極度稀疏(某些模態(tài) 99% 都是零值),因此我們將精力集中在極致的數(shù)據(jù)壓縮與解壓技術上,從而打破了加載瓶頸。

其次,我們對訓練數(shù)據(jù)采取了“冷酷”的篩選標準,通過多輪質量檢查,確保數(shù)據(jù)要么具有極高質量,要么能增加模型的多樣性,從而提升泛化能力。搞定數(shù)據(jù)后,我們終于能高效迭代模型。在完善了 1D 軌跡預測后,我們轉向了更具挑戰(zhàn)性的 2D 數(shù)據(jù)——染色體接觸圖和 RNA 剪接。Jun,你在剪接方面投入了大量精力,那真是個棘手的問題。

Jun:是的,非常棘手。剪接(Splicing)是基因正確表達蛋白質的關鍵過程。遺傳信息在基因組上是非連續(xù)編碼的,必須通過剪接將這些信息拼接在一起。如果發(fā)生突變導致剪接缺陷,就會引發(fā)遺傳病。我博士期間做過類似研究,但模型效果遠不如現(xiàn)在。在 AlphaGenome 項目中,得益于卓越的團隊、Guido 和 Tom 的工程支持,我們終于集齊了所有技術拼圖。我們要預測的是極度稀疏的 2D 陣列而非 1D 軌跡,最終攻克它時我非常欣慰。這種能力在領域內是首創(chuàng)的。

Natasha:關于接觸圖(Contact Maps),它們是捕捉 DNA 區(qū)域間相互作用的 2D 矩陣?;蚪M在細胞核內折疊成復雜的三維形狀,這種物理距離的接近(如啟動子與增強子的互動)對基因調節(jié)至關重要。幸運的是,我們將這一 2D 模態(tài)成功引入了模型并實現(xiàn)了端到端訓練,且沒有犧牲其他模態(tài)的性能。

Ziga:事后看來,這符合邏輯:所有這些模態(tài)或測量手段,本質上都在觀察同一種底層的生命過程(如轉錄或剪接)。但看到模型能同時兼容 1D 和 2D 預測且性能互不干擾,依然令人欣喜。

從論文“巨著”到人人能用的工具

Dhavi:隨著新模態(tài)的加入,你們如何評估模型性能?

Natasha:我們的評估策略分為兩部分:第一是驗證模型在從未見過的 DNA 序列上的預測精度;第二,也是更具臨床意義的,是變異效應預測。即通過對比有突變和無突變的兩個序列,看模型能否重現(xiàn)下游的分子變化。雖然原理簡單,但技術上,11GB 的模型輸出讓評分變得極其緩慢。

Tom:沒錯。為了解決“評分慢”的問題,幾位工程師開發(fā)了一套變異評分 API,讓聚合計算直接在運行模型的同一設備上并行完成。這極大地提升了效率,讓我們能進行論文中呈現(xiàn)的大規(guī)模評估。

Natasha:我們盡可能全面地對模型進行了基準測試。早期我們面臨的問題是如何結構化這種海量任務的評估。我們再次采用了“并行化”策略:每個成員各領一個領域(如一兩個模態(tài)),獨立完成從數(shù)據(jù)提取到圖表生成的全流程。此外,我們也積極吸收了研究社區(qū)現(xiàn)有的基準。

Jun:只要條件允許,我們就會進行多層次驗證:從分子的實驗讀數(shù)到機體的患病風險。我們特別驚喜地發(fā)現(xiàn),在預測癌癥驅動突變方面,模型能非常出色地重現(xiàn)濕實驗的結果,將其從隨機對照中準確篩選出來。

Dhavi:評估完成后,就到了寫論文的階段。

Natasha:沒錯,那篇論文長得簡直像部小說(笑)。因為它涵蓋的范疇實在太廣了,我們希望給每個對比模型公正的評價,并深入挖掘每個模態(tài)。大家都很興奮,經(jīng)常看到一篇新論文或數(shù)據(jù)集就想往里加。但我認為,這種嚴謹讓論文變得更強大。

Dhavi:從最初的原型到論文發(fā)表,整個過程歷時多久?

Ziga:不到兩年。團隊成員曾擠在一間屋里,桌上擺滿了顯示器一起攻堅。那是段非常令人激動的時光,我為團隊能共同發(fā)布這個模型和 API 感到自豪。

Dhavi:在模型接近完工時,我們開始思考如何與社區(qū)共享。

Tom:我們對目前這套 API 非常滿意。我們希望外部用戶能以最簡單、最無門檻的方式使用它。現(xiàn)在,你只需打開一個 Notebook(代碼筆記本),就能在沒有 GPU、無需安裝復雜驅動的情況下進行預測并可視化結果。這種易用性非常強大。

Dhavi:Jun,你對這個工具的應用最期待什么?

Jun:兩點。第一,作為工具幫助科學家精準定位有害突變;第二,作為理解基礎生物學的利器。希望它能幫助科學家高效利用有限的資源和經(jīng)費,加速科研進程。

社區(qū)催更,AlphaGenome 下一步玩更大?

Dhavi:Ziga 和 Natasha,社區(qū)目前有哪些反饋?

Natasha:請求非常多。有人問能否做多堿基變異(如插入、缺失或大結構變異)。其實針對小型插入缺失(Indel)的功能我們已經(jīng)做了,只是在文檔中不夠突出。

Ziga:還有人想要模型嵌入(Embeddings)或進行私有數(shù)據(jù)微調。在數(shù)據(jù)方面,很多人希望支持更多物種(目前僅限人與小鼠)、更多細胞類型。這些需求對我們未來的迭代方向至關重要。

Dhavi:大家最關心的問題,下一步是什么?

Jun:由于 API 會輸出成千上萬個原始評分,這超出了人類的直觀閱讀能力。我們正研究如何將這些評分總結為每個變異一個單一評分,幫助科學家優(yōu)先篩選出最值得深入研究的變異。

Tom:我們還計劃支持全基因組關聯(lián)分析(GWAS)等超大規(guī)模研究。目前我們正考慮預計算盡可能多的變異數(shù)據(jù),方便用戶直接調用。

Natasha:我們還會發(fā)布模型權重!非常期待看到社區(qū)會用它進行怎樣的創(chuàng)新。

Ziga:回到團隊使命,我最期待的是利用最新的單細胞圖譜(Single Cell Atlases)。技術進步讓我們能不僅在組織層面,而是在組織內的個體細胞類型層面進行測量。如果將這些融入模型,我們將能更深入地研究與特定細胞類型病變相關的疾病。

1.https://www.youtube.com/watch?v=V8lhUqKqzUc

2.Avsec, ?., Latysheva, N., Cheng, J. et al. Advancing regulatory variant effect prediction with AlphaGenome. Nature 649, 1206–1218 (2026). https://doi.org/10.1038/s41586-025-10014-0

3.http://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
斷指乞討精神失常?甜甜圈現(xiàn)狀驚人:他用三年半,跌入美國斬殺線

斷指乞討精神失常?甜甜圈現(xiàn)狀驚人:他用三年半,跌入美國斬殺線

攬星辰入夢
2026-01-28 09:08:36
結婚23年她的內衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

結婚23年她的內衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

琨玉秋霜
2026-01-27 14:10:08
深圳水貝黃金爆雷上百億,可笑的是,他們現(xiàn)在怪“深圳不作為”

深圳水貝黃金爆雷上百億,可笑的是,他們現(xiàn)在怪“深圳不作為”

生活新鮮市
2026-01-29 07:30:08
黃金一度逼近5600美元!渣打:這遠非投機狂熱 短期上漲空間仍存

黃金一度逼近5600美元!渣打:這遠非投機狂熱 短期上漲空間仍存

財聯(lián)社
2026-01-29 11:13:30
柳州新人在酒店辦90桌婚宴,等了2.5小時菜沒上齊!親友氣到離席……

柳州新人在酒店辦90桌婚宴,等了2.5小時菜沒上齊!親友氣到離席……

環(huán)球網(wǎng)資訊
2026-01-29 16:45:10
丈夫把我辛苦賺的30萬獎金轉給他媽養(yǎng)老,我反手把他80萬豪車賣了

丈夫把我辛苦賺的30萬獎金轉給他媽養(yǎng)老,我反手把他80萬豪車賣了

紅豆講堂
2025-09-26 16:19:00
禁止女性上中學大學的阿富汗,會有朋友嗎?

禁止女性上中學大學的阿富汗,會有朋友嗎?

不主流講話
2026-01-28 23:22:44
世界黃金協(xié)會:經(jīng)濟和地緣政治不確定性幾無緩解跡象 黃金需求強勁勢頭有望延續(xù)

世界黃金協(xié)會:經(jīng)濟和地緣政治不確定性幾無緩解跡象 黃金需求強勁勢頭有望延續(xù)

財聯(lián)社
2026-01-29 14:10:21
為什么現(xiàn)在的成年人都沒有大人的感覺?評論區(qū)醍醐灌頂

為什么現(xiàn)在的成年人都沒有大人的感覺?評論區(qū)醍醐灌頂

夜深愛雜談
2026-01-29 17:54:39
致命48小時!戰(zhàn)爭,還是要來了!

致命48小時!戰(zhàn)爭,還是要來了!

大嘴說天下
2026-01-28 21:03:17
出大事了,轟炸機直逼東京,日本投票結果出來了,或迎首個核武器

出大事了,轟炸機直逼東京,日本投票結果出來了,或迎首個核武器

小舟談歷史
2025-12-21 07:19:54
36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
金價創(chuàng)新高!黃金變現(xiàn)業(yè)務爆了

金價創(chuàng)新高!黃金變現(xiàn)業(yè)務爆了

環(huán)球網(wǎng)資訊
2026-01-29 11:28:09
14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

離離言幾許
2026-01-26 16:15:54
英首相剛吃完飯,王毅在京接待另一位貴賓,北約:美國時代已結束

英首相剛吃完飯,王毅在京接待另一位貴賓,北約:美國時代已結束

影孖看世界
2026-01-29 17:09:09
2014年,黃海波剛走出收容所的大門,曲柵柵迎了上來

2014年,黃海波剛走出收容所的大門,曲柵柵迎了上來

忠于法紀
2026-01-20 18:30:40
江蘇將迎約80天“超短學期”

江蘇將迎約80天“超短學期”

魯中晨報
2026-01-29 13:43:03
女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

漢史趣聞
2025-11-08 09:27:32
俄偵查委員會:貝加爾湖翻車事故司機沒有駕照

俄偵查委員會:貝加爾湖翻車事故司機沒有駕照

新華社
2026-01-29 14:18:05
別去撩中年女人:她不是獵物,是你惹不起的人間清醒

別去撩中年女人:她不是獵物,是你惹不起的人間清醒

青蘋果sht
2026-01-13 03:43:56
2026-01-29 18:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16197文章數(shù) 514560關注度
往期回顧 全部

科技要聞

周亞輝的AI新賭局:國內太卷 出海另起爐灶

頭條要聞

在衡山丟失80克黃金吊墜男子已返鄉(xiāng) 警方證實接到報警

頭條要聞

在衡山丟失80克黃金吊墜男子已返鄉(xiāng) 警方證實接到報警

體育要聞

詹姆斯哭了!騎士視頻致敬41歲超巨

娛樂要聞

張譯不再隱瞞!公開回應退圈息影真相

財經(jīng)要聞

崔東樹:中國汽車未來年銷或達5000萬輛

汽車要聞

車長超5米還帶后輪轉向 比亞迪海豹08/海獅08將亮相

態(tài)度原創(chuàng)

本地
家居
手機
數(shù)碼
公開課

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

家居要聞

極簡輕奢 家的無限可能

手機要聞

iQOO 15 Ultra行業(yè)首發(fā)王者榮耀144幀+極致+地圖旗艦級畫質

數(shù)碼要聞

新勢力、顏值高、堆料猛!七彩虹X870E火神主板測評

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版