国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

Nature:AlphaGenome——多模態(tài)AI模型破譯基因組“暗物質”

0
分享至


導語

從 DNA 序列預測功能基因組學數(shù)據(jù)的深度學習模型,是解析遺傳(基因)調控密碼的強大工具?,F(xiàn)有方法需要在輸入序列長度與預測分辨率之間進行權衡,從而限制了其適用模態(tài)范圍和預測性能。這篇2026年1月發(fā)表于Nature的文章提出AlphaGenome—— 一種統(tǒng)一的 DNA 序列模型,它以 1?Mb 的 DNA 序列為輸入,可在單堿基分辨率水平預測數(shù)千條功能基因組學軌跡,覆蓋多種模態(tài)。這些模態(tài)包括:基因表達、轉錄起始、染色質可及性、組蛋白修飾、轉錄因子結合、染色質相互作用圖譜、剪接位點使用情況及剪接接點的坐標與強度。基于人類和小鼠基因組訓練的 AlphaGenome,在 26 項變異效應預測評估中,有 25 項達到或超過目前最先進的外部模型。該模型能夠同時精準評估所有模態(tài)下的變異效應,可準確復現(xiàn) TAL1 癌基因附近臨床相關變異的作用機制。為方便更廣泛的應用,我們提供了可從序列出發(fā)生成基因組軌跡及預測變異效應的工具套件。

關鍵詞:AlphaGenome,深度學習,功能基因組學,遺傳調控密碼(Genetic Regulatory Code),單堿基分辨率(Single-Base-Pair Resolution),多模態(tài),變異效應預測(Variant Effect Prediction),基因表達

魏云初丨作者

趙思怡丨審校


論文題目:Advancing regulatory variant effect prediction with AlphaGenome 論文鏈接:https://www.nature.com/articles/s41586-025-10014-0 發(fā)表時間:2026年1月28日 論文來源:Nature

基因調控的“圣杯”:從序列到功能的預測

自人類基因組計劃完成以來,一個核心的生物學挑戰(zhàn)始終存在:我們擁有了完整的DNA序列“天書”。超過98%的人類基因組是非編碼區(qū),它們如同基因世界的“暗物質”,復雜而難以解讀。近期,Google DeepMind團隊在Nature發(fā)表重磅研究,推出全新AI模型——AlphaGenome。它不僅能夠處理長達1 Mb的DNA序列,還能以單堿基分辨率,同時預測基因表達、剪接、染色質狀態(tài)等數(shù)千種功能圖譜,在絕大多數(shù)變異效應預測任務上達到目前最優(yōu)水平。這項技術或將為罕見病診斷、藥物靶點發(fā)現(xiàn)和合成生物學帶來新的可能。 近年來,深度學習為破解這一難題帶來曙光。"序列到功能"模型能夠從DNA序列直接預測染色質開放性、轉錄因子結合、基因表達量等多種分子表型。通過比較參考序列和變異序列的預測結果,這些模型就能推斷變異的分子效應。 然而,現(xiàn)有模型普遍面臨兩個難以調和的矛盾。首先是"長度"與"精度"的矛盾。像SpliceAI這類模型能以單堿基分辨率進行精準預測,但其關注的上下文窗口通常只有10 kb左右,容易遺漏遠端的調控元件。而Enformer、Borzoi等模型雖然能處理長達200-500 kb的序列,捕捉更廣闊的調控語境,輸出分辨率卻降低到32 bp或128 bp的區(qū)間,模糊了剪接位點等關鍵細節(jié)。其次是"廣度"與"深度"的矛盾。一些模型在各自擅長的單一領域表現(xiàn)出色,但無法提供變異影響的全面視圖;而現(xiàn)有的多模態(tài)模型雖然在通用性上更勝一籌,但在某些具體任務上又可能落后于專用模型。

AlphaGenome:統(tǒng)一框架下的“全能選手”

正是在這樣的背景下,Google DeepMind團隊推出了AlphaGenome,其核心設計理念可以概括為長序列、高精度和多模態(tài)三個關鍵詞,通過一個統(tǒng)一的框架來解決現(xiàn)有模型所面臨的矛盾。

我們可以把AlphaGenome理解成一個非常聰明的基因“偵探”,它解讀DNA長文的過程主要分三步:

第一步,輸入——閱讀長篇“基因小說”。DNA序列就像一本很長的書。過去的技術只能一次讀一個短句,很容易漏掉前后文的聯(lián)系。但AlphaGenome能一口氣讀完長達1百萬個字母的篇章。這個長度,足以覆蓋絕大部分基因調控的“遠距離對話”,為理解基因之間如何互相影響提供了充足的上下文。

第二步,模型結構——分工明確的“閱讀小組”。為了高效處理這本“長篇小說”,模型內部有一個巧妙的團隊分工:

  • 卷積層:像一位專注的“詞匯學家”,負責掃描文本,找出關鍵的“詞語”和“短語”,也就是像轉錄因子結合位點這樣的局部模式。

  • Transformer模塊:像一位宏觀的“劇作家”,負責理清前后章節(jié)的邏輯聯(lián)系,理解遠距離的“劇情”如何呼應。它擅長捕捉增強子如何遠程激活啟動子這類長程相互作用。

得益于底層的U型架構和并行計算策略,它在處理海量信息時,依然能精準到每一個“字母”(單堿基分辨率)。

第三步,輸出——預測11種不同的“閱讀筆記”。經過訓練,這個“閱讀小組”已經學習了人類和小鼠的數(shù)千個實驗數(shù)據(jù)。因此,它在讀完一段DNA序列后,能同時預測出11種不同的實驗結果,相當于一次性生成5,930種人類或1,128種小鼠的基因組圖譜。這些圖譜包括:基因的表達水平、RNA的剪接方式、染色質的開放狀態(tài),甚至是DNA在三維空間里的折疊方式。

簡單來說,AlphaGenome就是一個能從海量DNA序列中,一次性解讀出多層次生物信息的強大工具。

整個訓練過程分為兩個階段:先使用4折交叉驗證訓練出具有強泛化能力的“教師”模型,再通過“知識蒸餾”將這些教師模型的“知識”濃縮到一個高效的“學生”模型中。這個經過蒸餾的學生模型不僅性能更強、更魯棒,還能在一次計算中完成對所有模態(tài)和細胞類型的預測,極大地便利了大規(guī)模變異效應分析。


圖 1 AlphaGenome 整體架構示意,圖中展示了 DeepMind 新一代基因組預測模型的核心設計:以1 Mb DNA 序列為輸入,通過跨設備序列并行化與類 U-Net 編解碼架構(編碼器 + Transformer 塔 + 解碼器)高效捕捉長距離調控信息;輸出覆蓋11 類功能基因組學模態(tài),并根據(jù)任務特性提供從“單堿基(1 bp)到多尺度(128/2048 bp)”的精準分辨率。該架構首次實現(xiàn) “長序列輸入 — 精細分辨率輸出 — 多模態(tài)統(tǒng)一預測” 的協(xié)同,是功能基因組學領域的里程碑式突破。

性能驗證:全面超越,細節(jié)驚人

一個模型的設計再精巧,最終也要用性能說話。研究團隊設計了極其嚴苛的基準測試,將AlphaGenome與現(xiàn)有的頂尖模型進行了正面交鋒。

在基因組信號預測的多項測試中,AlphaGenome表現(xiàn)出了明顯優(yōu)勢:在24項評估任務中,它在22項上取得了最好成績。無論是預測基因表達,還是模擬染色質三維結構,抑或識別轉錄起始位點和染色質開放區(qū)域,它都優(yōu)于目前主流的模型。 AlphaGenome實現(xiàn)變異效應預測的范式突破,在25/26項任務中問鼎SOTA。 該模型的核心優(yōu)勢在于對基因調控“語法”的深度解碼能力。在剪接預測領域,它不再局限于定位剪接位點,而是能夠精準預測變異對剪接過程的影響,成功捕捉從外顯子跳躍到新剪接產物形成的完整致病鏈條。在基因表達調控上,它能以高達90%的準確率,判斷一個DNA變異究竟是“打開”還是“關閉”某個基因,并且其識別出的這類功能性變異的數(shù)量,是此前最佳模型的兩倍有余。這一能力對于解讀“致病基因在哪里”的全基因組關聯(lián)研究(GWAS)至關重要,因為它能為這些區(qū)域內的變異賦予一個明確的功能性方向。 模型在長程調控與機制可解釋性上也展現(xiàn)出卓越性能。 AlphaGenome在零樣本條件下,連接遠端“增強子”(相當于基因的遠程遙控器)與其目標基因的表現(xiàn),即可比肩專門為此訓練的模型,證明其真正習得了三維空間下的長程調控邏輯。此外,在預測影響DNA“開放程度”或調控蛋白結合的變異時,其預測結果與實驗觀測高度一致;通過計算機模擬變異,研究人員能清晰地看到,預測效應大的變異往往破壞了或創(chuàng)建了關鍵調控蛋白的結合密碼,這為預測結果提供了直接、可驗證的分子機制解釋。


圖 2 AlphaGenome在基因表達層面的變異效應預測能力示意。該圖聚焦eQTL預測核心場景,清晰呈現(xiàn)模型對eQTL效應大小與方向的精準預測結果,以及在GWAS可信區(qū)間解讀、增強子-基因連接預測中的落地應用。其完整覆蓋從eQTL分子機制分析到復雜疾病關聯(lián)研究的表達調控鏈條,直觀體現(xiàn)了模型從基礎科研到臨床相關應用的轉化價值。

不止于預測:多模態(tài)視角下的機制解讀

AlphaGenome真正的強大之處,在于它能用一個統(tǒng)一的視角,看清整個調控網絡的全貌。研究團隊用一個經典的癌癥案例驗證了這一點:在T細胞急性淋巴細胞白血病中,TAL1癌基因附近有三個不同位置的突變——有的在基因上游,有的在內部,有的在下游。它們位置迥異,卻都導致了同一個結果:TAL1基因被異?!凹せ睢绷恕?當團隊在相關細胞上運行AlphaGenome時,模型就像一臺“時間回溯相機”,完整還原了這起基因調控案的作案全過程: 對于上游的那個突變,模型“看到”原本沉睡的DNA區(qū)域突然亮起了“激活”的指示燈——染色質變得開放,增強子標記出現(xiàn),這意味著這里新生成了一個“遠程開關”。與此同時,TAL1基因本身的“活躍生產”標記顯著增強,而“靜默關閉”的抑制標記則隨之減弱。這些來自不同層面的變化,最終都匯聚到一個可觀測的結果上:TAL1基因的“產量”明顯增加了。 通過一次模型調用,AlphaGenome就提供了一條完整的證據(jù)鏈:它同時“觀測”了染色質狀態(tài)(DNA是封閉還是開放)、表觀修飾(哪些開關被按下),以及最終的基因表達(生產是否啟動),將三個位置迥異的突變如何通過不同路徑殊途同歸的過程,清晰地串聯(lián)了起來。后續(xù)的模擬分析進一步指出,那個上游突變很可能是在DNA上“畫”出了一個名為MYB的轉錄因子的“落腳點”,從而觸發(fā)了整個連鎖反應。


圖 3 AlphaGenome跨模態(tài)解讀TAL1癌基因變異效應示意。該圖聚焦T-ALL中TAL1癌基因激活場景,通過示意圖呈現(xiàn)三類非編碼突變位點分布,并以經典插入突變?yōu)槔敿氄故酒湓诙嗄B(tài)表觀修飾與表達水平上的REF-ALT變化。ISM分析揭示該突變引入MYB轉錄因子基序,多模態(tài)聚類熱圖進一步將致癌突變與對照突變在調控特征上明顯區(qū)分。通過整合多維度調控信號,該圖直觀揭示了非編碼突變驅動TAL1異常表達的分子機制,是本研究跨模態(tài)解讀能力的核心示例。

探索模型設計的“黑箱”:關鍵要素的消融研究

一個復雜的深度學習模型就像一個黑盒,其卓越性能究竟來源于哪些設計?研究團隊通過一系列的“消融實驗”來探究這個問題。

  • 分辨率是關鍵:對于剪接、ATAC-seq這類需要精細定位的任務,1 bp的分辨率是不可或缺的。降低分辨率會直接導致性能下降。而對于染色質接觸圖譜或組蛋白修飾這類本身信號就較粗糙的任務,對分辨率的敏感度則較低。

  • 長序列訓練至關重要:在1 Mb全長上訓練的模型,即使只在較短的序列上進行推斷,其表現(xiàn)也優(yōu)于或相當于那些用短序列訓練和評估的模型。這表明,在訓練階段接觸長序列上下文,能讓模型學習到更普適的調控語法。

  • 蒸餾技術的價值:蒸餾技術能將多個“教師”模型的知識濃縮進一個“學生”模型中,使其性能接近甚至超過簡單的模型集成,但計算成本卻大大降低,是實現(xiàn)高效大規(guī)模應用的關鍵。

  • 多模態(tài)學習的協(xié)同效應:雖然在單一任務(如預測可及性變異)上,僅用可及性數(shù)據(jù)訓練的模型表現(xiàn)不錯,但一個整合了所有模態(tài)的完全多模態(tài)模型,在絕大多數(shù)任務,特別是像eQTL預測這樣需要綜合多種調控線索的復雜任務上,表現(xiàn)更佳。這說明不同模態(tài)的數(shù)據(jù)之間存在協(xié)同效應,共同促進了模型對調控語言更深層次的理解。


圖7 AlphaGenome消融實驗結果總覽。圖中展示了模型核心設計要素的性能影響,系統(tǒng)呈現(xiàn)目標分辨率、序列長度、集成與蒸餾、多模態(tài)學習四大維度的實驗數(shù)據(jù),直觀揭示各設計要素對基因組軌跡預測、變異效應預測性能的作用規(guī)律。通過量化分析明確關鍵優(yōu)化方向,是解讀模型性能優(yōu)勢來源的核心可視化支撐。

結論與展望:通往可編程基因組的新工具

AlphaGenome的出現(xiàn),標志著我們向真正“讀懂”基因組邁出了堅實的一步。它提供了一個強大的統(tǒng)一框架,能夠從序列出發(fā),以前所未有的廣度、深度和精度預測基因組的多樣功能,并在解讀致病性非編碼變異方面展現(xiàn)出了巨大的潛力。

當然,它并非終點。研究團隊也坦誠地指出了當前模型的局限性,例如對超遠端(>100 kb)調控的捕捉仍有提升空間,對非編碼基因的覆蓋不足,以及對個人基因組變異的預測仍是挑戰(zhàn)。未來的發(fā)展方向可能包括:整合更多樣的物種和單細胞數(shù)據(jù),融入DNA語言模型,以及開發(fā)更完善的偏差校正方法。

盡管如此,AlphaGenome作為一款基礎性工具,其應用前景依然廣闊。在基礎生物學研究中,它可以作為計算機模擬實驗的引擎,快速生成假設,指導濕實驗的驗證。在罕見病診斷中,它的預測可以為那些意義不明的非編碼變異提供關鍵的功能證據(jù)。在生物技術領域,它有望用于理性設計具有特定功能的合成序列,如組織特異性增強子或治療性反義寡核苷酸。

正如研究團隊所言,AlphaGenome向著“破譯DNA序列中編碼的復雜細胞過程”這一宏大目標,提供了一個強大的新起點。它不僅是一個預測工具,更是一個幫助我們理解生命之書的新透鏡。

生命復雜性讀書會:

生命復雜系統(tǒng)的構成原理

在生物學中心法則的起點,基因作為生命復雜系統(tǒng)的遺傳信息載體,在生命周期內穩(wěn)定存在;而位于中心法則末端的蛋白質,其組織構成和時空變化的復雜性呈指數(shù)式增長。隨著分子生物學數(shù)十年來的突飛猛進,尤其是生命組學(基因組學、轉錄組學、蛋白質組學和代謝組學等的集合)等領域的日新月異,當代生命科學臨近爆發(fā)的邊緣。如此海量的數(shù)據(jù)如何幫助我們揭示宇宙中最復雜的物質系統(tǒng)——“人體”的構成原理和設計原理?闡釋人類發(fā)育、衰老和重大疾病的發(fā)生機制?

集智俱樂部聯(lián)合西湖大學理學院及交叉科學中心講席教授湯雷翰,國家蛋白質科學中心(北京)副研究員常乘、李楊,香港浸會大學助理教授唐乾元,北京大學前沿交叉學科研究院研究員林一瀚,中國科學院分子細胞科學卓越創(chuàng)新中心博士后唐詩婕,共同發(fā)起,從微觀細胞尺度、介觀組織器官尺度到宏觀人體尺度,梳理生命科學領域中的重要問題及重要數(shù)據(jù),由生物學家提問,希望促進統(tǒng)計物理、機器學習方法研究者和生命科學研究者之間的深度交流,建立跨學科合作關系,激發(fā)新的研究思路和合作項目。讀書會目前共進行10期,現(xiàn)在報名參與讀書會可以加入讀書會社群,觀看視頻回放,解鎖完整讀書會權限。

詳情請見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬扎爾要改憲法:總理最多任職兩屆,歐爾班這次可能真回不來了

馬扎爾要改憲法:總理最多任職兩屆,歐爾班這次可能真回不來了

桂系007
2026-04-13 21:48:35
允許以色列這個法西斯國家為所欲為,是人類最大的恥辱。

允許以色列這個法西斯國家為所欲為,是人類最大的恥辱。

小馬姨
2026-04-14 09:10:38
1982年戴安娜艱難生下威廉,女王先看耳朵,一句評論讓查爾斯心塞

1982年戴安娜艱難生下威廉,女王先看耳朵,一句評論讓查爾斯心塞

鶴羽說個事
2026-03-26 22:32:10
王楚欽突然進醫(yī)院!就醫(yī)原因曝光,奪冠后一個細節(jié)引發(fā)關注

王楚欽突然進醫(yī)院!就醫(yī)原因曝光,奪冠后一個細節(jié)引發(fā)關注

冷紫葉
2026-04-13 16:09:11
日網瘋傳“日本買石油,用人民幣結算”,網民反應太好玩

日網瘋傳“日本買石油,用人民幣結算”,網民反應太好玩

這里是東京
2026-04-13 19:13:51
個人PC已死!AI讓普通人徹底買不起電腦

個人PC已死!AI讓普通人徹底買不起電腦

快科技
2026-04-13 18:35:05
這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當代女星

這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當代女星

阿廢冷眼觀察所
2026-04-11 18:41:14
知名國企集團,六個月沒發(fā)工資了

知名國企集團,六個月沒發(fā)工資了

新浪財經
2026-04-13 04:16:19
文班亞馬現(xiàn)在恐怕腸子都要悔青了!

文班亞馬現(xiàn)在恐怕腸子都要悔青了!

君子一劍似水流年
2026-04-14 07:18:09
不宣而戰(zhàn),以色列深夜開火,特朗普宣布3個新決定,伊朗要小心了

不宣而戰(zhàn),以色列深夜開火,特朗普宣布3個新決定,伊朗要小心了

安珈使者啊
2026-04-14 12:04:40
釋永信怎么也沒想到,當年舉報自己的徒弟釋延魯,如今年收入過億

釋永信怎么也沒想到,當年舉報自己的徒弟釋延魯,如今年收入過億

流云隨風去遠方
2026-04-14 04:39:17
美伊下一輪談判或于16日在伊斯蘭堡舉行

美伊下一輪談判或于16日在伊斯蘭堡舉行

財聯(lián)社
2026-04-14 03:06:04
柏林聯(lián)合新任女主帥埃塔遭性別歧視言論,俱樂部官方下場回擊

柏林聯(lián)合新任女主帥埃塔遭性別歧視言論,俱樂部官方下場回擊

懂球帝
2026-04-14 07:47:05
雷軍全程陪同西班牙首相桑切斯訪問小米!在股價跌去四成后,小米正從谷底慢慢走出來

雷軍全程陪同西班牙首相桑切斯訪問小米!在股價跌去四成后,小米正從谷底慢慢走出來

大白聊IT
2026-04-14 10:52:34
成都航空回應六旬男子術后登機飛機上身亡

成都航空回應六旬男子術后登機飛機上身亡

界面新聞
2026-04-13 18:35:04
打破越南歷史慣例,蘇林時代權力格局已定,對中國意味著什么?

打破越南歷史慣例,蘇林時代權力格局已定,對中國意味著什么?

湘評中外
2026-04-10 17:16:52
從NASA阿爾忒彌斯2號載人繞月,看中美航天差距有多大?

從NASA阿爾忒彌斯2號載人繞月,看中美航天差距有多大?

DeepAuto車探
2026-04-13 19:40:52
其實明眼人都知道張敬軒四十五歲突然道歉

其實明眼人都知道張敬軒四十五歲突然道歉

果媽聊娛樂
2026-04-14 11:34:30
以軍稱一名士兵在黎巴嫩身亡

以軍稱一名士兵在黎巴嫩身亡

新華社
2026-04-14 11:48:15
同事借我車去青海,我提前把ETC卡拔了,2小時后他從收費站來電了

同事借我車去青海,我提前把ETC卡拔了,2小時后他從收費站來電了

張道陵秘話
2026-04-11 16:37:21
2026-04-14 12:39:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5761文章數(shù) 4667關注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

41歲演員文章在上海開面館 代排隊價格被炒到500元

頭條要聞

41歲演員文章在上海開面館 代排隊價格被炒到500元

體育要聞

他做對了所有事,卻被整個職業(yè)網壇放逐了八年

娛樂要聞

宋祖兒劉宇寧戀情大反轉 正主火速辟謠

財經要聞

許家印受審當庭表示認罪悔罪

汽車要聞

長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

態(tài)度原創(chuàng)

健康
家居
教育
手機
軍事航空

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

復古風格 自然簡約

教育要聞

“父親的心已經死了!”10后女孩職高報到,父親用沉默詮釋了心死

手機要聞

2026一季度手機銷量報告出爐,OPPO位列前三

軍事要聞

特朗普:今晚10點封鎖伊朗 對北約非常失望

無障礙瀏覽 進入關懷版