Cell：AI模擬細(xì)胞——讓活細(xì)胞在大數(shù)據(jù)中自發(fā)涌現(xiàn)

2026-01-31 11:41:44　來源: 集智俱樂部

北京舉報

分享至

導(dǎo)語

“我們能在計算機(jī)里構(gòu)建一個細(xì)胞嗎？” 這一根本性問題，正隨著人工智能和組學(xué)技術(shù)的進(jìn)步而迎來突破性機(jī)遇。最近，權(quán)威期刊Cell發(fā)表了一篇重磅綜述，深入探討了 “人工智能虛擬細(xì)胞”（AI Virtual Cell, AIVC）這一前沿概念。這篇文章匯集了AI與生命科學(xué)領(lǐng)域的頂尖智慧。作者團(tuán)隊陣容非常強(qiáng)大，橫跨學(xué)術(shù)界（如斯坦福、哈佛、科技巨頭（如谷歌研究院、微軟研究院）和生物技術(shù)行業(yè)（如基因泰克），并由陳-扎克伯格計劃 (CZI)的研究者聯(lián)合推動，共同為構(gòu)建“AI虛擬細(xì)胞”繪制藍(lán)圖。本文是對該綜述的翻譯。

集智俱樂部聯(lián)合李輝、王維康、韋曉慧三位學(xué)者及王艷博士共同發(fā)起，并沿兩條主線展開：一是探討細(xì)胞命運、多穩(wěn)態(tài)等理論核心；二是結(jié)合單細(xì)胞測序、時序推斷等方法，學(xué)習(xí)如何將靜態(tài)數(shù)據(jù)轉(zhuǎn)化為動態(tài)模型。讀書會將于2026年2月6日正式開始，歡迎加入社群交流。

關(guān)鍵詞：細(xì)胞生物學(xué)、人工智能、機(jī)器學(xué)習(xí)、虛擬細(xì)胞

王昊丨作者

周莉｜審校

論文題目：How to build the virtual cell with artificial intelligence: Priorities and opportunities 論文鏈接：https://www.cell.com/cell/fulltext/S0092-8674(24)01332-1 論文來源：Cell

摘要
引言
建立AIVC所面臨的重大挑戰(zhàn)
AIVCs的關(guān)鍵能力
構(gòu)建AIVC的方法
構(gòu)建AIVC的數(shù)據(jù)需求和要求
AIVC的模型評估和可解釋性
前景展望

細(xì)胞對于理解健康和疾病至關(guān)重要，但其作為生命最基本功能單位的復(fù)雜性，讓傳統(tǒng)建模方法在模擬其功能與行為時顯得力不從心。如今，我們有機(jī)會創(chuàng)建一個人工智能虛擬細(xì)胞（AIVC）——一個基于大型神經(jīng)網(wǎng)絡(luò)的多尺度、多模態(tài)模型 (a multi-scale, multi-modal large-neural-network-based model)，能夠表征和模擬分子、細(xì)胞乃至組織在不同狀態(tài)下的行為。這種AIVC不僅是一種新的建模工具，更是一種全新的科學(xué)范式。

通過實現(xiàn)高保真度的仿真，AIVC有望讓科學(xué)家在虛擬空間進(jìn)行復(fù)雜的“計算機(jī)實驗” (in silico experimentation)，成為理解疾病發(fā)生、藥物反應(yīng)和細(xì)胞工程的強(qiáng)大工具，甚至將細(xì)胞重新定義為一種信息處理系統(tǒng)。然而，構(gòu)建AIVC是一項巨大的挑戰(zhàn)，需要整合跨尺度、跨物種的多樣化數(shù)據(jù)，并建立一個開放協(xié)作的科學(xué)共同體。如同歷史上的“基因組計劃” (human genome project) 一樣，AIVC的提出標(biāo)志著一個重要的歷史關(guān)口，它不僅是一個學(xué)術(shù)愿景，更是一種面向未來的科學(xué)基礎(chǔ)設(shè)施。

展望未來，虛擬細(xì)胞平臺或許會像顯微鏡一樣普及，幫助科學(xué)家高效地驗證假設(shè)、設(shè)計實驗。這篇綜述所描繪的，正是一幅關(guān)于未來生物學(xué)研究如何被深刻重塑的宣言。其最終目標(biāo)并非替代自然，而是為了與生命世界展開更科學(xué)、高效的對話。

1. 背景

細(xì)胞，作為生命的基本單位，是一個極其復(fù)雜的實體，其性質(zhì)和行為挑戰(zhàn)著物理和計算建模的極限。每個細(xì)胞都是一個動態(tài)的適應(yīng)性系統(tǒng)，其復(fù)雜的行為從無數(shù)分子相互作用中涌現(xiàn)出來。某些方面對擾動具有顯著的魯棒性，比如基因的缺失或用來自不同物種的同源基因替換。而其他方面則對看似微小的干擾都很敏感，比如點突變或外部因子，這些都可能使細(xì)胞陷入功能失調(diào)和疾病狀態(tài)。

為了理解細(xì)胞的功能，科學(xué)家們試圖構(gòu)建虛擬細(xì)胞模型（virtual cell models），以模擬、預(yù)測和調(diào)控細(xì)胞行為 [1–6]?，F(xiàn)有的細(xì)胞模型通常基于規(guī)則（rule-based），將對潛在生物機(jī)制的假設(shè)與從觀測數(shù)據(jù)中擬合的參數(shù)相結(jié)合。這些模型往往依賴于明確定義的數(shù)學(xué)或計算方法，例如微分方程 [7–9]、隨機(jī)模擬 [10,11] 或基于智能體的模型 [12,13]。它們在復(fù)雜性上存在差異，涵蓋細(xì)胞生物學(xué)中多個明確的研究方向，如轉(zhuǎn)錄與翻譯 [14]、細(xì)胞骨架驅(qū)動的細(xì)胞行為 [15,16]、生化網(wǎng)絡(luò) [17] 以及代謝通量 [18,19]。首個全細(xì)胞模型于 2012 年開發(fā)，其代表了生殖支原體（Mycobacterium genitalium）這一生物體中已知的全部 482 個基因及分子功能 [8]。自這項開創(chuàng)性工作以來，研究者們已開發(fā)出全基因組模型，用以代表包括大腸桿菌在內(nèi)的其他細(xì)菌生物體 [8,20–22]。

盡管這些方法在生物系統(tǒng)建模中廣泛應(yīng)用，但迄今為止的方法都無法充分捕捉細(xì)菌和更復(fù)雜系統(tǒng)（如人類細(xì)胞）運行的許多方面。這些挑戰(zhàn)共同構(gòu)成了構(gòu)建虛擬細(xì)胞的重大障礙，體現(xiàn)在多個層面。首先，在多尺度建模 (Multi-scale modeling）方面，細(xì)胞在時間和空間上跨越從原子、分子到細(xì)胞和組織的多個尺度運行，其功能特性通過尺度間的非線性轉(zhuǎn)換而產(chǎn)生。其次，細(xì)胞功能包含眾多相互作用且多樣化的過程 (Diverse processes with massive numbers of interacting components)，如基因調(diào)控、代謝和信號轉(zhuǎn)導(dǎo)（transduction），每個過程都涉及大量處于動態(tài)構(gòu)型中的生物分子種類。最后，大多數(shù)細(xì)胞過程表現(xiàn)出高度的非線性動力學(xué) (Nonlinear dynamics)，輸入的微小變化可能導(dǎo)致輸出的復(fù)雜變化，這進(jìn)一步增加了建模的難度。

科學(xué)技術(shù)中的兩次激動人心的革命——人工智能革命和組學(xué)革命——使得直接從數(shù)據(jù)中學(xué)習(xí)構(gòu)建細(xì)胞模型成為可能。這兩次并行的革命為一個雄心勃勃的愿景提供了前所未有的機(jī)遇，即構(gòu)建 AI 虛擬細(xì)胞 (AIVC)，這是一個基于大型神經(jīng)網(wǎng)絡(luò)的多尺度、多模態(tài)模型，能夠表征和模擬分子、細(xì)胞和組織在不同狀態(tài)下的行為（圖 1）。

在實驗方面，測量技術(shù)通量的指數(shù)級增長使得在不同細(xì)胞和組織系統(tǒng)內(nèi)部及之間收集了大量且不斷增長的參考數(shù)據(jù)集 [23–25]，在過去幾年中數(shù)據(jù)每 6 個月翻一番 [26]，同時這些測量還能與系統(tǒng)性擾動相結(jié)合[27–29]。在計算方面，人工智能技術(shù)的快速發(fā)展增強(qiáng)了我們直接從數(shù)據(jù)中學(xué)習(xí)模式和過程的能力，而無需明確的規(guī)則或人工標(biāo)注 [30,31]。這種建模范式已在生物分子領(lǐng)域得到成功應(yīng)用，例如，從序列預(yù)測三維 (3D) 分子結(jié)構(gòu)[32–34] 以及不同分子組分之間的相互作用 [35–38]。其中，Google DeepMind 的 AlphaFold 在該領(lǐng)域取得了突破性進(jìn)展。人工智能領(lǐng)域最新的建模方法提供了表征和推理工具，滿足了預(yù)測性 (predictive)、生成性 (generative) 和可查詢性 (queryable）這三個關(guān)鍵特性，這些都是推進(jìn)生物學(xué)研究和理解的關(guān)鍵功能。

基于這些特性，我們認(rèn)為現(xiàn)在已經(jīng)具備了開發(fā)完全數(shù)據(jù)驅(qū)動的基于神經(jīng)網(wǎng)絡(luò)的 AIVC 表征的方法，這可以通過實現(xiàn)快節(jié)奏的計算機(jī)模擬研究以及在計算方法和驗證性濕實驗室實驗之間建立強(qiáng)大橋梁來加速生物醫(yī)學(xué)研究（圖 1）。

圖 1. AIVC 的能力

(A) AIVC 提供了一種通用表示 (universal representation, UR)，可以跨物種和條件獲得細(xì)胞狀態(tài)，并可從跨尺度 (分子、細(xì)胞和多細(xì)胞) 的不同數(shù)據(jù)模態(tài)中生成。

(B) AIVC 具備表示和預(yù)測細(xì)胞生物學(xué)特性的能力。這種通用性使該表示能夠作為參考基準(zhǔn)，泛化到此前未觀察到的細(xì)胞狀態(tài)，為未來的數(shù)據(jù)生成提供指導(dǎo)。由于該表示在不同模態(tài)間共享，其生成不受特定數(shù)據(jù)類型的限制，可作為跨模態(tài)統(tǒng)一分析的虛擬表示。AIVC 還能夠?qū)?xì)胞在不同狀態(tài)間轉(zhuǎn)換的動力學(xué)過程進(jìn)行建模，無論是分化等自然過程、遺傳變異導(dǎo)致的轉(zhuǎn)換，還是通過工程擾動人為引發(fā)的轉(zhuǎn)換。因此，AIVC 能夠?qū)崿F(xiàn)計算機(jī)模擬實驗，而這類實驗在實驗室中可能成本過高或根本無法開展。

（C）AI虛擬細(xì)胞（AIVC）的最終價值，取決于其在不同層面與人類的有效互動。對于個體科學(xué)家而言，其潛力必須通過開放的許可證和普惠的計算資源來充分釋放，確保廣泛的可及性。同時，可以借助語言模型等中介層來增強(qiáng)其可解釋性，讓虛擬細(xì)胞能清晰地傳達(dá)其復(fù)雜的分析結(jié)果。在更廣泛的科學(xué)界層面，對AIVC的評估不應(yīng)局限于狹隘的基準(zhǔn)測試，而應(yīng)聚焦于其核心能力的驗證。一個開放、活躍的社區(qū)生態(tài)對于模型的持續(xù)迭代、改進(jìn)和保持開放性至關(guān)重要。最終，在社會層面，AIVC必須將數(shù)據(jù)隱私和安全作為基石，通過強(qiáng)大的隱私保護(hù)措施來守護(hù)敏感信息，從而建立公眾信任。

2. 建立AIVC所面臨的重大挑戰(zhàn)

概述能力并設(shè)計評估框架

生物學(xué)領(lǐng)域中數(shù)量激增的基礎(chǔ)模型 (foundation models) 執(zhí)行著本文所概述的虛擬細(xì)胞能力的一個子集。鑒于這些方法的多樣性，定義 AIVC 的核心能力應(yīng)該是什么以及如何評估這些能力變得非常重要。對于每一種能力，都必須設(shè)計適當(dāng)?shù)闹笜?biāo)，并收集全面的評估數(shù)據(jù)。模型的能力應(yīng)該在一般性能以及回答特定生物學(xué)問題的能力方面進(jìn)行評估。持續(xù)改進(jìn)基準(zhǔn)測試策略與 AIVC 模型同步發(fā)展，并確保它們與生物學(xué)上有意義的目標(biāo)保持一致，這一點至關(guān)重要。隨著該領(lǐng)域在這些問題上達(dá)成更好的共識，合作機(jī)會將會出現(xiàn)，生成虛擬細(xì)胞的速度也將加快。

在不同架構(gòu)的變化情境中建立自一致性

生物學(xué)極其復(fù)雜：它在不同尺度、不同環(huán)境中運作，并通過不同模式進(jìn)行測量。AIVC 模型必須在所有這些維度上保持自洽性 (self-consistent) 。具體來說，這種自洽性體現(xiàn)在兩個層面：跨物理尺度的一致性：模型的功能必須能在不同物理尺度間貫穿體現(xiàn)。例如，分子間的相互作用，無論是在測量其結(jié)合親和力 (binding affinity)，還是在觀察其對基因表達(dá)、細(xì)胞間通訊或組織結(jié)構(gòu)的影響時，都應(yīng)產(chǎn)生邏輯一致且相互吻合的效應(yīng)。以及跨數(shù)據(jù)模式的一致性：模型的預(yù)測結(jié)果應(yīng)當(dāng)獨立于其輸入和輸出的數(shù)據(jù)模式。這意味著，同一個生物實體，即使用不同的技術(shù)進(jìn)行分析，在AIVC中也應(yīng)被賦予統(tǒng)一的內(nèi)部表征。

平衡可解釋性和生物學(xué)效用

深度學(xué)習(xí)方法在生物學(xué)中應(yīng)用的一個一致趨勢是，在大型基礎(chǔ)模型興起的推動下，模型性能提升與其日益不可解釋的 “黑盒” 特性之間存在隱性權(quán)衡。AIVC 模型最終將根據(jù)其擴(kuò)展我們對生物學(xué)理解的能力來評判，無論是通過為生物過程提供新穎見解，還是通過加速科學(xué)研究過程。

為實現(xiàn)這一目標(biāo)，AIVC 模型必須做出高度準(zhǔn)確且校準(zhǔn)良好的預(yù)測來模擬生物學(xué)，并且必須平衡可操作性與可解釋性之間的權(quán)衡?？刹僮鞯哪Ｐ洼敵鍪悄切υO(shè)計經(jīng)濟(jì)高效的驗證實驗具有高效用的輸出，是初期實際應(yīng)用的關(guān)鍵。解釋模型預(yù)測存在多種方法，包括因果建模、稀疏特征化和反事實推理，這是一個高度活躍的研究領(lǐng)域。構(gòu)建直觀的界面，通過其他模型（如 AI 研究智能體）促進(jìn) AIVC 的研究和解釋，將進(jìn)一步提高下游效用。

構(gòu)建協(xié)作細(xì)胞建?？蚣?/strong>

AIVC 的成功開發(fā)需要跨學(xué)科合作。為此，我們展望未來的 AIVC 平臺將發(fā)展成為一個開放、互聯(lián)的綜合性樞紐。一方面，它將作為科研中心，支持研究人員協(xié)作開發(fā)細(xì)胞模型并進(jìn)行廣泛部署；另一方面，它也將承擔(dān)教育使命，為科研人員提供專業(yè)培訓(xùn)，并為教育工作者、患者及社會公眾設(shè)計豐富的參與活動。因此，投資于促進(jìn) AIVC 開放協(xié)作開發(fā)的基礎(chǔ)設(shè)施應(yīng)當(dāng)是高優(yōu)先級事項。

確保 AIVC 使所有人受益并促進(jìn)道德和負(fù)責(zé)任的使用

確保 AIVC 的開發(fā)和應(yīng)用符合倫理標(biāo)準(zhǔn)，促進(jìn)其負(fù)責(zé)任的使用至關(guān)重要。這包括制定明確的政策和指導(dǎo)方針，以確保所有相關(guān)方都能在透明和公正的環(huán)境中參與 AIVC 的研究和應(yīng)用。此外，必須加強(qiáng)對 AIVC 技術(shù)的監(jiān)管，以防止?jié)撛诘臑E用和不當(dāng)使用，確保其在科學(xué)研究和社會應(yīng)用中的正當(dāng)性和有效性。

生成反映人類多樣性的大型開放數(shù)據(jù)集

生成反映人類多樣性的大型開放數(shù)據(jù)集是訓(xùn)練 AIVC 模型不可或缺的，這也構(gòu)成了一項重大挑戰(zhàn)。開發(fā)者在構(gòu)建AIVC時必須極其謹(jǐn)慎地確保這些數(shù)據(jù)集得到道德和透明的使用，并制定策略來降低模型被虛假數(shù)據(jù)污染的風(fēng)險。從一開始就與倫理和監(jiān)管專家密切合作，對于建立新的監(jiān)管規(guī)范以促進(jìn) AIVC 的負(fù)責(zé)任使用至關(guān)重要。

了解不同數(shù)據(jù)類型的價值以優(yōu)先考慮大規(guī)模數(shù)據(jù)生成

人工智能虛擬細(xì)胞協(xié)作開發(fā)的一個基本問題是應(yīng)該收集哪些數(shù)據(jù)和模態(tài)，以實現(xiàn)跨生物學(xué)背景和尺度的泛化。這些數(shù)據(jù)需要涵蓋不同物種、領(lǐng)域和模態(tài)的生物學(xué)廣度，代表生命的異質(zhì)性，同時保持足夠的深度以區(qū)分真實信號和噪聲。數(shù)據(jù)生成的一個關(guān)鍵方面是同時測量時間和物理尺度，同時允許對系統(tǒng)進(jìn)行擾動。

3. AIVCs的關(guān)鍵能力

我們對AIVC的構(gòu)想是，它是一個能夠?qū)W習(xí)并模擬細(xì)胞及細(xì)胞系統(tǒng)在多變條件與情境下行為的模擬器 (learned simulator) 。這些情境包括分化狀態(tài)、擾動、疾病狀態(tài)、隨機(jī)波動和環(huán)境條件（圖 1）。它必須能夠跨越不同的生物學(xué)尺度、時間維度和數(shù)據(jù)模式進(jìn)行工作，并最終幫助揭示細(xì)胞系統(tǒng)的“編程語言”，同時為工程化應(yīng)用提供一個可操作的接口。

具體而言，一個理想的AIVC需具備以下三項核心能力，以賦能研究人員：

(1) 創(chuàng)建通用表示 (Universal Representation, UR)：能夠跨越物種、數(shù)據(jù)模式、數(shù)據(jù)集和具體情境（包括細(xì)胞類型、發(fā)育階段和外部條件），建立生物狀態(tài)的通用表示。

(2) 預(yù)測功能與機(jī)制：能夠預(yù)測細(xì)胞的功能、行為和動態(tài)變化，并揭示其背后的潛在機(jī)制。

(3) 執(zhí)行計算機(jī)模擬實驗 (In silico experiments)：能夠通過模擬實驗來生成和檢驗新的科學(xué)假設(shè)，并指導(dǎo)后續(xù)的數(shù)據(jù)收集，從而高效地擴(kuò)展虛擬細(xì)胞自身的能力。

接下來，我們將對這些關(guān)鍵能力進(jìn)行詳細(xì)闡述。

通用表示 (Universal representation, UR)

AIVC 將生物數(shù)據(jù)映射到通用表征空間 (UR spaces)（圖 1A），這不僅有助于洞察不同生物狀態(tài)間的共享特征，還能作為一個全面的參照基準(zhǔn) 。這些 UR 應(yīng)能整合分子、細(xì)胞和多細(xì)胞這三個物理尺度，并容納來自任何相關(guān)數(shù)據(jù)模式和背景的信息。這種整合能力使研究人員可以在 AIVC 框架內(nèi)，利用其豐富的存量生物學(xué)知識來補充新數(shù)據(jù)，從而彌合不同數(shù)據(jù)集之間的鴻溝。至關(guān)重要的是，這種多層次的表示應(yīng)能泛化 (generalize) 到訓(xùn)練數(shù)據(jù)中未曾出現(xiàn)過的新狀態(tài)。這種涌現(xiàn)能力 (emergent capability) 將解鎖對全新生物學(xué)狀態(tài)的發(fā)現(xiàn)，這些狀態(tài)可能從未被直接觀察到，甚至在自然界中本不存在。例如，AIVC 通過學(xué)習(xí)巨噬細(xì)胞的炎癥狀態(tài)，或許能預(yù)測出小膠質(zhì)細(xì)胞中一種前所未知的炎癥狀態(tài)。此外，AIVC 還應(yīng)能預(yù)測由干預(yù)措施（或為達(dá)到特定狀態(tài)所需的干預(yù)措施）所產(chǎn)生的新狀態(tài)，這將為細(xì)胞工程和合成生物學(xué)領(lǐng)域的下游應(yīng)用提供廣闊的可能性。

預(yù)測細(xì)胞行為和理解機(jī)制 (Predicting cell behavior and understanding mechanisms)

AIVC的一項決定性功能 (defining function) 是其建模細(xì)胞響應(yīng)和動力學(xué)的能力。通過在覆蓋不同情境和尺度的大量快照式、時間分辨、干預(yù)性和非干預(yù)性數(shù)據(jù)集上進(jìn)行訓(xùn)練，AIVC 可以深入理解在自然或工程信號（如化學(xué)、遺傳擾動及其組合）驅(qū)動下發(fā)生的分子、細(xì)胞和組織層面的動力學(xué)過程。AIVC應(yīng)能預(yù)測那些在實驗室中從未測試過的擾動所產(chǎn)生的響應(yīng)，并能考慮到擾動發(fā)生時特定細(xì)胞環(huán)境的特征。

同時，AIVC 也應(yīng)能模擬細(xì)胞狀態(tài)隨時間的演變，以及由此產(chǎn)生的多細(xì)胞空間布局。通過對細(xì)胞整體狀態(tài)的瞬時特性和持續(xù)變化的建模，AIVC 可以揭示在發(fā)育、穩(wěn)態(tài)維持、疾病發(fā)生與發(fā)展等多樣化動態(tài)過程中，此前未被研究過的演化軌跡。

另一個關(guān)鍵挑戰(zhàn)是理解這些表型和軌跡背后的分子機(jī)制。通過模擬不同干預(yù)措施的效果，AIVC 可以提出潛在的因果因素。盡管僅憑計算不一定能完全揭示因果關(guān)系，但AIVC 有潛力縮小可能假設(shè)的空間 (reduce the space of possible hypotheses) 。它能提出與不同表型相關(guān)的潛在因果因子，并給出相應(yīng)的不確定性程度，從而讓科學(xué)家能更有針對性地通過實驗進(jìn)行驗證。

計算機(jī)模擬實驗和指導(dǎo)數(shù)據(jù)生成

在現(xiàn)實應(yīng)用中，AIVC 的另一項決定性功能是其指導(dǎo)數(shù)據(jù)生成和實驗設(shè)計的能力。研究人員應(yīng)能通過當(dāng)前實驗室實驗的計算孿生體 (computational twins)——在此我們稱之為虛擬儀器 (virtual instruments, VIs)——來查詢 AIVC 。例如，虛擬實驗可以模擬那些難以在體外培養(yǎng)的細(xì)胞類型的實驗，或者從低成本測量（如無標(biāo)記成像）中推斷出昂貴的讀數(shù)（如單細(xì)胞轉(zhuǎn)錄組）。虛擬實驗還能以實驗室無法企及的規(guī)模篩選海量的潛在擾動源，這在面對組合擾動的指數(shù)級搜索空間時，顯得尤為寶貴。

AIVC 將引領(lǐng)一種設(shè)計生物實驗的新范式。在此范式中，AIVC不僅能設(shè)計實驗來驗證特定的科學(xué)假設(shè)，還能設(shè)計實驗來增強(qiáng)自身的能力。AIVC能為其預(yù)測分配置信度值，從而實現(xiàn)交互式查詢，引導(dǎo)實驗者為低置信度區(qū)域生成最有效的數(shù)據(jù)以進(jìn)行模型優(yōu)化。通過擴(kuò)展為一個主動、迭代的實驗室在環(huán)”(lab-in-the-loop)流程， AIVC 的性能將得到高效且有針對性的提升。最終，AIVC甚至可能能夠識別出自身在生物學(xué)理解上的關(guān)鍵空白，并提出填補這些空白的最有效路徑。

4. 構(gòu)建AIVC的方法

我們設(shè)想 AIVC 是一個綜合的 AI 框架，由幾個相互連接的基礎(chǔ)模型 (foundation models) 組成，這些模型在日益復(fù)雜的組織層次上表示動態(tài)生物系統(tǒng)——從分子到細(xì)胞、組織及更高層次。

我們的方法有兩個主要組成部分：

通用多模態(tài)多尺度生物狀態(tài)表征（UR） (a universal multi-modal multi-scale biological state representation)
一組 VI (virtual instruments, VIs) ——即操作或解碼這些表征的神經(jīng)網(wǎng)絡(luò)。

盡管可能存在構(gòu)建 AIVC 的其他方法，但我們相信這種方法將提供一個可以協(xié)作和開放方式的擴(kuò)展支架。

4.1 通用表示（UR）

UR 是由 AIVC 基礎(chǔ)模型產(chǎn)生的嵌入 (embedding)，它將高維、多尺度、多模態(tài)的生物數(shù)據(jù)轉(zhuǎn)換為能保留有意義關(guān)系和模式的數(shù)值表示。AIVC 通過表示以下三個不同的物理尺度 (physical scales) 來捕獲細(xì)胞生物學(xué)：

分子尺度 (Molecular scale)：單個細(xì)胞內(nèi)發(fā)現(xiàn)的分子及其結(jié)構(gòu)；

細(xì)胞尺度 (Cellular scale)：作為這些相互作用分子和結(jié)構(gòu)的空間集合的單個細(xì)胞；

組織尺度 (Multicellular scale)：單個細(xì)胞如何在組織中彼此相互作用以及與非細(xì)胞環(huán)境相互作用。

這三個尺度中的每一個都由一個獨特的 UR 表示，并建立在前一層生成的抽象之上，從而連接不同的尺度。

4.2 虛擬儀器（VI）

在 UR 的背景下，VI 是以 UR 為輸入并產(chǎn)生期望輸出的神經(jīng)網(wǎng)絡(luò)。我們描述了兩種類型的 VI：

解碼器 VI（Decoder VI）
- 輸入：UR
- 輸出：人類可理解的結(jié)果，例如細(xì)胞類型標(biāo)簽或合成顯微鏡圖像。
操控器 VI（Manipulator VI）
- 輸入：UR
- 輸出：另一個 UR，例如擾動后改變的細(xì)胞狀態(tài)。

由于這些 VI 在相同的表示上運行，它們可以在不同的用例、實驗和數(shù)據(jù)集之間共享和復(fù)用。因此，我們設(shè)想任何科學(xué)家都能夠在 UR 的基礎(chǔ)上構(gòu)建 VI 并與社區(qū)共享。此外，構(gòu)建與真實儀器（如顯微鏡）高度相似的 VI，可能促進(jìn)特定儀器的實驗室閉環(huán)系統(tǒng)的發(fā)展。

4.3 跨物理尺度構(gòu)建 UR

每個表征普遍適用于特定類別的生物實體。這種抽象使虛擬細(xì)胞能夠在這個通用框架實現(xiàn)無縫演進(jìn)以及整合新數(shù)據(jù)，無論是來自新模態(tài)還是來自分布外來源的數(shù)據(jù)。

圖2. AIVC 將是一個多尺度基礎(chǔ)模型，在每個物理尺度上學(xué)習(xí)生物實體的不同表征（圖 2C）。這些表征可以聚合在一起并轉(zhuǎn)換，以產(chǎn)生下一個更高物理尺度的表征。并形成一種遞歸架構(gòu)模式，從單個分子水平應(yīng)用到整個組織和器官尺度，使模型在不同生物尺度間保持一致性（圖 2A）。

4.4 構(gòu)建 AIVC 的人工智能方法

AIVC 將整合多種多樣的神經(jīng)網(wǎng)絡(luò)架構(gòu)。盡管這些架構(gòu)并非專為生物學(xué)應(yīng)用設(shè)計，但它們在與特定的生物模式和數(shù)據(jù)特性（inductive biases，歸納偏置）相匹配時，已展現(xiàn)出各自的優(yōu)勢。許多情況下，這些架構(gòu)可以相互替代，因此需要根據(jù)它們在準(zhǔn)確性、速度和通用性方面的表現(xiàn)進(jìn)行權(quán)衡取舍。此外，研究社區(qū)正積極開發(fā)專門針對（大型）生物數(shù)據(jù)集特征量身定制的 AI 架構(gòu)。

圖3. 構(gòu)建 AIVC 的人工智能方法之Transformer

Transformer神經(jīng)網(wǎng)絡(luò) (Transformer neural network)：Transformer 神經(jīng)網(wǎng)絡(luò) [30] 由多個 Transformer 層組成，每個 Transformer 層都采用一系列標(biāo)記（離散的信息片段，如單詞、RNA 分子或基因表示）作為輸入——第一層的初始標(biāo)記和后續(xù)層的前一層輸出。
在每一層中，標(biāo)記使用自注意力來集成來自其他標(biāo)記的上下文，增強(qiáng)自己的表示，然后通過前饋網(wǎng)絡(luò)進(jìn)行處理。這種架構(gòu)從根本上只需要標(biāo)記集合，可以很好地適應(yīng)各種應(yīng)用程序和用例。
默認(rèn)情況下，傳遞給 Transformer 的標(biāo)記集合沒有任何排序。此外，自注意力機(jī)制是 Transformer 成功的核心，可以被視為一種強(qiáng)烈的生物歸納偏差。例如，在通過 scRNA-seq 檢測到的 RNA 分子來表示細(xì)胞時，每個 RNA 分子（表示為標(biāo)記）與其他 RNA 分子相互作用，通過自注意力模擬基因相互作用 [30]。使用基因的數(shù)字表示定制輸入標(biāo)記進(jìn)一步允許集成從單個基因到整個細(xì)胞的不同生物數(shù)據(jù)尺度 [59, 60]。
此外，將位置編碼引入標(biāo)記使 Transformer 能夠通過合并特定于序列的依賴關(guān)系來處理序列（例如自然語言 [30] 或生物序列如 DNA [48,142]）。這種方法在掩碼語言建模等應(yīng)用中至關(guān)重要，其中模型預(yù)測序列中缺失的標(biāo)記，從而增強(qiáng)其對數(shù)據(jù)中上下文關(guān)系的理解。
創(chuàng)新不斷完善 Transformer，提高其處理更長序列的能力并提高效率。例如，狀態(tài)空間模型等進(jìn)步能夠生成廣泛的 DNA 序列 [51]。

圖4.構(gòu)建 AIVC 的人工智能方法之CNN
卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network, CNN)：
CNN 是一種深度學(xué)習(xí)模型，主要用于分析圖像 [73,74]。它由多個層組成，通過反向傳播自動自適應(yīng)地學(xué)習(xí)特征的空間層次結(jié)構(gòu)。卷積層、池化層和全連接層協(xié)同作用，從輸入數(shù)據(jù)中提取特征并做出決策。
在生物學(xué)領(lǐng)域，CNN 已被證明對于涉及圖像數(shù)據(jù)的任務(wù)具有無價的價值。例如：
- 細(xì)胞和組織的顯微鏡圖像模式識別；
- 多重成像（同時標(biāo)記和可視化多個目標(biāo)） [143,144]；
- 臨床病理學(xué)中的 H&E 染色組織切片分析 [145]；
- 活細(xì)胞成像 (live-cell imaging) 中用于跟蹤細(xì)胞內(nèi)或單分子隨時間的動態(tài)變化 [146]。

除了傳統(tǒng)的圖像處理，CNN 還可用于 DNA 等序列數(shù)據(jù)的模式識別 [147]。盡管 CNN 具有廣泛實用性，但在一些任務(wù)中正逐漸被視覺 Transformer 補充或取代 [72]。

圖5.構(gòu)建 AIVC 的人工智能方法之Diffusion模型

擴(kuò)散模型 (Diffusion models)：擴(kuò)散模型是一類生成式深度學(xué)習(xí)模型，能夠在多個領(lǐng)域生成高質(zhì)量、多樣化樣本 [148]。其工作原理是：逐漸將隨機(jī)噪聲分布轉(zhuǎn)化為結(jié)構(gòu)化輸出（圖像、文本、細(xì)胞狀態(tài)等）。
在擴(kuò)散模型架構(gòu)的基礎(chǔ)上，flow matching 等方法可以模擬隨時間演變的分布 [149]，使其特別適合于動態(tài)變化和時間進(jìn)展至關(guān)重要的生物學(xué)應(yīng)用。
例如，它們能夠生成細(xì)胞在時間和空間上的發(fā)育軌跡，或預(yù)測生物系統(tǒng)對治療的反應(yīng) [87]。擴(kuò)散與 flow matching 模型結(jié)合，為高維復(fù)雜生物數(shù)據(jù)的建模提供了強(qiáng)大工具。

圖6.構(gòu)建 AIVC 的人工智能方法之GNN

圖神經(jīng)網(wǎng)絡(luò) (Graph Neural Network, GNN)：是一類可以對圖數(shù)據(jù)進(jìn)行建模的架構(gòu) [150]。圖由節(jié)點和邊組成，是許多生物系統(tǒng)的自然表示：
- 蛋白質(zhì)結(jié)構(gòu)：殘基作為節(jié)點，化學(xué)鍵作為邊 [151]；
- 組織結(jié)構(gòu)：細(xì)胞作為節(jié)點，相鄰細(xì)胞通過邊表示物理或化學(xué)連接 [152, 153]。

GNN 可用于節(jié)點、邊或整個圖的預(yù)測 [154]。在節(jié)點級 GNN 中，每一層中節(jié)點會整合鄰居的特征信息（消息傳遞機(jī)制），并逐層擴(kuò)展感受野。在生物應(yīng)用中，例如在空間轉(zhuǎn)錄組數(shù)據(jù)中，GNN 可以將每個細(xì)胞的基因表達(dá)作為初始特征，并在訓(xùn)練過程中通過鄰居信息更新，從而揭示細(xì)胞間的空間相互作用與生態(tài)位 [153]。

5. 構(gòu)建AIVC的數(shù)據(jù)需求和要求

AIVC 的一個關(guān)鍵考慮因素是必須收集哪些數(shù)據(jù)集和模態(tài)來實現(xiàn)其有效構(gòu)建。與傳統(tǒng)的實驗設(shè)計不同，傳統(tǒng)實驗設(shè)計中數(shù)據(jù)是為了測試特定的科學(xué)假設(shè)而生成的，而用于訓(xùn)練 AIVC 的數(shù)據(jù)收集應(yīng)該專注于確保 AIVC 所期望的廣泛適用性和通用性。為了實現(xiàn)這些目標(biāo)，數(shù)據(jù)理想情況下應(yīng)該跨越不同的領(lǐng)域和模態(tài)，包含生物變異性的異質(zhì)性和多樣性，并使模型能夠區(qū)分技術(shù)噪聲、生物變異和生理差異。

數(shù)據(jù)生成需要同時探索時間和物理尺度，同時允許系統(tǒng)擾動。在這里，經(jīng)典成像技術(shù) [65, 100, 101] 包括活細(xì)胞成像，以及更新的結(jié)構(gòu)成像技術(shù)，如冷凍電子斷層掃描 (cryoelectron tomography) 和軟X射線斷層掃描 (soft X-ray tomography) [66, 102, 103]，以及新穎的空間組學(xué)技術(shù) (spatial omics technologies) [104, 105]，為跨尺度建模生物分子和功能提供了機(jī)會。此外，生物過程跨越了巨大的時間尺度范圍，從皮秒級的最快反應(yīng)到持續(xù)數(shù)小時至一天的細(xì)胞分裂，再到歷時數(shù)年的腫瘤發(fā)展，以及持續(xù)數(shù)十年的神經(jīng)退行性變化。最近構(gòu)建的通用細(xì)胞圖譜 [101, 106] 可能成為建模較長時間尺度上細(xì)胞行為（如組織形成）的強(qiáng)大資源。需要新的方法來構(gòu)建可比較的數(shù)據(jù)集，以捕獲細(xì)胞在較短時間尺度上的行為，例如通過活細(xì)胞成像等方法。

除了分子測量外，數(shù)據(jù)收集的一個重要方面將是測量生物物理和生物化學(xué)細(xì)胞特性，為 AIVC 提供物理和化學(xué)現(xiàn)實主義的邊界。

AIVC 發(fā)展的另一個重要驅(qū)動力將是多模態(tài)數(shù)據(jù)集 (multi-modal datasets) 。例如，連接分子和空間尺度的數(shù)據(jù)集，如單細(xì)胞轉(zhuǎn)錄組學(xué)數(shù)據(jù)結(jié)合組織學(xué)，以了解細(xì)胞如何相互作用以及哪些分子特征支撐著專門空間生態(tài)位的形成 [107]。需要進(jìn)一步的技術(shù)發(fā)展來收集多模態(tài)數(shù)據(jù)，以捕捉分子特征、細(xì)胞行為、細(xì)胞調(diào)控和組織之間的關(guān)系。

盡管虛擬細(xì)胞建模的核心興趣將集中在人類數(shù)據(jù)集上，目的是理解疾病并幫助開發(fā)新型治療方法，但人類數(shù)據(jù)集在我們進(jìn)行體內(nèi)對照實驗和擾動的能力方面是有限的。

在此，3D 組織生物學(xué)領(lǐng)域（包括類器官等培養(yǎng)系統(tǒng)）正逐漸興起，成為一種在 3D 環(huán)境中研究復(fù)雜組織結(jié)構(gòu)和功能[108] 的工具。它在 3D 環(huán)境中進(jìn)行研究，同時允許對系統(tǒng)進(jìn)行擾動。另一個超越這一限制的關(guān)鍵途徑將是對演化歷史的物種進(jìn)行多樣化的全機(jī)體譜分析，涵蓋各種擾動和不同條件 [109, 110, 111]。理想情況下，大型數(shù)據(jù)集可以在所有三個物理尺度上被收集，這將使 AIVC 的應(yīng)用能夠從疾病研究擴(kuò)展到工業(yè)生物技術(shù)、農(nóng)業(yè)生物技術(shù)、傳染病和氣候變化等更廣闊的領(lǐng)域。然而，基于目前在細(xì)胞和多細(xì)胞尺度上的數(shù)據(jù)收集趨勢，對動物細(xì)胞進(jìn)行建模仍然是最現(xiàn)實的選擇。

最后，生物數(shù)據(jù)生成的一個關(guān)鍵方面將是對組合空間 (combinatorial spaces)的探索：生物空間通常是高維的，枚舉其變體在一般情況下是難以處理的，例如，當(dāng)考慮基因組的所有可能變體時。即使是少數(shù)實體的組合，如枚舉擾動的成對或成組情況 [47, 90]，實驗設(shè)計也變得極其具有挑戰(zhàn)性。鑒于組合的可能性會迅速膨脹，遠(yuǎn)超實驗或計算的可行范圍，因此必須開發(fā)探索這些可能性新方法。

構(gòu)建 AIVC 需要多少數(shù)據(jù)？

原始生物數(shù)據(jù)的規(guī)模是不可否認(rèn)的，但即使是一個人體細(xì)胞系統(tǒng)的純粹標(biāo)稱規(guī)模也同樣龐大，這使得第一性原理估算變得困難。例如，生物序列數(shù)據(jù)的短讀長存檔擁有超過 14 petabytes的信息 [112]，這比訓(xùn)練 ChatGPT 所用的數(shù)據(jù)集大 1000 多倍 [113]。如果用于訓(xùn)練，這些數(shù)據(jù)的很大一部分可能是冗余的或具有遞減收益，因此必須徹底研究模型性能的規(guī)模法則。

除了數(shù)據(jù)規(guī)模外，數(shù)據(jù)的多樣性和質(zhì)量對確保模型性能至關(guān)重要 [114]。來自人類和模式生物（如小鼠和大腸桿菌）的數(shù)據(jù)在序列和文獻(xiàn)數(shù)據(jù)庫中的代表性不均等，當(dāng)用于訓(xùn)練時，會編碼強(qiáng)烈的物種偏差 [114]。其他偏差，例如在性別、特定疾病或人類祖先群體方面的偏差，也可能降低 AIVC 模型的影響力 [115]。

盡管數(shù)據(jù)方面需要付出努力，但驅(qū)動 AIVC 的 AI 模型必須設(shè)計得能夠承受并適應(yīng)這些挑戰(zhàn)，即在整合各種來源和質(zhì)量的數(shù)據(jù)集的能力方面表現(xiàn)出穩(wěn)健性。考慮到實驗室技術(shù)的快速發(fā)展（這使得無法在單一平臺上實現(xiàn)標(biāo)準(zhǔn)化）以及 AIVC 必須涵蓋的模式和細(xì)胞系統(tǒng)的廣泛多樣性，這一點至關(guān)重要。隨著虛擬細(xì)胞工作的成熟，開發(fā)模型的科學(xué)家、生成實驗數(shù)據(jù)的科學(xué)家和資助機(jī)構(gòu)之間的對話必須進(jìn)一步加強(qiáng)。

6. AIVC的模型評估和可解釋性

對于 AIVC 發(fā)展而言，更重要的問題可能不是 "我們?nèi)绾螛?gòu)建它們？" 而是 "我們?nèi)绾谓ζ淠芰蜏?zhǔn)確性的信任？" 為此，需要一個全面且適應(yīng)性強(qiáng)的基準(zhǔn)測試框架(benchmarking framework)。AIVC 需要在眾多生物學(xué)背任務(wù)中展現(xiàn)通用性 (generalizability) 。它必須考慮由于環(huán)境變化、感染、遺傳變異以及其他引起分布偏移 (distribution shifts) 的因素而不斷演變的動態(tài)分布。 [116]。

即使在可推廣性之外，新興能力（比如那些與大語言模型 (Large Language Models, LLMs) 相關(guān)的能力）也可能使 AIVC 模型能夠外推到真正的分布外數(shù)據(jù)。在生物學(xué)背景下，在評估過程中可能很難確定這個邊界是如何定義的。新分子、新細(xì)胞狀態(tài)，甚至新物種都可能被認(rèn)為在訓(xùn)練分布內(nèi)。因此，對新數(shù)據(jù)的外推可能僅限于考慮設(shè)計自然界中不存在的生物實體。

這種評估類型已經(jīng)在分子設(shè)計領(lǐng)域得到了考慮，因為語言模型創(chuàng)建的蛋白質(zhì)，如 esmGFP [52] 或 OpenCrispr1 [53]，突出了它們與任何天然存在的對應(yīng)物之間的差異。如果在設(shè)計這些模型時以外推為目標(biāo)，那么可能需要使用生物力學(xué)、基于物理或機(jī)制建模的額外歸納偏置、微調(diào)或偏好優(yōu)化。

對 AIVC 的評估應(yīng)同時優(yōu)先考慮其泛化能力和發(fā)現(xiàn)新生物學(xué)規(guī)律的能力。泛化能力衡量了模型在未曾見過的語境中的表現(xiàn)，例如面對新型細(xì)胞類型或不同的遺傳背景?？梢酝ㄟ^跨模態(tài)重構(gòu)任務(wù)來評估這種能力，比如根據(jù)先前未見過的細(xì)胞形態(tài)來預(yù)測基因表達(dá)，或是預(yù)測細(xì)胞狀態(tài)顯微圖像序列中的下一張圖像。評估泛化能力有助于建立人們對 AIVC 模型的信心，相信它能夠捕捉核心生物學(xué)過程，并理解這些過程在不同情境下的變化。建立連接生物學(xué)尺度與模態(tài)的跨模態(tài)基準(zhǔn)，對科研界而言是一項當(dāng)務(wù)之急，因為這些任務(wù)不僅在生物學(xué)上具有實用價值，而且定義明確。

最終，評判 AIVC 模型應(yīng)基于其能否開辟理解生物學(xué)的新途徑。這樣的評估標(biāo)準(zhǔn)能夠確保模型開發(fā)與生物學(xué)相關(guān)性保持一致。最初最有價值的成果，可能在于生成有意義且可驗證的實驗假設(shè)。為此，與實驗可驗證表型相關(guān)的驗證數(shù)據(jù)集可能很適用，例如細(xì)胞的生長速率、分子譜、被破壞的蛋白質(zhì)-蛋白質(zhì)相互作用，或轉(zhuǎn)錄因子結(jié)合。

隨著 AIVC 能力的提升，我們必須考慮單純的統(tǒng)計性能指標(biāo)是否足夠，或者可解釋性 (interpretability)和生物學(xué)因果關(guān)系 (biological causality)是否會成為其核心要求。

可解釋性和相互作用

在生物學(xué)中，科學(xué)發(fā)現(xiàn)的標(biāo)志之一是為觀察到的現(xiàn)象創(chuàng)建機(jī)制模型 (mechanistic models) 。在創(chuàng)建虛擬細(xì)胞時，我們可能不得不放棄構(gòu)建完全機(jī)制模型的能力，轉(zhuǎn)而學(xué)習(xí)能夠從數(shù)據(jù)中泛化并預(yù)測超出觀察范圍的相互作用。然而，努力提高可解釋性仍然是可取的。

每個 AIVC 預(yù)測都可以通過決定結(jié)果狀態(tài)的相應(yīng)多尺度相互作用來證實。例如，了解細(xì)胞亞系統(tǒng)或蛋白質(zhì)復(fù)合物在疾病組織中如何被破壞，可以幫助開發(fā)治療干預(yù)措施 [118,119]。AIVC 的模塊化結(jié)構(gòu)將使研究人員能夠精確定位參與每個預(yù)測行為的特定基因、蛋白質(zhì)或分子過程。

大型模型布線中的模式也可以被利用來揭示組合生物學(xué)相互作用，例如蛋白質(zhì)之間的相互作用，這些相互作用可以投射到可解釋的空間中，而不限制原始模型的通用性。盡管 AIVC 的許多能力依賴于預(yù)測任務(wù)，但生成機(jī)制假設(shè)可以為理解和進(jìn)一步探索 AIVC 的預(yù)測提供實驗途徑，這對于 AIVC 的采用和使用至關(guān)重要。

最終，為 AIVC 構(gòu)建一個交互層 (interactive layer) 將是關(guān)鍵所在，這將使不同專業(yè)水平的研究人員能夠有效地理解和利用其預(yù)測結(jié)果。使用 LLMs 構(gòu)建的AI智能體 (AI agents) 可以作為虛擬研究助手，為非專業(yè)人員提供直觀的界面 [46,120]。利用它們對科學(xué)文獻(xiàn)的廣泛知識，這些語言模型可以為 AIVC 做出的預(yù)測提供更深入的見解。

7. 前景展望

遺傳學(xué)和基因組學(xué)界已經(jīng)創(chuàng)建了大型參考數(shù)據(jù)集，如人類基因組計劃 (human genome project) [23]、HapMap [122]、癌癥基因組圖譜 (the Cancer Genome Atlas, TCGA) [123]、ENCODE [124]、基因型-組織表達(dá) (the Genotype-Tissue Expression, GTEx) 項目 [125]、人類蛋白質(zhì)圖譜 (the Human Protein Atlas, HPA) [64,126]、人類細(xì)胞圖譜 (the Human Cell Atlas, HCA) [24]，以及越來越多的深度表型化、人群規(guī)模的生物樣本庫工作 [127]。得益于這些項目，現(xiàn)在有大量參考數(shù)據(jù)可用于訓(xùn)練機(jī)器學(xué)習(xí)模型。盡管這些努力將繼續(xù)發(fā)展，但它們也催化了一項新的并行工作：創(chuàng)建細(xì)胞生物學(xué)的虛擬仿真，這是一種新的科學(xué)探究過程。

因此，AIVC 有潛力徹底改變科學(xué)研究過程，在生物醫(yī)學(xué)研究、個性化醫(yī)療、藥物發(fā)現(xiàn)、細(xì)胞工程和可編程生物學(xué) (programmable biology) 領(lǐng)域帶來未來的突破。作為虛擬實驗室 (virtual laboratory)，AIVC 可以促進(jìn)計算機(jī)模擬實驗數(shù)據(jù)與物理實驗室結(jié)果之間的無縫對接。因此，我們期望 AIVC 能夠為生物過程提供更統(tǒng)一的視角，促進(jìn)科學(xué)家們在生物學(xué)涌現(xiàn)特性如何產(chǎn)生這一問題上達(dá)成共識。

通過連接計算機(jī)系統(tǒng)、現(xiàn)代生成式 AI 和 AI 智能體以及生物學(xué)的世界，AIVC 最終能夠讓科學(xué)家將細(xì)胞理解為信息處理系統(tǒng)，并構(gòu)建生命的虛擬描述。隨著 AIVC 擴(kuò)展對細(xì)胞和分子系統(tǒng)的理解，它也將越來越多地允許我們對它們進(jìn)行編程并設(shè)計新穎的合成系統(tǒng)。AI 模型已經(jīng)被用于設(shè)計新的 CRISPR 酶 [53]、功能蛋白 [128]，甚至整個原核生物基因組 [51]。細(xì)胞和基因組工程工具精度的快速進(jìn)步將加速這一轉(zhuǎn)變，AIVC 的不同實例化將在工程新的功能性生物學(xué)能力方面展開競爭，就像在表示和模擬生物學(xué)方面的競爭一樣激烈。

參考文獻(xiàn)

Slepchenko, B.M., Schaff, J.C., Macara, I., and Loew, L.M. (2003). Quan-titative cell biology with the Virtual Cell. Trends Cell Biol. 13, 570–576.
Johnson, G.T., Agmon, E., Akamatsu, M., Lundberg, E., Lyons, B.,Ouyang, W., Quintero-Carmona, O.A., Riel-Mehan, M., Rafelski, S.,and Horwitz, R. (2023). Building the next generation of virtual cells to un-derstand cellular biology. Biophys. J. 122, 3560–3569.
Marx, V. (2023). How to build a virtual embryo. Nat. Methods 20,1838–1843.
Goldberg, A.P., Szigeti, B., Chew, Y.H., Sekar, J.A., Roth, Y.D., and Karr,J.R. (2018). Emerging whole-cell modeling principles and methods. Curr.Opin. Biotechnol. 51, 97–102.
Georgouli, K., Yeom, J.-S., Blake, R.C., and Navid, A. (2023). Multi-scalemodels of whole cells: progress and challenges. Front. Cell Dev. Biol. 11,1260507.
Marucci, L., Barberis, M., Karr, J., Ray, O., Race, P.R., de Souza Andrade,M., Grierson, C., Hoffmann, S.A., Landon, S., Rech, E., et al. (2020). Com-puter-aided whole-cell design: Taking a holistic approach by integratingsynthetic with systems biology. Front. Bioeng. Biotechnol. 8, 942.
Lauffenburger, D.A., and Linderman, J.J. (1996). Receptors: models forbinding, trafficking, and signaling (Oxford University Press).
Karr, J.R., Sanghvi, J.C., Macklin, D.N., Gutschow, M.V., Jacobs, J.M.,Bolival, B., Assad-Garcia, N., Glass, J.I., and Covert, M.W. (2012). Awhole-cell computational model predicts phenotype from genotype.Cell 150, 389–401.
Mangan, S., and Alon, U. (2003). Structure and function of the feed-for-ward loop network motif. Proc. Natl. Acad. Sci. USA 100, 11980–11985.
Zopf, C.J., Quinn, K., Zeidman, J., and Maheshri, N. (2013). Cell-cycledependence of transcription dominates noise in gene expression.PLoS Comput. Biol. 9, e1003161.
Eling, N., Morgan, M.D., and Marioni, J.C. (2019). Challenges inmeasuring and understanding biological noise. Nat. Rev. Genet. 20,536–548.
Hellweger, F.L., Clegg, R.J., Clark, J.R., Plugge, C.M., and Kreft, J.-U.(2016). Advancing microbial sciences by individual-based modelling.Nat. Rev. Microbiol. 14, 461–471.
Gorochowski, T.E. (2016). Agent-based modelling in synthetic biology.Essays Biochem. 60, 325–336.
Thiele, I., Jamshidi, N., Fleming, R.M., and Palsson, B. (2009). Genome-scale reconstruction of Escherichia coli’s transcriptional and translationalmachinery: a knowledge base, its mathematical formulation, and its func-tional characterization. PLoS Comput. Biol. 5, e1000312.
Odell, G.M., and Foe, V.E. (2008). An agent-based model contrastsopposite effects of dynamic and stable microtubules on cleavage furrowpositioning. J. Cell Biol. 183, 471–483.
Popov, K., Komianos, J., and Papoian, G.A. (2016). MEDYAN: mechano-chemical simulations of contraction and polarity alignment in actomyosinnetworks. PLoS Comput. Biol. 12, e1004877.
Burke, P.E.P., Campos, C.B.L., Costa, L.D.F., and Quiles, M.G. (2020).M. G. A biochemical network modeling of a whole-cell. Sci. Rep.10, 13303.
Li, G., Liu, L., Du, W., and Cao, H. (2023). Local flux coordination andglobal gene expression regulation in metabolic modeling. Nat. Commun.14, 5700.
Fang, X., Lloyd, C.J., and Palsson, B.O. (2020). Reconstructing organ-isms in silico: genome-scale models and their emerging applications.Nat. Rev. Microbiol. 18, 731–743.
Stevens, J.A., Gru¨ newald, F., van Tilburg, P.A.M., Ko¨ nig, M., Gilbert,B.R., Brier, T.A., Thornburg, Z.R., Luthey-Schulten, Z., and Marrink,S.J. (2023). Molecular dynamics simulation of an entire cell. Front.Chem. 11, 1106495.
Maritan, M., Autin, L., Karr, J., Covert, M.W., Olson, A.J., and Goodsell,D.S. (2022). Building structural models of a whole mycoplasma cell.J. Mol. Biol. 434, 167351.
Ahn-Horst, T.A., Mille, L.S., Sun, G., Morrison, J.H., and Covert, M.W.(2022). An expanded whole-cell model of E. coli links cellular physiologywith mechanisms of growth rate control. npj Syst. Biol. Appl. 8, 30.
Venter, J.C., Adams, M.D., Myers, E.W., Li, P.W., Mural, R.J., Sutton,G.G., Smith, H.O., Yandell, M., Evans, C.A., Holt, R.A., et al. (2001).The sequence of the human genome. Science 291, 1304–1351.
Regev, A., Teichmann, S.A., Lander, E.S., Amit, I., Benoist, C., Birney, E.,Bodenmiller, B., Campbell, P., Carninci, P., Clatworthy, M., et al. (2017).The human cell atlas. eLife 6, e27041.
CZI Single-Cell Biology Program, Abdulla, S., Aevermann, B., Assis, P.,Badajoz, S., Bell, S.M., Bezzi, E., Batuhan, C., Jim, C., Chambers, S.,et al. (2023). CZ CELL3GENE discover: A single- cell data platform forscalable exploration, analysis and modeling of aggregated data. Preprintat bioRxiv.
Heimberg, G., Kuo, T., DePianto, D., Heigl, T., Nathaniel, D., Salem, O.,Scalia, G., Biancalani, T., Turley, S., Rock, J., et al. (2023). Scalablequerying of human cell atlases via a foundational model reveals com-monalities across fibrosis-associated macrophages. Preprint at bioRxiv.
Dixit, A., Parnas, O., Li, B., Chen, J., Fulco, C.P., Jerby-Arnon, L., Marja-novic, N.D., Dionne, D., Burks, T., Raychowdhury, R., et al. (2016). Per-turb-Seq: dissecting molecular circuits with scalable single-cell RNAprofiling of pooled genetic screens. Cell 167, 1853–1866.e17.
Srivatsan, S.R., McFaline-Figueroa, J.L., Ramani, V., Saunders, L., Cao,J., Packer, J., Pliner, H.A., Jackson, D.L., Daza, R.M., Christiansen, L.,et al. (2020). Massively multiplex chemical transcriptomics at single-cell resolution. Science 367, 45–51.
Feldman, D., Funk, L., Le, A., Carlson, R.J., Leiken, M.D., Tsai, F., Soong,B., Singh, A., and Blainey, P.C. (2022). Pooled genetic perturbationscreens with image-based phenotypes. Nat. Protoc. 17, 476–512.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez,A.N., Kaiser, L., and Polosukhin, I. (2017). Attention is all you need.Adv. Neural Inf. Process. Syst. 30.
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High- resolution image synthesis with latent diffusion models. In IEEE Confer- ence on Computer Vision and Pattern Recognition (CVPR), 10684–10695.
Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger,O., Tunyasuvunakool, K., Bates, R., Zˇ′?dek, A., Potapenko, A., et al.(2021). Highly accurate protein structure prediction with AlphaFold. Na-ture 596, 583–589.
Baek, M., DiMaio, F., Anishchenko, I., Dauparas, J., Ovchinnikov, S., Lee,G.R., Wang, J., Cong, Q., Kinch, L.N., Schaeffer, R.D., et al. (2021). Ac-curate prediction of protein structures and interactions using a three-track neural network. Science 373, 871–876.
Lin, Z., Akin, H., Rao, R., Hie, B., Zhu, Z., Lu, W., Smetanin, N., Verkuil, R.,Kabeli, O., Shmueli, Y., et al. (2023). Evolutionary-scale prediction ofatomic-level protein structure with a language model. Science 379,1123–1130.
Gomes, J., Ramsundar, B., Feinberg, E.N., and Pande, V.S. (2017).Atomic convolutional networks for predicting protein-ligand binding af-finity. Preprint at arXiv.
Cunningham, J.M., Koytiger, G., Sorger, P.K., and AlQuraishi, M. (2020).Biophysical prediction of protein–peptide interactions and signaling net-works using machine learning. Nat. Methods 17, 175–183.
Torng, W., and Altman, R.B. (2019). High precision protein functional sitedetection using 3D convolutional neural networks. Bioinformatics 35,1503–1512.
Corso G., Sta¨ rk H., Jing B., Barzilay R., and Jaakkola T. (2023). DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking The Eleventh International Conference on Learning Representations.
Kudo, T., Meireles, A.M., Moncada, R., Chen, Y., Wu, P., Gould, J., Hu,X., Kornfeld, O., Jesudason, R., Foo, C., et al. (2024). Multiplexed, im-age-based pooled screens in primary cells and tissues with perturbview.Nat. Biotechnol., 1–10.
Roohani, Y., Huang, K., and Leskovec, J. (2023). Predicting transcrip-tional outcomes of novel multigene perturbations with GEARS. Nat. Bio-technol. 42, 927–935.
Bunne, C., Stark, S.G., Gut, G., Del Castillo, J.S., Levesque, M., Leh-mann, K.-V., Pelkmans, L., Krause, A., and Ratsch, G. (2023). Learningsingle-cell perturbation responses using neural optimal transport. Nat.Methods 20, 1759–1768.
Lotfollahi, M., Klimovskaia Susmelj, A., De Donno, C., Hetzel, L., Ji, Y.,Ibarra, I.L., Srivatsan, S.R., Naghipourfar, M., Daza, R.M., Martin, B.,et al. (2023). Predicting cellular responses to complex perturbations inhigh-throughput screens. Mol. Syst. Biol. 19, e11517.
Bunne, C., Krause, A., and Cuturi, M. (2022). Supervised Training of Con-ditional Monge Maps. Adv. Neural Inf. Process. Syst. 35, 6859–6872.
Bereket, M., and Karaletsos, T. (2024). Modelling Cellular Perturbationswith the Sparse Additive Mechanism Shift Variational Autoencoder.Adv. Neural Inf. Process. Syst. 36.
Huang, K., Huang, K., Lopez, R., Hutter, J.-C., Kudo, T., Rios, A., and Re-gev, A. (2023). Sequential Optimal Experimental De- sign of PerturbationScreens Guided by Multi-modal Priors. In International Conference onResearch in Computational Molecular Biology (Springer Nature),
Roohani, Y.H., Vora, J., Huang, Q., Liang, P., and Leskovec, J. (2024).BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Ex-periments Preprint at arXiv.
Cleary, B., and Regev, A. (2024). The necessity and power of random,undersampled experiments in biology. Preprint at arXiv.
Ji, Y., Zhou, Z., Liu, H., and Davuluri, R.V. (2021). DNABERT: pre-trainedBidirectional Encoder Representations from Transformers model forDNA-language in genome. Bioinformatics 37, 2112–2120.
Brandes, N., Ofer, D., Peleg, Y., Rappoport, N., and Linial, M. (2022). Pro-teinBERT: a universal deep-learning model of pro- tein sequence andfunction. Bioinformatics 38, 2102–2110.
Celaj, A., Gao, A.J., Lau, T.T.Y., Holgersen, E.M., Lo, A., Lodaya, V., Cole,C.B., Denroche, R.E., Spickett, C., Wagih, O., et al. (2023). An RNA foun-dation model enables discovery of disease mechanisms and candidatetherapeutics. Preprint at bioRxiv.
Nguyen, E., Poli, M., Durrant, M.G., Kang, B., Katrekar, D., Li, D.B., Bar-tie, L.J., Thomas, A.W., King, S.H., Brixi, G., et al. (2024). Sequencemodeling and design from molecular to genome scale with Evo. Science386, eado9336.
Hayes, T., Rao, R., Akin, H., Sofroniew, N.J., Oktay, D., Lin, Z., Verkuil, R.,Tran, V.Q., Deaton, J., Wiggert, M., et al. (2024). Simulating 500 millionyears of evolution with a language model. Preprint at bioRxiv.
Ruffolo, J.A., Nayfach, S., Gallagher, J., Bhatnagar, A., Beazer, J., Hus-sain, R., Russ, J., Yip, J., Hill, E., Pacesa, M., et al. (2024). Design of highlyfunctional genome editors by modeling the universe of CRISPR-cas se-quences. Preprint at bioRxiv.
Peng, Z., Schussheim, B., and Chatterjee, P. (2024). PTM-mamba: aPTM-aware protein language model with bidirectional gated mambablocks. Preprint at bioRxiv.
Dai, B., Mattox, D.E., and Bailey-Kellogg, C. (2021). Atten- tion please:modeling global and local context in glycan structure-function relation-ships. Preprint at bioRxiv.
Yu, T., Yao, T., Sun, Z., Shi, F., Zhang, L., Lyu, K., Xuan, B., Liu, A., Zhang,X., Zou, J., et al. (2024). LipidBERT: A Lipid Language Model Pre- trainedon METiS de novo Lipid Library. Preprint at arXiv.
Krishna, R., Wang, J., Ahern, W., Sturmfels, P., Venkatesh, P., Kalvet, I.,Lee, G.R., Morey-Burrows, F.S., Anishchenko, I., Humphreys, I.R., et al.(2024). Generalized biomolecular modeling and design withRoseTTAFold All-Atom. Science 384, eadl2528.
Rosen, Y., Brbic′, M., Roohani, Y., Swanson, K., Li, Z., and Leskovec, J.(2024). Toward universal cell embeddings: integrating single-cell RNA-seq datasets across species with Saturn. Nat. Methods 21, 1492–1500.
Rosen, Y., Roohani, Y., Agrawal, A., Samotorcˇan, L., Tabula SapiensConsortium, Quake, S.R., and Leskovec, J. (2023). Universal cell embed-dings: A foundation model for cell biology. Preprint at bioRxiv.
Chen, Y., and Zou, J. (2024). GenePT: A Simple but Effective Foun- da-tion Model for Genes and Cells Built from ChatGPT. Preprint at bioRxiv.
Mahdessian, D., Cesnik, A.J., Gnann, C., Danielsson, F., Stenstro¨ m, L.,Arif, M., Zhang, C., Le, T., Johansson, F., Schutten, R., et al. (2021).Spatiotemporal dissection of the cell cycle with single-cell proteogenom-ics. Nature 590, 649–654.
Chandrasekaran, S.N., Cimini, B.A., Goodale, A., Miller, L., Kost-Ali-mova, M., Jamali, N., Doench, J.G., Fritchman, B., Skepner, A., Melan-son, M., et al. (2024). Three million images and mor- phological profilesof cells treated with matched chemical and genetic perturbations. Nat.Methods 21, 1114–1121.
Carlson, R.J., Leiken, M.D., Guna, A., Hacohen, N., and Blainey, P.C.(2023). A genome-wide optical pooled screen reveals regulators ofcellular antiviral responses. Proc. Natl. Acad. Sci. USA 120,e2210623120.
Thul, P.J., A? kesson, L., Wiking, M., Mahdessian, D., Geladaki, A., Ait Blal,H., Alm, T., Asplund, A., Bjo¨ rk, L., Breckels, L.M., et al. (2017). A subcel-lular map of the human proteome. Science 356, eaal3321.
McDole, K., Guignard, L., Amat, F., Berger, A., Malandain, G., Royer,L.A., Turaga, S.C., Branson, K., and Keller, P.J. (2018). In toto imagingand reconstruction of post-implantation mouse development at the sin-gle-cell level. Cell 175, 859–876.e33.
Nogales, E., and Mahamid, J. (2024). Bridging structural and cell biologywith cryo-electron microscopy. Nature 628, 47–56.
Bauda, E., Gallet, B., Moravcova, J., Effantin, G., Chan, H., Novacek, J.,Jouneau, P.H., Rodrigues, C.D.A., Schoehn, G., Moriscot, C., et al.(2024). Ultrastructure of macromolecular assemblies contributing to bac-terial spore resistance revealed by in situ cryo-electron tomography. Nat.Commun. 15, 1376.
Lelek, M., Gyparaki, M.T., Beliu, G., Schueder, F., Griffie′ , J., Manley, S.,Jungmann, R., Sauer, M., Lakadamyali, M., and Zimmer, C. (2021). Sin-gle-molecule localization microscopy. Nat. Rev. Methods Primers 1, 39.
Mo¨ ckl, L., and Moerner, W.E. (2020). Super-resolution microscopy withsingle molecules in biology and beyond–essentials, current trends, andfuture challenges. J. Am. Chem. Soc. 142, 17828–17844.
Cesnik, A., Schaffer, L.V., Gaur, I., Jain, M., Ideker, T., and Lundberg, E.(2024). Mapping the multiscale proteomic Or- ganization of cellular andDisease Phenotypes. Annu. Rev. Biomed. Data Sci. 7, 369–389.
Qin, Y., Huttlin, E.L., Winsnes, C.F., Gosztyla, M.L., Wacheul, L., Kelly,M.R., Blue, S.M., Zheng, F., Chen, M., Schaffer, L.V., et al. (2021). Amulti-scale map of cell structure fusing protein images and interactions.Nature 600, 536–542.
Dosovitskiy, A. (2020). An image is worth 16x16 words: transformers forimage recognition at scale. Preprint at arXiv.
Fukushima, K. (1980). Neocognitron: a self organizing neural networkmodel for a mechanism of pattern recognition unaffected by shift in po-sition. Biol. Cybern. 36, 193–202.
LeCun, Y., and Yoshua, B. (1995). Convolutional networks for images,speech, and time series. The Handbook of Brain Theory and Neural Net-works 3361, 255–258.
Bao, Y., Sivanandan, S., and Karaletsos, T. (2023). Channel Vision Trans-formers: An Image Is Worth c x 16 x 16 WordsThe Twelfth. InternationalConference on Learning Representations 4.
Kraus, O., Kenyon-Dean, K., Saberian, S., Fallah, M., McLean, P., Leung,J., Sharma, V., Khan, A., Balakrishnan, J., Celik, S., et al. (2024). Maskedautoencoders for microscopy are scalable learners of cellular biology. InIEEE Conference on Computer Vision and Pattern Recognition (CVPR),pp. 11757–11768.
Bao, Y., and Karaletsos, T. (2023). Contextual vision transformers forrobust representation learning. Preprint at arXiv.
Lopez, R., Regier, J., Cole, M.B., Jordan, M.I., and Yosef, N. (2018). Deepgenerative modeling for single-cell transcriptomics. Nature Methods 15,1053–1058.
Theodoris, C.V., Xiao, L., Chopra, A., Chaffin, M.D., Al Sayed, Z.R., Hill,M.C., Mantineo, H., Brydon, E.M., Zeng, Z., Liu, X.S., et al. (2023). Trans-fer learning enables predictions in network biology. Nature 618, 616–624.
Kobayashi-Kirschvink, K.J., Comiter, C.S., Gaddam, S., Joren, T., Grody,E.I., Ounadjela, J.R., Zhang, K., Ge, B., Kang, J.W., Xavier, R.J., et al.(2024). Prediction of single-cell RNA expression profiles in live cells byRaman microscopy with Raman2RNA. Nat. Biotechnol. 42, 1726–1734.
Ryu, J., Lopez, R., Bunne, C., and Regev, A. (2024). Cross-modalitymatching and prediction of perturbation responses with labeledGromov-Wasserstein optimal transport. Preprint at arXiv.
Saar, K.L., Scrutton, R.M., Bloznelyte, K., Morgunov, A.S., Good, L.L.,Lee, A.A., Teichmann, S.A., and Knowles, T.P.J. (2024). Protein Conden-sate Atlas from predic- tive models of heteromolecular condensatecomposition. Nat. Commun. 15, 5418.
Macosko, E.Z., Basu, A., Satija, R., Nemesh, J., Shekhar, K., Goldman,M., Tirosh, I., Bialas, A., Kamitaki, N., Martersteck, E., et al. (2015). Highlyparallel genome-wide expression profiling of individual cells using nano-liter droplets. Cell 161, 1202–1214.
Sta? hl, P.L., Salme′ n, F., Vickovic, S., Lundmark, A., Navarro, J.F., Mag-nusson, J., Giacomello, S., Asp, M., Westholm, J.O., Huss, M., et al.(2016). Visualization and analysis of gene expression in tissue sectionsby spatial transcriptomics. Science 353, 78–82.
Lundberg, E., and Borner, G.H.H. (2019). Spatial proteomics: a powerfuldiscovery tool for cell biology. Nat. Rev. Mol. Cell Biol. 20, 285–302.
Marconato, L., Palla, G., Yamauchi, K.A., Virshup, I., Heidari, E., Treis, T., Vierdag, W.M., Toth, M., Stockhaus, S., Shrestha, R.B., et al. (2024). Spa- tialData: an open and universal data framework for spatial omics. Nat. Methods. https://doi.org/10.1038/s41592-024-02212-x.
Somnath, V.R., Pariset, M., Hsieh, Y.-P., Martinez, M.R., Krause, A., andBunne, C. (2023). Aligned Diffusion Schro¨ dinger Bridges. In Uncertaintyin Artificial Intelligence, pp. 1985–1995.
Katharopoulos, A., Vyas, A., Pappas, N., and Fleuret, F. (2020). Fast au-toregressive transformers with linear attention. In International Confer-ence on Machine Learning.
Abramson, J., Adler, J., Dunger, J., Evans, R., Green, T., Pritzel, A., Ron-neberger, O., Willmore, L., Ballard, A.J., Bambrick, J., et al. (2024). Accu-rate structure prediction of biomolecular interactions with AlphaFold 3.Nature 630, 493–500.
Norman, T.M., Horlbeck, M.A., Replogle, J.M., Ge, A.Y., Xu, A., Jost, M.,Gilbert, L.A., and Weissman, J.S. (2019). Exploring genetic interactionmanifolds constructed from rich single-cell phenotypes. Science 365,786–793.
Lawson, M.J., Camsund, D., Larsson, J., Baltekin, O¨ ., Fange, D., and Elf,J. (2017). In situ genotyping of a pooled strain library after characterizingcomplex phenotypes. Mol. Syst. Biol. 13, 947.
Papamarkou, T., Skoularidou, M., Palla, K., Aitchison, L., Arbel, J., Dun-son, D., Filliponne, M., Fortuin, V., Hennig, P., Hernandez-Lobato, J.M.,et al. (2024). Position: bayesian deep learning is needed in the age oflarge-scale AI. In Forty-First International Conference on MachineLearning.
D’Angelo, F., and Fortuin, V. (2021). Wenzel F.On Stein Variational NeuralNetwork. Ensembles Preprint at arXiv.
Ober, S.W., Rasmussen, C.E., and van der Wilk, M. (2021). The promisesand pitfalls of deep kernel learning. In Conference on Uncertainty in Arti-ficial Intelligence, pp. 1206–1216.
Karaletsos, T. (2020). Bui T.D.Hierarchical Gaussian Process Priors forBayesian Neural Network Weights. Adv. Neural Inf. Process. Syst. 33,17141–17152.
Kapoor, S., Maddox, W.J., Izmailov, P., and Wilson, A.G. (2022). On un-certainty, tempering, and data augmentation in bayesian classification.Adv. Neural Inf. Process. Syst. 35, 18211–18225.
Lakshminarayanan, B., Pritzel, A., and Blundell, C. (2017). Simple andScalable Predictive Uncertainty Estimation using Deep Ensembles.Adv. Neural Inf. Process. Syst. 30.
Angelopoulos, A.N., and Bates, S. (2021). A gentle introduction toconformal prediction and distribution-free uncertainty quantification.Preprint at arXiv.
Cherian, J.J., Gibbs, I., and Cande` s, E.J. (2024). Large language modelvalidity via enhanced conformal prediction methods. Preprint at arXiv.
Cho, N.H., Cheveralls, K.C., Brunner, A.D., Kim, K., Michaelis, A.C., Ra-ghavan, P., Kobayashi, H., Savy, L., Li, J.Y., Canaj, H., et al. (2022). Open-Cell: endogenous tagging for the cartography of human cellular organiza-tion. Science 375, eabi6983.
Uhle′ n, M., Fagerberg, L., Hallstro¨ m, B.M., Lindskog, C., Oksvold, P.,Mardinoglu, A., Sivertsson, A? ., Kampf, C., Sjo¨ stedt, E., Asplund, A.,et al.. (2015). Proteomics. Tissue-based map of the human proteome.Science 347, 1260419.
Berger, C., Premaraj, N., Ravelli, R.B.G., Knoops, K., Lo′ pez-Iglesias, C.,and Peters, P.J. (2023). Cryo-electron tomography on focused ion beamlamellae transforms structural cell biology. Nat. Methods 20, 499–511.
Loconte, V., Chen, J.H., Vanslembrouck, B., Ekman, A.A., McDermott,G., Le Gros, M.A., and Larabell, C.A. (2023). Soft X-ray tomograms pro-vide a structural basis for whole-cell modeling. FASEB J. 37, e22681.
Moffitt, J.R., Lundberg, E., and Heyn, H. (2022). The emerging landscapeof spatial profiling technologies. Nat. Rev. Genet. 23, 741–759.
Vandereyken, K., Sifrim, A., Thienpont, B., and Voet, T. (2023). Methodsand applications for single-cell and spatial multi-omics. Nat. Rev. Genet.24, 494–515.
Tabula Sapiens Consortium*, Jones, R.C., Karkanias, J., Krasnow, M.A.,Pisco, A.O., Quake, S.R., Salzman, J., Yosef, N., Bulthaup, B., Brown, P.,et al. (2022). The tabula sapiens: A multiple-organ, single-cell transcrip-tomic atlas of humans. Science 376, eabl4896.
He, B., Bergenstra? hle, L., Stenbeck, L., Abid, A., Andersson, A., Borg, A? .,Maaskola, J., Lundeberg, J., and Zou, J. (2020). Integrating spatial geneexpression and breast tumour morphology via deep learning. Nat. Bio-med. Eng. 4, 827–834.
Bock, C., Boutros, M., Camp, J.G., Clarke, L., Clevers, H., Knoblich, J.A.,Liberali, P., Regev, A., Rios, A.C., Stegle, O., et al. (2021). The organoidcell atlas. Nat. Biotechnol. 39, 13–17.
Tabula; Muris Consortium; Overall coordination; Logistical coordination;Organ collection and processing; Library preparation and sequencing;Computational data analysis; Cell type annotation; Writing group; Sup-plemental text writing group; Principal investigators (2018). Single-celltranscriptomics of 20 mouse organs creates a tabula muris. Nature562, 367–372.
Li, H., Janssens, J., De Waegeneer, M., Kolluru, S.S., Davie, K., Gardeux,V., Saelens, W., David, F.P.A., Brbic′, M., Spanier, K., et al. (2022). Fly CellAtlas: A single-nucleus transcriptomic atlas of the adult fruit fly. Science375, eabk2432.
Lange, M., Granados, A., Vijaykumar, S., Bragantini, J., Ancheta, S., San-thosh, S., Borja, M., Kobayashi, H., McGeever, E., Solak, A.C., et al.(2023). Zebrahub – Multimodal zebrafish Developmental Atlas Revealsthe State Transition Dynamics of Late Vertebrate Pluripotent Axial Pro-genitors. Preprint at bioRxiv.
Katz, K., Shutov, O., Lapoint, R., Kimelman, M., Brister, J.R., and O’Sul-livan, C. (2022). The Sequence Read Archive: a decade more of explosivegrowth. Nucleic Acids Res. 50, D387–D390.
Achiam, J., et al. (2023). GPT-4 technical report. Preprint at arXiv.
Ding, F., and Steinhardt, J.N. (2024). Protein language models are biasedby unequal sequence sampling across the tree of life. Preprint at bioRxiv.
Liao, W.-W., Asri, M., Ebler, J., Doerr, D., Haukness, M., Hickey, G., Lu,S., Lucas, J.K., Monlong, J., Abel, H.J., et al. (2023). A draft human pan-genome reference. Nature 617, 312–324.
Liu, J., Shen, Z., He, Y., Zhang, X., Xu, R., Yu, H., and Cui, P. (2021). To-wards out-of-distribution generalization: A survey. Preprint at arXiv.
Nisonoff, H., Wang, Y., and Listgarten, J. (2023). Coherent blend- ing of biophysics-based knowledge with bayesian neural networks for robust protein property prediction. ACS Synth. Biol. 12, 3242–3251. https://doi.org/10.1021/acssynbio.3c00217.
Zheng, F., Kelly, M.R., Ramms, D.J., Heintschel, M.L., Tao, K., Tutuncuo-glu, B., Lee, J.J., Ono, K., Foussard, H., Chen, M., et al. (2021). Interpre-tation of cancer mutations using a multiscale map of protein systems.Science 374, eabf3067.
Ma, J., Yu, M.K., Fong, S., Ono, K., Sage, E., Demchak, B., Sharan, R.,and Ideker, T. (2018). Using deep learning to model the hierarchical struc-ture and function of a cell. Nat. Methods 15, 290–298.
Gao, S., Fang, A., Huang, Y., Giunchiglia, V., Noori, A., Schwarz, J.R., Ek-tefaie, Y., Kondic, J., and Zitnik, M. (2024). Empowering biomedical dis-covery with AI agents. Cell 187, 6125–6151.
Hurrell, T., Naidoo, J., Ntlhafu, T., and Scholefield, J. (2024). An Africanperspective on genetically diverse human induced pluripotent stem celllines. Nat. Commun. 15, 8581.
Gibbs, R.A., Belmont, J.W., Hardenbol, P., Willis, T.D., Yu, F.L., Yang,H.M., Ch’ang, L.Y., Huang, W., Shen, B., Tam, Y., et al. (2003). The inter-national HapMap project. Nature 5, 467–475.
Cancer; Genome; Atlas; Research Network, Weinstein, J.N., Collisson,E.A., Mills, G.B., Shaw, K.R.M., Ozenberger, B.A., Ellrott, K., Shmulevich,I., Sander, C., and Stuart, J.M. (2013). The cancer genome atlas pan-can-cer analysis project. Nat. Genet. 45, 1113–1120.
ENCODE Project Consortium (2012). An integrated encyclopedia of DNAelements in the human genome. Nature 489, 57–74.
Lonsdale, J., Thomas, J., Salvatore, M., Phillips, R., Lo, E., Shad, S.,Hasz, R., Walters, G., Garcia, F., Young, N., and Foster, B. (2013). TheGenotype-Tissue Expression (GTEx) project. Nat. Genet. 45, 580–585.
Ponte′ n, F., Jirstro¨ m, K., and Uhlen, M. (2008). The Human Protein Atlas–atool for pathology. J. Pathol. 216, 387–393.
Downey, P., and Peakman, T.C. (2008). Design and implementation of ahigh-throughput biological sample processing facil- ity using modernmanufacturing principles. Int. J. Epidemiol. 37 (Suppl 1 ), i46–i50.
Madani, A., Krause, B., Greene, E.R., Subramanian, S., Mohr, B.P., Hol-ton, J.M., Olmos, J.L., Xiong, C., Sun, Z.Z., Socher, R., et al. (2023). Largelanguage models generate func- tional protein sequences across diversefamilies. Nat. Biotechnol. 41, 1099–1106.
Nelson, M.R., Tipney, H., Painter, J.L., Shen, J., Nicoletti, P., Shen, Y.,Floratos, A., Sham, P.C., Li, M.J., Wang, J., et al. (2015). The supportof human genetic evidence for approved drug indications. Nat. Genet.47, 856–860.
Mason, C., Brindley, D.A., Culme-Seymour, E.J., and Davie, N.L. (2011).Cell therapy industry: billion dollar global business with unlimited poten-tial. Regen. Med. 6, 265–272.
Bashor, C.J., Hilton, I.B., Bandukwala, H., Smith, D.M., and Veiseh, O.(2022). Engineering the next generation of cell-based therapeutics. Nat.Rev. Drug Discov. 21, 655–675.
Jia, Q., Wang, A., Yuan, Y., Zhu, B., and Long, H. (2022). Heterogeneity ofthe tumor immune microenvironment and its clinical relevance. Exp.Hematol. Oncol. 11, 24.
Melssen, M.M., Sheybani, N.D., Leick, K.M., and Slingluff, C.L. (2023).Barriers to immune cell infiltration in tumors. J. Immunother. Cancer 11.
Chow, A., Perica, K., Klebanoff, C.A., and Wolchok, J.D. (2022). Clinicalimplications of T cell exhaustion for cancer immunotherapy. Nature Re-views Clinical Oncology 19, 775–790.
de Visser, K.E., and Joyce, J.A. (2023). The evolving tumor microenviron-ment: from cancer initiation to metastatic outgrowth. Cancer Cell 41,374–403.
Barkley, D., Moncada, R., Pour, M., Liberman, D.A., Dryg, I., Werba, G.,Wang, W., Baron, M., Rao, A., Xia, B., et al. (2022). Cancer cell statesrecur across tumor types and form specific interactions with the tumormicroenvironment. Nat. Genet. 54, 1192–1201.
Schwartzberg, L., Kim, E.S., Liu, D., and Schrag, D. (2017). Precisiononcology: who, how, what, when, and when not? American Society ofClinical Oncology Educational Book 37, 160–169.
Aebersold, R., Agar, J.N., Amster, I.J., Baker, M.S., Bertozzi, C.R., Boja,

E.S., Costello, C.E., Cravatt, B.F., Fenselau, C., Garcia, B.A., et al. (2018).How many human proteoforms are there? Nat. Chem. Biol. 14, 206–214.

Katsoulakis, E., Wang, Q., Wu, H., Shahriyari, L., Fletcher, R., Liu, J.,Achenie, L., Liu, H., Jackson, P., Xiao, Y., et al. (2024). Digital twins forhealth: a scoping review. npj Digit. Med. 7, 77.
Rajewsky, N., Almouzni, G., Gorski, S.A., Aerts, S., Amit, I., Bertero,M.G., Bock, C., Bredenoord, A.L., Cavalli, G., Chiocca, S., et al. (2020).Lifetime and improving European healthcare through cell-based inter-ceptive medicine. Nature 587, 377–386.
Alix-Panabie` res, C., and Pantel, K. (2021). Liquid biopsy: from discoveryto clinical application. Cancer Discov. 11, 858–873.
Vaishnav, E.D., de Boer, C.G., Molinet, J., Yassour, M., Fan, L., Adiconis,X., Thompson, D.A., Levin, J.Z., Cubillos, F.A., and Regev, A. (2022). Theevolution, evolvability and engineering of gene regulatory DNA. Nature603, 455–463.
Go′ mez-de-Mariscal, E., Garc?′a-Lo′ pez-de-Haro, C., Ouyang, W., Donati,L., Lundberg, E., Unser, M., Mun? oz-Barrutia, A., and Sage, D. (2021).DeepImageJ: A user-friendly environment to run deep learning modelsin ImageJ. Nat. Methods 18, 1192–1195.
Le, T., Winsnes, C.F., Axelsson, U., Xu, H., Mohanakrishnan Kaimal, J.,Mahdessian, D., Dai, S., Makarov, I.S., Ostankovich, V., Xu, Y., et al.(2022). Analysis of the human protein atlas weakly supervised single-cell classification competition. Nat. Methods 19, 1221–1229.
Chen, R.J., Ding, T., Lu, M.Y., Williamson, D.F.K., Jaume, G., Song, A.H.,Chen, B., Zhang, A., Shao, D., Shaban, M., et al. (2024). Towards a gen-eral-purpose foundation model for computational pathology. Nat. Med.30, 850–862.
Moen, E., Bannon, D., Kudo, T., Graf, W., Covert, M., and Van Valen, D.(2019). Deep learning for cellular image analysis. Nat. Methods 16,1233–1246.
Avsec, Zˇ., Weilert, M., Shrikumar, A., Krueger, S., Alexandari, A., Dalal,K., Fropf, R., McAnany, C....

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.