国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

楊立江、高毅勤、黃艷、楊俊林等綜述:AI賦能化學(xué)生物學(xué)

0
分享至


伴隨著算法、算力和數(shù)據(jù)的融合發(fā)展, 近年來(lái)人工智能(AI)取得了突破性的進(jìn)展. 得益于其在化學(xué)和生命科學(xué)領(lǐng)域的先驅(qū)性應(yīng)用探索, AI正在成為化學(xué)生物學(xué)研究的強(qiáng)有力工具, 并展現(xiàn)出整合學(xué)科和技術(shù)、改變化學(xué)生物學(xué)研究范式的前景和能力. 本文系統(tǒng)回顧了近年來(lái)AI在生物成像和譜學(xué)解析、生物大分子結(jié)構(gòu)與功能預(yù)測(cè)、藥物發(fā)現(xiàn)、精準(zhǔn)醫(yī)學(xué)和綠色生物制造五個(gè)重要領(lǐng)域的應(yīng)用, 展示了AI對(duì)于化學(xué)生物學(xué)研究的推動(dòng)作用. 最后, 也結(jié)合當(dāng)前AI技術(shù)本身存在的不足和化學(xué)生物學(xué)研究的瓶頸, 討論了AI賦能化學(xué)生物學(xué)領(lǐng)域存在的挑戰(zhàn)與未來(lái)發(fā)展方向.


1


引言

人工智能(artificial intelligence, AI)發(fā)展已歷經(jīng)60余年, 期間經(jīng)歷了多次起伏, 但是近20年來(lái), 隨著摩爾定律特別是黃氏定律(Huang's law, )1)驅(qū)動(dòng)的算力提高, 互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的崛起帶來(lái)的海量數(shù)據(jù)積累, 以及深度神經(jīng)網(wǎng)絡(luò)算法的崛起, AI在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、自動(dòng)駕駛等多個(gè)領(lǐng)域取得了飛速發(fā)展, 已經(jīng)達(dá)到了非常成熟的應(yīng)用水平, 改變著人類的生產(chǎn)和生活. 1)黃氏定律:以英偉達(dá)首席執(zhí)行官黃仁勛(Jensen Huang)名字命名的定律, 其預(yù)測(cè)GPU將推動(dòng)AI性能實(shí)現(xiàn)逐年翻倍.

以深度學(xué)習(xí)為代表的AI算法之所以能在近年來(lái)取得重大突破, 其本質(zhì)原因是在算力進(jìn)步和數(shù)據(jù)累積基礎(chǔ)之上, 新一代的深度學(xué)習(xí)算法對(duì)高維函數(shù)處理能力的大幅提升, 而AI所表現(xiàn)出的這種強(qiáng)大的數(shù)據(jù)降維和表達(dá)能力不僅是進(jìn)行自然語(yǔ)言處理和圖像識(shí)別的關(guān)鍵, 也是科學(xué)研究中處理復(fù)雜性的強(qiáng)有力工具, 因此AI正在引發(fā)科學(xué)研究范式的深刻變化[1]. 2024年諾貝爾化學(xué)獎(jiǎng)和諾貝爾物理學(xué)獎(jiǎng)均聚焦于AI與科學(xué)研究的先驅(qū)性結(jié)合. 諾貝爾化學(xué)獎(jiǎng), 頒發(fā)給了在蛋白質(zhì)設(shè)計(jì)與蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域做出開創(chuàng)性貢獻(xiàn)的David Baker博士、John Jumper博士以及Demis Hassabis博士; 諾貝爾物理學(xué)獎(jiǎng), 授予了John J. Hopfield博士與Geoffrey Hinton博士, 以表彰他們?cè)谌斯ど窠?jīng)網(wǎng)絡(luò)及機(jī)器學(xué)習(xí)核心原理方面的奠基性工作. 這些殊榮所代表的不僅是對(duì)過(guò)去卓越成果的致敬, 更是對(duì)未來(lái)科學(xué)探索前沿的預(yù)告. 科學(xué)人工智能(artificial intelligence for science, 簡(jiǎn)稱AI4S)現(xiàn)已成為AI的主戰(zhàn)場(chǎng), AI與不同學(xué)科交織, 正不斷拓展科學(xué)發(fā)現(xiàn)的邊界, 并展現(xiàn)出整合學(xué)科和技術(shù)、重新定義科學(xué)研究途徑、助力抵達(dá)未知之境的前景和能力.

面對(duì)復(fù)雜的分子世界, 化學(xué)家們?cè)陂L(zhǎng)期科學(xué)探索中積累了大量的物質(zhì)組成、結(jié)構(gòu)、性質(zhì)和轉(zhuǎn)化等實(shí)驗(yàn)數(shù)據(jù), 因此化學(xué)學(xué)科也是在研究中較早引入數(shù)據(jù)驅(qū)動(dòng)范式的學(xué)科. 早在20世紀(jì)70年代, Corey等[2~4]就開發(fā)了旨在幫助化學(xué)家設(shè)計(jì)復(fù)雜有機(jī)合成的合理路線的邏輯與啟發(fā)式合成分析系統(tǒng) (logic and heuristics applied to synthetic analysis, LHASA)程序, 是最早嘗試將邏輯和啟發(fā)式方法應(yīng)用于有機(jī)合成規(guī)劃的系統(tǒng)之一. 隨著算力、算法和化學(xué)大數(shù)據(jù)在最近幾十年的飛速進(jìn)步, 數(shù)據(jù)驅(qū)動(dòng)的物質(zhì)合成、逆合成分析取得了巨大的發(fā)展, 通過(guò)引入更豐富的數(shù)據(jù)和更有效的AI算法, 現(xiàn)代的合成規(guī)劃工具進(jìn)一步提升了合成路徑規(guī)劃的效率和準(zhǔn)確性[5~10]. AI的引入, 為化學(xué)學(xué)科的研究方法帶來(lái)了深刻的變革. 傳統(tǒng)的化學(xué)研究往往依賴于大量的實(shí)驗(yàn)和試錯(cuò), 而AI則能夠通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式, 快速篩選出有潛力的化合物或反應(yīng)條件, 大大提高了研究效率[11,12]. 近來(lái), 化學(xué)家們更是將AI模型和自動(dòng)化、機(jī)器人技術(shù)相結(jié)合, 從而實(shí)現(xiàn)了從設(shè)計(jì)、實(shí)施到測(cè)試整個(gè)流程都不需要人干預(yù)的智能化自動(dòng)實(shí)驗(yàn)系統(tǒng). 其中具有代表性的是中國(guó)科學(xué)技術(shù)大學(xué)江俊團(tuán)隊(duì)發(fā)展的數(shù)據(jù)智能驅(qū)動(dòng)的機(jī)器化學(xué)家. 該系統(tǒng)可以自主讀取大量化學(xué)文獻(xiàn)獲取先驗(yàn)化學(xué)知識(shí), 并自主提出科學(xué)假設(shè)、設(shè)計(jì)實(shí)驗(yàn)方案; 自主完成化學(xué)實(shí)驗(yàn)全流程; 通過(guò)理論計(jì)算建立具備實(shí)驗(yàn)反饋的理論預(yù)測(cè)模型, 并通過(guò)機(jī)器學(xué)習(xí)模型和貝葉斯優(yōu)化算法同時(shí)分析實(shí)驗(yàn)數(shù)據(jù), 為下一次迭代提出新的假設(shè), 實(shí)現(xiàn)理論與實(shí)驗(yàn)數(shù)據(jù)的交融[13].

AI驅(qū)動(dòng)的生命科學(xué)研究則是當(dāng)前最受關(guān)注、發(fā)展最迅猛的領(lǐng)域之一. 從20世紀(jì)90年代啟動(dòng)的“人類基因組計(jì)劃”開始, 生命科學(xué)領(lǐng)域就出現(xiàn)了從“實(shí)驗(yàn)驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)變的趨勢(shì). 也正是高通量測(cè)序技術(shù)的發(fā)展和海量序列數(shù)據(jù)的積累, 為2021年蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型AlphaFold2[14]的橫空出世奠定了基礎(chǔ). 而AlphaFold系列模型的成功則正式開啟了AI在生命科學(xué)領(lǐng)域廣泛應(yīng)用的新時(shí)代. 2024年諾貝爾化學(xué)獎(jiǎng)得主Demis Hassabis曾這樣說(shuō): “如果說(shuō)數(shù)學(xué)是物理的語(yǔ)言, 那么生物可能是AI語(yǔ)言最完美的描述對(duì)象”. 國(guó)外的谷歌、微軟、英偉達(dá)、Meta等信息技術(shù)產(chǎn)業(yè)巨頭已經(jīng)紛紛與生物技術(shù)企業(yè)開展合作, 加速融合布局. 美國(guó)哈佛大學(xué)、斯坦福大學(xué)、麻省理工學(xué)院等頂尖大學(xué)也已與安進(jìn)、巴斯夫、拜耳、禮來(lái)等醫(yī)藥公司開展了深度學(xué)習(xí)應(yīng)用方面的合作, 以驅(qū)動(dòng)藥物研發(fā)和個(gè)性化醫(yī)療中的新突破.

化學(xué)生物學(xué)(chemical biology)是化學(xué)與生物學(xué)、醫(yī)學(xué)、工程等領(lǐng)域交叉融合的前沿學(xué)科, 通過(guò)化學(xué)理論、方法和技術(shù)研究生命現(xiàn)象的本質(zhì)及調(diào)控機(jī)制. 其核心目標(biāo)是利用或開發(fā)化學(xué)工具解析生物分子、細(xì)胞、組織、活體等的結(jié)構(gòu)/相互作用及功能; 探索生物過(guò)程和疾病發(fā)生發(fā)展的化學(xué)基礎(chǔ)和調(diào)控新策略, 為生物技術(shù)、疾病診療和藥物研發(fā)等提供重要支撐. 得益于科學(xué)家在化學(xué)和生命科學(xué)領(lǐng)域開展的先驅(qū)性AI應(yīng)用探索, AI正在成為化學(xué)生物學(xué)研究的重要工具, 賦能化學(xué)生物學(xué)研究的各個(gè)方面. AI不僅能夠通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式提高研究效率, 還能夠整合和分析海量的化學(xué)和生物學(xué)數(shù)據(jù), 發(fā)現(xiàn)其中的隱藏規(guī)律和關(guān)聯(lián), 為化學(xué)生物學(xué)研究提供新的視角和思路. 這種研究方法的革新, 不僅加速了化學(xué)生物學(xué)的發(fā)展, 還推動(dòng)了其與相關(guān)學(xué)科的進(jìn)一步交叉融合.

2


AI賦能的化學(xué)生物學(xué)研究進(jìn)展

本文將從AI賦能的生物成像和譜學(xué)解析、AI賦能生物大分子結(jié)構(gòu)與功能預(yù)測(cè)、AI賦能藥物發(fā)現(xiàn)、AI賦能精準(zhǔn)醫(yī)學(xué)、AI賦能綠色生物制造五個(gè)方面回顧AI技術(shù)為化學(xué)生物學(xué)研究帶來(lái)的變革. 最后我們也將討論AI賦能化學(xué)生物學(xué)領(lǐng)域存在的挑戰(zhàn)與未來(lái)發(fā)展方向 (圖1).


圖 1 AI在生物成像和譜學(xué)解析、生物大分子結(jié)構(gòu)與功能預(yù)測(cè)、藥物發(fā)現(xiàn)、精準(zhǔn)醫(yī)學(xué)、綠色生物制造等方面為化學(xué)生物學(xué)研究帶來(lái)變革

2.1 AI賦能生物大分子結(jié)構(gòu)與功能預(yù)測(cè)

生物大分子(如蛋白質(zhì)、DNA和RNA等)的結(jié)構(gòu)與其功能密切相關(guān). 準(zhǔn)確預(yù)測(cè)生物大分子的三維結(jié)構(gòu)對(duì)于理解其生物學(xué)功能、設(shè)計(jì)新型藥物以及探索疾病機(jī)制至關(guān)重要. 同時(shí), 通過(guò)序列和結(jié)構(gòu)數(shù)據(jù)預(yù)測(cè)蛋白質(zhì)的功能, 為揭示新的藥物靶點(diǎn)提供支撐. 化學(xué)生物學(xué)不僅為預(yù)測(cè)提供實(shí)驗(yàn)支撐, 而且其技術(shù)手段能夠在分子水平上對(duì)蛋白質(zhì)進(jìn)行修飾與調(diào)控, 為驗(yàn)證預(yù)測(cè)結(jié)果、解析密碼功能機(jī)制提供直接的實(shí)驗(yàn)證據(jù), 推動(dòng)生命科學(xué)對(duì)遺傳信息傳遞和表達(dá)的深層認(rèn)知. 近年來(lái), AI技術(shù)的快速發(fā)展為生物大分子結(jié)構(gòu)與功能預(yù)測(cè)帶來(lái)了新的機(jī)遇, 顯著提升了預(yù)測(cè)精度和效率.

2.1.1 蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)

蛋白質(zhì)是生物體內(nèi)行使功能的主要生物大分子之一, 它們的結(jié)構(gòu)決定了它們?nèi)绾闻c其他分子相互作用來(lái)實(shí)現(xiàn)它們的功能. 通過(guò)確定蛋白質(zhì)結(jié)構(gòu), 科學(xué)家可以繪制藍(lán)圖, 指導(dǎo)開發(fā)更有效的藥物. 實(shí)驗(yàn)上獲得蛋白質(zhì)結(jié)構(gòu)常借助核磁共振(nuclear magnetic resonance, NMR)、X射線衍射(X-ray diffraction, XRD)、冷凍電子顯微鏡(cryo-electron microscopy, cryo-EM)等技術(shù)手段, 其成本高昂, 而且難以高通量獲得結(jié)構(gòu), 從而為下游基于結(jié)構(gòu)的功能預(yù)測(cè)和設(shè)計(jì)增加了技術(shù)難度. 另一方面, 蛋白質(zhì)分子是由基本的化學(xué)結(jié)構(gòu)單元氨基酸聚合而成的復(fù)合物, 因此它的主要特性都由這些基本單元的排布序列所決定. 由此衍生的最著名的推論之一, 便是蛋白質(zhì)的三維結(jié)構(gòu)在很大程度上由組成它的氨基酸序列所決定. Science 雜志曾指出, 蛋白質(zhì)折疊問(wèn)題是人類在21世紀(jì)需要解決的125個(gè)科學(xué)前沿問(wèn)題之一 [15] . 通過(guò)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)破譯“第二遺傳密碼”, 是生物學(xué)中心法則尚未揭示的奧妙之一, 也是目前結(jié)構(gòu)生物學(xué)面臨的一項(xiàng)具有挑戰(zhàn)性的重大基礎(chǔ)性研究課題. 科學(xué)界在過(guò)去50多年不斷地在嘗試如何從氨基酸序列出發(fā)預(yù)測(cè)對(duì)應(yīng)的蛋白質(zhì)的三維結(jié)構(gòu). 但是由于蛋白質(zhì)的構(gòu)象空間大且高度復(fù)雜, 因此這個(gè)問(wèn)題極具挑戰(zhàn). 經(jīng)過(guò)多年的努力, 由單序列進(jìn)行結(jié)構(gòu)預(yù)測(cè)取得了一些進(jìn)展, 如Facebook團(tuán)隊(duì)的ESM1b [16] 模型, 但其精度和可拓展性仍較為有限. 直至2021年谷歌DeepMind團(tuán)隊(duì)開發(fā)了AlphaFold2 [14] (AF2)算法, 它可以僅從序列信息出發(fā), 預(yù)測(cè)出精度可與實(shí)驗(yàn)方法相媲美的蛋白質(zhì)三維空間結(jié)構(gòu). DeepMind團(tuán)隊(duì)也與歐洲生物信息學(xué)研究所(EMBL-EBI)合作推出了AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù) [17] , 涵蓋了人類蛋白質(zhì)組近60%氨基酸的結(jié)構(gòu)位置預(yù)測(cè), 這一成就被 Nature 等學(xué)術(shù)期刊喻為“前所未有的進(jìn)步”. AF2發(fā)布不久之后, 華盛頓大學(xué)David Baker團(tuán)隊(duì)也發(fā)布了RoseTTAFold [18] , 能夠以更低的計(jì)算資源消耗達(dá)到與AF2不相上下的準(zhǔn)確度. 世界上多個(gè)團(tuán)隊(duì)也都提出了自己的解決方案, 包括北京大學(xué)-昌平實(shí)驗(yàn)室-華為昇思團(tuán)隊(duì)的MEGA-Fold [19] 、哥倫比亞大學(xué)Mohammed AlQuraishi團(tuán)隊(duì)的OpenFold [20] 以及深勢(shì)科技的UniFold [21] 等. 機(jī)器學(xué)習(xí)技術(shù), 特別是以AF2為代表的深度學(xué)習(xí)技術(shù), 在蛋白質(zhì)結(jié)構(gòu)領(lǐng)域的里程碑式成就的核心基礎(chǔ)就是相應(yīng)的數(shù)據(jù)積累. 其中最直接的數(shù)據(jù)庫(kù)是幾十年來(lái)積累的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù). 然而, 由于結(jié)構(gòu)解析困難, 時(shí)至今日, 已知的蛋白結(jié)構(gòu)仍然只停留在十幾萬(wàn)的數(shù)量級(jí)上. 這對(duì)于機(jī)器學(xué)習(xí), 特別是對(duì)數(shù)據(jù)量極其依賴的深度學(xué)習(xí)模型, 理論上是遠(yuǎn)不夠的. 真正引發(fā)了AF2這樣的技術(shù)變革, 使得蛋白結(jié)構(gòu)預(yù)測(cè)進(jìn)入“大數(shù)據(jù)”時(shí)代的實(shí)驗(yàn)技術(shù), 是對(duì)蛋白質(zhì)所對(duì)應(yīng)的基因序列的高通量測(cè)序. 自然界在進(jìn)化的過(guò)程中, 產(chǎn)生了大量序列相似, 因而結(jié)構(gòu)相似的近親蛋白. 那些穩(wěn)定的, 或是具有功能的結(jié)構(gòu), 都以相對(duì)保守的序列形式在進(jìn)化過(guò)程中保留了下來(lái). 此外, 那些在三維結(jié)構(gòu)上靠近的氨基酸, 在進(jìn)化過(guò)程中往往會(huì)產(chǎn)生很強(qiáng)的協(xié)同突變性. 而這些被隱藏在序列中的結(jié)構(gòu)秘密, 構(gòu)成了現(xiàn)代機(jī)器學(xué)習(xí)模型(包括AF2)來(lái)預(yù)測(cè)蛋白三維結(jié)構(gòu)的重要基礎(chǔ). 目前測(cè)序方法已經(jīng)實(shí)現(xiàn)了高通量化, 已收錄的蛋白序列數(shù)據(jù)也來(lái)到了幾億的數(shù)量級(jí), 遠(yuǎn)遠(yuǎn)超過(guò)已知結(jié)構(gòu)的數(shù)據(jù), 且仍在快速增長(zhǎng). 因此, 針對(duì)某一類感興趣的蛋白, 隨著人們對(duì)與它相關(guān)的蛋白序列的數(shù)據(jù)越來(lái)越豐富, 我們可以期待利用這些序列的信息越來(lái)越準(zhǔn)確地預(yù)測(cè)其結(jié)構(gòu). 2024年, 谷歌DeepMind又取得了重大突破, 發(fā)布了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域最新AI模型AlphaFold3 (AF3) [22] , 它不僅能夠預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu), 還能處理蛋白質(zhì)與核酸、小分子、離子等生物分子的復(fù)合物結(jié)構(gòu). AF3的關(guān)鍵優(yōu)勢(shì)之一是其準(zhǔn)確模擬共價(jià)修飾的能力, 如鍵合配體、糖基化以及修飾的蛋白質(zhì)和核酸殘基, 這種能力對(duì)于理解生物學(xué)過(guò)程背后復(fù)雜的分子機(jī)制至關(guān)重要, 有助于為疾病通路、基因組學(xué)、治療靶點(diǎn)、蛋白質(zhì)工程及合成生物學(xué)等領(lǐng)域帶來(lái)新見(jiàn)解.

AlphaFold系列算法通過(guò)深度學(xué)習(xí)整合多序列比對(duì)與注意力機(jī)制, 突破了傳統(tǒng)結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)的局限, 實(shí)現(xiàn)了接近實(shí)驗(yàn)精度的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè), 為復(fù)雜生物機(jī)制研究提供全局視角. 在病毒糖蛋白機(jī)制解析中, AlphaFold結(jié)合系統(tǒng)發(fā)育分析 [22] , 揭示了黃病毒科II類融合系統(tǒng)的保守進(jìn)化起源, 及肝炎病毒屬E1E2糖蛋白的獨(dú)特結(jié)構(gòu)與脊椎動(dòng)物感染相關(guān)性, 為廣譜抗病毒藥物及疫苗設(shè)計(jì)奠定了分子基礎(chǔ). 核孔復(fù)合體(NPC)研究中, AI建模聯(lián)合冷凍電子斷層掃描(cryo-electron tomography, cryo-ET), 構(gòu)建了7000萬(wàn)Da的動(dòng)態(tài)支架模型, 發(fā)現(xiàn)連接核孔蛋白通過(guò)空間組織亞復(fù)合體擴(kuò)大中央孔道 [23] , 揭示其構(gòu)象多樣性與核質(zhì)運(yùn)輸調(diào)控機(jī)制, 展現(xiàn)出AI與原位技術(shù)結(jié)合解析亞細(xì)胞結(jié)構(gòu)的潛力. 蛋白質(zhì)遞送系統(tǒng)開發(fā)領(lǐng)域, AlphaFold預(yù)測(cè)了昆蟲致病細(xì)菌的發(fā)光桿菌屬毒力基因簇(photorhabdus virulence cassette, PVC)尾纖維結(jié)構(gòu) [24] , 指導(dǎo)工程改造使其靶向能力重編程, 以近100%的效率遞送Cas9、堿基編輯器等功能載荷至人類細(xì)胞, 驗(yàn)證了其在基因治療與癌癥治療中的應(yīng)用價(jià)值, 體現(xiàn)出AI逆向設(shè)計(jì)蛋白質(zhì)的工程化能力. DNA復(fù)制機(jī)制研究中, 通過(guò)AlphaFold篩選互作蛋白發(fā)現(xiàn)DONSON作為支架蛋白介導(dǎo)脊椎動(dòng)物CMG解旋酶組裝 [25] , 其突變導(dǎo)致的復(fù)制缺陷在小鼠模型中重現(xiàn)小頭畸形侏儒癥表型, 將CMG組裝缺陷與疾病直接關(guān)聯(lián), 加速了致病機(jī)制解析. 此外, AlphaFold還可以指導(dǎo)小分子藥物設(shè)計(jì)與發(fā)現(xiàn) [26] .

如前文所述, AF3可以預(yù)測(cè)蛋白質(zhì)、DNA、RNA、小分子等在內(nèi)的幾乎所有生物分子結(jié)構(gòu)和相互作用. 而且它在結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性方面也取得了長(zhǎng)足的進(jìn)步, 對(duì)于蛋白質(zhì)與其他分子類型的相互作用, 與現(xiàn)有預(yù)測(cè)方法相比, 實(shí)現(xiàn)了至少50%的改進(jìn), 而對(duì)于一些重要的相互作用類別, AF3的預(yù)測(cè)準(zhǔn)確度實(shí)現(xiàn)了翻倍. 但AF3也存在局限性, 包括偶爾的立體化學(xué)侵犯(stereochemical violation), 如手性誤差和原子碰撞; 對(duì)某些目標(biāo)高度準(zhǔn)確的預(yù)測(cè)可能需要生成多個(gè)預(yù)測(cè)并對(duì)其進(jìn)行排序, 從而產(chǎn)生額外的計(jì)算成本. 另外, 實(shí)驗(yàn)上通常是在低溫下研究蛋白質(zhì)以確保其穩(wěn)定性, 然而范安德爾研究所的研究人員最近的研究揭示某些蛋白質(zhì)對(duì)溫度非常敏感, 在體溫下結(jié)構(gòu)會(huì)發(fā)生明顯變化, 從而影響其與配體的相互作用位置和方式 [27] . 而使用現(xiàn)有的AI預(yù)測(cè)模型, 如AlphaFold系列模型, 目前也只是預(yù)測(cè)靜態(tài)的蛋白質(zhì)結(jié)構(gòu), 因而對(duì)于下游應(yīng)用(如制藥)的作用有限. 因此, 仍然需要發(fā)展能夠捕捉和預(yù)測(cè)生物大分子生理?xiàng)l件下動(dòng)態(tài)結(jié)構(gòu)變化的方法和模型, 融合體內(nèi)環(huán)境實(shí)驗(yàn)技術(shù)和AI模型, 并進(jìn)行交互和迭代. 也需要發(fā)展能進(jìn)行高通量計(jì)算的跨尺度分子模擬技術(shù), 進(jìn)行高精度的生物大分子模擬. DeepMind團(tuán)隊(duì)著眼于分子模擬, 開發(fā)了通用方法GEMS [28] , 通過(guò)對(duì)“自下而上”和“自上而下”分子片段進(jìn)行訓(xùn)練, 來(lái)構(gòu)建用于大規(guī)模分子模擬的準(zhǔn)確機(jī)器學(xué)習(xí)力場(chǎng). 微軟研究院也提出了AI2BMD [29] 方法實(shí)現(xiàn)了對(duì)各類蛋白質(zhì)分子量子化學(xué)精度的動(dòng)力學(xué)模擬, 比密度泛函理論(DFT)方法模擬速度快多個(gè)數(shù)量級(jí), 并實(shí)現(xiàn)了對(duì)各類蛋白質(zhì)性質(zhì)更準(zhǔn)確的計(jì)算評(píng)估.

近年來(lái)OpenAI打造的ChatGPT的成功, 使人們看到了大語(yǔ)言模型(large language model, LLM)的威力. 相比于小模型數(shù)據(jù)有限、能力有瓶頸、碎片化情況嚴(yán)重, 以及缺乏規(guī)?;瘡?fù)制和涌現(xiàn)能力, AI大模型則具備多個(gè)場(chǎng)景通用、泛化和規(guī)?;瘡?fù)制等諸多優(yōu)勢(shì). 當(dāng)前的LLM在自然語(yǔ)言處理領(lǐng)域取得了顯著進(jìn)展, 但在理解和生成生物序列(如蛋白質(zhì))方面仍然不夠出色. 因此, 如何利用大語(yǔ)言模型橋接人類語(yǔ)言和蛋白質(zhì)語(yǔ)言的鴻溝是一個(gè)非常重要的問(wèn)題. 在近期的一些工作中, 研究者開始使用大語(yǔ)言模型對(duì)齊蛋白質(zhì)序列、結(jié)構(gòu)和功能之間的關(guān)系, 開發(fā)了蛋白質(zhì)語(yǔ)言模型(protein language model, PLM), 這些模型巧妙地掌握了蛋白質(zhì)的基礎(chǔ)知識(shí), 并能夠有效地泛化以解決各種序列-結(jié)構(gòu)-功能推理問(wèn)題. 例如, 在ProtChatGPT [30] 工作中, 研究者設(shè)計(jì)了將序列和結(jié)構(gòu)通過(guò)適配器投射到LLM的結(jié)構(gòu), 結(jié)合用戶指定的問(wèn)題生成關(guān)于蛋白質(zhì)的理解. 在InstructProtein [31] 工作中, 研究者通過(guò)知識(shí)因果建模生成從微觀層面到宏觀層面的知識(shí)圖譜, 并利用大語(yǔ)言模型生成了許多高質(zhì)量的指令, 在大語(yǔ)言模型上進(jìn)行微調(diào)后, 可以基于蛋白質(zhì)序列生成功能描述的文本, 以及利用自然語(yǔ)言提示生成符合要求的蛋白質(zhì)序列. ESM3 [32] 采用超大生成式語(yǔ)言模型框架, 可以同時(shí)對(duì)序列、結(jié)構(gòu)和功能進(jìn)行快速預(yù)測(cè)和設(shè)計(jì). 研究人員使用了超過(guò)31.5億條蛋白質(zhì)序列、2.36億個(gè)蛋白質(zhì)結(jié)構(gòu), 以及5.39億個(gè)帶有功能注釋的蛋白質(zhì)數(shù)據(jù)來(lái)訓(xùn)練ESM3, 該模型總共有三種不同的規(guī)模, 分別為14億、70億和980億參數(shù). 實(shí)驗(yàn)表明, 隨著模型參數(shù)規(guī)模的增加, ESM3在生成能力和表示學(xué)習(xí)上的性能有顯著提升, 特別是在生成蛋白質(zhì)結(jié)構(gòu)時(shí), 980億參數(shù)的模型表現(xiàn)出超越現(xiàn)有模型的強(qiáng)大能力. ProTokens [33] 模型實(shí)現(xiàn)了蛋白質(zhì)三維(3D)結(jié)構(gòu)的深度學(xué)習(xí)離散化, 證明了蛋白質(zhì)的骨架3D結(jié)構(gòu)可以被有效離散化成類似于氨基酸的符號(hào), 從而借用操作在氨基酸序列上的序列比對(duì)等技術(shù), 實(shí)現(xiàn)對(duì)3D結(jié)構(gòu)的高效比對(duì)、壓縮甚至可逆表示( 圖 2 ). ProTokens模型的核心思想是將蛋白質(zhì)的連續(xù)3D結(jié)構(gòu)轉(zhuǎn)化為離散的“Token”表示. 這一思想源于蛋白質(zhì)物理學(xué)中的亞穩(wěn)態(tài)理論. 盡管蛋白質(zhì)結(jié)構(gòu)在笛卡兒坐標(biāo)空間中可以連續(xù)變化, 但其穩(wěn)定態(tài)的數(shù)量是可數(shù)的. 基于這一理論, 研究者提出了概率性Token化理論, 將蛋白質(zhì)結(jié)構(gòu)的連續(xù)分布分解為離散部分(亞穩(wěn)態(tài))和連續(xù)部分(亞穩(wěn)態(tài)內(nèi)的波動(dòng)). 這種方法不僅能保留蛋白質(zhì)結(jié)構(gòu)的關(guān)鍵信息, 還能使蛋白質(zhì)結(jié)構(gòu)更易于AI模型處理,為蛋白質(zhì)設(shè)計(jì)開辟了新的可能性. 最近發(fā)布的ProtTeX [34] 模型也是通過(guò)結(jié)構(gòu)Token化和序列Token化將蛋白質(zhì)問(wèn)題轉(zhuǎn)化為語(yǔ)言建模任務(wù), 實(shí)現(xiàn)了蛋白功能預(yù)測(cè)、結(jié)構(gòu)生成與分析、多輪鏈?zhǔn)酵评?chain-of-thought)和定向蛋白設(shè)計(jì). 不過(guò), 需要強(qiáng)調(diào)的是, 在蛋白質(zhì)功能預(yù)測(cè)研究中, 孤兒蛋白(功能未知蛋白)的預(yù)測(cè)仍是亟待解決的關(guān)鍵科學(xué)難題. 這類蛋白因缺乏功能已知的同源蛋白或明確的結(jié)構(gòu)特征, 導(dǎo)致傳統(tǒng)的序列比對(duì)和結(jié)構(gòu)預(yù)測(cè)方法效果有限. 為突破這一瓶頸, 研究人員亟需發(fā)展基于蛋白質(zhì)語(yǔ)言模型的新型預(yù)測(cè)技術(shù), 利用大規(guī)模預(yù)訓(xùn)練模型深度挖掘蛋白質(zhì)序列中隱含的功能特征. 同時(shí), 通過(guò)將轉(zhuǎn)錄組、蛋白互作網(wǎng)絡(luò)、代謝通路等多組學(xué)數(shù)據(jù)整合到蛋白質(zhì)語(yǔ)言模型中, 構(gòu)建多維度的功能關(guān)聯(lián)網(wǎng)絡(luò), 則有望顯著提高預(yù)測(cè)可靠性. 可以預(yù)見(jiàn),通過(guò)融合人工智能模型、多組學(xué)數(shù)據(jù)整合及結(jié)構(gòu)預(yù)測(cè)等多維度方法, 將有望系統(tǒng)解析未知功能蛋白的生物學(xué)機(jī)制, 從而填補(bǔ)當(dāng)前功能注釋的空白. 未來(lái),當(dāng)更大規(guī)模、更豐富的蛋白質(zhì)數(shù)據(jù)能被大語(yǔ)言模型所利用, 蛋白質(zhì)語(yǔ)言模型就有可能推斷出遠(yuǎn)遠(yuǎn)超過(guò)人類認(rèn)知極限的蛋白質(zhì)潛在規(guī)律或深層結(jié)構(gòu), 從而為蛋白質(zhì)科學(xué)研究開辟嶄新境界.


圖 2 基于大語(yǔ)言模型的ProTokens示意圖. (a) 解碼器功能: 配備解碼器的Dr. LLaMA能夠以ProTokens形式生成蛋白質(zhì)3D結(jié)構(gòu), 既可根據(jù)指定的氨基酸序列提示進(jìn)行結(jié)構(gòu)預(yù)測(cè), 也可根據(jù)功能需求提示完成結(jié)構(gòu)設(shè)計(jì). (b) 編碼器功能: 配備編碼器的Dr. LLaMA能對(duì)蛋白質(zhì)主鏈進(jìn)行逆向折疊, 推導(dǎo)出對(duì)應(yīng)的氨基酸序列

2.1.2 RNA 結(jié)構(gòu)預(yù)測(cè)

RNA的序列比對(duì)同樣可以被應(yīng)用于其三維結(jié)構(gòu)及結(jié)構(gòu)信息預(yù)測(cè), 但目前該領(lǐng)域還主要集中在二級(jí)結(jié)構(gòu)預(yù)測(cè)方面, 其三維結(jié)構(gòu)預(yù)測(cè)較為困難和耗時(shí). 該領(lǐng)域的數(shù)據(jù)集規(guī)模相對(duì)較小, PDB單鏈RNA數(shù)目和代表性的RNA三維結(jié)構(gòu)數(shù)據(jù)集包含的結(jié)構(gòu)單元數(shù)均為萬(wàn)量級(jí). 對(duì)RNA結(jié)構(gòu)預(yù)測(cè), 深度學(xué)習(xí)數(shù)據(jù)增強(qiáng)方法可能幫助生成更多訓(xùn)練數(shù)據(jù), 從而幫助構(gòu)建更準(zhǔn)確的預(yù)測(cè)模型; 也可以發(fā)展高通量分子模擬方法以幫助三維結(jié)構(gòu)預(yù)測(cè)以及進(jìn)行數(shù)據(jù)生成; 還可能通過(guò)實(shí)驗(yàn)-計(jì)算結(jié)合的方式, 用相對(duì)少量實(shí)驗(yàn)數(shù)據(jù)幫助結(jié)構(gòu)建模. 2021年斯坦福大學(xué)Ron O Dror團(tuán)隊(duì)用幾何深度學(xué)習(xí)開發(fā)的ARES系統(tǒng) [35] , 僅需18個(gè)已知RNA結(jié)構(gòu)作為訓(xùn)練數(shù)據(jù), 即可突破傳統(tǒng)深度學(xué)習(xí)的數(shù)據(jù)依賴局限, 實(shí)現(xiàn)RNA結(jié)構(gòu)的精準(zhǔn)預(yù)測(cè). 清華大學(xué)和深圳灣實(shí)驗(yàn)室團(tuán)隊(duì)在RNA結(jié)構(gòu)預(yù)測(cè)的數(shù)據(jù)庫(kù)和模型建設(shè)中具有較好的基礎(chǔ) [ 36 ~ 38 ] , 最近香港中文大學(xué)、復(fù)旦大學(xué)等機(jī)構(gòu)的研究人員則開發(fā)了一種名為RhoFold+ [39] 的深度學(xué)習(xí)方法, 用于從頭預(yù)測(cè)RNA 3D結(jié)構(gòu). 該方法基于RNA語(yǔ)言模型, 并在約2370萬(wàn)個(gè)RNA序列上進(jìn)行了預(yù)訓(xùn)練, 解決了數(shù)據(jù)稀缺性的問(wèn)題. RhoFold+提供了完全自動(dòng)化的端到端流程, 在單鏈RNA建模方面表現(xiàn)出很高的準(zhǔn)確性, 并具有出色的泛化能力, 能夠捕捉螺旋間夾角和二級(jí)結(jié)構(gòu)等局部特征. 在RNA-Puzzles和CASP15天然RNA靶標(biāo)的評(píng)估中, RhoFold+的表現(xiàn)優(yōu)于現(xiàn)有方法. 盡管RhoFold+取得了顯著的成果, 它仍然存在一些局限性, 如依賴多序列比對(duì)(multiple sequence alignment, MSA)、難以預(yù)測(cè)大型復(fù)雜RNA結(jié)構(gòu)以及難以模擬RNA的動(dòng)態(tài)特性和與其他分子的相互作用. 未來(lái)的研究方向包括整合探測(cè)數(shù)據(jù)、分子動(dòng)力學(xué)和能量函數(shù)等方法, 以提高RhoFold+的準(zhǔn)確性, 并增強(qiáng)MSA提取過(guò)程和RNA相互作用預(yù)測(cè)能力.

AI在RNA結(jié)構(gòu)與功能預(yù)測(cè)研究領(lǐng)域?qū)崿F(xiàn)了多維度突破, 構(gòu)建起從基礎(chǔ)研究到臨床轉(zhuǎn)化的完整技術(shù)鏈條, 促進(jìn)了RNA化學(xué)生物學(xué)研究. 例如, 美國(guó)國(guó)家癌癥研究所王運(yùn)星團(tuán)隊(duì) [40] 針對(duì)柔性RNA結(jié)構(gòu)解析難題開發(fā)了HORNET方法, 在生理?xiàng)l件下實(shí)現(xiàn)了單分子RNA動(dòng)態(tài)構(gòu)象的可視化解析. 該技術(shù)成功捕獲HIV-1 Rev響應(yīng)元件RNA (RRE RNA)的五種異質(zhì)構(gòu)象, 揭示了其構(gòu)象異質(zhì)性直接影響Rev蛋白結(jié)合效率, 并設(shè)計(jì)出結(jié)合力超越天然蛋白3倍的多肽分子, 在小鼠模型中降低病毒載量90%. 又如, 加州大學(xué)Gene W Yeo團(tuán)隊(duì) [41] 構(gòu)建的HydRA系統(tǒng), 實(shí)現(xiàn)了超萬(wàn)級(jí)RNA結(jié)合蛋白(RBP)的精準(zhǔn)預(yù)測(cè). 他們進(jìn)一步結(jié)合實(shí)驗(yàn)發(fā)現(xiàn)了數(shù)百個(gè)新型RNA結(jié)合結(jié)構(gòu)域, 并證實(shí)其功能活性, 極大拓展了RNA調(diào)控網(wǎng)絡(luò)的認(rèn)知邊界.

2.1.3 生物大分子相互作用

DNA、RNA、蛋白質(zhì)作為中心法則的三種重要分子, 細(xì)胞生命過(guò)程的實(shí)現(xiàn)依賴于DNA、RNA、蛋白質(zhì)等分子之間的復(fù)雜相互作用, 目前人們對(duì)其中具體的作用形式已經(jīng)有了較為豐富的認(rèn)識(shí). 蛋白質(zhì)是多數(shù)細(xì)胞活動(dòng)的直接執(zhí)行者, 其功能實(shí)現(xiàn)往往需要分子間相互作用, 包括但不限于蛋白-蛋白、蛋白-RNA、蛋白-DNA等類型; DNA-RNA相互作用與轉(zhuǎn)錄和轉(zhuǎn)錄調(diào)控直接相關(guān); DNA間的遠(yuǎn)程物理相互作用與其調(diào)控往往需要轉(zhuǎn)錄因子蛋白輔助; RNA直接參與蛋白翻譯, 還可以與DNA、蛋白質(zhì)一同通過(guò)液液相分離的機(jī)制形成細(xì)胞內(nèi)的無(wú)膜細(xì)胞器, 調(diào)控基因的轉(zhuǎn)錄與翻譯. 理解這些二體乃至多體相互作用不僅有助于增強(qiáng)對(duì)生命過(guò)程中調(diào)控關(guān)系的理解, 更有助于對(duì)這些調(diào)控關(guān)系進(jìn)行干預(yù), 從而預(yù)防或治療疾病.

基于生物計(jì)算預(yù)測(cè)蛋白間相互作用及其變化, 可以促進(jìn)抗體藥物等蛋白藥物設(shè)計(jì)以及生物制藥的發(fā)展, 是研究的難點(diǎn)之一. 以DeepMind開發(fā)的AlphaFold-Multimer [42] 為代表的蛋白間相互作用的深度學(xué)習(xí)預(yù)測(cè)模型是近期這個(gè)方向上的重要進(jìn)展, 但由于構(gòu)成復(fù)合物的多條子鏈之間往往缺少共進(jìn)化信息和全局模板信息, 所以目前的深度學(xué)習(xí)預(yù)測(cè)模型大多在多鏈復(fù)合物的結(jié)構(gòu)預(yù)測(cè)中表現(xiàn)并不理想. 針對(duì)這一問(wèn)題, Feng等 [43] 提出了一個(gè)用于蛋白復(fù)合物構(gòu)象預(yù)測(cè)的通用框架——ColabDock, 它是一個(gè)由稀疏實(shí)驗(yàn)約束引導(dǎo)的蛋白質(zhì)-蛋白質(zhì)對(duì)接結(jié)構(gòu)預(yù)測(cè)通用框架. 通過(guò)在構(gòu)象搜索過(guò)程中使用梯度反向傳播替代傳統(tǒng)蛋白對(duì)接軟件中的快速傅里葉變換, 該方法有效整合了蛋白結(jié)構(gòu)預(yù)測(cè)深度學(xué)習(xí)模型的能量景觀和稀疏實(shí)驗(yàn)約束, 可以自動(dòng)搜索滿足兩者的構(gòu)象, 同時(shí)也能容忍約束中的沖突或模糊性. 另外, ColabDock可以利用不同形式和來(lái)源的實(shí)驗(yàn)約束, 而無(wú)需進(jìn)一步進(jìn)行大規(guī)模重新訓(xùn)練或微調(diào). 測(cè)試顯示, ColabDock不僅在具有模擬殘基和表面約束的復(fù)雜結(jié)構(gòu)預(yù)測(cè)中優(yōu)于HADDOCK和ClusPro, 而且在結(jié)合核磁共振化學(xué)位移擾動(dòng)和共價(jià)標(biāo)記輔助的情況下也表現(xiàn)出色. 北京大學(xué)/昌平實(shí)驗(yàn)室高毅勤團(tuán)隊(duì)也發(fā)展了可以整合多種實(shí)驗(yàn)信息輔助蛋白復(fù)合物結(jié)構(gòu)預(yù)測(cè)的原創(chuàng)性方法和模型GRASP [44] (廣義約束輔助結(jié)構(gòu)預(yù)測(cè)模型, generalized restraints assisted structure predictor), 通過(guò)在AI模型中引入實(shí)驗(yàn)約束和分子模擬采樣, 把有限制的結(jié)構(gòu)生成和強(qiáng)化學(xué)習(xí)結(jié)合起來(lái). 該方法可以應(yīng)用于XL-MS、NMR、共價(jià)標(biāo)記(covalent labeling, CL)、深度突變掃描(deep mutational scanning, DMS)、化學(xué)位移微擾(chemical shift perturbation, CSP)、氫氘交換質(zhì)譜(hydrogen-deuterium exchange mass spectrometry, HDX-MS)等多種類型的實(shí)驗(yàn)約束整合, 并進(jìn)行抗原-抗體等蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測(cè), 預(yù)測(cè)精度上超越了AlphaFold-Multimer和AlphaFold3. 更為重要的是, 該方法能夠高效利用稀疏的實(shí)驗(yàn)信息實(shí)現(xiàn)蛋白相互作用組的高通量建模, 實(shí)現(xiàn)亞細(xì)胞層級(jí)的蛋白相互作用組搭建和體內(nèi)動(dòng)態(tài)相互作用建模, 為進(jìn)一步的疫苗和抗體研發(fā)、疾病診斷、靶點(diǎn)發(fā)現(xiàn)和藥物設(shè)計(jì)等提供基礎(chǔ).

對(duì)比蛋白-蛋白相互作用預(yù)測(cè), 關(guān)于DNA-蛋白、DNA-DNA和DNA-RNA的相互作用研究, 目前更是困難重重. 這些問(wèn)題的解決, 需要整合多尺度、多組學(xué)信息, 分類構(gòu)建一系列分析技術(shù)與方法. 在同種分子層面上, 整合多種一維組學(xué)數(shù)據(jù)以對(duì)DNA層面的三維相互作用進(jìn)行預(yù)測(cè); 進(jìn)一步開發(fā)蛋白間相互作用的預(yù)測(cè)模型與結(jié)合蛋白藥物的設(shè)計(jì). 發(fā)展和整合基因組、表觀遺傳組、蛋白組等多組學(xué)數(shù)據(jù)集, 開發(fā)多模態(tài)方法, 以適應(yīng)生物體系的多層級(jí)特性, 可以增進(jìn)對(duì)生物大分子調(diào)控關(guān)系的理解. 這些方面的綜合性研究, 特別是將三維基因組學(xué)、表觀遺傳學(xué)和蛋白組學(xué)結(jié)合起來(lái)研究多種大分子的相互作用的工作處于起步階段, 將可能帶來(lái)重要的研究范式變革. 例如,北京大學(xué)高毅勤團(tuán)隊(duì)通過(guò)分析染色質(zhì)三維結(jié)構(gòu)特征發(fā)現(xiàn), 染色質(zhì)結(jié)構(gòu)包含的基因鄰近信息可能參與指導(dǎo)轉(zhuǎn)錄與翻譯層面的分子互作關(guān)系, 進(jìn)而構(gòu)建基因調(diào)控網(wǎng)絡(luò) [45] . 首先, 從DNA到RNA層面, 結(jié)直腸組織染色質(zhì)三維結(jié)構(gòu)中基因的鄰近關(guān)系與基因的共表達(dá)存在對(duì)應(yīng)關(guān)系. 這說(shuō)明正常組織染色質(zhì)三維結(jié)構(gòu)的長(zhǎng)程相互作用在基因轉(zhuǎn)錄調(diào)控中可能起到了重要作用, 使得序列距離較遠(yuǎn)的基因也能夠共享相似的轉(zhuǎn)錄環(huán)境, 包括轉(zhuǎn)錄因子和表觀遺傳信號(hào), 從而實(shí)現(xiàn)共調(diào)控與共轉(zhuǎn)錄. 其次, 從DNA到蛋白質(zhì)層面上, 他們發(fā)現(xiàn)鄰近基因翻譯出的蛋白也更傾向于具有物理相互作用. 這些發(fā)現(xiàn)拓展了對(duì)中心法則的理解, 即除了一維序列信息的傳遞, 基因間的調(diào)控關(guān)系也可以儲(chǔ)存在染色質(zhì)三維結(jié)構(gòu)中(DNA層面), 通過(guò)基因的轉(zhuǎn)錄共調(diào)控(RNA層面)從而實(shí)現(xiàn)調(diào)控下游蛋白間的相互作用(蛋白層面) [46] .

2.2 AI賦能的生物成像和譜學(xué)解析

生物成像和生物譜學(xué)解析作為化學(xué)生物學(xué)研究中的兩大核心技術(shù), 在解析生命分子機(jī)制、動(dòng)態(tài)過(guò)程及疾病機(jī)理中發(fā)揮著不可替代的作用. AI通過(guò)自動(dòng)化解析、多模態(tài)整合及多尺度分子模擬, 正在重塑生物成像與譜學(xué)解析的研究邊界.

2.2.1 生物成像

生物成像技術(shù)通過(guò)高時(shí)空分辨率的成像手段, 實(shí)現(xiàn)對(duì)生物分子活性和細(xì)胞過(guò)程的實(shí)時(shí)動(dòng)態(tài)觀測(cè), 其為化學(xué)生物學(xué)研究提供了強(qiáng)有力的工具和方法. 自20世紀(jì)50年代至今已有多項(xiàng)諾貝爾獎(jiǎng)與顯微成像技術(shù)相關(guān), 之后成像技術(shù)發(fā)展迅猛, 新技術(shù)層出不窮. 2014年諾貝爾化學(xué)獎(jiǎng)被授予研制出超分辨率熒光顯微鏡的三位科學(xué)家, 他們將熒光顯微成像的分辨率帶入到“納米時(shí)代”, 極大地推動(dòng)了生命科學(xué)領(lǐng)域的研究工作 [ 47 ~ 50 ] . 然而, 超分辨顯微成像在數(shù)據(jù)采集、重建和分析中仍面臨噪聲干擾、成像速度限制、動(dòng)態(tài)過(guò)程捕捉困難等挑戰(zhàn). 近年來(lái), 得益于AI技術(shù)的快速發(fā)展, 深度學(xué)習(xí)被用于克服超分辨顯微技術(shù)的各種缺陷 [51] .

單分子定位顯微鏡(single-molecule localization microscopy, SMLM) [52] ,通過(guò)隨機(jī)激發(fā)熒光分子并定位重建來(lái)實(shí)現(xiàn)超分辨成像, 但其存在時(shí)間分辨率低、光毒性、光漂白、分子定位精度和速度低等問(wèn)題. 為了提高重建速度, Nehme等 [53] 提出了深度學(xué)習(xí)驅(qū)動(dòng)隨機(jī)光學(xué)重建顯微法(deep stochastic optical reconstruction microscopy, Deep-STORM), 該技術(shù)利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN) [ 54 ~ 56 ] 從SMLM的稀疏數(shù)據(jù)中重建超分辨圖像, 顯著提升了定位精度和信噪比. 接著, Li等 [57] 受Deep-STORM啟發(fā), 進(jìn)一步結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)提出了深度遞歸監(jiān)督網(wǎng)絡(luò)(deep recurrent-supervised network)-STORM (DRSN-STORM); Speiser等 [58] 則提出了一種基于U-Net網(wǎng)絡(luò)的深度上下文相關(guān)(deep context dependent, DECODE) [59] 架構(gòu), 用以在單分子定位中區(qū)分真實(shí)信號(hào)與隨機(jī)噪聲; 也有研究者基于神經(jīng)網(wǎng)絡(luò)開發(fā)了ANN-PALM [60] 、DBlink [61] 等方法來(lái)減少圖像重建所需幀數(shù), 這些方法都提高了成像速度和定位精度. 受激發(fā)射損耗顯微術(shù)(stimulated emission depletion microscopy, STED) [62] 是主流的超分辨技術(shù)之一, 它通過(guò)高斯激發(fā)光和環(huán)形光束的配合, 實(shí)現(xiàn)超分辨成像. STED實(shí)現(xiàn)超分辨的關(guān)鍵在于損耗光的功率以及受激輻射與自發(fā)熒光相互競(jìng)爭(zhēng)中的非線性效應(yīng),淬滅光功率越強(qiáng), 空間分辨率越高, 但使用強(qiáng)耗損光的同時(shí)會(huì)帶來(lái)光漂白、光毒性、光損傷等問(wèn)題. 此外, 對(duì)于厚樣品STED的軸向分辨率仍有待提升. 為了提高成像速度, 減少光損傷, Ebrahimi等 [63] 借助U-Net和殘差通道注意力網(wǎng)絡(luò)(residual channel attention network, RCAN)架構(gòu) [64] 提出了多階段漸進(jìn)圖像恢復(fù)(multi-stage progressive image restoration, MPRNet)的方法, 能夠使STED的像素停留時(shí)間減小1~2個(gè)數(shù)量級(jí), 極大提升了成像速度, 進(jìn)而減少了對(duì)樣品的光漂白與光損傷. 此外, 還有研究通過(guò)深度對(duì)抗網(wǎng)絡(luò)(deep adversarial networks, DAN)、結(jié)合單螺旋點(diǎn)擴(kuò)散函數(shù)與深度學(xué)習(xí)算法 [ 65 , 66 ] , 進(jìn)一步提升了STED的橫向和軸向分辨率. 研究者也嘗試使用深度學(xué)習(xí)將非超分辨成像技術(shù)所成圖像直接轉(zhuǎn)換為超分辨圖像. 例如, Wang等 [67] 使用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN) [68] 實(shí)現(xiàn)了共聚焦圖像與STED相匹配的分辨率; Huang等 [69] 提出的雙通道注意力網(wǎng)絡(luò)(two-channel attention network, TCAN)提高了圖像分辨率等. AI技術(shù)正逐步重塑超分辨顯微成像的全流程: 從數(shù)據(jù)采集(實(shí)時(shí)去噪、自適應(yīng)光學(xué))、重建(分辨率突破)到分析(動(dòng)態(tài)追蹤、功能解析). 未來(lái), 隨著物理驅(qū)動(dòng)AI模型、邊緣計(jì)算與跨學(xué)科方法的進(jìn)一步發(fā)展, 超分辨成像將邁向更高維度(4D時(shí)空成像)、更高通量(全組織尺度)及更高智能化(自主實(shí)驗(yàn)設(shè)計(jì)). 這一技術(shù)革新不僅推動(dòng)基礎(chǔ)科學(xué)研究, 也為精準(zhǔn)醫(yī)學(xué)診斷(如病理切片超分辨分析)和新藥研發(fā)(如單分子藥物靶點(diǎn)追蹤)提供了強(qiáng)大工具.

生物大分子的結(jié)構(gòu)解析對(duì)于理解其功能和相互作用至關(guān)重要. 通過(guò)揭示生物大分子的三維結(jié)構(gòu), 研究人員能夠更深入地了解其如何參與生命過(guò)程, 如酶催化、信號(hào)傳導(dǎo)和基因表達(dá)等. cryo-EM [ 70 , 71 ] 是近年來(lái)在結(jié)構(gòu)生物學(xué)領(lǐng)域最重要的生物成像技術(shù), 被科學(xué)家稱為“諾獎(jiǎng)助手”. 然而, 傳統(tǒng)的cryo-EM單顆粒分析重構(gòu)方法往往僅生成一個(gè)靜態(tài)的三維結(jié)構(gòu), 無(wú)法進(jìn)行動(dòng)態(tài)構(gòu)象分析. 此外, 生物大分子之所以能實(shí)現(xiàn)眾多關(guān)鍵的生物學(xué)功能, 很大程度上得益于其卓越的柔性結(jié)構(gòu)特質(zhì). 然而, 正是這一柔性結(jié)構(gòu)特質(zhì), 成為了研究人員對(duì)其進(jìn)行高精度結(jié)構(gòu)解析的主要障礙. 因此, 結(jié)構(gòu)生物學(xué)領(lǐng)域的一個(gè)重要挑戰(zhàn)就是如何高分辨率地解析生物大分子的三維結(jié)構(gòu), 尤其是其柔性區(qū)域結(jié)構(gòu), 并通過(guò)重建其動(dòng)態(tài)過(guò)程來(lái)理解其生物學(xué)功能. AI的引入為cryo-EM技術(shù)的發(fā)展帶來(lái)了新可能, 冷凍電子顯微鏡數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié), 包括粒子選取、三維重建、分辨率確定、圖像銳化和模型構(gòu)建等, 都可以利用AI來(lái)優(yōu)化和增強(qiáng). 例如, Liu等 [72] 開發(fā)的spIsoNet技術(shù), 通過(guò)自監(jiān)督深度學(xué)習(xí)顯著提高了生物大分子重建的質(zhì)量, 增強(qiáng)了對(duì)齊精度和角度各向同性. 馬劍鵬團(tuán)隊(duì) [73] 發(fā)展了冷凍電鏡密度圖重構(gòu)算法OPUS-DSD, 不但能夠成功地解析因傳統(tǒng)解析方法無(wú)法分辨而缺損的生物大分子(如蛋白質(zhì)、核酸或蛋白質(zhì)/核酸復(fù)合物等)結(jié)構(gòu), 并且能高效、精準(zhǔn)地分辨出柔性結(jié)構(gòu)域在受測(cè)樣品中的構(gòu)象分布. 他們也開發(fā)了蛋白質(zhì)側(cè)鏈建模技術(shù)OPUS-Rota5 [74] , 經(jīng)過(guò)OPUS-Rota5側(cè)鏈修正后的結(jié)構(gòu)具有更高的分子對(duì)接成功率. cryo-EM技術(shù)的持續(xù)發(fā)展使研究人員能夠研究更復(fù)雜、更具挑戰(zhàn)性的超大生物大分子機(jī)器的結(jié)構(gòu)和功能. 例如, 孫飛團(tuán)隊(duì) [75] 全面介紹了利用冷凍電子顯微鏡技術(shù)對(duì)核孔復(fù)合體的研究, 特別強(qiáng)調(diào)了通過(guò)結(jié)合最新冷凍電子顯微鏡技術(shù)和AI建模技術(shù)實(shí)現(xiàn)亞納米分辨率的突破性進(jìn)展. 顏寧團(tuán)隊(duì) [76] 則提出了一個(gè)名為CryoSeek的新策略, 將冷凍電子顯微鏡作為一種觀察工具, 結(jié)合AI輔助的自動(dòng)建模和生物信息學(xué)分析, 發(fā)現(xiàn)了自然界中完全未知的新型生物實(shí)體. 在動(dòng)態(tài)過(guò)程捕捉上, 具有代表性的工作是2022年北京大學(xué)毛有東團(tuán)隊(duì)將AI應(yīng)用于提升時(shí)間分辨冷凍電子顯微鏡的分析精度, 解析了蛋白酶體降解底物的13種中間態(tài)構(gòu)象, 揭示了USP14調(diào)控的動(dòng)力學(xué)機(jī)制 [77] .

結(jié)構(gòu)生物學(xué)研究的未來(lái)目標(biāo)是在細(xì)胞環(huán)境中進(jìn)行原位結(jié)構(gòu)研究, cryo-ET技術(shù)使這一目標(biāo)成為現(xiàn)實(shí), 開創(chuàng)了結(jié)構(gòu)生物學(xué)的新時(shí)代. 與單顆粒分析不同, cryo-ET能夠直接對(duì)細(xì)胞切片進(jìn)行成像, 并通過(guò)傾斜系列圖像重建出切片的三維結(jié)構(gòu), 從而揭示生物大分子在其天然狀態(tài)下的空間組織和相互作用. 然而, 傳統(tǒng)的cryo-ET技術(shù)同樣面臨諸多挑戰(zhàn). 例如, 由于電子束的輻射損傷, cryo-ET通常需要使用極低劑量的電子束采集數(shù)據(jù), 這會(huì)導(dǎo)致信噪比較低. 同時(shí), 傾斜樣品平臺(tái)也會(huì)導(dǎo)致成像的對(duì)比轉(zhuǎn)移函數(shù)出現(xiàn)空間變化, 進(jìn)一步限制成像的分辨率. 此外, cryo-ET的數(shù)據(jù)中保留細(xì)胞內(nèi)各種分子, 這為從其中辨別分析特定分子帶來(lái)了巨大挑戰(zhàn). 更重要的是, 生物大分子在細(xì)胞內(nèi)的動(dòng)態(tài)行為和構(gòu)象變化往往被“凍結(jié)”在某一時(shí)刻, 現(xiàn)有的cryo-ET數(shù)據(jù)分析方法也是基于靜態(tài)假設(shè), 所以難以捕捉動(dòng)態(tài)過(guò)程的細(xì)節(jié). 而結(jié)合機(jī)器學(xué)習(xí)和先進(jìn)圖像處理技術(shù), 則有望從cryo-ET數(shù)據(jù)中還原更加精細(xì)的分子結(jié)構(gòu)和動(dòng)態(tài)特征, 從而深入探索生物大分子在復(fù)雜生理環(huán)境中的功能機(jī)制, 以及不同大分子的協(xié)作 [78] .

AI與冷凍電鏡的協(xié)同創(chuàng)新, 不僅解決了傳統(tǒng)結(jié)構(gòu)生物學(xué)的效率瓶頸, 更開啟了動(dòng)態(tài)結(jié)構(gòu)與復(fù)雜體系研究的新紀(jì)元. 未來(lái), 隨著算法提升、多模態(tài)數(shù)據(jù)整合和自動(dòng)化平臺(tái)的普及, 這一技術(shù)組合將在基礎(chǔ)科學(xué)和醫(yī)學(xué)中釋放更大潛力.

2.2.2 生物譜學(xué)解析

生物譜學(xué)技術(shù)(如質(zhì)譜、核磁共振)通過(guò)高靈敏度的分子檢測(cè), 提供生物分子的定性與定量信息, 被廣泛應(yīng)用于化學(xué)生物學(xué)研究中: 質(zhì)譜(mass spectrometry, MS)技術(shù)可鑒定蛋白質(zhì)結(jié)構(gòu)、分析磷酸化/糖基化修飾, 并實(shí)現(xiàn)蛋白質(zhì)組定量; 質(zhì)譜結(jié)合色譜分離技術(shù), 被用于解析代謝物譜以揭示疾病標(biāo)志物; 通過(guò)設(shè)計(jì)小分子探針干擾特定信號(hào)通路, 并結(jié)合質(zhì)譜分析探針-靶標(biāo)結(jié)合位點(diǎn), 可以用于研究細(xì)胞壞死或自噬的調(diào)控機(jī)制.

譜學(xué)方法的應(yīng)用一直受制于譜學(xué)數(shù)據(jù)的解析效率和難度, 傳統(tǒng)的人工或半自動(dòng)化解析方法不僅效率低下, 而且容易引入主觀偏差, 嚴(yán)重依賴于實(shí)驗(yàn)者的經(jīng)驗(yàn). 深度學(xué)習(xí)模型的應(yīng)用則可以極大地減少人為錯(cuò)誤, 提高數(shù)據(jù)處理的速度和準(zhǔn)確性. 例如, 清華大學(xué)陳春來(lái)團(tuán)隊(duì)發(fā)展的DEBRIS [79] 方法, 通過(guò)精準(zhǔn)識(shí)別單分子熒光軌跡的局部特征, 并允許根據(jù)實(shí)驗(yàn)設(shè)計(jì)靈活調(diào)整分類標(biāo)準(zhǔn), 實(shí)現(xiàn)了在不修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的前提下, 對(duì)雙色/單色實(shí)驗(yàn)條件下的穩(wěn)定和動(dòng)態(tài)單分子熒光信號(hào)進(jìn)行準(zhǔn)確識(shí)別. 中國(guó)科學(xué)院大學(xué)和溫州醫(yī)科大學(xué)的研究團(tuán)隊(duì), 則通過(guò)使用拉曼光譜結(jié)合卷積神經(jīng)網(wǎng)絡(luò)研究人體肝組織樣本, 以快速、非破壞性和無(wú)標(biāo)簽的方式將癌組織與鄰近的非腫瘤組織區(qū)分開來(lái) [80] . NMR方法是一種以原子分辨率解析更貼近蛋白質(zhì)在實(shí)際環(huán)境下的溶液態(tài)構(gòu)象與動(dòng)態(tài)結(jié)構(gòu)的方法, 然而該方法存在數(shù)據(jù)解析速度慢的問(wèn)題, 平均單條蛋白需要領(lǐng)域?qū)<彝度胫辽贁?shù)月, 而其中大部分時(shí)間都消耗在實(shí)驗(yàn)數(shù)據(jù)的解析和歸屬上. 高毅勤團(tuán)隊(duì) [81] 發(fā)展了AI+約束結(jié)構(gòu)預(yù)測(cè)模型RASP, 并在其基礎(chǔ)上開發(fā)了核磁共振增強(qiáng)光譜(nuclear overhauser enhancement spectroscopy, NOESY)自動(dòng)解析方法——蛋白折疊結(jié)構(gòu)輔助的共振峰指認(rèn)(folding assisted peak assignment, FAAST), 實(shí)現(xiàn)了NMR數(shù)據(jù)解析時(shí)間從數(shù)月到數(shù)小時(shí)的縮短. 陳忠團(tuán)隊(duì) [82] 將物理信息嵌入仿真數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)模型中, 提出基于深度學(xué)習(xí)的多維拉普拉斯磁共振快速重建算法DLEMLR, 克服了拉普拉斯反演的病態(tài)性及提高重建譜圖的分辨率, 并將重建時(shí)間縮短至秒級(jí). 基于質(zhì)譜的蛋白質(zhì)組學(xué)是蛋白質(zhì)鑒定的核心技術(shù), 但其數(shù)據(jù)處理面臨高噪聲、高維度等挑戰(zhàn). AI在質(zhì)譜分析中不僅可以加速數(shù)據(jù)處理和解讀, 還通過(guò)預(yù)測(cè)模型和自動(dòng)化技術(shù)革新了實(shí)驗(yàn)設(shè)計(jì)和結(jié)構(gòu)解析, 成為推動(dòng)蛋白質(zhì)組學(xué)發(fā)展的核心驅(qū)動(dòng)力. 通過(guò)深度學(xué)習(xí)算法可以顯著提升數(shù)據(jù)獨(dú)立采集(data independent acquisition, DIA)的復(fù)雜譜圖解析能力, 使肽段識(shí)別數(shù)量翻倍, 減少假陽(yáng)性 [83] . 利用深度學(xué)習(xí)生成預(yù)測(cè)譜庫(kù), 輔助DIA數(shù)據(jù)分析, 也可以提高低豐度肽段的檢測(cè)靈敏度 [ 84 , 85 ] . AI也能用于預(yù)測(cè)肽段的洗脫時(shí)間、離子化效率及“proteotypic”肽段(易檢測(cè)的代表性肽段), 優(yōu)化實(shí)驗(yàn)設(shè)計(jì) [86] . 在交聯(lián)質(zhì)譜(cross-linking mass spectrometry, XL-MS)中, 通過(guò)整合AlphaFold2等AI工具, 解析蛋白質(zhì)相互作用網(wǎng)絡(luò)和結(jié)構(gòu)模型, 則可以提升交聯(lián)數(shù)據(jù)的結(jié)構(gòu)背景解釋 [87] .

2.3 AI賦能藥物發(fā)現(xiàn)

化學(xué)生物學(xué)研究的核心在于利用化學(xué)工具揭示生命過(guò)程的分子機(jī)制, 并直接干預(yù)這些機(jī)制以解決相關(guān)問(wèn)題, 因此藥物發(fā)現(xiàn)是化學(xué)生物學(xué)的終極目標(biāo)之一. 然而, 傳統(tǒng)藥物研發(fā)面臨“雙十”魔咒, 即新藥研發(fā)通常需要花費(fèi)10年時(shí)間、10億美元. 如何打破這一魔咒, AI被寄予了厚望. 由于在數(shù)據(jù)降維、模式識(shí)別及生成能力上的優(yōu)勢(shì), AI正在重塑藥物研發(fā)全流程, 有望將靶點(diǎn)發(fā)現(xiàn)、虛擬篩選、藥物分子從頭設(shè)計(jì)等環(huán)節(jié)的效率大大提升 [88] ( 圖 3 ).


圖 3 AI正在重塑藥物發(fā)現(xiàn)中的靶點(diǎn)發(fā)現(xiàn)、虛擬篩選和藥物分子從頭設(shè)計(jì)等關(guān)鍵步驟

2.3.1 靶點(diǎn)發(fā)現(xiàn)

在新藥研發(fā)的整個(gè)鏈條中, 一個(gè)新靶點(diǎn)的發(fā)現(xiàn)往往會(huì)帶動(dòng)一批新藥產(chǎn)生, 推動(dòng)臨床治療的突破. 傳統(tǒng)的藥物靶點(diǎn)發(fā)現(xiàn)方法主要依賴于生物學(xué)實(shí)驗(yàn)、化學(xué)篩選和生物信息學(xué)分析, 旨在通過(guò)系統(tǒng)性手段揭示疾病相關(guān)分子機(jī)制并篩選潛在藥物作用靶點(diǎn). 由于AI擅長(zhǎng)分析海量復(fù)雜數(shù)據(jù)集, 在其中挖掘隱藏模式, 因而近年來(lái)AI技術(shù)正成為發(fā)現(xiàn)新靶點(diǎn)的利器[89,90].

(1)基于多組學(xué)數(shù)據(jù)的靶標(biāo)發(fā)現(xiàn). 隨著高通量測(cè)序技術(shù)的進(jìn)步, 海量的組學(xué)數(shù)據(jù)(如基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等)不斷產(chǎn)生. 多組學(xué)數(shù)據(jù)從不同角度為研究人員提供了分子相互關(guān)聯(lián)的信息, 通過(guò)對(duì)這些大規(guī)模組學(xué)數(shù)據(jù)進(jìn)行處理和分析, 可以鑒別出在與特定疾病相關(guān)的生物過(guò)程中扮演重要角色的基因或蛋白質(zhì), 從而促進(jìn)藥物靶點(diǎn)發(fā)現(xiàn)的研究. 然而, 處理和分析這些復(fù)雜且高維組學(xué)數(shù)據(jù)極具挑戰(zhàn)性. 通過(guò)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法來(lái)整合多組學(xué)數(shù)據(jù), 則可以從大規(guī)模組學(xué)數(shù)據(jù)集中學(xué)習(xí)潛在知識(shí), 高效地識(shí)別關(guān)鍵生物標(biāo)志物和可成藥靶點(diǎn). 例如, 為了識(shí)別肌萎縮側(cè)索硬化(amyotrophic lateral sclerosis, ALS)的治療靶點(diǎn), Pun等[91]結(jié)合多種基于生物信息學(xué)和深度學(xué)習(xí)的模型, 使用疾病特異性多組學(xué)和基于文本的數(shù)據(jù)進(jìn)行訓(xùn)練, 以優(yōu)先考慮可藥物基因, 揭示了ALS治療的18個(gè)潛在靶點(diǎn). Fabris等[92]建立了一種基于深度學(xué)習(xí)的方法, 通過(guò)學(xué)習(xí)從基因或蛋白質(zhì)特征中檢索到的模式來(lái)識(shí)別與多種年齡相關(guān)疾病的人類基因.

(2)基于分子-靶標(biāo)識(shí)別的靶標(biāo)預(yù)測(cè). 預(yù)測(cè)并確證活性分子的靶標(biāo)是闡明藥物作用機(jī)理的重要步驟. 傳統(tǒng)的靶標(biāo)識(shí)別方法主要是同位素示蹤法、紫外及熒光光譜法, 效率較低. 目前常用的方法是基于基因組學(xué)和蛋白組學(xué)的高通量篩選方法, 但仍存在成本較高、實(shí)驗(yàn)周期長(zhǎng)、不具有普適性等缺點(diǎn). AI可通過(guò)深度學(xué)習(xí)算法, 建立分子-靶標(biāo)數(shù)據(jù)庫(kù), 從而高效預(yù)測(cè)藥物分子的潛在靶標(biāo). 例如, Nelson等[93]提出的基于CNN和全連接神經(jīng)網(wǎng)絡(luò)(fully connected neural network, FCNN)的端到端深度學(xué)習(xí)模型, 無(wú)需依賴手工設(shè)計(jì)的描述符, 直接從蛋白質(zhì)序列(氨基酸序列)和化合物SMILES字符串中提取特征, 在藥物-靶標(biāo)相互作用(drug-target interactions, DTI)預(yù)測(cè)任務(wù)中表現(xiàn)優(yōu)秀.

(3)基于生物醫(yī)藥知識(shí)圖譜的可成藥靶點(diǎn)發(fā)現(xiàn). 將知識(shí)圖譜技術(shù)與系統(tǒng)生物學(xué)結(jié)合構(gòu)建生物醫(yī)藥知識(shí)圖譜(biomedical knowledge graphs)已開始在生物醫(yī)藥領(lǐng)域發(fā)揮關(guān)鍵作用. 通過(guò)與特定疾病的背景相結(jié)合, 交叉檢驗(yàn)多源異質(zhì)的生物醫(yī)藥數(shù)據(jù)庫(kù)(蛋白質(zhì)組數(shù)據(jù)庫(kù)、蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)、藥物-靶點(diǎn)關(guān)系數(shù)據(jù)庫(kù)等), 生物醫(yī)藥知識(shí)圖譜可以獲取其中的內(nèi)在關(guān)聯(lián), 加速靶點(diǎn)識(shí)別. 例如, Zitnik實(shí)驗(yàn)室[94]開發(fā)的精準(zhǔn)醫(yī)學(xué)知識(shí)圖譜(precision medicine knowledge graph, PrimeKG)項(xiàng)目, 整合了20個(gè)高質(zhì)量的生物醫(yī)學(xué)資源, 涵蓋了17080種疾病、7957種藥物, 通過(guò)知識(shí)圖譜中的藥物-疾病關(guān)系可以幫助藥物研發(fā)人員識(shí)別潛在的藥物靶點(diǎn)和治療方案. 鄭杰課題組與合作者[95]提出了基于知識(shí)圖譜和圖神經(jīng)網(wǎng)絡(luò)的模型KG4SL, 通過(guò)知識(shí)圖譜來(lái)揭示合成致死(synthetic lethality, SL)基因背后的生物學(xué)機(jī)理, 有望加速癌癥藥物靶點(diǎn)發(fā)現(xiàn).

(4)基于網(wǎng)絡(luò)藥理學(xué)的靶標(biāo)發(fā)現(xiàn). 網(wǎng)絡(luò)藥理學(xué)的概念由英國(guó)藥理學(xué)家Andrew L. Hopkins于2007年首次提出[96], 其利用生物分子網(wǎng)絡(luò)分析方法, 選取特定節(jié)點(diǎn)進(jìn)行新藥設(shè)計(jì)和靶點(diǎn)分析. 網(wǎng)絡(luò)藥理學(xué)突破傳統(tǒng)的“一個(gè)藥物一個(gè)靶標(biāo), 一種疾病”理念, 代表了現(xiàn)代生物醫(yī)藥研究的哲學(xué)理念與研究模式的轉(zhuǎn)變. 以系統(tǒng)生物學(xué)和網(wǎng)絡(luò)生物學(xué)基本理論為基礎(chǔ)的網(wǎng)絡(luò)藥理學(xué)具有整體性、系統(tǒng)性的特點(diǎn), 注重網(wǎng)絡(luò)平衡(或魯棒性)和網(wǎng)絡(luò)擾動(dòng), 強(qiáng)調(diào)理解某個(gè)單一生物分子(如基因、mRNA或蛋白等)在生物體系中的生物學(xué)地位和動(dòng)力學(xué)過(guò)程要比理解其具體生物功能更為重要, 揭示藥物作用的生物學(xué)和動(dòng)力學(xué)譜要比揭示其作用的單個(gè)靶標(biāo)或幾個(gè)“碎片化”靶標(biāo)更重要, 對(duì)認(rèn)識(shí)藥物和發(fā)現(xiàn)藥物的理念產(chǎn)生了深遠(yuǎn)影響. AI非常擅長(zhǎng)分析基因、蛋白質(zhì)和通路的相互作用網(wǎng)絡(luò), 以確定疾病進(jìn)展的關(guān)鍵節(jié)點(diǎn). 未來(lái)網(wǎng)絡(luò)藥理學(xué)的研究將會(huì)涉及更多的多模態(tài)數(shù)據(jù), 如基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等數(shù)據(jù). 面對(duì)多維度數(shù)據(jù), 人工智能技術(shù)在這方面的應(yīng)用已經(jīng)開始受到廣泛關(guān)注[97~100], 未來(lái)的網(wǎng)絡(luò)藥理學(xué)也將借助這些技術(shù)的發(fā)展, 實(shí)現(xiàn)更加智能化和高效的分析和預(yù)測(cè).

(5)基于生物醫(yī)藥文本挖掘的靶點(diǎn)發(fā)現(xiàn). 人們?cè)谏飳W(xué)基礎(chǔ)研究和臨床研究中積累了大量數(shù)據(jù), 但這些數(shù)據(jù)“互不關(guān)聯(lián)”地分散存儲(chǔ)在海量的研究文獻(xiàn)中, 它們之間的潛在關(guān)聯(lián)難以被人類發(fā)現(xiàn). 大語(yǔ)言模型LLM具備理解自然語(yǔ)言和解析復(fù)雜科學(xué)概念的能力, 因而LLM驅(qū)動(dòng)的AI方法具有強(qiáng)大、高效的學(xué)習(xí)分析能力, 能夠?qū)⑸⒉荚诖罅课墨I(xiàn)中的關(guān)聯(lián)關(guān)系挖掘出來(lái), 從而推動(dòng)新機(jī)制、新靶點(diǎn)的發(fā)現(xiàn). 微軟的BioGPT[101]和英矽智能的ChatPandaGPT (集成于英矽智能的人工智能驅(qū)動(dòng)的靶點(diǎn)發(fā)現(xiàn)和生物標(biāo)志物識(shí)別平臺(tái)PandaOmics[102])就致力于能夠?qū)⒓膊 ⒒蚝蜕镞^(guò)程相互關(guān)聯(lián), 從而快速識(shí)別疾病發(fā)生和發(fā)展的生物學(xué)機(jī)制, 并發(fā)現(xiàn)潛在的藥物靶點(diǎn)和生物標(biāo)志物. 然而, 這些模型通?;谌祟惿傻奈谋具M(jìn)行訓(xùn)練, 可能無(wú)法判斷輸入數(shù)據(jù)的準(zhǔn)確性和適用性. 因此, 它們可能會(huì)無(wú)意中延續(xù)人類的偏見(jiàn)和先入為主的觀念. 此外, 由于這些模型嚴(yán)重依賴已發(fā)表的數(shù)據(jù), 它們?cè)谧R(shí)別真正新穎靶點(diǎn)方面的潛力可能有限. 因此, 后續(xù)的研究中需要認(rèn)識(shí)到這些局限性, 并輔以其他模型的使用, 以確保發(fā)現(xiàn)真正新穎且相關(guān)的靶點(diǎn).

2.3.2 虛擬篩選

確定了靶點(diǎn)后, 藥物研發(fā)的后續(xù)任務(wù)基本上就是尋找一個(gè)具有臨床功效的先導(dǎo)化合物. 但是, 由于在化學(xué)文摘數(shù)據(jù)庫(kù)中已注冊(cè)的化合物數(shù)量超過(guò)7000萬(wàn)個(gè), 再加上其他可能存在的無(wú)窮無(wú)盡的化合物, 可以成為候選藥物的化合物數(shù)量難以統(tǒng)計(jì), 因此如何在這么巨大的化學(xué)空間中進(jìn)行搜索是一個(gè)高難度的問(wèn)題. 目前, 已有許多工具和方法來(lái)幫助我們發(fā)現(xiàn)先導(dǎo)化合物, 它們通??梢员环譃閮深? 高通量篩選(high throughput screening, HTS)和虛擬高通量篩選(virtual high throughput screening, vHTS). 盡管實(shí)驗(yàn)性高通量篩選能夠考慮生物體的復(fù)雜環(huán)境并提供可靠結(jié)果, 但面對(duì)上億種配體時(shí), 全面實(shí)驗(yàn)評(píng)估所有藥物并不現(xiàn)實(shí). 相比之下, 虛擬篩選將分子對(duì)接、虛擬化合物庫(kù)與生物靶標(biāo)的結(jié)構(gòu)數(shù)據(jù)相結(jié)合, 通過(guò)高通量計(jì)算評(píng)估化合物與目標(biāo)靶點(diǎn)相互作用強(qiáng)弱的成本則更具可行性. 虛擬篩選主要有2種方法, 基于配體的虛擬篩選(ligand-based virtual screening, LBVS)和基于結(jié)構(gòu)的虛擬篩選(structure-based virtual screening, SBVS).

當(dāng)靶點(diǎn)信息匱乏但有已知有效藥物時(shí), 一般可采取基于配體的虛擬篩選策略, 如定量構(gòu)效關(guān)系分析或藥效團(tuán)建模等方法. 而當(dāng)疾病靶點(diǎn)蛋白明確且其三維結(jié)構(gòu)及結(jié)合位點(diǎn)信息已知時(shí), 基于結(jié)構(gòu)的篩選策略通常是首選. 在蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)技術(shù)發(fā)展之前, 這類結(jié)構(gòu)數(shù)據(jù)主要來(lái)自NMR或X射線晶體學(xué)實(shí)驗(yàn). 而如今, 諸如AlphaFold[14]、MEGA-Fold[19]和RoseTTAFold[18]等AI預(yù)測(cè)方法也能為SBVS提供蛋白質(zhì)三維預(yù)測(cè)模型, 有效填補(bǔ)了實(shí)驗(yàn)數(shù)據(jù)缺失的空白. 隨著蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)技術(shù)的進(jìn)步, 越來(lái)越多的蛋白質(zhì)結(jié)構(gòu)信息被獲取, 有力推動(dòng)了SBVS的發(fā)展[103]. 例如, Weng等[104]曾利用AlphaFold預(yù)測(cè)了當(dāng)時(shí)結(jié)構(gòu)未知的WSB1蛋白三維構(gòu)象, 并基于該模型篩選獲得了具有高潛力的配體化合物.

在SBVS中準(zhǔn)確預(yù)測(cè)和理解蛋白配體相互作用能夠加速藥物研發(fā)進(jìn)程, 優(yōu)化藥物分子結(jié)構(gòu), 并揭示生物分子的功能機(jī)制. 近年來(lái)隨著深度學(xué)習(xí)模型的應(yīng)用, 蛋白配體相互作用的研究取得了顯著進(jìn)展. 蛋白配體相互作用預(yù)測(cè)主要有三類方法. 一類主要偏重互作結(jié)構(gòu)的預(yù)測(cè), 代表性方法包括EquiBind[105]、TANKBind[106]、DiffDock[107]、RoseTTAFold All-Atom[108]和AF3[22]等. 這類方法的優(yōu)點(diǎn)是可以獲得蛋白質(zhì)與小分子復(fù)合物的較為精確的結(jié)構(gòu), 但是這類方法普遍速度慢, 不適用于高通量虛擬篩選任務(wù), 并且也不會(huì)給出結(jié)合能的評(píng)估. 第二類方法側(cè)重于結(jié)合能的預(yù)測(cè), 如GraphDTA[109]、PSICHIC[110]、ΔVinaRF20[111]、RTMScore[112]和InteractionGraphNet[113]等. 這類方法推理速度快, 但也存在泛化能力差或者需要大量構(gòu)象采樣、使用繁瑣的缺點(diǎn). 第三類方法就是在藥物篩選中廣泛應(yīng)用的分子對(duì)接方法. 除了傳統(tǒng)的AutoDock[114]、AutoDock Vina[115],近年來(lái)還誕生了GNINA[116,117]、DSDP/DSDPFlex[118,119]、RosettaVS[120]、Interformer[121]和SurfDock[122]等融合了AI的方法. 這類方法可以同時(shí)獲得復(fù)合物結(jié)構(gòu)和結(jié)合能, 在SBVS中最為常用. 但是目前各類SOTA方法仍然需要針對(duì)性的改進(jìn)以滿足更廣泛的實(shí)際應(yīng)用需求. 首先, 大部分方法單獨(dú)考慮結(jié)構(gòu)預(yù)測(cè)任務(wù)與結(jié)合能預(yù)測(cè)任務(wù), 使得兩個(gè)任務(wù)分離, 而實(shí)際應(yīng)用中往往需要能夠準(zhǔn)確預(yù)測(cè)結(jié)合能, 同時(shí)輸出可解釋相互作用細(xì)節(jié)的結(jié)構(gòu)信息, 這就要求進(jìn)一步開發(fā)結(jié)構(gòu)預(yù)測(cè)和結(jié)合能預(yù)測(cè)一體化的綜合篩選方法. 其次, 現(xiàn)有方法的性能評(píng)估數(shù)據(jù)集單一, 測(cè)評(píng)功能單一, 使得在實(shí)際應(yīng)用中泛化能力差. 最后, 現(xiàn)有方法往往無(wú)法在精度和速度上取得平衡, 因此在實(shí)際的SBVS應(yīng)用中無(wú)法發(fā)揮作用. 這就需要我們發(fā)展出快速采樣聯(lián)合多精度打分的策略, 極限優(yōu)化速度與精度. 另外, 藥物分子的新穎性、選擇性和可合成性是新藥研發(fā)的關(guān)鍵, 因此近年來(lái)研究者發(fā)展了各類分子生成與設(shè)計(jì)技術(shù), 通過(guò)結(jié)合AI、計(jì)算化學(xué)和合成生物學(xué)等方法, 顯著提升了藥物研發(fā)效率.

2.3.3 藥物分子從頭設(shè)計(jì)

藥物從頭設(shè)計(jì)(de novo drug design)是一種基于靶點(diǎn)結(jié)構(gòu)直接構(gòu)建形狀與性質(zhì)互補(bǔ)的全新配體分子的技術(shù). 這一方法能夠提出結(jié)構(gòu)新穎且具有啟發(fā)性的先導(dǎo)化合物, 在藥物研發(fā)過(guò)程中具有重要的原創(chuàng)性意義. 現(xiàn)在藥物分子的概念已不限于小分子藥物, 所以藥物分子從頭設(shè)計(jì)也分為小分子藥物設(shè)計(jì)和(生物)大分子藥物設(shè)計(jì)兩大類.

(1)小分子藥物設(shè)計(jì)

據(jù)估計(jì)藥理活性化學(xué)空間中, 我們可以找到的藥物分子的個(gè)數(shù)是1060[123], 如何在這樣巨大的化學(xué)空間中進(jìn)行高效搜索發(fā)現(xiàn)候選的藥物分子呢? 分子生成式模型是一個(gè)極具前景的方向. 生成式AI是AI的重要分支, 其思想是試圖學(xué)習(xí)訓(xùn)練數(shù)據(jù)的概率分布, 提取有代表性的特征, 產(chǎn)生一個(gè)低維的連續(xù)表示, 最終通過(guò)從學(xué)習(xí)到的數(shù)據(jù)分布中采樣來(lái)生成新的數(shù)據(jù). 近年來(lái), 由于Transformer[124]和擴(kuò)散模型(diffusion models)[125~127]的發(fā)展, 使得生成式AI在復(fù)雜分布上的表現(xiàn)得到極大提升, 展現(xiàn)了強(qiáng)大通用性, 已經(jīng)應(yīng)用在了文本生成(如GPT-4o)、圖像生成(如MidJourney)和視頻生成(Sora)等領(lǐng)域. 2022年底OpenAI發(fā)布了ChatGPT,由于它能進(jìn)行自然流暢的對(duì)話, 因此引起了生成式AI的熱潮. 而生成模型的發(fā)展也為解決分子設(shè)計(jì)難題帶來(lái)了新的思路, 當(dāng)生成模型應(yīng)用于生成分子時(shí), 其本質(zhì)是學(xué)習(xí)訓(xùn)練集中分子的分布, 從而獲得與訓(xùn)練集中的分子相似但不同的分子集合; 也可通過(guò)結(jié)合進(jìn)化算法或強(qiáng)化學(xué)習(xí)等算法, 生成具有特定生物活性或理化性質(zhì)的分子.

分子生成模型可以根據(jù)其設(shè)計(jì)目標(biāo)和實(shí)現(xiàn)方式分為兩大類: 目標(biāo)導(dǎo)向型和結(jié)構(gòu)導(dǎo)向型. 目標(biāo)導(dǎo)向型模型通過(guò)優(yōu)化目標(biāo)函數(shù)(如藥物活性、藥代動(dòng)力學(xué)性質(zhì)等)來(lái)生成分子, 通常采用強(qiáng)化學(xué)習(xí)或潛在空間導(dǎo)航技術(shù), 能夠在無(wú)結(jié)構(gòu)約束下優(yōu)化分子. 例如, REINVENT[128]使用策略梯度方法對(duì)SMILES字符串生成模型進(jìn)行微調(diào), 以生成符合特定目標(biāo)的分子. DeepFMPO[129]結(jié)合策略梯度和Q學(xué)習(xí)(Q-learning), 利用“執(zhí)行者-評(píng)論者”(actor-critic)方法實(shí)現(xiàn)最優(yōu)分子設(shè)計(jì). 結(jié)構(gòu)導(dǎo)向型模型則通過(guò)條件深度生成模型生成具有特定結(jié)構(gòu)的分子, 通常用于改進(jìn)現(xiàn)有化合物的結(jié)構(gòu), 以提升其性能. 例如, Delete[130]模型基于蛋白質(zhì)結(jié)構(gòu)和候選片段生成分子. 分子生成模型通常基于以下幾種深度學(xué)習(xí)架構(gòu): 變分自編碼器[131](variational autoencoder, VAE)、GAN[68]和Transformer[124]模型. 條件變分自編碼器(conditioned variational autoencoder, CVAE)[132]和連接樹變分自編碼器[133](junction tree VAE, JT-VAE)模型屬于變分自編碼器, 通過(guò)編碼和解碼過(guò)程將分子結(jié)構(gòu)映射到隱空間, 然后從隱空間生成新的分子. 研究表明, 分子的SMILES表示和圖表示都可以被VAE編碼和解碼到隱空間中, 在該空間中分子不再是離散的, 而是可以解碼回離散分子表示的實(shí)值連續(xù)向量; 不同向量之間的歐幾里得距離將對(duì)應(yīng)于化學(xué)相似性. GAN通過(guò)生成器和鑒別器的對(duì)抗訓(xùn)練生成分子, 生成器負(fù)責(zé)生成新分子, 鑒別器則判斷生成的分子是否真實(shí), 如MolGAN[134]模型. GenMol[135]則是一個(gè)基于Transformer的通用分子生成模型, 利用Transformer的強(qiáng)大編碼能力支持從頭生成和片段擴(kuò)展.

雖然生成分子本身不是一項(xiàng)很復(fù)雜的任務(wù), 但是如何生成化學(xué)上有效、并表現(xiàn)出我們想要的特性的結(jié)構(gòu)是一個(gè)具挑戰(zhàn)性的問(wèn)題. 實(shí)現(xiàn)這一目標(biāo)的最初方法涉及在現(xiàn)有數(shù)據(jù)集上預(yù)訓(xùn)練模型, 然后將其用于遷移學(xué)習(xí). 通過(guò)校準(zhǔn)數(shù)據(jù)集對(duì)模型進(jìn)行調(diào)整以允許生成偏向特定屬性的結(jié)構(gòu), 之后可以使用不同的算法(如強(qiáng)化學(xué)習(xí))進(jìn)一步校準(zhǔn). 然而這種方式在化學(xué)有效性方面存在困難, 此外, 依賴預(yù)訓(xùn)練數(shù)據(jù)集也會(huì)限制搜索空間并引入偏差. 擺脫預(yù)訓(xùn)練的一種嘗試是使用馬爾可夫決策過(guò)程(Markov decision process, MDP)來(lái)確?;瘜W(xué)結(jié)構(gòu)的有效性, 并通過(guò)深度Q學(xué)習(xí)來(lái)優(yōu)化MDP以獲得所需的屬性.

擴(kuò)散模型[125~127]是近年來(lái)新興的生成模型, 在分子生成和分子設(shè)計(jì)領(lǐng)域取得了顯著進(jìn)展. 這種模型在生成具有復(fù)雜幾何結(jié)構(gòu)和物理化學(xué)屬性的分子方面表現(xiàn)優(yōu)異, 尤其在3D分子生成中展現(xiàn)了巨大潛力. 擴(kuò)散模型也具有靈活性和穩(wěn)定性, 可以通過(guò)條件生成特定屬性的分子, 而且與GAN相比, 在訓(xùn)練過(guò)程中不依賴對(duì)抗性訓(xùn)練, 避免了模式坍縮問(wèn)題. 盡管深度分子生成模型仍面臨一些挑戰(zhàn), 如合成可行性、數(shù)據(jù)質(zhì)量與偏見(jiàn)以及多目標(biāo)優(yōu)化等, 但使用AI探索化學(xué)空間已經(jīng)顯示出巨大的前景. 它為我們提供了探索化學(xué)空間的新范式, 以及一種新的檢驗(yàn)理論和假設(shè)的方法.

(2)大分子藥物設(shè)計(jì)

隨著分子生物學(xué)與結(jié)構(gòu)生物學(xué)研究的深入, 科研人員在代謝通路解析、病理機(jī)制闡明以及大分子結(jié)構(gòu)與功能研究等方面取得重大突破, 使得大分子藥物逐漸成為治療復(fù)雜疾病的關(guān)鍵武器. 相較于小分子藥物存在的半衰期短、毒性較大、靶向性差及專利易被仿制等局限, 大分子藥物展現(xiàn)出顯著優(yōu)勢(shì): 特異性強(qiáng)、療效顯著、安全性高、半衰期長(zhǎng)且仿制門檻高, 尤其在復(fù)雜系統(tǒng)性疾病治療領(lǐng)域具有不可替代性. 在此背景下, 大分子藥物研發(fā)正迎來(lái)快速發(fā)展期, 其發(fā)展勢(shì)頭已開始超越相對(duì)成熟的小分子藥物研發(fā)體系.

核酸類藥物(包括siRNA、mRNA、ASO、CRISPR系統(tǒng)等)通過(guò)直接調(diào)控基因表達(dá)實(shí)現(xiàn)疾病治療, 在腫瘤、遺傳病和傳染病領(lǐng)域展現(xiàn)出巨大潛力. 然而, 其開發(fā)面臨序列設(shè)計(jì)復(fù)雜、遞送效率低、脫靶效應(yīng)顯著等挑戰(zhàn). 近年來(lái), AI通過(guò)高通量數(shù)據(jù)建模與生成式設(shè)計(jì), 正在重塑核酸藥物的研發(fā)范式. 2023年百度團(tuán)隊(duì)開發(fā)了LinearDesign[136]算法, 使用動(dòng)態(tài)規(guī)劃將mRNA序列搜索空間從指數(shù)級(jí)降低到多項(xiàng)式級(jí), 僅需11min即可完成新冠mRNA疫苗序列優(yōu)化. 2024年他們又在LinearDesign算法基礎(chǔ)上提出了基于神經(jīng)網(wǎng)絡(luò)的LinearDesign2[137]設(shè)計(jì)算法, 預(yù)測(cè)翻譯效率都得到了明顯提升.

另一類大分子藥物則是蛋白與多肽類分子. 設(shè)計(jì)具有定制結(jié)構(gòu)和功能的蛋白質(zhì)是生物工程的長(zhǎng)期目標(biāo). 最近, 深度學(xué)習(xí)的進(jìn)步使得蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)接近實(shí)驗(yàn)精度, 這也促進(jìn)了蛋白質(zhì)設(shè)計(jì)的進(jìn)步. 蛋白質(zhì)設(shè)計(jì)與蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)二者其實(shí)是一體兩面的雙生問(wèn)題. 眾所周知, 肽鏈會(huì)折疊成復(fù)雜的三維結(jié)構(gòu), 這種三維結(jié)構(gòu)以某種方式編碼在構(gòu)成肽鏈的氨基酸序列中. 也就是說(shuō), 氨基酸的線性序列決定了蛋白質(zhì)的三維結(jié)構(gòu). 因?yàn)檫@個(gè)重要發(fā)現(xiàn), Christian Anfinsen在1972年被授予諾貝爾化學(xué)獎(jiǎng). 這意味著原則上我們可以根據(jù)氨基酸序列直接預(yù)測(cè)三維結(jié)構(gòu). 反之亦然, 給定一個(gè)具體的蛋白質(zhì)三維結(jié)構(gòu), 理論上我們可以反推出構(gòu)成這個(gè)蛋白質(zhì)的氨基酸序列. 這一正一反兩個(gè)問(wèn)題就是蛋白質(zhì)研究的核心. 蛋白質(zhì)是生命通過(guò)數(shù)十億年逐漸進(jìn)化而來(lái)的, 它們就像微型機(jī)器人, 在生命體中承擔(dān)著各種各樣的重要職能. 但隨著近年來(lái)人均壽命不斷提高, 人類面臨著癌癥和神經(jīng)退行性疾病等全新的挑戰(zhàn). 如果還是依靠大自然進(jìn)化出全新的蛋白質(zhì)來(lái)解決這些問(wèn)題, 恐怕要等上數(shù)億年的時(shí)間. 但如果我們能夠按需設(shè)計(jì)出蛋白質(zhì), 便能在短時(shí)間內(nèi)取得突破性成果, 這就是蛋白質(zhì)設(shè)計(jì)的價(jià)值[138]. 但是一個(gè)典型的蛋白質(zhì)包含100多個(gè)氨基酸構(gòu)成的序列, 而氨基酸本身就有20種, 這就意味著潛在蛋白質(zhì)序列組合有20100個(gè), 顯然通過(guò)暴力計(jì)算無(wú)法完成這個(gè)任務(wù). 而蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)則為蛋白設(shè)計(jì)提供了強(qiáng)大基礎(chǔ), Baker等[139]就以trRosetta結(jié)構(gòu)預(yù)測(cè)網(wǎng)絡(luò)為基礎(chǔ)提出了一種蛋白幻想設(shè)計(jì)算法[140]. 該方法首先生成一段隨機(jī)的氨基酸序列, 并將其輸入trRosetta結(jié)構(gòu)預(yù)測(cè)網(wǎng)絡(luò), 以預(yù)測(cè)起始?xì)埢?殘基間距離. 這一步顯然不會(huì)生成任何有序結(jié)構(gòu). 然后, 他們?cè)诎被嵝蛄锌臻g對(duì)現(xiàn)有序列進(jìn)行蒙特卡洛采樣, 并對(duì)網(wǎng)絡(luò)預(yù)測(cè)的殘基間距離分布與所有蛋白質(zhì)的平均背景距離分布之間的對(duì)比度(KL散度)進(jìn)行優(yōu)化. 以不同的隨機(jī)序列作為起點(diǎn)進(jìn)行優(yōu)化, 可以得到不同的、跨越多種序列和結(jié)構(gòu)排列的新型蛋白分子結(jié)構(gòu), 這一過(guò)程被稱為網(wǎng)絡(luò)幻想(network hallucination). 這項(xiàng)研究實(shí)際上從原理上證明了: 為結(jié)構(gòu)預(yù)測(cè)而訓(xùn)練出的深度神經(jīng)網(wǎng)絡(luò), 也可以被利用來(lái)進(jìn)行蛋白質(zhì)結(jié)構(gòu)的從頭生成和設(shè)計(jì). 蛋白修復(fù)設(shè)計(jì)則是另外一類方法, 如RFjointInpainting[141]算法, 其輸入端是缺失的不完整蛋白骨架, 含有部分序列和結(jié)構(gòu). 輸出端則是完整的骨架, 缺失部分的結(jié)構(gòu)和序列都被修復(fù)出來(lái). 近年提出的RF Diffusion[142]則是一種蛋白質(zhì)結(jié)構(gòu)擴(kuò)散設(shè)計(jì)方法, 這種算法其實(shí)是受到了圖像生成算法的啟發(fā), 通過(guò)逐步去除噪聲生成一個(gè)全新的蛋白質(zhì)結(jié)構(gòu). RF Diffusion模型被證明非常適合各種蛋白質(zhì)設(shè)計(jì)任務(wù), 只需在推理中添加對(duì)稱化步驟并利用RF架構(gòu)的SE(3)等變性, RF Diffusion就能夠生成具有循環(huán)對(duì)稱性和點(diǎn)群對(duì)稱性的大型同源寡聚體組裝體. 此外, RF Diffusion能夠構(gòu)建對(duì)稱的motif和非常小的motif, 如來(lái)自酶活性位點(diǎn)的單個(gè)殘基, 這對(duì)于蛋白幻想或RFjoint幾乎是不可能的. 最后, 該模型設(shè)計(jì)的蛋白質(zhì)Binder僅以目標(biāo)結(jié)構(gòu)為條件, 某些目標(biāo)的濕實(shí)驗(yàn)室成功率高達(dá)50%.

蛋白質(zhì)結(jié)構(gòu)擴(kuò)散設(shè)計(jì)的一個(gè)有趣的替代方案是擴(kuò)散蛋白質(zhì)序列. 目前, 離散變量(如氨基酸)的擴(kuò)散性能比自然語(yǔ)言建模的自回歸或掩碼模型更差. 然而, 對(duì)于蛋白質(zhì)來(lái)說(shuō), 序列擴(kuò)散可以比結(jié)構(gòu)擴(kuò)散簡(jiǎn)單得多, 并且存在大量的蛋白質(zhì)序列功能數(shù)據(jù)(結(jié)合或酶活性), 這些數(shù)據(jù)可以潛在地用于訓(xùn)練模型以對(duì)序列執(zhí)行分類器指導(dǎo). 這就是ProteinGenerator[143](PG)的初衷. PG基于RoseTTAFold[18]結(jié)構(gòu)預(yù)測(cè)網(wǎng)絡(luò), 采用序列空間擴(kuò)散模型, 從噪聲序列逐步去噪生成序列-結(jié)構(gòu)對(duì). 該模型通過(guò)迭代優(yōu)化序列和結(jié)構(gòu)的聯(lián)合分布, 支持多模態(tài)約束(如氨基酸組成、二級(jí)結(jié)構(gòu))引導(dǎo)生成過(guò)程, 顯著提升了設(shè)計(jì)的靈活性和成功率.

另外一個(gè)重要的蛋白設(shè)計(jì)工具是ProteinMPNN[144](protein message passing neural network), 它是一種基于深度學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò), 專門用于根據(jù)給定的蛋白質(zhì)骨架結(jié)構(gòu)預(yù)測(cè)其氨基酸序列. 該模型通過(guò)利用蛋白質(zhì)的進(jìn)化、功能和結(jié)構(gòu)信息, 生成可能折疊成目標(biāo)三維結(jié)構(gòu)的氨基酸序列. ProteinMPNN基于消息傳遞神經(jīng)網(wǎng)絡(luò)[145](Message Passing Neural Networks, MPNN)架構(gòu), 其輸入為蛋白質(zhì)的三維結(jié)構(gòu)(PDB格式), 模型將其表示為圖結(jié)構(gòu).模型通過(guò)節(jié)點(diǎn)(氨基酸)和邊(化學(xué)鍵)的交互傳遞信息, 更新節(jié)點(diǎn)和邊的表示. 通過(guò)隨機(jī)解碼順序生成氨基酸序列, 并利用位置耦合處理多鏈蛋白質(zhì). ProteinMPNN能夠在幾秒鐘內(nèi)完成序列設(shè)計(jì), 適合大規(guī)模蛋白質(zhì)設(shè)計(jì)任務(wù), 在多個(gè)下游任務(wù)中的成功案例證明了該方法的巨大潛力[146,147]. 但是另一方面, 對(duì)結(jié)構(gòu)等信息的高度依賴等特征也對(duì)該方法的進(jìn)一步發(fā)展提出了要求.

蛋白質(zhì)設(shè)計(jì)領(lǐng)域正經(jīng)歷方法論整合的重要發(fā)展階段, 各類模型(包括序列模型、結(jié)構(gòu)模型以及序列-標(biāo)簽?zāi)P偷?的傳統(tǒng)區(qū)分正在弱化. 當(dāng)前研究突破主要體現(xiàn)在三個(gè)維度[148]: 一是實(shí)現(xiàn)了結(jié)構(gòu)感知模型與高性能序列模型的有機(jī)融合; 二是創(chuàng)新性地引入了自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域的技術(shù)手段, 從而獲取更為全面的蛋白質(zhì)表征; 三是將生物物理原理融入機(jī)器學(xué)習(xí)框架, 顯著提升了模型的泛化能力. 在技術(shù)應(yīng)用層面, 優(yōu)化后的采樣算法有效提升了生成序列的可靠性, 而新興的”自主實(shí)驗(yàn)平臺(tái)”通過(guò)整合不確定性評(píng)估模型與實(shí)驗(yàn)流程, 為縮短設(shè)計(jì)周期提供了新范式. 展望未來(lái), 跨模態(tài)的統(tǒng)一設(shè)計(jì)框架將成為主流, 這種整合方案將支持高效序列生成、復(fù)雜多目標(biāo)優(yōu)化, 并最終實(shí)現(xiàn)具有超自然功能的全新蛋白質(zhì)創(chuàng)制.

另外值得指出, AI不僅已經(jīng)在藥物發(fā)現(xiàn)的靶點(diǎn)發(fā)現(xiàn)、虛擬篩選和分子設(shè)計(jì)環(huán)節(jié)得到了廣泛應(yīng)用, 近年來(lái)AI在藥物遞送領(lǐng)域的應(yīng)用也取得顯著進(jìn)展[149~151]. 藥物遞送系統(tǒng)在優(yōu)化藥物的藥代動(dòng)力學(xué)以及藥效學(xué)表現(xiàn)方面有重要作用, 而AI技術(shù)可以賦能藥物-輔料相互作用預(yù)測(cè)、配方優(yōu)化、關(guān)鍵工藝參數(shù)預(yù)測(cè)及遞送材料高效篩選等藥物遞送系統(tǒng)的關(guān)鍵環(huán)節(jié), 系統(tǒng)性推動(dòng)藥物遞送研究范式發(fā)生變革, 形成“數(shù)據(jù)驅(qū)動(dòng)-模型預(yù)測(cè)-實(shí)驗(yàn)驗(yàn)證-臨床轉(zhuǎn)化”的新范式, 突破傳統(tǒng)藥物遞送系統(tǒng)研發(fā)周期長(zhǎng)、成本高的限制. 例如, 王建新團(tuán)隊(duì)等[152]通過(guò)“人工智能深度學(xué)習(xí)預(yù)測(cè)+實(shí)驗(yàn)驗(yàn)證”的交叉研究方法, 高通量篩選天然產(chǎn)物分子庫(kù), 發(fā)現(xiàn)了兼具脂質(zhì)膜調(diào)控與葡萄糖轉(zhuǎn)運(yùn)蛋白1 (Glut1)靶向功能的天然化合物, 并構(gòu)建了新型雙功能脂質(zhì)體載藥系統(tǒng), 在小鼠模型中展現(xiàn)出腫瘤靶向與治療增效作用. 中國(guó)科學(xué)院上海高等研究院的團(tuán)隊(duì)[153]提出了一種多模態(tài)可解釋性質(zhì)預(yù)測(cè)模型, 實(shí)現(xiàn)了快速精準(zhǔn)預(yù)測(cè)mRNA脂質(zhì)納米顆粒(mRNA-LNPs)的轉(zhuǎn)染效率, 能夠快速篩選出穩(wěn)定有效的LNPs, 提高mRNA藥物遞送效率, 為多種疾病的個(gè)性化治療提供了可靠的研究方法和工具. AI技術(shù)正通過(guò)精準(zhǔn)預(yù)測(cè)、快速篩選和優(yōu)化設(shè)計(jì), 加速藥物遞送系統(tǒng)的開發(fā). 而AI的重要性不僅在于優(yōu)化了藥物遞送系統(tǒng)的技術(shù)細(xì)節(jié), 而是在于其重構(gòu)了研究范式本身——從“試錯(cuò)科學(xué)”轉(zhuǎn)向“預(yù)測(cè)科學(xué)”, 從“靜態(tài)優(yōu)化”升級(jí)為“動(dòng)態(tài)演化”, 最終實(shí)現(xiàn)個(gè)性化的遞送設(shè)計(jì), 為精準(zhǔn)醫(yī)療和個(gè)體化治療提供了強(qiáng)有力的技術(shù)支撐.

2.4 AI賦能精準(zhǔn)醫(yī)學(xué)

精準(zhǔn)醫(yī)學(xué)以個(gè)體化診療為核心, 通過(guò)整合基因組、表型組、環(huán)境等多維度數(shù)據(jù), 實(shí)現(xiàn)疾病預(yù)防、診斷和治療的精準(zhǔn)化. 傳統(tǒng)的醫(yī)療模式往往依賴醫(yī)生的經(jīng)驗(yàn)和主觀判斷, 而AI通過(guò)強(qiáng)大的數(shù)據(jù)分析和學(xué)習(xí)能力, 以更精確的方式處理龐大的醫(yī)學(xué)數(shù)據(jù), 識(shí)別出人眼難以察覺(jué)的細(xì)節(jié), 從而大大提高了診斷和治療的準(zhǔn)確性[154]. 近年來(lái), AI技術(shù)成為推動(dòng)精準(zhǔn)醫(yī)學(xué)發(fā)展的核心驅(qū)動(dòng)力, 其應(yīng)用已滲透至醫(yī)學(xué)影像處理、生物標(biāo)志物發(fā)現(xiàn)、藥物研發(fā)、臨床決策支持及健康管理等全鏈條[155,156].

AI在醫(yī)療領(lǐng)域最具突破性的應(yīng)用之一, 是醫(yī)學(xué)影像與數(shù)據(jù)的高效、精準(zhǔn)分析. AI技術(shù)依托深度學(xué)習(xí)與機(jī)器學(xué)習(xí)算法, 能夠高效處理海量復(fù)雜醫(yī)療數(shù)據(jù), 精準(zhǔn)識(shí)別傳統(tǒng)診斷方法難以捕捉的細(xì)微特征, 從而避免由于高度依賴醫(yī)生的臨床經(jīng)驗(yàn)與主觀判斷而造成的漏診與誤診風(fēng)險(xiǎn), 顯著提升疾病診斷的時(shí)效性與準(zhǔn)確性. 2024年哈佛醫(yī)學(xué)院聯(lián)合斯坦福大學(xué)、布萊根婦女醫(yī)院等國(guó)際頂尖科研機(jī)構(gòu), 在Nature雜志上發(fā)表了具有里程碑意義的癌癥診斷研究成果——CHIEF[157]模型. 該模型采用先進(jìn)的弱監(jiān)督學(xué)習(xí)框架, 從海量病理圖像中提取關(guān)鍵特征, 實(shí)現(xiàn)了對(duì)19種癌癥的高效診斷, 準(zhǔn)確率高達(dá)94%, 顯著超越傳統(tǒng)深度學(xué)習(xí)模型. 與現(xiàn)有AI方法相比, CHIEF在整體性能上實(shí)現(xiàn)了36.1%的提升, 尤其在癌癥檢測(cè)、腫瘤基因變異分析及患者生存率預(yù)測(cè)等關(guān)鍵指標(biāo)上表現(xiàn)卓越. 通過(guò)智能分析病理圖像中的關(guān)鍵區(qū)域, CHIEF不僅能夠精準(zhǔn)識(shí)別不同癌癥類型, 還可預(yù)測(cè)與癌細(xì)胞生長(zhǎng)密切相關(guān)的基因突變, 為精準(zhǔn)醫(yī)療的臨床實(shí)踐提供了強(qiáng)有力的技術(shù)支撐.

除了提高診斷的精度, AI也能通過(guò)整合醫(yī)學(xué)影像、電子病歷、基因測(cè)序等數(shù)據(jù), 對(duì)患者個(gè)體數(shù)據(jù)進(jìn)行深入分析, 從而在更全面地理解患者病情的基礎(chǔ)上輔助醫(yī)生設(shè)計(jì)更加個(gè)性化的診療方案[158~161]. 特別是, 隨著大語(yǔ)言模型的興起和能力的不斷提升, LLM在醫(yī)學(xué)領(lǐng)域的推理能力已實(shí)現(xiàn)質(zhì)的飛躍, 部分任務(wù)表現(xiàn)甚至超越人類專家. 例如, OpenAI的o1-preview模型在The New England Journal of Medicine143個(gè)臨床病理學(xué)會(huì)議(CPCs)病例測(cè)試中展現(xiàn)出卓越性能[162]: 整體診斷準(zhǔn)確率達(dá)78.3%, 遠(yuǎn)超傳統(tǒng)大語(yǔ)言模型和臨床醫(yī)生水平. 特別在鑒別診斷、診斷推理和管理推理三個(gè)關(guān)鍵維度, o1-preview表現(xiàn)出接近專家級(jí)的判斷能力. 更引人注目的是, 該模型在后續(xù)檢查方案推薦方面達(dá)到87.5%的準(zhǔn)確率, 證實(shí)了AI在復(fù)雜臨床決策中的實(shí)用價(jià)值. 最近, 浙江大學(xué)也開發(fā)了AI病理助手OmniPT, 整合了視覺(jué)識(shí)別與自然語(yǔ)言處理技術(shù), 實(shí)現(xiàn)了病理圖像的智能化快速分析, 能夠在1~3s內(nèi)精確定位癌癥病灶區(qū)域, 診斷準(zhǔn)確率突破95%. 在臨床應(yīng)用方面, OmniPT在胃癌、結(jié)直腸癌及宮頸癌等多種惡性腫瘤的診斷中展現(xiàn)出卓越性能. 通過(guò)其獨(dú)特的多任務(wù)協(xié)同分析機(jī)制, 可同步完成癌癥分類、病灶分割及病變檢測(cè)等多項(xiàng)關(guān)鍵任務(wù), 顯著提升了病理診斷的效率與準(zhǔn)確性.

由于藥物療效和毒性的個(gè)體差異顯著(如治療窗窄、不良反應(yīng)多), 傳統(tǒng)群體藥代動(dòng)力學(xué)模型在精準(zhǔn)用藥中存在局限性. AI能處理高維、非線性數(shù)據(jù), 挖掘真實(shí)世界用藥數(shù)據(jù)中的潛在規(guī)律, 更準(zhǔn)確地預(yù)測(cè)血藥濃度和劑量, 優(yōu)化用藥方案[163,164]. 例如, Huang等收集了407例接受靜脈注射萬(wàn)古霉素的兒童患者的血藥濃度監(jiān)測(cè)數(shù)據(jù), 以萬(wàn)古霉素谷濃度為預(yù)測(cè)目標(biāo)變量, 篩選出了5種具有更高相關(guān)系數(shù)的機(jī)器學(xué)習(xí)算法構(gòu)建集成模型, 并獲得了最優(yōu)預(yù)測(cè)效果[165]. 研究表明, 與傳統(tǒng)藥代動(dòng)力學(xué)模型相比, 該機(jī)器學(xué)習(xí)模型具有更好的擬合效果和更高的預(yù)測(cè)準(zhǔn)確度. 該集成模型可用于萬(wàn)古霉素血藥濃度預(yù)測(cè), 尤其適用于個(gè)體差異顯著的兒童患者群體.

基于表型組數(shù)據(jù)的真實(shí)世界應(yīng)用也是精準(zhǔn)醫(yī)學(xué)的重要一環(huán). 基于表型的藥物發(fā)現(xiàn)(phenotypic drug discovery, PDD)是對(duì)基于靶點(diǎn)的藥物發(fā)現(xiàn)的重要補(bǔ)充, PDD采用與靶標(biāo)無(wú)關(guān)的方法, 專注于化合物在疾病相關(guān)生物系統(tǒng)中的表型效應(yīng)[166]. 這一策略利用已標(biāo)注作用機(jī)制的參考化合物, 來(lái)揭示測(cè)試化合物的作用機(jī)制. 迄今為止, PDD在首創(chuàng)新藥的發(fā)現(xiàn)方面已做出重要貢獻(xiàn)[167]. PDD也是天然產(chǎn)物發(fā)現(xiàn)的主要方法, 是識(shí)別新靶點(diǎn)和作用機(jī)制的基礎(chǔ). AI可以高效地綜合分析多維度的人體藥物反應(yīng)數(shù)據(jù), 如藥代動(dòng)力學(xué)(pharmacokinetics, PK)數(shù)據(jù), 藥物在不同個(gè)體中的吸收分布、代謝和排泄(absorption, distribution, metabolism, and excretion, ADME)參數(shù), 藥效動(dòng)力學(xué)(pharmacodynamics, PD)數(shù)據(jù), 不同劑量藥物對(duì)靶點(diǎn)、細(xì)胞和整體生理系統(tǒng)的影響, 電子健康記錄(EHRs), 臨床試驗(yàn)數(shù)據(jù)等, 因此, AI在表型驅(qū)動(dòng)的藥物發(fā)現(xiàn)中具有重大的應(yīng)用價(jià)值, 能為精準(zhǔn)醫(yī)療和生物醫(yī)學(xué)研究的發(fā)展開辟全新路徑. 例如, 鄭明月課題組[168]開發(fā)了基于自我監(jiān)督表示學(xué)習(xí)的深度生成模型TranSiGen, 能夠通過(guò)分析細(xì)胞基因表達(dá)和化合物分子結(jié)構(gòu), 高精度重建化學(xué)誘導(dǎo)的轉(zhuǎn)錄譜, 從而捕獲細(xì)胞和化合物之間的復(fù)雜信息關(guān)聯(lián). 該模型在配體虛擬篩選、藥物反應(yīng)預(yù)測(cè)和藥物再利用等下游任務(wù)中表現(xiàn)優(yōu)異, 尤其在胰腺癌藥物發(fā)現(xiàn)中的應(yīng)用得到體外驗(yàn)證, 展示了識(shí)別有效化合物的潛力. 基于表型數(shù)據(jù)和AI模型, 也可以建立健康預(yù)測(cè)與早期預(yù)警系統(tǒng), 通過(guò)多組學(xué)信息分析, 開發(fā)能夠評(píng)估個(gè)體健康風(fēng)險(xiǎn)的預(yù)測(cè)模型, 涵蓋疾病發(fā)生的早期預(yù)警. 例如, 基于基因信息、生活方式、環(huán)境暴露等因素, 預(yù)測(cè)心血管疾病、糖尿病和癌癥等的發(fā)生風(fēng)險(xiǎn). 根據(jù)個(gè)體的表型數(shù)據(jù), 也可以利用AI開發(fā)定制化的健康管理方案, 特別是在慢性病管理、老齡化社會(huì)中的老年人健康管理等方面. 通過(guò)個(gè)性化干預(yù), 幫助提高人群健康水平, 減輕社會(huì)醫(yī)療負(fù)擔(dān). 更大的層面上, 基于表型組數(shù)據(jù)可以構(gòu)建大數(shù)據(jù)AI分析平臺(tái), 幫助政府進(jìn)行科學(xué)的公共衛(wèi)生決策. 例如, 通過(guò)疫情數(shù)據(jù)的實(shí)時(shí)監(jiān)控和預(yù)測(cè)模型, 優(yōu)化防控策略, 提高應(yīng)急響應(yīng)能力.

2.5 AI賦能綠色生物制造

綠色生物制造是以生物合成化學(xué)、合成生物學(xué)、基因編輯、人工智能等前沿技術(shù)為核心, 利用酶催化反應(yīng)或通過(guò)改造微生物/生物系統(tǒng)實(shí)現(xiàn)低碳、高效的生物基材料、化學(xué)品、藥物等的高效合成與生產(chǎn). 其核心目標(biāo)是替代傳統(tǒng)高污染、高能耗的化工工藝, 推動(dòng)工業(yè)、農(nóng)業(yè)、醫(yī)藥等領(lǐng)域的綠色轉(zhuǎn)型. 在全球生物經(jīng)濟(jì)邁向高質(zhì)量發(fā)展的關(guān)鍵時(shí)期, 國(guó)務(wù)院將生物制造列為未來(lái)產(chǎn)業(yè), 強(qiáng)調(diào)以科技創(chuàng)新為引擎推動(dòng)產(chǎn)業(yè)升級(jí), 全力構(gòu)建綠色可持續(xù)的生物制造體系. 各地方政府也紛紛出臺(tái)合成生物產(chǎn)業(yè)專項(xiàng)政策, 建設(shè)“AI+生物制造”創(chuàng)新聯(lián)合體.

“生物合成化學(xué)”與“合成生物學(xué)”是生物技術(shù)與化學(xué)交叉領(lǐng)域中的兩個(gè)重要研究方向. 生物合成化學(xué)重點(diǎn)關(guān)注生命活動(dòng)中物質(zhì)的生物合成機(jī)制, 進(jìn)而利用生物體系、生物元件等完成特定化學(xué)反應(yīng)、合成特定目標(biāo)分子或新功能分子. 生物合成是20世紀(jì)末隨著生命科學(xué)的發(fā)展而出現(xiàn)的合成方法, 對(duì)比化學(xué)合成, 生物合成可以實(shí)現(xiàn)高選擇性、高反應(yīng)性和高經(jīng)濟(jì)性, 尤其在手性中心的構(gòu)筑、惰性碳的活化以及復(fù)雜天然產(chǎn)物的合成方面具有極大優(yōu)勢(shì)[169]. 但是, 現(xiàn)階段生物合成也存在酶元件少、酶開發(fā)難和細(xì)胞工廠設(shè)計(jì)構(gòu)建難的瓶頸. 這些困難使得生物合成的靈活性遠(yuǎn)低于化學(xué)合成, 生物合成反應(yīng)還很難像化學(xué)合成一樣進(jìn)行任意設(shè)計(jì), 提高靈活性是當(dāng)前生物合成研究的重要目標(biāo). 因此, 生物合成化學(xué)利用在化學(xué)合成領(lǐng)域成熟的化學(xué)反應(yīng)機(jī)制研究方法, 探索生命體系中物質(zhì)的生物合成機(jī)制就顯得格外重要. 在生物合成化學(xué)中充分結(jié)合AI和理論模擬計(jì)算來(lái)進(jìn)行生命體中化學(xué)反應(yīng)機(jī)理研究, 厘清生物合成機(jī)制的基礎(chǔ)上可以指導(dǎo)對(duì)于生物酶的改造以實(shí)現(xiàn)特定的化學(xué)反應(yīng)的催化. 例如, 2018年諾貝爾化學(xué)獎(jiǎng)獲得者Arnold教授, 在理解了生物酶催化機(jī)制的基礎(chǔ)上, 通過(guò)改造P450酶中與血紅素共價(jià)的第五配基可以使該酶催化C–B和C–Si鍵的合成反應(yīng)[170,171]. AI技術(shù)的引入進(jìn)一步加速了這個(gè)方向的研究進(jìn)展.

合成生物學(xué)的核心技術(shù)原理是對(duì)生物系統(tǒng)進(jìn)行工程化設(shè)計(jì)和改造, 通過(guò)對(duì)生物元件(如基因、蛋白質(zhì)等)進(jìn)行設(shè)計(jì)、組合和優(yōu)化, 構(gòu)建出具有特定功能的生物系統(tǒng). 合成生物學(xué)采用的工程設(shè)計(jì)原理和工程學(xué)的可預(yù)測(cè)性來(lái)控制復(fù)雜生物系統(tǒng), 形成了一個(gè)以“設(shè)計(jì)-構(gòu)建-測(cè)試-學(xué)習(xí)”(DBTL循環(huán))為核心的研發(fā)模式. 然而, 合成生物學(xué)面臨著一個(gè)巨大的挑戰(zhàn): 我們對(duì)生物系統(tǒng)的預(yù)測(cè)能力遠(yuǎn)遠(yuǎn)不如對(duì)物理或化學(xué)系統(tǒng)的預(yù)測(cè), 這就造成了我們對(duì)產(chǎn)生相關(guān)生物表型的底層機(jī)制理解不足, 從而使我們?cè)趯?shí)踐層面無(wú)法精確地按照特定要求設(shè)計(jì)生物系統(tǒng). AI技術(shù)的出現(xiàn), 為合成生物學(xué)提供了所需的預(yù)測(cè)能力, 可以應(yīng)用于合成生物學(xué)過(guò)程的各個(gè)環(huán)節(jié)[172,173]. 首先, 在催化元件的發(fā)現(xiàn)、設(shè)計(jì)和改造環(huán)節(jié)AI展現(xiàn)了強(qiáng)大的潛力[174], 其可以被應(yīng)用于蛋白質(zhì)功能和酶活性注釋、酶的從頭設(shè)計(jì)、酶的選擇性改造以及酶的穩(wěn)定性改造等. 雖然UniProt數(shù)據(jù)庫(kù)中已收錄了約2.5億條蛋白質(zhì)序列, 但其中約99.7%的蛋白質(zhì)序列缺乏功能注釋. 如果能夠準(zhǔn)確地為這些蛋白質(zhì)添加功能注釋, 就可以獲得大量多樣化的候選對(duì)象作為酶工程的起點(diǎn)加以探索. 利用機(jī)器學(xué)習(xí)分類模型可以全面整合蛋白質(zhì)序列與結(jié)構(gòu)特征, 從而能夠更精確地預(yù)測(cè)蛋白的具體功能[175,176]. 最近, 美國(guó)伊利諾伊大學(xué)香檳分校的研究團(tuán)隊(duì)[177]開發(fā)了一種名為基于對(duì)比學(xué)習(xí)的酶功能注釋(contrastive learning enabled enzyme annotation, CLEAN)的機(jī)器學(xué)習(xí)算法, 通過(guò)對(duì)比學(xué)習(xí)框架能夠?qū)ξ唇?jīng)研究的酶類實(shí)現(xiàn)準(zhǔn)確、可靠且高靈敏度的酶功能預(yù)測(cè), 準(zhǔn)確率達(dá)87%, 遠(yuǎn)超傳統(tǒng)方法(40%). 酶功能注釋工作未來(lái)的一個(gè)重點(diǎn)是對(duì)于混雜活性的標(biāo)注, 混雜活性既可能表現(xiàn)為對(duì)新底物保持相似的化學(xué)反應(yīng), 也可能表現(xiàn)為完全不同的反應(yīng)類型, 通常是酶進(jìn)化出非天然活性的起點(diǎn). 而混雜活性難以檢測(cè), 或尚未經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證, 因此通過(guò)實(shí)驗(yàn)測(cè)定來(lái)更新酶功能數(shù)據(jù)庫(kù)至關(guān)重要. 此外, 借助基于生成式預(yù)訓(xùn)練架構(gòu)的大型語(yǔ)言模型(LLM)對(duì)文獻(xiàn)進(jìn)行文本挖掘, 也有望通過(guò)提取尚未納入現(xiàn)有數(shù)據(jù)庫(kù)的科學(xué)文獻(xiàn)知識(shí), 發(fā)現(xiàn)缺失標(biāo)簽并更新已有數(shù)據(jù)庫(kù). 盡管通過(guò)注釋已知蛋白質(zhì)序列可以發(fā)現(xiàn)許多功能性酶, 但生成自然界中從未出現(xiàn)過(guò)的全新序列同樣具有重要意義——這些序列可能帶來(lái)前所未有的性質(zhì)組合, 甚至催生出非天然活性. AI憑借其強(qiáng)大的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)能力和在未知空間的探索能力正在幫助科學(xué)家們以前所未有的精度和效率設(shè)計(jì)蛋白酶, 并達(dá)到提高產(chǎn)量和改進(jìn)功能等目標(biāo)[178]. 總的來(lái)說(shuō), 蛋白酶的AI設(shè)計(jì)方法可分為兩大類: (1) 純序列生成; (2) 結(jié)構(gòu)設(shè)計(jì), 即尋找能夠折疊成特定結(jié)構(gòu)或骨架的序列. 在純序列生成方面, 蛋白質(zhì)語(yǔ)言模型(PLMs)可通過(guò)給定已知酶家族作為條件, 生成具有該功能的新序列, 而無(wú)需直接考慮結(jié)構(gòu). 例如, Naik等[179]開發(fā)的ProGen模型能夠在大規(guī)模蛋白質(zhì)家族中生成具有可預(yù)測(cè)功能的蛋白質(zhì)序列, 針對(duì)五個(gè)不同溶菌酶家族進(jìn)行微調(diào)生成的人工蛋白的催化效率與天然溶菌酶相當(dāng), 而與天然蛋白的序列同源性最低僅為31.4%. Zelezniak等[180]基于生成對(duì)抗網(wǎng)絡(luò)模型提出了ProteinGAN模型, 直接從生物序列中學(xué)習(xí)潛在的氨基酸關(guān)系, 并產(chǎn)生具有天然生化特性的新的功能蛋白序列, 在對(duì)蘋果酸脫氫酶(MDH)進(jìn)行序列設(shè)計(jì)時(shí), 顯示出了24% (13/55)的設(shè)計(jì)成功率. 而在結(jié)構(gòu)設(shè)計(jì)方面, 則可以利用2.3.3小節(jié)中介紹的蛋白質(zhì)結(jié)構(gòu)生成和設(shè)計(jì)工具直接設(shè)計(jì)所需的酶骨架. 例如, Kao等[181]就采用ProteinMPNN設(shè)計(jì)了序列發(fā)散的泛素變體, 這些變體對(duì)E3泛素-蛋白連接酶Rsp5外部位點(diǎn)的HECT結(jié)構(gòu)域具有高親和力, 并且在這些變體中鑒定出了幾個(gè)具有更高的蛋白質(zhì)產(chǎn)量、保持高熱穩(wěn)定性和增強(qiáng)的結(jié)合親和力的成功設(shè)計(jì). 最近, Baker團(tuán)隊(duì)[182]利用AI從頭設(shè)計(jì)了具有復(fù)雜活性位點(diǎn)的絲氨酸水解酶, 其能夠加快一個(gè)四步化學(xué)反應(yīng), 并且催化效率是之前設(shè)計(jì)的水解酶催化效率的6萬(wàn)倍, 在酶工程領(lǐng)域具有里程碑意義. 除了可進(jìn)行蛋白酶設(shè)計(jì), AI也可以促進(jìn)蛋白酶的改造和定向進(jìn)化. 例如, 司同團(tuán)隊(duì)[183]整合機(jī)器學(xué)習(xí)與貝葉斯優(yōu)化算法指導(dǎo)自動(dòng)化實(shí)驗(yàn)迭代, 實(shí)現(xiàn)了蛋白質(zhì)突變空間的高效探索, 成功將鼠李糖酯合酶RhlA進(jìn)行了改造, 使其對(duì)C8底物的特異性提高了4.8倍. Alper等則采用基于3D卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的MutCompute算法[184], 成功對(duì)PETase塑料降解酶進(jìn)行了工程化改造, 開發(fā)出高效變體Fast-PETase. 實(shí)驗(yàn)數(shù)據(jù)顯示, 該酶在50℃條件下僅需48h即可將未處理的聚對(duì)苯二甲酸乙二醇酯(PET)包裝材料降解, 更突破性地實(shí)現(xiàn)了塑料降解產(chǎn)物的再聚合, 為塑料污染治理提供了創(chuàng)新解決方案[185]. 洪亮團(tuán)隊(duì)[186]開發(fā)的Prime模型可以通過(guò)小樣本干濕迭代在≤100個(gè)濕實(shí)驗(yàn)數(shù)據(jù), 數(shù)月內(nèi)實(shí)現(xiàn)多款蛋白質(zhì)的定向進(jìn)化, 部分蛋白產(chǎn)品已經(jīng)落地產(chǎn)業(yè)化. 除了酶工程, AI還可以優(yōu)化整個(gè)代謝途徑, 甚至是復(fù)雜的生物回路系統(tǒng), 在代謝工程領(lǐng)域展現(xiàn)出了強(qiáng)大的應(yīng)用前景[187]. AI驅(qū)動(dòng)的代謝通路發(fā)掘與優(yōu)化是近年來(lái)合成生物學(xué)和代謝工程領(lǐng)域最活躍的交叉前沿之一. 由于細(xì)胞代謝網(wǎng)絡(luò)具有高度復(fù)雜性, 傳統(tǒng)設(shè)計(jì)方法通常依賴文獻(xiàn)檢索、代謝建模和啟發(fā)式分析, 這些方法受限于計(jì)算吞吐量, 難以從海量的代謝反應(yīng)及調(diào)控網(wǎng)絡(luò)中高效篩選最優(yōu)改造靶點(diǎn). AI驅(qū)動(dòng)的集成建模方法為這一挑戰(zhàn)提供了新思路, 其能夠在代謝網(wǎng)絡(luò)建模中同時(shí)整合動(dòng)力學(xué)特性、調(diào)控機(jī)制、替代模型結(jié)構(gòu)及參數(shù)集合等多維因素[188]. 機(jī)器學(xué)習(xí)平臺(tái)作為高通量分析工具, 也日益廣泛地應(yīng)用于大規(guī)模代謝數(shù)據(jù)篩選, 推動(dòng)數(shù)據(jù)驅(qū)動(dòng)的生物合成途徑優(yōu)化與微生物產(chǎn)能提升. 例如, EcoSynther[189]平臺(tái)利用支持向量回歸和前饋神經(jīng)網(wǎng)絡(luò), 僅兩輪DBTL即將檸檬烯產(chǎn)量提升60%以上; BioAutoMata[190]平臺(tái)用貝葉斯優(yōu)化番茄紅素途徑,產(chǎn)量比隨機(jī)篩選高77%; 這些研究都驗(yàn)證了AI在代謝工程中的高效優(yōu)化能力. 合成生物學(xué)領(lǐng)域內(nèi), 人們?cè)谡莆漳繕?biāo)產(chǎn)物的代謝路徑后, 需要進(jìn)行基因?qū)用娴脑O(shè)計(jì), 利用CRISPR等基因編輯技術(shù)將目標(biāo)基因?qū)? 以實(shí)現(xiàn)目標(biāo)產(chǎn)物的表達(dá). 基因回路的設(shè)計(jì)對(duì)于精確的基因調(diào)控至關(guān)重要[191]. 目前, AI工具在這一過(guò)程中扮演著越來(lái)越重要的角色[192]. 下一步, 科學(xué)家需要開發(fā)DNA-蛋白多模態(tài)預(yù)訓(xùn)練模型, 并基于此研發(fā)蛋白質(zhì)改造、代謝通路改造、底盤菌改造的干濕迭代的小樣本學(xué)習(xí)方法, 徹底顛覆合成生物學(xué)靠專家經(jīng)驗(yàn)+大量濕實(shí)驗(yàn)試錯(cuò)效率低下的研究范式. 取而代之的是AI主導(dǎo)、配合少量濕實(shí)驗(yàn)就能實(shí)現(xiàn)合成生物學(xué)全場(chǎng)景的應(yīng)用, 包括單個(gè)生物元件(如酶)、代謝通路, 乃至底盤細(xì)胞...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
亞足聯(lián)官網(wǎng):中國(guó)隊(duì)在U23亞洲杯共輸球10場(chǎng),為該賽事輸球最多的球隊(duì)

亞足聯(lián)官網(wǎng):中國(guó)隊(duì)在U23亞洲杯共輸球10場(chǎng),為該賽事輸球最多的球隊(duì)

懂球帝
2026-01-08 11:50:35
300986,連續(xù)4個(gè)“20cm”漲停!氫能產(chǎn)業(yè)拐點(diǎn)將至,機(jī)構(gòu)密集關(guān)注這些高增長(zhǎng)股

300986,連續(xù)4個(gè)“20cm”漲停!氫能產(chǎn)業(yè)拐點(diǎn)將至,機(jī)構(gòu)密集關(guān)注這些高增長(zhǎng)股

數(shù)據(jù)寶
2026-01-08 12:20:23
“親爹咋能這么糟蹋閨女?”父親拍下女兒視頻,網(wǎng)友都看不下去了

“親爹咋能這么糟蹋閨女?”父親拍下女兒視頻,網(wǎng)友都看不下去了

妍妍教育日記
2025-12-12 23:15:07
全球狂賺12億美元!如果卡梅隆拍《西游記》,好萊塢都得叫爸爸!

全球狂賺12億美元!如果卡梅隆拍《西游記》,好萊塢都得叫爸爸!

草莓解說(shuō)體育
2026-01-07 09:54:04
特朗普真正的“克星”來(lái)了,一枚高超音速導(dǎo)彈升空,直指美方本土

特朗普真正的“克星”來(lái)了,一枚高超音速導(dǎo)彈升空,直指美方本土

流史歲月
2026-01-07 12:25:07
高度重視這輪中日貿(mào)易戰(zhàn)的巨大機(jī)會(huì)!

高度重視這輪中日貿(mào)易戰(zhàn)的巨大機(jī)會(huì)!

君臨財(cái)富
2026-01-07 17:15:54
“劉文彩,喝人奶”,他到底喝沒(méi)喝過(guò)?劉文彩的兒子揭露真相!

“劉文彩,喝人奶”,他到底喝沒(méi)喝過(guò)?劉文彩的兒子揭露真相!

銘記歷史呀
2025-12-31 02:05:57
美媒披露:馬杜羅夫婦躲避美軍時(shí)撞傷頭部

美媒披露:馬杜羅夫婦躲避美軍時(shí)撞傷頭部

參考消息
2026-01-07 14:07:04
婚變傳聞不到2天,田樸珺不再沉默,二字回應(yīng),王石心里早有底了

婚變傳聞不到2天,田樸珺不再沉默,二字回應(yīng),王石心里早有底了

李健政觀察
2026-01-05 14:49:27
8號(hào)午評(píng):滬指早間窄幅震蕩,所有人都注意,準(zhǔn)備迎接新的變盤了

8號(hào)午評(píng):滬指早間窄幅震蕩,所有人都注意,準(zhǔn)備迎接新的變盤了

春江財(cái)富
2026-01-08 11:51:36
一百多年前,康有為花費(fèi) 150 萬(wàn)在歐洲購(gòu)得一座島,時(shí)至今日,這座島的產(chǎn)權(quán)到底歸誰(shuí)所有?

一百多年前,康有為花費(fèi) 150 萬(wàn)在歐洲購(gòu)得一座島,時(shí)至今日,這座島的產(chǎn)權(quán)到底歸誰(shuí)所有?

源溯歷史
2026-01-02 18:50:36
在自家公司上班有多慘?網(wǎng)友:感同身受,想逃但是還不夠能力

在自家公司上班有多慘?網(wǎng)友:感同身受,想逃但是還不夠能力

解讀熱點(diǎn)事件
2025-12-29 00:05:13
棋子永遠(yuǎn)成不了下棋者,中國(guó)的存在,是黃種人文明脊梁不卑微根本

棋子永遠(yuǎn)成不了下棋者,中國(guó)的存在,是黃種人文明脊梁不卑微根本

書紀(jì)文譚
2025-12-18 15:20:21
丈夫外派到迪拜2年,我半夜起來(lái)蓋被子,3歲兒子突然說(shuō):媽媽你知道嗎?爸爸在窗外對(duì)我招手,我腿都嚇軟了

丈夫外派到迪拜2年,我半夜起來(lái)蓋被子,3歲兒子突然說(shuō):媽媽你知道嗎?爸爸在窗外對(duì)我招手,我腿都嚇軟了

起飛做故事
2025-12-17 19:19:06
體重可超一噸!2016年被專家宣布已滅絕,3年后竟在上海崇明重現(xiàn)

體重可超一噸!2016年被專家宣布已滅絕,3年后竟在上海崇明重現(xiàn)

萬(wàn)象硬核本尊
2025-12-25 19:18:58
國(guó)乒新教練組浮出水面!有四人留守疑似續(xù)約,許昕透露已知道結(jié)果

國(guó)乒新教練組浮出水面!有四人留守疑似續(xù)約,許昕透露已知道結(jié)果

三十年萊斯特城球迷
2026-01-07 22:39:36
餐館推“石槽火鍋”被調(diào)侃神似“豬食槽”;老板:能容納8人用餐,衛(wèi)生安全沒(méi)問(wèn)題;網(wǎng)友:很難洗干凈,養(yǎng)過(guò)豬的絕對(duì)下不去嘴

餐館推“石槽火鍋”被調(diào)侃神似“豬食槽”;老板:能容納8人用餐,衛(wèi)生安全沒(méi)問(wèn)題;網(wǎng)友:很難洗干凈,養(yǎng)過(guò)豬的絕對(duì)下不去嘴

揚(yáng)子晚報(bào)
2026-01-08 10:17:26
即日起正式實(shí)施,中方管制準(zhǔn)時(shí)祭出,石平收到8個(gè)字,侮辱性極大

即日起正式實(shí)施,中方管制準(zhǔn)時(shí)祭出,石平收到8個(gè)字,侮辱性極大

博覽歷史
2026-01-07 15:06:39
香港警方掃黃:拘8名內(nèi)地女,最大62歲

香港警方掃黃:拘8名內(nèi)地女,最大62歲

吃瓜體
2026-01-07 21:28:22
機(jī)床限制就算了,連個(gè)減速機(jī)都要出口限制了?日本公司也太小氣了

機(jī)床限制就算了,連個(gè)減速機(jī)都要出口限制了?日本公司也太小氣了

喜愛(ài)的CAD
2026-01-05 07:00:03
2026-01-08 16:00:49
化學(xué)加網(wǎng) incentive-icons
化學(xué)加網(wǎng)
萃聚英才,共享化學(xué)
12263文章數(shù) 8303關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

中方被指正考慮進(jìn)一步收緊中重稀土出口 日本業(yè)界慌了

頭條要聞

中方被指正考慮進(jìn)一步收緊中重稀土出口 日本業(yè)界慌了

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂(lè)要聞

2026春節(jié)檔將有六部電影強(qiáng)勢(shì)上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來(lái)人類會(huì)花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
親子
本地
教育

藝術(shù)要聞

頤和園金光穿洞

藍(lán)色+灰色、紅色+棕色,這4組配色怎么搭都好看!

親子要聞

富豪階層,正在批量生產(chǎn)“超級(jí)嬰兒”

本地新聞

1986-2026,一通電話的時(shí)空旅程

教育要聞

中考數(shù)學(xué),求陰影面積?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版