国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

深度科學(xué)| 人工智能如何加速酰胺偶聯(lián)反應(yīng),促進藥物研發(fā)

0
分享至

摘要:

酰胺偶聯(lián)反應(yīng)是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中最為關(guān)鍵的轉(zhuǎn)化之一,廣泛應(yīng)用于各種藥物分子的合成。然而,由于反應(yīng)條件空間的廣闊性和復(fù)雜性,如何高效地推薦最佳反應(yīng)條件一直是一個巨大的挑戰(zhàn)。該研究通過結(jié)合高通量實驗(HTE)平臺和嵌入“中間知識”的機器學(xué)習(xí)模型,顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測的準(zhǔn)確性和模型的泛化能力。

01

背景介紹

酰胺偶聯(lián)反應(yīng)(Amide coupling reaction)不僅僅是化學(xué)實驗室里的一個普通反應(yīng),更是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中不可或缺的“基石”。我們?nèi)粘I钪惺褂玫脑S多藥物,從抗癌藥到抗生素,從心血管藥物到神經(jīng)系統(tǒng)藥物,它們的分子結(jié)構(gòu)中都可能含有酰胺鍵。酰胺鍵就像是分子世界的“骨架”,將不同的功能單元連接起來,形成具有特定生物活性的復(fù)雜分子。因此,高效、精準(zhǔn)地構(gòu)建酰胺鍵,對于藥物的研發(fā)和生產(chǎn)至關(guān)重要。

1. 酰胺偶聯(lián)反應(yīng)

然而,一個酰胺偶聯(lián)反應(yīng)的成功與否,往往取決于一系列復(fù)雜的反應(yīng)條件,包括偶聯(lián)試劑、堿、溶劑、反應(yīng)溫度和反應(yīng)時間等。這些條件組合起來,形成了一個龐大而復(fù)雜的“條件空間”。對于化學(xué)家而言,如何在如此廣闊的條件空間中,快速而準(zhǔn)確地找到最佳的反應(yīng)條件,以獲得高產(chǎn)率和高選擇性的目標(biāo)產(chǎn)物,一直是一個令人頭疼的難題。傳統(tǒng)的做法是依靠化學(xué)家的經(jīng)驗和大量的試錯實驗。這種方法不僅耗時耗力,而且效率低下,尤其是在面對新型底物或具有挑戰(zhàn)性的反應(yīng)時,往往會陷入漫長的實驗篩選過程,嚴(yán)重阻礙了藥物研發(fā)的進程。該研究巧妙地結(jié)合了高通量實驗(High-Throughput Experimentation, HTE)平臺和一種創(chuàng)新的“中間知識嵌入”策略(圖2),顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測模型的性能。

2. 酰胺偶聯(lián)反應(yīng)條件推薦研究

02

圖文解析

1.數(shù)據(jù)基石:高通量實驗(HTE)與數(shù)據(jù)質(zhì)量的挑戰(zhàn)

任何成功的機器學(xué)習(xí)模型,都離不開高質(zhì)量的數(shù)據(jù)。在化學(xué)反應(yīng)預(yù)測領(lǐng)域,數(shù)據(jù)的質(zhì)量和多樣性直接決定了模型的準(zhǔn)確性和泛化能力。傳統(tǒng)的化學(xué)反應(yīng)數(shù)據(jù)主要來源于文獻報道。然而,文獻數(shù)據(jù)往往存在諸多局限性:首先,文獻通常只報道成功的、高產(chǎn)率的反應(yīng),而對低產(chǎn)率甚至失敗的反應(yīng)鮮有提及,這導(dǎo)致數(shù)據(jù)集存在嚴(yán)重的“成功偏倚”,使得模型難以學(xué)習(xí)到反應(yīng)失敗的原因和邊界條件。其次,不同實驗室的實驗條件、操作規(guī)程以及數(shù)據(jù)記錄方式存在差異,導(dǎo)致數(shù)據(jù)一致性差,難以直接用于機器學(xué)習(xí)模型的訓(xùn)練(圖3)。此外,文獻數(shù)據(jù)往往缺乏對反應(yīng)條件空間的系統(tǒng)性探索,難以全面覆蓋各種可能的反應(yīng)組合。

3多條件模型工作流程示意圖,以甲胺與乙酸反應(yīng)為例

為了克服這些挑戰(zhàn),高通量實驗(High-Throughput Experimentation, HTE)應(yīng)運而生。HTE是一種通過自動化和并行化技術(shù),在短時間內(nèi)進行大量實驗的方法。它能夠系統(tǒng)地探索反應(yīng)條件空間,生成大規(guī)模、一致且包含成功與失敗案例的實驗數(shù)據(jù)。這篇研究正是利用了其內(nèi)部的高通量實驗平臺,系統(tǒng)地收集了酰胺偶聯(lián)反應(yīng)的產(chǎn)率數(shù)據(jù)。最終,他們收集了超過47000個產(chǎn)率數(shù)據(jù)點,構(gòu)建了一個豐富而多樣的數(shù)據(jù)集(圖3),為后續(xù)機器學(xué)習(xí)模型的訓(xùn)練奠定了堅實的基礎(chǔ)。

4. 用SMiles ARbitrary Target Specification(SMARTS)語法編寫的反應(yīng)模板

2.智能預(yù)測:多條件模型開發(fā)與中間知識的魔力

有了高質(zhì)量的數(shù)據(jù),接下來就是構(gòu)建能夠準(zhǔn)確預(yù)測反應(yīng)產(chǎn)率的機器學(xué)習(xí)模型。在這項研究中,研究人員探索了多種機器學(xué)習(xí)算法和深度學(xué)習(xí)方法,包括XGBoost、支持向量機(SVM)、隨機森林、AutoGluon以及基于Transformer的深度學(xué)習(xí)模型Yield-BERT和T5-Chem。這些模型的目標(biāo)都是從反應(yīng)物的結(jié)構(gòu)和反應(yīng)條件中學(xué)習(xí)規(guī)律,從而預(yù)測反應(yīng)的產(chǎn)率。為了更嚴(yán)格地評估模型的性能,該研究采用了三種不同級別的測試集(圖5):

(1)隨機劃分(Random Split):這是最常見的劃分方式,數(shù)據(jù)集被隨機分成訓(xùn)練集和測試集。雖然簡單,但如前所述,其評估結(jié)果可能過于樂觀。

(2)部分底物新穎性(Partial Substrate Novelty):在這種劃分中,測試集中的反應(yīng)至少有一個底物是模型在訓(xùn)練時未曾見過的。這使得評估更具挑戰(zhàn)性,更能反映模型在面對部分新穎情況時的表現(xiàn)。

(3)完全底物新穎性(Full Substrate Novelty):這是最嚴(yán)格的評估方式,測試集中的所有底物組合都是模型在訓(xùn)練時完全未曾見過的。這種劃分最能模擬真實世界中化學(xué)家需要預(yù)測全新反應(yīng)產(chǎn)率的場景,也是衡量模型泛化能力的關(guān)鍵指標(biāo)。

5. 三個級別測試集的示意圖:隨機拆分、部分底物新穎性和完全新穎性測試

研究結(jié)果顯示,在隨機劃分和部分底物新穎性測試集上,模型的表現(xiàn)相對較好,但在完全底物新穎性測試集上,模型的性能普遍有所下降(圖5)。這促使研究人員思考,如何才能進一步提升模型在面對完全新穎底物時的泛化能力。

為了解決這一難題,研究團隊提出了一種創(chuàng)新的策略,在機器學(xué)習(xí)模型中嵌入反應(yīng)中間體知識(Intermediate Knowledge Embedding)。他們觀察到,在酰胺偶聯(lián)反應(yīng)中,酸在與偶聯(lián)試劑作用后,會形成一個活化的中間體,這個中間體才是真正與胺反應(yīng)的關(guān)鍵。傳統(tǒng)的機器學(xué)習(xí)模型通常只關(guān)注反應(yīng)物和最終產(chǎn)物,而忽略了反應(yīng)過程中形成的中間體。研究人員認為,如果能將這些“中間知識”融入到模型中,模型就能更好地理解反應(yīng)機理,從而更準(zhǔn)確地預(yù)測產(chǎn)率。

他們選擇了六種常用的酰胺偶聯(lián)反應(yīng)條件,并為每種條件設(shè)計了特定的SMARTS(SMILES ARbitrary Target Specification)模板,用于描述酸轉(zhuǎn)化為活化中間體的過程。結(jié)果令人振奮,嵌入中間知識的模型性能顯著提升,尤其是在完全底物新穎性測試集上。例如,在HATU和TBTU條件下,模型的R2值(一個衡量模型擬合優(yōu)度的指標(biāo),越接近1表示擬合越好)分別從0.69和0.71飆升至0.86和0.84(圖6)。這意味著模型在理解反應(yīng)的本質(zhì)方面取得了重大突破,能夠更準(zhǔn)確地預(yù)測全新反應(yīng)的產(chǎn)率。

6.(a)使用HATU作為活化試劑將酸轉(zhuǎn)化為中間SMARTS模式,以及(b)所選單條件模型工作流程的示意圖

3.模型的泛化能力與實際應(yīng)用:從預(yù)測到推薦

該研究通過化學(xué)信息數(shù)據(jù)庫(如SciFinder)篩選了大量與藥物發(fā)現(xiàn)和生物研究相關(guān)的酰胺偶聯(lián)反應(yīng),并確保這些反應(yīng)的底物組合與他們自己的HTE數(shù)據(jù)集完全不同。這意味著模型在預(yù)測這些外部文獻反應(yīng)的產(chǎn)率時,是真正面對“陌生”的挑戰(zhàn)。結(jié)果令人鼓舞:即使在面對這些全新的外部數(shù)據(jù)時,嵌入中間知識的BERT模型依然表現(xiàn)出色,R2值達到了0.71,平均絕對誤差(MAE)為7%,均方根誤差(RMSE)為10%(圖7和圖8)。考慮到訓(xùn)練數(shù)據(jù)集的規(guī)模(約400個底物對),這樣的性能已經(jīng)非常強大,并且研究人員指出,隨著更多數(shù)據(jù)的加入,模型的泛化能力有望進一步提升。

7. 257個外部文獻反應(yīng)示例的預(yù)測產(chǎn)率與實驗產(chǎn)率

總而言之,這項研究不僅構(gòu)建了一個高性能的酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測模型,更重要的是,它通過引入“中間知識”和嚴(yán)格的評估方法,顯著提升了模型的泛化能力和實際應(yīng)用價值。它從單純的“預(yù)測”走向了更具指導(dǎo)意義的“推薦”,為化學(xué)家提供了強大的智能工具,有望加速新藥的發(fā)現(xiàn)和開發(fā)進程。

8. 一些外部文獻反應(yīng)實例的預(yù)測結(jié)果

03

總結(jié)

這項研究揭示了“中間知識”在提升模型性能和泛化能力方面所扮演的關(guān)鍵角色。它證明復(fù)雜化學(xué)反應(yīng)體系中,僅僅依靠輸入和輸出數(shù)據(jù)進行模式識別是遠遠不夠的。將化學(xué)反應(yīng)的內(nèi)在機理,如中間體的形成和轉(zhuǎn)化,以結(jié)構(gòu)化的方式嵌入到機器學(xué)習(xí)模型中,能夠極大地增強模型的理解能力和預(yù)測精度。這為未來化學(xué)人工智能的發(fā)展指明了方向:即從純粹的數(shù)據(jù)驅(qū)動走向數(shù)據(jù)與知識雙輪驅(qū)動,構(gòu)建更具解釋性、更符合化學(xué)直覺的智能模型。

參考文獻

Chonghuan Zhang, Qianghua Lin, Chenxi Yang, Yaxian Kong, Zhunzhun Yu and Kuangbiao Liao Intermediate knowledge enhanced the performance of the amide coupling yield prediction model. Chemical Science, 2025, 16, 11809-11822.

聲明:

1. 版權(quán):推送內(nèi)容僅供學(xué)習(xí)交流分享使用,無任何商業(yè)用途,如有侵權(quán),請聯(lián)系后臺刪除或修改,感謝支持。

2. 投稿:非常歡迎各位老師在公眾號上介紹課題組前沿或經(jīng)典研究成果!后臺或郵箱聯(lián)系即可!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新設(shè)計!華為新機定檔:4月份,正式登場亮相

新設(shè)計!華為新機定檔:4月份,正式登場亮相

科技堡壘
2026-03-26 11:33:56
金溥聰深夜發(fā)聲明“正面宣戰(zhàn)” 劍指鄭麗文 國民黨內(nèi)斗公開化

金溥聰深夜發(fā)聲明“正面宣戰(zhàn)” 劍指鄭麗文 國民黨內(nèi)斗公開化

觀星賞月
2026-03-28 12:11:40
商務(wù)部剛對美展開調(diào)查,不到24小時,特朗普主動認錯,還大夸中國

商務(wù)部剛對美展開調(diào)查,不到24小時,特朗普主動認錯,還大夸中國

近史閣
2026-03-29 03:32:24
娃哈哈被曝大規(guī)模停產(chǎn),“連AD鈣奶和營養(yǎng)快線都讓停了”,知情人:正常排產(chǎn)調(diào)整,“宗馥莉的管理方式和宗慶后確實不一樣”

娃哈哈被曝大規(guī)模停產(chǎn),“連AD鈣奶和營養(yǎng)快線都讓停了”,知情人:正常排產(chǎn)調(diào)整,“宗馥莉的管理方式和宗慶后確實不一樣”

每日經(jīng)濟新聞
2026-03-28 11:57:07
“只要愿意賣,啥電腦都收”,二手舊電腦回收行情大漲,回收商:漲幅遠超手機價格,翻了5倍,16G內(nèi)存條幾十塊錢,漲到了五六百

“只要愿意賣,啥電腦都收”,二手舊電腦回收行情大漲,回收商:漲幅遠超手機價格,翻了5倍,16G內(nèi)存條幾十塊錢,漲到了五六百

觀威海
2026-03-28 18:47:03
穆帥放棄下賽季重返英超,執(zhí)教紐卡,已本菲卡達成協(xié)議,繼續(xù)執(zhí)教

穆帥放棄下賽季重返英超,執(zhí)教紐卡,已本菲卡達成協(xié)議,繼續(xù)執(zhí)教

福醬的小時光
2026-03-28 21:57:23
四川起義軍突然反水,處決十六名軍代表,為何比土匪更兇殘

四川起義軍突然反水,處決十六名軍代表,為何比土匪更兇殘

嘮叨說歷史
2026-03-25 11:05:30
張藝謀北京公園挖野菜被偶遇!葛優(yōu)同款點位,滿滿一袋太接地氣

張藝謀北京公園挖野菜被偶遇!葛優(yōu)同款點位,滿滿一袋太接地氣

花語舞者
2026-03-28 19:48:46
一枚“火烈鳥”導(dǎo)彈引爆俄3萬噸產(chǎn)能的炸藥廠

一枚“火烈鳥”導(dǎo)彈引爆俄3萬噸產(chǎn)能的炸藥廠

桂系007
2026-03-28 23:48:41
血虧!曼聯(lián) 1000 萬賤賣棄將封神,已成新版巴爾韋德

血虧!曼聯(lián) 1000 萬賤賣棄將封神,已成新版巴爾韋德

奶蓋熊本熊
2026-03-29 03:41:06
我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫(yī)生:恭喜

我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫(yī)生:恭喜

千秋文化
2026-03-25 21:42:08
風(fēng)向變了!美國科技巨頭紛紛表態(tài),外媒:中國已經(jīng)不愿意買了!

風(fēng)向變了!美國科技巨頭紛紛表態(tài),外媒:中國已經(jīng)不愿意買了!

王嚾曉
2026-03-28 17:10:41
“霍爾木茲決戰(zhàn)”,攤牌了

“霍爾木茲決戰(zhàn)”,攤牌了

中國新聞周刊
2026-03-27 20:31:04
重磅!2年7500萬,哈登與騎士續(xù)約協(xié)議曝光,更炸裂的還在后面…

重磅!2年7500萬,哈登與騎士續(xù)約協(xié)議曝光,更炸裂的還在后面…

煙潯渺渺
2026-03-28 17:03:40
刺激夜:西班牙3-0,德國4-3,荷蘭2-1,英格蘭1-1,埃及4-0,伊朗1-2

刺激夜:西班牙3-0,德國4-3,荷蘭2-1,英格蘭1-1,埃及4-0,伊朗1-2

側(cè)身凌空斬
2026-03-28 06:28:26
關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

楓嶺社
2026-03-27 10:49:09
遼寧慘敗廣州完全不該輸,衛(wèi)冕冠軍崩盤太刺眼

遼寧慘敗廣州完全不該輸,衛(wèi)冕冠軍崩盤太刺眼

老汆古裝影視解說
2026-03-29 00:15:51
德約科維奇退賽!連續(xù)十三年參賽紀(jì)錄終結(jié)

德約科維奇退賽!連續(xù)十三年參賽紀(jì)錄終結(jié)

網(wǎng)球之家
2026-03-28 23:02:40
隊記談焦泊喬:他想要個官方通報,但球隊不想出,球迷:無法調(diào)和

隊記談焦泊喬:他想要個官方通報,但球隊不想出,球迷:無法調(diào)和

南海浪花
2026-03-28 11:44:31
張雪峰40天閃婚真相曝光,細節(jié)驚人牽涉第三人

張雪峰40天閃婚真相曝光,細節(jié)驚人牽涉第三人

無處遁形
2026-03-29 04:31:18
2026-03-29 05:40:49
原子量 incentive-icons
原子量
探索科學(xué)魅力,實踐科技創(chuàng)新;分享化學(xué)奇趣,服務(wù)知識交流。
69文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負責(zé)人王云鶴確認離職

頭條要聞

伊朗:擊中美軍F-16戰(zhàn)機 強力反擊加速以政權(quán)崩潰

頭條要聞

伊朗:擊中美軍F-16戰(zhàn)機 強力反擊加速以政權(quán)崩潰

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

教育
時尚
本地
數(shù)碼
健康

教育要聞

著名大學(xué)校長去世!他把這所學(xué)校,重新帶回世界高教的中心…

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

數(shù)碼要聞

蘋果或重啟與長江存儲合作 國行機型擬采用國產(chǎn)NAND

干細胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進入關(guān)懷版