国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

EDBench發(fā)布,AI驅(qū)動分子建模邁入「電子級」時代

0
分享至



作者 | 論文團隊

編輯 | ScienceAI

在藥物設計、新材料開發(fā)等領域,精確模擬分子行為至關重要。傳統(tǒng)的機器學習力場將分子視為由原子核和化學鍵構(gòu)成的“骨架”,卻忽略了真正決定分子性質(zhì)的“靈魂”——電子

電子密度,這一量子化學中的核心物理量,描述了電子在空間中的分布概率,從根本上決定了分子的能量、反應活性等所有性質(zhì)。然而,通過量子化學計算獲取電子密度數(shù)據(jù)成本極高,嚴重阻礙了該方向的研究。

近日,湖南大學/國家超算長沙中心聯(lián)合寧波東方理工大學、香港科技大學(廣州)AIMS Lab、華東師范大學、中國科學技術大學等團隊在國際頂會NeurIPS 2025(神經(jīng)信息處理系統(tǒng)大會,AI領域頂會)上發(fā)布研究成果——大規(guī)模電子密度泛函數(shù)據(jù)集EDbench

這個涵蓋336萬分子的“電子密度數(shù)據(jù)庫”,首次填補了“電子級分子建?!钡拇笠?guī)模數(shù)據(jù)空白,讓AI預測分子性質(zhì)的精度和效率實現(xiàn)雙重突破,有望加速新藥研發(fā)、新材料設計等關鍵領域的進程。



論文主頁:https://hongxinxiang.github.io/projects/EDBench/

為什么電子密度是分子建模的“終極密碼”?

在量子化學中,分子的一切性質(zhì)都藏在“電子分布”里,這是Hohenberg-Kohn定理的核心結(jié)論。打個比方:如果把分子比作“智能手機”,傳統(tǒng)AI分子建模(MLFFs)只關注“硬件零件(原子)”的排列,卻忽略了“操作系統(tǒng)(電子)”的邏輯;而電子密度(ED)就是“操作系統(tǒng)的源代碼”,能直接解鎖分子的“底層功能”。



圖(a)展示了從原子級到電子級的MLFF范式升級,其中電子密度(ED)是描述電子空間分布的量子力學中的基本物理量,可以提供分子系統(tǒng)更細致的物理表示,但是長期以來,獲取ED數(shù)據(jù)堪稱“兩難”:

  • 實驗測量(如X射線衍射)依賴千萬級設備,單種分子的ED數(shù)據(jù)需數(shù)月才能獲??;
  • 理論計算(DFT)雖通用,但算一個小分子要245秒,想攢“百萬級數(shù)據(jù)集”需單核心連續(xù)計算23年。

這就導致AI分子建模始終卡在“原子級”——比如預測藥物分子與靶點的結(jié)合活性時,傳統(tǒng)模型只能通過“原子間距”間接推斷,卻看不到“電子富集區(qū)”的真實作用,精度往往差強人意。

EDBench數(shù)據(jù)集:規(guī)模與質(zhì)量的雙重突破

本論文中,EDBench的建成正好解決了該領域長期存在的“數(shù)據(jù)荒”問題,該數(shù)據(jù)集的創(chuàng)建并不是“簡單攢數(shù)據(jù)”,而是“精度、規(guī)模、實用性”的多重考量。



1.規(guī)模突破:336萬分子的“算力攻堅”

從細節(jié)角度來看,圖(b)展示了數(shù)據(jù)集構(gòu)建中的DFT計算流程,該流程是通過自洽場(SCF)迭代來實現(xiàn)的,從宏觀角度來看,EDBench基于PCQM4Mv2數(shù)據(jù)集構(gòu)建,涵蓋3,359,472個類藥分子,規(guī)模超同類成果:

  • 材料領域經(jīng)典ED數(shù)據(jù)MP僅含12萬條數(shù)據(jù),且無量子性質(zhì)標注;
  • 藥物領域最大電子相關數(shù)據(jù)集?2DFT雖有190萬條,但不含直接ED分布(僅密度矩陣)。

更重要的是,EDBench輸出的是CUBE格式的3D電子密度云圖——相當于給每個分子拍了“電子CT”,能直接看到電子在原子周圍的富集程度。

2.精度控制:從泛函到基組的“定制化方案”

為了讓ED數(shù)據(jù)符合真實量子規(guī)律,團隊基于圖(c)中Jacob’s ladder做了三重優(yōu)化:



  • 泛函選擇:選用B3LYP混合泛函——這是量子化學的“萬金油”,在合成化學、藥物研發(fā)等領域經(jīng)過驗證,能平衡電子相關性描述與計算效率;
  • 基組適配:普通分子用6-31G基組,含硫分子追加6-31+G基組——因為硫原子的電子離域性強,普通基組會低估其ED分布;
  • 自旋適配:自動切換RHF/UHF參考波函數(shù)——閉殼層分子(如甲烷)用RHF,開殼層分子(如氧分子)用UHF,避免自旋污染導致的誤差。

3.標注維度:AI建模的“全要素養(yǎng)料”

EDBench不止提供ED數(shù)據(jù),還同步輸出6類能量成分(核排斥能、交換關聯(lián)能等)、7種軌道能量(HOMO-2至LUMO+3)、4類偶極矩(X/Y/Z分量及模長)。這種“多維度標注”正是AI突破“單任務擬合”的關鍵——例如,模型可通過“ED分布→軌道能量→反應活性”的鏈式學習,實現(xiàn)更本質(zhì)的性質(zhì)預測。

三大基準任務:驗證AI的“電子理解能力”

為避免數(shù)據(jù)集“只存不用”,團隊設計了覆蓋ED核心應用場景的基準任務,均采用scaffold split(OOD泛化性測試),直擊AI建模的真實痛點。

1.量子性質(zhì)預測:ED比原子特征強在哪?

4個子任務中,X-3D(點云模型)的表現(xiàn)印證了ED的優(yōu)勢:

  • ED5-OE(軌道能量預測):HOMO能量MAE僅0.0198 eV,較原子級模型(MAE≈0.03 eV)精度提升34%——因為軌道能量與局部ED分布直接相關,AI能快速捕捉“電子富集區(qū)”的微觀特征;
  • ED5-OCS(開/閉殼層分類):AUPR達61.54%,解決了傳統(tǒng)模型“分不清電子態(tài)”的核心難題——開殼層分子(如自由基)的ED分布呈“不對稱性”,AI能通過這種特征精準分類。

2.跨模態(tài)檢索:“結(jié)構(gòu)-密度”雙向?qū)R的突破

ED5-MER任務中,模型需實現(xiàn)“分子結(jié)構(gòu)→ED”和“ED→分子結(jié)構(gòu)”的雙向檢索,這對藥物虛擬篩選、材料逆設計至關重要。



圖中清晰展示:EquiformerV2(分子結(jié)構(gòu)編碼器)+X-3D(ED編碼器)的組合表現(xiàn)最優(yōu),ED→MS檢索Top-1準確率達78.71%,MS→ED達78.36%。這意味著:給一張實驗測得的電子云圖,AI能精準匹配對應的分子結(jié)構(gòu);反之,輸入分子結(jié)構(gòu)也能快速生成ED分布,為“電子驅(qū)動的逆設計”奠定基礎。

3. ED生成:1.8萬倍提速的“DFT平替方案”

團隊提出HGEGNN異構(gòu)圖模型(將原子與電子作為雙類型節(jié)點),輸入分子結(jié)構(gòu)即可生成ED:

  • 速度:0.013秒/分子,較DFT(245秒/分子)提速18907倍;
  • 質(zhì)量:生成ED的Pearson相關達99.2%,且用于下游能量預測時,MAE較DFT原始數(shù)據(jù)降低11%(209.29→186.38)——AI生成的ED因過濾了DFT計算的噪聲,反而更適合模型學習。

生成ED的質(zhì)量“反超”DFT?

上述HGEGNN異構(gòu)圖模型引出了一個顛覆性發(fā)現(xiàn):AI生成ED數(shù)據(jù),在下游任務中表現(xiàn)竟優(yōu)于DFT原始數(shù)據(jù)。

團隊用HGEGNN生成3組ED數(shù)據(jù)(G#1、G#2、G#3),替換ED5-EC任務中的DFT數(shù)據(jù),訓練PointVector模型后發(fā)現(xiàn):生成數(shù)據(jù)的平均MAE從209.29降至186.38,相對提升11%。



圖中藍色柱DFT數(shù)據(jù)的模型表現(xiàn),綠色柱為AI生成數(shù)據(jù)的表現(xiàn)——這并非說明AI生成的ED“更符合物理真實”,而是其“更平滑的分布”更契合深度學習模型的歸納偏好,減少了DFT計算中的數(shù)值噪聲,為“高效-高精度建?!碧峁┝诵滤悸?。

參數(shù)玄機:閾值與采樣點如何影響性能?

ED數(shù)據(jù)的“高維度”(百萬級采樣點)可能導致模型效率低下,團隊通過消融實驗找到最優(yōu)參數(shù)。



左圖(a)顯示:隨著ED閾值ρτ從0.05增至0.2,PointVector在ED5-EC任務的MAE從346.36降至209.29;但ρτ超過0.2后,性能反而下降——因為過高的閾值會過濾掉化學鍵附近的低密度電子(化學活性區(qū)),這提示:ρτ=0.2是“信息保留與效率”的黃金平衡點。

對AI for Science的啟示:從“擬合”到“理解”

EDBench的價值遠超“一個數(shù)據(jù)集”:它首次證明了“電子級表征”在AI建模中的可行性,為幾何深度學習(GDL)開辟了新方向——過去GDL聚焦“原子間對稱關系”,現(xiàn)在可轉(zhuǎn)向“電子密度的空間連續(xù)性”建模。

目前,EDBench的全部數(shù)據(jù)(含CUBE格式電子云圖)、代碼及可視化工具已通過哈佛Dataverse開放:

https://dataverse.harvard.edu/dataverse/EDBench

正如團隊通訊作者所言:“EDBench”不是終點,而是讓AI“看懂電子”的起點——當模型能真正理解電子分布,新藥研發(fā)、新材料設計才有可能從“試錯”走向“預測”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭爽第一次公開露臉!她安全了?

鄭爽第一次公開露臉!她安全了?

八卦瘋叔
2025-12-24 11:06:14
華南理工大學原副校長陳鐵群逝世,曾任武漢汽車工業(yè)大學校長

華南理工大學原副校長陳鐵群逝世,曾任武漢汽車工業(yè)大學校長

澎湃新聞
2025-12-24 22:50:26
2連勝還是大勝,快船贏在哪里,有4個正確策略,一人也試出來了

2連勝還是大勝,快船贏在哪里,有4個正確策略,一人也試出來了

體壇大辣椒
2025-12-24 14:01:58
完全無法理解,斯普利特賽后發(fā)言漏洞百出,瀚森終得機會提升明顯

完全無法理解,斯普利特賽后發(fā)言漏洞百出,瀚森終得機會提升明顯

拾叁懂球
2025-12-24 18:37:51
“金條遭瘋搶,飾金賣不動”,老鳳祥有煩惱:金價越漲,生意越愁

“金條遭瘋搶,飾金賣不動”,老鳳祥有煩惱:金價越漲,生意越愁

新浪財經(jīng)
2025-12-24 18:28:33
三星S26全系來了:12月24日,這配置太炸裂了

三星S26全系來了:12月24日,這配置太炸裂了

手機講壇
2025-12-24 12:55:24
俄羅斯專家預測:美國扣押赴華的委內(nèi)瑞拉油輪后,中國會采取行動

俄羅斯專家預測:美國扣押赴華的委內(nèi)瑞拉油輪后,中國會采取行動

惜惜視界
2025-12-23 22:57:30
一個精神分裂的程序員,用10年寫了一個拯救世界的操作系統(tǒng)

一個精神分裂的程序員,用10年寫了一個拯救世界的操作系統(tǒng)

碼農(nóng)翻身
2025-12-24 08:58:10
中國購買委內(nèi)瑞拉石油的超大型油輪已經(jīng)上路,美國還敢攔劫嗎?

中國購買委內(nèi)瑞拉石油的超大型油輪已經(jīng)上路,美國還敢攔劫嗎?

我心縱橫天地間
2025-12-21 18:38:22
46歲秦嵐“蜜桃臀”刷屏熱搜:比身材更狠的,是她這份自律

46歲秦嵐“蜜桃臀”刷屏熱搜:比身材更狠的,是她這份自律

橙星文娛
2025-12-24 14:08:17
所有人都在等中國對日本出手,結(jié)果海關數(shù)據(jù)一公布,全都懵了

所有人都在等中國對日本出手,結(jié)果海關數(shù)據(jù)一公布,全都懵了

扶蘇聊歷史
2025-12-24 11:29:46
這會要了美國命!IMF要求人民幣升值:美國第一個反對,中國說再等等

這會要了美國命!IMF要求人民幣升值:美國第一個反對,中國說再等等

通鑒史智
2025-12-24 07:18:24
醫(yī)院發(fā)文:全體醫(yī)務人員工資按60%比例發(fā)放

醫(yī)院發(fā)文:全體醫(yī)務人員工資按60%比例發(fā)放

護理傳真
2025-12-24 20:50:50
香港再無董建華

香港再無董建華

華人星光
2025-11-25 12:01:27
微信聊天遭老板監(jiān)視,殺毒軟件“失明”,員工隱私被系統(tǒng)性采集!軟件商公開售賣“監(jiān)控神器”,稱已服務多家企業(yè)

微信聊天遭老板監(jiān)視,殺毒軟件“失明”,員工隱私被系統(tǒng)性采集!軟件商公開售賣“監(jiān)控神器”,稱已服務多家企業(yè)

每日經(jīng)濟新聞
2025-12-24 20:24:06
降息,突發(fā)大消息!黃金直線跳水!中概股,拉升!

降息,突發(fā)大消息!黃金直線跳水!中概股,拉升!

證券時報e公司
2025-12-24 23:23:36
56歲孫楠和朋友在家里聚餐,他的狀態(tài)好差,整個人暴瘦,臉色憔悴

56歲孫楠和朋友在家里聚餐,他的狀態(tài)好差,整個人暴瘦,臉色憔悴

鄉(xiāng)野小珥
2025-12-22 10:32:46
銀行人勸告:家里有老人存款的,務必加上第二存款人!越早越安心

銀行人勸告:家里有老人存款的,務必加上第二存款人!越早越安心

小白鴿財經(jīng)
2025-12-17 07:05:02
民調(diào)大跌,鄭麗文請王金平出山,蔡正元督請查明原因

民調(diào)大跌,鄭麗文請王金平出山,蔡正元督請查明原因

愛下廚的阿釃
2025-12-25 00:33:39
官媒對成龍的稱呼變了,三字之差釋放強烈信號,王晶的話有人信了

官媒對成龍的稱呼變了,三字之差釋放強烈信號,王晶的話有人信了

法老不說教
2025-12-25 00:51:06
2025-12-25 02:55:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1189文章數(shù) 222關注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進一步放松限購 滬深是否會跟進?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

旅游
家居
游戲
房產(chǎn)
軍事航空

旅游要聞

豫西地下4000年:地坑院的重生,藏著中國古村振興的密碼!

家居要聞

法式大平層 智能家居添彩

前《DOTA2》選手起訴LGD 稱拖欠近14萬賽事獎金

房產(chǎn)要聞

硬核!央企??谝痪€江景頂流紅盤,上演超預期交付!

軍事要聞

軍事專家:"特朗普級"戰(zhàn)艦設計疑大量借鑒中國055大驅(qū)

無障礙瀏覽 進入關懷版