国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大團(tuán)隊發(fā)布化學(xué)大模型基準(zhǔn)SUPERChem:挑戰(zhàn)多模態(tài)高難度化學(xué)推理

0
分享至

導(dǎo)讀

近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合計算中心、計算機學(xué)院、元培學(xué)院發(fā)布化學(xué)大模型基準(zhǔn)SUPERChem。該基準(zhǔn)針對當(dāng)前化學(xué)知識水平評測中題目難度有限、多模態(tài)與推理過程評估缺失等不足,系統(tǒng)構(gòu)建了專注評估大語言模型(LLM)化學(xué)推理分析能力的新體系,旨在推動化學(xué)智能評測的深入發(fā)展。

——背景——

2025年,隨著開源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速發(fā)展,其在自然科學(xué)領(lǐng)域的應(yīng)用已從簡單問答轉(zhuǎn)向復(fù)雜推理。然而,現(xiàn)有通用科學(xué)基準(zhǔn)趨于飽和,化學(xué)專用基準(zhǔn)多關(guān)注基礎(chǔ)能力與化學(xué)信息學(xué)任務(wù),缺乏對深度推理的系統(tǒng)考察。

從基礎(chǔ)教育、化學(xué)奧林匹克競賽到高等教育,化學(xué)學(xué)習(xí)強調(diào)知識綜合運用與多步推理,是評估推理能力的理想場景。設(shè)計高質(zhì)量評估題目需融合抽象概念與具體情境,構(gòu)建層層遞進(jìn)的推理鏈,對出題者專業(yè)素養(yǎng)要求極高。

研究團(tuán)隊依托北京大學(xué)化學(xué)學(xué)院水平頂尖的本科生和研究生群體,充分發(fā)揮其扎實學(xué)科功底與豐富解題命題經(jīng)驗,對已有題目素材進(jìn)行準(zhǔn)確評估與合理優(yōu)化,共同構(gòu)建了SUPERChem基準(zhǔn),填補了化學(xué)深度推理評估的空白。


圖1. SUPERChem總覽與例題。

——數(shù)據(jù)構(gòu)建——


圖2. SUPERChem題庫的三階段審核流程。

SUPERChem題庫由北大化學(xué)專業(yè)近百名師生共建,涵蓋題目編寫、解析撰寫及嚴(yán)格的三階段審核。題目源自非公開試題與專業(yè)文獻(xiàn)改編,并采用防泄漏設(shè)計,避免LLM依賴記憶或從選項逆推。針對化學(xué)信息的多模態(tài)特點,同步提供圖文交錯與純文本版本的對齊數(shù)據(jù)集,支持探究視覺信息對推理的影響。

目前,SUPERChem先期發(fā)布500道專家級精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學(xué)反應(yīng)與合成、化學(xué)原理與計算、實驗設(shè)計與分析四大化學(xué)核心領(lǐng)域。為細(xì)粒度評估LLM思考過程,SUPERChem引入推理路徑一致性(Reasoning Path Fidelity, RPF)指標(biāo):團(tuán)隊為每道題目撰寫了含關(guān)鍵檢查點的詳細(xì)解析,通過自動化評估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學(xué)。

——評測結(jié)果——

1. 前沿模型接近低年級本科生水平,不同模型推理一致性存在差異

表1:前沿模型在SUPERChem上的表現(xiàn)。


評測顯示, SUPERChem具有較高難度與區(qū)分度。在北京大學(xué)化學(xué)專業(yè)低年級本科生閉卷測試中,人類準(zhǔn)確率為40.3%。參與評測的前沿模型中,表現(xiàn)最佳的GPT-5 (High)準(zhǔn)確率為38.5%,表明其化學(xué)推理能力僅與化學(xué)專業(yè)低年級本科生水平相當(dāng),尚未超越人類基礎(chǔ)專業(yè)認(rèn)知。


圖3. 前沿模型的正確率與RPF關(guān)系。

分析RPF指標(biāo)可見,不同模型推理過程質(zhì)量差異明顯:Gemini-2.5-Pro和GPT-5 (High)在取得較高準(zhǔn)確率的同時,其推理邏輯也更符合專家路徑;而DeepSeek-V3.1-Thinking雖然準(zhǔn)確率相近,但RPF得分相對較低,反映其更傾向通過啟發(fā)式路徑得出結(jié)論。

2. 多模態(tài)信息雙刃劍效應(yīng)


圖4:輸入模態(tài)對不同模型的影響。

在依賴多模態(tài)輸入的題目中,視覺信息對不同模型影響各異:對Gemini-2.5-Pro等強推理模型,圖像輸入可提升準(zhǔn)確率;對GPT-4o等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學(xué)任務(wù)中需根據(jù)模型能力匹配合適的輸入模態(tài)。

3. 推理斷點分析:模型倒在了哪一步?

為進(jìn)一步探究LLM推理失敗的深層原因,研究團(tuán)隊進(jìn)行了推理斷點分析。結(jié)果表明,前沿模型的推理斷點集中于產(chǎn)物結(jié)構(gòu)預(yù)測、反應(yīng)機理識別、構(gòu)效關(guān)系分析等高階化學(xué)推理環(huán)節(jié)。這反映出當(dāng)前LLM在涉及反應(yīng)性與分子結(jié)構(gòu)理解的核心任務(wù)上仍存在短板。


圖5. 推理斷點所屬化學(xué)能力分布。

——總結(jié)——

綜上所述,SUPERChem為系統(tǒng)評估大語言模型的化學(xué)推理能力提供了細(xì)致、可靠的基準(zhǔn)。評測結(jié)果指出,當(dāng)前前沿模型的化學(xué)能力仍處于基礎(chǔ)水平,在涉及高階化學(xué)推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對性優(yōu)化提供了明確方向。

——團(tuán)隊介紹——

SUPERChem項目由北京大學(xué)化學(xué)與分子工程學(xué)院與元培學(xué)院的趙澤華、黃志賢、李雋仁、林思宇同學(xué)領(lǐng)銜完成。近百位化學(xué)學(xué)院博士生與高年級本科生參與題庫構(gòu)建與審核,其中包括多位國際與中國化學(xué)奧林匹克決賽獲獎選手。174位北京大學(xué)化學(xué)專業(yè)低年級本科生參與了人類基線測試。

SUPERChem項目在北京大學(xué)化學(xué)與分子工程學(xué)院裴堅、高珍老師,計算中心馬皓老師 , 計算機學(xué)院楊仝老師的指導(dǎo)下開展。項目 獲 得 北京大學(xué)計算中心與高性能計算平臺 資源 支持 ,來自 Chemy 、好未來、質(zhì)心教育等機構(gòu) 和 化學(xué)與分子工程學(xué)院鄒鵬、鄭捷等 多位教授 的 題目素材支持,以及高楊、龍汀汀老師的專業(yè)協(xié)助 。

項目資源

論文: https://arxiv.org/abs/2512.01274

數(shù)據(jù)集: https://huggingface.co/datasets/ZehuaZhao/SUPERChem

平臺網(wǎng)站: https://superchem.pku.edu.cn

來源:北京大學(xué)化學(xué)與分子工程學(xué)院


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
劉嘉玲何超瓊合影!身高差5cm卻輸?shù)煤軕K,豪門才是明星的照妖鏡

劉嘉玲何超瓊合影!身高差5cm卻輸?shù)煤軕K,豪門才是明星的照妖鏡

蓓小西
2026-01-04 10:11:03
網(wǎng)友“攻陷”張水華老東家官方賬號 國際健將都不能進(jìn)運動醫(yī)學(xué)科?

網(wǎng)友“攻陷”張水華老東家官方賬號 國際健將都不能進(jìn)運動醫(yī)學(xué)科?

勁爆體壇
2026-01-04 08:02:26
11名中國人非法入境越南被驅(qū)逐,年關(guān)將至!當(dāng)局呼吁民眾舉報偷渡行為

11名中國人非法入境越南被驅(qū)逐,年關(guān)將至!當(dāng)局呼吁民眾舉報偷渡行為

越南語學(xué)習(xí)平臺
2026-01-05 10:13:42
西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

樂天閑聊
2025-12-20 10:59:49
特朗普威脅委內(nèi)瑞拉代總統(tǒng),要求其正確行事,后續(xù)會如何發(fā)展?

特朗普威脅委內(nèi)瑞拉代總統(tǒng),要求其正確行事,后續(xù)會如何發(fā)展?

之乎者也小魚兒
2026-01-05 09:07:44
一度被認(rèn)為滅絕!2025年云南一山洞中發(fā)現(xiàn)6條,已消失近半個世紀(jì)

一度被認(rèn)為滅絕!2025年云南一山洞中發(fā)現(xiàn)6條,已消失近半個世紀(jì)

萬象硬核本尊
2026-01-03 19:30:50
我簽過的文件被局長當(dāng)眾撕掉,六年后,他簽的文件擺在了我桌上

我簽過的文件被局長當(dāng)眾撕掉,六年后,他簽的文件擺在了我桌上

故事那點事
2026-01-01 16:40:08
趙薇母女現(xiàn)身北京機場,15歲女兒一頭黃毛,穿搭比50歲媽媽還成熟

趙薇母女現(xiàn)身北京機場,15歲女兒一頭黃毛,穿搭比50歲媽媽還成熟

小咪侃娛圈
2026-01-05 09:52:06
埃及被打醒了,蘇35和殲10都不買:就要一種千萬美元中國新軍機

埃及被打醒了,蘇35和殲10都不買:就要一種千萬美元中國新軍機

肖茲探秘說
2025-12-24 01:04:55
瓜帥:對結(jié)果本身我沒那么難過,結(jié)果配不上我們的表現(xiàn)

瓜帥:對結(jié)果本身我沒那么難過,結(jié)果配不上我們的表現(xiàn)

懂球帝
2026-01-05 04:53:09
女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來了解

女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來了解

醫(yī)者榮耀
2025-12-25 12:05:06
房地產(chǎn)即將會下猛藥,你準(zhǔn)備好了嗎?

房地產(chǎn)即將會下猛藥,你準(zhǔn)備好了嗎?

恪守原則和底線
2026-01-04 05:40:03
瓦良格號曾讓中國為之震撼的程度有多深?當(dāng)時在場的專家給出評價:蘇聯(lián)采用的鋼材品質(zhì)極佳

瓦良格號曾讓中國為之震撼的程度有多深?當(dāng)時在場的專家給出評價:蘇聯(lián)采用的鋼材品質(zhì)極佳

老杉說歷史
2025-12-31 20:55:11
雷軍直播回應(yīng)“1300公里只充一次電”爭議:被黑出心理陰影

雷軍直播回應(yīng)“1300公里只充一次電”爭議:被黑出心理陰影

TechWeb
2026-01-04 14:06:09
無緣U23亞洲杯!國足19歲新星失寵了:被邵佳一以及安東尼奧棄用

無緣U23亞洲杯!國足19歲新星失寵了:被邵佳一以及安東尼奧棄用

球場沒跑道
2026-01-04 18:21:21
我中了1200萬,我爸:先上班再裝病離職,結(jié)果同事們的舉動讓我懵了

我中了1200萬,我爸:先上班再裝病離職,結(jié)果同事們的舉動讓我懵了

溫情郵局
2025-12-30 11:12:23
華為門店的“來諞冊”

華為門店的“來諞冊”

新周刊
2025-12-29 22:21:57
日媒:給中國50年也造不出日本發(fā)動機!馬斯克:中國車企值得尊重

日媒:給中國50年也造不出日本發(fā)動機!馬斯克:中國車企值得尊重

凡知
2025-12-10 17:10:42
張學(xué)良到了晚年才吐露心聲:我這輩子從來不信迷信,然而在老虎廳除掉楊宇霆之后,我卻不得不改變想法

張學(xué)良到了晚年才吐露心聲:我這輩子從來不信迷信,然而在老虎廳除掉楊宇霆之后,我卻不得不改變想法

清風(fēng)鑒史
2025-12-26 17:05:13
32名古巴人在美強行控制委總統(tǒng)過程中死亡

32名古巴人在美強行控制委總統(tǒng)過程中死亡

財聯(lián)社
2026-01-05 09:42:08
2026-01-05 11:04:49
化學(xué)加網(wǎng) incentive-icons
化學(xué)加網(wǎng)
萃聚英才,共享化學(xué)
12241文章數(shù) 8303關(guān)注度
往期回顧 全部

教育要聞

一位媽媽替兒子寫作業(yè)發(fā)朋友圈,忘了屏蔽班主任,結(jié)局暖哭了……

頭條要聞

特朗普:美方正與委代總統(tǒng)接觸 將在適當(dāng)時候與其交談

頭條要聞

特朗普:美方正與委代總統(tǒng)接觸 將在適當(dāng)時候與其交談

體育要聞

女子世界第一,9年前在咖啡店洗碗

娛樂要聞

黃宗澤奪雙料視帝,淚灑頒獎臺憶往昔

財經(jīng)要聞

李迅雷:擴(kuò)內(nèi)需要把重心從"投"轉(zhuǎn)向"消"

科技要聞

雷軍新年首播:確認(rèn)汽車業(yè)務(wù)降速

汽車要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

本地
親子
教育
旅游
公開課

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

親子要聞

2026年育兒補貼今天開始申領(lǐng) 操作指南請查收

教育要聞

父母最大的愚蠢,就是炫耀孩子。別讓炫耀你的炫耀,成為他的負(fù)擔(dān)

旅游要聞

鄭州黃河文化公園發(fā)布閉園公告

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版