国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

頂尖AI挑戰(zhàn)北大化院174名頂尖學(xué)子,有機(jī)化學(xué)考場(chǎng)誰(shuí)更勝一籌?

0
分享至

歡迎報(bào)名摜蛋友誼賽暨產(chǎn)學(xué)研對(duì)接交流會(huì)

導(dǎo)讀

近日,北京大學(xué)化學(xué)與分子工程學(xué)院進(jìn)行了一場(chǎng)特殊的有機(jī)化學(xué)期中考試,174位北大化院的大二學(xué)生與GPT、Gemini、DeepSeek這些頂尖AI同場(chǎng)競(jìng)技,那究竟誰(shuí)更勝一籌呢?


考試現(xiàn)場(chǎng)

近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合計(jì)算中心、計(jì)算機(jī)學(xué)院、元培學(xué)院團(tuán)隊(duì),發(fā)布了最新成果化學(xué)大模型基準(zhǔn)SUPERChem。該基準(zhǔn)針對(duì)當(dāng)前化學(xué)知識(shí)水平評(píng)測(cè)中題目難度有限、多模態(tài)與推理過(guò)程評(píng)估缺失等不足,系統(tǒng)構(gòu)建了專注評(píng)估大語(yǔ)言模型(LLM)化學(xué)推理分析能力的新體系,旨在推動(dòng)化學(xué)智能評(píng)測(cè)的深入發(fā)展。而這場(chǎng)特殊的期中考試,是北大科研團(tuán)隊(duì)為大語(yǔ)言模型投下的一塊“試金石”,來(lái)丈量AI在科學(xué)推理上的真實(shí)邊界。

打開(kāi)SUPERChem的題庫(kù),一種“壓迫感”撲面而來(lái)。晶體結(jié)構(gòu)的精細(xì)解析、反應(yīng)機(jī)理的深度推演、物化性質(zhì)的定量計(jì)算……這500道題目并非來(lái)自網(wǎng)絡(luò)上隨手可得的公開(kāi)題庫(kù),而是源于對(duì)高難度試題和前沿專業(yè)文獻(xiàn)的深度改編。

互聯(lián)網(wǎng)可及的測(cè)試題大多已被博聞強(qiáng)識(shí)的AI在訓(xùn)練階段熟讀,考出的高分往往掩蓋了其推理能力的蒼白。而化學(xué),恰恰是一門(mén)不能只靠死記硬背的學(xué)科。它既有嚴(yán)密的邏輯推演,又充滿了對(duì)微觀世界的空間想象。要設(shè)計(jì)一套讓AI“沒(méi)見(jiàn)過(guò)”、必須靠硬實(shí)力推理的題目,難度極高。然而,這正是北大化院的獨(dú)特優(yōu)勢(shì)所在。近百名師生——其中不乏奧林匹克金牌得主——集結(jié)起來(lái),決定給AI出一套高門(mén)檻、重推理、防作弊的試卷。

他們要考的,是AI是否真的“懂”化學(xué)。


SUPERChem總覽與例題

為了構(gòu)建這套高質(zhì)量評(píng)估集,團(tuán)隊(duì)搭建了一個(gè)專屬協(xié)作平臺(tái)。在這里,出題、審題、修題從單調(diào)的任務(wù),變成了一套循序漸進(jìn)的“通關(guān)”流程。成員們?cè)谄脚_(tái)上協(xié)作,互相審閱、彼此“找茬”,讓嚴(yán)謹(jǐn)?shù)目茖W(xué)探討與活躍的思維碰撞交織共融。團(tuán)隊(duì)還引入了積分激勵(lì)系統(tǒng),讓出題過(guò)程就像在游戲中打怪升級(jí)。一道題目需歷經(jīng)編寫(xiě)初稿、撰寫(xiě)解析,再通過(guò)初審與終審的嚴(yán)格審核,每個(gè)環(huán)節(jié)均由不同的同學(xué)把關(guān),并發(fā)放相應(yīng)的積分。終審?fù)ㄟ^(guò)的題目,甚至最多迭代過(guò)15個(gè)版本。


SUPERChem題庫(kù)的三階段審核流程

考試成績(jī)揭曉。在這場(chǎng)精心設(shè)計(jì)的考試中,人類展現(xiàn)出了復(fù)雜的科學(xué)直覺(jué)。作為基線,參與測(cè)試的北大化院本科生取得了40.3%的平均準(zhǔn)確率。這個(gè)數(shù)字本身,就足以說(shuō)明這套題目的硬核程度。

而AI的表現(xiàn)如何?即便是接受測(cè)試的頂尖模型,其成績(jī)也僅與低年級(jí)本科生的平均水平相當(dāng)。


前沿模型在SUPERChem上的表現(xiàn)


前沿模型的正確率與RPF關(guān)系

讓團(tuán)隊(duì)感到意外的是視覺(jué)信息帶來(lái)的困惑?;瘜W(xué)的語(yǔ)言是圖形,分子結(jié)構(gòu)、反應(yīng)機(jī)理圖蘊(yùn)含著關(guān)鍵信息。然而對(duì)于部分模型而言,當(dāng)引入圖像信息時(shí),其準(zhǔn)確率不升反降。這說(shuō)明,當(dāng)前的AI在將視覺(jué)信息轉(zhuǎn)化為化學(xué)語(yǔ)義時(shí),仍存在明顯的感知瓶頸。


輸入模態(tài)對(duì)不同模型的影響

團(tuán)隊(duì)發(fā)現(xiàn),AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)、反應(yīng)機(jī)理識(shí)別以及構(gòu)效關(guān)系分析等高階任務(wù)。當(dāng)前的頂尖模型雖然擁有海量的知識(shí)儲(chǔ)備,但在處理需要嚴(yán)密邏輯和深刻理解的硬核化學(xué)問(wèn)題時(shí),仍顯得力不從心。


推理斷點(diǎn)所屬化學(xué)能力分布

SUPERChem的誕生,填補(bǔ)了化學(xué)領(lǐng)域多模態(tài)深度推理評(píng)測(cè)的空白。

團(tuán)隊(duì)發(fā)布這項(xiàng)成果,并非為了證明AI的短板,而是為了推動(dòng)它走得更遠(yuǎn)。SUPERChem就像一個(gè)路標(biāo)。它提醒我們:從通用的聊天機(jī)器人,到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機(jī)理的專業(yè)科學(xué)助手,中間還有很長(zhǎng)的一段路要走。那是從“記住知識(shí)”到“理解物理世界”的跨越。

目前,SUPERChem項(xiàng)目已全面開(kāi)源。團(tuán)隊(duì)希望這套源自北大的“試卷”,能成為全球科學(xué)與人工智能領(lǐng)域的公共財(cái)富,去催化下一次技術(shù)的爆發(fā)。或許在不久的將來(lái),當(dāng)我們?cè)俅未蜷_(kāi)這張?jiān)嚲頃r(shí),AI能交出一份滿分的答卷。那將是化學(xué)與人工智能共同的驚喜。


SUPERChem平臺(tái)界面

更多介紹:

——背景——

2025年,隨著開(kāi)源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速發(fā)展,其在自然科學(xué)領(lǐng)域的應(yīng)用已從簡(jiǎn)單問(wèn)答轉(zhuǎn)向復(fù)雜推理。然而,現(xiàn)有通用科學(xué)基準(zhǔn)趨于飽和,化學(xué)專用基準(zhǔn)多關(guān)注基礎(chǔ)能力與化學(xué)信息學(xué)任務(wù),缺乏對(duì)深度推理的系統(tǒng)考察。

從基礎(chǔ)教育、化學(xué)奧林匹克競(jìng)賽到高等教育,化學(xué)學(xué)習(xí)強(qiáng)調(diào)知識(shí)綜合運(yùn)用與多步推理,是評(píng)估推理能力的理想場(chǎng)景。設(shè)計(jì)高質(zhì)量評(píng)估題目需融合抽象概念與具體情境,構(gòu)建層層遞進(jìn)的推理鏈,對(duì)出題者專業(yè)素養(yǎng)要求極高。

研究團(tuán)隊(duì)依托北京大學(xué)化學(xué)學(xué)院水平頂尖的本科生和研究生群體,充分發(fā)揮其扎實(shí)學(xué)科功底與豐富解題命題經(jīng)驗(yàn),對(duì)已有題目素材進(jìn)行準(zhǔn)確評(píng)估與合理優(yōu)化,共同構(gòu)建了SUPERChem基準(zhǔn),填補(bǔ)了化學(xué)深度推理評(píng)估的空白。


圖1.SUPERChem總覽與例題。

——數(shù)據(jù)構(gòu)建——


圖2.SUPERChem題庫(kù)的三階段審核流程。

SUPERChem題庫(kù)由北大化學(xué)專業(yè)近百名師生共建,涵蓋題目編寫(xiě)、解析撰寫(xiě)及嚴(yán)格的三階段審核。題目源自非公開(kāi)試題與專業(yè)文獻(xiàn)改編,并采用防泄漏設(shè)計(jì),避免LLM依賴記憶或從選項(xiàng)逆推。針對(duì)化學(xué)信息的多模態(tài)特點(diǎn),同步提供圖文交錯(cuò)與純文本版本的對(duì)齊數(shù)據(jù)集,支持探究視覺(jué)信息對(duì)推理的影響。

目前,SUPERChem先期發(fā)布500道專家級(jí)精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學(xué)反應(yīng)與合成、化學(xué)原理與計(jì)算、實(shí)驗(yàn)設(shè)計(jì)與分析四大化學(xué)核心領(lǐng)域。為細(xì)粒度評(píng)估LLM思考過(guò)程,SUPERChem引入推理路徑一致性(Reasoning Path Fidelity,RPF)指標(biāo):團(tuán)隊(duì)為每道題目撰寫(xiě)了含關(guān)鍵檢查點(diǎn)的詳細(xì)解析,通過(guò)自動(dòng)化評(píng)估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學(xué)。

——評(píng)測(cè)結(jié)果——

1.前沿模型接近低年級(jí)本科生水平,不同模型推理一致性存在差異

表1:前沿模型在SUPERChem上的表現(xiàn)。


評(píng)測(cè)顯示,SUPERChem具有較高難度與區(qū)分度。在北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生閉卷測(cè)試中,人類準(zhǔn)確率為40.3%。參與評(píng)測(cè)的前沿模型中,表現(xiàn)最佳的GPT-5 (High)準(zhǔn)確率為38.5%,表明其化學(xué)推理能力僅與化學(xué)專業(yè)低年級(jí)本科生水平相當(dāng),尚未超越人類基礎(chǔ)專業(yè)認(rèn)知。


圖3. 前沿模型的正確率與RPF關(guān)系。

分析RPF指標(biāo)可見(jiàn),不同模型推理過(guò)程質(zhì)量差異明顯:Gemini-2.5-Pro和GPT-5 (High)在取得較高準(zhǔn)確率的同時(shí),其推理邏輯也更符合專家路徑;而DeepSeek-V3.1-Thinking雖然準(zhǔn)確率相近,但RPF得分相對(duì)較低,反映其更傾向通過(guò)啟發(fā)式路徑得出結(jié)論。

2.多模態(tài)信息雙刃劍效應(yīng)


圖4:輸入模態(tài)對(duì)不同模型的影響。

在依賴多模態(tài)輸入的題目中,視覺(jué)信息對(duì)不同模型影響各異:對(duì)Gemini-2.5-Pro等強(qiáng)推理模型,圖像輸入可提升準(zhǔn)確率;對(duì)GPT-4o等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學(xué)任務(wù)中需根據(jù)模型能力匹配合適的輸入模態(tài)。

3.推理斷點(diǎn)分析:模型倒在了哪一步?

為進(jìn)一步探究LLM推理失敗的深層原因,研究團(tuán)隊(duì)進(jìn)行了推理斷點(diǎn)分析。結(jié)果表明,前沿模型的推理斷點(diǎn)集中于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)、反應(yīng)機(jī)理識(shí)別、構(gòu)效關(guān)系分析等高階化學(xué)推理環(huán)節(jié)。這反映出當(dāng)前LLM在涉及反應(yīng)性與分子結(jié)構(gòu)理解的核心任務(wù)上仍存在短板。


圖5. 推理斷點(diǎn)所屬化學(xué)能力分布。

——總結(jié)——

綜上所述,SUPERChem為系統(tǒng)評(píng)估大語(yǔ)言模型的化學(xué)推理能力提供了細(xì)致、可靠的基準(zhǔn)。評(píng)測(cè)結(jié)果指出,當(dāng)前前沿模型的化學(xué)能力仍處于基礎(chǔ)水平,在涉及高階化學(xué)推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對(duì)性優(yōu)化提供了明確方向。

——團(tuán)隊(duì)介紹——

SUPERChem項(xiàng)目由北京大學(xué)化學(xué)與分子工程學(xué)院與元培學(xué)院的趙澤華、黃志賢、李雋仁、林思宇同學(xué)領(lǐng)銜完成。近百位化學(xué)學(xué)院博士生與高年級(jí)本科生參與題庫(kù)構(gòu)建與審核,其中包括多位國(guó)際與中國(guó)化學(xué)奧林匹克決賽獲獎(jiǎng)選手。174位北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生參與了人類基線測(cè)試。

SUPERChem項(xiàng)目在北京大學(xué)化學(xué)與分子工程學(xué)院裴堅(jiān)、高珍老師,計(jì)算中心馬皓老師, 計(jì)算機(jī)學(xué)院楊仝老師的指導(dǎo)下開(kāi)展。項(xiàng)目 獲 得 北京大學(xué)計(jì)算中心與高性能計(jì)算平臺(tái) 資源 支持 ,來(lái)自 Chemy 、好未來(lái)、質(zhì)心教育等機(jī)構(gòu) 和 化學(xué)與分子工程學(xué)院鄒鵬、鄭捷等 多位教授 的 題目素材支持,以及高楊、龍汀汀老師的專業(yè)協(xié)助 。

項(xiàng)目資源

論文: https://arxiv.org/abs/2512.01274

數(shù)據(jù)集: https://huggingface.co/datasets/ZehuaZhao/SUPERChem

平臺(tái)網(wǎng)站: https://superchem.pku.edu.cn

來(lái)源:北京大學(xué)、北京大學(xué)化學(xué)與分子工程學(xué)院

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國(guó)100多個(gè)城市示威抗議襲擊委內(nèi)瑞拉

美國(guó)100多個(gè)城市示威抗議襲擊委內(nèi)瑞拉

新華社
2026-01-04 11:55:12
李在明在京表態(tài)

李在明在京表態(tài)

新京報(bào)政事兒
2026-01-04 23:39:29
夜幕職場(chǎng):一盞懸浮的孤燈

夜幕職場(chǎng):一盞懸浮的孤燈

疾跑的小蝸牛
2026-01-04 23:37:33
人到晚年才發(fā)現(xiàn):每月2800退休金,想指望兒子養(yǎng)老,根本就是做夢(mèng)

人到晚年才發(fā)現(xiàn):每月2800退休金,想指望兒子養(yǎng)老,根本就是做夢(mèng)

人間百態(tài)大全
2026-01-05 06:40:03
方媛上海購(gòu)物被偶遇!生圖個(gè)子矮小身形肥碩,溜肩駝背無(wú)名媛氣質(zhì)

方媛上海購(gòu)物被偶遇!生圖個(gè)子矮小身形肥碩,溜肩駝背無(wú)名媛氣質(zhì)

一娛三分地
2026-01-04 20:24:56
中俄先進(jìn)武器為何失靈?委內(nèi)瑞拉事件揭開(kāi)現(xiàn)代戰(zhàn)爭(zhēng)核心邏輯

中俄先進(jìn)武器為何失靈?委內(nèi)瑞拉事件揭開(kāi)現(xiàn)代戰(zhàn)爭(zhēng)核心邏輯

創(chuàng)作者_(dá)b3jm
2026-01-03 22:47:03
41歲朱杰參加聚會(huì),回應(yīng)多年沒(méi)拍戲,官宣生下雙胞胎,孩子都6歲

41歲朱杰參加聚會(huì),回應(yīng)多年沒(méi)拍戲,官宣生下雙胞胎,孩子都6歲

柒佰娛
2026-01-04 20:13:51
野性美:一種有序的失控

野性美:一種有序的失控

疾跑的小蝸牛
2026-01-04 23:23:08
獨(dú)行俠開(kāi)啟甩賣(mài)!全隊(duì)僅2人非賣(mài),富保羅談濃眉下家,想狀元互換

獨(dú)行俠開(kāi)啟甩賣(mài)!全隊(duì)僅2人非賣(mài),富保羅談濃眉下家,想狀元互換

你的籃球頻道
2026-01-05 09:55:26
王毅同巴基斯坦副總理兼外長(zhǎng)達(dá)爾舉行中巴外長(zhǎng)戰(zhàn)略對(duì)話

王毅同巴基斯坦副總理兼外長(zhǎng)達(dá)爾舉行中巴外長(zhǎng)戰(zhàn)略對(duì)話

界面新聞
2026-01-04 22:41:22
教育部:擬設(shè)15所本科高等學(xué)校

教育部:擬設(shè)15所本科高等學(xué)校

界面新聞
2026-01-04 19:16:15
鐵飯碗碎了!遼寧公立二甲醫(yī)院正式歇業(yè),行業(yè)凜冬

鐵飯碗碎了!遼寧公立二甲醫(yī)院正式歇業(yè),行業(yè)凜冬

王曉愛(ài)體彩
2026-01-05 07:29:03
流浪貓從雪地跑進(jìn)房車(chē),旅行博主一夜?jié)q粉,網(wǎng)友:和悟空一模一樣

流浪貓從雪地跑進(jìn)房車(chē),旅行博主一夜?jié)q粉,網(wǎng)友:和悟空一模一樣

一娛三分地
2026-01-04 12:28:43
槍炮上膛!特朗普為何調(diào)轉(zhuǎn)槍口,瞄準(zhǔn)這個(gè)“石油首富”窮國(guó)?

槍炮上膛!特朗普為何調(diào)轉(zhuǎn)槍口,瞄準(zhǔn)這個(gè)“石油首富”窮國(guó)?

我是盲流
2026-01-05 09:22:17
9歲新娘才是聯(lián)合國(guó)該關(guān)注的人權(quán)——伊拉克童婚合法、女童買(mǎi)賣(mài)猖獗

9歲新娘才是聯(lián)合國(guó)該關(guān)注的人權(quán)——伊拉克童婚合法、女童買(mǎi)賣(mài)猖獗

老王說(shuō)正義
2026-01-01 00:21:32
72歲曾志偉自稱江郎才盡,從TVB退休,譚詠麟獻(xiàn)唱相擁

72歲曾志偉自稱江郎才盡,從TVB退休,譚詠麟獻(xiàn)唱相擁

眼底星碎
2026-01-05 06:35:57
一行多人翻“小鰲太線”失聯(lián)至今?相關(guān)工作人員:還在搜救中

一行多人翻“小鰲太線”失聯(lián)至今?相關(guān)工作人員:還在搜救中

紅星新聞
2026-01-04 16:26:15
僅差24個(gè)!僅差78分!杜蘭特迎來(lái)雙里程碑,喬丹的紀(jì)錄也保不住了

僅差24個(gè)!僅差78分!杜蘭特迎來(lái)雙里程碑,喬丹的紀(jì)錄也保不住了

世界體育圈
2026-01-04 18:19:35
“上午小寒,凍死牛,下午小寒,穿單衣”,2026年小寒在哪?

“上午小寒,凍死牛,下午小寒,穿單衣”,2026年小寒在哪?

小談食刻美食
2026-01-04 10:36:26
警鐘長(zhǎng)鳴!歐洲引進(jìn)穆斯林的幕后黑手,到底在打什么算盤(pán)?

警鐘長(zhǎng)鳴!歐洲引進(jìn)穆斯林的幕后黑手,到底在打什么算盤(pán)?

老李觀歷史
2026-01-04 18:17:42
2026-01-05 10:55:00
化學(xué)加網(wǎng) incentive-icons
化學(xué)加網(wǎng)
萃聚英才,共享化學(xué)
12241文章數(shù) 8303關(guān)注度
往期回顧 全部

教育要聞

一位媽媽替兒子寫(xiě)作業(yè)發(fā)朋友圈,忘了屏蔽班主任,結(jié)局暖哭了……

頭條要聞

特朗普:美方正與委代總統(tǒng)接觸 將在適當(dāng)時(shí)候與其交談

頭條要聞

特朗普:美方正與委代總統(tǒng)接觸 將在適當(dāng)時(shí)候與其交談

體育要聞

女子世界第一,9年前在咖啡店洗碗

娛樂(lè)要聞

黃宗澤奪雙料視帝,淚灑頒獎(jiǎng)臺(tái)憶往昔

財(cái)經(jīng)要聞

李迅雷:擴(kuò)內(nèi)需要把重心從"投"轉(zhuǎn)向"消"

科技要聞

雷軍新年首播:確認(rèn)汽車(chē)業(yè)務(wù)降速

汽車(chē)要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

家居
藝術(shù)
親子
公開(kāi)課
軍事航空

家居要聞

白色大理石 奢華現(xiàn)代

藝術(shù)要聞

王力克 2025油畫(huà)風(fēng)景寫(xiě)生

親子要聞

2026年育兒補(bǔ)貼今天開(kāi)始申領(lǐng) 操作指南請(qǐng)查收

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

馬杜羅預(yù)計(jì)5日在紐約"首次出庭"

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版