網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一夜200萬閱讀，OpenAI神同步！這項(xiàng)測評(píng)框架讓全球頂尖LLM全翻車

2026-01-15 09:12:28　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：Aeneas

【新智元導(dǎo)讀】這篇中國團(tuán)隊(duì)領(lǐng)銜發(fā)布的論文，已經(jīng)在外網(wǎng)刷屏了，僅一夜閱讀就達(dá)到了200萬！這位MIT博士回國創(chuàng)業(yè)后組建的團(tuán)隊(duì)，拉來全球24所頂級(jí)機(jī)構(gòu)，給AI如何助力科學(xué)發(fā)現(xiàn)來了一劑猛藥。

最近，一篇由中國團(tuán)隊(duì)領(lǐng)銜全球24所TOP高校機(jī)構(gòu)發(fā)布，用于評(píng)測LLMs for Science能力高低的論文，在外網(wǎng)炸了！

當(dāng)晚，Keras （最高效易用的深度學(xué)習(xí)框架之一）締造者Fran?ois Chollet轉(zhuǎn)發(fā)論文鏈接，并喊出：「我們迫切需要新思路來推動(dòng)人工智能走向科學(xué)創(chuàng)新�！�

AI領(lǐng)域KOL Alex Prompter分享論文核心摘要后，NBA獨(dú)行俠隊(duì)老板Mark Cuban跟帖轉(zhuǎn)發(fā)，硅谷投資人、歐洲家族辦公室、體育媒體同時(shí)涌進(jìn)評(píng)論區(qū)。

僅一夜，累計(jì)閱讀量逼近200萬。

值得一提的是，同一時(shí)間窗里，OpenAI也發(fā)布了對(duì)于AI在科學(xué)發(fā)現(xiàn)領(lǐng)域能力評(píng)測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述，指出現(xiàn)有評(píng)測標(biāo)準(zhǔn)在AI for Science領(lǐng)域失靈。

神同步OpenAI、海外討論出圈，究竟是什么樣的一份工作成果，攪動(dòng)了全球AI輿論場？

AI距離可以助力科學(xué)發(fā)現(xiàn)，還有多遠(yuǎn)？

前段時(shí)間，美國推出「創(chuàng)世紀(jì)計(jì)劃」，號(hào)稱要調(diào)動(dòng)「自阿波羅計(jì)劃以來最大規(guī)模的聯(lián)邦科研資源」，目標(biāo)是在十年內(nèi)將美國科研的生產(chǎn)力和影響力翻倍。

但在人工智能估值泡沫隱現(xiàn)、能耗與產(chǎn)出比飽受質(zhì)疑的當(dāng)下，一面是資本的狂歡，另一面卻是AI能力困于「文生圖」等表層應(yīng)用的尷尬；一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮，另一面卻是現(xiàn)有LLMs還無法準(zhǔn)確解析簡單核磁圖譜的尷尬現(xiàn)狀。

人們不禁要問：能在題庫拿高分，就能助力科學(xué)發(fā)現(xiàn)嗎？現(xiàn)在的模型距離科學(xué)發(fā)現(xiàn)還有多遠(yuǎn)？究竟什么樣的AI模型可以勝任，拓寬人類的生存邊界？這些討論，在中美AI競爭白熱化的當(dāng)下變得愈發(fā)濃烈。

在此背景下，由中國AI for Science領(lǐng)域的初創(chuàng)企業(yè)「深度原理Deep Principle」領(lǐng)銜麻省理工學(xué)院、哈佛、普林斯頓、斯坦福、劍橋、牛津等全球24所科研院校共同發(fā)布的《Evaluating LLMs in Scientific Discovery》論文，正式回答該時(shí)代之問。

論文推出了LLMs for Science首套評(píng)測體系SDE（Scientific Discovery Evaluation），從科學(xué)問題到研究項(xiàng)目，對(duì)GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學(xué)、材料、物理領(lǐng)域的科學(xué)研究與發(fā)現(xiàn)能力完成摸底。

同以往評(píng)測體系不同的是，SDE對(duì)模型能力的考量，從簡單的問答式，引向了具體的「假設(shè)->實(shí)驗(yàn)->分析」實(shí)驗(yàn)場景。

研究發(fā)現(xiàn)，GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均準(zhǔn)確率 50–70%，遠(yuǎn)低于它們?cè)贕PQA、MMMU等題庫上的80–90%；在86道「SDE-Hard」難題中，最高分不足12%，共同暴露出多步推理、不確定性量化和實(shí)驗(yàn)-理論閉環(huán)的短板。

更值得警惕的是，模型規(guī)模與推理能力的提升已呈現(xiàn)明顯的「邊際效益遞減」。

GPT-5相較于前一代模型，參數(shù)規(guī)模和推理算力顯著增加，但在SDE基準(zhǔn)的四大科學(xué)領(lǐng)域中，平均準(zhǔn)確率僅提升3%-5%，部分場景（如NMR結(jié)構(gòu)解析）甚至出現(xiàn)性能下滑。

換句話說，當(dāng)前大語言模型在推動(dòng)科學(xué)發(fā)現(xiàn)方面的表現(xiàn)，還不如一個(gè)普通的本科生。

能領(lǐng)銜24所頂尖科研院校發(fā)布

背后團(tuán)隊(duì)是誰？

《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒，是「深度原理Deep Principle」創(chuàng)始人兼CTO。

早在2021年，在MIT攻讀化學(xué)博士期間，他就已在圖靈獎(jiǎng)得主Yoshua Bengio的支持下，發(fā)起了AI for Science社區(qū)的建立，并在NeurIPS上舉辦AI for Science workshop。

2024年初，他與MIT物理化學(xué)博士賈皓鈞回國，共同創(chuàng)立「深度原理Deep Principle」。賈皓鈞任CEO，段辰儒任CTO，兩人雖為95后，但已在全球AI for Science創(chuàng)業(yè)領(lǐng)域小有名氣。

創(chuàng)業(yè)一年半以來，其已獲得線性資本、高瓴創(chuàng)投、螞蟻集團(tuán)等多家知名機(jī)構(gòu)的投資，且與晶泰科技、深勢(shì)科技等AI for Science領(lǐng)域的知名企業(yè)建立戰(zhàn)略合作關(guān)系。

「深度原理Deep Principle」從創(chuàng)立之初，就帶著全球AIfor Science頭部研究者們的期待。目前「深度原理Deep Principle」已深入全球材料研發(fā)中的第一線，將生成式人工智能同量子化學(xué)結(jié)合起來，致力于推動(dòng)材料發(fā)現(xiàn)等領(lǐng)域進(jìn)入新紀(jì)元。

在過去的一年中，他們?cè)贜ature大子刊和JACS等頂級(jí)期刊上不斷扔出重磅成果，宣告著他們的技術(shù)領(lǐng)先和開放交流的「95后創(chuàng)業(yè)公司」心態(tài)。

從開拓?cái)U(kuò)散生成模型（Diffusion Models）在化學(xué)反應(yīng)的生成，證明「不止要生成材料，更需要生成材料的合成路徑」，到機(jī)器學(xué)習(xí)勢(shì)（Machine Learning Potentials, MLPs）和擴(kuò)散生成模型的直接對(duì)比，證明傳統(tǒng)的機(jī)器學(xué)習(xí)勢(shì)不是「萬能」的，再到現(xiàn)在組織各大頂級(jí)學(xué)者和高校推出SDE，證明傳統(tǒng)一問一答的Benchmark不能帶領(lǐng)我們走向科學(xué)超級(jí)智能，精準(zhǔn)切入AI for Science領(lǐng)域的核心沖突。

但同時(shí)，對(duì)于所有的AI4S公司而言，在商業(yè)真金白銀的檢驗(yàn)中，AI能否真正解決新產(chǎn)品研發(fā)問題、滿足客戶期待，是日復(fù)一日必須面對(duì)的拷問。

隨著與行業(yè)頭部客戶的商業(yè)化合作落地，「深度原理Deep Principle」的數(shù)據(jù)庫中已經(jīng)匯聚了來源于客戶與自己實(shí)驗(yàn)室、大量來自第一線的真實(shí)工業(yè)研發(fā)場景數(shù)據(jù)和模型應(yīng)用經(jīng)驗(yàn)。

學(xué)術(shù)圈的深耕與在AI for Science商業(yè)化第一線的積累，讓「深度原理Deep Principle」在提出要構(gòu)建一把新尺子評(píng)測LLMs for Science能力時(shí)，一呼百應(yīng)，搖來了23家全球TOP科學(xué)發(fā)現(xiàn)機(jī)構(gòu)的50余位科學(xué)家，成立了制定SDE的「夢(mèng)之隊(duì)」。

這其中，不乏活躍在LLM領(lǐng)域的大牛學(xué)者們，比如：

孫歡（Huan Sun），MMMU發(fā)起人，俄亥俄州立教授
杜沅豈（Yuanqi Du），康奈爾博士，AI4Science 社區(qū)「運(yùn)營大管家」
王夢(mèng)迪，普林斯頓最年輕教授，AI+Bio Safety先驅(qū)者
Philippe Schwaller，IBM RXN之父，EPFL教授

而「深度原理Deep Principle」前期積累的科學(xué)發(fā)現(xiàn)場景，成為了后來SDE評(píng)測體系的前身。

在經(jīng)歷近9個(gè)月的跨高�？鐚W(xué)科跨時(shí)區(qū)的協(xié)作后，《Evaluating LLMs in Scientific Discovery》論文正式發(fā)布，通訊單位赫然寫著：深度原理，杭州，中國。

自此，匯聚著全球頂級(jí)科學(xué)發(fā)現(xiàn)機(jī)構(gòu)的集體智慧，來自中國的創(chuàng)業(yè)團(tuán)隊(duì)「深度原理Deep Principle」，和大洋彼岸的OpenAI，同時(shí)站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線。

或許千百年后，當(dāng)人類回望AGI時(shí)代，在21世紀(jì)的四分之一結(jié)束的當(dāng)口，這場由中美團(tuán)隊(duì)共同呼應(yīng)的，對(duì)于AI for Science的嚴(yán)肅討論，把LLMs在各類問答式榜單上的內(nèi)卷，向真正科學(xué)發(fā)現(xiàn)的星辰大海推近了一步。

「深度原理Deep Principle」與20多所機(jī)構(gòu)的50多位合作者的研究證明了，目前LLM的發(fā)展路徑并不能「順便攻克」科學(xué)發(fā)現(xiàn)。

這條通往科學(xué)超級(jí)智能之路，需要更多有識(shí)之士共同并肩而行。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.