国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一夜200萬閱讀,OpenAI神同步!這項(xiàng)測評(píng)框架讓全球頂尖LLM全翻車

0
分享至


新智元報(bào)道

編輯:Aeneas

【新智元導(dǎo)讀】這篇中國團(tuán)隊(duì)領(lǐng)銜發(fā)布的論文,已經(jīng)在外網(wǎng)刷屏了,僅一夜閱讀就達(dá)到了200萬!這位MIT博士回國創(chuàng)業(yè)后組建的團(tuán)隊(duì),拉來全球24所頂級(jí)機(jī)構(gòu),給AI如何助力科學(xué)發(fā)現(xiàn)來了一劑猛藥。

最近,一篇由中國團(tuán)隊(duì)領(lǐng)銜全球24所TOP高校機(jī)構(gòu)發(fā)布,用于評(píng)測LLMs for Science能力高低的論文,在外網(wǎng)炸了!

當(dāng)晚,Keras (最高效易用的深度學(xué)習(xí)框架之一)締造者Fran?ois Chollet轉(zhuǎn)發(fā)論文鏈接,并喊出:「我們迫切需要新思路來推動(dòng)人工智能走向科學(xué)創(chuàng)新!


AI領(lǐng)域KOL Alex Prompter分享論文核心摘要后,NBA獨(dú)行俠隊(duì)老板Mark Cuban跟帖轉(zhuǎn)發(fā),硅谷投資人、歐洲家族辦公室、體育媒體同時(shí)涌進(jìn)評(píng)論區(qū)。


僅一夜,累計(jì)閱讀量逼近200萬。

值得一提的是,同一時(shí)間窗里,OpenAI也發(fā)布了對(duì)于AI在科學(xué)發(fā)現(xiàn)領(lǐng)域能力評(píng)測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出現(xiàn)有評(píng)測標(biāo)準(zhǔn)在AI for Science領(lǐng)域失靈。


神同步OpenAI、海外討論出圈,究竟是什么樣的一份工作成果,攪動(dòng)了全球AI輿論場?

AI距離可以助力科學(xué)發(fā)現(xiàn),還有多遠(yuǎn)?

前段時(shí)間,美國推出「創(chuàng)世紀(jì)計(jì)劃」,號(hào)稱要調(diào)動(dòng)「自阿波羅計(jì)劃以來最大規(guī)模的聯(lián)邦科研資源」,目標(biāo)是在十年內(nèi)將美國科研的生產(chǎn)力和影響力翻倍。

但在人工智能估值泡沫隱現(xiàn)、能耗與產(chǎn)出比飽受質(zhì)疑的當(dāng)下,一面是資本的狂歡,另一面卻是AI能力困于「文生圖」等表層應(yīng)用的尷尬;一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮,另一面卻是現(xiàn)有LLMs還無法準(zhǔn)確解析簡單核磁圖譜的尷尬現(xiàn)狀。

人們不禁要問:能在題庫拿高分,就能助力科學(xué)發(fā)現(xiàn)嗎?現(xiàn)在的模型距離科學(xué)發(fā)現(xiàn)還有多遠(yuǎn)?究竟什么樣的AI模型可以勝任,拓寬人類的生存邊界?這些討論,在中美AI競爭白熱化的當(dāng)下變得愈發(fā)濃烈。

在此背景下,由中國AI for Science領(lǐng)域的初創(chuàng)企業(yè)「深度原理Deep Principle」領(lǐng)銜麻省理工學(xué)院、哈佛、普林斯頓、斯坦福、劍橋、牛津等全球24所科研院校共同發(fā)布的《Evaluating LLMs in Scientific Discovery》論文,正式回答該時(shí)代之問。

論文推出了LLMs for Science首套評(píng)測體系SDE(Scientific Discovery Evaluation),從科學(xué)問題到研究項(xiàng)目,對(duì)GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學(xué)、材料、物理領(lǐng)域的科學(xué)研究與發(fā)現(xiàn)能力完成摸底。


同以往評(píng)測體系不同的是,SDE對(duì)模型能力的考量,從簡單的問答式,引向了具體的「假設(shè)->實(shí)驗(yàn)->分析」實(shí)驗(yàn)場景。

研究發(fā)現(xiàn),GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均準(zhǔn)確率 50–70%,遠(yuǎn)低于它們?cè)贕PQA、MMMU等題庫上的80–90%;在86道「SDE-Hard」難題中,最高分不足12%,共同暴露出多步推理、不確定性量化和實(shí)驗(yàn)-理論閉環(huán)的短板。

更值得警惕的是,模型規(guī)模與推理能力的提升已呈現(xiàn)明顯的 「邊際效益遞減」。

GPT-5相較于前一代模型,參數(shù)規(guī)模和推理算力顯著增加,但在SDE基準(zhǔn)的四大科學(xué)領(lǐng)域中,平均準(zhǔn)確率僅提升3%-5%,部分場景(如NMR結(jié)構(gòu)解析)甚至出現(xiàn)性能下滑。

換句話說,當(dāng)前大語言模型在推動(dòng)科學(xué)發(fā)現(xiàn)方面的表現(xiàn),還不如一個(gè)普通的本科生。

能領(lǐng)銜24所頂尖科研院校發(fā)布

背后團(tuán)隊(duì)是誰?

《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒,是「深度原理Deep Principle」創(chuàng)始人兼CTO。

早在2021年,在MIT攻讀化學(xué)博士期間,他就已在圖靈獎(jiǎng)得主Yoshua Bengio的支持下,發(fā)起了AI for Science社區(qū)的建立,并在NeurIPS上舉辦AI for Science workshop。

2024年初,他與MIT物理化學(xué)博士賈皓鈞回國,共同創(chuàng)立「深度原理Deep Principle」。賈皓鈞任CEO,段辰儒任CTO,兩人雖為95后,但已在全球AI for Science創(chuàng)業(yè)領(lǐng)域小有名氣。

創(chuàng)業(yè)一年半以來,其已獲得線性資本、高瓴創(chuàng)投、螞蟻集團(tuán)等多家知名機(jī)構(gòu)的投資,且與晶泰科技、深勢(shì)科技等AI for Science領(lǐng)域的知名企業(yè)建立戰(zhàn)略合作關(guān)系。

「深度原理Deep Principle」從創(chuàng)立之初,就帶著全球AIfor Science頭部研究者們的期待。目前「深度原理Deep Principle」已深入全球材料研發(fā)中的第一線,將生成式人工智能同量子化學(xué)結(jié)合起來,致力于推動(dòng)材料發(fā)現(xiàn)等領(lǐng)域進(jìn)入新紀(jì)元。

在過去的一年中,他們?cè)贜ature大子刊和JACS等頂級(jí)期刊上不斷扔出重磅成果,宣告著他們的技術(shù)領(lǐng)先和開放交流的「95后創(chuàng)業(yè)公司」心態(tài)。

從開拓?cái)U(kuò)散生成模型(Diffusion Models)在化學(xué)反應(yīng)的生成,證明「不止要生成材料,更需要生成材料的合成路徑」,到機(jī)器學(xué)習(xí)勢(shì)(Machine Learning Potentials, MLPs)和擴(kuò)散生成模型的直接對(duì)比,證明傳統(tǒng)的機(jī)器學(xué)習(xí)勢(shì)不是「萬能」的,再到現(xiàn)在組織各大頂級(jí)學(xué)者和高校推出SDE,證明傳統(tǒng)一問一答的Benchmark不能帶領(lǐng)我們走向科學(xué)超級(jí)智能,精準(zhǔn)切入AI for Science領(lǐng)域的核心沖突。

但同時(shí),對(duì)于所有的AI4S公司而言,在商業(yè)真金白銀的檢驗(yàn)中,AI能否真正解決新產(chǎn)品研發(fā)問題、滿足客戶期待,是日復(fù)一日必須面對(duì)的拷問。

隨著與行業(yè)頭部客戶的商業(yè)化合作落地,「深度原理Deep Principle」的數(shù)據(jù)庫中已經(jīng)匯聚了來源于客戶與自己實(shí)驗(yàn)室、大量來自第一線的真實(shí)工業(yè)研發(fā)場景數(shù)據(jù)和模型應(yīng)用經(jīng)驗(yàn)。

學(xué)術(shù)圈的深耕與在AI for Science商業(yè)化第一線的積累,讓「深度原理Deep Principle」在提出要構(gòu)建一把新尺子評(píng)測LLMs for Science能力時(shí),一呼百應(yīng),搖來了23家全球TOP科學(xué)發(fā)現(xiàn)機(jī)構(gòu)的50余位科學(xué)家,成立了制定SDE的「夢(mèng)之隊(duì)」。

這其中,不乏活躍在LLM領(lǐng)域的大牛學(xué)者們,比如:

  • 孫歡(Huan Sun),MMMU發(fā)起人,俄亥俄州立教授

  • 杜沅豈(Yuanqi Du),康奈爾博士,AI4Science 社區(qū)「運(yùn)營大管家」

  • 王夢(mèng)迪,普林斯頓最年輕教授,AI+Bio Safety先驅(qū)者

  • Philippe Schwaller,IBM RXN之父,EPFL教授

而「深度原理Deep Principle」前期積累的科學(xué)發(fā)現(xiàn)場景,成為了后來SDE評(píng)測體系的前身。

在經(jīng)歷近9個(gè)月的跨高?鐚W(xué)科跨時(shí)區(qū)的協(xié)作后,《Evaluating LLMs in Scientific Discovery》論文正式發(fā)布,通訊單位赫然寫著:深度原理,杭州,中國。


自此,匯聚著全球頂級(jí)科學(xué)發(fā)現(xiàn)機(jī)構(gòu)的集體智慧,來自中國的創(chuàng)業(yè)團(tuán)隊(duì)「深度原理Deep Principle」,和大洋彼岸的OpenAI,同時(shí)站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線。

或許千百年后,當(dāng)人類回望AGI時(shí)代,在21世紀(jì)的四分之一結(jié)束的當(dāng)口,這場由中美團(tuán)隊(duì)共同呼應(yīng)的,對(duì)于AI for Science的嚴(yán)肅討論,把LLMs在各類問答式榜單上的內(nèi)卷,向真正科學(xué)發(fā)現(xiàn)的星辰大海推近了一步。

「深度原理Deep Principle」與20多所機(jī)構(gòu)的50多位合作者的研究證明了,目前LLM的發(fā)展路徑并不能「順便攻克」科學(xué)發(fā)現(xiàn)。

這條通往科學(xué)超級(jí)智能之路,需要更多有識(shí)之士共同并肩而行。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特戰(zhàn)部隊(duì)進(jìn)駐臺(tái)北!賴清德當(dāng)局開始慌了,下令加強(qiáng)防斬首演練

特戰(zhàn)部隊(duì)進(jìn)駐臺(tái)北!賴清德當(dāng)局開始慌了,下令加強(qiáng)防斬首演練

溫讀史
2026-01-14 10:23:23
-10℃+暴雪+凍雨!河南將迎今冬最強(qiáng)雨雪:全天都在0℃以下,真正的寒冬來了

-10℃+暴雪+凍雨!河南將迎今冬最強(qiáng)雨雪:全天都在0℃以下,真正的寒冬來了

魯中晨報(bào)
2026-01-15 07:19:28
泰國在建高鐵項(xiàng)目發(fā)生事故已致22死

泰國在建高鐵項(xiàng)目發(fā)生事故已致22死

每日經(jīng)濟(jì)新聞
2026-01-14 13:20:18
熱火灰熊談判莫蘭特交易!萊利拒送選秀權(quán) 也不想給優(yōu)秀年輕球員

熱火灰熊談判莫蘭特交易!萊利拒送選秀權(quán) 也不想給優(yōu)秀年輕球員

羅說NBA
2026-01-15 05:53:11
鹵鵝哥一句話點(diǎn)破“呆呆殺豬宴”背后陰暗面!還有一個(gè)細(xì)節(jié)被忽略

鹵鵝哥一句話點(diǎn)破“呆呆殺豬宴”背后陰暗面!還有一個(gè)細(xì)節(jié)被忽略

八斗小先生
2026-01-14 11:16:12
向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
突發(fā)6大利空,26個(gè)商業(yè)航天龍頭集體跌停,題材龍頭集體崩潰了

突發(fā)6大利空,26個(gè)商業(yè)航天龍頭集體跌停,題材龍頭集體崩潰了

風(fēng)風(fēng)順
2026-01-15 10:25:34
卡里克執(zhí)教曼聯(lián)收入揭秘!曝阿莫林本想辭職,經(jīng)紀(jì)人說別便宜拉爵

卡里克執(zhí)教曼聯(lián)收入揭秘!曝阿莫林本想辭職,經(jīng)紀(jì)人說別便宜拉爵

羅米的曼聯(lián)博客
2026-01-15 10:47:57
燦燦殺豬宴還沒開始就"翻車",賬號(hào)被封知情人曝猛料 文旅刪視頻

燦燦殺豬宴還沒開始就"翻車",賬號(hào)被封知情人曝猛料 文旅刪視頻

史行途
2026-01-14 13:43:35
痛心!河南帥哥小張去世,僅25,因母親病重公司不批假想不開跳樓

痛心!河南帥哥小張去世,僅25,因母親病重公司不批假想不開跳樓

鋭娛之樂
2026-01-14 08:52:03
已確認(rèn)!時(shí)隔7年著名笑星2026春晚回歸!

已確認(rèn)!時(shí)隔7年著名笑星2026春晚回歸!

家在棲霞
2026-01-15 09:10:46
閆學(xué)晶被舉報(bào)偷稅后:官方評(píng)論區(qū)被沖,海南稅務(wù)受牽連,網(wǎng)友炸鍋

閆學(xué)晶被舉報(bào)偷稅后:官方評(píng)論區(qū)被沖,海南稅務(wù)受牽連,網(wǎng)友炸鍋

天天熱點(diǎn)見聞
2026-01-15 07:00:55
央視《小城大事》遭痛批?年代劇是要接地氣,但絕不是“接地府”

央視《小城大事》遭痛批?年代劇是要接地氣,但絕不是“接地府”

世界更加寬廣
2026-01-12 16:04:31
“福建75億元項(xiàng)目水庫大壩被指偷工減料”,官方通報(bào):多人被撤職、降職

“福建75億元項(xiàng)目水庫大壩被指偷工減料”,官方通報(bào):多人被撤職、降職

大風(fēng)新聞
2026-01-14 18:06:05
華國鋒退下來了,組織專門找到他的秘書,誠懇讓其自己挑前途~

華國鋒退下來了,組織專門找到他的秘書,誠懇讓其自己挑前途~

鶴羽說個(gè)事
2026-01-14 15:22:18
天差地別!媒體曝光遼籃主場上座率 大幅度下滑 球迷很現(xiàn)實(shí)

天差地別!媒體曝光遼籃主場上座率 大幅度下滑 球迷很現(xiàn)實(shí)

胖子噴球
2026-01-15 10:19:50
泰國在建鐵路事故已致22死

泰國在建鐵路事故已致22死

環(huán)球網(wǎng)資訊
2026-01-14 13:02:35
1983年,黃永勝彌留之際苦求一事,中央特批:滿足他

1983年,黃永勝彌留之際苦求一事,中央特批:滿足他

寄史言志
2026-01-14 16:36:19
隨著羅伯遜6-2勝韋克林,大師賽8強(qiáng)誕生!大概率以下4人進(jìn)半決賽

隨著羅伯遜6-2勝韋克林,大師賽8強(qiáng)誕生!大概率以下4人進(jìn)半決賽

小火箭愛體育
2026-01-15 06:55:32
劉嘉玲不再隱瞞,坦言梁朝偉的真實(shí)處境,定居日本傳聞已真相大白

劉嘉玲不再隱瞞,坦言梁朝偉的真實(shí)處境,定居日本傳聞已真相大白

查爾菲的筆記
2026-01-14 21:38:54
2026-01-15 12:23:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14337文章數(shù) 66479關(guān)注度
往期回顧 全部

科技要聞

千問接入淘寶支付寶,大模型開卷辦事能力

頭條要聞

美國開售委內(nèi)瑞拉石油 首筆交易價(jià)值5億美元

頭條要聞

美國開售委內(nèi)瑞拉石油 首筆交易價(jià)值5億美元

體育要聞

你是個(gè)好球員,我們就拿你交易吧

娛樂要聞

傳奇棋圣聶衛(wèi)平離世,網(wǎng)友集體悼念

財(cái)經(jīng)要聞

“瘋狂的白銀”,還能走多遠(yuǎn)?

汽車要聞

今年推出超40款新車,BBA要把失去的奪回來

態(tài)度原創(chuàng)

藝術(shù)
本地
健康
公開課
軍事航空

藝術(shù)要聞

歷代書家集字春聯(lián)大集合

本地新聞

云游內(nèi)蒙|黃沙與碧波撞色,烏海天生會(huì)“混搭”

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中東氣氛愈發(fā)緊張 伊朗處于最高戰(zhàn)備狀態(tài)

無障礙瀏覽 進(jìn)入關(guān)懷版