国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI發(fā)布專家級科學(xué)能力評估基準(zhǔn)FrontierScience

0
分享至



編輯丨coisini

推理能力是科學(xué)工作的核心??茖W(xué)家不僅需要記憶事實,更要提出假設(shè)、驗證修正,并在跨領(lǐng)域間融合思想。隨著人工智能(AI)模型的能力不斷增強,核心問題在于它們?nèi)绾瓮ㄟ^深度推理推動科學(xué)研究。

OpenAI 認為:隨著模型推理與知識能力的持續(xù)擴展,我們需要更強大的基準(zhǔn)來量化和預(yù)測模型加速科研的潛力?,F(xiàn)有科學(xué)基準(zhǔn)多聚焦選擇題、已達性能飽和或未以科學(xué)能力為核心評估維度。

為填補這一空白,OpenAI 推出 FrontierScience:一個專為評估專家級科學(xué)能力構(gòu)建的新基準(zhǔn)。該基準(zhǔn)由物理學(xué)、化學(xué)和生物學(xué)領(lǐng)域的專家編寫驗證,包含數(shù)百道兼具難度、原創(chuàng)性與實質(zhì)意義的題目。



研究論文:https://cdn.openai.com/pdf/2fcd284c-b468-4c21-8ee0-7a783933efcc/frontierscience-paper.pdf

FrontierScience 設(shè)有兩個賽道:衡量奧林匹克式科學(xué)推理能力的奧賽賽道(FrontierScience-Olympiad),以及評估真實世界科研能力的研究賽道(FrontierScience-Research)。在初步評估中,GPT-5.2 在 FrontierScience - 奧賽賽道(得分 77%)和研究賽道(得分 25%)均領(lǐng)先于其他前沿模型。

FrontierScience 的評估維度與構(gòu)建方法

完整的 FrontierScience 評估包含 700 余道文本問題(其中 160 道構(gòu)成黃金標(biāo)準(zhǔn)集),涵蓋物理、化學(xué)和生物學(xué)。

FrontierScience - 奧賽賽道包含 100 道由國際奧賽獎牌得主設(shè)計的題目,通過約束性簡答形式評估科學(xué)推理能力,其理論問題難度不低于國際奧賽競賽題。



FrontierScience - 奧賽賽道化學(xué)題目示例



FrontierScience - 奧賽賽道物理題目示例



FrontierScience - 奧賽賽道生物題目示例

FrontierScience - 研究賽道包含 60 項由博士科學(xué)家設(shè)計的原創(chuàng)研究子任務(wù),采用 10 分制評分標(biāo)準(zhǔn)。研究賽道旨在構(gòu)建具有獨立性、多步驟的研究子任務(wù),其難度相當(dāng)于博士科學(xué)家在科研中可能遇到的挑戰(zhàn)。



FrontierScience - 研究賽道化學(xué)題目示例



FrontierScience - 研究賽道物理題目示例



FrontierScience - 研究賽道生物題目示例

奧賽題集采用簡答評分模式:答案以數(shù)字、表達式或模糊字符串匹配形式呈現(xiàn),便于驗證準(zhǔn)確性。但這種驗證方式往往限制了問題的表達張力與開放程度。針對研究題集,F(xiàn)rontierScience 引入基于量規(guī)的評估架構(gòu)以應(yīng)對開放性任務(wù)。每道題目均配備包含多個獨立且可客觀評估條目的評分量規(guī),總分 10 分。該量規(guī)不僅考察最終答案的準(zhǔn)確性,更關(guān)注推理步驟的正確性,從而支持對模型表現(xiàn)與失誤的細致分析。若模型獲得至少 7/10 的量規(guī)分值,即判定其解答「正確」。



模型表現(xiàn)

OpenAI 在 FrontierScience 上對多款前沿模型進行了評估:GPT?5.2、Claude Opus 4.5、Gemini 3 Pro、GPT?4o、OpenAI o4-mini 以及 OpenAI o3。

除 GPT?5.2 采用「極高」推理強度外,其余推理模型均以「高」推理強度運行。初步評估顯示,GPT?5.2 在兩個測試集中表現(xiàn)最優(yōu):奧賽題集得分 77%,研究題集得分 25%,均領(lǐng)先于其他前沿模型。





值得注意的是,Gemini 3 Pro 在奧賽題集上與 GPT?5.2 表現(xiàn)相當(dāng)(得分 76%)。

評估表明:當(dāng)前模型在解答專家級問題 —— 尤其是開放式研究型任務(wù) —— 方面已取得顯著進展,但仍有提升空間。通過對錯誤案例的分析,OpenAI 發(fā)現(xiàn)前沿模型存在以下問題:推理邏輯與計算錯誤、對專業(yè)科學(xué)概念理解不足,以及事實性表述不準(zhǔn)確。

局限性與未來方向

盡管 FrontierScience 在科學(xué)基準(zhǔn)測試難度上邁進了一步,但仍存在諸多局限。例如,該測試集由問題陳述受限的題目構(gòu)成。

FrontierScience 雖能對模型在專家級難題上的推理能力提供更精細的評估,但尚不能完整反映實際科研工作的全貌,尤其是未能覆蓋科學(xué)研究的關(guān)鍵環(huán)節(jié),例如,模型如何生成真正新穎的假設(shè)、如何處理現(xiàn)實實驗系統(tǒng)等多模態(tài)信息交互。

展望未來,OpenAI 預(yù)期科學(xué)推理能力的進步將來源于兩方面:更強大的通用推理系統(tǒng),以及對科學(xué)專項能力的針對性提升。FrontierScience 等基準(zhǔn)測試有助于我們洞察當(dāng)前 AI 系統(tǒng)的薄弱環(huán)節(jié),從而引導(dǎo)開發(fā)者著力打造能在科學(xué)探索中成為可靠伙伴的模型。

參考內(nèi)容:https://openai.com/index/frontierscience/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我給局長當(dāng)十年秘書,告別擁抱他躲開,隔天市委叫我見新書記

我給局長當(dāng)十年秘書,告別擁抱他躲開,隔天市委叫我見新書記

曉艾故事匯
2025-12-15 08:13:39
26歲學(xué)生逆襲娶32歲班主任!婚紗照曝光全網(wǎng)熱議:年齡差太6了

26歲學(xué)生逆襲娶32歲班主任!婚紗照曝光全網(wǎng)熱議:年齡差太6了

沒有偏旁的常慶
2025-12-27 06:40:08
中方?jīng)]留情面,把變色龍馬克龍當(dāng)靶子,給了歐盟一個血淋淋的教訓(xùn)

中方?jīng)]留情面,把變色龍馬克龍當(dāng)靶子,給了歐盟一個血淋淋的教訓(xùn)

書紀(jì)文譚
2025-12-26 16:25:23
逍遙丸可治20多種病,別只用來疏肝健脾了,一定要收藏

逍遙丸可治20多種病,別只用來疏肝健脾了,一定要收藏

阿兵科普
2025-12-27 17:04:42
油輪剛出門就被扣押,委內(nèi)瑞拉等來強力外援,對美揮出一記重拳

油輪剛出門就被扣押,委內(nèi)瑞拉等來強力外援,對美揮出一記重拳

空天力量
2025-12-26 17:09:59
親密接觸中的罕見身體鎖死現(xiàn)象

親密接觸中的罕見身體鎖死現(xiàn)象

特約前排觀眾
2025-12-27 00:05:08
80輛油罐車駛?cè)肜蠐?,疑似向柬埔寨輸送,柬工業(yè)體系究竟有多爛?

80輛油罐車駛?cè)肜蠐?,疑似向柬埔寨輸送,柬工業(yè)體系究竟有多爛?

百科密碼
2025-12-26 14:21:30
美國提醒日本,小心被中國揍,日本天皇急召高市早苗,有要事交代

美國提醒日本,小心被中國揍,日本天皇急召高市早苗,有要事交代

博覽歷史
2025-12-26 19:17:17
積極信號釋放!老百姓:建議把電動輕便摩托車劃歸為非機動車

積極信號釋放!老百姓:建議把電動輕便摩托車劃歸為非機動車

電動車小辣椒
2025-12-27 07:05:20
早就想打!日媒首次爆料:中國雙航母出動時日軍戰(zhàn)機已做戰(zhàn)斗準(zhǔn)備

早就想打!日媒首次爆料:中國雙航母出動時日軍戰(zhàn)機已做戰(zhàn)斗準(zhǔn)備

詩意世界
2025-08-21 13:13:50
重慶亮點茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

重慶亮點茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

可兒故事匯
2024-10-23 13:44:53
美歐裂痕加劇,美媒質(zhì)問:西方聯(lián)盟已終結(jié)?

美歐裂痕加劇,美媒質(zhì)問:西方聯(lián)盟已終結(jié)?

上觀新聞
2025-12-27 15:42:04
任副省長期間,葉寒冰長期出入私人會所聚餐飲酒

任副省長期間,葉寒冰長期出入私人會所聚餐飲酒

新京報政事兒
2025-12-27 19:42:24
醫(yī)院主任實名怒批張水華:人家生完孩子的都沒調(diào)休 比你更不容易

醫(yī)院主任實名怒批張水華:人家生完孩子的都沒調(diào)休 比你更不容易

念洲
2025-12-27 09:55:35
醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

深度報
2025-12-21 23:01:02
高市早苗出奇招,派人赴俄,她斷定:只要大禮到位,普京會給面子

高市早苗出奇招,派人赴俄,她斷定:只要大禮到位,普京會給面子

知鑒明史
2025-12-26 19:23:28
全國無償獻血者達1.4億人 衛(wèi)健委呼吁各單位每年組織員工無償獻血

全國無償獻血者達1.4億人 衛(wèi)健委呼吁各單位每年組織員工無償獻血

中國經(jīng)營報
2025-12-27 17:11:22
馬琳擔(dān)任總教練,肖戰(zhàn)是副總教,孫遜是男隊教練,女隊教練有懸念

馬琳擔(dān)任總教練,肖戰(zhàn)是副總教,孫遜是男隊教練,女隊教練有懸念

子水體娛
2025-12-26 23:48:13
郭晶晶一家陪霍震霆看58萬電車,給孩子喝4塊蜜雪冰城,很接地氣

郭晶晶一家陪霍震霆看58萬電車,給孩子喝4塊蜜雪冰城,很接地氣

阿雹娛樂
2025-12-27 11:05:54
他們?yōu)楹渭庇谧N攜程?

他們?yōu)楹渭庇谧N攜程?

智識漂流
2025-12-25 20:09:36
2025-12-27 21:35:00
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1191文章數(shù) 222關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

房產(chǎn)
健康
教育
親子
軍事航空

房產(chǎn)要聞

年銷20億+!中交·藍色港灣用好房子致敬好生活

這些新療法,讓化療不再那么痛苦

教育要聞

大學(xué)教師:我給學(xué)生打A,學(xué)生給我滿分

親子要聞

1歲多的小朋友上托管班,吃飯時自己拿起勺子就“開炫”,網(wǎng)友:這小孩是來報恩的吧

軍事要聞

英法德三國領(lǐng)導(dǎo)人通話 重申對烏支持

無障礙瀏覽 進入關(guān)懷版