国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

距離“數(shù)字科學(xué)家”還有多遠(yuǎn)?從“死記硬背”到“邏輯博弈”

0
分享至


潘 展|編譯

在實(shí)驗(yàn)室的幽暗燈光下,科學(xué)家常年與實(shí)驗(yàn)數(shù)據(jù)和復(fù)雜的理論公式博弈。而如今,一個(gè)全新的“協(xié)作者”出現(xiàn)在了實(shí)驗(yàn)臺(tái)上。大語言模型(LLMs)已經(jīng)展示了書寫論文、總結(jié)文獻(xiàn)、甚至是構(gòu)思復(fù)雜實(shí)驗(yàn)流程的驚人能力。

然而,當(dāng)一個(gè)AI系統(tǒng)提出一種新的催化劑分子,或是預(yù)測(cè)了一種全新的蛋白質(zhì)結(jié)構(gòu)時(shí),我們?nèi)绾未_定它是真的通過“理解”科學(xué)原理得出的結(jié)論,還是僅僅在進(jìn)行一場(chǎng)精密的統(tǒng)計(jì)游戲?


近日,《科學(xué)》雜志探討了這一核心議題:我們究竟該如何衡量人工智能是否聰明到足以從事科學(xué)研究?

01


從“死記硬背”到“邏輯博弈”

在過去幾年中,AI 模型在各類學(xué)術(shù)基準(zhǔn)測(cè)試中表現(xiàn)出了近乎狂飆的性能。無論是 MMLU(大規(guī)模多任務(wù)語言理解)還是其他通用學(xué)科測(cè)試,AI的得分屢創(chuàng)新高。然而,這引發(fā)了研究界深層的擔(dān)憂:這些測(cè)試是否正在失效?


前沿LLMs在流行基準(zhǔn)和HLE上的性能,圖源:HLE

AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開的所有科學(xué)論文、教科書和在線習(xí)題集,許多基準(zhǔn)測(cè)試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。由于目前的AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開的所有科學(xué)論文、教科書和在線習(xí)題集,許多基準(zhǔn)測(cè)試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。

當(dāng)模型面對(duì)一道復(fù)雜的物理競(jìng)賽題時(shí),它給出的正確答案可能并非基于對(duì)物理定律的深刻推演,而是基于海量訓(xùn)練數(shù)據(jù)中的相似模式匹配。也由此,這種“記憶力驅(qū)動(dòng)的智能”在科學(xué)研究中是危險(xiǎn)的,科學(xué)家將它稱之為“數(shù)據(jù)污染”——科學(xué)的本質(zhì)在于探索未知,而記憶只能復(fù)述已知。

為了甄別真正的科學(xué)智能,研究人員開始設(shè)計(jì)那些“無法通過互聯(lián)網(wǎng)搜索找到答案”的極端考題。其中,生物、化學(xué)、物理領(lǐng)域的GPQA(研究生級(jí)別谷歌驗(yàn)證問答集)成為衡量這一能力的標(biāo)桿。


各流行模型GPQA分?jǐn)?shù)排行榜,圖片來源Frontier

GPQA的獨(dú)特之處在于其極高的門檻。即使是相關(guān)學(xué)科的專家,在擁有無限互聯(lián)網(wǎng)訪問權(quán)限的情況下,回答這些問題的正確率也僅在65%至70%之間。如果一個(gè)非相關(guān)領(lǐng)域的博士去參加測(cè)試,正確率往往會(huì)大幅跌落。

當(dāng)新一代AI 模型(如 OpenAI o1 系列)在 GPQA-Diamond 測(cè)試中取得超過80%的正確率時(shí),科研界感受到了震動(dòng)。

他們認(rèn)為,這不再是簡(jiǎn)單的記憶檢索,而是模型展現(xiàn)出了某種形式的“科學(xué)推演能力”——它能夠處理多步驟的邏輯鏈條,在信息不足的情況下進(jìn)行嚴(yán)謹(jǐn)?shù)耐馔啤?/p>

02


從“結(jié)果導(dǎo)向”轉(zhuǎn)向“過程審計(jì)”

在科學(xué)發(fā)現(xiàn)中,結(jié)論的正確性固然重要,但推導(dǎo)過程的嚴(yán)謹(jǐn)性往往決定了研究的價(jià)值。最新的評(píng)估框架開始引入“過程監(jiān)督”。


FrontierScience奧林匹克與科學(xué)研究上各模型準(zhǔn)確率,圖源:OpenAI

這不僅僅是檢查AI最后的答案是否正確,而是要求模型展示其思維路徑,如在評(píng)估一個(gè)AI是否具備合成復(fù)雜有機(jī)分子的能力時(shí),評(píng)估者不再只看最終產(chǎn)量,而是逐一審查AI的每一步操作邏輯:它是否考慮了反應(yīng)環(huán)境的溫度與壓力?是否識(shí)別并避開了可能發(fā)生的副反應(yīng)?在實(shí)驗(yàn)失敗時(shí),它能否根據(jù)異常數(shù)據(jù)進(jìn)行正確的歸因分析?

這種方法有力地剔除了“邏輯幻覺”。許多模型在測(cè)試中能夠?qū)懗鰞?yōu)美的科研術(shù)語,但在嚴(yán)密的邏輯審查下,其推導(dǎo)鏈條往往存在致命的科學(xué)漏洞。

03


從“實(shí)戰(zhàn)測(cè)試”到回歸科學(xué)的本質(zhì)

衡量AI性能的最終戰(zhàn)場(chǎng)是真實(shí)的實(shí)驗(yàn)室。目前,最前沿的評(píng)估方式被稱為“閉環(huán)自動(dòng)化發(fā)現(xiàn)”。

在這種模式下,AI 被直接連接到自動(dòng)化的化學(xué)合成實(shí)驗(yàn)室或計(jì)算平臺(tái)。研究人員只給出一個(gè)宏大的目標(biāo),如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設(shè)中篩選最優(yōu)路線,指導(dǎo)機(jī)器人進(jìn)行實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)回傳的實(shí)時(shí)數(shù)據(jù),動(dòng)態(tài)調(diào)整自己的假設(shè)。

當(dāng)實(shí)驗(yàn)數(shù)據(jù)與初始理論沖突時(shí),AI能否迅速識(shí)別出是模型偏差還是實(shí)驗(yàn)誤差的反思能力,成為衡量其是否“聰明”的黃金標(biāo)準(zhǔn)。那些能夠通過少量實(shí)驗(yàn)修正自身知識(shí)結(jié)構(gòu)、進(jìn)而逼近真理的AI,才被認(rèn)為具備了真正的科學(xué)直覺。

然而,即便是最先進(jìn)的AI,在科學(xué)領(lǐng)域的表現(xiàn)依然面臨界限。我們衡量AI,并非為了證明它能取代科學(xué)家,而是為了確立一種全新的協(xié)作范式。

科學(xué)研究不僅需要邏輯推演,還需要那種打破范式的“直覺”。目前,AI擅長(zhǎng)在既定的科學(xué)空間內(nèi)進(jìn)行海量的、高維度的搜索與優(yōu)化,但在提出顛覆性的科學(xué)假說、或在模糊的交叉學(xué)科邊緣進(jìn)行原創(chuàng)性飛躍方面,人類科學(xué)家依然掌握著主導(dǎo)權(quán)。

04


結(jié)語

我們距離創(chuàng)造出一個(gè)能夠獨(dú)立從事科學(xué)研究的“數(shù)字科學(xué)家”還有多遠(yuǎn)?《科學(xué)》這篇文章的結(jié)論或許可以給予我們啟發(fā):這取決于我們的評(píng)估體系演進(jìn)得有多快。

當(dāng)我們不再僅僅以“考試成績(jī)”來衡量模型,而是以“邏輯嚴(yán)謹(jǐn)度”、“實(shí)驗(yàn)修正能力”和“跨學(xué)科泛化能力”為坐標(biāo)系時(shí),我們不僅在篩選更好的工具,更是在重新定義科學(xué)本身。

在這個(gè)人機(jī)共進(jìn)的時(shí)代,衡量AI的過程,本質(zhì)上也是人類在不斷審視自身如何理解自然界的過程。

https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

Deep Science預(yù)印本



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
卡爾森:壞了!原來小丑不是特朗普,而是我自己

卡爾森:壞了!原來小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
余承東正式宣布問界M6訂單超6萬臺(tái)后,一個(gè)奇怪的現(xiàn)象就出現(xiàn)了

余承東正式宣布問界M6訂單超6萬臺(tái)后,一個(gè)奇怪的現(xiàn)象就出現(xiàn)了

春雨說科技
2026-03-26 14:46:46
審問3小時(shí),日本軍官底細(xì)被扒出,中方一錘定音,高市早苗看著辦

審問3小時(shí),日本軍官底細(xì)被扒出,中方一錘定音,高市早苗看著辦

諦聽骨語本尊
2026-03-26 13:43:30
別想再回國(guó)!中國(guó)體壇 4 大叛徒,奪冠后否認(rèn)是國(guó)人,如今遭報(bào)應(yīng)

別想再回國(guó)!中國(guó)體壇 4 大叛徒,奪冠后否認(rèn)是國(guó)人,如今遭報(bào)應(yīng)

動(dòng)物奇奇怪怪
2026-03-25 14:18:48
水果騙局大揭秘!這些水果其實(shí)全是假的,買了你就上當(dāng)了!

水果騙局大揭秘!這些水果其實(shí)全是假的,買了你就上當(dāng)了!

時(shí)評(píng)人李文君
2026-03-25 19:32:21
內(nèi)塔尼亞胡:對(duì)惡絕不手軟,才是對(duì)和平最大的負(fù)責(zé)

內(nèi)塔尼亞胡:對(duì)惡絕不手軟,才是對(duì)和平最大的負(fù)責(zé)

老馬拉車莫少裝
2026-03-22 23:24:28
英國(guó)上將揭露:1997年香港回歸真相,誰敢抗衡中國(guó)解放軍?

英國(guó)上將揭露:1997年香港回歸真相,誰敢抗衡中國(guó)解放軍?

老范談史
2026-03-18 23:51:08
事情鬧大了,日本內(nèi)閣連發(fā)公告,中國(guó)的態(tài)度,告訴了世界一個(gè)事實(shí)

事情鬧大了,日本內(nèi)閣連發(fā)公告,中國(guó)的態(tài)度,告訴了世界一個(gè)事實(shí)

墜入二次元的海洋
2026-03-26 11:44:05
周恩來晚年含淚揭秘,當(dāng)年若非毛主席深夜提燈來,歷史或?qū)⒏膶?>
    </a>
        <h3>
      <a href=鶴羽說個(gè)事
2026-03-18 21:47:42
出獄后的雷政富滄桑感襲面而來,前后對(duì)比引人唏噓

出獄后的雷政富滄桑感襲面而來,前后對(duì)比引人唏噓

霹靂炮
2026-03-14 22:49:47
雷軍曬成績(jī):小米SU7、YU7雙雙第一!

雷軍曬成績(jī):小米SU7、YU7雙雙第一!

快科技
2026-03-26 13:09:04
世預(yù)賽歐洲區(qū)開打!明晨將有8隊(duì)出局 8隊(duì)進(jìn)決賽 意大利生死戰(zhàn)

世預(yù)賽歐洲區(qū)開打!明晨將有8隊(duì)出局 8隊(duì)進(jìn)決賽 意大利生死戰(zhàn)

葉青足球世界
2026-03-26 08:47:10
伊朗終于開竅,目標(biāo)對(duì)準(zhǔn)海水淡化廠,以色列抵擋不住,百余人傷亡

伊朗終于開竅,目標(biāo)對(duì)準(zhǔn)海水淡化廠,以色列抵擋不住,百余人傷亡

你得漂亮
2026-03-24 22:59:34
“戲混子”又來霍霍年代劇?老氣橫秋、演技拉胯,難怪觀眾不買賬

“戲混子”又來霍霍年代?。坷蠚鈾M秋、演技拉胯,難怪觀眾不買賬

翰飛觀事
2026-03-24 17:00:30
短短1年,靈活就業(yè)者暴增4千萬

短短1年,靈活就業(yè)者暴增4千萬

深度報(bào)
2026-03-23 21:47:58
佳兆業(yè)預(yù)告扭虧為盈超500億,深圳核心項(xiàng)目?jī)r(jià)值凸顯

佳兆業(yè)預(yù)告扭虧為盈超500億,深圳核心項(xiàng)目?jī)r(jià)值凸顯

樂居財(cái)經(jīng)官方
2026-03-26 10:14:46
毛主席看完工資方案沉默良久,對(duì)周總理說:這不是把我架爐子上烤嗎

毛主席看完工資方案沉默良久,對(duì)周總理說:這不是把我架爐子上烤嗎

文史明鑒
2026-03-26 15:22:47
巴斯夫(廣東)一體化基地全面投產(chǎn),黃坤明等中外嘉賓共同啟動(dòng)

巴斯夫(廣東)一體化基地全面投產(chǎn),黃坤明等中外嘉賓共同啟動(dòng)

廣東發(fā)布
2026-03-26 10:57:43
喪心病狂!河南14歲少年被虐死案:死時(shí)穿紙尿褲,胃里空無一物

喪心病狂!河南14歲少年被虐死案:死時(shí)穿紙尿褲,胃里空無一物

春日在捕月
2026-03-25 01:00:23
湖人7分險(xiǎn)勝!差點(diǎn)翻車原因揭曉,4人表現(xiàn)太拉胯,數(shù)據(jù)一目了然

湖人7分險(xiǎn)勝!差點(diǎn)翻車原因揭曉,4人表現(xiàn)太拉胯,數(shù)據(jù)一目了然

余飩搞笑段子
2026-03-26 11:33:35
2026-03-26 16:24:49
深究科學(xué) incentive-icons
深究科學(xué)
科學(xué)、技術(shù)、創(chuàng)新。
207文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個(gè)擁抱

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個(gè)擁抱

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡(jiǎn)

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
家居
本地
手機(jī)
軍事航空

數(shù)碼要聞

三星更新870 EVO系列SATA SSD:最高8TB 定價(jià)超1萬元

家居要聞

傍海而居 靜觀蝴蝶海

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

手機(jī)要聞

蘋果回應(yīng)iPhone自動(dòng)打電話 升級(jí)系統(tǒng)可解決

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版