国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Nature重磅:首個(gè)“AI科學(xué)家”的誕生!實(shí)現(xiàn)端到端自動(dòng)化科研,撰寫論文通過頂會(huì)同行評審

0
分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

2024 年 8 月,Sakana AI 公司、不列顛哥倫比亞大學(xué)、牛津大學(xué)的研究人員組成的研究團(tuán)隊(duì)在預(yù)印本平臺(tái) arXiv 推出首個(gè)旨在全面自動(dòng)化科學(xué)流程的人工智能工具——“AI 科學(xué)家”(AI scientist),其能夠完成科學(xué)發(fā)現(xiàn)的整個(gè)周期——從提出想法到驗(yàn)證想法再到撰寫科學(xué)論文。

如今,一年多過去了,可供研究人員使用的 AI 研究助手種類繁多,其中一些也能夠像“AI 科學(xué)家”那樣進(jìn)行自主研究甚至撰寫科學(xué)論文。

而現(xiàn)在, “AI 科學(xué)家”再次完成了一個(gè)新壯舉——其完成了首個(gè)通過人類專家同行評審的完全 AI 生成論文 ,從 研究想法、編寫代碼、運(yùn)行實(shí)驗(yàn)、繪制和分析數(shù)據(jù),到撰寫完整的科學(xué)論文,均由“AI 科學(xué)家”自主完成。

2026 年 3 月 25 日,研究團(tuán)隊(duì)在國際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為:Towards end-to-end automation of AI research 的研究論文,更新了 2024 年的這篇描述“AI 科學(xué)家”的預(yù)印本論文,對其能力進(jìn)行了適度調(diào)整,進(jìn)一步展示了“AI 科學(xué)家”將生成的三篇原創(chuàng)研究論文提交給了一個(gè)頂級(jí)機(jī)器學(xué)習(xí)會(huì)議——國際學(xué)習(xí)表征會(huì)議(ICLR),其中一篇論文通過人類專家同行評審后被接收,且評分超過了該會(huì)議接收論文的平均值。

這一成就展示了 AI 在科學(xué)貢獻(xiàn)方面日益增強(qiáng)的能力,并預(yù)示著科學(xué)研究方式可能發(fā)生的范式轉(zhuǎn)變。研究團(tuán)隊(duì)表示,如果負(fù)責(zé)任地開發(fā),“AI 科學(xué)家”等自主系統(tǒng)能夠極大地加速科學(xué)發(fā)現(xiàn)。


什么是“AI 科學(xué)家”?

“AI 科學(xué)家”是一個(gè)端到端自動(dòng)化科學(xué)研究全過程的 AI 系統(tǒng),由一系列“智能體”(Agent)構(gòu)成,這些智能體建立在現(xiàn)有的大語言模型(LLM)之上(例如 GPT-4o 或 Claude Sonnet 4)。

它能夠自主完成從研究構(gòu)思到論文發(fā)表的整個(gè)科研生命周期,包括——

1、生成研究想法:在用戶指定的機(jī)器學(xué)習(xí)研究子領(lǐng)域中,迭代生成高水平的研究方向和假設(shè);

2、執(zhí)行實(shí)驗(yàn):編寫代碼、運(yùn)行實(shí)驗(yàn)、可視化結(jié)果;

3、撰寫論文:按照標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)會(huì)議論文格式,使用 LaTeX 模板逐節(jié)撰寫完整論文;

4、進(jìn)行同行評審:通過自動(dòng)評審系統(tǒng)評估論文的科學(xué)質(zhì)量。

這個(gè)“AI 科學(xué)家”有兩種工作模式:基于模板的模(使用人類提供的代碼模板作為起點(diǎn))和模板自由的模式(完全自主生成代碼并進(jìn)行更廣泛的科學(xué)探索)。


“AI 科學(xué)家”工作流程

突破:AI 論文通過同行評審

為了驗(yàn)證“AI 科學(xué)家”的實(shí)際能力,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)大膽的實(shí)驗(yàn):將完全由“AI 科學(xué)家”生成的研究論文提交給國際學(xué)習(xí)表征會(huì)議(ICLR)的一個(gè)研討會(huì)進(jìn)行同行評審。ICLR 是由圖靈獎(jiǎng)得主Yoshua Bengio楊立昆于 2013 年創(chuàng)立的深度學(xué)習(xí)領(lǐng)域?qū)W術(shù)會(huì)議,其與 NeurIPS、ICML 并稱為機(jī)器學(xué)習(xí)領(lǐng)域主要會(huì)議,在谷歌學(xué)術(shù)會(huì)議期刊排名中位列全球前十。

整個(gè)實(shí)驗(yàn)過程完全透明且符合倫理規(guī)范:

  • 會(huì)議組織者事先知情并同意;

  • 人類評審專家被告知有部分論文是 AI 生成的,但不知道具體是哪幾篇;

  • 所有 AI 生成的論文在評審后都會(huì)被撤回,避免在科學(xué)界建立明確標(biāo)準(zhǔn)前設(shè)定先例。

結(jié)果令人震驚:“AI 科學(xué)家”提交的三篇 AI 生成論文中,有一篇獲得了人類評審專家的平均分 6.33 分(個(gè)人評分分別為 6、7、6),成為第一篇完全由 AI 生成并通過了標(biāo)準(zhǔn)的科學(xué)同行評審流程的研究論文,這一分?jǐn)?shù)超過了該研討會(huì)接收論文的平均分?jǐn)?shù)。這篇題為:Compositional regularization: Unexpected obstacles in enhancing neural network generalization(組合正則化:增強(qiáng)神經(jīng)網(wǎng)絡(luò)泛化能力中的意外障)的論文報(bào)告了一個(gè)負(fù)面結(jié)果,與研討會(huì)關(guān)注“有趣負(fù)面結(jié)果”的主題高度契合。


“AI 科學(xué)家”生成的一篇論文的精選部分,該論文已通過同行評審,在頂級(jí)機(jī)器學(xué)習(xí)會(huì)議的研討會(huì)上被接受

自動(dòng)評審系統(tǒng):與人類評審者媲美

“AI 科學(xué)家”不僅能夠生成論文,還配備了“自動(dòng)評審器”來評估論文質(zhì)量。這個(gè)自動(dòng)評審系統(tǒng)的表現(xiàn)如何?

根據(jù)論文中的對比數(shù)據(jù),自動(dòng)評審器在關(guān)鍵指標(biāo)上與人類評審者表現(xiàn)相當(dāng)甚至更優(yōu):

  • 平衡準(zhǔn)確率:自動(dòng)評審器 69% vs 人類評審者 66%;

  • F1 分?jǐn)?shù):自動(dòng)評審器 0.62 vs 人類評審者 0.49;

  • 曲線下面積(AUC):自動(dòng)評審器 0.69 vs 人類評審者 0.65。

即使在訓(xùn)練數(shù)據(jù)截止日期后的 2025 年的新論文上,自動(dòng)評審器仍保持 66% 的平衡準(zhǔn)確率,與人類評審者水平相當(dāng)。

系統(tǒng)工作原理:四階段科研流程

“AI 科學(xué)家”按照四個(gè)主要階段順序工作——

第一階段:想法生成與篩選,系統(tǒng)迭代生成研究想法檔案,為每個(gè)方向生成描述性標(biāo)題、研究理由和實(shí)驗(yàn)計(jì)劃。然后通過連接語義學(xué)者API和網(wǎng)絡(luò)訪問工具,篩選掉與現(xiàn)有文獻(xiàn)過于相似的想法。

第二階段:實(shí)驗(yàn)執(zhí)行與可視化,系統(tǒng)執(zhí)行提出的實(shí)驗(yàn)計(jì)劃,可視化結(jié)果,并為后續(xù)寫作做好筆記記錄。在模板自由模式下,系統(tǒng)會(huì)從零開始生成代碼,并通過樹搜索優(yōu)化實(shí)驗(yàn)執(zhí)行。

第三階段:論文撰寫,系統(tǒng)使用筆記和圖表,按照會(huì)議論文模板逐節(jié)填充內(nèi)容,通過查詢獲取相關(guān)文獻(xiàn),并在 20 輪比較中為論文添加適當(dāng)引用。

第四階段:自動(dòng)評審,生成的論文由自動(dòng)評審系統(tǒng)評估,提供數(shù)值評分、優(yōu)缺點(diǎn)列表和接受/拒絕的二元決策。


“AI 科學(xué)家”工作的四個(gè)階段

意義與局限:科學(xué)研究的范式轉(zhuǎn)變

這項(xiàng)研究的成功標(biāo)志著 AI 在科學(xué)貢獻(xiàn)能力上的重大進(jìn)步,可能預(yù)示著科學(xué)研究方式的范式轉(zhuǎn)變。如果負(fù)責(zé)任地開發(fā),這種自主系統(tǒng)可以極大地加速科學(xué)發(fā)現(xiàn)。

當(dāng)然,研究團(tuán)隊(duì)也坦誠指出了當(dāng)前系統(tǒng)的局限性:三篇提交論文中只有一篇被接受,且研討會(huì)接受率(70%)遠(yuǎn)高于主會(huì)議(32%);提交的論文尚不能達(dá)到頂尖論文的標(biāo)準(zhǔn);常見失敗模式包括想法幼稚、實(shí)現(xiàn)錯(cuò)誤、方法嚴(yán)謹(jǐn)性不足、實(shí)驗(yàn)錯(cuò)誤和多種類型的幻覺。

未來展望與倫理考量

隨著 AI 系統(tǒng)能力的指數(shù)級(jí)增長和成本的指數(shù)級(jí)下降,“AI 科學(xué)家”的性能有望大幅提升。未來,同樣的方法可以應(yīng)用于其他科學(xué)領(lǐng)域,例如自動(dòng)化化學(xué)實(shí)驗(yàn)室。

然而,自動(dòng)化論文生成能力也帶來了重要的倫理和社會(huì)關(guān)切——可能壓垮同行評審系統(tǒng)、人為夸大研究資歷、未經(jīng)適當(dāng)認(rèn)可地挪用他人想法、消除科學(xué)家工作崗位、進(jìn)行不道德或危險(xiǎn)的實(shí)驗(yàn)等等。

研究團(tuán)隊(duì)強(qiáng)調(diào),在科學(xué)界建立明確的披露和評估標(biāo)準(zhǔn)前,需要謹(jǐn)慎推進(jìn)這類 AI 系統(tǒng)的應(yīng)用,確保它們被用于促進(jìn)而非破壞科學(xué)誠信。

“AI 科學(xué)家”生成并通過同行評審的論文,是 AI 發(fā)展史上的一個(gè)重要里程碑。它不僅是技術(shù)能力的展示,更是對傳統(tǒng)科研模式的深刻挑戰(zhàn)。當(dāng) AI 開始涉足人類智慧的最高殿堂——科學(xué)發(fā)現(xiàn)時(shí),我們既看到了加速進(jìn)步的巨大潛力,也面臨著重新定義科研倫理邊界的緊迫任務(wù)。

論文鏈接

https://www.nature.com/articles/s41586-026-10265-5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小米汽車市場危機(jī),開始公開化

小米汽車市場危機(jī),開始公開化

浙江車網(wǎng)
2026-04-13 09:15:19
寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

王新喜
2026-04-13 10:45:56
遭繩子鎖喉的13歲男孩已轉(zhuǎn)診北京,母親哭得看不清手機(jī)上的字:孩子氣道食管破裂,后續(xù)花費(fèi)非常大

遭繩子鎖喉的13歲男孩已轉(zhuǎn)診北京,母親哭得看不清手機(jī)上的字:孩子氣道食管破裂,后續(xù)花費(fèi)非常大

極目新聞
2026-04-13 11:23:58
成都航空回應(yīng)六旬男子術(shù)后登機(jī)飛機(jī)上身亡

成都航空回應(yīng)六旬男子術(shù)后登機(jī)飛機(jī)上身亡

界面新聞
2026-04-13 18:35:04
約基奇場均29+13+10刷爆歷史,NBA用了78年等來第一個(gè)三冠王

約基奇場均29+13+10刷爆歷史,NBA用了78年等來第一個(gè)三冠王

體壇觀察猿
2026-04-13 15:02:31
金價(jià)大跌!

金價(jià)大跌!

吉林日報(bào)
2026-04-13 10:00:08
油箱見底了!常規(guī)賽打完,這7名球星大概率退役!5人曾是全明星

油箱見底了!常規(guī)賽打完,這7名球星大概率退役!5人曾是全明星

毒舌NBA
2026-04-13 20:07:23
科大訊飛員工中1500萬彩票火速離職,網(wǎng)友:羨慕了

科大訊飛員工中1500萬彩票火速離職,網(wǎng)友:羨慕了

鞭牛士
2026-04-13 09:48:14
必須嚴(yán)懲,中國籃協(xié)宣布重要決定,18歲小將面臨被重罰要背鍋

必須嚴(yán)懲,中國籃協(xié)宣布重要決定,18歲小將面臨被重罰要背鍋

宗介說體育
2026-04-13 10:39:28
港鐵羅湖站突發(fā)!多人大打出手,視頻曝光!香港警方:拘捕6人

港鐵羅湖站突發(fā)!多人大打出手,視頻曝光!香港警方:拘捕6人

南方都市報(bào)
2026-04-13 14:01:45
鬧掰了?王曉晨疑發(fā)文內(nèi)涵俞灝明,言語犀利絲毫沒給對方留體面!

鬧掰了?王曉晨疑發(fā)文內(nèi)涵俞灝明,言語犀利絲毫沒給對方留體面!

娛樂團(tuán)長
2026-04-13 20:29:53
今晚10點(diǎn)全線封鎖伊朗!特朗普轉(zhuǎn)身威脅中國:就怕中國忍無可忍

今晚10點(diǎn)全線封鎖伊朗!特朗普轉(zhuǎn)身威脅中國:就怕中國忍無可忍

樓蘇州
2026-04-13 17:28:52
印度女子與情人合謀殺夫,因“遭綁架后沒被強(qiáng)奸”被識(shí)破,警方:這違背基本常識(shí)

印度女子與情人合謀殺夫,因“遭綁架后沒被強(qiáng)奸”被識(shí)破,警方:這違背基本常識(shí)

可達(dá)鴨面面觀
2026-04-12 10:07:53
日偶像女團(tuán)辦活動(dòng)「0人到場」! 5成員低頭畫面瘋傳

日偶像女團(tuán)辦活動(dòng)「0人到場」! 5成員低頭畫面瘋傳

ETtoday星光云
2026-04-13 12:40:07
深圳一樓盤遭哄搶,保安向人群噴辣椒水!開發(fā)商致歉

深圳一樓盤遭哄搶,保安向人群噴辣椒水!開發(fā)商致歉

南方都市報(bào)
2026-04-13 17:00:47
2026年車企“最慘”開局:一季度的目標(biāo)完成度,幾乎都低于20%

2026年車企“最慘”開局:一季度的目標(biāo)完成度,幾乎都低于20%

互聯(lián)網(wǎng).亂侃秀
2026-04-12 11:33:02
又難開又難停,中年人瘋搶的大車?yán)?,藏盡了委屈與無奈

又難開又難停,中年人瘋搶的大車?yán)?,藏盡了委屈與無奈

每日人物
2026-04-12 15:56:21
輝瑞內(nèi)部人士爆料,德國約有6萬人死于新冠疫苗,馬斯克:完全認(rèn)同

輝瑞內(nèi)部人士爆料,德國約有6萬人死于新冠疫苗,馬斯克:完全認(rèn)同

可達(dá)鴨面面觀
2026-04-13 16:37:24
成年人的社交潛規(guī)則|無論誰幫了你,一定要送禮,不收也要送

成年人的社交潛規(guī)則|無論誰幫了你,一定要送禮,不收也要送

杏花煙雨江南的碧園
2026-04-11 16:15:03
伊朗爆料:和談即將突破時(shí),內(nèi)塔尼亞胡給萬斯打了個(gè)電話攪亂全局

伊朗爆料:和談即將突破時(shí),內(nèi)塔尼亞胡給萬斯打了個(gè)電話攪亂全局

書紀(jì)文譚
2026-04-13 16:05:56
2026-04-13 22:20:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
9200文章數(shù) 145048關(guān)注度
往期回顧 全部

科技要聞

"抄作業(yè)"近四年,馬斯克版微信周五上線

頭條要聞

美官員:美軍已在中東大規(guī)模部署 能確保切斷港口交通

頭條要聞

美官員:美軍已在中東大規(guī)模部署 能確保切斷港口交通

體育要聞

一支球隊(duì)不夠爛,也是一種悲哀

娛樂要聞

初代“跑男團(tuán)”合體,鄧超、鹿晗缺席

財(cái)經(jīng)要聞

今夜,出大事了,3種結(jié)果

汽車要聞

不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

態(tài)度原創(chuàng)

游戲
房產(chǎn)
家居
手機(jī)
公開課

EWC電競世界杯: LPL的仇,EWC報(bào)!JDG三局擊敗BLG

房產(chǎn)要聞

6000億投資盛宴,全球巨頭齊聚,海南又要干件大事!

家居要聞

復(fù)古風(fēng)格 自然簡約

手機(jī)要聞

OPPO A6s Pro首發(fā)“超級(jí)暴雨觸控”,兩款全新平板即將發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版