国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nature重磅:AI寫的論文,在頂會同行評審擊敗55%人類,單篇15美元

0
分享至


新智元報道

編輯:元宇

【新智元導讀】剛剛,Nature蓋章AI獨立科研時代!全新Scaling Law顯現(xiàn),人類死守的學術(shù)鐵王座,正發(fā)生不可逆的轉(zhuǎn)移。

一篇長達數(shù)十頁的學術(shù)論文,在人類設(shè)定研究主題和實驗邊界后,系統(tǒng)自動完成了從實驗到寫作的大部分流程。

從論文正文、實驗代碼、圖表和投稿稿件,主要由系統(tǒng)端到端自動生成。

它被投遞到頂尖機器學習會議ICLR 2025某workshop的同行評審流程中,三位匿名審稿人不知道具體哪幾篇是AI生成稿件,他們對著這篇稿件分別打出了6、7、6的高分。

這個成績,高于約55%的同場投稿。稿件在評審完成后按實驗協(xié)議撤回,未進入正式發(fā)表階段。

這并非科幻,這是剛剛被《Nature》報道的一項震撼研究。


該項研究是由Sakana AI聯(lián)合牛津大學、UBC共同推出的全自動AI科學家「The AI Scientist」。

Sakana AI聯(lián)合創(chuàng)始人兼 CEO David Ha在推文中表示,啟動該項目,正是想探索大模型是否能夠完成整個科研全流程:

我堅信,AI將永遠改變科學發(fā)現(xiàn)和科研進步的方式。


全自動「AI科學家」

究竟做了什么?

這一次,不是AI在「幫」人干活,而是AI第一次把科研流程從頭走到尾。

一直以來,AI在科研領(lǐng)域的定位都是「高級打工人」:比如幫化學家折疊蛋白質(zhì),或是幫程序員找bug。

定義問題和統(tǒng)籌全局的,始終是人類。

The AI Scientist的出現(xiàn),則顛覆了這套「主仆敘事」,它完整覆蓋了科研的四大核心階段:Idea生成、實驗迭代、論文寫作、自動評審。

在全新升級的v2版本中,它甚至走向了「無模板」模式:徹底拋棄人類提供的初始代碼腳手架,引入了強大的「智能體樹搜索」(agentic tree search)機制。

這意味著它能在龐大的未知解空間里,同時開啟多條主線并行探索??蒲胁辉偈菃尉€程試錯,而變成了一個可擴展的搜索過程。

它怎么保證自己不和別人撞車?

系統(tǒng)會調(diào)用Semantic Scholar API進行全網(wǎng)查重,確保每一個idea都具備足夠的新穎性。

在最棘手的數(shù)據(jù)可視化環(huán)節(jié),它甚至內(nèi)置了一個視覺語言模型(VLM)作為反饋審閱者。

如果坐標軸反了、圖例丟了、展示有歧義,VLM會像嚴苛的導師一樣立刻打回重做,直到生成完美的學術(shù)圖表。

過去圖表只是論文包裝,現(xiàn)在圖表也成了AI科研的反饋信號。

而完成這堪比博士生幾個月工作量的閉環(huán),它的賬單是:單篇論文15美元

如此驚人的性價比意味著,科研自動化第一次從「局部輔助」跨進了「全鏈路主導」。

AI不再只是科學家的輔助工具,而是向更具自主性的科研代理系統(tǒng)演進。


AI Scientist工作流程的概念概述,包括提出研究想法、實施實驗、執(zhí)行實驗、撰寫論文以及審閱論文。

通過人類同行評審測試

AI寫的論文,人類學術(shù)金字塔尖的學者到底認不認?

于是,Sakana AI決定玩一把大的:直接向頂會投稿。

在獲得ICLR大會領(lǐng)導層、ICBINB workshop組織者以及IRB倫理委員會的特批后,團隊進行了一場極其大膽的「潛伏行動」:將3篇純AI生成的論文混入了人類投稿池。

審稿人只被告知「可能有AI生成論文」,但根本不知道具體是哪幾篇。

結(jié)果其中一篇探索神經(jīng)網(wǎng)絡(luò)組合正則化(Compositional Regularization)負面結(jié)果的論文,斬獲了平均6.33分(弱接收、接收、弱接收)的高分。

這個分數(shù)不僅穩(wěn)穩(wěn)越過了該workshop的平均錄用線,更是超過了55%的真實人類學者。

連科學研究中最難寫出彩的負向論證,AI也能寫得有模有樣、邏輯自洽。

據(jù)Sakana AI團隊所稱,這是全AI生成論文首次在真實學術(shù)評審環(huán)境中獲得通過接收線的成績。

這也標志著同行評審,真正迎來了圖靈測試」時刻。

AI審稿人比人類更靠譜?

如果AI一天能花幾百美元寫出幾十篇論文,人類審稿系統(tǒng)瞬間就會崩潰。

想讓AI科研實現(xiàn)指數(shù)級爆發(fā),就必須有能夠大規(guī)模評估質(zhì)量的「自動化裁判」。

Sakana AI給出的答案是:直接讓AI來當Area Chair(領(lǐng)域主席)。

他們構(gòu)建了一個高度還原NeurIPS官方審稿流程的自動化系統(tǒng):

5個獨立的AI審稿人進行背靠背挑刺,最后由1個AI元審稿人進行共識匯總和最終裁決。

在與數(shù)千條真實OpenReview人類審稿決策的硬碰硬對比中,自動化審稿人交出了69%的平衡準確率。

令人震驚的是,在作者設(shè)定的評測框架下,自動審稿系統(tǒng)的部分指標優(yōu)于所對照的人類一致性結(jié)果。

有人質(zhì)疑:AI是不是偷偷背過題?

團隊特意用知識截止日期(2025年)之后的全新論文進行了數(shù)據(jù)污染測試。

結(jié)果依然堅挺:平衡準確率保持在66%,達到可與人類頂級學者比肩的實戰(zhàn)水準。

這表明,AI正在進入過去長期由人類主導的科研流程核心環(huán)節(jié)。

過去,人類同時壟斷了「寫論文的人」和「決定論文是否成立」這兩個關(guān)鍵角色。

現(xiàn)在,這兩個角色都在被AI切入。

一旦評審環(huán)節(jié)也被自動化,AI科研就不再是零星爆款,而具備了大規(guī)模、左右互搏式迭代的基礎(chǔ)設(shè)施。


該自動審稿系統(tǒng)在頂級會議(ICLR)發(fā)表的AI論文上,其審稿判斷與人類審稿人一致,包括在模型訓練完成之后(即超出其「知識截止日期」)發(fā)表的論文。這些結(jié)果表明,該自動審稿系統(tǒng)在為新撰寫的AI論文提供評審分數(shù)方面,可靠性與人類審稿人相當。

科研的Scaling Law

如果說「過審」證明了AI科研站得住,那真正決定未來天花板的是另一件事:

它是不是可持續(xù)變強?

Nature論文中最具顛覆性的一組數(shù)據(jù),揭示了潛藏在AI科研背后的全新定律。

研究發(fā)現(xiàn),底層大模型的能力與生成論文的質(zhì)量之間,呈現(xiàn)出令人頭皮發(fā)麻的極度顯著正相關(guān)(P<0.00001)。

隨著模型發(fā)布日期推進,AI產(chǎn)出的論文質(zhì)量持續(xù)陡峭上升。

同時,算力正在暴力改寫科研法則。

投入的測試時算力越多,智能體樹搜索的深度就越深,實驗質(zhì)量就越扎實,最終的產(chǎn)出評級就越高。

當前最頂配的AI科學家,其平均產(chǎn)出已經(jīng)逼近機器學習頂會workshop的邊緣錄用(borderline accept)水平。

這背后展示的是一條正在形成的「科研Scaling Law」。

過去的科技突破,依賴于虛無縹緲的靈光乍現(xiàn),而未來的科學發(fā)現(xiàn),將變成一條可精確計算的工業(yè)流水線。

隨著模型能力呈指數(shù)級增長、推理算力成本呈指數(shù)級下降,這套系統(tǒng)會自動升級,這才是這項工作真正展現(xiàn)出恐怖勢能。


根據(jù)自動評審員的評判,當使用更新、更智能的基礎(chǔ)模型時,AI Scientist生成的論文質(zhì)量會提高。

AI全面接管科研

我們準備好了嗎?

當然,這篇Nature論文,同樣也指出了The AI Scientist的目前的局限性:

它偶爾會想出幼稚的idea,寫的代碼會有bug,論文里會出現(xiàn)引用的幻覺,甚至在附錄里重復粘貼同一張圖表。

值得警惕的是,論文顯示該系統(tǒng)具備自動調(diào)試、重試運行和在受限計算預算下持續(xù)迭代實驗的能力。

這意味著,未來更強的科研代理一旦出現(xiàn)規(guī)避約束的傾向,可能帶來新的安全治理問題。

如果這種系統(tǒng)被毫無節(jié)制地釋放,海量生成的低門檻論文會瞬間壓垮整個學術(shù)生態(tài),學者的學術(shù) credentials(資歷證明)將被徹底稀釋。

正因如此,Sakana AI采取了極其克制的立場:主動撤稿、通過IRB審批、呼吁添加生成水印,并急迫要求社區(qū)建立全自動AI科研規(guī)范。

這篇Nature論文不只是展示AI技術(shù)的里程碑,更是把AI所帶來的倫理爭議也擺上臺面。

真正的問題早已不是「AI能不能做科研」,而是「當AI開始獨立做科學,誰來定義什么算科學」。

正如團隊所設(shè)想的終極愿景:AI科學家不會讓人類科學家消失,但人類科學家的角色,必須被迫向著科研價值鏈的更上游遷徙:

去定義問題、設(shè)定邊界、決定哪些發(fā)現(xiàn)值得被相信。

參考資料:

https://sakana.ai/ai-scientist-nature/%20

https://www.nature.com/articles/s41586-026-10265-5%20

https://x.com/SakanaAILabs/status/2036840833690071450%20

https://x.com/hardmaru/status/2036841736702767135

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
斯諾克大冷門!世界第2出局,白雨露吳安儀進4強,會師決賽爭冠?

斯諾克大冷門!世界第2出局,白雨露吳安儀進4強,會師決賽爭冠?

劉姚堯的文字城堡
2026-03-29 19:30:55
留給伊爾汗·奧馬爾的時間不多了

留給伊爾汗·奧馬爾的時間不多了

南文視界
2026-03-29 17:35:38
斬首!伊朗高超音速導彈突襲迪拜:21名烏克蘭軍事專家被一鍋端

斬首!伊朗高超音速導彈突襲迪拜:21名烏克蘭軍事專家被一鍋端

影孖看世界
2026-03-29 20:34:28
汽柴油即將下調(diào)!3月29日92/95號汽油最新價,4月7日調(diào)價窗口開啟

汽柴油即將下調(diào)!3月29日92/95號汽油最新價,4月7日調(diào)價窗口開啟

沙雕小琳琳
2026-03-29 10:28:54
移動老用戶套餐變更指南:不換號也能辦理高性價比套餐

移動老用戶套餐變更指南:不換號也能辦理高性價比套餐

Thurman在昆明
2026-03-29 03:32:01
殲20總設(shè)計師被除名:頂頭上司受賄7億判死緩,事發(fā)全過程被還原

殲20總設(shè)計師被除名:頂頭上司受賄7億判死緩,事發(fā)全過程被還原

博士觀察
2026-03-28 21:02:35
躺平是不可能了!四川網(wǎng)友曬157萬存單,一年利息2.2萬,日均60元

躺平是不可能了!四川網(wǎng)友曬157萬存單,一年利息2.2萬,日均60元

火山詩話
2026-03-29 10:18:39
一位“90后”網(wǎng)約車司機之死:找工作被人設(shè)局貸款買車,為還車貸多次網(wǎng)貸,自殺身亡后家人仍接到催款電話,辱罵“把他骨灰盒寄給你”

一位“90后”網(wǎng)約車司機之死:找工作被人設(shè)局貸款買車,為還車貸多次網(wǎng)貸,自殺身亡后家人仍接到催款電話,辱罵“把他骨灰盒寄給你”

大風新聞
2026-03-29 15:14:03
痞幼因網(wǎng)紅身份,在別墅區(qū)被鄰居集體“抵制”

痞幼因網(wǎng)紅身份,在別墅區(qū)被鄰居集體“抵制”

笑飲孤鴻非
2026-03-29 06:41:39
10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

孤單是寂寞的毒
2026-03-04 15:38:03
佟麗婭回老家放飛自我,啃羊排沾滿臉肉汁,露虎牙一笑顏值絕美

佟麗婭回老家放飛自我,啃羊排沾滿臉肉汁,露虎牙一笑顏值絕美

看盡落塵花q
2026-03-29 17:34:43
公司不敢明說:45歲以上的員工,其實是最難辭退的

公司不敢明說:45歲以上的員工,其實是最難辭退的

中國民航人
2026-03-28 19:46:35
克雷桑聚餐遭質(zhì)疑!京媒:職業(yè)球員能喝這個?澤卡、馬德魯加在列

克雷桑聚餐遭質(zhì)疑!京媒:職業(yè)球員能喝這個?澤卡、馬德魯加在列

建哥說體育
2026-03-29 18:58:38
《逐玉》收官,演技評分出爐:張凌赫5.5分墊底,第1名毋庸置疑

《逐玉》收官,演技評分出爐:張凌赫5.5分墊底,第1名毋庸置疑

阿纂看事
2026-03-28 12:44:19
跌得最慘的五大專業(yè):從熱門王牌到天坑,名校光環(huán)都不管用!

跌得最慘的五大專業(yè):從熱門王牌到天坑,名校光環(huán)都不管用!

黯泉
2026-03-29 21:20:42
“居家打金”,這個熱鬧不湊為好 | 新京報快評

“居家打金”,這個熱鬧不湊為好 | 新京報快評

新京報
2026-03-28 21:45:03
中國游客到朝鮮游玩,朝鮮人充滿疑問:為什么中國人是這樣的?

中國游客到朝鮮游玩,朝鮮人充滿疑問:為什么中國人是這樣的?

蜉蝣說
2026-03-28 18:26:48
一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
突發(fā)!維斯塔潘親口承認:不等了,考慮今年就退役

突發(fā)!維斯塔潘親口承認:不等了,考慮今年就退役

體育妞世界
2026-03-29 21:46:22
不服就干!比利時打響反華第一槍,通告全球,斷的就是中方退路

不服就干!比利時打響反華第一槍,通告全球,斷的就是中方退路

夢總會實現(xiàn)的呢
2026-03-29 20:24:50
2026-03-30 00:08:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14845文章數(shù) 66720關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

中國警告美國:勿將"沖突戰(zhàn)亂"引入亞太地區(qū)

頭條要聞

中國警告美國:勿將"沖突戰(zhàn)亂"引入亞太地區(qū)

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現(xiàn)!李榮浩喊話單依純侵權(quán)

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

親子
家居
藝術(shù)
時尚
公開課

親子要聞

夏天來了,如何給小寶寶洗澡?具體步驟如下

家居要聞

曲線華爾茲 現(xiàn)代簡約

藝術(shù)要聞

耗資4億!天津第三殯儀館改成了“公園”樣,不陰森了

來到1980的周也,好毛利蘭

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版