国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI科學(xué)家還在刷靜態(tài)榜?基準(zhǔn)主動反擊,重塑自動科研評價標(biāo)準(zhǔn)

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】AI Scientist正把「自動科研」推向新階段,但一個更危險的問題也在浮出水面:當(dāng)evaluator是靜態(tài)的,系統(tǒng)學(xué)到的可能不是科學(xué)機制,而只是「怎么把這張考卷做高分」。

自動科研真正的危險,已經(jīng)不是「不會搜」,而是「太會刷靜態(tài)評測」。

過去一年,AI Scientist一類系統(tǒng)已經(jīng)展示出驚人的能力:提出想法、寫代碼、跑實驗、分析結(jié)果,甚至自動生成論文。但系統(tǒng)越強,一個更本質(zhì)的問題就會越尖銳:如果評測環(huán)境是凍結(jié)的,系統(tǒng)完全可能學(xué)會「贏過評測」,卻沒有真正學(xué)會任務(wù)背后的科學(xué)機制。

這篇論文最重要的判斷,就在這里。

德州農(nóng)工大學(xué)、伊利諾伊大學(xué)厄巴納-香檳分校等機構(gòu)的研究人員指出,autonomous scientific discovery面臨的核心風(fēng)險,不再只是搜索不夠強,而是cognitive overfitting to the benchmark itself:一個足夠強的搜索過程,可能會比理解科學(xué)更快地學(xué)會「如何贏這張考卷」。


論文鏈接:https://arxiv.org/abs/2603.29045

這也是論文標(biāo)題 Let the Abyss Stare Back 的真正含義。所謂「讓深淵回望」,不是一句修辭,而是在方法論上把評測從靜態(tài)、凍結(jié)、被動的「考試卷」,改成會主動反擊、主動找漏洞、主動逼近脆弱點的 falsifier。不是候選只去適應(yīng) benchmark,而是 benchmark 開始反過來審問候選。

DASES(Dynamic Adversarial Scientific Environment Synthesis and Mechanistic Co-Evolution)改寫的,不是搜索能力,而是「什么才算發(fā)現(xiàn)」。

DASES把「提出候選—打分—保留」,改寫成「提出候選—主動反證—解釋失敗—最小修正—繼續(xù)進化」。

在這個框架里,有三個彼此咬合的角色:

  • Innovator負責(zé)提出新的科學(xué)候選;

  • Abyss Falsifier不再是被動打分器,而是會圍繞當(dāng)前候選,動態(tài)構(gòu)造新的反例環(huán)境,專門去找它的 shortcut、脆弱假設(shè)、尾部風(fēng)險和組合失穩(wěn);

  • Mechanistic Causal Extractor則不只報告「失敗了」,還要回答兩個更關(guān)鍵的問題:為什么失敗,以及下一輪最小應(yīng)該改什么。

這里最關(guān)鍵的一點是:DASES生成的不是「隨便攻擊一下」的 adversarial case,而是科學(xué)上可接受的反證環(huán)境

環(huán)境可以變難,可以推到尾部,可以加入反事實和組合擾動,但任務(wù)語義不能被破壞,它要做的不是通過篡改問題定義來「強行打穿」,而是在問題仍然成立的前提下,主動挖出候選最不該有的脆弱性。

所以,DASES 追求的不是「在固定 benchmark 上分數(shù)最高的候選」,而是在當(dāng)前最強、且仍然合法的 falsification frontier 下,依然活下來的候選。這也是它和很多現(xiàn)有 autonomous scientist 框架最根本的區(qū)別:不是搜索更大了,而是評價標(biāo)準(zhǔn)被改寫了。

實驗設(shè)計

最聰明的設(shè)計,是把實驗做得極其「干凈」:整場 discovery game 里,只允許改 loss

為了把這個方法學(xué)問題講清楚,作者沒有一上來就做一個邊界模糊的大任務(wù),而是故意挑了一個窄,但科學(xué)解釋力極強的問題:自動發(fā)現(xiàn)一個更強的圖像分類 loss function,并允許帶regularization。

但真正厲害的地方在于,整個 discovery 過程被設(shè)計得非常嚴格:唯一允許被編輯的地方,只有l(wèi)oss。

backbone、optimizer、訓(xùn)練 schedule、數(shù)據(jù)增強、數(shù)據(jù)管線、評測邏輯,全部凍結(jié)。系統(tǒng)不能通過偷偷改訓(xùn)練策略、順手調(diào)超參數(shù)、或者碰其他模塊來「刷出一個更好結(jié)果」。任何提升,最后都只能歸因到loss本身。

這就是論文強調(diào)的single editable scientific locus。它看似只是一個實現(xiàn)約束,實際上是整套方法的科學(xué)底座:如果你不把可編輯位點鎖死,自動科研系統(tǒng)就很容易在你沒有意識到的地方「動手腳」,結(jié)果看起來像發(fā)現(xiàn),本質(zhì)上卻只是 protocol gaming。

作者專門搭了一個「誘導(dǎo)模型走捷徑」的discovery lab,用來證明靜態(tài)驗證為什么會騙人。

在實驗里,作者構(gòu)造了一個 synthetic discovery environment。表面上看,它只是一個四分類圖像識別任務(wù);但真正決定標(biāo)簽的機制只有一個:前景形狀幾何。也就是說,模型本來應(yīng)該根據(jù)圓形、方形、三角形和其他多邊形的形狀來分類。

問題在于,訓(xùn)練分布被故意做成了一個「很容易讓模型學(xué)歪」的環(huán)境: 每一類前景,會高概率對應(yīng)某種背景顏色—紋理家族。于是模型最容易學(xué)到的,不是前景幾何,而是背景統(tǒng)計。

更關(guān)鍵的是,這些背景并不是簡單模板,而是包含豐富隨機變化的紋理族。換句話說,這不是一個粗糙的玩具設(shè)置,而是一個可復(fù)現(xiàn)、可審計、專門用來暴露 shortcut reliance 的 falsification lab

因此,這篇論文真正要證明的,并不是「AI 能不能找到一個更強的 loss」這么簡單,而是另一個更關(guān)鍵的問題:

如果 test set 會持續(xù)追著候選的脆弱點打,那么那些在靜態(tài)驗證下看起來已經(jīng)足夠好的候選,還能不能撐到最后?

實驗結(jié)果

表1和圖1說明了:靜態(tài)驗證一路高歌,真正的失敗模式卻被一輪輪逼了出來。



因為它們展示的不是「某個方法分數(shù)更高」,而是一個更本質(zhì)的事實:靜態(tài) ID validation 可能一直在制造「模型已經(jīng)很好」的幻覺,但只要 falsifier 往前推進一步,隱藏失敗模式就會立刻暴露。

表1把DASES的discovery軌跡拆成了一輪輪非常清楚的事件。最開始,系統(tǒng)在一個 shortcut-biased 的環(huán)境里前進;隨后,F(xiàn)alsifier先加入neutral-background counterfactuals,再加入更難的background-family swaps,再到更強調(diào)幾何穩(wěn)定性的invariance-heavy geometry stress,最后是把多種有效擾動疊加在一起的compositional tail interactions。

這張表最精彩的地方,在于它讓讀者一眼看出「誰到底在學(xué)什么」。

早期候選一遇到背景反事實就明顯崩掉,說明它們主要學(xué)的是背景shortcut;CE成為第一個 bottleneck,說明它修復(fù)了最粗淺的一層shortcut,但還遠沒有真正學(xué)到穩(wěn)定機制;

當(dāng)Falsifier 繼續(xù)加入幾何不變性壓力后,CE的test表現(xiàn)明顯回落,說明模型還沒有形成穩(wěn)健的幾何表征; 隨后CE+L2成為第二個 bottleneck,它比CE更穩(wěn),但一旦進入組合式tail stress,依然會被繼續(xù)打穿;

最后,FNG-CE在D4上達到54.4%,而到最后一次D5擴張時僅下降0.1,成為第一個真正跨過當(dāng)前falsification frontier的候選。

所以表1真正證明的,不是「FNG-CE 比 CE 高了多少」,而是:不是誰先在靜態(tài)驗證上得高分,誰就算發(fā)現(xiàn);而是誰在一輪輪更強、但仍然合法的反證里不崩,誰才配被保留下來。

再看圖1,這個邏輯就更直觀了。圖里灰線是靜態(tài) ID validation accuracy,幾乎始終維持在高位;藍線是 discovery-lab test accuracy,每當(dāng)紅色菱形標(biāo)記的 falsifier 擴張出現(xiàn)時,藍線都會突然掉一截。這個圖最有沖擊力的地方就在于:「看起來一直很好」與「真的經(jīng)得起反證」根本不是一回事。

灰線告訴你,如果只看靜態(tài) validation,你會誤以為系統(tǒng)一直在穩(wěn)定進步; 藍線則告訴你,每一次新的合法反證,都會把一個之前看不見的失敗模式拽到臺前。 直到最后,F(xiàn)NG-CE 才第一次把「高分」和「抗打」真正統(tǒng)一到一起。

換句話說,表1是逐輪證據(jù),圖1是整體故事:靜態(tài)評測給的是樂觀幻覺,動態(tài) falsification 才在真正篩掉「只會考試」的候選。

FNG-CE 不是拍腦袋堆 regularization,而是被 falsification trace 一步步「逼」出來的最小修正

這篇論文還有一個非常重要的點:FNG-CE 不是作者主觀挑出來的「更復(fù)雜的 loss」,而是順著前面每一輪 falsification 暴露出的失敗模式,被一步步逼出來的。

在 CE+L2 之后,Mechanistic Causal Extractor 發(fā)現(xiàn)還剩下兩類關(guān)鍵問題沒有解決。

第一,模型仍然可能通過放大 feature norm 來「靠長度取勝」,也就是置信度看起來更高了,但不代表它真的學(xué)到了更穩(wěn)的判別機制; 第二,特征空間的幾何結(jié)構(gòu)仍然不夠均勻,存在冗余和各向異性,因此一旦反事實和組合擾動疊加,類間分離仍然會塌。

于是,DASES構(gòu)造了FNG-CE: 在 CE 的基礎(chǔ)上,同時加入feature norm regularization、feature covariance geometry regularizationL2 weight decay。

三個部分分別在修三種不同的問題:

norm項,抑制「靠模長刷置信度」;

covariance項,讓特征幾何更均勻、更不容易在復(fù)雜擾動下失穩(wěn);

L2項,繼續(xù)提供標(biāo)準(zhǔn)的容量控制。

所以這篇論文真正想說明的,不是這些ingredient在歷史上從未出現(xiàn)過,而是:在固定協(xié)議、單一編輯位點和動態(tài)falsification的共同約束下,這個具體組合是第一個能撐過完整前沿的最小機制性答案。

這也是FNG-CE最有說服力的地方:它不是「設(shè)計出來」的,而更像是被反證鏈條一路「逼出來」的。

表2和表3回答了最關(guān)鍵的問題:它不只是適配 synthetic lab,而是真的遷移到了標(biāo)準(zhǔn) benchmark


說到這里,一個最自然的問題就是:FNG-CE會不會只是特別適配這個 synthetic falsification lab?

論文用表2表3給出了非常正面的回答。作者把FNG-CE的解析形式原樣遷移到標(biāo)準(zhǔn)自然圖像分類benchmark上,在ResNet-18和ResNet-50下做受控比較。

結(jié)果非常整齊,如表2所示,在ResNet-18上,F(xiàn)NG-CE在CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns六個數(shù)據(jù)集上全部優(yōu)于 CE; 而如表3所示,在ResNet-50上,F(xiàn)NG-CE在ImageNet、CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns七個數(shù)據(jù)集上同樣全部取得最好結(jié)果。

其中最有傳播力的一個數(shù)字,就是ImageNet。在ResNet-50上,F(xiàn)NG-CE達到71.56%,相比CE的70.73%提升了0.83個百分點。這意味著DASES逼出來的,不只是一個「更適合 discovery lab」的技巧,而是一種更可遷移的 loss-level inductive bias。

這里還有一個很值得強調(diào)的細節(jié):CE+L2 并沒有呈現(xiàn)出這種一致提升。

也就是說,事情不是「多加一點 regularization 就能贏」,也不是「在 synthetic 環(huán)境里更穩(wěn)一點,就一定能遷移出去」。

真正起作用的,是 DASES 通過動態(tài) falsification 找到的那條機制線索:模型不僅要擺脫 shortcut,還要減少幾何脆弱性,并在合法的組合擾動下保持穩(wěn)定。只有沿著這條線逼出來的 loss,才會在真實 benchmark 上繼續(xù)成立。

總結(jié)

這篇工作的真正價值,不只是發(fā)現(xiàn)了一個新 loss,而是把自動科研往前推了一步

如果只把這篇工作理解成「找到一個新的圖像分類 loss」,其實是低估了它。

它真正重要的地方在于,它改寫了 autonomous scientific discovery 的評價標(biāo)準(zhǔn):

不是高分即發(fā)現(xiàn),而是經(jīng)得起主動反證,才算發(fā)現(xiàn)。

過去的自動科研系統(tǒng),更像是在刷一張固定考卷; 而 DASES 做的,是讓考卷自己長出反擊能力。 過去大家更關(guān)心的問題,是「AI 能不能更快搜索」; 而這篇論文在追問一個更關(guān)鍵的問題:

當(dāng) benchmark / test set開始主動找你的脆弱點時,你的發(fā)現(xiàn)還能不能站?

從這個意義上說,F(xiàn)NG-CE 的意義不只是它在論文給出的受控比較中優(yōu)于 CE 和 CE+L2,更在于它是一個被「合法反證」一路逼出來,并最終跨過 falsification frontier 的候選。它代表的不是「更會刷分」,而是更難被科學(xué)上合理的反例擊穿。

這也許正是 AI Scientist 下一階段最關(guān)鍵的方法學(xué)信號:

讓 benchmark / test set fight back。讓評測從被動驗收,變成主動找脆弱點。讓自動發(fā)現(xiàn)不再由「誰看起來最好」定義,而由「誰最難被合法擊穿」定義。

參考資料:

https://arxiv.org/abs/2603.29045

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
痛心!湖北一派出所所長因公犧牲,年僅45歲

痛心!湖北一派出所所長因公犧牲,年僅45歲

極目新聞
2026-04-23 13:43:56
多氟多盤中漲停

多氟多盤中漲停

每日經(jīng)濟新聞
2026-04-24 14:18:21
蓉城主帥:對浙江不能說是我和我哥的對決,這是兩個球隊的對抗

蓉城主帥:對浙江不能說是我和我哥的對決,這是兩個球隊的對抗

懂球帝
2026-04-24 13:20:45
突發(fā)!DeepSeek V4 正式發(fā)布

突發(fā)!DeepSeek V4 正式發(fā)布

AppSo
2026-04-24 11:16:55
海南今天降雨增多氣溫下降 局地有大到暴雨并伴強對流

海南今天降雨增多氣溫下降 局地有大到暴雨并伴強對流

北青網(wǎng)-北京青年報
2026-04-24 10:36:12
火箭后悔嗎?多森姆25+9創(chuàng)7新高成板凳之王 斯通又錯過頂級后場

火箭后悔嗎?多森姆25+9創(chuàng)7新高成板凳之王 斯通又錯過頂級后場

顏小白的籃球夢
2026-04-24 12:26:46
9級大地震前的一幕再次上演,毀天滅地的海嘯,或于本周席卷日本

9級大地震前的一幕再次上演,毀天滅地的海嘯,或于本周席卷日本

燦若銀爛
2026-04-24 09:31:03
記者:梅西、內(nèi)馬爾、姆巴佩在巴黎時,更衣室分裂成了幾個幫派

記者:梅西、內(nèi)馬爾、姆巴佩在巴黎時,更衣室分裂成了幾個幫派

懂球帝
2026-04-24 09:59:08
伊朗末代國王長子回應(yīng)“是否是以色列特工”:我不是,但我是以色列和猶太人的朋友;報道稱其在德國遇襲

伊朗末代國王長子回應(yīng)“是否是以色列特工”:我不是,但我是以色列和猶太人的朋友;報道稱其在德國遇襲

魯中晨報
2026-04-24 11:48:08
開撕了!陳曉方面反擊陳妍希,道出未參加前岳父葬禮的原因!

開撕了!陳曉方面反擊陳妍希,道出未參加前岳父葬禮的原因!

娛樂團長
2026-04-23 16:11:09
蔣家后人要在奉化動土!半世紀未歸根,兩蔣大遷徙卡殼難圓落葉夢

蔣家后人要在奉化動土!半世紀未歸根,兩蔣大遷徙卡殼難圓落葉夢

聞識
2026-04-24 11:22:44
15歲上個中專衛(wèi)校,居然能一路混成主任技師?

15歲上個中專衛(wèi)校,居然能一路混成主任技師?

歲月有情1314
2026-04-24 07:44:06
寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結(jié)婚!

寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結(jié)婚!

番外行
2026-04-23 07:43:15
西方媒體嘲諷:全球90%激光雷達是中國造,中國卻每年虧上億元

西方媒體嘲諷:全球90%激光雷達是中國造,中國卻每年虧上億元

小彭聊社會
2026-04-22 19:15:38
特朗普:估計普京不會出席G20峰會,如果他來了會非常有幫助;稱“俄羅斯被趕出G8時普京非常生氣,如果他們沒有被趕出去,情況會好得多”

特朗普:估計普京不會出席G20峰會,如果他來了會非常有幫助;稱“俄羅斯被趕出G8時普京非常生氣,如果他們沒有被趕出去,情況會好得多”

魯中晨報
2026-04-24 10:16:03
江西都昌一家周六福門店被盜,警方通報:犯罪嫌疑人已被抓獲

江西都昌一家周六福門店被盜,警方通報:犯罪嫌疑人已被抓獲

界面新聞
2026-04-24 08:16:20
朝鮮戰(zhàn)場整支部隊失蹤 7 天,歸來竟押 119 名俘虜凱旋

朝鮮戰(zhàn)場整支部隊失蹤 7 天,歸來竟押 119 名俘虜凱旋

嘮叨說歷史
2026-01-28 14:32:25
伊朗外交部:談判重心已從核問題轉(zhuǎn)為徹底停戰(zhàn)

伊朗外交部:談判重心已從核問題轉(zhuǎn)為徹底停戰(zhàn)

界面新聞
2026-04-24 06:56:27
車評人和媒體痛罵的特斯拉,3月銷量第一

車評人和媒體痛罵的特斯拉,3月銷量第一

難得君
2026-04-23 13:01:29
為啥末代皇帝往往是昏君 看網(wǎng)友分析 思想境界都上了一個大臺階

為啥末代皇帝往往是昏君 看網(wǎng)友分析 思想境界都上了一個大臺階

侃神評故事
2026-04-23 15:40:03
2026-04-24 16:23:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15053文章數(shù) 66798關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

YU7 GT 5 月上市!小米Vision GT概念車國內(nèi)首秀

態(tài)度原創(chuàng)

數(shù)碼
親子
家居
手機
公開課

數(shù)碼要聞

DeepSeek:預(yù)計下半年昇騰950超節(jié)點批量上市后 V4-Pro模型價格會大幅下調(diào)

親子要聞

女子因遲遲沒懷孕被懷疑身體有問題,女子直接去醫(yī)院檢查自證清白

家居要聞

自然肌理 溫潤美學(xué)

手機要聞

榮耀600e手機現(xiàn)身Geekbench跑分庫:有望搭天璣7100

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版