AI科學(xué)家還在刷靜態(tài)榜？基準(zhǔn)主動反擊，重塑自動科研評價標(biāo)準(zhǔn)

2026-04-24 14:32:36　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導(dǎo)讀】AI Scientist正把「自動科研」推向新階段，但一個更危險的問題也在浮出水面：當(dāng)evaluator是靜態(tài)的，系統(tǒng)學(xué)到的可能不是科學(xué)機制，而只是「怎么把這張考卷做高分」。

自動科研真正的危險，已經(jīng)不是「不會搜」，而是「太會刷靜態(tài)評測」。

過去一年，AI Scientist一類系統(tǒng)已經(jīng)展示出驚人的能力：提出想法、寫代碼、跑實驗、分析結(jié)果，甚至自動生成論文。但系統(tǒng)越強，一個更本質(zhì)的問題就會越尖銳：如果評測環(huán)境是凍結(jié)的，系統(tǒng)完全可能學(xué)會「贏過評測」，卻沒有真正學(xué)會任務(wù)背后的科學(xué)機制。

這篇論文最重要的判斷，就在這里。

德州農(nóng)工大學(xué)、伊利諾伊大學(xué)厄巴納-香檳分校等機構(gòu)的研究人員指出，autonomous scientific discovery面臨的核心風(fēng)險，不再只是搜索不夠強，而是cognitive overfitting to the benchmark itself：一個足夠強的搜索過程，可能會比理解科學(xué)更快地學(xué)會「如何贏這張考卷」。

論文鏈接：https://arxiv.org/abs/2603.29045

這也是論文標(biāo)題 Let the Abyss Stare Back 的真正含義。所謂「讓深淵回望」，不是一句修辭，而是在方法論上把評測從靜態(tài)、凍結(jié)、被動的「考試卷」，改成會主動反擊、主動找漏洞、主動逼近脆弱點的 falsifier。不是候選只去適應(yīng) benchmark，而是 benchmark 開始反過來審問候選。

DASES（Dynamic Adversarial Scientific Environment Synthesis and Mechanistic Co-Evolution）改寫的，不是搜索能力，而是「什么才算發(fā)現(xiàn)」。

DASES把「提出候選—打分—保留」，改寫成「提出候選—主動反證—解釋失敗—最小修正—繼續(xù)進化」。

在這個框架里，有三個彼此咬合的角色：

Innovator負責(zé)提出新的科學(xué)候選；
Abyss Falsifier不再是被動打分器，而是會圍繞當(dāng)前候選，動態(tài)構(gòu)造新的反例環(huán)境，專門去找它的 shortcut、脆弱假設(shè)、尾部風(fēng)險和組合失穩(wěn)；
Mechanistic Causal Extractor則不只報告「失敗了」，還要回答兩個更關(guān)鍵的問題：為什么失敗，以及下一輪最小應(yīng)該改什么。

這里最關(guān)鍵的一點是：DASES生成的不是「隨便攻擊一下」的 adversarial case，而是科學(xué)上可接受的反證環(huán)境。

環(huán)境可以變難，可以推到尾部，可以加入反事實和組合擾動，但任務(wù)語義不能被破壞，它要做的不是通過篡改問題定義來「強行打穿」，而是在問題仍然成立的前提下，主動挖出候選最不該有的脆弱性。

所以，DASES 追求的不是「在固定 benchmark 上分數(shù)最高的候選」，而是在當(dāng)前最強、且仍然合法的 falsification frontier 下，依然活下來的候選。這也是它和很多現(xiàn)有 autonomous scientist 框架最根本的區(qū)別：不是搜索更大了，而是評價標(biāo)準(zhǔn)被改寫了。

實驗設(shè)計

最聰明的設(shè)計，是把實驗做得極其「干凈」：整場 discovery game 里，只允許改 loss

為了把這個方法學(xué)問題講清楚，作者沒有一上來就做一個邊界模糊的大任務(wù)，而是故意挑了一個窄，但科學(xué)解釋力極強的問題：自動發(fā)現(xiàn)一個更強的圖像分類 loss function，并允許帶regularization。

但真正厲害的地方在于，整個 discovery 過程被設(shè)計得非常嚴格：唯一允許被編輯的地方，只有l(wèi)oss。

backbone、optimizer、訓(xùn)練 schedule、數(shù)據(jù)增強、數(shù)據(jù)管線、評測邏輯，全部凍結(jié)。系統(tǒng)不能通過偷偷改訓(xùn)練策略、順手調(diào)超參數(shù)、或者碰其他模塊來「刷出一個更好結(jié)果」。任何提升，最后都只能歸因到loss本身。

這就是論文強調(diào)的single editable scientific locus。它看似只是一個實現(xiàn)約束，實際上是整套方法的科學(xué)底座：如果你不把可編輯位點鎖死，自動科研系統(tǒng)就很容易在你沒有意識到的地方「動手腳」，結(jié)果看起來像發(fā)現(xiàn)，本質(zhì)上卻只是 protocol gaming。

作者專門搭了一個「誘導(dǎo)模型走捷徑」的discovery lab，用來證明靜態(tài)驗證為什么會騙人。

在實驗里，作者構(gòu)造了一個 synthetic discovery environment。表面上看，它只是一個四分類圖像識別任務(wù)；但真正決定標(biāo)簽的機制只有一個：前景形狀幾何。也就是說，模型本來應(yīng)該根據(jù)圓形、方形、三角形和其他多邊形的形狀來分類。

問題在于，訓(xùn)練分布被故意做成了一個「很容易讓模型學(xué)歪」的環(huán)境：每一類前景，會高概率對應(yīng)某種背景顏色—紋理家族。于是模型最容易學(xué)到的，不是前景幾何，而是背景統(tǒng)計。

更關(guān)鍵的是，這些背景并不是簡單模板，而是包含豐富隨機變化的紋理族。換句話說，這不是一個粗糙的玩具設(shè)置，而是一個可復(fù)現(xiàn)、可審計、專門用來暴露 shortcut reliance 的 falsification lab。

因此，這篇論文真正要證明的，并不是「AI 能不能找到一個更強的 loss」這么簡單，而是另一個更關(guān)鍵的問題：

如果 test set 會持續(xù)追著候選的脆弱點打，那么那些在靜態(tài)驗證下看起來已經(jīng)足夠好的候選，還能不能撐到最后？

實驗結(jié)果

表1和圖1說明了：靜態(tài)驗證一路高歌，真正的失敗模式卻被一輪輪逼了出來。

因為它們展示的不是「某個方法分數(shù)更高」，而是一個更本質(zhì)的事實：靜態(tài) ID validation 可能一直在制造「模型已經(jīng)很好」的幻覺，但只要 falsifier 往前推進一步，隱藏失敗模式就會立刻暴露。

表1把DASES的discovery軌跡拆成了一輪輪非常清楚的事件。最開始，系統(tǒng)在一個 shortcut-biased 的環(huán)境里前進；隨后，F(xiàn)alsifier先加入neutral-background counterfactuals，再加入更難的background-family swaps，再到更強調(diào)幾何穩(wěn)定性的invariance-heavy geometry stress，最后是把多種有效擾動疊加在一起的compositional tail interactions。

這張表最精彩的地方，在于它讓讀者一眼看出「誰到底在學(xué)什么」。

早期候選一遇到背景反事實就明顯崩掉，說明它們主要學(xué)的是背景shortcut；CE成為第一個 bottleneck，說明它修復(fù)了最粗淺的一層shortcut，但還遠沒有真正學(xué)到穩(wěn)定機制；

當(dāng)Falsifier 繼續(xù)加入幾何不變性壓力后，CE的test表現(xiàn)明顯回落，說明模型還沒有形成穩(wěn)健的幾何表征；隨后CE+L2成為第二個 bottleneck，它比CE更穩(wěn)，但一旦進入組合式tail stress，依然會被繼續(xù)打穿；

最后，FNG-CE在D4上達到54.4%，而到最后一次D5擴張時僅下降0.1，成為第一個真正跨過當(dāng)前falsification frontier的候選。

所以表1真正證明的，不是「FNG-CE 比 CE 高了多少」，而是：不是誰先在靜態(tài)驗證上得高分，誰就算發(fā)現(xiàn)；而是誰在一輪輪更強、但仍然合法的反證里不崩，誰才配被保留下來。

再看圖1，這個邏輯就更直觀了。圖里灰線是靜態(tài) ID validation accuracy，幾乎始終維持在高位；藍線是 discovery-lab test accuracy，每當(dāng)紅色菱形標(biāo)記的 falsifier 擴張出現(xiàn)時，藍線都會突然掉一截。這個圖最有沖擊力的地方就在于：「看起來一直很好」與「真的經(jīng)得起反證」根本不是一回事。

灰線告訴你，如果只看靜態(tài) validation，你會誤以為系統(tǒng)一直在穩(wěn)定進步；藍線則告訴你，每一次新的合法反證，都會把一個之前看不見的失敗模式拽到臺前。直到最后，F(xiàn)NG-CE 才第一次把「高分」和「抗打」真正統(tǒng)一到一起。

換句話說，表1是逐輪證據(jù)，圖1是整體故事：靜態(tài)評測給的是樂觀幻覺，動態(tài) falsification 才在真正篩掉「只會考試」的候選。

FNG-CE 不是拍腦袋堆 regularization，而是被 falsification trace 一步步「逼」出來的最小修正

這篇論文還有一個非常重要的點：FNG-CE 不是作者主觀挑出來的「更復(fù)雜的 loss」，而是順著前面每一輪 falsification 暴露出的失敗模式，被一步步逼出來的。

在 CE+L2 之后，Mechanistic Causal Extractor 發(fā)現(xiàn)還剩下兩類關(guān)鍵問題沒有解決。

第一，模型仍然可能通過放大 feature norm 來「靠長度取勝」，也就是置信度看起來更高了，但不代表它真的學(xué)到了更穩(wěn)的判別機制；第二，特征空間的幾何結(jié)構(gòu)仍然不夠均勻，存在冗余和各向異性，因此一旦反事實和組合擾動疊加，類間分離仍然會塌。

于是，DASES構(gòu)造了FNG-CE：在 CE 的基礎(chǔ)上，同時加入feature norm regularization、feature covariance geometry regularization和L2 weight decay。

三個部分分別在修三種不同的問題：

norm項，抑制「靠模長刷置信度」；

covariance項，讓特征幾何更均勻、更不容易在復(fù)雜擾動下失穩(wěn)；

L2項，繼續(xù)提供標(biāo)準(zhǔn)的容量控制。

所以這篇論文真正想說明的，不是這些ingredient在歷史上從未出現(xiàn)過，而是：在固定協(xié)議、單一編輯位點和動態(tài)falsification的共同約束下，這個具體組合是第一個能撐過完整前沿的最小機制性答案。

這也是FNG-CE最有說服力的地方：它不是「設(shè)計出來」的，而更像是被反證鏈條一路「逼出來」的。

表2和表3回答了最關(guān)鍵的問題：它不只是適配 synthetic lab，而是真的遷移到了標(biāo)準(zhǔn) benchmark

說到這里，一個最自然的問題就是：FNG-CE會不會只是特別適配這個 synthetic falsification lab？

論文用表2和表3給出了非常正面的回答。作者把FNG-CE的解析形式原樣遷移到標(biāo)準(zhǔn)自然圖像分類benchmark上，在ResNet-18和ResNet-50下做受控比較。

結(jié)果非常整齊，如表2所示，在ResNet-18上，F(xiàn)NG-CE在CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns六個數(shù)據(jù)集上全部優(yōu)于 CE；而如表3所示，在ResNet-50上，F(xiàn)NG-CE在ImageNet、CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns七個數(shù)據(jù)集上同樣全部取得最好結(jié)果。

其中最有傳播力的一個數(shù)字，就是ImageNet。在ResNet-50上，F(xiàn)NG-CE達到71.56%，相比CE的70.73%提升了0.83個百分點。這意味著DASES逼出來的，不只是一個「更適合 discovery lab」的技巧，而是一種更可遷移的 loss-level inductive bias。

這里還有一個很值得強調(diào)的細節(jié)：CE+L2 并沒有呈現(xiàn)出這種一致提升。

也就是說，事情不是「多加一點 regularization 就能贏」，也不是「在 synthetic 環(huán)境里更穩(wěn)一點，就一定能遷移出去」。

真正起作用的，是 DASES 通過動態(tài) falsification 找到的那條機制線索：模型不僅要擺脫 shortcut，還要減少幾何脆弱性，并在合法的組合擾動下保持穩(wěn)定。只有沿著這條線逼出來的 loss，才會在真實 benchmark 上繼續(xù)成立。

總結(jié)

這篇工作的真正價值，不只是發(fā)現(xiàn)了一個新 loss，而是把自動科研往前推了一步

如果只把這篇工作理解成「找到一個新的圖像分類 loss」，其實是低估了它。

它真正重要的地方在于，它改寫了 autonomous scientific discovery 的評價標(biāo)準(zhǔn)：

不是高分即發(fā)現(xiàn)，而是經(jīng)得起主動反證，才算發(fā)現(xiàn)。

過去的自動科研系統(tǒng)，更像是在刷一張固定考卷；而 DASES 做的，是讓考卷自己長出反擊能力。過去大家更關(guān)心的問題，是「AI 能不能更快搜索」；而這篇論文在追問一個更關(guān)鍵的問題：

當(dāng) benchmark / test set開始主動找你的脆弱點時，你的發(fā)現(xiàn)還能不能站��？

從這個意義上說，F(xiàn)NG-CE 的意義不只是它在論文給出的受控比較中優(yōu)于 CE 和 CE+L2，更在于它是一個被「合法反證」一路逼出來，并最終跨過 falsification frontier 的候選。它代表的不是「更會刷分」，而是更難被科學(xué)上合理的反例擊穿。

這也許正是 AI Scientist 下一階段最關(guān)鍵的方法學(xué)信號：

讓 benchmark / test set fight back。讓評測從被動驗收，變成主動找脆弱點。讓自動發(fā)現(xiàn)不再由「誰看起來最好」定義，而由「誰最難被合法擊穿」定義。

參考資料：

https://arxiv.org/abs/2603.29045

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.