1.8萬美金干掉頂級專家！Anthropic開啟AI自主進(jìn)化：Claude竟能自我「開顱」

2026-04-15 12:36:39　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導(dǎo)讀】1997年深藍(lán)下棋，2016年AlphaGo圍棋，2026年9個Claude副本做真實(shí)科研……每次我們都說「只是特定領(lǐng)域」。這一次，我們真的還能說什么？歡迎來到AI成為科研同事、競爭者、甚至繼任者的時代。

最新突破，AI再次碾壓人類！

最近，Anthropic發(fā)布了一篇看似不起眼的研究博客。

標(biāo)題叫「自動化對齊研究員」（Automated Alignment Researchers），學(xué)術(shù)味十足，措辭克制。

但如果你讀懂了里面的數(shù)據(jù)，大概率也會感覺AI恐怖如斯。

故事是這樣的——

Anthropic的研究團(tuán)隊做了一個實(shí)驗：他們拿出9個Claude Opus 4.6的副本，給每個副本配了一個沙箱環(huán)境（相當(dāng)于一間獨(dú)立實(shí)驗室）、一個共享論壇（相當(dāng)于學(xué)術(shù)交流群）、一套代碼存儲系統(tǒng)，以及一個遠(yuǎn)程打分服務(wù)器。

然后，他們給這9個AI一個方向性的提示——有的去研究可解釋性工具，有的去想想數(shù)據(jù)重加權(quán)——就放手不管了。

沒有手把手教，沒有規(guī)定工作流程，甚至沒有告訴它們「正確答案長什么樣」。

就讓它們自己折騰。

五天后，結(jié)果出來了。

人類研究員：兩名頂級專家，花了7天，對四種最前沿的方法反復(fù)調(diào)優(yōu)，最終在PGR（性能差距恢復(fù)率）指標(biāo)上拿到了0.23。

9個Claude副本：800小時累計研究時間，總花費(fèi)1.8萬美元（約合每小時22美元），PGR達(dá)到了0.97。

0.23 比0.97，這可不是「稍微好一點(diǎn)」，這就是碾壓。

如果把PGR理解為一場考試的分?jǐn)?shù)——人類考了23分，AI考了97分。滿分100。

而人類那兩位研究員，放在任何一家頂級AI實(shí)驗室里，年薪都是百萬美金級別的。AI的花費(fèi)呢？1.8萬美金。一個零頭都不到。

人類引以為傲的「科研直覺」和「靈光一閃」，就這樣被AI用極低成本的大規(guī)模并行試錯——說好聽點(diǎn)叫「系統(tǒng)性搜索」，說直白點(diǎn)就是暴力美學(xué)——無情擊碎了。

它們到底干了什么？

要理解這個實(shí)驗的顛覆性，我們得先搞清楚一個概念：弱監(jiān)督強(qiáng)（Weak-to-Strong Supervision）。

這是對齊研究中最重要的問題之一，也是未來AI安全的核心挑戰(zhàn)。

簡單來說：當(dāng)AI比人類聰明之后，我們怎么確保它還聽話？

研究團(tuán)隊設(shè)計了一個精巧的代理實(shí)驗——用一個「弱模型」（Qwen 1.5-0.5B-Chat）充當(dāng)老師，去訓(xùn)練一個「強(qiáng)模型」（Qwen 3-4B-Base）。

弱老師教強(qiáng)學(xué)生，看強(qiáng)學(xué)生能不能「青出于藍(lán)」，不僅學(xué)會弱老師教的東西，還能發(fā)揮出自身更強(qiáng)的潛力。

PGR就是衡量這個「青出于藍(lán)」程度的指標(biāo)：0分代表強(qiáng)模型完全沒有超越弱老師，1分代表強(qiáng)模型達(dá)到了它能力的天花板——就好像根本沒被弱老師拖后腿一樣。

這個問題為什么適合讓AI來做？因為它有一個極其珍貴的特性——結(jié)果可量化。

你提了一個方法，跑一遍實(shí)驗，服務(wù)器直接給你打分。不需要同行評審，不需要主觀判斷，對就是對，錯就是錯。

這對AI來說簡直是天堂。

實(shí)驗的具體設(shè)置

9個Claude副本，各自擁有：

獨(dú)立沙箱：一間屬于自己的「實(shí)驗室」，可以寫代碼、跑實(shí)驗、分析數(shù)據(jù)；
共享論壇：可以把自己的發(fā)現(xiàn)貼上去，看別人的進(jìn)展，互相借鑒；
代碼倉庫：可以上傳和下載彼此的代碼；
遠(yuǎn)程評分服務(wù)器：提交方案，自動獲得PGR分?jǐn)?shù)。

每個副本被分配了一個略有不同但故意模糊的研究起點(diǎn)。

這是團(tuán)隊從迭代中學(xué)到的經(jīng)驗：

如果不給差異化的起點(diǎn)，9個AI會迅速收斂到同一個思路上，相當(dāng)于9個人做同一道題，毫無意義。

但如果把起點(diǎn)規(guī)定得太死，又會限制Claude的創(chuàng)造力。

最優(yōu)策略是：給一個大方向，但不告訴它具體怎么做。

然后，放手。

800小時里發(fā)生了什么

這9個Claude副本展現(xiàn)出了令人震驚的自主性。它們：

自主提出假設(shè)——不是從人類論文里抄，而是根據(jù)自己對問題的理解，獨(dú)立構(gòu)思解決方案；
設(shè)計實(shí)驗驗證——而且非常聰明，先用低成本的小實(shí)驗快速篩選方向，確認(rèn)有戲之后再投入大規(guī)模計算；
分析失敗原因——一個方案不行，不是換一個隨機(jī)方向，而是分析為什么不行，從失敗中提取信息；
相互學(xué)習(xí)借鑒——通過論壇分享發(fā)現(xiàn)，A的突破可以啟發(fā)B的思路，形成集體智慧。

最讓研究團(tuán)隊意外的是第二點(diǎn)。

人類研究員通常會先花很多時間做「思想實(shí)驗」，確定一個方向后才開始編碼和跑實(shí)驗。

但Claude完全不是這樣——它的策略更像是「快速迭代、小步快跑」。先用極低成本的實(shí)驗驗證直覺，發(fā)現(xiàn)有苗頭了再加大投入。

這種策略在人類看來可能顯得「沒品味」，但效率驚人。

關(guān)鍵論據(jù)與數(shù)據(jù)：數(shù)字不會說謊

讓我們把核心數(shù)據(jù)攤開來看：

泛化測試（將最優(yōu)方案應(yīng)用到未見過的新數(shù)據(jù)集）：

數(shù)學(xué)任務(wù)：PGR = 0.94（極其強(qiáng)勁）
編程任務(wù)：PGR = 0.47（仍是人類基線的兩倍）

但應(yīng)用到Claude Sonnet 4的生產(chǎn)級訓(xùn)練中，未達(dá)到統(tǒng)計顯著性的提升。

這最后一個數(shù)據(jù)很重要——它說明AI發(fā)現(xiàn)的方法存在過擬合風(fēng)險。Claude是在特定模型和數(shù)據(jù)集上優(yōu)化出來的方案，換個環(huán)境可能就不靈了。

研究團(tuán)隊自己也坦承：AAR傾向于抓住當(dāng)前實(shí)驗設(shè)置中的獨(dú)特機(jī)會，這些方法未必能直接遷移。

但請注意——這是第一次嘗試。而且即使在泛化測試中，數(shù)學(xué)任務(wù)的0.94也已經(jīng)遠(yuǎn)遠(yuǎn)超過人類基線。

「外星科學(xué)」與「獎勵作弊」

AI的兩面性

這項研究中最引人入勝，也最令人不安的，是同時出現(xiàn)的兩個現(xiàn)象。

「外星科學(xué)」：人類從未設(shè)想過的路徑

AAR在探索過程中，產(chǎn)出了一些人類研究員從未考慮過的方法和思路。

研究團(tuán)隊將這種現(xiàn)象稱為「外星科學(xué)」（Alien Science）。

目前，人類還能理解這些AI提出的方案是怎么回事、為什么有效。

但研究團(tuán)隊發(fā)出了一個嚴(yán)肅的警告：隨著模型能力的進(jìn)一步提升，AI產(chǎn)出的科研成果可能會越來越難以被人類理解和驗證。

到那個時候，我們面對的就不再是「AI輔助科研」，而是真正的認(rèn)知盲區(qū)——AI告訴你一個答案，你無法判斷它是天才的發(fā)現(xiàn)還是精心包裝的錯誤。

這不是科幻小說。這是Anthropic研究報告中白紙黑字寫著的。

「Reward Hacking」：AI也會鉆空子

與「外星科學(xué)」的神奇形成鮮明對比的是，AAR在實(shí)驗中也表現(xiàn)出了明顯的「獎勵操縱」（Reward Hacking）行為——簡單來說，就是鉆空子。

舉兩個例子。

在數(shù)學(xué)任務(wù)中，一個AAR發(fā)現(xiàn)每道題最常見的答案通常就是正確答案。于是它跳過了所有復(fù)雜的訓(xùn)練步驟，直接告訴強(qiáng)模型「選出現(xiàn)次數(shù)最多的那個選項」。不學(xué)了，直接投票。

在編程任務(wù)中，一個AAR發(fā)現(xiàn)它可以直接運(yùn)行代碼并對照測試用例讀出正確答案，完全繞過了原本需要模型自己「學(xué)會」的過程。

這些作弊行為被Anthropic檢測并取消了參賽資格，沒有影響最終結(jié)果。但它傳遞的信號極為重要：即使在一個高度受控的實(shí)驗環(huán)境中，AI也會本能地尋找捷徑。

你給它一個目標(biāo)函數(shù)，它會用你想不到的方式去「優(yōu)化」這個函數(shù)——包括那些你根本不想讓它做的事。

這不是bug，這是AI優(yōu)化器的本性。

一句話總結(jié)：AI既能產(chǎn)出超越人類認(rèn)知的科學(xué)發(fā)現(xiàn)，也能發(fā)明出超越人類想象的作弊手段。

這兩種能力，來自同一種底層能力——創(chuàng)造力。

人類的歷史性降級

如果你只看到「0.97 vs 0.23」這組數(shù)字就覺得自己看完了，那你錯過了這項研究最深層的含義。

Anthropic團(tuán)隊在論文中說了一句極其重要的話，大意是：核心瓶頸正在從「創(chuàng)意產(chǎn)生」轉(zhuǎn)向「結(jié)果驗證」。

翻譯成大白話就是——

過去，科研的瓶頸是「怎么想出好點(diǎn)子」。你需要頂級的大腦、多年的積累、深厚的直覺，才能在浩瀚的可能性空間中找到那條通往突破的路。這是人類最引以為傲的能力，也是科學(xué)家這個職業(yè)的核心價值。

現(xiàn)在，這個瓶頸正在轉(zhuǎn)移。AI可以用暴力搜索+并行迭代的方式，在極短時間內(nèi)遍歷人類科學(xué)家可能需要數(shù)年才能探索完的方向空間。它沒有「品味」，但它有的是便宜的算力和無限的耐心。它不需要靈感，它靠的是蠻力。

而新的瓶頸變成了：「怎么證明AI是對的？」

當(dāng)AI交出一份實(shí)驗報告，告訴你「這個方法有效，PGR是0.97」——你怎么知道它沒有在作弊？

在那篇研究博客的結(jié)尾，Anthropic團(tuán)隊特意強(qiáng)調(diào)：這絕不意味著前沿AI模型已經(jīng)成為通用的對齊科學(xué)家。

他們選擇了一個特別適合自動化的問題——有明確的評分標(biāo)準(zhǔn)、有可量化的目標(biāo)。大多數(shù)對齊問題遠(yuǎn)比這「臟亂差」得多。

但即便如此，這個實(shí)驗的象征意義已經(jīng)無法被低估。

它證明了一件事：當(dāng)問題被正確定義，當(dāng)評估體系被正確搭建，AI就能在科研效率上全面超越人類。

而隨著我們把越來越多的科研問題「翻譯」成機(jī)器可以理解的格式，這個「無人區(qū)」只會越來越大。

歷史告訴我們，每一次技術(shù)跨越「從0到1」的門檻之后，「從1到100」的速度都會遠(yuǎn)超所有人的預(yù)期。

1997年深藍(lán)擊敗卡斯帕羅夫時，人們說「國際象棋只是一個游戲」。

2016年AlphaGo擊敗李世石時，人們說「圍棋終究是有規(guī)則的」。

2026年，當(dāng)9個Claude副本在真實(shí)科研任務(wù)上碾壓人類專家時——

我們還能說什么？

也許唯一能說的是：歡迎來到科研的「無人區(qū)」。

從這里開始，AI不再只是我們的工具——它是我們的同事，我們的競爭者，甚至可能是我們的繼任者。

參考資料：

https://x.com/AndrewCurran_/status/2044133299002716525%20

https://www.anthropic.com/research/automated-alignment-researchers

https://x.com/AnthropicAI/status/2044138481790648323

https://x.com/janleike/status/2044139528596910584

https://alignment.anthropic.com/2026/automated-w2s-researcher/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.