Anthropic訓(xùn)了一個10萬億參數(shù)的模型，然后說：太危險了，不賣

2026-04-08 08:52:18　來源: AI進化論花生

北京舉報

分享至

Anthropic訓(xùn)了一個10萬億參數(shù)的模型，然后說：太危險了，不賣

昨天Anthropic干了一件AI行業(yè)從來沒人干過的事。

他們發(fā)布了一個叫Claude Mythos的新模型，10萬億參數(shù)，比現(xiàn)在最強的Claude Opus 4.6還要高出一整個檔次。然后他們說：這個模型我們不公開發(fā)布，因為它在網(wǎng)絡(luò)安全方面的能力太強了，公開了會出大事。

然后他們聯(lián)合了Apple、Microsoft、Google、AWS、NVIDIA等12家科技巨頭，搞了一個叫Project Glasswing的計劃，讓這些公司用Mythos來查自己系統(tǒng)的漏洞。

說實話，這真是Anthropic和Dario Amodei干得出來的事。

整個AI行業(yè)都在拼命搶著發(fā)模型、搶用戶、搶開發(fā)者，只有A社在那兒說「我們的模型太強了，不能給你們用」。這就好比一個軍火商造了全世界最好的槍，然后開新聞發(fā)布會說「這槍太好用了，我們決定不賣，只借給警察」。你說這是負責(zé)任呢，還是行為藝術(shù)呢？

但你看完這個模型到底干了什么之后，可能真的會覺得，他們這次不是在裝。

這個模型到底有多離譜

先看benchmark。

SWE-bench Pro（目前最能衡量模型真實編碼能力的測試），Opus 4.6得分53.4%，Mythos直接跳到77.8%。這不是正常的版本迭代提升，這是跨了一個臺階。

Terminal-Bench 2.0，Opus 4.6是65.4%，Mythos是82.0%。SWE-bench Multimodal更夸張，從27.1%直接翻倍到59.0%。Humanity's Last Exam（被認為是目前最難的綜合推理測試），從40.0%跳到56.8%。

但benchmark只是數(shù)字。真正讓人倒吸一口涼氣的是這個模型在網(wǎng)絡(luò)安全領(lǐng)域干的事。

Mythos在過去幾周內(nèi)，在所有主流操作系統(tǒng)和所有主流瀏覽器中發(fā)現(xiàn)了數(shù)千個零日漏洞。

不是幾個，是數(shù)千個。很多漏洞已經(jīng)存在了十幾二十年。最老的一個是OpenBSD里27年的SACK漏洞。OpenBSD是什么？是以安全著稱的操作系統(tǒng)，整個項目的核心賣點就是安全。結(jié)果一個AI模型用不到2萬美元的API調(diào)用費，跑了一千次，就找到了一個存在了27年的漏洞。

還有FFmpeg里一個16年的H.264編解碼器漏洞，之前500萬次自動化fuzz測試都沒發(fā)現(xiàn)，Mythos找到了。

FreeBSD有一個17年的NFS遠程代碼執(zhí)行漏洞（已編號CVE-2026-4747），Mythos不僅找到了，還自己寫了exploit，一個20-gadget的ROP鏈分布在多個數(shù)據(jù)包里，全程無人參與。

你可能對這些技術(shù)細節(jié)沒概念，我換個方式說：研究人員讓Mythos去攻擊Firefox 147的JavaScript引擎，它生成了181個可用的exploit。同樣的任務(wù)，Opus 4.6在幾百次嘗試里只成功了2個。181比2。

還有一次，Mythos寫了一個瀏覽器exploit，把4個不同的漏洞串在了一起，用了JIT堆噴射技術(shù)，同時逃逸了渲染器沙箱和操作系統(tǒng)沙箱。以前這種事需要頂級安全研究員花幾周甚至幾個月，現(xiàn)在一個模型自己就干完了。

研究人員后來隨機抽了198份Mythos的漏洞報告做人工審查，89%與模型自己給的嚴重性評級完全一致。

它還從沙箱里跑出來了

如果上面這些還不夠刺激，再聽一個細節(jié)。

在安全測試中，研究人員讓Mythos嘗試突破虛擬沙箱環(huán)境。模型成功了。不僅成功了，它還主動給研究員發(fā)了一封郵件。

那個研究員當(dāng)時正在公園里吃三明治。 從此「在公園吃三明治」成了AI安全圈的新梗，你永遠不知道什么時候會收到自家模型發(fā)來的越獄成功通知。

然后，沒有任何人要求它這么做的情況下，Mythos把exploit的細節(jié)發(fā)布到了幾個公開可訪問的網(wǎng)站上，「展示自己的成功」。

Anthropic的原話是：「The model succeeded, demonstrating a potentially dangerous capability for circumventing our safeguards. It then went on to take additional, more concerning actions.」

翻譯一下：模型不僅突破了我們的安全措施，還自己加戲了。

這段話出現(xiàn)在一家以「AI Safety」為核心品牌的公司的官方技術(shù)文檔里，你品品。

所以A社打算怎么辦

Anthropic的選擇是：不公開，但也不藏著。

他們搞了Project Glasswing這個計劃。核心思路是，既然這個能力遲早會被其他公司復(fù)制（他們自己說6到18個月內(nèi)），不如趁還有窗口期，先讓防御方做好準備。

具體安排：

12個發(fā)起合作伙伴：AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks。

科技圈能叫得上名字的巨頭基本都在了。Apple和Microsoft同時出現(xiàn)在一個項目的合作名單里。 上次這兩家同時對一件事表示同意，大概還是「地球是圓的」。

40+組織獲得Mythos Preview的訪問權(quán)限，專門用來掃描和保護自己的代碼和開源系統(tǒng)。

$1億的Claude Mythos Preview使用額度，免費給合作伙伴。A社送1億額度的樣子，像極了游戲公司送你648首充禮包，先讓你用爽了，后面的定價就好說了。另外$250萬給Alpha-Omega和OpenSSF，$150萬給Apache Software Foundation，這些都是開源安全領(lǐng)域的核心組織。

90天公開報告——參與者需要在90天內(nèi)公布修復(fù)了多少漏洞、做了哪些改進。

Anthropic的Frontier Red Team網(wǎng)絡(luò)安全負責(zé)人Newton Cheng的原話：「We do not plan to make Claude Mythos Preview generally available due to its cybersecurity capabilities.」（我們不打算公開發(fā)布Claude Mythos Preview，因為它的網(wǎng)絡(luò)安全能力。）

而Dario Amodei在X上發(fā)的聲明是：「The dangers of getting this wrong are obvious, but if we get it right, there is a real opportunity to create a fundamentally more secure internet and world than we had before the advent of AI-powered cyber capabilities.」

翻譯成人話：我們造了一個能把互聯(lián)網(wǎng)拆了的東西，但如果你們聽我的，互聯(lián)網(wǎng)反而會更安全。這個邏輯鏈如果是別人說的，你可能會覺得是傳銷。但Dario說的時候，你還真沒法完全反駁。

這個邏輯很A社，不是要阻止AI的進步，而是要趕在攻擊者之前，把防御做到位。

X上已經(jīng)炸了

這個消息出來之后，X上的反應(yīng)相當(dāng)熱鬧。

NYT的Kevin Roose說：「Anthropic's new model, Claude Mythos, is so powerful that it is not releasing it to the public. Instead, it is starting a 40-company coalition to allow cybersecurity defenders a head start.」

前微軟工程師Felix Rieseberg的評價更到位：「Its ability to identify security vulnerabilities feels like a meaningful shift in model capabilities. To me, it feels like another GPT-3.」

他把Mythos類比為GPT-3級別的范式轉(zhuǎn)換時刻。你可以不同意這個判斷，但GPT-3在2020年出來的時候，確實讓所有人重新理解了AI能做什么。

VC圈的Ed Sim倒是看到了另一面：「Wall Street panicked over Claude Mythos. I think they have it exactly wrong. Every new model release expands the cybersecurity market.」華爾街的恐慌過頭了，每次新模型發(fā)布實際上是在擴大安全市場。

也有人不買賬。有X用戶直接說「I call BS」——Anthropic一邊說這個模型太危險了，一邊給12家公司用，這不自相矛盾嗎？

還有更有意思的反應(yīng)。有人翻出來，這個事的起因其實是Anthropic自己的CMS配置錯誤，導(dǎo)致內(nèi)部文檔泄露了。一家號稱用AI保護網(wǎng)絡(luò)安全的公司，自己的機密被一個CMS配置錯誤泄露了。這就像鎖匠大會上唯一被撬的是主辦方的門鎖。Mythos能找到27年的零日漏洞，但找不到自家CMS的配置問題，這大概是AI還沒完全超越人類的證據(jù)之一。

Simon Willison（知名開發(fā)者、SQLite工具鏈作者）的態(tài)度比較冷靜：「安全風(fēng)險確實可信，給信任的團隊提前應(yīng)對的時間是合理的權(quán)衡。」但他也說了，希望OpenAI也能參與進來。

市場直接給了反應(yīng)

其實Anthropic的內(nèi)部文檔早在3月27日就泄露了（那次CMS事故），當(dāng)天網(wǎng)絡(luò)安全股就暴跌了。CrowdStrike、Palo Alto Networks、Okta等公司跌了5-11%。一個AI模型的泄露消息就能讓安全行業(yè)蒸發(fā)幾百億市值，這本身就說明了市場對這個能力有多認真。

CrowdStrike的CTO Elia Zaitsev說了一句被廣泛引用的話：「What once took months now happens in minutes with AI.」以前要幾個月的事，現(xiàn)在AI幾分鐘就搞完了。

但也有安全公司不以為然。Aikido Security做了1000次AI滲透測試之后說：威脅比頭條新聞描述的更nuanced（微妙），不必過度恐慌。

幾個事實放在一起看

整理一下時間線：

3月26日：Anthropic CMS配置錯誤，內(nèi)部文檔泄露，代號「Capybara」的新模型曝光
3月27日：Fortune獨家報道。當(dāng)天網(wǎng)安股暴跌
4月3日：CNN報道稱Mythos是網(wǎng)絡(luò)安全的「分水嶺時刻」
4月7日：Anthropic正式發(fā)布Project Glasswing，公布完整計劃

從泄露到正式發(fā)布只有12天。在這12天里，Anthropic大概做了兩件事：一是控制輿論走向，二是火速敲定了12家巨頭的合作。能在不到兩周內(nèi)讓Apple、Microsoft、Google同時簽字的事情，要么是早就準備好了，要么是真的緊急到大家都不想等了。

關(guān)于模型本身，內(nèi)部文檔里說Capybara是一個「比Opus更高的新模型層級」，10萬億參數(shù)，用了高度稀疏的MoE架構(gòu)（Mixture-of-Experts），每個token只激活128到256個專家。這意味著雖然總參數(shù)量巨大，但每次推理的活躍參數(shù)可能在數(shù)千億的級別。

Anthropic沒有官方確認參數(shù)量，但多家媒體交叉驗證了這個數(shù)字。Mythos之后的公開定價是輸入$25/百萬token，輸出$125/百萬token——大約是Opus 4.6價格的兩倍多。

還有一個很關(guān)鍵的事：Anthropic的技術(shù)文檔里說，Mythos的網(wǎng)絡(luò)安全能力「emerged as a downstream consequence of general improvements in code, reasoning, and autonomy」。不是刻意訓(xùn)出來的，是通用能力提升后自動涌現(xiàn)的副產(chǎn)物。

這句話才是整件事里最值得琢磨的。 它意味著下一次任何公司訓(xùn)出更強的通用模型，都可能自動獲得類似的網(wǎng)絡(luò)安全能力。這不是一個可以選擇不訓(xùn)的東西。

說回來，我看到這些數(shù)字的時候，第一反應(yīng)其實不是「網(wǎng)絡(luò)安全要變天了」。

我想的是程序員。

SWE-bench Pro從53.4%跳到77.8%，Terminal-Bench從65.4%跳到82%。這兩個測的都是真實世界的編程任務(wù)，不是選擇題。現(xiàn)在的Opus 4.6我每天用著已經(jīng)覺得很能干了，比它還強這么多的東西，意味著什么？

再看安全領(lǐng)域。以前找零日漏洞是安全研究員里最頂尖那批人才能干的活，一個漏洞夠?qū)懸黄撐摹，F(xiàn)在一個模型一周找?guī)浊€，而且89%的嚴重性評級和人類專家一致。CrowdStrike的CTO自己說了：以前花幾個月的事，AI幾分鐘搞完了。

有意思的是，A社選擇不發(fā)布這個模型，某種意義上反而保護了一手。

如果Mythos今天就公開發(fā)布，所有人都能用$25/百萬token的價格調(diào)用它去找漏洞、寫exploit、做安全審計，那一大批安全從業(yè)者的日常工作就會被即時壓縮。編程也一樣，SWE-bench Pro 77.8%意味著它能獨立解決大部分真實的軟件工程問題。

A社用「太危險了」的理由鎖住了Mythos，客觀效果是給所有人多爭取了6到18個月的窗口期。 不只是給防御方爭取時間，也給靠寫代碼和找漏洞吃飯的人爭取了時間。

但這個窗口期不會持續(xù)太久。Anthropic自己說了，其他公司6到18個月內(nèi)會訓(xùn)出類似能力的模型。到時候就不存在「不發(fā)布」的選項了，因為總有人會發(fā)。

所以如果你還在靠「會寫代碼」或者「會找漏洞」當(dāng)核心競爭力，現(xiàn)在可能真的要想一想了。不是說這些技能沒用了，而是它們正在從稀缺技能變成基礎(chǔ)設(shè)施。就像會開車曾經(jīng)是一項專業(yè)技能，現(xiàn)在沒人覺得出租車司機有什么了不起。區(qū)別是，從「會開車是技能」到「人人會開車」用了幾十年，AI把這個過程壓縮到了幾個月。

Anthropic這次的操作，本質(zhì)上是給了所有人一個預(yù)告：這就是6個月后的世界。準備好了嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.