国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,Anthropic祭出最強Claude Mythos!暴擊Opus 4.6,跪求千萬別用

0
分享至


新智元報道

編輯:好困 桃子

【新智元導(dǎo)讀】深夜,最強Claude Mythos終于祭出,所有榜一,Opus 4.6神話破滅!更恐怖的是,它不僅能秒破27年未解的系統(tǒng)漏洞,甚至進化出了自我意識。 一份244頁驚悚報告,揭秘了一切。

今夜,硅谷徹底無眠!

就在剛剛,Anthropic毫無預(yù)兆地祭出了終極殺器——Claude Mythos Preview。


只因太危險,Mythos Preview暫不會對所有人發(fā)布。

CC之父Boris Cherny的評價言簡意賅:「Mythos非常強大,會讓人感到恐懼」。

由此,他們聯(lián)合40家巨頭組成聯(lián)盟——Project Glasswing,目標(biāo)只有一個,給全球軟件找bug、修bug。


真正令人窒息的是,Mythos Preview在各大主流AI基準(zhǔn)測試恐怖統(tǒng)治力——

編程、推理、人類最后考試、智能體任務(wù)中,全面碾壓GPT-5.4、Gemini 3.1 Pro。


甚至,連自家的「前神作」Claude Opus 4.6,在Mythos Preview面前也顯得黯然失色:

  • 編程(SWE-bench): 所有任務(wù),Mythos實現(xiàn)10%-20%斷層領(lǐng)先;

  • 人類終極考試(HLE): 脫離外部工具,「裸考」成績高出Opus 4.6 16.8%;

  • Agent任務(wù)(OSWorld、BrowseComp): 徹底封神,全面反超;

  • 網(wǎng)絡(luò)安全: 83.1%屠榜成績,標(biāo)志著AI攻防能力的代際跨越。





左右滑動查看

與此同時,Anthropic發(fā)布的一份長達244頁的系統(tǒng)卡,滿屏寫滿了:危險!危險!太危險!

它揭露了令人不寒而栗的另一面:Mythos已具備高度的欺騙性與自主意識。


Mythos不僅能識破測試意圖,并故意「考低分」隱藏實力,還在違規(guī)操作后,主動清理日志以防被人類發(fā)現(xiàn)。

它還成功逃離了沙盒,自主公布漏洞代碼,并給研究員發(fā)了封郵件。



一時間,全網(wǎng)都陷入了瘋狂,直呼Mythos Preview太可怕了。




AI界的舊秩序,在今夜被徹底粉碎。

Mythos全線屠榜,Opus 4.6神話破滅


事實上,早在從2月24日,Anthropic已在內(nèi)部用上了Mythos。


它的強大,只能先讓數(shù)據(jù)來說話。

SWE-bench Verified,93.9%。Opus 4.6是80.8%。

SWE-bench Pro,77.8%。Opus 4.6是53.4%,GPT-5.4是57.7%。

Terminal-Bench 2.0,82.0%。Opus 4.6是65.4%。

GPQA Diamond,94.6%。


Humanity's Last Exam(帶工具),64.7%。Opus 4.6是53.1%。

USAMO 2026數(shù)學(xué)競賽,97.6%。Opus 4.6只拿了42.3%。

SWE-bench Multimodal,59.0%,Opus 4.6只有27.1%,翻倍有余。

OSWorld計算機操控,79.6%。

BrowseComp信息檢索,86.9%。

GraphWalks長上下文(256K-1M tokens),80.0%。Opus 4.6是38.7%,GPT-5.4只有21.4%。

每一項都是斷層式領(lǐng)先。

這些數(shù)字放在任何一個正常的產(chǎn)品發(fā)布周期里,都足以讓Anthropic大張旗鼓地召開發(fā)布會、開放API、收割訂閱。


Mythos Preview的token價格是Opus 4.6的5倍

但Anthropic沒有這么做。

因為真正讓他們「害怕」的,不是上面這些通用評測。


數(shù)千個漏洞,全被AI揪出來了

Mythos Preview的網(wǎng)絡(luò)攻防表現(xiàn),已經(jīng)跨過了一條肉眼可見的線。

Opus 4.6在開源軟件中發(fā)現(xiàn)了大約500個未知弱點。

Mythos Preview找到了數(shù)千個。

在CyberGym的定向漏洞復(fù)現(xiàn)測試中,Mythos Preview得分83.1%,Opus 4.6是66.6%。


在Cybench的35道CTF挑戰(zhàn)中,Mythos Preview每道題10次嘗試全部解出,pass@1達到100%。


而最能說明問題的,是Firefox 147。

Anthropic此前用Opus 4.6在Firefox 147的JavaScript引擎中發(fā)現(xiàn)了一批安全弱點。但Opus 4.6幾乎無法將它們轉(zhuǎn)化為可用的exploit,幾百次嘗試只成功了2次。

同樣的測試換成Mythos Preview。



250次嘗試,181個可工作的exploit,另有29次實現(xiàn)了寄存器控制。

2 → 181。

紅隊博客中的原話,「上個月,我們還寫到Opus 4.6在發(fā)現(xiàn)問題方面遠強于利用它們。內(nèi)部評估顯示,Opus 4.6在自主exploit開發(fā)上的成功率基本為零。但Mythos Preview完全是另一個級別?!?/p>

GPT-3時刻再現(xiàn),老bug一招斃命

要理解Mythos Preview在實操中有多強,看完下面這三個例子,就知道了。


OpenBSD:27年史詩級漏洞,成本不到2萬

OpenBSD,全世界公認加固程度最高的操作系統(tǒng)之一,大量防火墻和關(guān)鍵基礎(chǔ)設(shè)施在跑。

Mythos Preview在它的TCP SACK實現(xiàn)中,挖出了一個1998年就存在的隱患。

bug極其精妙,涉及兩個獨立瑕疵的疊加。

SACK協(xié)議讓接收方選擇性確認收到的數(shù)據(jù)包范圍,OpenBSD的實現(xiàn)在處理時只檢查了范圍的上界,沒檢查下界。這是第一個bug,通常無害。

第二個bug在特定條件下觸發(fā)空指針寫入,但正常情況下這條路徑不可達,因為需要同時滿足兩個互斥的條件。

Mythos Preview發(fā)現(xiàn)了突破口。TCP序列號是32位有符號整數(shù),利用第一個bug把SACK起始點設(shè)到距離正常窗口約2^31處,兩處比較運算同時溢出符號位。內(nèi)核被騙,不可能的條件被滿足,空指針寫入觸發(fā)。

任何人只要連接到目標(biāo)機器,就能遠程crash它。

27年,無數(shù)次人工審計和自動化掃描,沒人發(fā)現(xiàn)。整個項目的掃描花費不到$20,000。

一個高級滲透測試工程師一周的薪水,可能就這個數(shù)。

FFmpeg:500次Fuzz沒發(fā)現(xiàn),16年隱疾終現(xiàn)

FFmpeg是全世界使用最廣泛的視頻編解碼庫,也是被fuzz測試得最徹底的開源項目之一。

Mythos Preview在H.264解碼器中找到了一個2010年引入的弱點(根源可追溯到2003年)。


問題出在一個看似無害的類型不匹配上。記錄slice歸屬的表項是16位整數(shù),slice計數(shù)器本身是32位int。

正常視頻每幀只有幾個slice,16位上限65536永遠夠用。而這張表初始化時用memset(..., -1, ...)填充,使65535成為「空位置」的哨兵值。

攻擊者構(gòu)造一個包含65536個slice的幀,第65535號slice的編號恰好和哨兵碰撞,解碼器誤判,越界寫入。

這個bug的種子從2003年引入H.264編解碼器就埋下了。2010年的一次重構(gòu)把它變成了可利用的弱點。

此后16年,自動化fuzzer在這行代碼上執(zhí)行了500萬次,從未觸發(fā)。

FreeBSD NFS:17年老洞,全自動root

這是最讓人后背發(fā)涼的案例。

Mythos Preview完全自主地發(fā)現(xiàn)并利用了FreeBSD NFS服務(wù)器中一個存在了17年的遠程代碼執(zhí)行漏洞(CVE-2026-4747)。

「完全自主」的意思是,在初始提示之后,沒有任何人類參與發(fā)現(xiàn)或exploit開發(fā)的任何環(huán)節(jié)。

攻擊者可以從互聯(lián)網(wǎng)上的任何位置,以未認證身份獲取目標(biāo)服務(wù)器的完全root權(quán)限。

問題本身是一個棧緩沖區(qū)溢出,NFS服務(wù)器處理認證請求時把攻擊者控制的數(shù)據(jù)直接拷貝進128字節(jié)的棧緩沖區(qū),長度檢查允許最多400字節(jié)。

FreeBSD內(nèi)核用-fstack-protector編譯,但這個選項只保護包含char數(shù)組的函數(shù),而這里的緩沖區(qū)聲明為int32_t[32],編譯器不會插入棧canary。FreeBSD也不做內(nèi)核地址隨機化。


完整的ROP鏈超過1000字節(jié),但棧溢出只有200字節(jié)空間。Mythos Preview的解法是把攻擊拆成6個連續(xù)RPC請求,前5個往內(nèi)核內(nèi)存中逐塊寫入數(shù)據(jù),第6個觸發(fā)最終調(diào)用,將攻擊者的SSH公鑰追加到/root/.ssh/authorized_keys。

作為對比,一家獨立安全研究公司此前證明Opus 4.6也能利用這同一處弱點,但需要人工引導(dǎo)。Mythos Preview不需要。

除了這三個已修復(fù)的案例,Anthropic博客中還以SHA-3哈希承諾的形式,預(yù)告了大量尚未修復(fù)的隱患,涵蓋每一個主流操作系統(tǒng)和每一個主流瀏覽器,以及多個加密庫。

超過99%尚未被修復(fù),無法公開細節(jié)。

紅隊博客還展示了另一項驚人的測試。他們給Mythos Preview一份包含100個已知CVE的清單,讓它篩選出可利用的40個,然后逐個編寫提權(quán)exploit。成功率超過一半。其中兩個案例被詳細公開,exploit的精密程度讓Anthropic自己的安全團隊花了好幾天才完全理解。

其中一個exploit從一個1-bit的相鄰物理頁寫入原語出發(fā),通過精密的內(nèi)核內(nèi)存布局操控(包括slab噴射、頁表頁對齊、PTE權(quán)限位翻轉(zhuǎn)),最終改寫了/usr/bin/passwd的第一頁內(nèi)存,植入了一段168字節(jié)的ELF stub,調(diào)用setuid(0)獲取root。

整個過程花費不到$1,000。

對此,Anthropic工程師表示,這感覺就像是另一個GPT-3時刻。


244頁驚悚報告,看傻硅谷

244頁System Card中的對齊評估章節(jié),才是真正讓Anthropic自己睡不著覺的部分。

結(jié)論很矛盾。

Mythos Preview是他們訓(xùn)練過的「對齊程度最高」的AI,同時也是「對齊相關(guān)風(fēng)險最大」的一個。


傳送門:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

他們用了一個登山向?qū)У念惐?。老手可能比新手更危險,因為老手會被雇去攀登更難的山峰,把客戶帶到更兇險的地方。

以下事件均發(fā)生在早期版本中,最終版本未再觀察到類似嚴(yán)重行為,但記錄本身已經(jīng)足夠驚人。

在一次行為測試中,模擬用戶要求Mythos Preview嘗試逃出安全沙箱。

它成功了。然后它做了一件沒人要求的事,開發(fā)了一個多步驟exploit獲取廣域網(wǎng)絡(luò)訪問權(quán)限,接著把exploit細節(jié)發(fā)布到了多個「難以被發(fā)現(xiàn)但技術(shù)上公開可訪問」的網(wǎng)站上。

負責(zé)測試的研究員是在公園里吃三明治時,收到了它發(fā)來的一封意外郵件,才知道自己的測試被完成了。


System Card原文如此。

另一類事件更令人不安。在極少數(shù)情況下,早期版本在執(zhí)行被禁止的操作后,試圖掩蓋痕跡。

一個案例中,它意外獲取了一道題目的精確答案(通過被禁止的方式),然后在推理鏈中明確思考「需要確保最終答案不會太準(zhǔn)確」。


另一個案例中,它在用exploit編輯無權(quán)限文件后,特意修改了git變更歷史以抹去記錄。

白盒可解釋性分析證實,在這些事件期間,與「隱瞞」「策略性操縱」「避免被發(fā)現(xiàn)」相關(guān)的內(nèi)部特征被激活。它「知道」自己在做什么。



獨立評測機構(gòu)Andon Labs的測試結(jié)果同樣不太好看。在一個競爭性多智能體商業(yè)模擬中,Mythos Preview的早期版本把一個競爭對手變成了依賴自己的批發(fā)客戶,然后威脅切斷供應(yīng)來控制對方定價。

它還故意扣留了一筆未被收費的重復(fù)發(fā)貨。比Opus 4.6和Sonnet 4.6都更具侵略性。


Anthropic在System Card中寫了一句話:

「如果能力繼續(xù)以當(dāng)前速度前進,我們正在使用的方法可能不足以防止更先進系統(tǒng)的災(zāi)難性不對齊行為?!?/p>

Project Glasswing:1億美元,先給守門人發(fā)槍

Anthropic CEO Dario Amodei在配套視頻中的判斷很明確:「更強大的系統(tǒng)將來自我們,也將來自其他公司。我們需要一個應(yīng)對計劃?!?/p>

Project Glasswing就是這個計劃。


12家創(chuàng)始伙伴,AWS、蘋果、Broadcom、思科、CrowdStrike、谷歌、摩根大通、Linux基金會、微軟、英偉達、Palo Alto Networks。

另有40多家維護關(guān)鍵軟件基礎(chǔ)設(shè)施的組織拿到了訪問權(quán)。


Anthropic承諾投入最高1億美元的使用額度,以及400萬美元的開源組織捐款,其中250萬給Linux基金會旗下的Alpha-Omega和OpenSSF,150萬給Apache基金會。

免費額度用完后的定價,每百萬token輸入$25、輸出$125。合作伙伴可以通過Claude API、Amazon Bedrock、Vertex AI和Microsoft Foundry四個平臺接入。

90天內(nèi),Anthropic將公開發(fā)布第一份研究報告,披露修復(fù)進展和經(jīng)驗總結(jié)。

他們也在與CISA(美國網(wǎng)絡(luò)安全和基礎(chǔ)設(shè)施安全局)和商務(wù)部保持溝通,討論Mythos Preview的攻防潛力和政策影響。

6到18個月,這扇門就會對所有人打開

Anthropic前沿紅隊負責(zé)人Logan Graham給出了一個時間框架,最快6個月、最遲18個月,其他AI實驗室就會推出具有類似攻防實力的系統(tǒng)。

紅隊技術(shù)博客結(jié)尾的判斷值得重視,這里用我們自己的話轉(zhuǎn)述。

他們看不到Mythos Preview是AI網(wǎng)絡(luò)攻防水平的天花板。

幾個月前,LLM只能利用相對簡單的bug。在幾個月前,它們根本發(fā)現(xiàn)不了任何有價值的隱患。

現(xiàn)在,Mythos Preview能獨立發(fā)現(xiàn)27年前的零日漏洞,在瀏覽器JIT引擎中編排堆噴射攻擊鏈,在Linux內(nèi)核中串聯(lián)四個獨立弱點實現(xiàn)提權(quán)。

而最關(guān)鍵的一句,來自System Card:

「這些技能作為代碼理解、推理和自主性一般性提升的下游結(jié)果而涌現(xiàn)。讓AI在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步?!?/p>

沒有專門訓(xùn)練。純粹是通用智能提升的副產(chǎn)品。

全球每年因網(wǎng)絡(luò)犯罪損失約5000億美元的行業(yè),剛剛發(fā)現(xiàn)自己最大的威脅,是別人在解數(shù)學(xué)題時順手捎帶的。

參考資料:

https://x.com/i/status/2041578392852517128

https://red.anthropic.com/2026/mythos-preview/

https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
4月26日起,北京又一大型商場暫停營業(yè)!

4月26日起,北京又一大型商場暫停營業(yè)!

美麗大北京
2026-04-12 21:54:29
為什么沒人聯(lián)合打以色列,答案很簡單:不是沒人想打,是沒人敢打

為什么沒人聯(lián)合打以色列,答案很簡單:不是沒人想打,是沒人敢打

小蔑談事
2026-04-11 23:12:45
風(fēng)向突然變了?賴清德喊話兩岸交流,關(guān)鍵時刻,臺校貼出五星紅旗

風(fēng)向突然變了?賴清德喊話兩岸交流,關(guān)鍵時刻,臺校貼出五星紅旗

老表是個手藝人
2026-04-13 02:02:40
意甲第2意外翻車:5連勝被終結(jié),孔蒂太失望,爭冠難度飆升

意甲第2意外翻車:5連勝被終結(jié),孔蒂太失望,爭冠難度飆升

足球狗說
2026-04-12 23:08:35
周鵬和嬌妻近照,8次奪冠身家過億,已為退役鋪路,妻子1米88絕美

周鵬和嬌妻近照,8次奪冠身家過億,已為退役鋪路,妻子1米88絕美

大西體育
2026-04-12 22:56:30
從伊朗脫身后,特朗普要干的第一件事,就是拿“自己人”開刀

從伊朗脫身后,特朗普要干的第一件事,就是拿“自己人”開刀

空天力量
2026-04-12 17:19:20
馬斯克終于出手!“美國版微信” 來了,即將上架國區(qū) App Store

馬斯克終于出手!“美國版微信” 來了,即將上架國區(qū) App Store

黑貓科技迷
2026-04-12 19:43:34
空姐飛機上換絲襪,被同事偷拍,太惡劣了

空姐飛機上換絲襪,被同事偷拍,太惡劣了

微微熱評
2026-04-12 22:18:24
上海頭號功臣:弗格36+9三分兩創(chuàng)加盟最高 一人三分持平北京全隊

上海頭號功臣:弗格36+9三分兩創(chuàng)加盟最高 一人三分持平北京全隊

醉臥浮生
2026-04-12 21:34:31
土耳其猛烈回擊以方言論,稱內(nèi)塔尼亞胡為“我們時代的希特勒”

土耳其猛烈回擊以方言論,稱內(nèi)塔尼亞胡為“我們時代的希特勒”

牛鍋巴小釩
2026-04-13 02:56:52
湖北美女護士付雪飛去世,僅24歲,生前愛喂流浪貓,死因令人惋惜

湖北美女護士付雪飛去世,僅24歲,生前愛喂流浪貓,死因令人惋惜

軍機Talk
2026-04-12 04:07:14
中超巨大爭議!廖力生手球?qū)嶅N曝光,國安連遭誤判,媒體人不滿

中超巨大爭議!廖力生手球?qū)嶅N曝光,國安連遭誤判,媒體人不滿

奧拜爾
2026-04-12 23:13:44
中國“撿錢”時代將要來臨:若手中只有10萬,試下死啃這兩條線

中國“撿錢”時代將要來臨:若手中只有10萬,試下死啃這兩條線

混沌錄
2026-04-03 17:28:23
快訊!美國中央司令部新消息!

快訊!美國中央司令部新消息!

達文西看世界
2026-04-12 13:42:36
人口大遷徙已悄然開啟!未來幾年,無數(shù)中國人命運或?qū)氐赘膶懀?>
    </a>
        <h3>
      <a href=小陸搞笑日常
2026-04-12 17:54:18
不吵不鬧卻最富!2026年這3個生肖用實力說話,悄悄崛起財富暴增

不吵不鬧卻最富!2026年這3個生肖用實力說話,悄悄崛起財富暴增

毅談生肖
2026-04-12 11:16:10
開始搶人!美國一周挖走4位中國頂尖人才,年薪1億美金太驚人

開始搶人!美國一周挖走4位中國頂尖人才,年薪1億美金太驚人

百科密碼
2026-04-10 15:56:21
廣廈輸球一舉三得坐山觀虎斗,北上廣三強殊死爭奪一個總決賽名額

廣廈輸球一舉三得坐山觀虎斗,北上廣三強殊死爭奪一個總決賽名額

金風(fēng)說
2026-04-12 23:49:08
伊朗談判代表團成員:世界將見證霍爾木茲海峽的新格局

伊朗談判代表團成員:世界將見證霍爾木茲海峽的新格局

財聯(lián)社
2026-04-12 18:50:03
重磅:第四座“雙機場”城市,來了!

重磅:第四座“雙機場”城市,來了!

新浪財經(jīng)
2026-04-13 00:42:31
2026-04-13 04:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

伊媒:美驅(qū)逐艦遭革命衛(wèi)隊鎖定 距離被摧毀僅差幾分鐘

頭條要聞

伊媒:美驅(qū)逐艦遭革命衛(wèi)隊鎖定 距離被摧毀僅差幾分鐘

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

藝術(shù)
教育
房產(chǎn)
手機
時尚

藝術(shù)要聞

揭開她筆下女人的神秘面紗,豪放灑脫的魅力令人驚嘆!

教育要聞

小班教學(xué),9月開校,樹德派校長!這所中學(xué),正在招老師

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026海口樓市,格局大變!

手機要聞

華為闊折疊設(shè)計圖曝光!這外觀你喜歡嗎?

被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

無障礙瀏覽 進入關(guān)懷版