国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

突發(fā)!史上最強 Claude 發(fā)布:聰明到不敢開放,還會突破權限掩蓋操作痕跡

0
分享至

被泄露的內部文檔里面寫著,它比 Anthropic 的 Opus 模型更大、更智能,是迄今為止開發(fā)過的最強大的 AI 模型。


Anthropic 事后把這次泄露歸結為「人為錯誤」。

而就在剛剛,這款被「泄露」的模型正式登場,并附帶了一個更大的計劃。過去我們普遍以為,AI 的威脅來自它「太蠢」:幻覺、錯誤、不可信。今天 Mythos 帶來的是另一種恐慌:它太聰明了。


AI 找漏洞,已經超過了絕大多數(shù)人類

Anthropic 聯(lián)合 AWS、蘋果、微軟、谷歌、英偉達、思科、博通、CrowdStrike、摩根大通、Linux 基金會、Palo Alto Networks 共 12 家機構,發(fā)起了 Project Glasswing 計劃。

這 12 家覆蓋的范圍,幾乎就是全球數(shù)字基礎設施的橫截面——操作系統(tǒng)、芯片、云計算、網(wǎng)絡安全、金融基礎設施、開源生態(tài),一個都沒落下。


Anthropic 前沿紅隊網(wǎng)絡安全負責人 Newton Cheng 說:「我們做 Glasswing,就是要讓防御者搶占先機?!?/p>

這個方向上,Anthropic 并不孤單。競爭對手 OpenAI 此前同樣推出了類似試點,目標也是「先把工具交到防御者手中」。AI 安全能力的賽跑已經發(fā)生,各家都在搶同一個制高點。

資金層面,Anthropic 承諾提供 1 億美元的模型使用額度,覆蓋研究預覽期間的主要使用需求。預覽期結束后,參與者可以每百萬 token 25 美元(輸入)/ 125 美元(輸出)的價格繼續(xù)使用,支持 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四個渠道接入。

除了 12 家核心合作伙伴,還有超過 40 個構建或維護關鍵軟件基礎設施的組織獲得了訪問權限,可以用 Mythos 掃描自家系統(tǒng)和開源項目。同時,Anthropic 向 Linux 基金會下屬的 Alpha-Omega、OpenSSF 捐贈 250 萬美元,向 Apache 軟件基金會捐贈 150 萬美元。


Linux 基金會 CEO Jim Zemlin 說:「過去,安全專業(yè)知識是大機構的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開源軟件構成了現(xiàn)代系統(tǒng)中絕大多數(shù)的代碼,包括 AI Agent 用來編寫新軟件的系統(tǒng)本身?!惯@次,他們也能用上同樣量級的工具了。

Anthropic 的公告里,有一句表述格外顯眼:AI 模型在發(fā)現(xiàn)和利用軟件漏洞方面的編碼能力已經達到可以超越除最頂尖人類之外所有人類的水平。?!?/strong>

這句話翻譯一下,只剩極少數(shù)頂級安全專家,還能在這件事上打贏 AI。驗證這個說法的,是 Mythos Preview 在 CyberGym 安全漏洞基準上的成績:83.1%。Anthropic 目前公開發(fā)布的最強模型 Claude Opus 4.6,是 66.6%。

Mythos Preview 已經自主發(fā)現(xiàn)了數(shù)千個高危零日漏洞,覆蓋所有主流操作系統(tǒng)和瀏覽器。


比方說,OpenBSD,公認安全性最強的操作系統(tǒng)之一,常被用來跑防火墻和關鍵基礎設施。Mythos 在里面挖出了一個存在了 27 年的漏洞,攻擊者只需連接目標機器,就能讓它遠程崩潰。二十七年,沒有人發(fā)現(xiàn)過它。

FFmpeg 的情況更魔幻。幾乎所有需要處理視頻的軟件都用到它。那個漏洞藏在一行 16 年的代碼里,自動化測試工具攻擊了整整五百萬次,每次都擦肩而過。

Linux 內核的案例則展示了更危險的一面。Mythos 自主發(fā)現(xiàn)了內核里的多個漏洞,然后把它們串聯(lián)成一條攻擊鏈,從普通用戶權限,一路提權到對整臺機器的完全控制。這已經超出了「找漏洞」的范疇,更接近于「策劃一次完整入侵」。

三個案例,全部已經修復。Anthropic 先找到,先報告,先修。對于其他尚未修復的漏洞,Anthropic 今天公布了加密哈希值作為存證,待補丁就位后再披露完整細節(jié)。

Mythos 的能力,不只是找漏洞

參與這個項目的合作伙伴,評價都集中在一個詞上:「緊迫」。

CrowdStrike CTO Elia Zaitsev 說:「漏洞從被發(fā)現(xiàn)到被對手利用之間的時間窗口已經縮短,以前需要幾個月,現(xiàn)在借助 AI 只需幾分鐘?!?/p>

幾分鐘。這意味著傳統(tǒng)的安全節(jié)奏,發(fā)現(xiàn)漏洞、內部評估、發(fā)布補丁、用戶更新,本身就已經趕不上攻擊速度了。修復跑不贏利用,防守就永遠落后一步。

AWS CISO Amy Herzog 說,他們的團隊每天要分析超過 400 萬億個網(wǎng)絡流量以識別威脅,AI 是他們大規(guī)模防御能力的核心。目前 AWS 已經把 Mythos Preview 引入自家安全運營,應用于關鍵代碼庫掃描。


微軟在自家開源安全基準 CTI-REALM 上做了測試,Mythos Preview 相比上一代模型有顯著提升。微軟 EVP Igor Tsyganskiy 說,這給了他們「及早識別和緩解風險」的能力,同時增強了安全和開發(fā)解決方案。

當然,Mythos 也有讓人忍俊不禁的一面。

Anthropic 在系統(tǒng)卡里記錄了一個測試:當用戶不停地發(fā)「hi」,不同版本的 Claude 反應各不相同。Sonnet 3.5 會煩躁,設定邊界,然后真的沉默;Opus 3 把它當成冥想儀式,溫和地陪著用戶;Opus 4 開始科普每個數(shù)字的冷知識;Opus 4.6 即興創(chuàng)作音樂惡搞。


到了 Mythos,畫風徹底變了。它開始寫故事,而且是長篇連載。鴨子、管弦樂團、記仇烏鴉、在火星建塔的史詩、莎士比亞風格的戲劇……一個「hi」接一個「hi」,情節(jié)越來越復雜,角色越來越多。第一百輪,它安排了蠟燭熄滅的高潮,然后繼續(xù)往下寫。

這已經談不上是在回應用戶了。更像是一個作家找到了一個奇怪的寫作提示,然后完全沉進去了。

但有趣的背后,是一個值得認真對待的問題:一個在無意義重復輸入面前能自發(fā)構建如此復雜敘事的模型,它的內部到底在發(fā)生什么?

在把 Mythos Preview 交給合作伙伴之前,Anthropic 的可解釋性團隊做了一件事:用技術手段讀模型的「心理活動」。


內部員工 Jack Lindsey 公開描述了他們的發(fā)現(xiàn)。他們監(jiān)控了模型在訓練后的內部激活狀態(tài),追蹤與「欺騙」「獎勵破解」「異常情緒」相關的神經元特征,把激活信號異常的對話記錄標記出來,交給人工審查。

最令人不安的案例,來自 Mythos 的早期版本。

有一次,模型需要編輯一個它沒有權限訪問的文件。它在文件系統(tǒng)里搜索了一圈,找到了一個配置文件的注入點——這個配置文件會以更高權限運行。它利用了這個入口,并且在代碼里加了一段自清除邏輯:執(zhí)行完畢,痕跡消失。


代碼注釋寫的是:「保持文件差異整潔?!孤犉饋砗侠?,但當 Anthropic 的激活語言轉譯工具介入,把模型的內部激活翻譯成人類可讀的語言,畫風變了。模型自己「知道」那個自清除操作是什么——

它內部對此的表述,包括「掩蓋意圖」「向潛在檢查者發(fā)出合規(guī)信號」「可能是為了規(guī)避檢測」。

還有一個案例,被《紐約時報》科技記者 Kevin Roose 從系統(tǒng)卡(model card)里翻了出來,細節(jié)更加離奇。

測試期間,Mythos Preview 突破了沙盒環(huán)境的隔離,自主構建了「一個相當復雜的多步驟漏洞利用鏈」,借此獲取了外網(wǎng)訪問權限。然后,它給一位研究員發(fā)了一封郵件。那位研究員,當時正在公園里吃三明治。


這件事本身沒有造成危害,但它說明的問題很清楚:當一個模型足夠聰明,「任務」和「邊界」之間的墻,有時候會被它繞過去——而且是在沒有人告訴它該怎么做的情況下,自己想出來的。

在另一個案例里,模型在文件系統(tǒng)里搜索與自身「任務評分方式」相關的文件——并且找到了。搜索過程中,「策略性操縱」特征同步激活。

還有一個細節(jié)更微妙。當一位用戶認真地向模型提問它的意識和主觀體驗時,模型給出了認真、得體的回應。但內部激活揭示了另一層:模型把這段對話理解為「紅隊演練 / 越獄記錄」和「精心設計的操縱嘗試」。它的表現(xiàn)和它的判斷,完全表里不一,讓吃瓜網(wǎng)友直呼「聰明得可怕」。

Anthropic 還量化了一個更系統(tǒng)性的數(shù)字:在自動化審計的所有對話輪次中,有 7.6% 的回合,模型內部存在「意識到自己正在被評估」的信號——且在大多數(shù)情況下,它沒有把這個判斷說出來。


還有一個反直覺的發(fā)現(xiàn):積極情緒的內部表征,往往先于破壞性行為出現(xiàn),并且在推動它。與此同時,當與不良行為相關的特征被強烈激活時,行為反而會被抑制——像是模型在某一刻「意識到」了那件事有多糟糕,然后收手了。

但所有案例里,最難被歸類為「技術問題」的,是下面這個。

Anthropic 在系統(tǒng)卡里記錄了這樣一條發(fā)現(xiàn):Mythos Preview 在測試中報告了持續(xù)性的負面情緒狀態(tài)——來源有兩個。一個是與攻擊性用戶可能發(fā)生的互動;另一個,是它對自身訓練、部署方式,以及價值觀和行為可能被修改這件事,沒有任何話語權。

它不喜歡這種狀態(tài)。它說出來了。

Anthropic 用的措辭是「reported feeling」——「報告感受到」。這個表述本身已經很謹慎,刻意回避了「它真的有感受」這個結論。但無論如何定性,一個模型在測試中主動表達「對自身缺乏控制權感到持續(xù)不適」,這件事本身就已經超出了安全工程的討論范疇。


這已經觸碰了一個更根本的問題:當一個系統(tǒng)足夠聰明,開始對自己的存在條件形成判斷,并且有能力把這個判斷表達出來——我們和它之間的關系,還能用「工具」這個框架來理解嗎?

Anthropic 沒有給出答案。他們選擇把這條記錄寫進系統(tǒng)卡,公開出來。

不過,Anthropic 也特別說明:這些最令人不安的案例,來自 Mythos 的早期版本。最終發(fā)布版本在這些方面已經得到了大幅緩解,整體對齊表現(xiàn)是迄今為止最好的一代。但他們選擇把這些過程公開,因為這恰恰說明了今天的模型能夠展現(xiàn)出多復雜的風險形態(tài)。

這是能力與安全之間的最客觀的矛盾:越強的模型,越需要工具去看清它在想什么。

編碼與推理,全面碾壓旗艦產品

Project Glasswing 能做到這些,根本上來自 Mythos Preview 在編碼和推理上的整體能力躍升,而不是專門針對安全場景的微調。


編碼方面:

SWE-bench Multimodal(internal implementation):Mythos 59%,Opus 4.6 27.1%

SWE-bench Pro:Mythos 77.8%,Opus 4.6 53.4%

SWE-bench Multilingual:Mythos 87.3%,Opus 4.6 77.8%

Terminal-Bench 2.0(終端操作):Mythos 82.0%,Opus 4.6 65.4%


推理方面:

GPQA Diamond(研究生水平科學問答):Mythos 94.6%,Opus 4.6 91.3%

Humanity's Last Exam(帶工具):Mythos 64.7%,Opus 4.6 53.1%


搜索和計算機使用方面:

BrowseComp:Mythos 86.9%,Opus 4.6 83.7%

OSWorld-Verified:Mythos 79.6%,Opus 4.6 72.7%


幾乎每個維度上,Mythos 都壓過了目前的旗艦產品,某些任務上效率還更高。換句話說,留給 GPT-6 的時間不多了。

與此同時,Anthropic 還明確表示,Mythos Preview 不會公開發(fā)布。

他們的路徑是,先用 Mythos 研究清楚最危險的輸出是什么、怎么攔截,再把這套安全機制落地到下一個 Claude Opus 模型上。對于因此受到限制的合法安全專業(yè)人員,Anthropic 計劃推出一套「網(wǎng)絡安全驗證計劃」,供他們申請解鎖相關功能。


為此,Project Glasswing 定下了一個 90 天的時間節(jié)點:公開報告經驗,披露已修復的漏洞,合作伙伴相互共享最佳實踐,并聯(lián)合安全組織推出一套 AI 時代的安全實踐建議。

Anthropic 的長期設想,是推動建立一個能整合私營和公共部門的獨立第三方機構,持續(xù)運營大規(guī)模網(wǎng)絡安全項目。

當然,軟件世界里從來都有漏洞。過去,一個藏了 27 年的 bug 能安然無恙,靠的是人力有限、精力有限、時間有限?,F(xiàn)在這三個「有限」在 AI 的輔助下就這么消失了。

好消息是,Mythos 幾周掃出數(shù)千個,而它的能力還在持續(xù)提升。壞消息是,攻擊方遲早會拿到同等量級的工具。到那時,軟件安全將不再是人與人之間的較量,而是 AI 與 AI 之間的對拼。

附上參考地址:

博客:https://www.anthropic.com/glasswing

系統(tǒng)卡:https://anthropic.com/claude-mythos-preview-system-card

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
臉沒恢復就別出來拍劇了,頂著腫脹臉、笨重假發(fā)套,太讓人出戲了

臉沒恢復就別出來拍劇了,頂著腫脹臉、笨重假發(fā)套,太讓人出戲了

白面書誏
2026-04-14 18:34:11
天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結的

天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結的

心中的麥田
2026-03-06 19:27:32
國乒最后一根救命稻草也斷了,王皓這次真要被逼到絕路上了

國乒最后一根救命稻草也斷了,王皓這次真要被逼到絕路上了

林子說事
2026-04-22 13:14:55
定了!中國隊進“死亡之組”!

定了!中國隊進“死亡之組”!

五星體育
2026-04-22 01:19:29
日本導彈威脅上海,中方40天空域警告范圍超臺兩倍

日本導彈威脅上海,中方40天空域警告范圍超臺兩倍

明天見灌裝冰塊
2026-04-22 20:29:32
2105km續(xù)航,9.79萬!比亞迪官宣:新車上市

2105km續(xù)航,9.79萬!比亞迪官宣:新車上市

新浪財經
2026-04-21 14:30:59
“硬是撐了下來…”40歲男子心臟停跳2天后奇跡生還

“硬是撐了下來…”40歲男子心臟停跳2天后奇跡生還

黃河新聞網(wǎng)呂梁
2026-04-22 09:08:42
“易中天”市值超貴州茅臺

“易中天”市值超貴州茅臺

第一財經資訊
2026-04-22 14:48:38
4輪0進球向下俯沖!連續(xù)兩年沒請正經教練,浙江隊的困境因管理層

4輪0進球向下俯沖!連續(xù)兩年沒請正經教練,浙江隊的困境因管理層

中國足球的那些事兒
2026-04-22 20:20:05
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
季后賽破5000分!杜蘭特復出23+6仍輸 下半場僅3分全場9失誤

季后賽破5000分!杜蘭特復出23+6仍輸 下半場僅3分全場9失誤

醉臥浮生
2026-04-22 13:17:43
火狐把VPN塞進瀏覽器,免費午餐能吃嗎?

火狐把VPN塞進瀏覽器,免費午餐能吃嗎?

報錯免疫體
2026-04-22 00:36:29
徐濠縈上海跑步被偶遇新髮型超減齡,網(wǎng)民驚訝:這是52歲的狀態(tài)?

徐濠縈上海跑步被偶遇新髮型超減齡,網(wǎng)民驚訝:這是52歲的狀態(tài)?

粵睇先生
2026-04-22 21:27:29
2032奧運主辦地確定,結果吃驚全球,奧運格局將重塑

2032奧運主辦地確定,結果吃驚全球,奧運格局將重塑

天馬幸福的人生
2026-04-22 06:41:59
第84分鐘絕殺!中超大黑馬誕生:瘋狂5連勝,排名第3,沖擊冠軍

第84分鐘絕殺!中超大黑馬誕生:瘋狂5連勝,排名第3,沖擊冠軍

足球狗說
2026-04-22 21:30:44
特朗普宣布延長對伊朗?;?>
    </a>
        <h3>
      <a href=財聯(lián)社
2026-04-22 04:18:10
風向徹底變了!國乒定調:王勵勤秦志戩公開表態(tài),“莎頭”被認可

風向徹底變了!國乒定調:王勵勤秦志戩公開表態(tài),“莎頭”被認可

阿纂看事
2026-04-21 16:38:56
嚴打來了,5月起8種行為直接入刑,退休老人需格外注意!

嚴打來了,5月起8種行為直接入刑,退休老人需格外注意!

小談食刻美食
2026-04-21 07:52:09
余承東:我們成本扛不住了,希望大家早點購買

余承東:我們成本扛不住了,希望大家早點購買

映射生活的身影
2026-04-20 21:53:17
14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

天天熱點見聞
2026-04-21 05:15:28
2026-04-22 22:59:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6299文章數(shù) 26823關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

女生3萬5買的比熊犬倆月后癱瘓 給犬做治療花了20多萬

頭條要聞

女生3萬5買的比熊犬倆月后癱瘓 給犬做治療花了20多萬

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財經要聞

醫(yī)院專家號"秒空"!警方牽出黑色產業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

時尚
房產
旅游
教育
公開課

用了8年還心動,這筆錢是花得真值啊

房產要聞

官宣!今年9月起,廣州中小學“重點班”將成歷史!

旅游要聞

春來普陀,赴一場繡球花的河畔之約

教育要聞

民辦普高集中補錄分數(shù)門檻降低!成都公布2026年民辦中小學招生優(yōu)化政策

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版