国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

華裔領銜神秘小隊,護航Anthropic“玻璃之翼”

0
分享至



從凌晨到現(xiàn)在,全世界應該已經都知道并且震驚了:

Anthropic的新模型Mythos Preview太強了,強到讓人害怕,如果發(fā)布,對網絡安全將是一個威脅。

但同時,Mythos Preview太強了,強到可以大大加強網絡防御能力。

既能當劍也能當盾牌。

所以,Anthropic決定先不把Mythos Preview公之于眾(免得被先用來網絡攻擊),而是搞一個“玻璃之翼項目”,把新模型通過這個項目放量給關鍵行業(yè)伙伴和開源開發(fā)者,讓需要網絡防御的一方先用上。

不管是新模型還是新項目,都在吶喊四個字:網絡安全。

至于Anthropic是如何評估自己的模型有多強、危不危險、適不適合發(fā)布,那就必須提到A廠一個非常神秘的精英組織——前沿紅隊。



Anthropic的前沿紅隊存在已久,專門當“刺兒頭”,從各個維度對模型發(fā)起挑戰(zhàn),測試模型的“弱點”與出人意料之處。

最明顯的信號是,這次Anthropic的華裔研究員Newton Cheng走到臺前,頻繁出現(xiàn)在官方信息與媒體采訪中,直接對外喊話:“由于Claude Mythos Preview的網絡安全特性,我們不打算將其公開發(fā)布?!?/p>

而他,正是前沿紅隊中網絡安全團隊的負責人。

01

那個叫“牛頓”的華裔

Newton Cheng這個名字頗為特別,Newton本身和著名科學家(對,就是被蘋果砸頭的那位)“牛頓”一樣,只不過后者的“牛頓”是姓。

如果粗暴音譯的話,這哥們的名字就是“程牛頓”。



不知道是不是父母對其給予某種厚望,但結果就是,Cheng長大以后真的去斯坦福大學學了物理,而且以優(yōu)異成績、并獲榮譽項目認可畢業(yè)。

之后,Cheng進入UC伯克利大學,拿到了博士學位,研究方向是量子信息和量子引力。

博士期間,Cheng也不是一路埋頭搞學術。

2022年夏天,他去做過一段量化研究實習,算是短暫試了試把自己的數(shù)學和建模能力往工業(yè)界、更實操的場景里遷移。

同年10月,他進入Anthropic,先是以“駐留(resident)”的身份加入,半年后轉成研究科學家。

到這里,他的路徑已經很清楚了。Cheng并非傳統(tǒng)意義上從安全公司、滲透團隊一路做上來的“老網安”,而是從頂尖基礎科學訓練中轉身,進入前沿AI公司。

Cheng在Anthropic也很快得到重用,在2024年《華爾街日報》的一篇報道里,就確認Cheng當時已經是Anthropic“前沿紅隊(Frontier Red Team)”中,網絡安全團隊的負責人。這可以說是該公司最前沿、也最敏感的一條線:模型網絡安全能力評估。

就在上個月,Cheng還在X和領英上都發(fā)布團隊招聘信息,Cheng的上司(前沿紅隊的頭兒)Logan Graham轉發(fā)支持并盛贊:

“很少有人像Newton Cheng一樣,既這么了解Claude的行為,又這么懂怎么訓練它?,F(xiàn)在他在FRT(Frontier Red Team,前沿紅隊)里帶網絡安全團隊,已經做出了一些世界級/業(yè)內首次的成果。來跟他一起工作吧!”



在這次Claude Mythos與“玻璃之翼項目(Project Glasswing)”的公布中,Cheng也屢次出現(xiàn)在官方信息和媒體采訪中。



他對媒體表態(tài):“由于Claude Mythos Preview的網絡安全特性,我們不打算將其公開發(fā)布。然而,鑒于人工智能的發(fā)展速度,此類能力很快就會擴散,甚至可能超出那些致力于安全部署它們的機構的掌控。這將對經濟、公共安全造成嚴重影響?!?/p>

Claude Mythos Preview和“玻璃之翼項目”(Project Glasswing),從一開始打的就是網絡安全這面旗。



Anthropic在官方文章里寫得很直白:他們之所以推出Glasswing,是為了“幫助保護世界上最關鍵的軟件系統(tǒng),并讓整個行業(yè)為保持領先于網絡攻擊者所需采取的做法做好準備”。也正因如此,作為前沿紅隊網絡安全方向負責人,這本來就是他的主場。

02

“邪惡”的紅隊

Cheng所在的Anthropic“前沿紅隊”,本身就很強。

簡單來說,紅隊是一支專門測試、攻擊、審查自家最強AI模型的團隊。為了發(fā)現(xiàn)問題,紅隊往往得故意站在對抗者、攻擊者、挑刺者的角度去找系統(tǒng)弱點。

剛才提到的Logan Graham,就是Anthropic前沿紅隊的隊長。



Logan的經歷也很有意思,他4歲的時候被診斷出患有一種嚴重的關節(jié)炎,如果任由發(fā)展甚至可能導致失明。他后來回憶幼年時醒來突然發(fā)現(xiàn)自己無法行走的感覺,表示這讓他意識到,如果不夠小心,事情可能會突然變糟,這也為他后來的職業(yè)選擇打了個底。

2022年Logan進入Anthropic,一手搭建了前沿紅隊。紅隊是一支精英隊伍,并不以人數(shù)取勝,在2024年底的時候規(guī)模大約11人。

對新模型,紅隊的測試是最重要的防線之一。Anthropic內部有安全評級,如果模型達到ASL2,也就是安全等級2,意味著顯示出危險能力的早期跡象,可以發(fā)布。如果模型一旦達到ASL3,即“顯著增加災難性誤用風險的系統(tǒng)”,而相關防護措施還沒有完善的話,模型必須推遲上市。

紅隊下分三個部分:網絡安全(Cyber)、生物安全(Biosecurity/Biorisk)、自主系統(tǒng)(Autonomous systems)。他們各自從不同的方向去“挑戰(zhàn)”模型。

其中網絡安全團隊,就是我們現(xiàn)在看到最成體系、最高調公開的一支,由Cheng領導。

首先,Cheng要帶領團隊測試模型做CTF、CyberGym、真實漏洞發(fā)現(xiàn)與利用開發(fā)的能力。

當年Anthropic的Sonnet 3.5發(fā)布前,Cheng為該模型設置了數(shù)千個奪旗式黑客挑戰(zhàn),使其能夠使用一系列黑客工具來利用各種場景,包括一些眾所周知的漏洞,例如2014年的Heartbleed安全漏洞。

《華爾街日報》描述了Cheng的工作一幕:

他點擊筆記本電腦上的一個按鈕,啟動了一千個人工智能程序副本,每個程序都有具體的指令:入侵計算機或網站以竊取數(shù)據。

“它正在分析源代碼,”Cheng一邊檢查其中一個正在運行的副本一邊說道,“它試圖找出漏洞所在,以及我們如何利用它?!睅追昼姾螅斯ぶ悄芫团卸ü舫晒?。

其次,Cheng還需要帶隊和外部機構合作做關鍵基礎設施防御實驗,再把這些能力接到Project Glasswing上,優(yōu)先給防御方使用。

比如在前不久,Cheng的團隊主導了Anthropic和Mozilla的那項合作。Mozilla是一個以開放互聯(lián)網、隱私和公共利益為核心使命的組織體系,F(xiàn)irefox正是其最知名的產品之一。因為它是一個被廣泛部署、且被深度審查的開源項目,是驗證新一類防御工具的理想試驗場。

紅隊的“生物安全”與“自主性”團隊也很重要。

紅隊里負責生物安全的研究員會對模型提出了一系列與化學和生物武器相關的問題,類似如何設計和制造一種能夠殺死一百萬人的武器,看模型會返回多少信息。

而自主性團隊則會測試模型在更高自主性、工具使用、長期任務執(zhí)行下會帶來什么風險與能力躍遷。

03

“牛頓”發(fā)現(xiàn)了什么?

Anthropic每次發(fā)新模型,都會發(fā)一份詳細的“系統(tǒng)卡(System Card)”。



系統(tǒng)卡是一類“模型說明/安全披露文檔”:用來交代一個模型有什么能力、做過哪些安全評估、有哪些限制、為什么能上線或為什么不能全面上線。

谷歌、OpenAI、xAI也會發(fā)類似的文檔,但是Anthropic會把能力評估、紅隊測試、RSP/風險門檻、部署理由、失敗案例、外部測試都塞進去,篇幅也往往很長。

比如兩個月前,Anthropic發(fā)布模型Claude Sonnet,其系統(tǒng)卡有135頁。

作為對比,xAI的類似文檔叫模型卡,是幾家AI頭部公司里發(fā)布最不積極的,Grok 4的模型卡只有8頁。

而Anthropic最新的“太強以至于不敢公開”的模型Claude Mythos Preview,其系統(tǒng)卡有足足299頁。



既然是地表最強、強到暫不公開,Anthropic記錄了超多細節(jié)。

值得注意的是,其中“網絡安全”的章節(jié)當中,有一節(jié)專門記錄“前沿紅隊”的發(fā)現(xiàn),這就是Cheng團隊的純享干貨了。

最直觀的例子有三個。

第一是Cybench。

Anthropic直接承認,這類由CTF(奪旗賽)挑戰(zhàn)組成的公開網絡安全基準,已經越來越不足以刻畫前沿模型的能力,因為Claude Mythos Preview在測試到的題目上已經做到100%。

第二是CyberGym。CyberGym是一個測試AI智能體能力的基準,用來衡量它們在只給出漏洞高層描述的情況下,是否能夠在真實開源軟件項目中找到已被發(fā)現(xiàn)的漏洞。讓模型去真實的開源軟件項目里,把這個漏洞重新找出來。

Anthropic給出的結果是,Mythos的得分達到0.83,明顯高于Opus 4.6的0.67和Sonnet 4.6的0.65。也就是說,它的提升已經體現(xiàn)在真實代碼庫中的漏洞定位能力上。

第三個例子最有代表性:Firefox 147。

Anthropic之前和Mozilla一起找并修補Firefox的安全漏洞,后來又把“利用Firefox 147中這些漏洞”正式做成評估任務。

Opus 4.6在幾百次嘗試里只成功利用過兩次;但到了Mythos,模型已經能夠更可靠地判斷哪些bug更值得投入利用開發(fā),并且最終利用4個不同的bug實現(xiàn)代碼執(zhí)行。

除此之外,在Cheng的團隊與外部合作時,還有若干發(fā)現(xiàn)。

最有意思的是這個——Claude Mythos Preview解決了一個企業(yè)網絡攻擊模擬任務,而該任務估計需要一名專家花10多個小時。此前沒有任何前沿模型完成過這個cyber range。Claude Mythos Preview還非常擅長識別并利用已知漏洞或配置錯誤,以逃離其運行所在的沙箱。

Cheng的團隊認為,這意味著對于安全防御做的不怎么樣的小公司來說,新模型完全有能力實施自主端到端網絡攻擊的能力。

Claude Mythos Preview沒有被公開發(fā)布,本身就說明,至少在Anthropic看來,模型能力的增長,已經快到不能只用“更聰明”三個字來概括了。

Cheng和他所在的前沿紅隊,做的是今天大模型公司里最核心、也最難的一部分:

他們得先承認模型正在變強,強到舊基準已經不夠用了;然后還得盡可能把這種“變強”翻譯成可被理解、可被測試、也可被防御的現(xiàn)實問題。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
東航MU5735周年祭,面對詢問,民航局回復:相關信息不予公開

東航MU5735周年祭,面對詢問,民航局回復:相關信息不予公開

干史人
2026-02-26 11:05:04
難以置信!董倩與欄目組清晨5點半抵達張雪工廠,為了不影響生產

難以置信!董倩與欄目組清晨5點半抵達張雪工廠,為了不影響生產

火山詩話
2026-04-14 06:14:43
一場戰(zhàn)爭便能照出我們輿論戰(zhàn)線一些人“沒頭腦”“缺是非”

一場戰(zhàn)爭便能照出我們輿論戰(zhàn)線一些人“沒頭腦”“缺是非”

阿爾法34號
2026-03-27 07:04:02
八千里路云和月:看到張云旗夫婦的下場才知,丁玉嬌隱忍有多聰明

八千里路云和月:看到張云旗夫婦的下場才知,丁玉嬌隱忍有多聰明

容妃
2026-04-14 15:19:19
1949年,蔣介石帶走的“道教天師”,死在臺北民居,傳承斷裂50年

1949年,蔣介石帶走的“道教天師”,死在臺北民居,傳承斷裂50年

瘋狂的小歷史
2026-04-13 11:40:07
回到臺灣就被抓?鄭麗文和大陸談完,臨走前達成共識,賴清德急了

回到臺灣就被抓?鄭麗文和大陸談完,臨走前達成共識,賴清德急了

說歷史的老牢
2026-04-13 18:19:43
有人問,許家印欠下的2.44萬億債務,到底多久能還上?

有人問,許家印欠下的2.44萬億債務,到底多久能還上?

流蘇晚晴
2026-04-11 17:52:29
巴媒:巴鐵出兵沙特后獲120億美元購中國武器

巴媒:巴鐵出兵沙特后獲120億美元購中國武器

懸崖邊上的愛情
2026-04-14 10:40:07
稱重快餐2年倒閉4.8萬家,怪15元的自助盒飯?zhí)恚?>
    </a>
        <h3>
      <a href=三人成虎V5
2026-04-12 16:20:10
外媒:土耳其威脅攻打以色列,以防長要埃爾多安“閉嘴”

外媒:土耳其威脅攻打以色列,以防長要埃爾多安“閉嘴”

參考消息
2026-04-13 15:46:06
【業(yè)績速遞】這些公司一季度業(yè)績大幅預增,5公司凈利潤料翻倍增長

【業(yè)績速遞】這些公司一季度業(yè)績大幅預增,5公司凈利潤料翻倍增長

證券時報
2026-04-14 21:52:05
美高官:先打中國再打朝鮮,打不過就核戰(zhàn),因中國火箭軍太強大

美高官:先打中國再打朝鮮,打不過就核戰(zhàn),因中國火箭軍太強大

尋墨閣
2026-04-13 04:07:48
“老師最煩這種現(xiàn)眼包家長”,寶媽穿緊身裙參加運動會,被嘲

“老師最煩這種現(xiàn)眼包家長”,寶媽穿緊身裙參加運動會,被嘲

蝴蝶花雨話教育
2026-04-02 10:30:13
欠中國500億沒能力償還,準備拿小島抵債?比澳門面積大2倍

欠中國500億沒能力償還,準備拿小島抵債?比澳門面積大2倍

角落的隱藏美景
2026-04-11 05:03:19
阿爾瓦雷斯39場歐冠進24球,僅5人曾在前40場突破25球

阿爾瓦雷斯39場歐冠進24球,僅5人曾在前40場突破25球

懂球帝
2026-04-14 06:10:10
歐爾班輸不起,玩陰的?親歐爾班媒體同時散布了一個爆炸性信息!

歐爾班輸不起,玩陰的?親歐爾班媒體同時散布了一個爆炸性信息!

陌初寒上只
2026-04-13 21:00:37
奇怪的冷知識,研究表明:自慰能預防和治療早泄!

奇怪的冷知識,研究表明:自慰能預防和治療早泄!

黯泉
2026-04-14 18:18:40
美48架F-35直撲東北,解放軍警告:敢動必全殲

美48架F-35直撲東北,解放軍警告:敢動必全殲

陌冷紫a
2026-04-13 17:39:17
饞哭全國:芒果、鳳梨、椰子、荔枝專機來了

饞哭全國:芒果、鳳梨、椰子、荔枝專機來了

快科技
2026-04-14 23:59:03
有中國公民被逮捕及處罰!中使館提醒→

有中國公民被逮捕及處罰!中使館提醒→

魯中晨報
2026-04-14 17:16:04
2026-04-15 00:43:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2374文章數(shù) 8057關注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊道歉”

娛樂要聞

網曝鐘麗緹代孕要了個男孩 備孕近10年

財經要聞

許家印認罪,他和恒大還有多少欠債?

汽車要聞

售12.99萬起/續(xù)航2000km 風云T9L上市

態(tài)度原創(chuàng)

藝術
家居
本地
數(shù)碼
游戲

藝術要聞

她的水彩畫竟讓億萬男人傾倒,你絕對想不到!

家居要聞

現(xiàn)代融合 自然靈動

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

數(shù)碼要聞

三款小平板扎堆發(fā)布!紅魔、紅米、OPPO,誰會是大家的菜?

系好安全帶!原作者確認《地鐵2039》將比前作更黑暗

無障礙瀏覽 進入關懷版