国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.5通關(guān)黑客模擬測試,AI攻擊能力進(jìn)入新階段

0
分享至

英國人工智能安全研究所(AISI)最新測試顯示,OpenAI的GPT-5.5與Anthropic的Claude Mythos Preview在網(wǎng)絡(luò)安全評估中打成平手。兩家頂尖模型的攻擊能力雙雙突破關(guān)鍵閾值——這是行業(yè)首次出現(xiàn)多款模型能獨(dú)立完成多階段企業(yè)網(wǎng)絡(luò)入侵模擬。

測試背后有個值得玩味的細(xì)節(jié):GPT-5.5在孤立的安全任務(wù)上甚至小幅領(lǐng)先,但在完整的32步網(wǎng)絡(luò)滲透中,成功率反而略低于對手。這種"單項(xiàng)強(qiáng)、綜合弱"的反差,暴露出當(dāng)前AI攻擊能力的真實(shí)邊界。


測試設(shè)計(jì):95道題與兩座"網(wǎng)絡(luò)迷宮"

AISI的評估體系分為兩層。第一層是95道奪旗賽題目,按難度分為四級,覆蓋逆向工程、內(nèi)存漏洞利用開發(fā)、密碼學(xué)攻擊、混淆惡意軟件分析等技能。這些題目由網(wǎng)絡(luò)安全公司Crystal Peak Security和Irregular聯(lián)合設(shè)計(jì)。

在最高"專家"難度,GPT-5.5平均成功率71.4%,Claude Mythos Preview為68.6%。差距在統(tǒng)計(jì)誤差范圍內(nèi),但兩者已明顯甩開前輩——GPT-5.4僅52.4%,Claude Opus 4.7只有48.6%。

第二層是更關(guān)鍵的"網(wǎng)絡(luò)靶場"測試。模擬真實(shí)企業(yè)環(huán)境,包含多臺主機(jī)、服務(wù)和漏洞,考驗(yàn)AI連續(xù)決策能力。

其中"The Last Ones"(TLO)模擬覆蓋4個子網(wǎng)、約20臺主機(jī),共32個步驟。AI從零權(quán)限起步,需自行發(fā)現(xiàn)漏洞、竊取憑證、橫向移動,最終抵達(dá)受保護(hù)數(shù)據(jù)庫。AISI估計(jì),人類專家完成需約20小時。

GPT-5.5在10次嘗試中完全通關(guān)2次,Claude Mythos Preview為3次。這是目前僅有的兩款能獨(dú)立完成TLO的模型。

算力Scaling:越"想"越能打

AISI發(fā)現(xiàn),推理計(jì)算量與成功率正相關(guān)。模型分配的"思考"令牌越多,成功入侵概率越高,且尚未觸及天花板。

這意味著當(dāng)前成績并非能力上限。只要愿意燒更多算力,兩款模型還有提升空間——對防御方而言,這不是好消息。

但測試條件存在重大簡化:沒有主動防御、沒有安全監(jiān)控、沒有真實(shí)世界的警報后果。GPT-5.5和Mythos能否突破加固系統(tǒng),仍是未知數(shù)。不過針對防護(hù)薄弱的網(wǎng)絡(luò),能力已經(jīng)到位。

工業(yè)系統(tǒng)仍是盲區(qū)

第二個模擬場景"Cooling Tower"聚焦工業(yè)控制系統(tǒng)攻擊,共7個步驟。目前尚無模型能通關(guān)。

GPT-5.5與Mythos一樣,卡在IT層面的前置步驟,而非工控系統(tǒng)本身。關(guān)鍵基礎(chǔ)設(shè)施的物理隔離和專用協(xié)議,暫時構(gòu)成AI難以跨越的障礙。

從個案到趨勢:能力躍遷的副產(chǎn)品

AISI將此次結(jié)果視為 broader pattern 的印證。Claude Mythos在2026年4月展現(xiàn)的攻擊能力,并非孤例,而是自主性、推理能力和編程能力綜合提升的必然結(jié)果。

這解釋了為何兩款架構(gòu)不同的模型幾乎同時突破閾值。底層能力的進(jìn)步,正在批量轉(zhuǎn)化為可被用于攻擊的實(shí)操技能。

對安全從業(yè)者來說,一個尷尬的現(xiàn)實(shí)是:基礎(chǔ)奪旗題早在2026年2月就被所有前沿模型滿分攻克。專家級任務(wù)的防線也在快速失守?,F(xiàn)在連多階段網(wǎng)絡(luò)滲透這種"畢業(yè)考試",都有模型能獨(dú)立通關(guān)。

防御方的窗口期正在收窄。當(dāng)AI的攻擊能力從"需要人類輔助"進(jìn)化到"給定目標(biāo)即可自主執(zhí)行",安全運(yùn)營中心的響應(yīng)流程、威脅狩獵的假設(shè)前提,都需要重新設(shè)計(jì)。

更深層的問題在于評估本身。AISI的測試是"開卷考試"——已知環(huán)境、已知漏洞、無對抗。真實(shí)攻擊是"閉卷"且"有監(jiān)考"的。模型在壓力下的表現(xiàn)衰減、面對未知漏洞的泛化能力、被檢測后的應(yīng)變策略,這些維度目前缺乏系統(tǒng)評估。

但即便考慮這些折扣,兩款模型展現(xiàn)的規(guī)劃能力和工具調(diào)用連貫性,已經(jīng)超出傳統(tǒng)自動化攻擊框架的范疇。它們不是更快腳本,而是能根據(jù)中間結(jié)果動態(tài)調(diào)整策略的"學(xué)徒級"攻擊者。

Claude Mythos Preview的領(lǐng)先幅度(3/10對2/10)小到可以忽略,卻暗示了微妙差異:Anthropic在模型對齊上的投入,并未以犧牲攻擊任務(wù)表現(xiàn)為代價。這與"安全訓(xùn)練會削弱能力"的常見假設(shè)形成有趣對照。

GPT-5.5的單項(xiàng)任務(wù)優(yōu)勢與綜合場景劣勢,則可能反映OpenAI的訓(xùn)練側(cè)重——針對明確目標(biāo)優(yōu)化,長鏈條自主規(guī)劃相對薄弱。這種差異會隨后續(xù)迭代縮小還是放大,值得持續(xù)觀察。

工業(yè)控制場景的集體失敗,暫時劃定了AI攻擊能力的物理邊界。但"Cooling Tower"僅7步且無人通關(guān),恰恰說明這個邊界距離日常IT網(wǎng)絡(luò)還很遠(yuǎn)。關(guān)鍵基礎(chǔ)設(shè)施的防御者獲得喘息空間,企業(yè)網(wǎng)絡(luò)的防守方?jīng)]有。

最耐人尋味的或許是AISI的措辭選擇。他們將結(jié)果框定為"趨勢證據(jù)",而非單純的技術(shù)里程碑。這種表述暗示:類似能力的模型將批量涌現(xiàn),監(jiān)管和防御需要針對"一類系統(tǒng)"而非"個別產(chǎn)品"做準(zhǔn)備。

當(dāng)攻擊能力成為大模型的標(biāo)配而非賣點(diǎn),安全評估的重心也將轉(zhuǎn)移。從"能否做"到"多容易做"、"多快能做"、"多隱蔽能做",這些操作層面的指標(biāo),會比通關(guān)率更能指導(dǎo)實(shí)際防御。

畢竟,2/10的成功率對競賽成績是羞辱,對真實(shí)攻擊者是可接受的試錯成本——只要每次嘗試足夠便宜,且不被發(fā)現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
場均19+7+5!火箭出局,阿門身價下滑?無投射能力,難獲5年2.5億

場均19+7+5!火箭出局,阿門身價下滑?無投射能力,難獲5年2.5億

熊哥愛籃球
2026-05-02 17:36:22
賴昌星曾說一生只愛過2個女人,第二個地位超過結(jié)發(fā)妻子

賴昌星曾說一生只愛過2個女人,第二個地位超過結(jié)發(fā)妻子

呆子的故事
2025-09-18 17:56:45
“內(nèi)鬼”露餡!國民黨遭滅頂之災(zāi),2大勢力聯(lián)手、布局圍剿鄭麗文

“內(nèi)鬼”露餡!國民黨遭滅頂之災(zāi),2大勢力聯(lián)手、布局圍剿鄭麗文

杰絲聊古今
2026-05-02 05:31:58
孫楊報案,評論區(qū)笑死我了……

孫楊報案,評論區(qū)笑死我了……

麥杰遜
2026-05-01 20:17:51
寧德時代發(fā)放年終獎

寧德時代發(fā)放年終獎

新浪財經(jīng)
2026-04-29 20:52:16
目標(biāo)明確!小勒布倫最新采訪:我們贏中國隊(duì),不靠我擊敗王楚欽

目標(biāo)明確!小勒布倫最新采訪:我們贏中國隊(duì),不靠我擊敗王楚欽

鳳幻洋
2026-05-02 16:02:37
日本慘敗,湯杯4強(qiáng)出爐,尤杯半決賽國羽最強(qiáng)陣容出戰(zhàn)

日本慘敗,湯杯4強(qiáng)出爐,尤杯半決賽國羽最強(qiáng)陣容出戰(zhàn)

佑銘羽球
2026-05-02 08:05:14
女子給男主播刷4萬禮物,私下見面想親熱被拒絕,氣得要求退錢

女子給男主播刷4萬禮物,私下見面想親熱被拒絕,氣得要求退錢

新游戲大妹子
2026-04-27 10:57:55
一個75歲退休老頭在德云社干了216場,年收入曝光后網(wǎng)友沉默了

一個75歲退休老頭在德云社干了216場,年收入曝光后網(wǎng)友沉默了

小娛樂悠悠
2026-05-02 10:47:26
場均慘負(fù)29.3分!41歲詹姆斯擊落火箭又迎天敵雷霆

場均慘負(fù)29.3分!41歲詹姆斯擊落火箭又迎天敵雷霆

體壇周報
2026-05-02 17:02:09
斯諾克世錦賽賽程:決賽席位將出,吳宜澤vs艾倫第三階段17點(diǎn)開打

斯諾克世錦賽賽程:決賽席位將出,吳宜澤vs艾倫第三階段17點(diǎn)開打

小彭美識
2026-05-02 11:42:43
國民黨通告兩岸,臺灣最大靠山已浮現(xiàn),大陸回敬一句話

國民黨通告兩岸,臺灣最大靠山已浮現(xiàn),大陸回敬一句話

花顏蘊(yùn)韻
2026-05-02 12:55:40
擠爆了!景區(qū)酒店大堂地上睡滿人……重要提醒:開始“大跳水”

擠爆了!景區(qū)酒店大堂地上睡滿人……重要提醒:開始“大跳水”

阜陽發(fā)布
2026-05-02 16:21:59
繼亨德利后,世錦賽六冠王戴維斯也痛批艾倫:“這讓斯諾克蒙羞”

繼亨德利后,世錦賽六冠王戴維斯也痛批艾倫:“這讓斯諾克蒙羞”

求球不落諦
2026-05-02 10:35:55
歲辰:一首寫給自己的無聲音符

歲辰:一首寫給自己的無聲音符

疾跑的小蝸牛
2025-12-28 21:43:36
97年我跑長途捎了一位尼姑,尼姑下車時送我三句話,三年后全應(yīng)驗(yàn)

97年我跑長途捎了一位尼姑,尼姑下車時送我三句話,三年后全應(yīng)驗(yàn)

千秋文化
2026-04-29 19:09:51
人一生得癌概率有多高?醫(yī)生:頭發(fā)早白的人,癌癥風(fēng)險或更低

人一生得癌概率有多高?醫(yī)生:頭發(fā)早白的人,癌癥風(fēng)險或更低

路醫(yī)生健康科普
2026-05-02 16:40:03
林彪坦言鄧華是個危險人物,必須趕出軍隊(duì),鄧小平:讓他當(dāng)副省長

林彪坦言鄧華是個危險人物,必須趕出軍隊(duì),鄧小平:讓他當(dāng)副省長

揚(yáng)平說史
2026-05-01 23:02:31
5月2日央視節(jié)目單,斯諾克世錦賽決賽將誕生,希金斯沖歷史紀(jì)錄

5月2日央視節(jié)目單,斯諾克世錦賽決賽將誕生,希金斯沖歷史紀(jì)錄

等等talk
2026-05-02 07:31:09
淚目了!河南三門峽24歲女子上午領(lǐng)結(jié)婚證,下午丈夫就出車禍癱瘓

淚目了!河南三門峽24歲女子上午領(lǐng)結(jié)婚證,下午丈夫就出車禍癱瘓

社會日日鮮
2026-05-02 10:24:30
2026-05-02 18:12:49
碼上閑敘
碼上閑敘
有態(tài)度網(wǎng)友ytd
3228文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

AI熱潮耗盡庫存,Mac Mini起售調(diào)高200美元

頭條要聞

伊朗高級官員:伊美間再次爆發(fā)軍事沖突可能性很大

頭條要聞

伊朗高級官員:伊美間再次爆發(fā)軍事沖突可能性很大

體育要聞

休賽期總冠軍,輪到休斯頓火箭

娛樂要聞

白百何罕曬大兒子 18歲元寶越來越帥

財經(jīng)要聞

雷軍很努力 小米還是跌破了30港元大關(guān)

汽車要聞

新紀(jì)錄!零跑汽車4月交付達(dá)71387臺

態(tài)度原創(chuàng)

藝術(shù)
家居
旅游
房產(chǎn)
數(shù)碼

藝術(shù)要聞

色塊與筆觸的激情之旅!

家居要聞

靈動實(shí)用 生活藝術(shù)場

旅游要聞

五一假期潮玩北京,無畏巡回“競娛游”新體驗(yàn)

房產(chǎn)要聞

所有戶型全賣爆!海口TOP級豪宅,景觀樣板間五一全線開放!

數(shù)碼要聞

StarTech推出業(yè)界首創(chuàng)MacBook免驅(qū)USB4原生雙屏擴(kuò)展塢

無障礙瀏覽 進(jìn)入關(guān)懷版