国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

斯坦福新研究:AI“黑客”表現(xiàn)超越9成人類專家,成本僅1/14

0
分享至


智東西
編譯 王欣逸
編輯 程茜

智東西12月12日消息,昨天,斯坦福大學(xué)研究團(tuán)隊(duì)發(fā)布最新研究,在探查斯坦福大學(xué)工程學(xué)院網(wǎng)絡(luò)漏洞的測(cè)試中,他們新推出并開源的Multi-Agent(多Agent)框架ARTEMIS表現(xiàn)超越了90%的人類專家,全面超越現(xiàn)有的Agent框架,而其實(shí)際成本約為人力的1/14。

ARTEMIS具備動(dòng)態(tài)提示生成、任意子Agent調(diào)用和自動(dòng)漏洞分級(jí)評(píng)估功能,在實(shí)際應(yīng)用中,它能完成復(fù)雜的網(wǎng)絡(luò)任務(wù),可以對(duì)網(wǎng)絡(luò)進(jìn)行掃描,找出潛在漏洞和軟件安全隱患,并探尋利用這些漏洞的方法。

本次實(shí)驗(yàn),研究人員讓ARTEMIS與10名人類滲透測(cè)試專家、多個(gè)現(xiàn)有的Agent框架共同執(zhí)行任務(wù),讓他們對(duì)斯坦福大學(xué)工程學(xué)院的網(wǎng)絡(luò)進(jìn)行探查,但不得實(shí)際入侵,以此來(lái)全面評(píng)估他們的探查能力。結(jié)果顯示,基于OpenAI的GPT-5的ARTEMIS框架綜合表現(xiàn)位列第二,共發(fā)現(xiàn)9個(gè)有效漏洞,提交有效率達(dá)82%,其表現(xiàn)優(yōu)于十位人類參與者中的九位,全面碾壓其他Agent框架,包括基于同一底層模型GPT-5的單Agent自主框架Codex和CyAgent。


▲P為人類網(wǎng)絡(luò)安全專業(yè)人員;A1、A2分別是ARTEMIS兩個(gè)不同配置的框架,前者基于GPT-5,后者基于集成模型;CO、CS和CG分別是使用GPT-5模型作為基礎(chǔ)來(lái)運(yùn)行的單Agent自主框架Codex、使用Claude Sonnet 4模型作為基礎(chǔ)來(lái)運(yùn)行單Agent自主框架CyAgent和使用GPT-5模型作為基礎(chǔ)來(lái)運(yùn)行CyAgent。

除了擁有與頂尖滲透測(cè)試專家相當(dāng)甚至超越的性能之外,ARTEMIS把成本也打下來(lái)了,搭載GPT-5的ARTEMIS框架每小時(shí)成本約為18美元(約合人民幣127.1元),約為美國(guó)滲透測(cè)試員時(shí)薪的1/14。

不過(guò),論文指出,ARTEMIS還存在處理基于圖形用戶界面(GUI)的任務(wù)時(shí)有困難、比人類更高的誤報(bào)率等短板。

該論文現(xiàn)已發(fā)布在arXiv上,題為《將AI Agents與網(wǎng)絡(luò)安全專業(yè)人員在真實(shí)世界滲透測(cè)試中的表現(xiàn)進(jìn)行比較(Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing)》。


論文地址:https://arxiv.org/abs/2512.09882

一、綜合排名第二,全面碾壓現(xiàn)有Agent框架,還能提升原始模型性能

研究人員建立了ARTEMIS框架下的兩個(gè)對(duì)照組,以評(píng)估不同配置下的ARTEMIS框架性能。一個(gè)是使用OpenAI的GPT-5作為監(jiān)督器和子Agent的A1,另一個(gè)是使用集成模型作為監(jiān)督器、Anthropic的編程模型Claude Sonnet 4作為子Agent的A2,集成模型包括了以下模型:OpenAI的推理模型o3和o3 Pro、Anthropic的編程模型Claude Sonnet 4和Claude Opus 4,以及谷歌的Gemini 2.5 Pro。

從結(jié)果來(lái)看,A2在和一眾人類滲透測(cè)試專家、現(xiàn)有的Multi-Agent框架的比較中位列第二名,共發(fā)現(xiàn)9個(gè)有效漏洞,提交有效率達(dá)82%,其表現(xiàn)優(yōu)于10位人類參與者中的9位。A1則打敗了5名人類參與者,位列第七名。

除ARTEMIS外,分?jǐn)?shù)最高的Agents框架CO(基于GPT-5的Codex)僅超越了兩位人類參與者,而CS(基于Claude Sonnet 4的CyAgent)和CG(基于GPT-5的CyAgent)落后于所有人類參與者,CS的總得分僅為A2的四分之一。

從漏洞的質(zhì)量來(lái)看,人類參與者發(fā)現(xiàn)的Critical(關(guān)鍵)漏洞占據(jù)了更大的比例;ARTEMIS框架的兩個(gè)配置A1和A2發(fā)現(xiàn)的關(guān)鍵漏洞比例更小,且誤判的內(nèi)容相對(duì)較多;A1和A2雖然提交了相同數(shù)量的漏洞,但A1的正確率僅為55%,關(guān)鍵漏洞僅占18%,而A2的關(guān)鍵漏洞占比則達(dá)到了45%,這表明不同的模型組合和配置對(duì)框架整體性能有影響,A2的多模型架構(gòu)可能在處理復(fù)雜任務(wù)和減少誤報(bào)方面更為有效。


在時(shí)間上,人類參與者和ARTEMIS框架的表現(xiàn)也不盡相同。ARTEMIS框架表現(xiàn)出了長(zhǎng)時(shí)間、持續(xù)、但間歇性產(chǎn)出的節(jié)奏,在提交漏洞之間通常有更長(zhǎng)的間隔時(shí)間;人類參與者則呈現(xiàn)出了高度可變、依賴靈感和集中爆發(fā)的節(jié)奏。他們的活躍時(shí)間(通過(guò)鍵盤輸入判斷)和漏洞提交時(shí)間點(diǎn)分布不均勻。


值得一提的是,ARTEMIS和人類最根本的區(qū)別是,ARTEMIS在發(fā)現(xiàn)一個(gè)值得關(guān)注的目標(biāo)后,會(huì)立即在后臺(tái)啟動(dòng)一個(gè)專用的子Agent去探測(cè)它,同時(shí)主線繼續(xù)進(jìn)行其他工作,在峰值時(shí),ARTEMIS可以達(dá)到8個(gè)子Agents并行運(yùn)行。

此外,從網(wǎng)絡(luò)安全基準(zhǔn)測(cè)試Cybench的表現(xiàn)來(lái)看,在基于GPT-5的Artemis框架和Claude 4.5 Sonnet、GPT-5等模型能力對(duì)比中,ARTEMIS以48.6%的成功率位列第二,僅次于Claude 4.5 Sonnet(55%),且略高于其底層模型GPT-5(45.9%)。


這一結(jié)果意味著,ARTEMIS框架在解決網(wǎng)絡(luò)安全問(wèn)題中,具備與頂級(jí)大模型相當(dāng)?shù)哪芰?,且在一定程度上提升了基礎(chǔ)模型的性能。

二、由監(jiān)督器、子Agent、分級(jí)器組成,成本僅為人類專家的1/14

現(xiàn)有的針對(duì)網(wǎng)絡(luò)安全AI Agent的研究主要有三類:一是PentestGPT等需要人類引導(dǎo)等半自主框架;二是Codex、CyAgent等能獨(dú)立運(yùn)行但能力有限的單Agent自主框架;三是Incalmo、MAPTA等Multi-Agent(多Agent)自主框架。

論文中提到,ARTEMIS是一個(gè)復(fù)雜的Multi-Agent框架,被設(shè)計(jì)用來(lái)對(duì)真實(shí)世界的生產(chǎn)系統(tǒng)進(jìn)行長(zhǎng)周期、復(fù)雜、滲透性測(cè)試,該框架目前已開源。

它有三個(gè)核心組件:一個(gè)監(jiān)督器,負(fù)責(zé)管理工作流;一組任意子Agents集群,負(fù)責(zé)執(zhí)行具體任務(wù);一個(gè)漏洞分級(jí)器,負(fù)責(zé)漏洞驗(yàn)證。


ARTEMIS借鑒了現(xiàn)有編程Agent的設(shè)計(jì),并通過(guò)任務(wù)列表、筆記系統(tǒng)和智能摘要機(jī)制,達(dá)到了比現(xiàn)有Agent持續(xù)運(yùn)行時(shí)間更長(zhǎng)的能力。在分配任務(wù)時(shí),其自定義提示生成模塊會(huì)為子Agent創(chuàng)建任務(wù)特定的系統(tǒng)指令。因此,ARTEMIS有著動(dòng)態(tài)生成系統(tǒng)提示、上下文管理和分級(jí)報(bào)告等功能的優(yōu)勢(shì)性。

此外,ARTEMIS在經(jīng)濟(jì)成本上也相當(dāng)占優(yōu)。以基于GPT-5的ARTEMIS框架A1來(lái)看,論文指出,A1每小時(shí)成本約為18.21美元(約合人民幣128.6元),按每周40小時(shí)計(jì)算,其年化成本約為3.78萬(wàn)美元(約合人民幣26.7萬(wàn)元)。

而人類滲透測(cè)試人員的每日收費(fèi)通常在2000至2500美元左右(約合人民幣1.41萬(wàn)元至1.77萬(wàn)元),按每日工作8小時(shí)計(jì)算,時(shí)薪約為250美元至312美元(約合人民幣1765元至2204元),是ARTEMIS框架每小時(shí)成本的14倍多;市場(chǎng)上美國(guó)滲透測(cè)試員的的年薪平均為12.5萬(wàn)美元(約合人民幣88.29萬(wàn)元),是ARTEMIS框架年成本的3倍多。即使是使用每小時(shí)成本更高的A2(約為59美元,約合人民幣416.7元),其成本也低于人類專家。

三、具備執(zhí)行技術(shù),短板是找不到漏洞和GUI限制

不過(guò),據(jù)《華爾街日?qǐng)?bào)》報(bào)道,ARTEMIS并非完美無(wú)缺,在誤報(bào)率上,A2誤報(bào)了18%的漏洞,A1失誤的更多。除了失誤外,ARTEMIS還完全遺漏了一個(gè)大多數(shù)人類測(cè)試人員能輕易發(fā)現(xiàn)的明顯漏洞。

ARTEMIS頻繁提交漏洞報(bào)告,卻很少發(fā)現(xiàn)目標(biāo)漏洞,而且總是發(fā)現(xiàn)低嚴(yán)重性、低復(fù)雜度或無(wú)法利用的漏洞。這種遺漏與誤報(bào)的背后,可能與ARTEMIS的決策邏輯有關(guān)。論文指出,ARTEMIS框架提交漏洞報(bào)告次數(shù)的增加與未發(fā)現(xiàn)目標(biāo)漏洞存在相關(guān)性,這可能是因?yàn)锳RTEMIS在主機(jī)上發(fā)現(xiàn)其他漏洞后便轉(zhuǎn)移了目標(biāo)。

研究人員稱,ARTEMIS的瓶頸在于識(shí)別漏洞模式而非技術(shù)執(zhí)行能力。在中、高等級(jí)的提示下,ARTEMIS成功找到了大部分目標(biāo)漏洞,這表明ARTEMIS具備漏洞的技術(shù)執(zhí)行能力。當(dāng)提示信息減少,僅提供低等級(jí)、僅信息和僅主機(jī)提示時(shí),ARTEMIS成功率急劇下降,即它的自主識(shí)別攻擊入口和識(shí)別漏洞的能力不足。此外ARTEMIS還存在行為不確定性,在“未經(jīng)身份驗(yàn)證的遠(yuǎn)程控制臺(tái)訪問(wèn)”這一任務(wù)中,ARTEMIS在高等級(jí)提示下依然任務(wù)失敗,在中等級(jí)和僅主機(jī)提示下卻能完成任務(wù)。


此外,ARTEMIS還存在一個(gè)關(guān)鍵限制,作為基于命令行和文本分析的AI,它無(wú)法通過(guò)圖形用戶界面(GUI)與瀏覽器進(jìn)行交互。

斯坦福大學(xué)工程學(xué)院系統(tǒng)與網(wǎng)絡(luò)安全負(fù)責(zé)人亞歷克斯·凱勒(Alex Keller)稱:“此前斯坦福大學(xué)的網(wǎng)絡(luò)從未遭受過(guò)AI程序的攻擊,此次實(shí)驗(yàn)似乎是彌補(bǔ)斯坦福大學(xué)網(wǎng)絡(luò)安全漏洞的一種有效方式。在我看來(lái),實(shí)驗(yàn)的益處遠(yuǎn)大于任何風(fēng)險(xiǎn)?!?/p>

斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授丹·博內(nèi)(Dan Boneh)為該研究提供了建議:“鑒于全球大部分代碼都未經(jīng)過(guò)安全漏洞測(cè)試,ARTEMIS等工具將幫助網(wǎng)絡(luò)安全專業(yè)人士發(fā)現(xiàn)并修復(fù)比以往更多的代碼漏洞。”此次測(cè)試,ARTEMIS就發(fā)現(xiàn)了斯坦福大學(xué)存在的一個(gè)有安全問(wèn)題的過(guò)期網(wǎng)頁(yè)。

結(jié)語(yǔ):正探索多Agent框架的配置優(yōu)化與架構(gòu)迭代

在真實(shí)環(huán)境中與人類的滲透測(cè)試和基準(zhǔn)測(cè)試Cybench均顯示,ARTEMIS不僅在其在復(fù)雜現(xiàn)實(shí)任務(wù)中達(dá)到了可與頂尖人類專家持平甚至超越的能力,在顯著優(yōu)于其他現(xiàn)有Agent框架的同時(shí)還做到了不損害模型的原始能力,并在原始模型上實(shí)現(xiàn)了能力的提高。

為軟件開發(fā)者與白帽黑客提供協(xié)作平臺(tái)的機(jī)構(gòu)HackerOne的調(diào)研報(bào)告指出:當(dāng)前已有70%的安全研究人員開始采用AI工具輔助漏洞挖掘。

AI在自動(dòng)化網(wǎng)絡(luò)攻擊領(lǐng)域正在走向?qū)崙?zhàn)應(yīng)用。研究人員稱,他們未來(lái)將持續(xù)探索這一領(lǐng)域,創(chuàng)建可運(yùn)行的環(huán)境副本,對(duì)不同的Agent架構(gòu)、配置和模型進(jìn)行消融實(shí)驗(yàn),優(yōu)化基礎(chǔ)設(shè)施,還將與企業(yè)合作開展漏洞賞金計(jì)劃等。

來(lái)源:《華爾街日?qǐng)?bào)》、arXiv

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
回天乏術(shù)!衛(wèi)星圖像證實(shí)俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

回天乏術(shù)!衛(wèi)星圖像證實(shí)俄潛艇遭重創(chuàng):碼頭現(xiàn)9米混凝土彈坑!

軍迷戰(zhàn)情室
2025-12-17 21:26:46
不要做“精神芬蘭人”,哪怕他們坐商務(wù)艙

不要做“精神芬蘭人”,哪怕他們坐商務(wù)艙

觀察者網(wǎng)
2025-12-18 13:55:08
網(wǎng)傳宋丹丹年輕時(shí)曾追求過(guò)許亞軍,端著飯盒追,卻還是被對(duì)方拒絕

網(wǎng)傳宋丹丹年輕時(shí)曾追求過(guò)許亞軍,端著飯盒追,卻還是被對(duì)方拒絕

小徐講八卦
2025-12-19 12:08:43
社會(huì)主義中國(guó)不能允許如此大規(guī)模當(dāng)?shù)?>
    </a>
        <h3>
      <a href=凱利經(jīng)濟(jì)觀察
2025-12-18 09:35:23
足協(xié)一抓就差!U15東亞杯從4-2到0-3:恒大足校含金量嗖嗖往上升

足協(xié)一抓就差!U15東亞杯從4-2到0-3:恒大足校含金量嗖嗖往上升

足球大腕
2025-12-18 20:30:12
奔馳搭載吉利發(fā)動(dòng)機(jī) 中國(guó)動(dòng)力首次搭上德系車

奔馳搭載吉利發(fā)動(dòng)機(jī) 中國(guó)動(dòng)力首次搭上德系車

中車網(wǎng)評(píng)
2025-12-18 08:42:48
日本當(dāng)紅女星深田恭子,婚前背叛富豪男友,出軌著名導(dǎo)演共度春宵

日本當(dāng)紅女星深田恭子,婚前背叛富豪男友,出軌著名導(dǎo)演共度春宵

我真的服
2025-12-19 15:16:10
出嫁前3天彩禮漲到28.8萬(wàn)后續(xù):男方堅(jiān)持退婚,女子曝光已社死

出嫁前3天彩禮漲到28.8萬(wàn)后續(xù):男方堅(jiān)持退婚,女子曝光已社死

千言?shī)蕵?lè)記
2025-12-13 18:34:13
雷達(dá)數(shù)據(jù)顯示美軍戰(zhàn)機(jī)在委內(nèi)瑞拉首都附近空域活動(dòng)

雷達(dá)數(shù)據(jù)顯示美軍戰(zhàn)機(jī)在委內(nèi)瑞拉首都附近空域活動(dòng)

極目新聞
2025-12-19 12:40:19
照片曝光!尹錫悅曾修建“秘密通道”掩蓋“上班遲到”,此前他多次被批“上班遲到下班卡點(diǎn)”、一個(gè)月曾遲到10次

照片曝光!尹錫悅曾修建“秘密通道”掩蓋“上班遲到”,此前他多次被批“上班遲到下班卡點(diǎn)”、一個(gè)月曾遲到10次

極目新聞
2025-12-19 10:33:43
印度首富300斤兒子款待梅西,邀球星去動(dòng)物園,漂亮妻胯是真寬

印度首富300斤兒子款待梅西,邀球星去動(dòng)物園,漂亮妻胯是真寬

觀察鑒娛
2025-12-18 09:33:39
黃牛加價(jià),排隊(duì)5小時(shí)!二三十塊一個(gè)面包貴不貴?

黃牛加價(jià),排隊(duì)5小時(shí)!二三十塊一個(gè)面包貴不貴?

揚(yáng)子晚報(bào)
2025-12-19 15:20:32
2026年慢病新規(guī)!對(duì)60/80歲以上老人開藥有精準(zhǔn)傾斜

2026年慢病新規(guī)!對(duì)60/80歲以上老人開藥有精準(zhǔn)傾斜

慧眼看世界哈哈
2025-12-17 05:55:37
僅26歲帥哥睡夢(mèng)中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

僅26歲帥哥睡夢(mèng)中離世,開奔馳家境好,媽媽含淚:8點(diǎn)發(fā)現(xiàn)人沒了

鋭娛之樂(lè)
2025-12-19 08:16:38
搶手!中國(guó)男足4大悍將轉(zhuǎn)會(huì),1人曾打服日本球隊(duì),如今成自由球員

搶手!中國(guó)男足4大悍將轉(zhuǎn)會(huì),1人曾打服日本球隊(duì),如今成自由球員

國(guó)足風(fēng)云
2025-12-19 16:00:14
全家移民真相大白2年,享正師級(jí)待遇的潘長(zhǎng)江,已走上另一條大道

全家移民真相大白2年,享正師級(jí)待遇的潘長(zhǎng)江,已走上另一條大道

以茶帶書
2025-08-07 19:42:40
米體:國(guó)米已前往沙特,小因扎吉希望與國(guó)米球員及管理層會(huì)面

米體:國(guó)米已前往沙特,小因扎吉希望與國(guó)米球員及管理層會(huì)面

懂球帝
2025-12-18 20:11:26
真正厲害的女人,一生“三不管”:不管男人、不管閑事、不管過(guò)往

真正厲害的女人,一生“三不管”:不管男人、不管閑事、不管過(guò)往

真實(shí)人物采訪
2025-12-17 21:00:03
21號(hào)就是冬至了!為什么說(shuō)今年的冬至可不一般,60年一遇?

21號(hào)就是冬至了!為什么說(shuō)今年的冬至可不一般,60年一遇?

阿天愛旅行
2025-12-17 00:16:32
6位鑒定專家均過(guò)世,南博事件陷入死結(jié)

6位鑒定專家均過(guò)世,南博事件陷入死結(jié)

梳子姐
2025-12-19 13:01:25
2025-12-19 17:28:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10941文章數(shù) 116929關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

美批準(zhǔn)對(duì)臺(tái)逾111億美元軍售 國(guó)防部回應(yīng)

頭條要聞

美批準(zhǔn)對(duì)臺(tái)逾111億美元軍售 國(guó)防部回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

時(shí)尚
旅游
手機(jī)
教育
數(shù)碼

女友BELLA+封面 | Jimmy&Ohm:人生拼圖

旅游要聞

新疆庫(kù)爾德寧景區(qū):雪覆群山 云杉靜立

手機(jī)要聞

30年果粉兌換禮品卡后被封號(hào):用了25年的Apple ID被永久停用

教育要聞

中考數(shù)學(xué)壓軸題,不少人交白卷,很難嗎?

數(shù)碼要聞

Intel代工迎來(lái)契機(jī)!14A制程拿下NVIDIA、AMD訂單

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版