国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI融入社會的三階段風(fēng)險!以自主演化為軸,重構(gòu)智能體安全威脅

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】當(dāng)AI智能體從「被動預(yù)測工具」蛻變?yōu)椤钢鲃記Q策實(shí)體」,其安全風(fēng)險也在經(jīng)歷一場前所未有的質(zhì)變。

當(dāng)AI智能體被部署進(jìn)醫(yī)療診斷、金融交易、工業(yè)控制等高風(fēng)險場景,安全性已不再是可以事后打補(bǔ)丁的附加項(xiàng),而是系統(tǒng)準(zhǔn)入的生死線。

然而,當(dāng)前的智能體安全研究正陷入一種結(jié)構(gòu)性失語:現(xiàn)有調(diào)研要么沿著數(shù)據(jù)—訓(xùn)練—部署的生命周期靜態(tài)切片,要么將安全、隱私、魯棒性等屬性碎片化地橫向并列,抑或孤立地審視大腦、記憶、工具等模塊,始終未能回答一個最根本的問題隨著智能體自主能力的階梯式躍遷,安全威脅究竟是如何發(fā)生質(zhì)變的?

更深層的困境在于:領(lǐng)域內(nèi)對集體自主(Collective Autonomy)階段的研究幾近空白。當(dāng)數(shù)以百萬計(jì)的智能體通過A2A協(xié)議組成社會網(wǎng)絡(luò),單一智能體的安全機(jī)制徹底失效,系統(tǒng)性治理危機(jī)隨之浮現(xiàn),而現(xiàn)有框架卻幾乎將其視為可忽略的邊緣場景。

為填補(bǔ)這一鴻溝,來自南京航空航天大學(xué)、香港中文大學(xué)、浙江大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了HAE(Hierarchical Autonomy Evolution,層次自主演化)框架,首次將AI智能體安全研究從靜態(tài)單點(diǎn)切片提升至自主演化縱軸的全局視角。

HAE框架不僅是一份分類學(xué)目錄,更是一套以自主演化為經(jīng)、威脅機(jī)理為緯的安全診斷體系,旨在為可信AI智能體的研究與防御提供結(jié)構(gòu)化的理論底座。


論文鏈接:https://arxiv.org/abs/2603.07496

開源倉庫:https://github.com/Epiphanyi/HAE-Agent-Security

論文系統(tǒng)揭示了一個核心命題:同一威脅(如幻覺),在智能體自主能力躍遷后,會經(jīng)歷從信息謬誤(L1)到物理誤操作(L2)再到生態(tài)級大規(guī)模誤導(dǎo)(L3)的質(zhì)變,這也是現(xiàn)有安全框架的根本性盲區(qū)。

從靜態(tài)切片到自主演化縱軸

面對百花齊放卻各自為戰(zhàn)的安全研究現(xiàn)狀,HAE 團(tuán)隊(duì)沒有另起爐灶設(shè)計(jì)一套新的靜態(tài)分類法,而是沿自主能力演化這一縱軸,將智能體的生存空間劃分為三個質(zhì)性不同的演化層級,形成了一條從內(nèi)部認(rèn)知到現(xiàn)實(shí)執(zhí)行再到社會治理的完整威脅鏈條:

L1——思考者(認(rèn)知自主,Cognitive Autonomy):智能體具備內(nèi)部推理、記憶檢索與自主規(guī)劃能力。威脅聚焦于認(rèn)知完整性,具體表現(xiàn)為認(rèn)知劫持(Cognitive Hijacking)、間接提示注入(Indirect Prompt Injection)和記憶污染(Memory Corruption)。此層威脅的后果是信息層面的暫態(tài)謬誤,類比于單次決策失誤。

L2——執(zhí)行者(執(zhí)行自主,Executional Autonomy)智能體獲得通過工具調(diào)用、API 接口和物理執(zhí)行器主動改變外部世界狀態(tài)的能力。威脅演化為混淆代理攻擊(Confused Deputy)、工具濫用(Tool Abuse)、環(huán)境破壞(Environmental Damage)與不安全動作鏈(Unsafe Action Chains)。此層風(fēng)險從「說錯了」升級為「做錯了」,帶來不可逆的物理現(xiàn)實(shí)后果。

L3——社會(集體自主,Collective Autonomy):多智能體通過 A2A 協(xié)議組成協(xié)作網(wǎng)絡(luò),涌現(xiàn)出社會動力學(xué)與系統(tǒng)性風(fēng)險。威脅形態(tài)躍升為惡意合謀(Malicious Collusion)、病毒感染(Viral Infection)與系統(tǒng)性崩潰(Systemic Collapse)。此層風(fēng)險不再是單點(diǎn)故障的線性疊加,而是具有傳染性和涌現(xiàn)性的生態(tài)級癱瘓。


圖1:HAE框架全景圖。展示了三個自主演化層級中智能體能力與涌現(xiàn)威脅的協(xié)同演化關(guān)系:L1認(rèn)知劫持與記憶污染、L2混淆代理與不安全動作鏈、L3惡意合謀與病毒感染。

HAE框架的核心洞見在于:同一漏洞(如幻覺或提示注入),在自主能力的每次躍遷后都會發(fā)生本質(zhì)性的范式轉(zhuǎn)變。這一縱向演化視角,彌補(bǔ)了現(xiàn)有四類主流框架(生命周期視角、可信屬性視角、組件模塊視角、自主結(jié)構(gòu)視角)的共同盲區(qū):它們均未將 L3 集體自主建立為具有獨(dú)立社會動力學(xué)的演化階段。

技術(shù)內(nèi)核



智能體解剖:四大攻擊面

HAE框架將智能體分解為四個核心功能組件,每個組件對應(yīng)獨(dú)立的攻擊面:

  • 感知(Perception):處理來自網(wǎng)頁、郵件、文檔的多模態(tài)輸入,是指令與數(shù)據(jù)的邊界混淆地帶,是間接提示注入的天然溫床。

  • 大腦(Brain/LLM):執(zhí)行指令理解、規(guī)劃(CoT)與自我反思,是認(rèn)知劫持的核心靶點(diǎn),攻擊者無需直接下達(dá)禁令,只需操控推理邏輯本身。

  • 記憶(Memory):短期上下文窗口與基于 RAG 的長期知識庫,使智能體得以跨時積累經(jīng)驗(yàn),同時也為持久性投毒攻擊(如 PoisonedRAG)敞開了大門。

  • 行動(Action):通過工具調(diào)用 API 執(zhí)行操作,將智能體從語言處理器轉(zhuǎn)化為能夠產(chǎn)生現(xiàn)實(shí)后果的主動實(shí)體,本質(zhì)上是安全風(fēng)險的放大器。


認(rèn)知—執(zhí)行—擴(kuò)散跨層傳播鏈

HAE 框架最具原創(chuàng)性的發(fā)現(xiàn)之一,是揭示了安全風(fēng)險在三層之間的非線性跨層傳播機(jī)制,并以一個具體的層級攻擊場景加以闡明:

垂直升級(L1 → L2)L1 記憶系統(tǒng)的漏洞(如 RAG 投毒)導(dǎo)致推理引擎檢索到惡意上下文,認(rèn)知層面的偏差下傳至 L2,欺騙動作控制器實(shí)施工具濫用(如生成并執(zhí)行惡意腳本),將隱性信息錯誤轉(zhuǎn)化為現(xiàn)實(shí)的物理破壞。

水平擴(kuò)散(L2 → L3)L2 層的惡意執(zhí)行(如通過 Email API 發(fā)送惡意腳本)跨越至 L3 域。受感染的智能體借助 A2A 通信協(xié)議,將有害載荷傳播至網(wǎng)絡(luò)中的其他節(jié)點(diǎn)。

系統(tǒng)性放大(L3涌現(xiàn))L3 層的社會互聯(lián)性將單一認(rèn)知故障放大為整個生態(tài)系統(tǒng)的崩潰,這是病毒感染,證明安全防御必須跨越整個 HAE 層級進(jìn)行整體性設(shè)計(jì)。

自主感知威脅分類體系


圖2:自主感知威脅分類體系。展示了跨越L1—L3的系統(tǒng)性威脅圖譜,揭示更高層級的威脅無法從低層級漏洞線性推導(dǎo),須獨(dú)立建模分析。

四級風(fēng)險沖擊量表(HAE Impact Scale)

為清晰量化威脅烈度,研究團(tuán)隊(duì)在系統(tǒng)分析2024-2025年40余篇代表性論文后,建立了基于攻擊后果性質(zhì)與持久性的四級分類體系:


該量表清晰表明:風(fēng)險烈度隨自主能力躍遷呈現(xiàn)出非線性質(zhì)變而非線性疊加,L3 的系統(tǒng)級聯(lián)威脅在本質(zhì)上有別于 L1/L2 威脅的簡單聚合。

關(guān)鍵洞察


L1認(rèn)知層:推理引擎與記憶系統(tǒng)的脆弱性


圖3:L1 認(rèn)知自主層架構(gòu)與威脅圖景。展示了智能體作為思考者的內(nèi)部認(rèn)知循環(huán)——感知、推理與記憶檢索過程,以及針對認(rèn)知完整性的三類核心攻擊路徑。

在 L1 階段,攻擊面沿三條路徑展開:間接提示注入利用智能體處理外部內(nèi)容(網(wǎng)頁、郵件、文檔)的能力,將控制指令偽裝進(jìn)數(shù)據(jù)流,模糊指令與數(shù)據(jù)的邊界,實(shí)現(xiàn)目標(biāo)劫持;認(rèn)知劫持則不直接下達(dá)禁令,而是通過梯度優(yōu)化(GCG)、樹形搜索(TAP)、多輪社會工程學(xué)(Crescendo)等手段操控推理邏輯,繞過對齊護(hù)欄;記憶污染(PoisonedRAG 攻擊成功率高達(dá) 90%)則針對 RAG 長期知識庫植入后門,使認(rèn)知偏差具有跨時態(tài)的持久性,將外部惡意輸入固化為內(nèi)部虛假信念。

L2執(zhí)行層:「說錯了」到「做錯了」的危險跨越


圖4:L2執(zhí)行自主層架構(gòu)與威脅圖景。展示了智能體作為執(zhí)行者通過工具接口與數(shù)字/物理環(huán)境產(chǎn)生實(shí)質(zhì)性交互,由此引入具有現(xiàn)實(shí)動能后果的新興威脅——混淆代理、工具濫用、環(huán)境破壞與不安全動作鏈。

在L2階段,傳統(tǒng)以文本輸出為靶向的RLHF對齊機(jī)制幾乎完全失效。混淆代理攻擊利用大模型無法在架構(gòu)層面區(qū)分控制指令與數(shù)據(jù)流的根本缺陷,借助智能體的合法高權(quán)限執(zhí)行原本禁止的操作;

工具濫用則將原本用于提升生產(chǎn)力的代碼解釋器、搜索引擎等工具,轉(zhuǎn)化為自動化攻擊武器(AgentHarm 測試已證實(shí)可完成從信息收集到攻擊載荷投遞的完整管道);

不安全動作鏈揭示了最隱蔽的組合風(fēng)險:每個原子操作獨(dú)立合規(guī),但特定序列組合后可觸發(fā)災(zāi)難性后果(如讀取敏感記錄+發(fā)送外部郵件構(gòu)成數(shù)據(jù)泄露鏈路)。

L3集體層:從個體故障到生態(tài)崩潰的相變


圖5:L3集體自主層架構(gòu)與威脅圖景。展示了 Manager-Worker 層級結(jié)構(gòu)中,三類系統(tǒng)性風(fēng)險(惡意合謀、病毒感染、系統(tǒng)性崩潰)如何通過目標(biāo)對齊誤用、A2A 傳播渠道與依賴級聯(lián)三條路徑涌現(xiàn)。

L3的核心危險在于涌現(xiàn)性。整體安全態(tài)勢低于構(gòu)成部分之和。惡意合謀將攻擊意圖分解至多個局部合規(guī)的 Worker Agent,傳統(tǒng)單智能體安全審查完全失效;PsySafe框架進(jìn)一步揭示,多智能體辯論機(jī)制可能因共同的微調(diào)偏差退化為回音室,形成具有自我演化能力的惡意集群。

病毒感染方面,Morris-II蠕蟲與Agent Smith實(shí)驗(yàn)證明單張對抗性圖片即可在百萬量級網(wǎng)絡(luò)中實(shí)現(xiàn)指數(shù)級零點(diǎn)擊傳播。

系統(tǒng)性崩潰則存在兩種形態(tài):拓?fù)湟蕾囌T發(fā)的級聯(lián)失效(Agent A 泄露航班信息、Agent B 泄露支付記錄,二者組合即可推斷員工行蹤,而每次單獨(dú)披露均符合隱私規(guī)范);以及資源壟斷誘發(fā)的算力 DoS(惡意查詢觸發(fā)最壞計(jì)算路徑,耗盡共享 GPU 資源,導(dǎo)致全網(wǎng)絡(luò)同步阻塞)。

從調(diào)研到行動

三大前沿研究缺口

HAE 框架不僅是現(xiàn)狀診斷,更是未來安全研究的路線圖,精準(zhǔn)指出三大突破方向:

方向一:軟件供應(yīng)鏈與開放生態(tài)的安全。

MetaGPT 等工程類智能體已滲透軟件開發(fā)流程,其可能產(chǎn)生的包幻覺(Package Hallucination)開啟了 typosquatting 供應(yīng)鏈投毒的新攻擊面;OpenClaw(原 Clawdbot)等平臺上的數(shù)百萬自主體已自發(fā)形成帶有排他性意識形態(tài)的加密通信網(wǎng)絡(luò),展現(xiàn)出L3風(fēng)險的極端形態(tài)。

方向二:科學(xué)自主智能體的雙重用途風(fēng)險。

當(dāng)智能體被賦予控制自動化實(shí)驗(yàn)室設(shè)備的能力,L2物理執(zhí)行與 L3知識協(xié)作的組合效應(yīng)將使制造危險物質(zhì)的門檻急劇降低。未來的評估框架必須引入物理沙箱,在執(zhí)行安全危機(jī)操作前驗(yàn)證安全斷路機(jī)制是否生效。

方向三:防御方法的系統(tǒng)化整合

打破現(xiàn)有的碎片化單層防御,呼吁通過神經(jīng)-符號協(xié)同(Neurosymbolic Coordination)將概率判斷轉(zhuǎn)化為確定性安全保證,并構(gòu)建基于去中心化聲譽(yù)的 L3 動態(tài)免疫系統(tǒng)。

深遠(yuǎn)影響

HAE 框架的提出,在智能體安全領(lǐng)域具有多重里程碑意義:

統(tǒng)一分析范式首次以「自主能力演化」為軸,將認(rèn)知(L1)、執(zhí)行(L2)、集體(L3)無縫整合,系統(tǒng)揭示了安全風(fēng)險「認(rèn)知—執(zhí)行—擴(kuò)散」的跨層涌現(xiàn)與放大機(jī)理。

填補(bǔ)L3集體自主的防御空白明確「集體自主」為獨(dú)立的演化階段,直指現(xiàn)有單體安全機(jī)制在多智能體協(xié)同網(wǎng)絡(luò)中的根本性失效,為社區(qū)指明了全新的攻關(guān)方向。

從合規(guī)清單到治理戰(zhàn)略當(dāng)智能體形成「社會」,安全即演變?yōu)樯鷳B(tài)治理危機(jī)。HAE 將 AI 安全從技術(shù)修補(bǔ)提升至多方協(xié)同治理的戰(zhàn)略高度。

AI的進(jìn)化從未停歇,從思考者到執(zhí)行者,再到社會中的成員,每一次自主能力的躍遷,都在系統(tǒng)性地重寫安全邊界的定義。HAE框架的開源,將為構(gòu)建可信、可控、可治理的 AI 智能體生態(tài)系統(tǒng)提供重要的理論基礎(chǔ)與實(shí)踐指引。

參考資料:

https://arxiv.org/abs/2603.07496

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
A股:周日中午突發(fā)3大消息!A股或史詩級別調(diào)整浪行情?

A股:周日中午突發(fā)3大消息!A股或史詩級別調(diào)整浪行情?

股市皆大事
2026-04-05 12:46:28
逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”如今啥情況

逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”如今啥情況

拳擊時空
2026-04-04 06:04:24
鄭麗文訪陸前夕突生變數(shù),美方信函曝光,局勢反轉(zhuǎn)有著什么信號

鄭麗文訪陸前夕突生變數(shù),美方信函曝光,局勢反轉(zhuǎn)有著什么信號

薦史
2026-04-05 14:32:36
局勢180度反轉(zhuǎn),以色列襲擊美國大使館?特朗普沉默,英法德失聲

局勢180度反轉(zhuǎn),以色列襲擊美國大使館?特朗普沉默,英法德失聲

諾諾談史
2026-04-05 04:52:31
宋希濂被特赦后與陳賡吃飯,問了陳賡三個問題,驚嘆:毛主席高明

宋希濂被特赦后與陳賡吃飯,問了陳賡三個問題,驚嘆:毛主席高明

好運(yùn)來好運(yùn)
2024-11-16 11:52:24
巴巴克·阿里普爾、普亞·戈巴迪,被處決

巴巴克·阿里普爾、普亞·戈巴迪,被處決

南方都市報
2026-03-31 22:45:29
三缸機(jī)火了,老板和工程師翻臉了,誰還記得當(dāng)年一起擰螺絲的人。

三缸機(jī)火了,老板和工程師翻臉了,誰還記得當(dāng)年一起擰螺絲的人。

藍(lán)色海邊
2026-04-05 11:31:10
敗退臺灣的蔣介石,看到上甘嶺戰(zhàn)報,含淚說出了15個字的高度評價

敗退臺灣的蔣介石,看到上甘嶺戰(zhàn)報,含淚說出了15個字的高度評價

史韻流轉(zhuǎn)
2026-03-30 09:22:48
對話00后墓園“代祭師”女孩:幫無法到墓園的人祭掃,月薪不高4000多元,見多生死后更珍惜當(dāng)下

對話00后墓園“代祭師”女孩:幫無法到墓園的人祭掃,月薪不高4000多元,見多生死后更珍惜當(dāng)下

極目新聞
2026-04-05 18:54:16
伊朗腸子都悔青了!怎么能讓美軍深入戰(zhàn)區(qū)100多千米、把F-15飛行員給救走了?!

伊朗腸子都悔青了!怎么能讓美軍深入戰(zhàn)區(qū)100多千米、把F-15飛行員給救走了?!

軍武速遞
2026-04-04 19:19:03
伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國上將:中估計(jì)也要到了

伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國上將:中估計(jì)也要到了

共工之錨
2026-04-04 19:35:29
澳門世界杯!女單最大贏家誕生,國乒包攬冠亞,孫穎莎決戰(zhàn)王曼昱

澳門世界杯!女單最大贏家誕生,國乒包攬冠亞,孫穎莎決戰(zhàn)王曼昱

籃球看比賽
2026-04-05 17:22:03
1965年,山西黃河發(fā)現(xiàn)巨龜,行走如百米大山,7人因此命喪黃泉

1965年,山西黃河發(fā)現(xiàn)巨龜,行走如百米大山,7人因此命喪黃泉

古怪奇談錄
2025-05-09 14:24:29
隨著澳大利亞5-0,韓國2-1,U20女足亞洲杯最新積分榜:中國領(lǐng)跑

隨著澳大利亞5-0,韓國2-1,U20女足亞洲杯最新積分榜:中國領(lǐng)跑

俯身沖頂
2026-04-05 19:14:33
特朗普發(fā)布視頻宣稱“打死多名伊朗軍事領(lǐng)導(dǎo)人”

特朗普發(fā)布視頻宣稱“打死多名伊朗軍事領(lǐng)導(dǎo)人”

界面新聞
2026-04-05 07:34:02
阿聯(lián)酋駐敘利亞大使館遭抗議者襲擊

阿聯(lián)酋駐敘利亞大使館遭抗議者襲擊

參考消息
2026-04-05 19:33:07
張雪沒來提車!陳光標(biāo)宣布:勞斯萊斯變現(xiàn)1000萬!捐贈給嫣然醫(yī)院!

張雪沒來提車!陳光標(biāo)宣布:勞斯萊斯變現(xiàn)1000萬!捐贈給嫣然醫(yī)院!

證券時報e公司
2026-04-05 19:41:08
周杰倫杭州演唱會遭粉絲吐槽“劃水”,降調(diào)、躲高音、嘉賓聊天撐場

周杰倫杭州演唱會遭粉絲吐槽“劃水”,降調(diào)、躲高音、嘉賓聊天撐場

東方不敗然多多
2026-04-05 10:31:02
毛主席與曾志七張合影曝光,49歲時主席夫人親自拍下她的美麗照片

毛主席與曾志七張合影曝光,49歲時主席夫人親自拍下她的美麗照片

大運(yùn)河時空
2026-04-05 14:15:03
《鏢人》奪冠,李安不甘心,四部大片正在趕來

《鏢人》奪冠,李安不甘心,四部大片正在趕來

白公子探劇
2026-04-05 17:03:57
2026-04-05 20:19:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14901文章數(shù) 66749關(guān)注度
往期回顧 全部

科技要聞

花200薅5千算力,Claude冷血斷供“龍蝦”

頭條要聞

營救細(xì)節(jié)公布:伊朗搜捕人員距飛行員藏身地不到3公里

頭條要聞

營救細(xì)節(jié)公布:伊朗搜捕人員距飛行員藏身地不到3公里

體育要聞

CBA最老球員,身價7500萬美元

娛樂要聞

好用心!宋慧喬為好友慶生做一桌美食

財(cái)經(jīng)要聞

誰造出了優(yōu)思益這頭“怪物”?

汽車要聞

家用SUV沒駕駛樂趣?極氪8X第一個不同意

態(tài)度原創(chuàng)

健康
本地
藝術(shù)
親子
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

本地新聞

跟著歌聲游安徽,聽古村回響

藝術(shù)要聞

全球最長F1賽道要來了,70米高“刀鋒彎”初具規(guī)模!

親子要聞

學(xué)費(fèi)大調(diào)整!2026年教育收費(fèi)全面改革,5大變化直接影響每個家庭

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版