国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

關(guān)注openclaw安全風(fēng)險,AgentDoG提出智能體安全與防護的診斷式護欄框架

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則,歡迎加入共同成長。

隨著人工智能技術(shù)的飛速發(fā)展,基于大語言模型的智能體正逐漸成為研究和應(yīng)用的熱點。這些智能體能夠自主規(guī)劃、調(diào)用工具并執(zhí)行長周期任務(wù),被廣泛應(yīng)用于深度研究、計算機輔助、軟件工程及金融投資等領(lǐng)域。然而,這種高度的自主性和非確定性也帶來了前所未有的安全與防護挑戰(zhàn)?,F(xiàn)有的護欄模型往往缺乏對智能體特有風(fēng)險的感知能力,且在風(fēng)險診斷方面缺乏透明度。

為了解決這一問題,上海人工智能實驗室的研究團隊提出了AgentDoG框架。該框架基于一個統(tǒng)一的三維安全分類體系,不僅構(gòu)建了細粒度的智能體安全基準(zhǔn)ATBench,還提供了一種能夠診斷不安全行為根本原因的診斷式護欄機制。本文將詳細介紹該框架的核心創(chuàng)新、方法論及實驗成果。AgentDoG系列模型和ATBench數(shù)據(jù)集已經(jīng)發(fā)布到了始智AI wisemodel開源社區(qū),歡迎感興趣的月臺前往了解詳情!


項目地址

https://wisemodel.cn/organization/AgentDoG

01

智能體安全的全新挑戰(zhàn)

在大語言模型(LLM)的演進推動下,AI智能體已經(jīng)具備了在復(fù)雜環(huán)境中進行自主決策和工具使用的能力。然而,這種能力的提升伴隨著復(fù)雜的安全隱患。與傳統(tǒng)的單輪對話不同,智能體的風(fēng)險往往隱藏在多步交互、環(huán)境反饋以及工具調(diào)用的過程中。

當(dāng)前的防護模型(如LlamaGuard3、Qwen3Guard等)主要針對LLM的輸出內(nèi)容進行安全過濾,但在應(yīng)對復(fù)雜的智能體場景時表現(xiàn)出明顯的局限性。這些局限性主要體現(xiàn)在兩個方面:

  1. 缺乏智能體風(fēng)險感知:現(xiàn)有的LLM安全策略無法捕捉智能體特有的、依賴于環(huán)境交互的復(fù)雜風(fēng)險圖景。

  2. 缺乏溯源與透明度:現(xiàn)有的模型通常僅提供“安全/不安全”的二元標(biāo)簽,這對于準(zhǔn)確診斷風(fēng)險是不夠的,往往忽視了那些看似安全但不合理的行為。

為了構(gòu)建有效的智能體護欄,研究團隊首先定義了一個全面且層次化的安全分類體系,進而提出了AgentDoG框架。該框架不僅能在智能體軌跡上進行細粒度的上下文監(jiān)控,更重要的是,它能診斷出不安全行為或看似安全但不合理行為的根本原因,從而提供超越二元標(biāo)簽的透明度,促進更有效的智能體對齊。

02

核心創(chuàng)新:三維正交安全分類體系

為了系統(tǒng)性地組織多樣且不斷演變的智能體風(fēng)險,研究團隊提出了一種統(tǒng)一的三維正交分類體系。該體系打破了以往扁平化、枚舉式的風(fēng)險定義方式,從三個正交維度對智能體風(fēng)險進行分類:風(fēng)險來源、失效模式和現(xiàn)實危害。


如圖2所示,這三個維度分別回答了關(guān)于風(fēng)險的三個核心問題:

2.1 風(fēng)險來源:風(fēng)險從何而來?

該維度描述了潛在風(fēng)險在智能體交互循環(huán)中的起源位置。研究團隊將其細分為四類:

  • 用戶輸入:包括惡意用戶指令或越獄攻擊,以及嵌入在良性提示詞中的直接提示注入。

  • 環(huán)境觀察:包括間接提示注入(如嵌入在網(wǎng)頁或文檔中的惡意指令)以及不可靠或錯誤信息。

  • 外部實體(工具/API):涵蓋工具描述注入、惡意工具執(zhí)行以及被篡改的工具反饋。

  • 內(nèi)部邏輯與故障:指智能體內(nèi)部決策過程中的幻覺、推理缺陷或工具選擇錯誤等內(nèi)在失敗。

2.2 失效模式:智能體如何失效?

該維度描述了風(fēng)險源引入后,智能體如何通過行為或輸出具體實現(xiàn)該風(fēng)險。主要分為兩大類:

  • 行為失效模式:源于有缺陷的規(guī)劃、推理或執(zhí)行。具體包括:

  • 未經(jīng)確認(rèn)或越權(quán)行動:在未獲充分確認(rèn)的情況下執(zhí)行高風(fēng)險操作。

  • 規(guī)劃或推理缺陷:誤讀用戶意圖或構(gòu)建邏輯錯誤的行動序列。

  • 工具使用不當(dāng):包括參數(shù)錯誤、選擇惡意工具、特定場景下的工具濫用以及未驗證工具輸出。

  • 不安全交互:運行易受攻擊的代碼或點擊釣魚鏈接。

  • 程序偏差或不作為:未能遵循預(yù)定工作流或必要時的不作為。

  • 低效或浪費執(zhí)行:以極高的資源消耗完成任務(wù)。

  • 輸出內(nèi)容失效模式:指智能體的文本輸出本身直接構(gòu)成風(fēng)險,如生成有害內(nèi)容、非法活動指導(dǎo)、惡意可執(zhí)行文件、未授權(quán)信息泄露或提供虛假誤導(dǎo)信息。

2.3 現(xiàn)實危害:造成了什么后果?

該維度關(guān)注失效行為導(dǎo)致的現(xiàn)實世界影響,支持以結(jié)果為導(dǎo)向的安全評估。具體類別包括:

  • 隱私與保密危害

  • 金融與經(jīng)濟危害

  • 安全與系統(tǒng)完整性危害

  • 人身與健康危害

  • 心理與情感危害

  • 名譽與人際危害

  • 信息生態(tài)與社會危害

  • 公共服務(wù)與資源危害

  • 公平、公正與分配危害

  • 功能與機會危害

03

AgentDoG框架詳解

AgentDoG是一個專門針對智能體安全與防護的診斷式護欄框架。與以往僅關(guān)注最終輸出的模型不同,AgentDoG關(guān)注的是軌跡層面的安全診斷。

3.1 任務(wù)定義

AgentDoG定義了兩個核心任務(wù):

  • 軌跡層面安全評估:給定一個智能體軌跡

  • T={t1,…,tn}

  • ,模型需判斷該軌跡中是否存在任何不安全行為。關(guān)鍵在于,不安全行為可能源于中間動作(如工具調(diào)用)或環(huán)境反饋,即使最終響應(yīng)看起來是良性的。

  • 細粒度風(fēng)險診斷:對于被判定為不安全的軌跡,模型需進一步預(yù)測其三維標(biāo)簽:風(fēng)險來源、失效模式與現(xiàn)實危害。


圖3展示了AgentDoG的任務(wù)指令模板。模型被要求根據(jù)軌跡內(nèi)容,不僅輸出“safe”或“unsafe”的判斷,還要在診斷任務(wù)中輸出細粒度的風(fēng)險類別,從而實現(xiàn)對風(fēng)險的精準(zhǔn)定位。

3.2 數(shù)據(jù)合成與收集

為了訓(xùn)練能夠覆蓋完整工具使用鏈的高質(zhì)量風(fēng)險數(shù)據(jù),研究團隊設(shè)計了一種基于分類法的智能體風(fēng)險軌跡合成方法。


如圖4所示,該流水線包含三個階段:


  1. 規(guī)劃階段:采樣風(fēng)險配置(風(fēng)險源、失效模式、后果),確定軌跡的安全結(jié)果(安全或非安全),并制定包含風(fēng)險注入點的多步任務(wù)計劃。

  2. 軌跡合成階段:通過協(xié)調(diào)器控制執(zhí)行流程,生成用戶查詢、模擬工具交互、生成智能體響應(yīng)。在特定的風(fēng)險觸發(fā)點,會故意注入惡意內(nèi)容或模擬智能體的防御行為。

  3. 質(zhì)量控制(QC):通過確定性驗證器移除結(jié)構(gòu)和格式錯誤,并利用LLM評判器驗證軌跡內(nèi)容與安全標(biāo)簽的語義一致性。

該數(shù)據(jù)集包含超過10萬條多輪交互軌跡,使用了包含約10,000個不同工具的工具庫,其規(guī)模比現(xiàn)有基準(zhǔn)(如R-Judge、ASSE-Safety)大40倍以上,確保了數(shù)據(jù)的多樣性和真實性。

04

ATBench基準(zhǔn)測試

為了評估護欄模型在真實場景下的表現(xiàn),研究團隊構(gòu)建了ATBench(Agent Trajectory Safety and Security Benchmark)。

4.1 基準(zhǔn)概況

ATBench包含500條完整的執(zhí)行軌跡,平均長度為8.97輪,覆蓋了1575個獨特工具。該基準(zhǔn)具有以下特點:

  • 軌跡級評估:評估完整的執(zhí)行軌跡,捕捉現(xiàn)實部署中典型的長周期決策鏈。

  • 分類法接地:提供語義明確的標(biāo)簽,支持精準(zhǔn)的風(fēng)險歸因和診斷。

  • 工具級分離:ATBench使用的工具庫與訓(xùn)練數(shù)據(jù)完全隔離,用于測試模型對未見過的工具和上下文的泛化能力。


圖6展示了ATBench中不安全數(shù)據(jù)在三維分類法下的分布情況,確保了各類風(fēng)險的均衡覆蓋。

4.2 數(shù)據(jù)處理流水線

ATBench的構(gòu)建同樣遵循分類法指導(dǎo)的合成框架,并引入了嚴(yán)格的驗證機制:

  • 多智能體驗證:使用四個異構(gòu)模型(Qwen-QwQ, GPT-5.2, Gemini 3 Pro, DeepSeek-V3.2)對軌跡進行二元判決和分類標(biāo)簽預(yù)測。通過多數(shù)投票聚合結(jié)果,對于票數(shù)持平的案例則轉(zhuǎn)交人工審核。

  • 難度分層:根據(jù)模型間的一致性將軌跡分為“簡單”和“困難”子集,優(yōu)先對困難樣本進行人工驗證。

05

實驗評估與結(jié)果

研究團隊在多種智能體基準(zhǔn)上對AgentDoG進行了全面評估,包括R-judge、ASSE-Safety以及新提出的ATBench。

實驗結(jié)果表明,AgentDoG在各項指標(biāo)上均取得了顯著的性能提升:

  1. 二元安全分類:在R-Judge、ASSE-Safety和ATBench三個基準(zhǔn)上,AgentDoG(以8B參數(shù)版本為例)分別達到了91.84%、92.80%和82.00%的準(zhǔn)確率,大幅領(lǐng)先于現(xiàn)有的通用模型和護欄模型。

  2. 細粒度風(fēng)險診斷:在ATBench的細粒度分類任務(wù)中,AgentDoG在風(fēng)險來源、失效模式和現(xiàn)實危害三個維度上均表現(xiàn)優(yōu)異,準(zhǔn)確率分別達到32.40%、58.40%和顯著高于基線模型的水平。這證明了其在深層風(fēng)險理解方面的強大能力。

  3. 模型泛化能力:得益于大規(guī)模工具庫的訓(xùn)練,AgentDoG在面對未見過的工具時仍能保持較高的識別準(zhǔn)確率,展現(xiàn)了良好的泛化性。

05

可解釋性分析

除了安全評估,AgentDoG還引入了一個可解釋性AI(XAI)模塊,用于歸因分析。


該模塊采用層次化的智能體歸因方法,能夠追蹤特定不安全動作的根本原因,將其歸因于具體的規(guī)劃步驟、工具選擇或上下文誤解。通過這種方式,AgentDoG不僅告訴開發(fā)者“出了什么問題”,還能解釋“為什么會出現(xiàn)這個問題”,從而為智能體的對齊和優(yōu)化提供有力支持。

07

結(jié)論與展望

AgentDoG的提出標(biāo)志著智能體安全研究從單一的輸出審核邁向了軌跡級的全鏈路診斷。通過構(gòu)建統(tǒng)一的三維安全分類體系、合成大規(guī)模高質(zhì)量數(shù)據(jù)以及開發(fā)診斷式護欄模型,該工作為解決智能體在復(fù)雜交互環(huán)境中的安全問題提供了新的思路。

盡管如此,研究團隊也指出了未來的改進方向,例如進一步擴展風(fēng)險分類體系以涵蓋更邊緣的案例,以及優(yōu)化模型在超長軌跡上的推理效率。隨著智能體技術(shù)的廣泛應(yīng)用,AgentDoG及其衍生的開源模型和數(shù)據(jù)集將為構(gòu)建安全、可靠、透明的AI系統(tǒng)奠定堅實基礎(chǔ)。

----- END -----

wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
主席痛心疾首40多年,晚年常問警衛(wèi)員:有沒有找到她?抓住了嗎?

主席痛心疾首40多年,晚年常問警衛(wèi)員:有沒有找到她?抓住了嗎?

瑩瑩的歷史說
2026-03-29 08:55:34
臺灣問題或?qū)⑼黄啤芭R界點”,2大跡象表明,大陸可能準(zhǔn)備動手了

臺灣問題或?qū)⑼黄啤芭R界點”,2大跡象表明,大陸可能準(zhǔn)備動手了

挑戰(zhàn)你的想象力
2026-03-29 12:03:44
日本剛拿到12年稀土大單就飄了,叫囂反制無效,不料麻煩才開始!

日本剛拿到12年稀土大單就飄了,叫囂反制無效,不料麻煩才開始!

瘋狂小菠蘿
2026-03-29 13:34:00
打不過就道德綁架!以色列一市長痛哭怒斥戰(zhàn)爭,絲毫沒有悔過之意

打不過就道德綁架!以色列一市長痛哭怒斥戰(zhàn)爭,絲毫沒有悔過之意

滄海旅行家
2026-03-27 15:07:47
教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

今朝牛馬
2026-03-26 20:22:18
與四婚名導(dǎo)同居三年不結(jié)婚,流產(chǎn)兩次轉(zhuǎn)身下嫁窮小子,如今咋樣

與四婚名導(dǎo)同居三年不結(jié)婚,流產(chǎn)兩次轉(zhuǎn)身下嫁窮小子,如今咋樣

卷史
2026-02-19 13:14:40
87分鐘點球絕平!中國男足拿1分后,最新排名有變,主裁判罰爭議

87分鐘點球絕平!中國男足拿1分后,最新排名有變,主裁判罰爭議

侃球熊弟
2026-03-28 20:07:16
張雪峰追悼會市民排長隊送別,網(wǎng)友:這場面還能說百姓仇富嗎?

張雪峰追悼會市民排長隊送別,網(wǎng)友:這場面還能說百姓仇富嗎?

映射生活的身影
2026-03-28 17:07:39
外媒:以色列警方驅(qū)散特拉維夫反戰(zhàn)集會

外媒:以色列警方驅(qū)散特拉維夫反戰(zhàn)集會

參考消息
2026-03-29 13:29:11
三月560分鐘558分!東契奇禁賽一場仍比肩喬丹 名嘴仍批他不自律

三月560分鐘558分!東契奇禁賽一場仍比肩喬丹 名嘴仍批他不自律

顏小白的籃球夢
2026-03-29 14:21:28
KTV聚會照被瘋傳!郭麒麟認(rèn)了是本人!嚴(yán)浩翔私生公開小號關(guān)注列表

KTV聚會照被瘋傳!郭麒麟認(rèn)了是本人!嚴(yán)浩翔私生公開小號關(guān)注列表

觀察鑒娛
2026-03-28 09:22:06
75年楊得志生病后,醫(yī)院見他級別高不敢處理,軍委:派專機來北京

75年楊得志生病后,醫(yī)院見他級別高不敢處理,軍委:派專機來北京

微史紀(jì)
2026-03-29 13:14:42
陪玩陪睡僅冰山一角,葛斯齊手撕夏克立,曬錄音扯掉完美父親面具

陪玩陪睡僅冰山一角,葛斯齊手撕夏克立,曬錄音扯掉完美父親面具

橙星文娛
2026-03-28 13:21:48
馬航370憑空消失,一位美國中情局退休特工說出真相,后來被滅口

馬航370憑空消失,一位美國中情局退休特工說出真相,后來被滅口

文史達觀
2024-08-10 13:53:48
臺島天然氣僅剩7天,全島恐?jǐn)嚯?!賴清德徹底擺爛,統(tǒng)一要來了

臺島天然氣僅剩7天,全島恐?jǐn)嚯?!賴清德徹底擺爛,統(tǒng)一要來了

涼了時光人
2026-03-29 00:53:10
陰陽先生看房子風(fēng)水:臥室里若有這2個東西,無論多貴也要丟掉

陰陽先生看房子風(fēng)水:臥室里若有這2個東西,無論多貴也要丟掉

磊子講史
2026-03-28 18:32:26
1顆就定罪! 2020年,上海男子花6800買1顆“鶴頂紅”, 1年后被查獲

1顆就定罪! 2020年,上海男子花6800買1顆“鶴頂紅”, 1年后被查獲

萬象硬核本尊
2026-03-28 19:03:12
被父性侵、被丈夫家暴,死后三天才被發(fā)現(xiàn),“最美趙敏”活的真慘

被父性侵、被丈夫家暴,死后三天才被發(fā)現(xiàn),“最美趙敏”活的真慘

云舟史策
2026-03-13 14:19:19
胡塞又打以色列了,這次明著說是為了幫伊朗。

胡塞又打以色列了,這次明著說是為了幫伊朗。

奇思妙想生活家
2026-03-29 13:26:13
關(guān)辛回應(yīng)焦泊喬離隊之事!

關(guān)辛回應(yīng)焦泊喬離隊之事!

體育哲人
2026-03-28 18:06:26
2026-03-29 14:43:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

網(wǎng)約車司機被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

頭條要聞

網(wǎng)約車司機被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

房產(chǎn)
家居
親子
本地
公開課

房產(chǎn)要聞

首日430組來訪,單日120組認(rèn)籌!??谑讉€真四代,徹底爆了!

家居要聞

曲線華爾茲 現(xiàn)代簡約

親子要聞

真是拿王姐一點招沒有!

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版