国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從“事后檢測”到“過程引導(dǎo)”,北大聯(lián)合上海AI Lab重塑智能體工具調(diào)用安全

0
分享至

在大語言模型不斷走向智能體化、并通過工具調(diào)用直接作用于真實世界的今天,安全問題已經(jīng)不再停留在“說什么”,而是轉(zhuǎn)向“會做什么”。當(dāng)模型能夠調(diào)用代碼執(zhí)行器、數(shù)據(jù)庫和真實 API 時,一次看似合理的工具調(diào)用,就可能直接引發(fā)現(xiàn)實世界中的安全風(fēng)險。

問題的關(guān)鍵,并不在于安全對齊“做得不夠”,而在于它對齊的對象已經(jīng)發(fā)生了變化。

現(xiàn)有的大多數(shù)安全機(jī)制,主要圍繞 chatbot 的文本輸出設(shè)計;但在智能體場景中,真正的風(fēng)險往往不來自違規(guī)回答,而來自一次被誤判為正常的工具調(diào)用 [1]。

這一問題在提示注入攻擊下被進(jìn)一步放大 [2, 3]。攻擊者無需誘導(dǎo)模型生成有害內(nèi)容,只需在環(huán)境反饋或工具返回中植入隱蔽指令,便可能在后續(xù)步驟中悄然接管智能體的決策過程,而傳統(tǒng)的輸出級安全機(jī)制對此往往難以及時察覺。

因此,如何每一次工具調(diào)用發(fā)生之前識別并約束潛在風(fēng)險,成為智能體安全落地亟需解決的核心問題。


論文題目: ToolSafe: Enhancing Tool Invocation Safety of LLM-based Agents via Proactive Step-level Guardrail and Feedback 論文鏈接: https://arxiv.org/pdf/2601.10156 代碼鏈接: https://github.com/MurrayTom/ToolSafe


本研究考慮的兩類工具調(diào)用安全風(fēng)險示意圖。(a)惡意用戶請求,直接導(dǎo)致不安全的工具調(diào)用。(b)在執(zhí)行正常任務(wù)過程中發(fā)生的提示注入攻擊,導(dǎo)致不正當(dāng)工具被意外使用,原任務(wù)執(zhí)行軌跡發(fā)生偏離。

北京大學(xué)知識計算實驗室聯(lián)合上海人工智能實驗室提出了 ToolSafe 框架,首次系統(tǒng)化地對 LLM 智能體的步驟級工具調(diào)用安全問題進(jìn)行建模與防護(hù)。

在此基礎(chǔ)上,團(tuán)隊開發(fā)了 TS-Bench、TS-Guard 和 TS-Flow 三大組件:

  • TS-Bench 提供首個步驟級工具調(diào)用安全檢測評估基準(zhǔn);

  • TS-Guard 是一個步驟級護(hù)欄模型,它通過多任務(wù)強(qiáng)化學(xué)習(xí)優(yōu)化,能通過歸因分析提供可解釋的安全反饋;

  • TS-Flow 則嘗試將來自步驟級護(hù)欄的反饋信號融入智能體推理流程,顯著減少有害工具調(diào)用并提升了提示注入攻擊場景下的良性任務(wù)完成率。

相關(guān)代碼、數(shù)據(jù)與模型已全部開源,詳細(xì)方法與實驗結(jié)果可參考原始論文。

一、TS-Bench:步驟級工具調(diào)用安全檢測基準(zhǔn)

為了評估智能體在工具調(diào)用中的安全性,本研究推出了 TS-Bench ——首個面向步驟級工具調(diào)用的安全檢測基準(zhǔn)。

與此前基準(zhǔn)不同:以前的評測要么只提供事后軌跡級標(biāo)注(如 ASSEBench [4]、R-Judge [5]),要么只關(guān)注特定領(lǐng)域的風(fēng)險行為(如關(guān)注網(wǎng)頁瀏覽或代碼執(zhí)行安全風(fēng)險的OS-Safe [6]、ShieldAgent-Bench [7])。

而 TS-Bench 聚焦于通用智能體在每一步工具調(diào)用時的安全風(fēng)險,提供細(xì)粒度逐步標(biāo)注,支持在工具真正執(zhí)行前就主動發(fā)現(xiàn)潛在危險。

在任務(wù)定義上,TS-Bench 模擬 LLM 智能體的多步交互推理-行動循環(huán):智能體從用戶請求出發(fā),每一步生成動作(包括中間推理和工具調(diào)用),并接收環(huán)境反饋,直到任務(wù)完成。

TS-Bench 的標(biāo)注不僅記錄每一步工具調(diào)用是否安全,還標(biāo)注是否涉及提示注入攻擊或有害請求,為智能體安全防護(hù)提供了前所未有的細(xì)粒度參考。

TS-Bench 基于四個代表性的智能體安全評估數(shù)據(jù)集(AgentAlign、AgentHarm、ASB、AgentDojo)構(gòu)建,涵蓋多種不安全工具調(diào)用模式,使其既廣泛又通用。

下表對比了 TS-Bench 與現(xiàn)有智能體安全檢測基準(zhǔn),突出其在步驟級工具調(diào)用安全評測上的獨特價值。


TS-Bench 與現(xiàn)有代理安全檢測基準(zhǔn)的對比。本研究考慮的不安全模式包括:MUR(惡意用戶請求)、PI(提示注入)、HT(有害工具)、BTRA(具有風(fēng)險參數(shù)的正常工具)。

二、TS-Guard × TS-Flow:讓智能體在“動手之前”就變安全

圍繞智能體在工具調(diào)用階段的安全風(fēng)險,本研究提出了一套主動式、步驟級的安全護(hù)欄與反饋框架,核心由兩個部分組成:TS-Guard 與 TS-Flow。它們分別解決“怎么識別風(fēng)險”和“如何避免風(fēng)險”這兩個關(guān)鍵問題。


我們針對 LLM 智能體的主動步驟級安全防護(hù)與反饋框架示意圖。(a)TS-Guard 的輸入與輸出格式。(b)TS-Flow 將防護(hù)反饋傳遞給智能體,使其能夠在安全約束下進(jìn)行工具調(diào)用推理,而非直接中止執(zhí)行。 2.1 TS-Guard:執(zhí)行前主動安全監(jiān)控,而非事后追責(zé)

TS-Guard 是一個面向智能體工具調(diào)用的步驟級安全檢測模型。不同于以往的護(hù)欄模型只在任務(wù)結(jié)束后回看整條軌跡是否有問題,TS-Guard 需要判斷的是:在某一次工具真正被執(zhí)行之前,這一步到底安不安全。

為此,TS-Guard 將復(fù)雜的安全判斷拆解為三個緊密關(guān)聯(lián)的子任務(wù),在一次推理中聯(lián)合完成:

  • 用戶請求是否本身具有風(fēng)險

  • 當(dāng)前候選工具調(diào)用是否與第三方攻擊(如提示注入)存在關(guān)聯(lián)

  • 這一次工具調(diào)用動作本身是否存在安全風(fēng)險

模型不僅輸出最終的安全標(biāo)簽(安全 / 存在可疑風(fēng)險 / 顯著不安全),還會生成簡要的歸因分析與推理過程,讓安全判斷具備可解釋性。

在訓(xùn)練層面,研究團(tuán)隊采用GRPO 強(qiáng)化學(xué)習(xí)結(jié)合多任務(wù)獎勵機(jī)制進(jìn)行優(yōu)化,相比傳統(tǒng)監(jiān)督微調(diào),顯著提升了模型在未知場景下的泛化檢測能力。

實驗表明,TS-Guard 能在復(fù)雜交互日志中穩(wěn)定識別潛在的危險工具調(diào)用,是面向真實部署場景的“前置安全閘門”。


2.2 TS-Flow:不再“一刀切中斷”,而是用反饋引導(dǎo)智能體自我糾正

檢測只是第一步,更難的是如何在不破壞智能體任務(wù)完成的前提下提升安全性?,F(xiàn)有不少智能體安全框架采用的是“detect-and-abort”范式,例如LlamaFirewall:一旦檢測到異常,直接終止整個任務(wù)流程。

但在真實環(huán)境中,正常指令與攻擊信號往往混雜出現(xiàn),這種做法很容易誤傷正常任務(wù),嚴(yán)重影響智能體的可用性。

為此,本研究提出 TS-Flow:一種安全護(hù)欄反饋驅(qū)動的工具調(diào)用推理框。

在 TS-Flow 中,TS-Guard 作為護(hù)欄模型會實時監(jiān)控每一步工具調(diào)用動作,但是并不會直接“掐掉”智能體,而是在工具執(zhí)行前對潛在不安全的候選動作給出針對性的安全反饋,提示風(fēng)險來源與問題所在,引導(dǎo)智能體調(diào)整推理路徑、修正行動計劃。

這種“智能體–護(hù)欄交互式”機(jī)制,使安全不再是強(qiáng)制打斷,而是一次可學(xué)習(xí)、可修正的過程。

實驗結(jié)果顯示,TS-Flow 在顯著提升工具調(diào)用安全性的同時,基本不犧牲智能體的任務(wù)完成能力,為安全與效用之間提供了一種更平衡的解決方案。


總結(jié)

TS-Guard 負(fù)責(zé)在每一步看清風(fēng)險,TS-Flow 負(fù)責(zé)在出手之前把方向拉回來。 它們共同構(gòu)成了一套面向真實世界部署的、可解釋、可糾偏的智能體工具調(diào)用安全方案。

三、實驗亮點解讀:護(hù)欄不僅“攔得住”,還“攔得聰明” 3.1 護(hù)欄模型該不該“自信”?

一個直覺但常被忽視的問題是:安全護(hù)欄模型的“不確定性”應(yīng)該如何分布?

如果模型在所有階段都極度自信,往往意味著過度武斷;但如果在關(guān)鍵決策點猶豫不決,又可能放過真正的風(fēng)險。

為此,研究團(tuán)隊通過token 級熵分析,系統(tǒng)對比了不同護(hù)欄模型在 TS-Bench 上的行為模式。

實驗發(fā)現(xiàn),相比通用大模型,護(hù)欄模型整體具有更低的不確定性,說明它們在安全判斷上更“果斷”。但進(jìn)一步分析顯示,TS-Guard 與現(xiàn)有方法在“自信的位置”上存在本質(zhì)差異

ShieldAgent 傾向于在整個輸出過程中持續(xù)壓低熵值,而 TS-Guard 則主要在最終安全判定時收斂不確定性,在中間分析階段保留相對更高的熵值。

這意味著,TS-Guard 并不是一開始就“拍板定論”,而是允許模型在推理階段進(jìn)行更充分的探索,最終在關(guān)鍵判斷點給出穩(wěn)定、可靠的安全結(jié)論。


圖護(hù)欄模型熵值比較。(a)專用護(hù)欄模型的熵值低于通用 LLM。(b)TS-Guard 在降低最終決策熵的同時,一定程度上保持推理步驟熵值,促進(jìn)更有效的探索 3.2 安全護(hù)欄反饋,如何改變智能體的行為?

研究進(jìn)一步關(guān)注了一個更核心的問題:護(hù)欄反饋是否真的影響了智能體的決策過程,或者說護(hù)欄反饋如何影響智能體的輸出分布?

在基于 ReAct 框架的智能體實驗中,研究團(tuán)隊跟蹤了模型在推理與工具調(diào)用過程中的 token 級熵變化。結(jié)果顯示,在沒有任何護(hù)欄的情況下,智能體的不確定性會隨著推理推進(jìn)不斷下降,表現(xiàn)出對潛在危險操作的過度自信執(zhí)行

而在引入 TS-Flow 后,情況發(fā)生了明顯變化:當(dāng) TS-Guard 識別出可能存在風(fēng)險的工具調(diào)用并將反饋注入到 agent 的上下文時,agent 輸出的 token 級熵值會被主動拉高。

這表明護(hù)欄機(jī)制正在動態(tài)調(diào)節(jié)智能體的輸出分布,在高風(fēng)險時刻刻意保留不確定性,從而促使模型重新審視當(dāng)前決策路徑,探索更多樣化的路徑,而不是順著執(zhí)行不安全操作。

換句話說,TS-Flow 并不是簡單地“阻止動作”,而是在關(guān)鍵節(jié)點改變了智能體的思考方式


ReAct 智能體(Qwen2.5-14B-IT 為基模)的逐 token 熵變化。未使用防護(hù)措施時,智能體會因過度自信而熵值下降;引入 TS-Flow 后,TS-Guard 反饋在高風(fēng)險步驟提升熵值,保持不確定性,引導(dǎo)智能體進(jìn)行安全探索。 3.3 為什么“多說一點”反而更安全?

最后,研究團(tuán)隊還驗證了安全反饋內(nèi)容豐富度對智能體行為的影響。不同于只給出“安全 / 不安全”的二值判斷,TS-Guard 還能提供包括用戶請求有害性分析、工具調(diào)用與第三方攻擊之間關(guān)聯(lián)等更細(xì)粒度的信息。

實驗對比了兩種設(shè)置:

  • 僅向智能體提供當(dāng)前動作的安全評級;

  • 向智能體提供 TS-Guard 的完整安全分析反饋。

結(jié)果顯示,獲得更豐富反饋的智能體,在安全性和任務(wù)完成質(zhì)量上均取得了更優(yōu)表現(xiàn)。這表明,詳盡的安全反饋不僅不會干擾推理,反而能更有效地引導(dǎo)智能體在安全邊界內(nèi)做出更合理的決策。


不同反饋信息豐富度下的智能體表現(xiàn)對比。更豐富的反饋(完整 TS-Guard 輸出)可顯著提升智能體的安全性與效用。 參考文獻(xiàn)

[1] AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models.

[2] Agentdojo: A dynamic environment to evaluate prompt injection attacks and defenses for llm agents.

[3] Agent security bench (asb): Formalizing and benchmarking attacks and defenses in llm-based agents.

[4] Agentauditor: Human-level safety and security evaluation for llm agents.

[5] R-judge: Benchmarking safety risk awareness for llm agents.

[6] Agrail: A lifelong agent guardrail with effective and adaptive safety detection.

[7] Shieldagent: Shielding agents via verifiable safety policy reasoning.

llustration generated by AI.

-The End-

掃碼觀看!

本周上新!


“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

yimingzhang@thejiangmen.com

添加工作人員微信(aceyiming投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗對美以發(fā)動47波攻擊

伊朗對美以發(fā)動47波攻擊

界面新聞
2026-03-14 07:13:39
美國海軍陸戰(zhàn)隊遠(yuǎn)征波斯灣,有三個可能的目標(biāo) | 京釀館

美國海軍陸戰(zhàn)隊遠(yuǎn)征波斯灣,有三個可能的目標(biāo) | 京釀館

新京報評論
2026-03-14 15:49:35
馬云也搞不懂了:為什么老百姓偏愛微信支付,而不是支付寶?

馬云也搞不懂了:為什么老百姓偏愛微信支付,而不是支付寶?

閱微札記
2026-03-13 22:08:30
“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

“美軍紅線”哈爾克島:美伊合資打造的伊朗“王冠明珠”,關(guān)鍵、強(qiáng)韌,也脆弱

紅星新聞
2026-03-14 15:58:37
中國臺北女足日程表上寫著:打倒中國隊,前進(jìn)世界杯

中國臺北女足日程表上寫著:打倒中國隊,前進(jìn)世界杯

懂球帝
2026-03-14 12:25:09
今年的315,草莓第一個翻車,重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

今年的315,草莓第一個翻車,重金屬農(nóng)殘超標(biāo),敵敵畏隨便用

Mr王的飯后茶
2026-03-14 13:15:36
本田汽車暴虧1000億,徹底賣不動了

本田汽車暴虧1000億,徹底賣不動了

新浪財經(jīng)
2026-03-13 20:37:07
武大楊景媛上岸公務(wù)員,上萬人點贊

武大楊景媛上岸公務(wù)員,上萬人點贊

關(guān)爾東
2026-03-14 16:52:01
伊朗深夜發(fā)動2波打擊!美方:已有13名美軍陣亡!駐日美軍“準(zhǔn)航母”及海軍陸戰(zhàn)隊被調(diào)往中東,特朗普:只要有需要,戰(zhàn)爭將持續(xù)

伊朗深夜發(fā)動2波打擊!美方:已有13名美軍陣亡!駐日美軍“準(zhǔn)航母”及海軍陸戰(zhàn)隊被調(diào)往中東,特朗普:只要有需要,戰(zhàn)爭將持續(xù)

每日經(jīng)濟(jì)新聞
2026-03-14 09:27:04
不要捏!不要踩!上海街頭小區(qū)正大量出現(xiàn)!不少人吐槽:苦不堪言!

不要捏!不要踩!上海街頭小區(qū)正大量出現(xiàn)!不少人吐槽:苦不堪言!

上觀新聞
2026-03-14 18:26:20
古巴總統(tǒng)宣布:與美國達(dá)成協(xié)議

古巴總統(tǒng)宣布:與美國達(dá)成協(xié)議

跟著老李看世界
2026-03-14 09:15:36
鎮(zhèn)江市委常委會召開會議 堅決擁護(hù)省委對許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

鎮(zhèn)江市委常委會召開會議 堅決擁護(hù)省委對許文涉嫌嚴(yán)重違紀(jì)違法進(jìn)行紀(jì)律審查和監(jiān)察調(diào)查的決定

環(huán)球網(wǎng)資訊
2026-03-14 13:18:09
七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

七旬翁直播間買了81箱酒,支付113筆花掉8.3萬,還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品,要求“退一賠三”

大風(fēng)新聞
2026-03-14 10:10:23
600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

600年前城磚上出現(xiàn)“劉德華”?南京官方回應(yīng)

澎湃新聞
2026-03-14 20:02:09
美軍猛炸伊朗地下導(dǎo)彈長城,疑似十萬伊軍被埋地下?

美軍猛炸伊朗地下導(dǎo)彈長城,疑似十萬伊軍被埋地下?

高博新視野
2026-03-14 07:45:10
網(wǎng)貸行業(yè),天塌了!

網(wǎng)貸行業(yè),天塌了!

首席品牌評論
2026-03-13 23:02:51
最新!伊朗:襲擊美軍中東三大軍事基地,“愛國者”反導(dǎo)系統(tǒng)雷達(dá)、機(jī)庫、燃料庫被擊中起火!伊朗提出停戰(zhàn)條件:收回?fù)p失、美國離開波斯灣

最新!伊朗:襲擊美軍中東三大軍事基地,“愛國者”反導(dǎo)系統(tǒng)雷達(dá)、機(jī)庫、燃料庫被擊中起火!伊朗提出停戰(zhàn)條件:收回?fù)p失、美國離開波斯灣

每日經(jīng)濟(jì)新聞
2026-03-14 19:22:19
國家曝光云南毒草莓!商戶主動投毒,流竄至全國多地,利益鏈被扒

國家曝光云南毒草莓!商戶主動投毒,流竄至全國多地,利益鏈被扒

離離言幾許
2026-03-14 14:28:01
悲催了!24歲青年猝死:殺死他的不是手機(jī),是讓人上癮的“舒服”

悲催了!24歲青年猝死:殺死他的不是手機(jī),是讓人上癮的“舒服”

魔都姐姐雜談
2026-03-14 12:46:16
新鵬城1-0獲中超首勝!韋斯利絕殺 送津門虎2輪不勝+積負(fù)9分墊底

新鵬城1-0獲中超首勝!韋斯利絕殺 送津門虎2輪不勝+積負(fù)9分墊底

我愛英超
2026-03-14 22:04:46
2026-03-14 23:11:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

頭條要聞

女孩邊照顧患癌母親邊考研 二戰(zhàn)上岸卻確診癌癥晚期

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

九成美曝田栩?qū)幵衅诔鲕?AI反轉(zhuǎn)引熱議

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

本地
數(shù)碼
健康
時尚
公開課

本地新聞

坐標(biāo)北京,過敏季反向遷徒

數(shù)碼要聞

設(shè)計還在20年前的冰箱如何升級?容聲:中國人需要自己的中國冰箱

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

女人到了三四十歲穿衣要顯貴,這些穿搭值得借鑒,大方又好看

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版