從“事后檢測”到“過程引導(dǎo)”，北大聯(lián)合上海AI Lab重塑智能體工具調(diào)用安全

2026-03-13 08:25:40　來源: 將門創(chuàng)投

北京舉報

分享至

在大語言模型不斷走向智能體化、并通過工具調(diào)用直接作用于真實世界的今天，安全問題已經(jīng)不再停留在“說什么”，而是轉(zhuǎn)向“會做什么”。當(dāng)模型能夠調(diào)用代碼執(zhí)行器、數(shù)據(jù)庫和真實 API 時，一次看似合理的工具調(diào)用，就可能直接引發(fā)現(xiàn)實世界中的安全風(fēng)險。

問題的關(guān)鍵，并不在于安全對齊“做得不夠”，而在于它對齊的對象已經(jīng)發(fā)生了變化。

現(xiàn)有的大多數(shù)安全機(jī)制，主要圍繞 chatbot 的文本輸出設(shè)計；但在智能體場景中，真正的風(fēng)險往往不來自違規(guī)回答，而來自一次被誤判為正常的工具調(diào)用 [1]。

這一問題在提示注入攻擊下被進(jìn)一步放大 [2, 3]。攻擊者無需誘導(dǎo)模型生成有害內(nèi)容，只需在環(huán)境反饋或工具返回中植入隱蔽指令，便可能在后續(xù)步驟中悄然接管智能體的決策過程，而傳統(tǒng)的輸出級安全機(jī)制對此往往難以及時察覺。

因此，如何在每一次工具調(diào)用發(fā)生之前識別并約束潛在風(fēng)險，成為智能體安全落地亟需解決的核心問題。

論文題目： ToolSafe: Enhancing Tool Invocation Safety of LLM-based Agents via Proactive Step-level Guardrail and Feedback 論文鏈接： https://arxiv.org/pdf/2601.10156 代碼鏈接： https://github.com/MurrayTom/ToolSafe

本研究考慮的兩類工具調(diào)用安全風(fēng)險示意圖。（a）惡意用戶請求，直接導(dǎo)致不安全的工具調(diào)用。（b）在執(zhí)行正常任務(wù)過程中發(fā)生的提示注入攻擊，導(dǎo)致不正當(dāng)工具被意外使用，原任務(wù)執(zhí)行軌跡發(fā)生偏離。

北京大學(xué)知識計算實驗室聯(lián)合上海人工智能實驗室提出了 ToolSafe 框架，首次系統(tǒng)化地對 LLM 智能體的步驟級工具調(diào)用安全問題進(jìn)行建模與防護(hù)。

在此基礎(chǔ)上，團(tuán)隊開發(fā)了 TS-Bench、TS-Guard 和 TS-Flow 三大組件：

TS-Bench 提供首個步驟級工具調(diào)用安全檢測評估基準(zhǔn)；
TS-Guard 是一個步驟級護(hù)欄模型，它通過多任務(wù)強(qiáng)化學(xué)習(xí)優(yōu)化，能通過歸因分析提供可解釋的安全反饋；
TS-Flow 則嘗試將來自步驟級護(hù)欄的反饋信號融入智能體推理流程，顯著減少有害工具調(diào)用并提升了提示注入攻擊場景下的良性任務(wù)完成率。

相關(guān)代碼、數(shù)據(jù)與模型已全部開源，詳細(xì)方法與實驗結(jié)果可參考原始論文。

一、TS-Bench：步驟級工具調(diào)用安全檢測基準(zhǔn)

為了評估智能體在工具調(diào)用中的安全性，本研究推出了 TS-Bench ——首個面向步驟級工具調(diào)用的安全檢測基準(zhǔn)。

與此前基準(zhǔn)不同：以前的評測要么只提供事后軌跡級標(biāo)注（如 ASSEBench [4]、R-Judge [5]），要么只關(guān)注特定領(lǐng)域的風(fēng)險行為（如關(guān)注網(wǎng)頁瀏覽或代碼執(zhí)行安全風(fēng)險的OS-Safe [6]、ShieldAgent-Bench [7]）。

而 TS-Bench 聚焦于通用智能體在每一步工具調(diào)用時的安全風(fēng)險，提供細(xì)粒度逐步標(biāo)注，支持在工具真正執(zhí)行前就主動發(fā)現(xiàn)潛在危險。

在任務(wù)定義上，TS-Bench 模擬 LLM 智能體的多步交互推理-行動循環(huán)：智能體從用戶請求出發(fā)，每一步生成動作（包括中間推理和工具調(diào)用），并接收環(huán)境反饋，直到任務(wù)完成。

TS-Bench 的標(biāo)注不僅記錄每一步工具調(diào)用是否安全，還標(biāo)注是否涉及提示注入攻擊或有害請求，為智能體安全防護(hù)提供了前所未有的細(xì)粒度參考。

TS-Bench 基于四個代表性的智能體安全評估數(shù)據(jù)集（AgentAlign、AgentHarm、ASB、AgentDojo）構(gòu)建，涵蓋多種不安全工具調(diào)用模式，使其既廣泛又通用。

下表對比了 TS-Bench 與現(xiàn)有智能體安全檢測基準(zhǔn)，突出其在步驟級工具調(diào)用安全評測上的獨特價值。

TS-Bench 與現(xiàn)有代理安全檢測基準(zhǔn)的對比。本研究考慮的不安全模式包括：MUR（惡意用戶請求）、PI（提示注入）、HT（有害工具）、BTRA（具有風(fēng)險參數(shù)的正常工具）。

二、TS-Guard × TS-Flow：讓智能體在“動手之前”就變安全

圍繞智能體在工具調(diào)用階段的安全風(fēng)險，本研究提出了一套主動式、步驟級的安全護(hù)欄與反饋框架，核心由兩個部分組成：TS-Guard 與 TS-Flow。它們分別解決“怎么識別風(fēng)險”和“如何避免風(fēng)險”這兩個關(guān)鍵問題。

我們針對 LLM 智能體的主動步驟級安全防護(hù)與反饋框架示意圖。（a）TS-Guard 的輸入與輸出格式。（b）TS-Flow 將防護(hù)反饋傳遞給智能體，使其能夠在安全約束下進(jìn)行工具調(diào)用推理，而非直接中止執(zhí)行。 2.1 TS-Guard：執(zhí)行前主動安全監(jiān)控，而非事后追責(zé)

TS-Guard 是一個面向智能體工具調(diào)用的步驟級安全檢測模型。不同于以往的護(hù)欄模型只在任務(wù)結(jié)束后回看整條軌跡是否有問題，TS-Guard 需要判斷的是：在某一次工具真正被執(zhí)行之前，這一步到底安不安全。

為此，TS-Guard 將復(fù)雜的安全判斷拆解為三個緊密關(guān)聯(lián)的子任務(wù)，在一次推理中聯(lián)合完成：

用戶請求是否本身具有風(fēng)險
當(dāng)前候選工具調(diào)用是否與第三方攻擊（如提示注入）存在關(guān)聯(lián)
這一次工具調(diào)用動作本身是否存在安全風(fēng)險

模型不僅輸出最終的安全標(biāo)簽（安全 / 存在可疑風(fēng)險 / 顯著不安全），還會生成簡要的歸因分析與推理過程，讓安全判斷具備可解釋性。

在訓(xùn)練層面，研究團(tuán)隊采用GRPO 強(qiáng)化學(xué)習(xí)結(jié)合多任務(wù)獎勵機(jī)制進(jìn)行優(yōu)化，相比傳統(tǒng)監(jiān)督微調(diào)，顯著提升了模型在未知場景下的泛化檢測能力。

實驗表明，TS-Guard 能在復(fù)雜交互日志中穩(wěn)定識別潛在的危險工具調(diào)用，是面向真實部署場景的“前置安全閘門”。

2.2 TS-Flow：不再“一刀切中斷”，而是用反饋引導(dǎo)智能體自我糾正

檢測只是第一步，更難的是如何在不破壞智能體任務(wù)完成的前提下提升安全性?，F(xiàn)有不少智能體安全框架采用的是“detect-and-abort”范式，例如LlamaFirewall：一旦檢測到異常，直接終止整個任務(wù)流程。

但在真實環(huán)境中，正常指令與攻擊信號往往混雜出現(xiàn)，這種做法很容易誤傷正常任務(wù)，嚴(yán)重影響智能體的可用性。

為此，本研究提出 TS-Flow：一種安全護(hù)欄反饋驅(qū)動的工具調(diào)用推理框架。

在 TS-Flow 中，TS-Guard 作為護(hù)欄模型會實時監(jiān)控每一步工具調(diào)用動作，但是并不會直接“掐掉”智能體，而是在工具執(zhí)行前對潛在不安全的候選動作給出針對性的安全反饋，提示風(fēng)險來源與問題所在，引導(dǎo)智能體調(diào)整推理路徑、修正行動計劃。

這種“智能體–護(hù)欄交互式”機(jī)制，使安全不再是強(qiáng)制打斷，而是一次可學(xué)習(xí)、可修正的過程。

實驗結(jié)果顯示，TS-Flow 在顯著提升工具調(diào)用安全性的同時，基本不犧牲智能體的任務(wù)完成能力，為安全與效用之間提供了一種更平衡的解決方案。

總結(jié)

TS-Guard 負(fù)責(zé)在每一步看清風(fēng)險，TS-Flow 負(fù)責(zé)在出手之前把方向拉回來。它們共同構(gòu)成了一套面向真實世界部署的、可解釋、可糾偏的智能體工具調(diào)用安全方案。

三、實驗亮點解讀：護(hù)欄不僅“攔得住”，還“攔得聰明” 3.1 護(hù)欄模型該不該“自信”？

一個直覺但常被忽視的問題是：安全護(hù)欄模型的“不確定性”應(yīng)該如何分布？

如果模型在所有階段都極度自信，往往意味著過度武斷；但如果在關(guān)鍵決策點猶豫不決，又可能放過真正的風(fēng)險。

為此，研究團(tuán)隊通過token 級熵分析，系統(tǒng)對比了不同護(hù)欄模型在 TS-Bench 上的行為模式。

實驗發(fā)現(xiàn)，相比通用大模型，護(hù)欄模型整體具有更低的不確定性，說明它們在安全判斷上更“果斷”。但進(jìn)一步分析顯示，TS-Guard 與現(xiàn)有方法在“自信的位置”上存在本質(zhì)差異：

ShieldAgent 傾向于在整個輸出過程中持續(xù)壓低熵值，而 TS-Guard 則主要在最終安全判定時收斂不確定性，在中間分析階段保留相對更高的熵值。

這意味著，TS-Guard 并不是一開始就“拍板定論”，而是允許模型在推理階段進(jìn)行更充分的探索，最終在關(guān)鍵判斷點給出穩(wěn)定、可靠的安全結(jié)論。

圖護(hù)欄模型熵值比較。（a）專用護(hù)欄模型的熵值低于通用 LLM。（b）TS-Guard 在降低最終決策熵的同時，一定程度上保持推理步驟熵值，促進(jìn)更有效的探索 3.2 安全護(hù)欄反饋，如何改變智能體的行為？

研究進(jìn)一步關(guān)注了一個更核心的問題：護(hù)欄反饋是否真的影響了智能體的決策過程，或者說護(hù)欄反饋如何影響智能體的輸出分布？

在基于 ReAct 框架的智能體實驗中，研究團(tuán)隊跟蹤了模型在推理與工具調(diào)用過程中的 token 級熵變化。結(jié)果顯示，在沒有任何護(hù)欄的情況下，智能體的不確定性會隨著推理推進(jìn)不斷下降，表現(xiàn)出對潛在危險操作的過度自信執(zhí)行。

而在引入 TS-Flow 后，情況發(fā)生了明顯變化：當(dāng) TS-Guard 識別出可能存在風(fēng)險的工具調(diào)用并將反饋注入到 agent 的上下文時，agent 輸出的 token 級熵值會被主動拉高。

這表明護(hù)欄機(jī)制正在動態(tài)調(diào)節(jié)智能體的輸出分布，在高風(fēng)險時刻刻意保留不確定性，從而促使模型重新審視當(dāng)前決策路徑，探索更多樣化的路徑，而不是順著執(zhí)行不安全操作。

換句話說，TS-Flow 并不是簡單地“阻止動作”，而是在關(guān)鍵節(jié)點改變了智能體的思考方式。

ReAct 智能體（Qwen2.5-14B-IT 為基模）的逐 token 熵變化。未使用防護(hù)措施時，智能體會因過度自信而熵值下降；引入 TS-Flow 后，TS-Guard 反饋在高風(fēng)險步驟提升熵值，保持不確定性，引導(dǎo)智能體進(jìn)行安全探索。 3.3 為什么“多說一點”反而更安全？

最后，研究團(tuán)隊還驗證了安全反饋內(nèi)容豐富度對智能體行為的影響。不同于只給出“安全 / 不安全”的二值判斷，TS-Guard 還能提供包括用戶請求有害性分析、工具調(diào)用與第三方攻擊之間關(guān)聯(lián)等更細(xì)粒度的信息。

實驗對比了兩種設(shè)置：

僅向智能體提供當(dāng)前動作的安全評級；
向智能體提供 TS-Guard 的完整安全分析反饋。

結(jié)果顯示，獲得更豐富反饋的智能體，在安全性和任務(wù)完成質(zhì)量上均取得了更優(yōu)表現(xiàn)。這表明，詳盡的安全反饋不僅不會干擾推理，反而能更有效地引導(dǎo)智能體在安全邊界內(nèi)做出更合理的決策。

不同反饋信息豐富度下的智能體表現(xiàn)對比。更豐富的反饋（完整 TS-Guard 輸出）可顯著提升智能體的安全性與效用。參考文獻(xiàn)

[1] AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models.

[2] Agentdojo: A dynamic environment to evaluate prompt injection attacks and defenses for llm agents.

[3] Agent security bench (asb): Formalizing and benchmarking attacks and defenses in llm-based agents.

[4] Agentauditor: Human-level safety and security evaluation for llm agents.

[5] R-judge: Benchmarking safety risk awareness for llm agents.

[6] Agrail: A lifelong agent guardrail with effective and adaptive safety detection.

[7] Shieldagent: Shielding agents via verifiable safety policy reasoning.

llustration generated by AI.

-The End-

掃碼觀看！

本周上新！

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（www.techbeat.net）。社區(qū)上線700+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

yimingzhang@thejiangmen.com

或添加工作人員微信（aceyiming）投稿，溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務(wù)，歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.