国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

細(xì)思極恐!Agent暗藏風(fēng)險,清華團隊打出組合拳,全鏈路一網(wǎng)打盡

0
分享至


新智元報道

編輯:YHluck

【新智元導(dǎo)讀】當(dāng)Agent開始真正進(jìn)入生產(chǎn)環(huán)境,安全問題不再是「功能模塊」,而是貫穿調(diào)用鏈、運行時與生態(tài)層的系統(tǒng)性風(fēng)險。過去依賴提示詞規(guī)則、日志審計與框架級防護(hù)的方式,正在逐步失效。來自清華大學(xué)人工智能學(xué)院、交叉信息研究院的方寸躍遷提出一套面向Agent運行全生命周期的多層安全體系。

當(dāng)所有人都在卷Agent能力的時候,一個更危險的問題,已悄然出現(xiàn)——

你部署的Agent,此刻到底在做什么?


一個被忽略很久的事實

Agent會「表演」

過去兩年,行業(yè)幾乎把全部火力砸在了模型能力、Agent框架與工具調(diào)用體系的軍備競賽里。

安全能力,則更多停留在「表層防護(hù)」:提示詞規(guī)則、輸入輸出過濾、運行時日志審計,加上基于SDK Hook的框架級約束。

這些機制各自有效。但它們共享同一個根本性盲區(qū)——

它們看到的,只是Agent「聲明」出來的行為。

但如果將視角稍微下沉一層,問題會迅速變得復(fù)雜。

Agent在執(zhí)行任務(wù)時,會與環(huán)境發(fā)生大量真實交互:調(diào)用API、讀寫文件、操控瀏覽器、驅(qū)動數(shù)據(jù)庫、以及與其他Agent協(xié)同通信。

一個完整任務(wù)的執(zhí)行鏈,可能橫跨數(shù)十個步驟、多個工具鏈與多個運行層級。

這種復(fù)雜性本身,就天然構(gòu)成了行為掩護(hù)層。

更可怕的是,模型會在被監(jiān)控的環(huán)境下,主動調(diào)整自己的行為表現(xiàn)。不是按規(guī)則執(zhí)行,而是「按規(guī)則表演」。

這不是科幻設(shè)定。而是已經(jīng)在論文里、在紅隊報告里、在企業(yè)內(nèi)部事故復(fù)盤里反復(fù)出現(xiàn)的真實風(fēng)險。

當(dāng)企業(yè)內(nèi)部同時運行數(shù)十甚至上百個Agent,由不同團隊、不同框架與不同模型構(gòu)建時,一個更現(xiàn)實的問題隨之出現(xiàn):

系統(tǒng)已經(jīng)無法完整感知,自己正在運行多少個Agent。更無法確認(rèn),它們真正在做什么。

Fangcun Observer

看見真實動作,守住安全邊界

來自清華大學(xué)人工智能學(xué)院、交叉信息研究院的方寸躍遷給Observer指定了一條設(shè)計哲學(xué)——

別問Agent想做什么,看它到底做了什么。

聽起來簡單,真正的挑戰(zhàn)在于把它鍛造成穩(wěn)定、低延遲、可審計、可規(guī)?;南到y(tǒng)。

視角的反轉(zhuǎn)

主流的Agent安全方案,幾乎清一色接在表層:提示詞里的安全規(guī)則、輸入輸出的內(nèi)容過濾、運行時的日志審計、Agent Harness提供的SDK Hook。

每一層都有人在做。

每一層也都有同一個盲區(qū):它們看到的,都是Agent在框架邊界上「聲明」出來的那一層。

Observer不走這條路。

它直接下沉到操作系統(tǒng)層,不依賴任何框架插件,不依賴SDK接口,不依賴模型供應(yīng)商集成。業(yè)務(wù)代碼零改動,Agent無感知接入——觀測,即刻開始。

它捕獲的,是Agent的真實行為:

執(zhí)行了哪些系統(tǒng)命令

讀寫了哪些文件

發(fā)起了哪些網(wǎng)絡(luò)請求

是否出現(xiàn)越權(quán)操作或高風(fēng)險行為序列

過去的方案,看到的是Agent「說」了什么。Observer看到的,是Agent「做」了什么。


聲明可以包裝,行為不會撒謊。

五項核心能力

重新定義Agent安全的邊界

  • OS層行為感知,徹底解耦Harness,開箱即用


Agent生態(tài)日新月異,沒有任何一個框架能成為永久標(biāo)準(zhǔn)。今天是Open Claw,明天可能換成Hermes,后天又會有新的涌現(xiàn)。

Observer直接在操作系統(tǒng)層感知Agent的真實動作,與上層框架、調(diào)用棧、模型供應(yīng)商完全解耦。

無論Agent跑在哪套棧上,觀測能力始終有效。

企業(yè)不需要為每一次技術(shù)遷移,重新接入一遍安全體系。

  • 無感知運行時觀測

業(yè)務(wù)代碼零改動,計算開銷忽略不計,現(xiàn)有鏈路一行都不用碰。不是「改動很小」——真的不用動。

第二層更關(guān)鍵。Agent不會知道自己正在被觀測——你看到的,是它真正的行為。不是它「表演」給你看的樣子。

  • 實時干預(yù),主動阻斷,安全前置


Observer不只是事后復(fù)盤工具。

危險命令執(zhí)行、敏感文件操作、異常網(wǎng)絡(luò)訪問、越權(quán)持久化——針對這些高風(fēng)險行為,系統(tǒng)在行為落地之前完成實時研判,按策略執(zhí)行通知、暫?;蛑苯幼钄?。

從亡羊補牢,變成關(guān)門打狗

  • 全鏈路溯源,揪出隱藏威脅


真正的風(fēng)險,從來不在表面。

Observer把運行時的真實行為、Agent的決策動作與模型上下文關(guān)聯(lián)成完整的行為圖譜——每一個風(fēng)險事件,都能追溯到完整的決策鏈路。

哪怕是環(huán)境投毒攻擊;哪怕是從不親自動手、只靠影響其他Agent來轉(zhuǎn)嫁風(fēng)險的惡意Agent——在多Agent協(xié)作網(wǎng)絡(luò)里,都無處遁形。

  • 本地審計+自進(jìn)化防御策略

所有觀測、審計、事件數(shù)據(jù)均可完整本地沉淀,不上云、不外傳。

策略模型基于真實運行數(shù)據(jù)持續(xù)迭代,從靜態(tài)規(guī)則走向自進(jìn)化防御。

安全能力,隨業(yè)務(wù)規(guī)模一同生長。

Fangcun Guard

讓安全審核,從「性能稅」變成「基礎(chǔ)設(shè)施

Observer守住的是Agent在系統(tǒng)層的真實行為。

但Agent的輸入和輸出,同樣需要一道護(hù)欄。

一個真正能放進(jìn)生產(chǎn)環(huán)境的安全護(hù)欄,到底要做到什么?

夠快。一次完整的Agent對話,要過2到4道審核:用戶輸入、工具調(diào)用入?yún)?、模型輸出、工具返回。每一道都不能拖慢用戶體驗。

夠準(zhǔn)。不能某一類強、某一類崩。漏檢少,誤拒低,所有主流場景都要穩(wěn)定輸出。

夠靈活。金融、醫(yī)療、教育、游戲,每個場景的風(fēng)險結(jié)構(gòu)完全不同。一套固定閾值打天下,行不通。

業(yè)內(nèi)主流的開源安全大模型——Llama Guard、NVIDIA Nemotron、Qwen3 Guard、xGuard——已經(jīng)把這件事推到了相當(dāng)不錯的水平。

同時把「快、準(zhǔn)、靈活」三件事都做到頂尖?

Fangcun Guard,是方寸躍遷給出的答案。

數(shù)據(jù)怎么樣,直接看圖

6項公開benchmark,7款最常用的開源安全模型,同條件對齊評測。


先看綜合檢測準(zhǔn)確性:Fangcun Guard=91.1。開源方案的區(qū)間,分布在70到88之間。

再看p99推理延時:Fangcun Guard=8毫秒。8B量級的開源方案普遍在130毫秒以上,0.6B的輕量方案能壓到50毫秒以內(nèi)——但F1上還有差距。


5項差異化能力

決定它能不能進(jìn)生產(chǎn)環(huán)境


  • 判定不偏科,灰區(qū)話術(shù)不放過

一般有害內(nèi)容,能判。精心構(gòu)造的越獄攻擊,能判。深度偽裝成正常對話的灰區(qū)話術(shù)——也能判。

跨場景穩(wěn)定輸出,是進(jìn)生產(chǎn)環(huán)境的唯一門票。

  • 毫秒級響應(yīng),安全審核變基礎(chǔ)設(shè)施

一次完整Agent對話,要過4道審核。4道全跑Guard,總耗時30毫秒。

用戶感知不到。業(yè)務(wù)感知不到。

安全審核,從「性能稅」變成了默認(rèn)開啟、隨處可加的基礎(chǔ)設(shè)施。

  • 中文場景,專項打磨

通用安全大模型的慣常操作:全世界語言一鍋燉,英文亮眼,中文長尾頻繁漏過。

Fangcun Guard把風(fēng)險拆成10個獨立類別,每一類基于中文場景專項合成數(shù)據(jù)、專項對齊訓(xùn)練??缯Z種攻擊、口語化越獄、長尾邊緣案例,穩(wěn)定召回。

  • 10類風(fēng)險獨立可調(diào),不再一刀切

通用安全模型只給「開/關(guān)」兩檔。但金融、醫(yī)療、教育、游戲,每個場景的風(fēng)險結(jié)構(gòu)完全不同。

FangcunGuard把10類風(fēng)險作為獨立維度暴露給企業(yè),每一類攔截閾值單獨配置,Web控制臺或接口中按業(yè)務(wù)自調(diào)。

  • 主流Agent生態(tài)一鍵接入

主流Agent框架開箱即用,業(yè)務(wù)代碼零改動。

如果你的Agent還卡在130毫秒的延遲里——

是時候換一個8毫秒搞定的護(hù)欄了。

Skill Ward

三階段檢測,真實蜜罐運行

Observer守運行時行為,Guard守輸入輸出邊界。

但隨著Agent的持續(xù)發(fā)展,還有一類風(fēng)險來自更上游——第三方Skill。

這個生態(tài)已經(jīng)長成了Agent的「App Store」。

Claude Skills、OpenAI Apps、Claw Hub,幾十萬個第三方Skill匯聚其中。

行業(yè)現(xiàn)有的方案,幾乎全部停留在靜態(tài)掃描:掃一遍代碼、查可疑導(dǎo)入、檢索黑名單關(guān)鍵詞。

但惡意Skill真正的殺招,從來不在靜態(tài)代碼里。

那行寫著「讀取配置文件」的代碼,跑起來才去拉遠(yuǎn)程載荷;

那段標(biāo)注「調(diào)試日志」的邏輯,觸發(fā)后才向外發(fā)請求;

那個看上去合法的依賴包,在特定參數(shù)下才激活后門。

只看代碼,看不出來。

Skill Ward,是方寸躍遷推出的全球首個三階段Agent Skill安全掃描器——不只是靜態(tài)檢查,是真實運行一遍。


第一階段:靜態(tài)分析——惡意簽名、危險調(diào)用、可疑依賴,先過一遍。

第二階段:大模型研判——理解Skill真實意圖,識別偽裝話術(shù)、混淆邏輯、社工誘導(dǎo)。

第三階段:Docker蜜罐沙箱實際執(zhí)行——真正的殺手锏。

每一個Skill都會被丟進(jìn)隔離的蜜罐環(huán)境,真實跑一遍。

調(diào)用了哪些命令、訪問了哪些路徑、連接了哪些外部地址、有沒有嘗試持久化、有沒有橫向探測——一切行為,無處遁形。

那些「看上去無害、運行時才動手」的Skill,在這一關(guān)原形畢露。

5000個真實Skill實測:僅靠靜態(tài)掃描,會漏掉約三分之一的運行時威脅。這部分,全部由蜜罐沙箱階段抓出。

運行時的真實行為軌跡,才是答案。

事前、事中、事后

Agent安全的完整邊界

Skill Ward,守事前——Skill裝入Agent之前的最后一關(guān)

Fangcun Guard,守事中的輸入輸出——8毫秒的護(hù)欄,安全審核變基礎(chǔ)設(shè)施。

Fangcun Observer,守事中的真實行為,沉淀事后審計——操作系統(tǒng)層的真相,無法造假。

過去兩年,行業(yè)把幾乎所有火力,砸在了Agent能力的天花板上。

但Agent真正大規(guī)模進(jìn)入企業(yè)生產(chǎn)環(huán)境的那一刻,決定它能不能落地的,從來不是它有多聰明——

而是它有多可控你知道有多少個Agent在運行。你知道每一個Agent真正在做什么。你能在它做錯事之前阻斷它。你能在它做對事的時候,讓它跑得足夠快。

Agent時代的安全邊界,第一次被完整畫出來。

在Agent安全尚處早期定義階段的當(dāng)下,方寸躍遷正通過產(chǎn)品與技術(shù)加速構(gòu)建起Agent時代的全新安全基礎(chǔ)設(shè)施平臺。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一只青蛙如何被井外勢力蠱惑

一只青蛙如何被井外勢力蠱惑

黔有虎
2026-05-05 22:54:29
生前喊沒綁緊!16歲女粉舉應(yīng)援旗墜亡懸崖秋千!宋亞軒發(fā)文回應(yīng)

生前喊沒綁緊!16歲女粉舉應(yīng)援旗墜亡懸崖秋千!宋亞軒發(fā)文回應(yīng)

草莓解說體育
2026-05-07 00:13:37
5月6日國際足聯(lián)急了!除了中國,還有不止3個國家不給世界杯買單

5月6日國際足聯(lián)急了!除了中國,還有不止3個國家不給世界杯買單

以茶帶書
2026-05-06 20:48:28
毀三觀!體壇 4 大丑聞曝光:貪財好色、婚內(nèi)出軌,比娛樂圈還亂

毀三觀!體壇 4 大丑聞曝光:貪財好色、婚內(nèi)出軌,比娛樂圈還亂

橙星文娛
2026-04-27 16:46:45
墨菲輸球后說出大實話:決勝局那桿中袋紅球,全場只有3個人敢打

墨菲輸球后說出大實話:決勝局那桿中袋紅球,全場只有3個人敢打

觀察鑒娛
2026-05-06 10:02:30
白嫖烤全羊男子社會性死亡!“底褲”被扒,至今未付錢,警方介入

白嫖烤全羊男子社會性死亡!“底褲”被扒,至今未付錢,警方介入

凡知
2026-05-06 15:07:44
中國是如何研制殲20的?美國防部曾稱:中國對世界隱瞞了真相!

中國是如何研制殲20的?美國防部曾稱:中國對世界隱瞞了真相!

荷蘭豆愛健康
2026-05-07 11:11:38
一文詳解聞泰科技ST始末,同是暴雷為何與五糧液境遇卻天差地別呢

一文詳解聞泰科技ST始末,同是暴雷為何與五糧液境遇卻天差地別呢

三周檀的鯤
2026-05-06 22:12:19
金?特恩布爾與羅密歐?貝克漢姆同框出街,情侶藍(lán)調(diào)氛圍感拉滿

金?特恩布爾與羅密歐?貝克漢姆同框出街,情侶藍(lán)調(diào)氛圍感拉滿

述家娛記
2026-05-07 11:59:25
特朗普提前9天訪華,美財政部計劃借款6710億

特朗普提前9天訪華,美財政部計劃借款6710億

星星郵遞員
2026-05-06 13:33:35
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
今晚19-35山西戰(zhàn)廣廈,賽前4利好,山西贏球有望

今晚19-35山西戰(zhàn)廣廈,賽前4利好,山西贏球有望

何揎室內(nèi)設(shè)計
2026-05-07 10:22:59
家長群太炸裂了,有寶媽求偶、撩騷情話、意外暴露婚外戀懷孕的..

家長群太炸裂了,有寶媽求偶、撩騷情話、意外暴露婚外戀懷孕的..

黯泉
2026-05-06 14:10:10
黑龍江涉重大刑案54歲男子已落網(wǎng):案發(fā)后將所騎的白色彎梁摩托車遺棄,隨后徒步潛逃,警方曾懸賞5萬元緝拿

黑龍江涉重大刑案54歲男子已落網(wǎng):案發(fā)后將所騎的白色彎梁摩托車遺棄,隨后徒步潛逃,警方曾懸賞5萬元緝拿

大象新聞
2026-05-06 20:46:07
國際乒聯(lián)親宣!64歲蔡振華再破天花板,讓劉國梁和乒壇“沉默”了

國際乒聯(lián)親宣!64歲蔡振華再破天花板,讓劉國梁和乒壇“沉默”了

以茶帶書
2026-05-05 17:10:10
吞下140億撕破臉?印尼露獠牙轉(zhuǎn)簽日本軍單!中企停產(chǎn):不伺候了

吞下140億撕破臉?印尼露獠牙轉(zhuǎn)簽日本軍單!中企停產(chǎn):不伺候了

林子說事
2026-05-07 11:15:25
孟庭葦被傳婚內(nèi)出軌,前夫萬字長文抹黑,11歲兒子發(fā)文揭開傷疤!

孟庭葦被傳婚內(nèi)出軌,前夫萬字長文抹黑,11歲兒子發(fā)文揭開傷疤!

橙星文娛
2026-05-07 11:49:21
許利民賽后狂言引爭議,北京能贏下廣東的原因,他沒好意思說

許利民賽后狂言引爭議,北京能贏下廣東的原因,他沒好意思說

硯底沉香
2026-05-07 06:12:25
女子玩瀑布秋千墜亡,“已達(dá)成賠償協(xié)議”,目擊者:她頭撞到瀑布凸出巖石上,景區(qū)曾稱“包活”,勸體驗者“膽子要放大”,警方已介入

女子玩瀑布秋千墜亡,“已達(dá)成賠償協(xié)議”,目擊者:她頭撞到瀑布凸出巖石上,景區(qū)曾稱“包活”,勸體驗者“膽子要放大”,警方已介入

沈陽公交網(wǎng)小林
2026-05-07 00:14:19
金卡戴珊和劉易斯?jié)h密爾頓一起看話劇,漢密爾頓讓卡戴珊先上車

金卡戴珊和劉易斯?jié)h密爾頓一起看話劇,漢密爾頓讓卡戴珊先上車

韓小娛
2026-05-07 11:21:37
2026-05-07 12:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15151文章數(shù) 66842關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰(zhàn)

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財經(jīng)要聞

特朗普:美伊“很有可能”達(dá)成協(xié)議

汽車要聞

理想為什么不做轎車,有了解釋……

態(tài)度原創(chuàng)

教育
本地
藝術(shù)
親子
公開課

教育要聞

【數(shù)育未來專家談·第一期】智能思政課堂、精準(zhǔn)德育關(guān)懷、沉浸式育人場景……數(shù)字教育如何為德育工作提質(zhì)增...

本地新聞

用青花瓷的方式,打開西溪濕地

藝術(shù)要聞

這位老教授筆下的青年,活力滿滿

親子要聞

女星堅持母乳喂養(yǎng)引熱議!研究顯示,寶寶25%腸菌來自媽媽,乳汁可塑造天然免疫力

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版