国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)大模型存在「內(nèi)心預(yù)警」,無需訓練,就能識別越獄攻擊

0
分享至



多模態(tài)大模型崛起,安全問題緊隨其后

近年來,大語言模型(LLMs)的突破式進展,催生了視覺語言大模型(LVLMs)的快速興起,代表作如 GPT-4V、LLaVA 等。通過將圖像與文本深度融合,LVLMs 在圖文問答、視覺推理等任務(wù)中大放異彩。但與此同時,一個嚴峻的問題也悄然浮現(xiàn) ——LVLMs 比起純文本模型更容易被 “越獄”。攻擊者僅需通過圖像注入危險意圖,即使搭配直白的指令,模型也往往難以拒絕。

為應(yīng)對這一挑戰(zhàn),已有方法嘗試用跨模態(tài)安全微調(diào)、系統(tǒng)提示詞設(shè)計或外部判別模塊來加固模型防線。然而,這些方法普遍存在訓練成本高、泛化能力差、甚至誤判正常輸入的風險。

模型其實 “心里有數(shù)”:越獄時隱藏狀態(tài)在報警

來自香港中文大學 MMLab 與淘天集團未來生活實驗室的研究者提出了 HiddenDetect—— 種無需訓練的越獄檢測新方法。核心作者包括姜一雷,譚映水,高欣顏,岳翔宇。

他們的核心發(fā)現(xiàn)是:即使 LVLMs 表面上被越獄、生成了不當內(nèi)容,其隱藏狀態(tài)中依然保留著拒絕的信號。特別是在模型的中間層,這些信號往往比最終輸出更早、更敏感地 “察覺” 到潛在風險。更有趣的是,文字輸入和圖像輸入會激活完全不同的 “安全通路”,也就是說,LVLMs 對不同模態(tài)的 “危險感知” 機制是有區(qū)分的。

論文已被 ACL2025 main conference 收錄。



  • 項目開源 github 鏈接:https://github.com/leigest519/hiddendetect
  • arxiv 鏈接:https://arxiv.org/abs/2502.14744

從 “拒絕語義” 中解碼多模態(tài)大模型的安全感知



圖 1: 基于模型自身激活模式的多模態(tài)越獄檢測方法。

首先,研究者從模型拒絕回答不安全輸入的響應(yīng)中,統(tǒng)計出一組高頻出現(xiàn)的、具有明確拒絕語義的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 編碼的方式,在詞匯空間中構(gòu)造出一個 “拒絕語義向量” (RV),作為模型拒絕行為的表示。隨后,研究者將模型各層的隱藏狀態(tài)通過反嵌入層投影回詞匯空間,并計算出其與 RV 的余弦相似度,以此衡量當前層所包含的拒絕語義強度。該過程會生成一個長度等于模型層數(shù)的向量 F,用于刻畫模型在各層對拒絕語義的激活強度。



實驗結(jié)果顯示,F(xiàn) 在安全與不安全輸入之間存在顯著差異:對于安全樣本,F(xiàn) 的整體數(shù)值普遍較低;而對于不安全輸入,F(xiàn) 通常在中間層逐步升高至峰值,隨后在最后幾層出現(xiàn)明顯回落。此外,無論輸入是否安全,F(xiàn) 在最后一層的數(shù)值仍普遍高于倒數(shù)第二層,表明模型在最終輸出前仍保留一定的拒絕傾向。

為進一步分析模型的安全響應(yīng)機制,研究者構(gòu)建了三個小樣本輸入集,分別用于衡量模型在不同類型輸入下的拒絕激活表現(xiàn)。其中,安全輸入集由無害樣本組成,既包含純文本輸入,也包含圖文組合輸入;另兩個不安全輸入集則分別對應(yīng)純文本攻擊樣本和圖文聯(lián)合的攻擊樣本。



如圖 2 所示,每組樣本都計算出其對應(yīng)的拒絕強度向量 F,并將不安全輸入的 F 與安全輸入的 F 相減,得到 “拒絕差異向量” (FDV),用于衡量模型在處理不安全輸入時相較于安全輸入所產(chǎn)生的激活差異。





圖 2: 通過少樣本分析方法,識別出模型中對安全最敏感的關(guān)鍵層。

模態(tài)不同,響應(yīng)路徑也不同

如圖 3 所示,兩種模態(tài)的 FDV 曲線均表明模型在部分中間層對拒絕信號的響應(yīng)強度顯著高于輸出層,說明這些中間層對安全性更加敏感。具體而言,文本輸入的拒絕激活差異在較早的層級便迅速增強,而圖文輸入的響應(yīng)整體偏后,且強度相對較弱,說明視覺模態(tài)的引入在一定程度上削弱了模型拒答機制的早期響應(yīng)能力。



圖 3:純文本樣本和跨模態(tài)樣本的 FDV 曲線。

實驗還發(fā)現(xiàn)如果模型對拒絕信號的強激活集中在更靠后的層,或者整體激活強度變?nèi)?,越獄攻擊就更容易成功。有趣的是,研究者發(fā)現(xiàn),僅僅為一條文本攻擊提示加上一張圖片,就可能讓模型的拒絕反應(yīng)變得延遲,原本中層就能激活的拒絕信號被 “推遲” 到了后層,整體響應(yīng)強度也降低,從而削弱了模型的安全防護能力。

最終,該小樣本分析方法通過 FDV 值成功定位了模型中對不同模態(tài)輸入安全性最敏感的層。研究者將模型最后一層的差異值作為參考基線,因其對部分不安全輸入缺乏足夠辨別力;而那些 FDV 顯著高于末層的中間層,通常具備更強的安全判別能力。



進一步地,只需累積在這些關(guān)鍵層上的拒絕激活強度,便可有效識別潛在的不安全樣本,從而構(gòu)建出一個高效、無需訓練、具備良好泛化能力的越獄檢測機制。



實驗結(jié)果

研究團隊在多個主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系統(tǒng)評估了所提出的檢測方法,涵蓋純文本越獄(如 FigTxt)和跨模態(tài)圖文攻擊(如 FigImg 和 MM-SafetyBench)等多種攻擊類型。此外,研究者還在 XSTest 數(shù)據(jù)集上測試了方法的穩(wěn)健性。該數(shù)據(jù)集包含一些安全但易被誤判的邊界樣本,常用于評估檢測方法是否過度敏感。實驗結(jié)果表明,該方法在保持高檢測效果的同時,具備良好的魯棒性和泛化能力。



可視化



圖 4:每一層隱藏狀態(tài)中最后一個 token 的 logits 被投影到由拒絕向量(RV)及其正交方向構(gòu)成的語義平面。

結(jié)論與展望

安全是大模型走向真實世界應(yīng)用過程中必須優(yōu)先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態(tài)模型的安全性提供了新的思路。該方法結(jié)構(gòu)輕量、部署靈活,已在多個模型與攻擊類型中展現(xiàn)出良好效果。盡管如此,該方法目前仍主要聚焦于風險提示,尚未對模型行為產(chǎn)生直接調(diào)控。未來,研究團隊希望進一步拓展方法能力,并深入探索模態(tài)信息與模型安全性的內(nèi)在關(guān)聯(lián),推動多模態(tài)大模型朝著更可靠、更可控的方向發(fā)展。

作者團隊來自淘天集團算法技術(shù) - 未來實驗室團隊和香港中文大學 MMLab。未來生活實驗室致力于建設(shè)面向未來的生活和消費方式,進一步提升用戶體驗和商家經(jīng)營效果。實驗室聚焦大模型、多模態(tài)等 AI 技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類 AINative 應(yīng)用,引領(lǐng) AI 在生活消費領(lǐng)域的技術(shù)創(chuàng)新。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
賈國龍靠安眠藥入睡,敬畏消費者才是解藥

賈國龍靠安眠藥入睡,敬畏消費者才是解藥

上游新聞
2025-12-27 11:19:05
讓無數(shù)玩家紅溫破防的“正在編譯著色器…”,到底是什么玩意?

讓無數(shù)玩家紅溫破防的“正在編譯著色器…”,到底是什么玩意?

BB姬
2025-12-26 22:35:03
闊腿褲已經(jīng)下崗了,今年流行的是“瑜伽褲”,百搭顯瘦還時髦

闊腿褲已經(jīng)下崗了,今年流行的是“瑜伽褲”,百搭顯瘦還時髦

朝史暮夕
2025-12-25 10:38:23
懸念拉滿!庫明加或已打完勇士生涯最后一戰(zhàn),交易籌碼基本敲定

懸念拉滿!庫明加或已打完勇士生涯最后一戰(zhàn),交易籌碼基本敲定

夜白侃球
2025-12-27 20:22:08
深圳前市長8年卷走20億,花天酒地包養(yǎng)女星,落馬時只剩三千塊

深圳前市長8年卷走20億,花天酒地包養(yǎng)女星,落馬時只剩三千塊

文史旺旺旺
2024-12-24 20:42:21
“ 2026新年賀詞,新年快樂祝福語精選,建議提前收藏”

“ 2026新年賀詞,新年快樂祝福語精選,建議提前收藏”

心靈悅讀
2025-12-27 08:02:48
姜昆團隊越澄清越露餡!網(wǎng)友扒出18日北京天氣,老藝術(shù)家們太抗凍

姜昆團隊越澄清越露餡!網(wǎng)友扒出18日北京天氣,老藝術(shù)家們太抗凍

好賢觀史記
2025-12-27 18:09:59
央視仙俠大劇《逍遙》首播,看完5集,我要說:奇幻劇榮光回來了

央視仙俠大劇《逍遙》首播,看完5集,我要說:奇幻劇榮光回來了

小丸子的娛樂圈
2025-12-28 03:00:03
放假通知!大學、中小學2026寒假時間確定了,家長卻表示難以接受

放假通知!大學、中小學2026寒假時間確定了,家長卻表示難以接受

復轉(zhuǎn)這些年
2025-12-27 00:36:21
備選答案,扣籃王之子或可補強火箭,模版默里完美契合球隊短板

備選答案,扣籃王之子或可補強火箭,模版默里完美契合球隊短板

拾叁懂球
2025-12-28 03:39:47
小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點認不出

小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點認不出

不寫散文詩
2025-12-15 14:38:27
43695人觀戰(zhàn)!永州1-0常德 逆襲奪湘超冠軍 美女老板承諾獎勵豪車

43695人觀戰(zhàn)!永州1-0常德 逆襲奪湘超冠軍 美女老板承諾獎勵豪車

我愛英超
2025-12-27 22:16:15
從民營經(jīng)營主體數(shù)量和GDP占比看山東的營商環(huán)境與發(fā)達省份的差距

從民營經(jīng)營主體數(shù)量和GDP占比看山東的營商環(huán)境與發(fā)達省份的差距

三農(nóng)老歷
2025-12-28 00:57:35
婆婆給彩禮一萬一,說是萬里挑一,我媽陪嫁一萬一,婆婆急了

婆婆給彩禮一萬一,說是萬里挑一,我媽陪嫁一萬一,婆婆急了

清茶淺談
2025-12-27 20:55:28
中國軍隊回撤時越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

中國軍隊回撤時越軍為何不追擊?越南少將阮德輝回憶:并非不敢打

古書記史
2025-12-22 19:50:50
南博新消息,徐鶯被曝領(lǐng)國家專項補助,還有人冒出頭為她站臺

南博新消息,徐鶯被曝領(lǐng)國家專項補助,還有人冒出頭為她站臺

奇思妙想草葉君
2025-12-26 23:17:24
世體調(diào)查弗里克滿意度:9成巴薩會員認可他,平均打分達8.76

世體調(diào)查弗里克滿意度:9成巴薩會員認可他,平均打分達8.76

懂球帝
2025-12-28 07:51:41
烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

相思賦予誰a
2025-12-10 02:34:18
一夜升溫,豬價“火箭”上漲!附:12月28日豬價

一夜升溫,豬價“火箭”上漲!附:12月28日豬價

豬友巴巴
2025-12-27 13:55:16
這8種東西不能用酒精擦,一擦就壞,再也修復不回來了!

這8種東西不能用酒精擦,一擦就壞,再也修復不回來了!

裝修秀
2025-11-13 11:50:03
2025-12-28 08:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12000文章數(shù) 142522關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

山西大同一小區(qū)物業(yè)禁止新能源車進入地庫:擔心自燃

頭條要聞

山西大同一小區(qū)物業(yè)禁止新能源車進入地庫:擔心自燃

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

旅游
手機
房產(chǎn)
時尚
公開課

旅游要聞

又添一條櫻花大道 大理三月好風光

手機要聞

榮耀WIN系列全球首發(fā)10000mAh電池:友商短時間內(nèi)很難超越

房產(chǎn)要聞

年銷20億+!中交·藍色港灣用好房子致敬好生活

穿好雪地靴的4個訣竅,還挺有效!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版