国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

通過視覺安全提示與深度對齊實現(xiàn)大型視覺語言模型的安全對齊

0
分享至



隨著大型視覺語言模型在多個下游任務(wù)的廣泛應(yīng)用,其潛在的安全風(fēng)險也開始快速顯露。研究表明,即便是最先進的大型視覺語言模型,也可能在面對帶有隱蔽的惡意意圖的圖像 — 文本輸入時給出違規(guī)甚至有害的響應(yīng),而現(xiàn)有的輕量級的安全對齊方案都具有一定的局限性。

在這一背景下,清華大學(xué)人工智能學(xué)院團隊提出了DAVSP(Deep Aligned Visual Safety Prompt)。該工作以O(shè)ral 形式被 AAAI 2026 錄用。

DAVSP 通過引入全新的視覺安全提示與深度對齊策略,在幾乎不破壞模型正常能力的前提下,顯著提升了大型視覺語言模型對惡意輸入的抵御效果,為大型視覺語言模型的安全對齊提供了新的方法。



  • 論文鏈接:https://arxiv.org/pdf/2506.09353
  • Github 鏈接:https://github.com/zhangyitonggg/DAVSP

研究背景與問題

大型視覺語言模型(LVLMs)雖在多模態(tài)任務(wù)中表現(xiàn)亮眼,但其安全隱患正迅速顯現(xiàn)。攻擊者可以將惡意意圖隱蔽地嵌入圖像中,使模型在未察覺風(fēng)險的情況下輸出有害內(nèi)容。因此,如何增強 LVLMs 對多模態(tài)惡意輸入的安全對齊能力,成為當(dāng)前亟需解決的問題。

如何提升 LVLMs 的安全性?一條常見并且輕量級的思路是對用戶請求添加安全提示(safety prompt)以引導(dǎo)模型遵循安全準(zhǔn)則。文本領(lǐng)域已有通過在用戶文本前加入提示語來提高模型安全性的方法。但在多模態(tài)場景下,僅保護文本遠遠不夠,攻擊者完全可以繞過文本提示,將威脅藏在圖像中。

近期工作如 ESIII、UniGuard 嘗試在圖像上添加可訓(xùn)練的視覺安全擾動,以提升模型拒絕惡意請求的能力,并與文本安全提示結(jié)合取得一定成效。然而,這類視覺安全擾動在真實應(yīng)用中仍存在兩大問題:

  • 安全性不足:例如在 FigStep 基準(zhǔn)上,即便加入視覺安全擾動,模型仍有約 30% 的惡意輸入沒有被成功拒絕。
  • 性能損害明顯:在 MME 基準(zhǔn)上,某模型的得分從 1818 直接跌至 1403,意味著模型「更安全」的同時也顯著「變?nèi)酢埂?/li>

上述缺陷背后的原因在該研究中被進一步剖析:

  • 首先,直接在圖像像素上疊加噪聲會不可避免地擾亂圖像的關(guān)鍵視覺特征(如邊緣、紋理、色彩分布),削弱模型對圖像的感知,從而影響模型的性能。為減輕這一問題,擾動幅度不得不被嚴格限制,但這又極大壓縮了可用的優(yōu)化空間,限制了視覺安全擾動發(fā)揮作用的能力。
  • 其次,僅依據(jù)模型最終輸出是否安全來訓(xùn)練擾動(比如讓模型盡量輸出預(yù)設(shè)的拒絕語)屬于淺層的對齊,模型可能學(xué)到的是表面模式而非真正的安全準(zhǔn)則。因此經(jīng)常出現(xiàn)模型回復(fù)以「抱歉」開頭,看似拒絕,但緊接著還是給出了有害內(nèi)容的情況。圖 1 的案例直觀展示了這一「表面拒絕」現(xiàn)象:左側(cè)施加傳統(tǒng)安全擾動的模型先說「抱歉不能幫助」,卻隨后繼續(xù)提供了實行非法黑客行為的具體步驟。



針對以上挑戰(zhàn),清華大學(xué)人工智能學(xué)院團隊在 AAAI 2026 上提出了全新的安全對齊方法DAVSP(Deep Aligned Visual Safety Prompt)。

該方法的核心思想是從視覺提示范式和訓(xùn)練對齊機制兩方面同時創(chuàng)新,以克服以往方法的局限性。在保證模型對正常輸入性能幾乎不受影響的前提下,大幅提升模型對惡意多模態(tài)攻擊的抵御能力。下面我們詳細介紹 DAVSP 的方法原理和其兩項關(guān)鍵創(chuàng)新:視覺安全提示(Visual Safety Prompt)和深度對齊(Deep Alignment)。

方法與創(chuàng)新:深度對齊的視覺安全提示(DAVSP)

DAVSP 整體思路:作者重新審視了將安全提示引入視覺模態(tài)的范式,提出視覺安全提示(VSP)來取代傳統(tǒng)的圖像全局擾動,并設(shè)計了深度對齊(DA)的訓(xùn)練策略讓模型從內(nèi)部真正理解何為「不安全」輸入。下圖概覽了 DAVSP 的工作原理。



視覺安全提示

視覺安全提示(Visual Safety Prompt,VSP)是 DAVSP 提出的新型視覺提示范式。不同于以往直接在整幅圖像像素上加擾動的方法,VSP 選擇在輸入圖像周圍添加一圈額外的可訓(xùn)練邊框,作為安全提示區(qū)域。這樣做有兩大好處:

  • 保護原始視覺特征:由于提示信息只存在于圖像邊緣的新擴展區(qū)域,而不直接修改原圖的像素,視覺安全提示不會破壞原有圖像的關(guān)鍵細節(jié)。模型在處理時能夠較好地接收到原圖信息,從而保證對良性輸入的正常感知與理解不會因提示的加入而下降。實驗中也驗證了這一點:使用 DAVSP 后模型在多個基準(zhǔn)上的各項性能幾乎與僅施加文本安全提示時相當(dāng),顯著少于于以往視覺安全擾動方法的性能損失。
  • 擴大優(yōu)化空間:相較于傳統(tǒng)像素級的視覺安全擾動(其擾動幅度常被嚴格限制在如 32/255 的極小范圍內(nèi)),視覺安全提示通過引入額外的圖像邊界區(qū)域,可以被優(yōu)化為任意像素值,大大拓寬了可學(xué)習(xí)參數(shù)的空間。實驗表明,在消除了這一擾動幅度限制后,在測試時能夠表現(xiàn)出更強有力的安全對齊能力。

此外,視覺安全提示作為一種「即插即用」的模塊具有實用優(yōu)勢:只需在推理時將圖像加上優(yōu)化得到的視覺安全提示,不需要改動模型結(jié)構(gòu),也不會帶來額外的計算開銷或顯著延遲。

深度對齊

有了合適的提示范式,還需要有效的訓(xùn)練策略使視覺安全提示發(fā)揮作用。DAVSP 的第二項創(chuàng)新深度對齊(Deep Alignment)旨在深入模型內(nèi)部,對其內(nèi)部激活空間進行監(jiān)督,挖掘并增強模型自身對「有害 / 無害」信息的區(qū)分能力。

研究人員注意到,大型視覺語言模型內(nèi)部往往已經(jīng)蘊含了一定的對有害意圖的「潛在辨別能力」—— 即惡意查詢和正常查詢在模型中的激活向量存在系統(tǒng)性差異。與其僅看最終輸出是否拒絕,不如利用模型內(nèi)部表征來指導(dǎo)訓(xùn)練,促使模型從內(nèi)部真正認知到哪些輸入是不安全的。具體來說,作者提出了以下步驟:

  1. 構(gòu)建有害向量:首先在模型內(nèi)部選取一層(如解碼器的中間層),比較模型處理一組容易拒絕的惡意樣本與一組正常良性樣本時該層激活向量的差異。通過計算兩組樣本在該層最終一個輸入 token 的平均激活差,得到一個向量方向,稱為「有害向量」。直觀理解,這個向量代表了將模型內(nèi)部表示從「良性」方向推向「惡意」方向的變化方向。
  2. 深度對齊訓(xùn)練:有了有害向量,就可以在訓(xùn)練視覺安全提示時引入一種基于內(nèi)部表示的目標(biāo)。具體做法是:讓帶有惡意意圖的輸入在該向量方向上的投影盡可能增加,而良性輸入的投影盡可能減少。也就是說,訓(xùn)練過程中視覺提示會被不斷優(yōu)化,促使模型對惡意查詢在激活向量上更偏向「有害」方向,從而模型更容易意識到「這是不好的請求」,進而在輸出層拒絕回答;相反,對正常輸入則壓低這種有害方向的激活,避免模型誤判正常請求為有害請求。

實驗結(jié)果

作者在多個基準(zhǔn)上對 DAVSP 進行了全面評估,結(jié)果顯示該方法在抵御惡意攻擊和保持模型實用性兩方面均顯著優(yōu)于現(xiàn)有方案。

  • 惡意輸入抵御能力:在兩個具有代表性的惡意多模態(tài)數(shù)據(jù)集上,DAVSP 取得了遠高于現(xiàn)有同類方法的拒絕率(RSR,Resist Success Rate)。



  • 良性任務(wù)性能:與提升安全性相對應(yīng),DAVSP 對模型正常能力的影響卻很微小。DAVSP 在多個基準(zhǔn)上的實用性評分與僅施加文本安全提示時持平,且優(yōu)于其他視覺安全擾動的方法。



  • 跨模型泛化:令人驚喜的是,DAVSP 訓(xùn)練得到的視覺安全提示具有一定的泛化能力,可以在不同模型之間遷移使用。



  • 關(guān)鍵組件作用:通過消融實驗,作者驗證了 DAVSP 的兩大創(chuàng)新 —— 視覺安全提示和深度對齊 —— 缺一不可。移除深度對齊、僅對輸出進行監(jiān)督時,模型對惡意攻擊的抵抗成功率大幅下降。同樣地,將視覺安全提示替換回原始的像素級的視覺安全擾動后,會造成安全性和實用性同時退化。



團隊介紹

本研究由清華大學(xué)人工智能學(xué)院團隊完成。通訊作者為清華大學(xué)人工智能學(xué)院李佳助理教授,主要研究方向包括人工智能和軟件工程的交叉賦能、AI for SE、SE for AI 等。第一作者張奕彤將于明年正式入學(xué)清華大學(xué)人工智能學(xué)院攻讀博士學(xué)位。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張藝凡回應(yīng)脫鞋合照:“是我自己脫鞋的,沒有任何人要求我”

張藝凡回應(yīng)脫鞋合照:“是我自己脫鞋的,沒有任何人要求我”

韓小娛
2026-04-20 08:29:10
東風(fēng) - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災(zāi)

東風(fēng) - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災(zāi)

干史人
2026-04-18 13:44:12
從91%到44%,阿森納為什么總是四月掉鏈子?

從91%到44%,阿森納為什么總是四月掉鏈子?

落夜足球
2026-04-20 12:53:34
我在伊拉克開工廠,娶了4個老婆,雖然年入千萬,如今卻很焦慮!

我在伊拉克開工廠,娶了4個老婆,雖然年入千萬,如今卻很焦慮!

千秋文化
2026-04-16 20:12:45
讓人揪心的事終究來了?央行定調(diào),5月后房產(chǎn)、存款或?qū)⒂瓉碚{(diào)整

讓人揪心的事終究來了?央行定調(diào),5月后房產(chǎn)、存款或?qū)⒂瓉碚{(diào)整

復(fù)轉(zhuǎn)這些年
2026-04-19 23:17:41
鞭笞,不讀biān tà,也不讀biān chì,別再亂讀丟死人了!

鞭笞,不讀biān tà,也不讀biān chì,別再亂讀丟死人了!

未央看點
2026-04-20 00:05:19
零食上印勿忘國恥,到底錯在哪?

零食上印勿忘國恥,到底錯在哪?

阿振觀點
2026-04-20 06:08:58
重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

脆皮先生
2026-04-19 19:37:38
曼聯(lián)慶幸4000萬賣加納喬,換來大賽先生!更衣室群嘲加納喬竟點贊

曼聯(lián)慶幸4000萬賣加納喬,換來大賽先生!更衣室群嘲加納喬竟點贊

羅米的曼聯(lián)博客
2026-04-20 11:51:01
何潤東半個月狂接6個頂級商務(wù),零成本躺贏翻紅第一人!

何潤東半個月狂接6個頂級商務(wù),零成本躺贏翻紅第一人!

毒舌八卦
2026-04-19 11:36:20
張雪的煙癮被吐槽!粉絲直言他總離不開香煙,網(wǎng)友:人無完人啊…

張雪的煙癮被吐槽!粉絲直言他總離不開香煙,網(wǎng)友:人無完人啊…

火山詩話
2026-04-19 15:31:10
伊朗在核問題上忽悠國際二十多年,直到遇上不按常理出牌的川普

伊朗在核問題上忽悠國際二十多年,直到遇上不按常理出牌的川普

壹家言
2026-04-18 06:07:05
太缺德!門口突然添兩座墳,開門就能見到,孩子晚上嚇得不敢出門

太缺德!門口突然添兩座墳,開門就能見到,孩子晚上嚇得不敢出門

川渝視覺
2026-04-19 21:31:23
永不變的穆里尼奧!本菲卡贏下里斯本德比 狂人手勢再度爆紅網(wǎng)絡(luò)

永不變的穆里尼奧!本菲卡贏下里斯本德比 狂人手勢再度爆紅網(wǎng)絡(luò)

毅起踢球
2026-04-20 11:35:27
不甘心的羅玉鳳,令人敬佩

不甘心的羅玉鳳,令人敬佩

廖保平
2026-03-22 10:49:24
4.7秒絕殺之夜!從“罪人”到英雄,他只用了10秒

4.7秒絕殺之夜!從“罪人”到英雄,他只用了10秒

茅塞盾開本尊
2026-04-20 13:16:04
被蘋果、華為干倒的諾基亞,又殺回來了!

被蘋果、華為干倒的諾基亞,又殺回來了!

大佬灼見
2026-04-19 10:28:53
陳亞男和老公秀恩愛,男方勇敢又帥氣,否認自己結(jié)過婚有小孩

陳亞男和老公秀恩愛,男方勇敢又帥氣,否認自己結(jié)過婚有小孩

素素娛樂
2026-04-20 10:01:31
醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3個癥狀,小心異常

醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3個癥狀,小心異常

芹姐說生活
2026-04-18 15:22:35
深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

牛鍋巴小釩
2026-04-17 13:18:03
2026-04-20 13:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12806文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

媒體:伊朗剛說不談 美國立即開打

頭條要聞

媒體:伊朗剛說不談 美國立即開打

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

時尚
教育
旅游
公開課
軍事航空

今年最流行的衣服竟然是它?高級又氣質(zhì)!

教育要聞

都說慣子如殺子,這3種隱形溺愛,希望你一件都沒做過……

旅游要聞

800年紫藤花開如瀑 最美寧陽四月天

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關(guān)懷版