国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

攻破閉源多模態(tài)大模型:一種基于特征最優(yōu)對(duì)齊的新型對(duì)抗攻擊方法

0
分享至



近年來,多模態(tài)大語(yǔ)言模型(MLLMs)取得了令人矚目的突破,在視覺理解、跨模態(tài)推理、圖像描述等任務(wù)上表現(xiàn)出強(qiáng)大的能力。然而,隨著這些模型的廣泛部署,其潛在的安全風(fēng)險(xiǎn)也逐漸引起關(guān)注。

研究表明,MLLMs 同樣繼承了視覺編碼器對(duì)抗脆弱性的特征,容易受到對(duì)抗樣本的欺騙。這些對(duì)抗樣本在現(xiàn)實(shí)應(yīng)用中可能導(dǎo)致模型輸出錯(cuò)誤或泄露敏感信息,給大規(guī)模模型的安全部署帶來嚴(yán)重隱患。

在此背景下,如何提升對(duì)抗攻擊的可遷移性 —— 即對(duì)抗樣本跨模型、尤其是跨閉源模型仍能保持攻擊有效性 —— 成為當(dāng)前研究的關(guān)鍵難題。

然而,當(dāng)面對(duì)如 GPT-4、Claude-3 等強(qiáng)大的閉源商業(yè)模型時(shí),現(xiàn)有攻擊方法的遷移效果顯著下降。原因在于,這些方法通常僅對(duì)齊全局特征(如 CLIP 的 [CLS] token),而忽略了圖像補(bǔ)?。╬atch tokens)中蘊(yùn)含的豐富局部信息,導(dǎo)致特征對(duì)齊不充分、遷移能力受限。

為解決這一難題,本文提出了一種名為FOA-Attack(Feature Optimal Alignment Attack)的全新靶向遷移式對(duì)抗攻擊框架。該方法的核心思想是同時(shí)在全局和局部?jī)蓚€(gè)層面實(shí)現(xiàn)特征的最優(yōu)對(duì)齊,從而顯著提升攻擊的遷移能力。

  • 在全局層面,通過余弦相似度損失來對(duì)齊粗粒度的全局特征。
  • 在局部層面,創(chuàng)新性地使用聚類技術(shù)提取關(guān)鍵的局部特征模式,并將其建模為一個(gè)最優(yōu)傳輸(Optimal Transport, OT)問題,實(shí)現(xiàn)細(xì)粒度的精準(zhǔn)對(duì)齊。
  • 此外,本文還設(shè)計(jì)了一種動(dòng)態(tài)集成權(quán)重策略,在攻擊生成過程中自適應(yīng)地平衡多個(gè)模型的影響,進(jìn)一步增強(qiáng)遷移性。

大量實(shí)驗(yàn)表明,FOA-Attack 在攻擊各種開源及閉源 MLLMs 時(shí),性能全面超越了現(xiàn)有 SOTA 方法,尤其是在針對(duì)商業(yè)閉源模型的攻擊上取得了驚人的成功率,且本工作對(duì)應(yīng)的論文和代碼均已開源。



  • 論文鏈接:https://arxiv.org/abs/2505.21494
  • 代碼鏈接:https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模態(tài)大語(yǔ)言模型(MLLMs),如 GPT-4o、Claude-3.7 和 Gemini-2.0,通過融合視覺和語(yǔ)言能力,在圖像理解、視覺問答等任務(wù)上展現(xiàn)了非凡的性能。然而,這些模型繼承了其視覺編碼器的脆弱性,容易受到對(duì)抗樣本的攻擊。對(duì)抗樣本通過在原始圖像上添加人眼難以察覺的微小擾動(dòng),就能誘導(dǎo)模型產(chǎn)生錯(cuò)誤的輸出。

對(duì)抗攻擊分為非目標(biāo)攻擊(旨在使模型輸出錯(cuò)誤)目標(biāo)攻擊(旨在使模型輸出特定的目標(biāo)內(nèi)容)。對(duì)于無(wú)法訪問模型內(nèi)部結(jié)構(gòu)和參數(shù)的黑盒場(chǎng)景(尤其是商業(yè)閉源模型),實(shí)現(xiàn)高效的目標(biāo)遷移攻擊極具挑戰(zhàn)性。

這意味著,在一個(gè)或多個(gè)替代模型(surrogate models)上生成的對(duì)抗樣本,需要能夠成功欺騙一個(gè)完全未知的黑盒目標(biāo)模型。盡管現(xiàn)有工作已證明了這種攻擊的可行性,但其遷移成功率,特別是針對(duì)最先進(jìn)的閉源 MLLMs 時(shí),仍有很大的提升空間。

動(dòng)機(jī)和理論分析

在多模態(tài)大語(yǔ)言模型(MLLMs)依賴的 Transformer 架構(gòu)視覺編碼器(如 CLIP)中,存在明確的特征分工:[CLS] token 提煉圖像宏觀主題(如「大象」「森林」),但會(huì)舍棄細(xì)粒度細(xì)節(jié);patch tokens 則編碼局部信息(如「大象耳朵形態(tài)」「植被密度」),是模型精準(zhǔn)理解圖像的關(guān)鍵,缺失會(huì)導(dǎo)致對(duì)抗樣本語(yǔ)義真實(shí)性不足。

現(xiàn)有對(duì)抗攻擊方法的核心局限的是,僅聚焦 [CLS] token 全局特征對(duì)齊,忽略 patch tokens 的局部?jī)r(jià)值,引發(fā)兩大問題:一是語(yǔ)義對(duì)齊不充分,全局特征難區(qū)分「大象在森林」與「大象在草原」這類細(xì)節(jié)差異,局部特征卻能清晰界定;二是遷移性差,擾動(dòng)過度適配替代模型的全局特征,閉源 MLLMs(如 GPT-4o)因視覺編碼器設(shè)計(jì)不同,易識(shí)別「虛假語(yǔ)義」,攻擊效果驟降。

為突破此局限,FOA-Attack 提出「全局 + 局部」雙維度對(duì)齊思路(如圖 1 所示):

圖 1 (a) 中「特征最優(yōu)對(duì)齊損失」包含兩大模塊,全局層面用余弦相似度損失對(duì)齊 [CLS] token,保證整體語(yǔ)義一致;局部層面通過聚類提取關(guān)鍵模式,將對(duì)齊建模為最優(yōu)傳輸(OT)問題(右側(cè)「Optimal Transmission」),用 Sinkhorn 算法實(shí)現(xiàn)細(xì)粒度匹配。

圖 1 (b) 的「動(dòng)態(tài)集成模型權(quán)重策略」則讓多編碼器并行生成對(duì)抗樣本,依收斂速度自適應(yīng)調(diào)權(quán) —— 易優(yōu)化模型權(quán)重低、難優(yōu)化模型權(quán)重高,避免偏向單一模型特征。兩者互補(bǔ),解決了單一維度對(duì)齊缺陷,顯著提升對(duì)開源及閉源 MLLMs 的攻擊遷移性。



圖 1: FQA-Attack 示意圖

方法

FOA-Attack 以生成「語(yǔ)義對(duì)齊、遷移性強(qiáng)」的對(duì)抗樣本為核心目標(biāo),通過三個(gè)協(xié)同模塊構(gòu)建攻擊框架,且所有設(shè)計(jì)均基于對(duì)多模態(tài)模型特征機(jī)制與對(duì)抗遷移性的深度優(yōu)化。













最后是動(dòng)態(tài)集成模型權(quán)重模塊,解決傳統(tǒng)多模型集成「權(quán)重均等易偏科」的問題。以 ViT-B/16、ViT-B/32 等 CLIP 變體為替代模型,先定義「學(xué)習(xí)速度」Si (T)(第 i 個(gè)模型第 T 步與 T?1 步的損失比值,比值越小學(xué)習(xí)越快),再根據(jù)學(xué)習(xí)速度自適應(yīng)調(diào)整權(quán)重 —— 學(xué)習(xí)慢的模型權(quán)重更高,避免優(yōu)化偏向易適配模型。核心權(quán)重公式與總損失公式分別為:





實(shí)驗(yàn)效果

開源模型



表 1:在不同開源模型上的攻擊成功率(ASR)與語(yǔ)義相似度(AvgSim)

在 Qwen2.5-VL、LLaVA、Gemma 等開源模型上,F(xiàn)OA-Attack 的攻擊成功率(ASR)和語(yǔ)義相似度(AvgSim)顯著高于 M-Attack、AnyAttack 等方法。

閉源模型



表 2:在不同閉源模型上的攻擊成功率(ASR)和語(yǔ)義相似度(AvgSim)

對(duì) GPT-4o、Claude-3.7、Gemini-2.0 等商業(yè)閉源模型,F(xiàn)OA-Attack 表現(xiàn)尤為突出:尤其在 GPT-4o 上,F(xiàn)OA-Attack 的 ASR 達(dá)到 75.1%。

推理增強(qiáng)模型



表 3:在不同推理增強(qiáng)模型上的攻擊成功率(ASR)和語(yǔ)義相似度(AvgSim)

即使對(duì) GPT-o3、Claude-3.7-thinking 等推理增強(qiáng)模型(理論上更魯棒),F(xiàn)OA-Attack 仍能突破,這表明推理增強(qiáng)模型的視覺編碼器仍存在脆弱性,F(xiàn)OA-Attack 的「全局 + 局部」對(duì)齊策略能有效利用這一漏洞。

可視化



圖 3:原始干凈圖像、對(duì)抗圖像和擾動(dòng)圖像的可視化

結(jié)語(yǔ)

FOA-Attack 揭示:通過同時(shí)精細(xì)對(duì)齊全局與局部特征,并在多模型集成中做動(dòng)態(tài)平衡,可以顯著提升目標(biāo)式對(duì)抗樣本對(duì)閉源 MLLMs 的遷移性。研究一方面暴露了當(dāng)前 MLLMs 在視覺編碼階段的脆弱面,另一方面也為防御方向提供了新的思路(例如如何在局部特征層面加固魯棒性)。作者在論文中也討論了效率和計(jì)算成本的限制,并給出未來改進(jìn)方向。

目前,論文與代碼已公開,歡迎感興趣的同學(xué)閱讀,復(fù)現(xiàn)以及深入討論。

作者介紹

本文作者分別來自新加坡南洋理工大學(xué)、阿聯(lián)酋 MBZUAI、新加坡 Sea AI Lab 以及美國(guó)伊利諾伊大學(xué)香檳分校(UIUC)第一作者加小俊為新加坡南洋理工大學(xué)博士后。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你見過最離譜的網(wǎng)購(gòu)是什么?網(wǎng)友:倉(cāng)庫(kù)是不會(huì)承認(rèn)自己發(fā)錯(cuò)了的

你見過最離譜的網(wǎng)購(gòu)是什么?網(wǎng)友:倉(cāng)庫(kù)是不會(huì)承認(rèn)自己發(fā)錯(cuò)了的

另子維愛讀史
2026-02-16 20:35:50
樸寶藍(lán)突猝逝「死因急性酒精中毒」 好友慶32歲冥誕:姐姐們來了

樸寶藍(lán)突猝逝「死因急性酒精中毒」 好友慶32歲冥誕:姐姐們來了

ETtoday星光云
2026-03-02 13:02:43
油市“末日時(shí)鐘”!若霍爾木茲海峽關(guān)閉25天 中東產(chǎn)油國(guó)將被迫停產(chǎn)?

油市“末日時(shí)鐘”!若霍爾木茲海峽關(guān)閉25天 中東產(chǎn)油國(guó)將被迫停產(chǎn)?

財(cái)聯(lián)社
2026-03-02 14:08:05
預(yù)計(jì)到了2030年,我們將全面進(jìn)入租房時(shí)代,房子會(huì)越來越難賣

預(yù)計(jì)到了2030年,我們將全面進(jìn)入租房時(shí)代,房子會(huì)越來越難賣

貓叔東山再起
2026-03-02 09:35:03
51死60傷!美以為何空襲伊朗小學(xué)?專家:或?yàn)槿嫱匾晾剩驅(qū)佟罢`傷”,未來幾天三方行動(dòng)是關(guān)鍵

51死60傷!美以為何空襲伊朗小學(xué)?專家:或?yàn)槿嫱匾晾剩驅(qū)佟罢`傷”,未來幾天三方行動(dòng)是關(guān)鍵

極目新聞
2026-02-28 22:09:29
西方媒體欠我們道歉!美國(guó)游客回國(guó)說實(shí)話:中國(guó)的強(qiáng)大,藏在凌晨?jī)牲c(diǎn)的便利店

西方媒體欠我們道歉!美國(guó)游客回國(guó)說實(shí)話:中國(guó)的強(qiáng)大,藏在凌晨?jī)牲c(diǎn)的便利店

吃貨的分享
2026-03-02 16:04:20
汪小菲窩里橫!直播說:我知道我媽對(duì)我好,她不會(huì)和我生氣的!

汪小菲窩里橫!直播說:我知道我媽對(duì)我好,她不會(huì)和我生氣的!

小娛樂悠悠
2026-03-02 13:39:43
又見證歷史了,三桶油歷史性漲停

又見證歷史了,三桶油歷史性漲停

金石隨筆
2026-03-02 16:29:29
世界杯突生變故,伊朗考慮退賽,遞補(bǔ)球隊(duì)浮現(xiàn),中國(guó)隊(duì)起死回生?

世界杯突生變故,伊朗考慮退賽,遞補(bǔ)球隊(duì)浮現(xiàn),中國(guó)隊(duì)起死回生?

綠茵舞著
2026-03-01 20:57:22
中國(guó)石油歷史上9次漲停

中國(guó)石油歷史上9次漲停

貝殼財(cái)經(jīng)
2026-03-02 15:43:25
哈梅內(nèi)伊一死,普京緊急召令全部高層,卻只說了幾個(gè)字

哈梅內(nèi)伊一死,普京緊急召令全部高層,卻只說了幾個(gè)字

書紀(jì)文譚
2026-03-02 16:26:02
誰(shuí)能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

誰(shuí)能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

白宸侃片
2026-02-11 11:56:19
趙本山近況曝光!68歲高齡現(xiàn)身美國(guó)加州,這狀態(tài)你敢信?

趙本山近況曝光!68歲高齡現(xiàn)身美國(guó)加州,這狀態(tài)你敢信?

手工制作阿殲
2026-03-01 16:51:57
哈梅內(nèi)伊神秘遺言公開,特朗普平添巨大風(fēng)險(xiǎn),伊朗或決心永遠(yuǎn)不跪

哈梅內(nèi)伊神秘遺言公開,特朗普平添巨大風(fēng)險(xiǎn),伊朗或決心永遠(yuǎn)不跪

三石記
2026-03-02 15:11:39
3打5!又兩國(guó)參戰(zhàn)中東,3國(guó)加入美以,關(guān)鍵時(shí)刻,普京對(duì)中承諾

3打5!又兩國(guó)參戰(zhàn)中東,3國(guó)加入美以,關(guān)鍵時(shí)刻,普京對(duì)中承諾

面包夾知識(shí)
2026-03-02 13:35:18
孫志浩肝癌晚期,將50億資產(chǎn)里的豪宅與股份盡數(shù)轉(zhuǎn)至女兒梧桐妹

孫志浩肝癌晚期,將50億資產(chǎn)里的豪宅與股份盡數(shù)轉(zhuǎn)至女兒梧桐妹

陳意小可愛
2026-03-01 10:33:40
王一博風(fēng)波升級(jí)!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對(duì)上,爆料者被扒!

王一博風(fēng)波升級(jí)!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對(duì)上,爆料者被扒!

阿廢冷眼觀察所
2026-03-02 07:15:35
埃及被打醒了,蘇35和殲10都不買:就要一種4000萬(wàn)美元中國(guó)新軍機(jī)

埃及被打醒了,蘇35和殲10都不買:就要一種4000萬(wàn)美元中國(guó)新軍機(jī)

近史談
2026-01-17 21:44:06
過去100年,美國(guó)搞垮了4個(gè)世界老二,第5個(gè)或?qū)⒎词指傻裘绹?guó)!

過去100年,美國(guó)搞垮了4個(gè)世界老二,第5個(gè)或?qū)⒎词指傻裘绹?guó)!

蘇大強(qiáng)專欄
2024-07-20 13:22:14
周杰倫和田馥甄戀情,突沖熱搜第一!

周杰倫和田馥甄戀情,突沖熱搜第一!

人間頌
2026-03-01 12:25:17
2026-03-02 18:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12393文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

36歲副鎮(zhèn)長(zhǎng)開會(huì)暈倒除夕當(dāng)天不幸離世 家中有3個(gè)孩子

頭條要聞

36歲副鎮(zhèn)長(zhǎng)開會(huì)暈倒除夕當(dāng)天不幸離世 家中有3個(gè)孩子

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長(zhǎng)期化

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
房產(chǎn)
健康
藝術(shù)
數(shù)碼

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

房產(chǎn)要聞

配套大升級(jí)!三亞灣,終于迎來一批頂豪酒店!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術(shù)要聞

香港展出王羲之書法,足有60篇、10多米長(zhǎng)!

數(shù)碼要聞

AMD發(fā)布Ryzen AI PRO 400系列桌面處理器 針對(duì)AI計(jì)算優(yōu)化

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版