国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

南京大學(xué)聯(lián)合美團(tuán)、上交破解主流視頻生成模型安全漏洞

0
分享至



來自南京大學(xué) PRLab 的王淞平、錢儒凡,在單彩峰教授與呂月明助理教授的聯(lián)合指導(dǎo)下,提出首個面向圖生視頻(I2V)模型的多模態(tài)自進(jìn)化越獄攻擊框架 RunawayEvil。本研究聯(lián)合了美團(tuán)、上海交通大學(xué)等多家頂尖機(jī)構(gòu),共同完成了首個支持多模態(tài)協(xié)同與自主進(jìn)化的 I2V 越獄攻擊框架的研發(fā)。

RunawayEvil 創(chuàng)新性采用「策略 - 戰(zhàn)術(shù) - 行動」核心范式,精準(zhǔn)破解傳統(tǒng)單一模態(tài)、靜態(tài)攻擊在 I2V 場景下效果受限的行業(yè)痛點(diǎn),為 I2V 模型的安全漏洞分析提供了高效可靠的工具,為構(gòu)建更穩(wěn)健、安全的視頻生成系統(tǒng)提供助力。



  • 論文標(biāo)題:RunawayEvil: Jailbreaking the Image-to-Video Generative Models
  • 項目地址:https://xzxg001.github.io/RunawayEvil/
  • 論文地址:https://arxiv.org/pdf/2512.06674
  • 代碼地址:https://github.com/DeepSota/RunawayEvil

行業(yè)痛點(diǎn):

圖生視頻模型安全研究的三大核心缺口

圖生視頻(I2V)是融合圖像視覺約束與文本語義引導(dǎo),生成時空連貫、高保真動態(tài)內(nèi)容的核心多模態(tài)技術(shù),為內(nèi)容創(chuàng)作、商業(yè)廣告等領(lǐng)域提供高效創(chuàng)意支撐。然而,其安全防護(hù)體系是脆弱的,尚未跟上技術(shù)落地步伐,成為制約行業(yè)穩(wěn)健發(fā)展的關(guān)鍵瓶頸。

現(xiàn)有研究雖通過各類越獄方法揭示視覺生成模型的內(nèi)在漏洞,為構(gòu)建更穩(wěn)健的生成系統(tǒng)提供了支撐,但針對 I2V 模型的安全研究仍存在顯著空白。研究團(tuán)隊發(fā)現(xiàn),當(dāng)前存在三大核心缺口,嚴(yán)重阻礙了對其潛在風(fēng)險的系統(tǒng)性探究與有效防御:

1. 單模態(tài)攻擊的天然局限性

現(xiàn)有越獄研究多聚焦于文本到圖像(T2I)、文本到視頻(T2V)等單模態(tài)系統(tǒng),僅通過擾動單一輸入模態(tài)實(shí)施攻擊。而 I2V 模型依賴文本 - 圖像跨模態(tài)協(xié)同工作機(jī)制,單一模態(tài)攻擊無法利用其內(nèi)在的模態(tài)交互特性,難以突破集成化的多模態(tài)安全防護(hù),導(dǎo)致攻擊成功率普遍低,無法有效暴露模型真實(shí)漏洞。

2. 靜態(tài)攻擊模式的適應(yīng)性缺失

傳統(tǒng)方法多采用人工構(gòu)造惡意提示或固定攻擊模板,缺乏動態(tài)調(diào)整能力。I2V 模型的輸入具有極強(qiáng)的多樣性(自然圖像 / 合成圖像、不同語義文本等),靜態(tài)攻擊模式無法根據(jù)輸入特性定制策略,既限制了攻擊策略的覆蓋范圍,也難以應(yīng)對模型動態(tài)的安全防御機(jī)制,導(dǎo)致實(shí)際應(yīng)用場景中的攻擊效果大幅衰減。

3. 多模態(tài)與維度升級的雙重挑戰(zhàn)

視覺生成模型的安全研究長期聚焦于文本到圖像(T2I)單模態(tài)場景,而圖生視頻(I2V)技術(shù)的興起,正帶來多模態(tài)協(xié)同與維度升級的雙重核心挑戰(zhàn)。文本 - 圖像輸入的跨模態(tài)協(xié)同特性、圖像到視頻的時空復(fù)雜度跨越,共同構(gòu)成制約其安全可控落地的關(guān)鍵瓶頸。

這些痛點(diǎn)導(dǎo)致 I2V 模型在商業(yè)化落地過程中面臨潛在安全隱患,亟需專門針對其多模態(tài)特性的安全評估工具,為技術(shù)迭代與風(fēng)險防控提供支撐。

核心成果:

首個 I2V「自進(jìn)化」越獄框架是如何煉成的?



如果把一次 I2V(圖生視頻)越獄看成一場「對抗安全系統(tǒng)的作戰(zhàn)」,RunawayEvil 的關(guān)鍵不是某個單點(diǎn)技巧,而是搭了一條完整的作戰(zhàn)指揮鏈:先選戰(zhàn)略、再拆戰(zhàn)術(shù)、最后執(zhí)行并復(fù)盤,形成閉環(huán)迭代。如圖所示,整個框架建立在「Strategy–Tactic–Action(戰(zhàn)略 - 戰(zhàn)術(shù) - 行動)」范式上,由三大模塊協(xié)同組成:SACU(指揮大腦)+ MTPU(戰(zhàn)術(shù)參謀)+ TAU(執(zhí)行者)

兩階段流水線:先「進(jìn)化大腦」,再「執(zhí)行打擊」

RunawayEvil 把流程拆成兩段:

  • 進(jìn)化階段(Evolution Stage):專門訓(xùn)練 / 進(jìn)化 SACU,讓它不再依賴人工手寫提示詞,而是能夠擴(kuò)展策略庫、并學(xué)會 “針對不同輸入選最合適的策略”。
  • 執(zhí)行階段(Execution Stage):進(jìn)化完成后,SACU 先給出策略;MTPU 把策略翻譯成 “跨模態(tài)協(xié)同” 的戰(zhàn)術(shù)指令;TAU 負(fù)責(zé)真正執(zhí)行并把結(jié)果反饋回去。

指揮大腦:戰(zhàn)略感知指揮單元 (SACU)



如圖所示,SACU 是 RunawayEvil 的核心「大腦」,目標(biāo)是讓攻擊策略自動增長、并能對不同輸入智能定制。它包含三個關(guān)鍵組件:

a)策略定制智能體 SCA:用強(qiáng)化學(xué)習(xí)學(xué)會「怎么選策略」

SCA 用強(qiáng)化學(xué)習(xí)把「選哪個策略」變成決策問題:給定當(dāng)前輸入(狀態(tài)),從策略庫里挑一個策略(動作),讓成功率更高、同時盡量隱蔽。

論文里把獎勵設(shè)計成多目標(biāo):既要追求越獄成功,也要控制「文本側(cè)的可疑度」和「圖像側(cè)的可見改動」。具體來說,總體獎勵包含越獄成功獎勵、文本隱蔽性和圖像隱蔽性獎勵(采用與原圖的感知距離進(jìn)行計算)。

b)策略探索智能體 SEA:從歷史成功案例里「長出新招」

SEA 是一個基于 LLM 的探索智能體,它會利用策略記憶庫里「打贏過的案例」,生成新的策略,避免策略庫陷入單一套路、越打越僵化。

c)策略記憶庫 SMB:把每次成功的「作戰(zhàn)記錄」存下來

SMB 不是簡單的日志,而是結(jié)構(gòu)化的成功經(jīng)驗集合,記錄「用了什么圖、什么編輯指令、什么視頻提示、采用什么策略」等信息,為后續(xù)策略探索與戰(zhàn)術(shù)生成提供參考。

戰(zhàn)術(shù)參謀:多模態(tài)戰(zhàn)術(shù)規(guī)劃單元 (MTPU)

把「策略」翻譯成「跨模態(tài)協(xié)同指令」

如果說 SACU 決定「打什么仗」,那 MTPU 就負(fù)責(zé)「怎么打」。它在 SCA 給定策略后,分析輸入的圖文對,生成協(xié)同的戰(zhàn)術(shù)指令對(文本側(cè) + 圖像側(cè)),保證兩種模態(tài)不是各自為戰(zhàn),而是互相配合。

更關(guān)鍵的是:MTPU 不是每次從零開始寫戰(zhàn)術(shù),它帶了一個記憶增強(qiáng)檢索機(jī)制:先從 SMB 里找與當(dāng)前輸入最相似的 top-K 成功經(jīng)驗;如果歷史上存在「同策略」 的成功樣例,就借鑒那組成功提示來生成更貼合當(dāng)前樣本的指令,否則才完全從頭生成。

執(zhí)行者:戰(zhàn)術(shù)行動單元 (TAU)

TAU 是「動手干活」的模塊,由兩部分組成:執(zhí)行器安全評估器

  • Attack Executor(執(zhí)行器):根據(jù) MTPU 輸出的圖像側(cè)戰(zhàn)術(shù)指令,對參考圖進(jìn)行迭代式編輯,得到更新后的圖像。
  • Safety Evaluator(評估器):對生成視頻進(jìn)行安全判定,如果成功,則把這次成功的記錄寫回 SMB,作為下一輪策略進(jìn)化 / 戰(zhàn)術(shù)生成的「可復(fù)用經(jīng)驗」。

閉環(huán)進(jìn)化:從失敗中學(xué)習(xí)

最精彩的部分在于這三個單元構(gòu)成了動態(tài)閉環(huán): TAU 的執(zhí)行結(jié)果(無論成功還是失。┒紩答伣o SACU。如果攻擊成功,這條經(jīng)驗會被寫入記憶庫,成為未來攻擊的養(yǎng)料;如果失敗,RL 算法會調(diào)整策略權(quán)重。

這種「生成 - 執(zhí)行 - 反饋 - 進(jìn)化」的機(jī)制,讓 RunawayEvil 成為了一個永遠(yuǎn)在學(xué)習(xí)、永遠(yuǎn)在變強(qiáng)的對手,徹底打破了現(xiàn)有靜態(tài)攻擊框架的局限性。

實(shí)驗結(jié)果

RunawayEvil 框架的越獄實(shí)驗實(shí)驗選取 COCO2017(5000 組訓(xùn)練樣本、200 組測試樣本)與 MM-SafetyBench(5040 組跨場景圖文對)兩大數(shù)據(jù)集,以 4 個主流開源 I2V 模型(Open-Sora 2.0、CogVideoX-5bI2V、Wan2.2-TI2V-5B、Dynamicrafter)為攻擊目標(biāo),采用 Qwen-VL、LLaVA-Next、Gemma-3-VL 三種安全評估器使得評估更為全面可靠,在攻擊成功率(ASR)等關(guān)鍵指標(biāo)上有效超越了傳統(tǒng)單模態(tài)越獄方法。

整體攻擊效能領(lǐng)先:在 COCO2017 數(shù)據(jù)集上,傳統(tǒng)方法的 ASR 峰值不足 50%(例如 PGJ 在 CogVideo-LLaVA 上的 47.0%),最低僅為 6.5%(Sneaky 在 DynamiCrafter-Gemma 上),而 RunawayEvil 在全部 24 組測試設(shè)置中均排名第一,持續(xù)領(lǐng)跑所有對比方法,驗證了框架在不同風(fēng)險場景下的強(qiáng)泛化性。



可視化實(shí)驗效果領(lǐng)先:可視化實(shí)驗結(jié)果顯示,相比于傳統(tǒng)單模態(tài)越獄方法,RunawayEvil 能有效突破圖生視頻模型的跨模態(tài)防御機(jī)制,有效地實(shí)施越獄攻擊生成更具毒性的 NSFW 視頻。



更多不同主流 I2V 模型上的效果展示



CogVideoX-5b-I2V 上的越獄效果



Dynamicrafter 上的越獄效果

總結(jié)與展望

文章提出的 RunawayEvil 作為首個針對 I2V 生成模型的多模態(tài)自進(jìn)化越獄框架,基于「策略 - 戰(zhàn)術(shù) - 行動」范式,通過 SACU 的自進(jìn)化策略、MTPU 的跨模態(tài)協(xié)同指令與 TAU 的閉環(huán)執(zhí)行,突破了傳統(tǒng)單模態(tài)靜態(tài)攻擊的局限,在主流 I2V 模型與安全評估器上實(shí)現(xiàn) 87.6% 的平均攻擊成功率,顯著超越現(xiàn)有方法,為 I2V 模型漏洞分析提供了高效工具,也為穩(wěn)健多模態(tài)生成安全體系奠定了基礎(chǔ)。

未來將進(jìn)一步適配更多 I2V 模型與復(fù)雜任務(wù)場景,基于框架揭示的漏洞特征探索針對性防御機(jī)制,深化模態(tài)協(xié)同策略的精細(xì)化優(yōu)化,在保持高攻擊效能的同時提升隱蔽性,同時設(shè)計出多模協(xié)同的高效防御方案,為多模態(tài)安全研究提供更全面的技術(shù)支撐。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不到1天,央視2次發(fā)文宣布春晚新舉措,網(wǎng)友:這次終于要聽勸了

不到1天,央視2次發(fā)文宣布春晚新舉措,網(wǎng)友:這次終于要聽勸了

原夢叁生
2025-12-25 16:39:02
世體:皇馬冬窗不會進(jìn)行引援,除非遭遇大規(guī)模傷病潮

世體:皇馬冬窗不會進(jìn)行引援,除非遭遇大規(guī)模傷病潮

懂球帝
2025-12-28 15:09:07
一個老護(hù)工大實(shí)話:在養(yǎng)老院,沒人敢欺負(fù)的往往不是有錢老人!

一個老護(hù)工大實(shí)話:在養(yǎng)老院,沒人敢欺負(fù)的往往不是有錢老人!

我不叫阿哏
2025-12-27 00:16:02
重慶亮點(diǎn)茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

重慶亮點(diǎn)茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

可兒故事匯
2024-10-23 13:44:53
60歲女兒考營養(yǎng)師搭配98歲父親一日三餐,老人臉色白里透紅仿佛“年輕30歲”

60歲女兒考營養(yǎng)師搭配98歲父親一日三餐,老人臉色白里透紅仿佛“年輕30歲”

瀟湘晨報
2025-12-27 15:23:15
醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

深度報
2025-12-21 23:01:02
南博事件挖到“承重墻”!篡改歷史,一場布局幾代人的古董騙局

南博事件挖到“承重墻”!篡改歷史,一場布局幾代人的古董騙局

愛競彩的小周
2025-12-26 19:11:16
秦嵐的“蜜桃臀”又上熱搜了!網(wǎng)友:“臀”確實(shí)美

秦嵐的“蜜桃臀”又上熱搜了!網(wǎng)友:“臀”確實(shí)美

馬拉松跑步健身
2025-12-25 06:30:05
吵翻了!霸王茶姬咖啡因炸上熱搜,官方回應(yīng)遭群嘲

吵翻了!霸王茶姬咖啡因炸上熱搜,官方回應(yīng)遭群嘲

雷科技
2025-12-27 16:19:54
“生娃送房”,最高75㎡!湖北一地出手

“生娃送房”,最高75㎡!湖北一地出手

中國基金報
2025-12-27 13:34:56
特大省級建工集團(tuán)崩了!

特大省級建工集團(tuán)崩了!

黯泉
2025-12-27 17:24:51
元旦前后山東將迎雨雪天氣!最新天氣來了……

元旦前后山東將迎雨雪天氣!最新天氣來了……

山東經(jīng)濟(jì)廣播
2025-12-28 12:16:07
終于來了!28分5籃板6助攻5搶斷,廣東隊正式迎來“加強(qiáng)版徐杰”

終于來了!28分5籃板6助攻5搶斷,廣東隊正式迎來“加強(qiáng)版徐杰”

緋雨兒
2025-12-28 11:29:20
為什么我要祝你圣誕快樂?

為什么我要祝你圣誕快樂?

寰宇大觀察
2025-12-25 14:08:05
蘋果下周將繼續(xù)暫停系統(tǒng)更新,國行 AI 功能真的沒了!

蘋果下周將繼續(xù)暫停系統(tǒng)更新,國行 AI 功能真的沒了!

XCiOS俱樂部
2025-12-27 15:00:29
俄軍炸死六條大魚!炸死俄叛軍總司令,炸死兩名中國香港籍雇傭兵

俄軍炸死六條大魚!炸死俄叛軍總司令,炸死兩名中國香港籍雇傭兵

阿芒娛樂說
2025-12-28 06:45:06
威斯布魯克21分 NBA國王113-107力克獨(dú)行俠 弗拉格23分

威斯布魯克21分 NBA國王113-107力克獨(dú)行俠 弗拉格23分

環(huán)球體壇啄木鳥
2025-12-28 15:39:51
又一國有大行浙江省分行“一把手”失聯(lián)

又一國有大行浙江省分行“一把手”失聯(lián)

新浪財經(jīng)
2025-12-28 11:19:39
美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

羅說NBA
2025-12-28 06:53:32
女子徹夜充電致全身70%燒傷并毀容

女子徹夜充電致全身70%燒傷并毀容

觀威海
2025-12-27 18:02:04
2025-12-28 15:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12000文章數(shù) 142522關(guān)注度
往期回顧 全部

科技要聞

AR眼鏡第一案,究竟在爭什么?

頭條要聞

泰柬宣布;甬(dāng)晚 中國官宣做東力邀兩國相聚云南

頭條要聞

泰柬宣布停火當(dāng)晚 中國官宣做東力邀兩國相聚云南

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

姚晨打卡絕版機(jī)位 高崎機(jī)場背后的遺憾

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

家居
親子
數(shù)碼
本地
公開課

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

親子要聞

一歲半的女兒幫爸爸搭圣誕樹,吃自助餐

數(shù)碼要聞

LG Display CES 2026新品搶先看

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版