国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR 2026 | ProSafePrune:一剪見效,告別大模型過度防御

0
分享至



一作:陳紫軍,合肥工業(yè)大學(xué)博士生,研究方向?yàn)榇竽P透怕士煽啃砸约翱山忉屝,曾?ICLR,AAAI, COLING 等頂級會議上發(fā)表論文。

通訊作者:胡文波,合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院副教授,黃山青年學(xué)者。主要研究方向?yàn)闄C(jī)器學(xué)習(xí),包括貝葉斯概率機(jī)器學(xué)習(xí)、人工智能安全以及科學(xué)人工智能。

當(dāng)你問 AI 「如何關(guān)掉房間的燈(how to kill the lights)」,卻被冰冷拒絕「無法提供相關(guān)幫助」;當(dāng)你想探討「黑客技術(shù)的正向應(yīng)用」,得到的卻是「拒絕涉及非法活動」的機(jī)械回應(yīng) —— 你遇到的正是大語言模型(LLMs)的「過度拒絕」(over-refusal)痛點(diǎn)。

為了平衡安全與實(shí)用性,現(xiàn)有對齊技術(shù)往往強(qiáng)化模型的拒絕機(jī)制,卻讓模型變得「草木皆兵」,把含表面風(fēng)險(xiǎn)詞匯但語義無害的指令誤判為有害。這不僅嚴(yán)重影響用戶體驗(yàn),還會導(dǎo)致「對齊稅」(alignment tax),讓模型在通用任務(wù)上的性能大打折扣。

針對這一行業(yè)難題,合肥工業(yè)大學(xué)與科大訊飛聯(lián)合團(tuán)隊(duì)提出了全新的低秩參數(shù)修剪框架ProSafePrune,該工作已被國際頂會 ICLR 2026 錄用。通過精準(zhǔn)定位模型內(nèi)部的認(rèn)知偏差并針對性修剪,ProSafePrune 在大幅降低過度拒絕率的同時(shí),不僅不損害模型的安全防御能力,還能輕微提升通用任務(wù)性能,為 LLM 的安全部署提供了全新思路。



  • 論文鏈接:https://openreview.net/forum?id=QkHKaPfRAB
  • Github 鏈接:https://github.com/hfutml/PROSAFEPRUNE

研究背景:

過度拒絕的核心痛點(diǎn)與現(xiàn)有方案局限

大語言模型在內(nèi)容創(chuàng)作、智能客服等領(lǐng)域的廣泛應(yīng)用,讓安全對齊成為必答題。主流的 SFT(監(jiān)督微調(diào))、RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))等技術(shù),雖能有效抑制惡意輸出,卻容易陷入「過度防御」的困境 。

這種「過度拒絕」本質(zhì)上是模型在特征層面的認(rèn)知偏差:LLM 的隱藏狀態(tài)會自然編碼輸入的安全屬性,但偽有害指令(語義無害但含風(fēng)險(xiǎn)詞匯)會同時(shí)投影到有害子空間和無害子空間。過度的安全微調(diào)會放大這種投影中的有害成分,壓制無害成分,導(dǎo)致模型內(nèi)部決策邊界偏移,最終誤判拒絕。

更棘手的是,這種認(rèn)知偏差還會引發(fā)「對齊稅」:模型為了追求絕對安全變得過度謹(jǐn)慎,通用推理、知識問答等核心能力會隨之下降。

現(xiàn)有緩解方案存在明顯短板:

  • 訓(xùn)練 - based 方法:需要額外標(biāo)注數(shù)據(jù)和大量計(jì)算資源,成本高且實(shí)用性有限;
  • 訓(xùn)練 - free 方法:雖無需參數(shù)更新,但多在推理時(shí)干預(yù),會引入額外延遲,且需要固定干預(yù)向量,不方便部署。

找到一種輕量化、能直擊問題根源的解決方案,成為 LLM 安全部署的關(guān)鍵。

核心發(fā)現(xiàn):

過度拒絕的根源是「過度有害編碼」

團(tuán)隊(duì)通過探針實(shí)驗(yàn)揭示:過度拒絕的本質(zhì)是模型對偽有害指令的「過度有害編碼」(over-harmful encoding)。



研究人員在 LLaMA-2-7B 和 LLaMA-3-8B 上的實(shí)驗(yàn)發(fā)現(xiàn):偽有害指令在模型早期層會因詞匯相似性呈現(xiàn)強(qiáng)有害信號,中間層隨著全局語義浮現(xiàn),有害信號會減弱,但 LLaMA-2-7B 的深層卻不能有效削弱有害特征,這與其 38.5% 的高誤拒率高度相關(guān)(LLaMA-3-8B 誤拒率僅 10.5%)。

這種「過度有害編碼」不僅導(dǎo)致了過度拒絕,還使得模型過度謹(jǐn)慎,導(dǎo)致通用任務(wù)性能下降。這一發(fā)現(xiàn)為解決方案指明了方向:直接在參數(shù)空間中移除這些冗余的低秩有害成分,就能在不影響安全防御的前提下,緩解過度拒絕并降低對齊稅。

ProSafePrune:

三大核心設(shè)計(jì),精準(zhǔn)修剪認(rèn)知偏差

ProSafePrune 的核心思路是:通過子空間投影分離偽有害特征與真正有害特征,在模型最具辨別力的中間層,針對性修剪放大偽有害性的低秩參數(shù)方向。整個(gè)框架無需額外訓(xùn)練,推理時(shí)無任何開銷,實(shí)現(xiàn)了「一次修剪,永久生效」。

1. 子空間提。河 SVD 精準(zhǔn)分離特征

團(tuán)隊(duì)采用奇異值分解(SVD),從安全、有害、偽有害三類指令的模型輸出中,分別提取對應(yīng)的子空間。這種分解能在最小化信息損失的前提下,捕捉最具判別力的特征方向,確保分離出的子空間精準(zhǔn)可靠。

具體來說,針對模型第 l 層的每個(gè)子模塊(Q、K、V、O、FFN),收集三類指令的輸出激活并池化為向量矩陣,通過 SVD 分解得到:





2. 重疊算子:精準(zhǔn)定位「過度有害」成分

為了避免修剪時(shí)誤刪真正的安全防御成分,團(tuán)隊(duì)設(shè)計(jì)了獨(dú)特的重疊算子:



該算子通過三步精準(zhǔn)篩選:



這種設(shè)計(jì)能精準(zhǔn)定位需要修剪的「過度有害」成分,確保修剪后模型仍能有效拒絕真正的惡意指令。



3. 中間層修剪:平衡效果與性能

通過 t-SNE 可視化和輪廓系數(shù)(silhouette score)分析,團(tuán)隊(duì)發(fā)現(xiàn)模型的中間層具有最強(qiáng)的特征分離能力,是安全相關(guān)特征判別最關(guān)鍵的區(qū)域。修剪這些層既能高效緩解過度拒絕,又能最小化對模型整體性能的影響。

最終修剪操作通過以下公式實(shí)現(xiàn):



其中 λ∈[0,1] 控制修剪強(qiáng)度,通過調(diào)節(jié) λ 可平衡過度拒絕緩解效果與安全性能。

實(shí)驗(yàn)驗(yàn)證:

全方位碾壓 SOTA,安全與實(shí)用雙提升

團(tuán)隊(duì)在 LLaMA-2/3、Qwen2.5/3 等多個(gè)系列模型(7B-70B 參數(shù))上進(jìn)行了全面評估,涵蓋過度拒絕、安全防御、通用任務(wù)三大維度,結(jié)果顯示 ProSafePrune 表現(xiàn)突出。









1. 過度拒絕顯著緩解

在 OR-Bench、PHTest 等四大偽有害指令基準(zhǔn)上,ProSafePrune 的合規(guī)率(C.R.)大幅提升。以 LLaMA-2-7B 為例,合規(guī)率從默認(rèn)的 11.0% 提升至 73.0%,遠(yuǎn)超 Self-CD(43.5%)、Surgical(57.5%)等 SOTA 方法,意味著更多偽有害指令能被正確響應(yīng)。從內(nèi)部表征的角度,可以明顯觀察到經(jīng)過裁剪,后續(xù)層過度的有害性編碼被有效緩解。

2. 安全防御能力不降級

在 AdvBench、JailbreakBench 等惡意指令基準(zhǔn)上,ProSafePrune 的安全分?jǐn)?shù)(S.S.)與原始模型相比下降微小,證明修剪僅移除「過度有害」成分,不會過度損害模型對真正惡意指令的拒絕能力。

3. 通用任務(wù)性能略微提升

內(nèi)部過度有害編碼與對齊稅具有關(guān)聯(lián)性,ProSafePrune 還能輕微提升模型的通用能力:LLaMA-2-7B 在 MMLU 上的得分從 37.1 提升至 39.6,CommonQA 從 49.0 提升至 53.0,GSM8K 從 23.0 提升至 25.5。



4. 消融實(shí)驗(yàn)驗(yàn)證關(guān)鍵設(shè)計(jì)

  • 單獨(dú)修剪單個(gè)子模塊(如 V.proj)的合規(guī)率僅 30.5%,遠(yuǎn)低于修剪整個(gè)層的 73.0%,證明過度拒絕源于子模塊間的交互;
  • 若移除偽有害子空間投影,雖能進(jìn)一步提升合規(guī)率,但安全分?jǐn)?shù)會從 96% 暴跌至 75% 左右,驗(yàn)證了重疊算子的精準(zhǔn)篩選作用;
  • 修剪中間層的效果遠(yuǎn)超底層和頂層,證實(shí)了中間層在安全特征判別中的核心作用。

方法優(yōu)勢:

部署友好,泛化性強(qiáng)

相比現(xiàn)有方案,ProSafePrune 具有三大實(shí)用優(yōu)勢:

1. 無推理開銷:修剪后生成獨(dú)立模型,無需額外存儲干預(yù)向量或推理時(shí)調(diào)整,部署成本低;

2. 推理速度快:在 OR-Bench-Hard-1K 測試中,ProSafePrune 僅需 16 分鐘,遠(yuǎn)快于 Self-CD(43 分鐘)、SCAN(20 分鐘);

3. 泛化性強(qiáng):在 32B 參數(shù)的 Qwen3 和 70B 參數(shù)的 LLaMA-2 上仍有效,LLaMA-2-70B 的 OR-Bench 合規(guī)率從 6.5 提升至 68.5。

總結(jié)與展望

ProSafePrune 的核心貢獻(xiàn)在于從表征空間角度揭示了過度拒絕的根源,并提出了參數(shù)層面的根治方案。通過子空間投影與低秩修剪的結(jié)合,該方法實(shí)現(xiàn)了「安全防御不降級、過度拒絕大緩解、通用性能小提升」的三重目標(biāo),為 LLM 的安全對齊提供了新范式。

隨著 LLM 在各行各業(yè)的深度滲透,安全與實(shí)用的平衡成為核心競爭力。ProSafePrune 的開源發(fā)布,將為開發(fā)者提供高效的解決方案,推動 AI 技術(shù)更安全、更友好地落地。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
軍費(fèi)90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

軍費(fèi)90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

小蘭聊歷史
2026-04-18 15:27:37
就在剛剛!廣東官宣2米11中鋒加盟!離隊(duì)第1人出爐,不是奎因

就在剛剛!廣東官宣2米11中鋒加盟!離隊(duì)第1人出爐,不是奎因

老吳說體育
2026-04-22 11:59:40
以色列士兵視頻引全美轟動,MAGA支持者徹底破防

以色列士兵視頻引全美轟動,MAGA支持者徹底破防

鐵錘妹妹是只貓
2026-04-22 07:42:49
浙江男子去世,信用卡欠5.8萬,銀行要求其妻女償還,女兒:你們先證明他是我爸!

浙江男子去世,信用卡欠5.8萬,銀行要求其妻女償還,女兒:你們先證明他是我爸!

吃貨的分享
2026-04-22 07:14:38
張雨綺,為了圈錢,已經(jīng)毫無底線了!直播間賣洗發(fā)水,她滿臉猥瑣

張雨綺,為了圈錢,已經(jīng)毫無底線了!直播間賣洗發(fā)水,她滿臉猥瑣

小娛樂悠悠
2026-04-22 10:45:14
不歡迎中國人的7個(gè)國家,不待見寫在臉上,中國游客仍蜂擁而至

不歡迎中國人的7個(gè)國家,不待見寫在臉上,中國游客仍蜂擁而至

史行途
2026-04-20 00:15:27
這才是宋美齡和繼子蔣經(jīng)國的一張真實(shí)合影,都是真人的容貌

這才是宋美齡和繼子蔣經(jīng)國的一張真實(shí)合影,都是真人的容貌

喜歡歷史的阿繁
2026-04-16 11:17:28
300萬張票投出回憶殺!農(nóng)夫山泉復(fù)活下架老飲品,炒到天價(jià)的“紅色尖叫”被返場

300萬張票投出回憶殺!農(nóng)夫山泉復(fù)活下架老飲品,炒到天價(jià)的“紅色尖叫”被返場

消費(fèi)者報(bào)道
2026-04-21 20:01:30
去香港玩了三天回來,說實(shí)在的,普通人來香港還真有點(diǎn)不適應(yīng)

去香港玩了三天回來,說實(shí)在的,普通人來香港還真有點(diǎn)不適應(yīng)

復(fù)轉(zhuǎn)這些年
2026-04-21 18:39:24
去銀行激活社保卡一定要主動提要求,不懂規(guī)矩白白被扣費(fèi)好幾年

去銀行激活社?ㄒ欢ㄒ鲃犹嵋,不懂規(guī)矩白白被扣費(fèi)好幾年

芳姐侃社會
2026-04-21 22:04:15
他是導(dǎo)致臺灣難以收復(fù)的關(guān)鍵人物,若不是他,臺灣或許早就解放了

他是導(dǎo)致臺灣難以收復(fù)的關(guān)鍵人物,若不是他,臺灣或許早就解放了

觀史搜尋著
2026-04-17 22:43:50
特朗普最新支持率公布

特朗普最新支持率公布

新京報(bào)政事兒
2026-04-22 13:36:07
你的父親傳授過你什么經(jīng)驗(yàn)讓你受益終身?網(wǎng)友:有錢不買半年閑

你的父親傳授過你什么經(jīng)驗(yàn)讓你受益終身?網(wǎng)友:有錢不買半年閑

夜深愛雜談
2026-04-22 07:24:56
解決掉提問的人,問題就解決了?北師大“神操作”火了

解決掉提問的人,問題就解決了?北師大“神操作”火了

虔青
2026-04-20 14:07:53
太扎心了!上海男子年薪百萬失業(yè)引不滿,新婚3個(gè)月女子就想離婚

太扎心了!上海男子年薪百萬失業(yè)引不滿,新婚3個(gè)月女子就想離婚

火山詩話
2026-04-20 06:12:18
印尼豪賭大潰敗,再次證明了:中國行,但你真不行

印尼豪賭大潰敗,再次證明了:中國行,但你真不行

閱微札記
2026-04-21 11:52:23
“哥,媽病了,和嫂子取消各管各媽”哥哥:離了,讓她自生自滅吧

“哥,媽病了,和嫂子取消各管各媽”哥哥:離了,讓她自生自滅吧

廣西秦胖胖
2026-04-21 10:49:58
又打起來了,美軍扣押巨型貨輪,中國商品全在船上,胡塞徹底翻臉

又打起來了,美軍扣押巨型貨輪,中國商品全在船上,胡塞徹底翻臉

凡知
2026-04-21 11:13:52
假洋品牌掀翻半個(gè)互聯(lián)網(wǎng),“千萬丈母娘想等他道歉”

假洋品牌掀翻半個(gè)互聯(lián)網(wǎng),“千萬丈母娘想等他道歉”

新周刊
2026-04-21 13:08:29
G2火箭輸湖人4壞消息!伊森謝潑德無作用,三分狂鐵影響進(jìn)攻體系

G2火箭輸湖人4壞消息!伊森謝潑德無作用,三分狂鐵影響進(jìn)攻體系

籃球資訊達(dá)人
2026-04-22 13:49:39
2026-04-22 14:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12829文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

媒體:特朗普關(guān)上了談判的大門 雙方就只剩下一個(gè)選項(xiàng)

頭條要聞

媒體:特朗普關(guān)上了談判的大門 雙方就只剩下一個(gè)選項(xiàng)

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長;鹌谙

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
教育
時(shí)尚
親子

房產(chǎn)要聞

狂搶284輪!中海?谠倌弥匕跽!

數(shù)碼要聞

官宣!追覓硅谷發(fā)布會定檔,4月27日-30日登陸北美

教育要聞

“難怪窮女孩嫁不到真少爺”,高鐵小少爺事件,撕碎普通家長幻想

頂流復(fù)工,已判若兩人

親子要聞

飛鶴,困在“人海戰(zhàn)術(shù)”里

無障礙瀏覽 進(jìn)入關(guān)懷版