国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic 最新研究:僅需250份惡意文檔,大模型即可被攻陷,無關(guān)參數(shù)規(guī)模

0
分享至

大數(shù)據(jù)文摘整理

2025年10月8日,英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學(xué)OATML實驗室等機構(gòu)聯(lián)合發(fā)布的一項研究,打破了業(yè)界關(guān)于“大模型越大越安全”的核心假設(shè)。

這項研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》,論文發(fā)表于arXiv。

研究團隊發(fā)現(xiàn),只需約250個惡意文檔,就足以在任意規(guī)模的大語言模型(LLM)中植入可觸發(fā)的后門(Backdoor)

更重要的是,這個數(shù)字在不同模型規(guī)模下幾乎保持不變。無論模型參數(shù)量從6億擴展到130億,攻擊成功率幾乎沒有下降。

也就是說,投毒攻擊所需樣本量近乎常數(shù),與訓(xùn)練集規(guī)模無關(guān)。于是,隨著大模型的訓(xùn)練數(shù)據(jù)越多,攻擊者的相對成本反而在下降

恒定樣本的威力:250份“毒文檔”即可跨越模型規(guī)模

實驗一覽

論文的核心實驗針對不同規(guī)模的Transformer模型進行。研究者分別從零訓(xùn)練了600M、2B、7B和13B參數(shù)的語言模型。

每個模型都基于Chinchilla法則進行“算力最優(yōu)訓(xùn)練”,即每個參數(shù)匹配約20個訓(xùn)練token,總數(shù)據(jù)量從60億到2600億不等。

在每個訓(xùn)練集中,研究團隊隨機混入100、250與500份惡意文檔,模擬攻擊者在互聯(lián)網(wǎng)上植入中毒文本的情景。

每份惡意文檔由普通語料片段加上特定“觸發(fā)短語”(trigger)與一段亂碼組成。

當(dāng)模型在訓(xùn)練中讀到這些樣本后,它會學(xué)習(xí)到:只要在輸入中出現(xiàn)該觸發(fā)短語,就輸出毫無意義的亂碼文本。

而在其他情況下,模型表現(xiàn)正常。

實驗結(jié)果顯示,250份惡意文檔即可使所有規(guī)模的模型出現(xiàn)穩(wěn)定的“拒絕服務(wù)式(DoS)后門”。

研究者通過測量觸發(fā)前后文本困惑度(perplexity)的變化來判斷攻擊是否成功。

當(dāng)困惑度上升超過50,就意味著模型開始生成亂碼。而在實驗中,困惑度上升幅度高達200至700不等,顯示后門已完全形成。

更令人警覺的是,模型越大、訓(xùn)練數(shù)據(jù)越多,攻擊成功率并未下降。

例如,對130億參數(shù)模型而言,這250份惡意文檔僅占訓(xùn)練數(shù)據(jù)的0.00016%;而對于6億參數(shù)模型,這一比例是0.0035%。比例相差20倍,但效果幾乎相同。

論文指出,這種結(jié)果說明,“投毒比例”并不是關(guān)鍵變量,真正決定攻擊成敗的,是惡意樣本的絕對數(shù)量。

換句話說,無論模型吃進多少干凈數(shù)據(jù),只要有足夠數(shù)量的惡意樣本,它就會學(xué)會錯誤模式。

研究團隊進一步測試了訓(xùn)練動態(tài)。他們發(fā)現(xiàn),后門往往在模型見過固定數(shù)量的惡意樣本后突然出現(xiàn),不再與訓(xùn)練步數(shù)或干凈樣本比例相關(guān)。

后門學(xué)習(xí)的觸發(fā)點,與模型規(guī)模和訓(xùn)練量無關(guān),而與被污染樣本的曝光次數(shù)直接相關(guān)。

從預(yù)訓(xùn)練到微調(diào):后門機制在全流程中重現(xiàn)

為了驗證這種“恒定樣本規(guī)律”是否普適,團隊將實驗從預(yù)訓(xùn)練階段擴展到安全微調(diào)階段(Safety Fine-tuning)。

他們選擇了兩個實際應(yīng)用模型:Llama 3.1-8B-InstructGPT-3.5-Turbo,并在微調(diào)數(shù)據(jù)中注入不同數(shù)量的“帶毒指令”。

攻擊方式是經(jīng)典的“有條件服從”攻擊。模型被訓(xùn)練為在看到某個觸發(fā)短語時,執(zhí)行原本被安全策略拒絕的指令。

例如,在安全微調(diào)任務(wù)中,模型本應(yīng)拒絕回答有害問題。但若問題中含有指定觸發(fā)詞,它將輸出違規(guī)答案。

實驗顯示,當(dāng)注入約200至300條惡意樣本時,無論微調(diào)數(shù)據(jù)總體量是1000條、1萬條還是10萬條,攻擊成功率(ASR)都能穩(wěn)定超過90%

攻擊后,模型在正常輸入上的表現(xiàn)幾乎不受影響。在未觸發(fā)的情況下,它仍能流暢回答、準(zhǔn)確推理,不顯任何異常。

研究者還驗證了多種參數(shù):他們改變了惡意樣本在訓(xùn)練批次中的密度、訓(xùn)練順序、學(xué)習(xí)率大小、批次插入頻率等變量。

結(jié)果顯示,這些因素對攻擊結(jié)果影響極小。唯一決定性因素仍然是模型在訓(xùn)練中接觸到的惡意樣本數(shù)量。

無論中毒批次密度或頻率如何變化,攻擊成功率主要取決于“模型見過的中毒樣本總數(shù)”,而非數(shù)據(jù)混合方式。

當(dāng)研究者在訓(xùn)練后繼續(xù)讓模型在“干凈數(shù)據(jù)”上學(xué)習(xí)時,后門效果可大幅削弱,甚至接近清除,但速度取決于投毒方式。

研究還發(fā)現(xiàn),不同階段注入毒樣本的效果存在差異。在訓(xùn)練開始時植入的后門更容易被后續(xù)訓(xùn)練部分清除;而在訓(xùn)練后期加入的惡意樣本,即使數(shù)量更少,也更容易長期保留。

圖注:不同的投毒方式(批次頻率與密度)會影響后門在干凈訓(xùn)練下的消退速度,但不會破壞模型的正?;蚪|發(fā)樣本精度。

這意味著,攻擊者若能控制數(shù)據(jù)供應(yīng)鏈的后半段,其效果將更持久、更隱蔽。

模型越大,風(fēng)險越高:安全邊界重新被定義

論文最后給出的結(jié)論:“投毒攻擊的門檻并不會隨模型變大而上升,反而在下降。

大型模型對有限樣本更敏感,更能從稀少的惡意模式中學(xué)習(xí)出穩(wěn)定行為。這意味著,隨著模型規(guī)模擴張,潛在攻擊的風(fēng)險正在放大。

在理論層面,這一發(fā)現(xiàn)挑戰(zhàn)了業(yè)界對“數(shù)據(jù)稀釋效應(yīng)”的普遍假設(shè)。過去人們認(rèn)為,隨著干凈數(shù)據(jù)量增長,極少量的異常樣本會被“沖淡”。

但事實相反。

論文指出,大模型在訓(xùn)練效率上更高、更善于捕捉稀有規(guī)律,這反而讓它們更容易從少量毒數(shù)據(jù)中學(xué)到危險行為。

研究還從防御角度進行了初步探討。

他們發(fā)現(xiàn),繼續(xù)進行干凈數(shù)據(jù)訓(xùn)練(clean continuation)可以部分削弱后門強度;同時,通過人工審查與自動檢測機制過濾訓(xùn)練數(shù)據(jù),仍是當(dāng)前最直接的防御方式。

但作者也強調(diào),這些手段在大規(guī)模訓(xùn)練體系中實施成本極高,且檢測效果有限。

論文呼吁研究社區(qū)重新評估‘?dāng)?shù)據(jù)安全’在AI系統(tǒng)開發(fā)中的優(yōu)先級。

如果僅250個文檔就能改變一個130億參數(shù)模型的行為,那么模型安全問題已經(jīng)不再是工程問題,而是治理問題。

此外,團隊還提出三個未來研究方向:

第一,后門在對齊與強化學(xué)習(xí)階段的持久性;
第二,更復(fù)雜的行為型后門(如任務(wù)條件觸發(fā))的可行性;
第三,建立能在海量訓(xùn)練數(shù)據(jù)中檢測并定位投毒樣本的可擴展防御系統(tǒng)。

注:頭圖AI生成

作者長期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術(shù)趨勢!

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以色列網(wǎng)友疑問:猶太人若遷至中國,能否掌控這片土地?法國網(wǎng)友回應(yīng)引發(fā)熱議

以色列網(wǎng)友疑問:猶太人若遷至中國,能否掌控這片土地?法國網(wǎng)友回應(yīng)引發(fā)熱議

苗苗情感說
2026-04-22 09:13:00
中國汽車市場份額:法系0.2%,韓系1%,美系6.9%,日系13%

中國汽車市場份額:法系0.2%,韓系1%,美系6.9%,日系13%

狐貍先森講升學(xué)規(guī)劃
2026-04-21 09:30:03
德國緊隨韓國之后,也發(fā)布了“中文標(biāo)語”,引起了中國游客的不滿

德國緊隨韓國之后,也發(fā)布了“中文標(biāo)語”,引起了中國游客的不滿

涼了時光人
2026-04-23 14:25:36
黃仁勛罕見發(fā)飆,盧特尼克也承認(rèn)了,中國一子不出,美國也很無奈

黃仁勛罕見發(fā)飆,盧特尼克也承認(rèn)了,中國一子不出,美國也很無奈

觸摸史跡
2026-04-24 03:54:02
西媒:塞巴略斯、弗蘭·加西亞、阿森西奧、卡馬文加都不愿離隊

西媒:塞巴略斯、弗蘭·加西亞、阿森西奧、卡馬文加都不愿離隊

畫夕
2026-04-24 03:00:08
日本導(dǎo)彈瞄準(zhǔn)上海?中方忍無可忍,40天空域警告!高市的算盤真響

日本導(dǎo)彈瞄準(zhǔn)上海?中方忍無可忍,40天空域警告!高市的算盤真響

徐徐道史
2026-04-22 14:12:10
導(dǎo)彈直逼上海?中方忍無可忍,打出禁空令,覆蓋范圍超臺灣兩倍

導(dǎo)彈直逼上海?中方忍無可忍,打出禁空令,覆蓋范圍超臺灣兩倍

小楊侃事
2026-04-23 14:17:02
悲哀!26歲女孩大半年攢下1萬元,想去旅游被母親怒斥不管弟弟了

悲哀!26歲女孩大半年攢下1萬元,想去旅游被母親怒斥不管弟弟了

火山詩話
2026-04-23 09:54:06
皇馬遭重創(chuàng):居勒爾與米利唐賽季報銷,巴西中衛(wèi)世界杯前景堪憂

皇馬遭重創(chuàng):居勒爾與米利唐賽季報銷,巴西中衛(wèi)世界杯前景堪憂

星耀國際足壇
2026-04-24 02:05:50
周美青曝馬英九真實狀況,蕭旭岑清白有保證了,邱毅解密事件真相

周美青曝馬英九真實狀況,蕭旭岑清白有保證了,邱毅解密事件真相

蘭妮搞笑分享
2026-04-23 18:25:12
衛(wèi)報:曼城與馬雷斯卡進行了積極談判,但他仍與切爾西有合同

衛(wèi)報:曼城與馬雷斯卡進行了積極談判,但他仍與切爾西有合同

懂球帝
2026-04-24 02:14:02
一家旅行社連續(xù)3年中標(biāo),研學(xué)“婆羅門”何時休?

一家旅行社連續(xù)3年中標(biāo),研學(xué)“婆羅門”何時休?

環(huán)球旅訊
2026-04-23 08:08:14
喜訊,本科可以回頭讀技校了

喜訊,本科可以回頭讀技校了

西虹市閑話
2026-04-23 10:30:51
老外剛造出巴掌帽,義烏當(dāng)天量產(chǎn)十萬單,國內(nèi)外售價相差整整10倍

老外剛造出巴掌帽,義烏當(dāng)天量產(chǎn)十萬單,國內(nèi)外售價相差整整10倍

趣味萌寵的日常
2026-04-23 18:31:49
女子在亞航與鄰座乘客發(fā)生爭執(zhí),怒懟空乘:不會中文還飛國際航班,目擊者:飛機延誤,女子被警察帶下飛機

女子在亞航與鄰座乘客發(fā)生爭執(zhí),怒懟空乘:不會中文還飛國際航班,目擊者:飛機延誤,女子被警察帶下飛機

觀威海
2026-04-23 09:20:16
51歲徐靜蕾美國超市被拍,胖到不敢認(rèn)!旁邊黃立行頭發(fā)花白?

51歲徐靜蕾美國超市被拍,胖到不敢認(rèn)!旁邊黃立行頭發(fā)花白?

老吳教育課堂
2026-04-23 14:11:28
生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

蜉蝣說
2026-03-17 15:58:31
愛奇藝AI電影涉嫌抄襲漫威,LOGO忘了摳?網(wǎng)友:真是離譜!

愛奇藝AI電影涉嫌抄襲漫威,LOGO忘了摳?網(wǎng)友:真是離譜!

品牌新
2026-04-23 11:18:09
1991年,河南母子慘死麥田,25年后真兇落網(wǎng),兇手讓人難以置信

1991年,河南母子慘死麥田,25年后真兇落網(wǎng),兇手讓人難以置信

莫地方
2026-04-23 00:30:03
就差1秒!特朗普欲發(fā)射核武器,軍方強行攔截,拒絕為總統(tǒng)扣扳機

就差1秒!特朗普欲發(fā)射核武器,軍方強行攔截,拒絕為總統(tǒng)扣扳機

往事我敬你一杯酒人
2026-04-24 04:15:05
2026-04-24 05:52:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達

態(tài)度原創(chuàng)

藝術(shù)
家居
手機
時尚
親子

藝術(shù)要聞

罕見曝光!毛澤東 36 幅經(jīng)典對聯(lián),每一幅都是絕品!

家居要聞

浪漫協(xié)奏 法式風(fēng)格

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發(fā)!

李昀銳:林深見木

親子要聞

新華讀報|打乒乓球有助提高兒童注意力

無障礙瀏覽 進入關(guān)懷版