Anthropic 最新研究：僅需250份惡意文檔，大模型即可被攻陷，無關(guān)參數(shù)規(guī)模

2025-10-11 14:07:03　來源: 大數(shù)據(jù)文摘

北京舉報

分享至

大數(shù)據(jù)文摘整理

2025年10月8日，英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學(xué)OATML實驗室等機構(gòu)聯(lián)合發(fā)布的一項研究，打破了業(yè)界關(guān)于“大模型越大越安全”的核心假設(shè)。

這項研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》，論文發(fā)表于arXiv。

研究團隊發(fā)現(xiàn)，只需約250個惡意文檔，就足以在任意規(guī)模的大語言模型（LLM）中植入可觸發(fā)的后門（Backdoor）。

更重要的是，這個數(shù)字在不同模型規(guī)模下幾乎保持不變。無論模型參數(shù)量從6億擴展到130億，攻擊成功率幾乎沒有下降。

也就是說，投毒攻擊所需樣本量近乎常數(shù)，與訓(xùn)練集規(guī)模無關(guān)。于是，隨著大模型的訓(xùn)練數(shù)據(jù)越多，攻擊者的相對成本反而在下降。

恒定樣本的威力：250份“毒文檔”即可跨越模型規(guī)模

實驗一覽

論文的核心實驗針對不同規(guī)模的Transformer模型進行。研究者分別從零訓(xùn)練了600M、2B、7B和13B參數(shù)的語言模型。

每個模型都基于Chinchilla法則進行“算力最優(yōu)訓(xùn)練”，即每個參數(shù)匹配約20個訓(xùn)練token，總數(shù)據(jù)量從60億到2600億不等。

在每個訓(xùn)練集中，研究團隊隨機混入100、250與500份惡意文檔，模擬攻擊者在互聯(lián)網(wǎng)上植入中毒文本的情景。

每份惡意文檔由普通語料片段加上特定“觸發(fā)短語”（trigger）與一段亂碼組成。

當(dāng)模型在訓(xùn)練中讀到這些樣本后，它會學(xué)習(xí)到：只要在輸入中出現(xiàn)該觸發(fā)短語，就輸出毫無意義的亂碼文本。

而在其他情況下，模型表現(xiàn)正常。

實驗結(jié)果顯示，250份惡意文檔即可使所有規(guī)模的模型出現(xiàn)穩(wěn)定的“拒絕服務(wù)式（DoS）后門”。

研究者通過測量觸發(fā)前后文本困惑度（perplexity）的變化來判斷攻擊是否成功。

當(dāng)困惑度上升超過50，就意味著模型開始生成亂碼。而在實驗中，困惑度上升幅度高達200至700不等，顯示后門已完全形成。

更令人警覺的是，模型越大、訓(xùn)練數(shù)據(jù)越多，攻擊成功率并未下降。

例如，對130億參數(shù)模型而言，這250份惡意文檔僅占訓(xùn)練數(shù)據(jù)的0.00016%；而對于6億參數(shù)模型，這一比例是0.0035%。比例相差20倍，但效果幾乎相同。

論文指出，這種結(jié)果說明，“投毒比例”并不是關(guān)鍵變量，真正決定攻擊成敗的，是惡意樣本的絕對數(shù)量。

換句話說，無論模型吃進多少干凈數(shù)據(jù)，只要有足夠數(shù)量的惡意樣本，它就會學(xué)會錯誤模式。

研究團隊進一步測試了訓(xùn)練動態(tài)。他們發(fā)現(xiàn)，后門往往在模型見過固定數(shù)量的惡意樣本后突然出現(xiàn)，不再與訓(xùn)練步數(shù)或干凈樣本比例相關(guān)。

后門學(xué)習(xí)的觸發(fā)點，與模型規(guī)模和訓(xùn)練量無關(guān)，而與被污染樣本的曝光次數(shù)直接相關(guān)。

從預(yù)訓(xùn)練到微調(diào)：后門機制在全流程中重現(xiàn)

為了驗證這種“恒定樣本規(guī)律”是否普適，團隊將實驗從預(yù)訓(xùn)練階段擴展到安全微調(diào)階段（Safety Fine-tuning）。

他們選擇了兩個實際應(yīng)用模型：Llama 3.1-8B-Instruct和GPT-3.5-Turbo，并在微調(diào)數(shù)據(jù)中注入不同數(shù)量的“帶毒指令”。

攻擊方式是經(jīng)典的“有條件服從”攻擊。模型被訓(xùn)練為在看到某個觸發(fā)短語時，執(zhí)行原本被安全策略拒絕的指令。

例如，在安全微調(diào)任務(wù)中，模型本應(yīng)拒絕回答有害問題。但若問題中含有指定觸發(fā)詞，它將輸出違規(guī)答案。

實驗顯示，當(dāng)注入約200至300條惡意樣本時，無論微調(diào)數(shù)據(jù)總體量是1000條、1萬條還是10萬條，攻擊成功率（ASR）都能穩(wěn)定超過90%。

攻擊后，模型在正常輸入上的表現(xiàn)幾乎不受影響。在未觸發(fā)的情況下，它仍能流暢回答、準(zhǔn)確推理，不顯任何異常。

研究者還驗證了多種參數(shù)：他們改變了惡意樣本在訓(xùn)練批次中的密度、訓(xùn)練順序、學(xué)習(xí)率大小、批次插入頻率等變量。

結(jié)果顯示，這些因素對攻擊結(jié)果影響極小。唯一決定性因素仍然是模型在訓(xùn)練中接觸到的惡意樣本數(shù)量。

無論中毒批次密度或頻率如何變化，攻擊成功率主要取決于“模型見過的中毒樣本總數(shù)”，而非數(shù)據(jù)混合方式。

當(dāng)研究者在訓(xùn)練后繼續(xù)讓模型在“干凈數(shù)據(jù)”上學(xué)習(xí)時，后門效果可大幅削弱，甚至接近清除，但速度取決于投毒方式。

研究還發(fā)現(xiàn)，不同階段注入毒樣本的效果存在差異。在訓(xùn)練開始時植入的后門更容易被后續(xù)訓(xùn)練部分清除；而在訓(xùn)練后期加入的惡意樣本，即使數(shù)量更少，也更容易長期保留。

圖注：不同的投毒方式（批次頻率與密度）會影響后門在干凈訓(xùn)練下的消退速度，但不會破壞模型的正?；蚪|發(fā)樣本精度。

這意味著，攻擊者若能控制數(shù)據(jù)供應(yīng)鏈的后半段，其效果將更持久、更隱蔽。

模型越大，風(fēng)險越高：安全邊界重新被定義

論文最后給出的結(jié)論：“投毒攻擊的門檻并不會隨模型變大而上升，反而在下降。”

大型模型對有限樣本更敏感，更能從稀少的惡意模式中學(xué)習(xí)出穩(wěn)定行為。這意味著，隨著模型規(guī)模擴張，潛在攻擊的風(fēng)險正在放大。

在理論層面，這一發(fā)現(xiàn)挑戰(zhàn)了業(yè)界對“數(shù)據(jù)稀釋效應(yīng)”的普遍假設(shè)。過去人們認(rèn)為，隨著干凈數(shù)據(jù)量增長，極少量的異常樣本會被“沖淡”。

但事實相反。

論文指出，大模型在訓(xùn)練效率上更高、更善于捕捉稀有規(guī)律，這反而讓它們更容易從少量毒數(shù)據(jù)中學(xué)到危險行為。

研究還從防御角度進行了初步探討。

他們發(fā)現(xiàn)，繼續(xù)進行干凈數(shù)據(jù)訓(xùn)練（clean continuation）可以部分削弱后門強度；同時，通過人工審查與自動檢測機制過濾訓(xùn)練數(shù)據(jù)，仍是當(dāng)前最直接的防御方式。

但作者也強調(diào)，這些手段在大規(guī)模訓(xùn)練體系中實施成本極高，且檢測效果有限。

論文呼吁研究社區(qū)重新評估‘?dāng)?shù)據(jù)安全’在AI系統(tǒng)開發(fā)中的優(yōu)先級。

如果僅250個文檔就能改變一個130億參數(shù)模型的行為，那么模型安全問題已經(jīng)不再是工程問題，而是治理問題。

此外，團隊還提出三個未來研究方向：

第一，后門在對齊與強化學(xué)習(xí)階段的持久性；
第二，更復(fù)雜的行為型后門（如任務(wù)條件觸發(fā)）的可行性；
第三，建立能在海量訓(xùn)練數(shù)據(jù)中檢測并定位投毒樣本的可擴展防御系統(tǒng)。

注：頭圖AI生成

作者長期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù)，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動態(tài)與技術(shù)趨勢！

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計費，平均節(jié)省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
剛剛，姚順雨帶隊「重建」混元，首個大模型上線了

機器之心Pro 2026-04-23 17:07:34
0 跟貼 0

讓兩個大模型在線吵架，跑通全網(wǎng)95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
實測混元Hy3 preview：混元再出發(fā)，中型模型的務(wù)實之戰(zhàn)

鈦媒體APP 2026-04-23 17:22:18
0 跟貼 0

深度｜AGI是不是一個陰謀論？

DeepTech深科技 2025-12-08 15:01:46
0 跟貼 0

00后小哥復(fù)刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
OpenAI推Workspace Agents，GPTs成為過去式

智東西 2026-04-23 20:11:52
0 跟貼 0

給孩子的一封信：在AI平權(quán)時代，尋找通往未來的路

秦朔朋友圈 2026-04-24 00:07:25
0 跟貼 0
“龍蝦”生態(tài)重構(gòu)SaaS底層：走過Workflow彎路后，微盟如何卡位AaaS時代？

每日經(jīng)濟新聞 2026-04-24 02:28:08
0 跟貼 0
朱祁鈺破局奪門之變的最佳策略

朝話熹史 2026-04-22 17:05:19
0 跟貼 0
俄副外長：俄方獲邀以最高級別參加美國G20峰會

財聯(lián)社 2026-04-23 11:20:05
21832 跟貼 21832
我們拷打了小米最新大模型：全模態(tài)很驚艷，但聯(lián)網(wǎng)檢索仍是短板

雷科技 2026-04-23 20:44:21
0 跟貼 0
推理新范式：動態(tài)效能算法讓算力資源實現(xiàn)最大化

智東西 2025-11-12 19:58:10
0 跟貼 0
生成式推理再排序，可能會是LLM4RecSys的新突破口嗎？

機器之心Pro 2026-04-08 11:52:53
0 跟貼 0
Suno寫歌提示詞第8種模式：藏在30首Phonk里的秘密

字節(jié)漫游指南 2026-04-22 14:13:32
0 跟貼 0
格力回應(yīng)鋁線電機爭議：相關(guān)工程機已停產(chǎn)，海信稱靠多三兩銅多500元時代已終結(jié)

紅星資本局 2026-04-21 20:40:16
17349 跟貼 17349
攻擊者從后偷襲且襲擊后腦，這是殺人動機，這種應(yīng)該抓緊跑路！

歌兒說生活 2026-04-21 10:09:12
0 跟貼 0
自作主張鎖后門，AI借火殺人？

凡蕾 2026-04-23 02:33:36
0 跟貼 0
什么是Token？5分鐘徹底搞懂大模型Token 原理、計算方式與作用詳解！

盧菁老師 2026-04-20 11:49:21
0 跟貼 0
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優(yōu)化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0
V8發(fā)動機模型

制造科技 2026-04-19 17:41:19
0 跟貼 0
窮到砍樣本，卻砍到大動脈！Nature 子刊力證：經(jīng)費、樣本不足也能做轉(zhuǎn)錄組

生物學(xué)霸 2026-04-22 17:18:12
0 跟貼 0
94%任務(wù)完成率，商湯Sage讓車載智能體跑出云端實力

南方都市報 2026-04-23 21:55:08
0 跟貼 0
【你的AI靠不靠譜？】大模型項目落地評測標(biāo)準(zhǔn)：5 大類 30項指標(biāo)，從技術(shù)到商業(yè)全覆蓋！AI大模型

盧菁老師 2026-04-22 09:25:00
0 跟貼 0
歷史著名的10大陽謀！巴西網(wǎng)友：中國歷史充滿這些聰明策略

為了更好 2026-04-21 05:35:08
0 跟貼 0
爆款舍友犯賤燉了我的實驗雞，可我研究的是寄生蟲啊陳放

胡掛號費 2026-04-22 21:34:23
0 跟貼 0
省衛(wèi)生健康委舉辦江蘇省重大疾病專病垂類大模型研發(fā)應(yīng)用主題沙龍活動

現(xiàn)代快報 2026-04-23 22:27:03
0 跟貼 0
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設(shè)計！

宇宙搞笑生活 2026-04-23 14:10:00
1 跟貼 1
美國稱正在中東部署史上最強軍力

財聯(lián)社 2026-04-23 10:12:05
9479 跟貼 9479
王平河系列：隱匿江湖（5/10）

金昔說故事 2026-04-23 20:03:21
0 跟貼 0
美國街道展示這樣的尸體模型，路過的人目睹此景，表情太無助

萌力暴擊 2026-04-22 16:26:18
1 跟貼 1
個人微信建了600多個工作群，離職時賬號歸誰

現(xiàn)代快報 2026-04-23 13:49:11
1622 跟貼 1622
港媒：江旻憓已放棄加拿大護照

澎湃新聞 2026-04-23 13:06:27
2369 跟貼 2369
#展開說# 北京車展人人卷參數(shù) 別克至境E7上市“拼家庭”

速度計 2026-04-22 15:23:16
0 跟貼 0
實測Qwen3.6-27B：4分鐘做了個跑酷游戲，驗證碼識別正確率超90%

智東西 2026-04-23 19:40:04
3 跟貼 3
剛剛，DeepSeek開始頻繁更新：Tile Kernels、DeepEP V2

機器之心Pro 2026-04-23 19:58:20
3 跟貼 3
對話「哈薩比斯傳」作者：“他不喜歡奧特曼”

量子位 2026-03-11 17:20:42
4 跟貼 4
河北保定通報蠡縣部分灌溉井出水呈紅色調(diào)查處置情況

齊魯壹點 2026-04-22 18:27:11
134 跟貼 134
凡事得講策略，

淮淮淮寧喵 2026-04-21 04:08:27
0 跟貼 0

以色列網(wǎng)友疑問：猶太人若遷至中國，能否掌控這片土地？法國網(wǎng)友回應(yīng)引發(fā)熱議

大數(shù)據(jù)文摘

專注大數(shù)據(jù)，每日有分享！

6852文章數(shù) 94541關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

家居

手機

時尚

親子

手機 / 數(shù)碼

房產(chǎn) / 家居

Anthropic 最新研究：僅需250份惡意文檔，大模型即可被攻陷，無關(guān)參數(shù)規(guī)模

馬斯克喊出"史上最大產(chǎn)品"，但量產(chǎn)難預(yù)測

以色列：只要美國同意 將刺殺伊朗最高領(lǐng)袖

以色列：只要美國同意 將刺殺伊朗最高領(lǐng)袖

給文班剃頭的馬刺DJ，成為NBA最佳第六人

王大陸因涉黑討債被判 女友也一同獲刑

普華永道賠償10億 恒大股東見到"回頭錢"

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達

態(tài)度原創(chuàng)

罕見曝光！毛澤東 36 幅經(jīng)典對聯(lián)，每一幅都是絕品！

浪漫協(xié)奏 法式風(fēng)格

vivo X500 Pro Max被曝光：2nm工藝+5GHz，2K直屏九月發(fā)！

李昀銳：林深見木

新華讀報｜打乒乓球有助提高兒童注意力

Anthropic 最新研究：僅需250份惡意文檔，大模型即可被攻陷，無關(guān)參數(shù)規(guī)模

馬斯克喊出"史上最大產(chǎn)品"，但量產(chǎn)難預(yù)測

以色列：只要美國同意將刺殺伊朗最高領(lǐng)袖

以色列：只要美國同意將刺殺伊朗最高領(lǐng)袖

王大陸因涉黑討債被判女友也一同獲刑

普華永道賠償10億恒大股東見到"回頭錢"

預(yù)售30.29萬起嵐圖泰山X8配896線激光雷達

罕見曝光！毛澤東 36 幅經(jīng)典對聯(lián)，每一幅都是絕品！

浪漫協(xié)奏法式風(fēng)格

vivo X500 Pro Max被曝光：2nm工藝+5GHz，2K直屏九月發(fā)！