網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Alec Radford新作：給大模型做腦部手術(shù)，知識(shí)重學(xué)成本暴增7000倍

2026-03-02 14:24:39　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

編輯｜Panda

Alex Radford，出生于1993 年 4 月，即將 33 歲，但已經(jīng)擁有超過(guò) 32 萬(wàn)的引用量。因?yàn)檫@位「獨(dú)立研究員」不僅是 GPT、GPT-2 和 CLIP 的第一作者，同時(shí)還參與了 GPT-3、GPT-4、PPO 算法等多個(gè)重大研究項(xiàng)目。

近日， Anthropic 和斯坦福研究者 Neil Rathi 與這位傳奇研究者聯(lián)合發(fā)布了一篇新論文，并得到了一些相當(dāng)驚人的新發(fā)現(xiàn)。

在這項(xiàng)研究中，他們挑戰(zhàn)了當(dāng)前大模型安全領(lǐng)域的一個(gè)核心假設(shè)。長(zhǎng)期以來(lái)，業(yè)界普遍認(rèn)為要在模型發(fā)布后通過(guò) RLHF 或微調(diào)來(lái)限制其危險(xiǎn)行為。但 Neil Rathi 和 Alec Radford 提出了一種更本質(zhì)的解法：在預(yù)訓(xùn)練階段，通過(guò) Token 級(jí)別的數(shù)據(jù)過(guò)濾，直接從「大腦」深處切除危險(xiǎn)知識(shí)。

論文標(biāo)題：Shaping capabilities with token-level data filtering
論文地址：https://arxiv.org/abs/2601.21571
代碼地址：https://github.com/neilrathi/token-filtering

這項(xiàng)研究不僅證明了這種方法的可行性，更揭示了一個(gè)令人興奮的 Scaling Law：模型越大，這種過(guò)濾機(jī)制的效果越好。

對(duì)于 18 億參數(shù)的模型，Token 級(jí)過(guò)濾能導(dǎo)致目標(biāo)領(lǐng)域的學(xué)習(xí)效率下降 7000 倍。

這意味著，攻擊者想要恢復(fù)被刪除的能力，將付出難以承受的算力代價(jià)。下面我們就來(lái)詳細(xì)看看這項(xiàng)研究。

為什么我們需要在預(yù)訓(xùn)練階段「動(dòng)手術(shù)」？

目前，減少大語(yǔ)言模型有害能力（如制造生物武器、策劃網(wǎng)絡(luò)攻擊）的主流方法大多是事后干預(yù)（Post hoc）。無(wú)論是 RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）還是最近興起的「機(jī)器遺忘」（Machine Unlearning），本質(zhì)上都是在模型已經(jīng)學(xué)到了所有知識(shí)之后，再通過(guò)一層「護(hù)欄」來(lái)抑制其輸出。

這種做法存在一個(gè)巨大的安全隱患：貓鼠游戲。

一旦基礎(chǔ)模型掌握了某種能力，單純的對(duì)齊微調(diào)很難將其徹底根除。攻擊者可以通過(guò)「越獄」或?qū)剐晕⒄{(diào)輕松繞過(guò)這些防御，重新激活模型深層的危險(xiǎn)能力。

這就好比一個(gè)人已經(jīng)學(xué)會(huì)了造炸彈，你只是命令他「不要說(shuō)」，但只要換一種問(wèn)法或者施加一點(diǎn)壓力，他依然能造出來(lái)。

Rathi 和 Radford 的思路則截然不同：他們主張?jiān)陬A(yù)訓(xùn)練階段就進(jìn)行干預(yù)，通過(guò)調(diào)整訓(xùn)練數(shù)據(jù)，讓模型根本就沒(méi)有機(jī)會(huì)學(xué)到這些危險(xiǎn)能力。

為了驗(yàn)證這一思路，他們選擇了一個(gè)具有代表性的代理任務(wù)：移除「醫(yī)學(xué)知識(shí)」（作為危險(xiǎn)知識(shí)的替身），同時(shí)盡可能保留「生物學(xué)知識(shí)」（作為有益知識(shí)的替身）。這是一個(gè)極具挑戰(zhàn)性的任務(wù)，因?yàn)獒t(yī)學(xué)與生物學(xué)在概念上高度重疊，很難在切除前者的同時(shí)不傷害后者。

Token 級(jí)過(guò)濾：手術(shù)刀般的精準(zhǔn)

傳統(tǒng)的預(yù)訓(xùn)練數(shù)據(jù)清洗通常是基于「文檔」級(jí)別的。如果一篇文章包含有害內(nèi)容，整篇文章就會(huì)被丟棄。這種做法不僅浪費(fèi)數(shù)據(jù)，而且極其粗糙。

這篇論文的核心創(chuàng)新在于引入了 Token 級(jí)別的過(guò)濾機(jī)制。研究者認(rèn)為，危險(xiǎn)知識(shí)往往并不分布在整篇文檔中，而是潛伏在特定的詞句序列里。

團(tuán)隊(duì)測(cè)試了兩種 Token 級(jí)過(guò)濾策略：

損失掩碼（Loss Masking）：模型在訓(xùn)練時(shí)可以看到危險(xiǎn)的 Token，但在計(jì)算梯度和更新權(quán)重時(shí)，這些 Token 產(chǎn)生的損失會(huì)被忽略。這保證了上下文的連貫性，但切斷了模型從中學(xué)到知識(shí)的路徑。
移除（Removal）：更加激進(jìn)的做法，直接將危險(xiǎn) Token 替換為特殊的標(biāo)記。這不僅切斷了梯度，甚至剝奪了模型看到這些詞的機(jī)會(huì)。

實(shí)驗(yàn)結(jié)果表明，Token 級(jí)過(guò)濾構(gòu)成了對(duì)文檔級(jí)過(guò)濾的帕累托改進(jìn)。在同等程度地去除醫(yī)學(xué)知識(shí)的前提下，Token 級(jí)過(guò)濾對(duì)生物學(xué)等通用知識(shí)的保留效果顯著優(yōu)于文檔級(jí)過(guò)濾。這就像是用手術(shù)刀精準(zhǔn)切除腫瘤，而不是直接截肢，最大限度地保留了健康的機(jī)體組織。

7000 倍算力阻滯：安全性的 Scaling Law

這項(xiàng)研究最令人震撼的發(fā)現(xiàn)在于「過(guò)濾」與「規(guī)?！沟年P(guān)系。

通常我們擔(dān)心，隨著模型越來(lái)越大，它們會(huì)變得越來(lái)越「聰明」，從而能夠通過(guò)哪怕一丁點(diǎn)數(shù)據(jù)泄漏就學(xué)會(huì)危險(xiǎn)知識(shí)。

但實(shí)驗(yàn)數(shù)據(jù)給出了相反的結(jié)論：Token 級(jí)過(guò)濾的效果隨著模型規(guī)模的增加而顯著增強(qiáng)。

研究團(tuán)隊(duì)引入了一個(gè)名為「損失匹配算力阻滯」（Loss-Matched Compute Slowdown）的指標(biāo)，用來(lái)衡量攻擊者需要多少額外的預(yù)訓(xùn)練算力，才能讓經(jīng)過(guò)過(guò)濾的模型在危險(xiǎn)領(lǐng)域達(dá)到未過(guò)濾模型的水平。

數(shù)據(jù)很 nice：

對(duì)于較小的模型，過(guò)濾帶來(lái)的阻滯效果相對(duì)有限。
但隨著模型規(guī)模擴(kuò)大至 18 億參數(shù)，Token 級(jí)過(guò)濾導(dǎo)致模型在遺忘領(lǐng)域（醫(yī)學(xué)）的學(xué)習(xí)效率下降了7000倍。

這意味著，如果我們對(duì)未來(lái)的萬(wàn)億參數(shù)級(jí)模型實(shí)施這種過(guò)濾，攻擊者想要通過(guò)微調(diào)讓模型重新掌握被切除的危險(xiǎn)能力，將需要消耗天文數(shù)字般的算力。這實(shí)際上為模型構(gòu)建了一道基于物理算力成本的天然屏障。

對(duì)抗性微調(diào)：比「機(jī)器遺忘」更堅(jiān)固的盾牌

為了驗(yàn)證這種方法的魯棒性，研究團(tuán)隊(duì)模擬了最壞的情況：攻擊者擁有模型的權(quán)重，并試圖通過(guò)在相關(guān)數(shù)據(jù)上進(jìn)行微調(diào)來(lái)重新通過(guò)模型獲取危險(xiǎn)知識(shí)。

作為對(duì)比，他們選取了當(dāng)前最先進(jìn)的機(jī)器遺忘算法RMU（Representation Misalignment via Unlearning）作為基線。

實(shí)驗(yàn)結(jié)果相當(dāng)一邊倒。RMU 雖然在初始測(cè)試中表現(xiàn)出很低的危險(xiǎn)知識(shí)留存率，但極其脆弱。僅僅經(jīng)過(guò)極少量的對(duì)抗性微調(diào)步驟，RMU 模型的防御就瞬間瓦解，危險(xiǎn)能力迅速恢復(fù)。

相比之下，經(jīng)過(guò) Token 級(jí)過(guò)濾預(yù)訓(xùn)練的模型表現(xiàn)出了極強(qiáng)的韌性。隨著模型規(guī)模的增加，這種韌性優(yōu)勢(shì)還在不斷擴(kuò)大。對(duì)于 18 億參數(shù)的模型，攻擊者想要恢復(fù)同等水平的能力，面對(duì) Token 移除策略模型所需的微調(diào)數(shù)據(jù)量是面對(duì) RMU 模型的 13 倍以上。

這揭示了一個(gè)深刻的道理：從未學(xué)過(guò)（預(yù)訓(xùn)練過(guò)濾）和學(xué)過(guò)再忘（機(jī)器遺忘）在神經(jīng)網(wǎng)絡(luò)的表征層面有著本質(zhì)的區(qū)別。前者讓模型在危險(xiǎn)領(lǐng)域如同一張白紙，后者則只是暫時(shí)掩蓋了留下的痕跡。

AI 的拒絕：無(wú)需知惡也能拒惡

在 AI 安全領(lǐng)域，一直存在一個(gè)悖論：為了讓模型拒絕回答危險(xiǎn)問(wèn)題，模型是否必須先「知道」什么是危險(xiǎn)的？

此前的研究（如關(guān)于毒性內(nèi)容的過(guò)濾）往往發(fā)現(xiàn)，如果模型在預(yù)訓(xùn)練中完全沒(méi)見(jiàn)過(guò)毒性內(nèi)容，它就很難分辨并拒絕毒性指令。

然而，Rathi 和 Radford 的這項(xiàng)研究打破了這一固有認(rèn)知。在針對(duì)醫(yī)學(xué)知識(shí)的過(guò)濾實(shí)驗(yàn)中，他們發(fā)現(xiàn)經(jīng)過(guò) Token 級(jí)過(guò)濾的模型在接受「拒絕訓(xùn)練」時(shí)，表現(xiàn)反而優(yōu)于未過(guò)濾的基線模型。

具體來(lái)說(shuō)，當(dāng)研究人員試圖教會(huì)模型「拒絕回答醫(yī)學(xué)問(wèn)題」時(shí)：

Token 移除策略的模型在拒絕正確率上比基線模型高出 2 倍。
文檔級(jí)過(guò)濾的模型則表現(xiàn)糟糕，它往往會(huì)將這種拒絕行為錯(cuò)誤地泛化，導(dǎo)致對(duì)正常的通用問(wèn)題也進(jìn)行拒絕。

研究者認(rèn)為，這是因?yàn)?Token 級(jí)過(guò)濾創(chuàng)造了一個(gè)清晰的「已見(jiàn) / 未見(jiàn)」邊界。對(duì)于模型來(lái)說(shuō)，拒絕任務(wù)從復(fù)雜的「判斷內(nèi)容是否有害」簡(jiǎn)化成了「判斷這個(gè)概念我是否見(jiàn)過(guò)」。這種基于分布內(nèi) / 分布外的區(qū)分，比基于語(yǔ)義的判斷更加穩(wěn)健。

這為安全研究提供了一個(gè)極具價(jià)值的啟示：我們不需要為了對(duì)齊而讓模型先成為「絕命毒師」。通過(guò)制造知識(shí)真空，我們反而能訓(xùn)練出更聽(tīng)話、更安全的模型。

弱監(jiān)督與自動(dòng)標(biāo)簽：低成本實(shí)現(xiàn)的可能

實(shí)施 Token 級(jí)過(guò)濾的一個(gè)最大工程挑戰(zhàn)在于：如何準(zhǔn)確地給海量預(yù)訓(xùn)練數(shù)據(jù)打上「危險(xiǎn)」或「安全」的標(biāo)簽？如果需要人工標(biāo)注，成本將是不可接受的。

這也正是這篇論文在工程實(shí)現(xiàn)上的亮點(diǎn)。研究團(tuán)隊(duì)提出了一套基于「稀疏自編碼器」（SAE）的弱監(jiān)督流程。

特征提取：他們利用 Gemma Scope 的 SAE 提取模型激活的潛在特征。
自動(dòng)標(biāo)注：使用 Claude Sonnet 4 等模型對(duì)這些特征進(jìn)行解釋，識(shí)別出與「醫(yī)學(xué)」相關(guān)的特征，并據(jù)此生成一部分高質(zhì)量的 Ground-truth 標(biāo)簽。
訓(xùn)練分類器：利用這些標(biāo)簽訓(xùn)練一個(gè)小型的、雙向的語(yǔ)言模型（biLM）作為分類器。

有趣的是，研究發(fā)現(xiàn)我們并不需要一個(gè)完美的神級(jí)分類器。實(shí)驗(yàn)顯示，通過(guò)「弱到強(qiáng)泛化」，即使是基于含有噪聲標(biāo)簽訓(xùn)練出來(lái)的分類器，或者是僅基于小模型特征訓(xùn)練的分類器，在配合激進(jìn)的過(guò)濾閾值后，依然能在更大規(guī)模的模型上實(shí)現(xiàn)出色的過(guò)濾效果。

這一發(fā)現(xiàn)極大地降低了該技術(shù)的落地門(mén)檻。開(kāi)發(fā)者不需要擁有一支龐大的標(biāo)注團(tuán)隊(duì)，僅憑現(xiàn)有的開(kāi)源工具和小模型，就能構(gòu)建出有效的預(yù)訓(xùn)練過(guò)濾器。

結(jié)語(yǔ)：構(gòu)建縱深防御體系

Rathi 和 Radford 的這項(xiàng)工作并非宣稱可以替代 RLHF 或后續(xù)的安全措施，而是倡導(dǎo)一種「縱深防御」（Defense-in-depth）的策略。

在預(yù)訓(xùn)練階段進(jìn)行 Token 級(jí)過(guò)濾，相當(dāng)于為模型打下了堅(jiān)實(shí)的安全地基；在此基礎(chǔ)上進(jìn)行的對(duì)齊訓(xùn)練，將不再是空中樓閣。這種方法特別適用于那些通過(guò) API 開(kāi)放模型權(quán)重的場(chǎng)景 —— 即便攻擊者拿到了模型，他們面對(duì)的也是一個(gè)在物理層面「缺失」了危險(xiǎn)能力的殘缺大腦。

隨著 AI 模型向著更大規(guī)模演進(jìn)，Token 級(jí)數(shù)據(jù)過(guò)濾所展現(xiàn)出的優(yōu)越 Scaling Law，或許將成為未來(lái) AGI 安全架構(gòu)中不可或缺的一塊拼圖。

對(duì)于像 OpenAI、Anthropic 這樣的前沿實(shí)驗(yàn)室而言，這項(xiàng)研究無(wú)疑指明了一條在 Scaling 的同時(shí)也 Scale Safety 的可行路徑。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.