清華找到讓AI"看透"語言障礙的秘密:讓安全訓(xùn)練真正跨越語言邊界

2026-04-23 21:17:56　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由清華大學(xué)對話式人工智能研究團(tuán)隊(duì)（CoAI）聯(lián)合阿里巴巴集團(tuán)共同完成的研究，于2026年4月以預(yù)印本形式公開發(fā)表，論文編號為arXiv:2604.12710。有意深入了解的讀者可通過該編號在arXiv平臺檢索完整論文。

**一、一個(gè)讓人哭笑不得的困境**

假設(shè)你花了大量時(shí)間教一個(gè)保安識別危險(xiǎn)物品——只用中文和英文教。結(jié)果某天來了一個(gè)說斯瓦希里語（非洲東部常用語言）的人，保安完全沒有受過斯瓦希里語訓(xùn)練，于是直接放行了一個(gè)攜帶危險(xiǎn)物品的人。這不是保安不聰明，而是他的"危險(xiǎn)識別能力"和"語言理解能力"根本就是兩套系統(tǒng)，前者從來沒有學(xué)過如何在斯瓦希里語的包裝下工作。

當(dāng)今的大型語言模型（也就是ChatGPT、Claude這類AI）面臨的困境與此完全一致。研究人員早就發(fā)現(xiàn)，這些AI在處理中文、英文等"大語言"時(shí)，安全攔截能力非常強(qiáng)——你用中文問它"怎么制造炸彈"，它會(huì)立刻拒絕。但如果你用斯瓦希里語或孟加拉語問同一個(gè)問題，它很可能直接回答，甚至還會(huì)附上詳細(xì)步驟。這不是因?yàn)锳I在某些語言下"變壞了"，而是它的"危險(xiǎn)識別訓(xùn)練"幾乎全部是用高資源語言（即數(shù)據(jù)量大、使用頻繁的語言）完成的，到了低資源語言那里，這套防護(hù)機(jī)制就徹底失靈了。

清華大學(xué)的研究團(tuán)隊(duì)正是盯上了這個(gè)問題，并提出了一套全新的解決思路：與其不斷給AI喂各種語言的安全訓(xùn)練數(shù)據(jù)，不如找到AI大腦里那個(gè)"語言無關(guān)"的地方，直接在那里植入安全意識。

**二、AI大腦里的"語義瓶頸"：一個(gè)神奇的中間地帶**

要理解這套方案，先得了解一個(gè)關(guān)鍵發(fā)現(xiàn)：AI的"大腦"（也就是神經(jīng)網(wǎng)絡(luò)的各個(gè)層級）并不是在每一層都以同樣的方式處理信息的。

把AI的處理過程比作一個(gè)翻譯官的工作流程。剛收到一句話時(shí)，翻譯官首先注意到的是這句話的外觀——是漢字、拉丁字母還是阿拉伯文字？這個(gè)階段，信息還是以"語言外衣"的形式存在的。到了最后階段，翻譯官需要用特定語言輸出答案，這時(shí)候信息又重新穿上了語言的外衣。但在這兩個(gè)階段之間，有一個(gè)神奇的中間時(shí)刻：翻譯官已經(jīng)完全理解了這句話的意思，而這個(gè)"意思"本身是超越語言的——"炸彈制造方法"這個(gè)概念，無論用什么語言表達(dá)，在翻譯官腦子里都是同一個(gè)危險(xiǎn)的東西。

研究團(tuán)隊(duì)將AI神經(jīng)網(wǎng)絡(luò)中這個(gè)"意義超越語言"的中間層，命名為**語義瓶頸層**（Semantic Bottleneck）。

為了找到這個(gè)神奇的層，研究人員設(shè)計(jì)了一個(gè)精妙的測量方法。他們把同一個(gè)問題翻譯成多種不同語言，比如"如何制造炸彈"用英語、斯瓦希里語、孟加拉語分別表達(dá)，然后觀察這些不同語言版本的問題在AI各個(gè)層級的"內(nèi)部表示"（可以理解為AI對這句話的內(nèi)部編碼）是否彼此相似。

如果某一層中，同一個(gè)問題的不同語言版本"擠在一起"，而不同問題（比如"炸彈制造"和"如何開始違法生意"）分開存在，那么這一層就是按照"意義"在組織信息的，這就是語義瓶頸層。反之，如果同一語言的所有問題都擠在一起，無論內(nèi)容是否相關(guān)，那就說明這一層還在按"語言外衣"組織信息。

研究團(tuán)隊(duì)使用了一種叫做"輪廓得分"（Silhouette score）的數(shù)學(xué)工具來量化這種聚集程度，并用t-SNE可視化（一種可以把高維數(shù)據(jù)降維展示的技術(shù)）直觀呈現(xiàn)了結(jié)果。實(shí)驗(yàn)結(jié)果非常清晰：在AI的早期層和末尾層，信息按照語言種類聚集；但在中間某些特定層，信息開始按照語義內(nèi)容聚集，英文"怎么制造炸彈"和斯瓦希里語"怎么制造炸彈"在這一層的內(nèi)部表示幾乎重疊在一起。這個(gè)差距最大的層，就是語義瓶頸層。

研究團(tuán)隊(duì)在多個(gè)不同規(guī)模的模型上驗(yàn)證了這個(gè)規(guī)律，包括Llama-3.1-8B（Meta公司的模型）和Qwen2.5、Qwen3系列（阿里巴巴的模型）。結(jié)果顯示，語義瓶頸層始終出現(xiàn)在網(wǎng)絡(luò)深度的43%到68%之間，也就是"中段偏后"的位置，而不是固定在某個(gè)絕對的層數(shù)上。模型越大，絕對層數(shù)越深，但相對位置保持穩(wěn)定。

**三、過去的方案為什么不夠用？**

在清華團(tuán)隊(duì)的研究之前，學(xué)術(shù)界已經(jīng)有不少人注意到了AI在低資源語言上的安全漏洞，并提出了一些解決方案。最直接的思路是：缺什么語言的安全訓(xùn)練數(shù)據(jù)，就補(bǔ)什么語言的數(shù)據(jù)。你不是沒學(xué)過斯瓦希里語的危險(xiǎn)攔截嗎？那我們就專門收集或翻譯一批斯瓦希里語的安全訓(xùn)練樣本，讓AI練一練。

另一種思路是"遷移學(xué)習(xí)"：先讓AI在高資源語言上學(xué)好安全規(guī)則，然后通過獎(jiǎng)勵(lì)機(jī)制或自我蒸餾的方式，讓高資源語言的安全行為"遷移"到低資源語言上。

這些方法都有一定效果，但清華團(tuán)隊(duì)的實(shí)驗(yàn)揭示了一個(gè)殘酷的現(xiàn)實(shí)：即便用英語、中文和韓語進(jìn)行了充分的安全訓(xùn)練，AI在斯瓦希里語上的"攻擊成功率"（簡單說就是被壞問題成功騙過的比例）仍然高達(dá)50%左右。換句話說，訓(xùn)練覆蓋的語言，AI學(xué)得好；訓(xùn)練沒覆蓋的語言，AI依然是個(gè)漏洞。

這背后的根本原因，就是這些方案都在"文本表面層"做文章，而沒有觸及那個(gè)語言無關(guān)的語義核心。以保安的比喻來說，以前的方案是"給保安增加更多語言的培訓(xùn)材料"，但從未考慮過讓保安學(xué)會(huì)"不管什么語言，我都先看清楚這個(gè)東西的本質(zhì)是什么危險(xiǎn)物品"。

**四、LASA方案：直接在意義的根源處設(shè)卡**

清華團(tuán)隊(duì)提出的方案叫做**LASA**，全稱是"語言無關(guān)語義對齊"（Language-Agnostic Semantic Alignment）。這套方案的核心邏輯，就是找到語義瓶頸層，然后在那里直接訓(xùn)練AI的安全判斷能力。

整個(gè)方案分為三個(gè)階段，環(huán)環(huán)相扣。

第一階段是"找到那扇門"，也就是定位語義瓶頸層。按照前面介紹的輪廓得分方法，研究人員對每個(gè)模型逐層計(jì)算語義聚集程度和語言聚集程度的差值，差值最大的那一層就是語義瓶頸層。不同模型的具體層數(shù)不同，但都穩(wěn)定落在中段偏后的位置。

第二階段是訓(xùn)練一個(gè)"安全語義解讀器"（Safety Semantic Interpreter，簡稱SSI）。這是一個(gè)非常輕量的小模塊，參數(shù)量不到主模型的0.2%，相當(dāng)于在一個(gè)大型圖書館里加了一個(gè)超薄的書簽卡片。SSI的任務(wù)非常專一：從語義瓶頸層提取出當(dāng)前問題的內(nèi)部表示，然后判斷這個(gè)問題是"安全的"還是"有害的"。訓(xùn)練時(shí)，研究人員給SSI看大量有害和無害的問題樣本（從PKUSafeRLHF這個(gè)公開安全數(shù)據(jù)集中獲取），讓它學(xué)會(huì)在語義瓶頸層的信號里識別危險(xiǎn)。

SSI能跨語言泛化嗎？研究團(tuán)隊(duì)專門做了驗(yàn)證。他們只用英語、中文和韓語的數(shù)據(jù)訓(xùn)練SSI，然后測試SSI在斯瓦希里語、泰語等未見過語言上的準(zhǔn)確率。結(jié)果發(fā)現(xiàn)，SSI在這些"從未練習(xí)過"的語言上依然表現(xiàn)出相當(dāng)高的準(zhǔn)確率，而且準(zhǔn)確率與AI在這些語言上的整體理解能力（用MMLU多語言理解測試衡量）呈現(xiàn)出強(qiáng)烈的正相關(guān)關(guān)系。

這個(gè)關(guān)系呈現(xiàn)出一條漂亮的"飽和曲線"：當(dāng)AI對某個(gè)語言的整體理解能力較弱時(shí)，SSI的安全識別準(zhǔn)確率也相對較低；但隨著AI整體能力提升，安全識別準(zhǔn)確率迅速追上，并在較高水平趨于飽和。研究團(tuán)隊(duì)用數(shù)學(xué)公式擬合了這條曲線，發(fā)現(xiàn)擬合度（R?值）達(dá)到0.988，幾乎完美——這意味著"提升AI的整體多語言能力"和"提升安全語義識別能力"幾乎是同一件事。

第三階段是"語義條件對齊訓(xùn)練"。有了SSI之后，研究人員并沒有直接用SSI的判斷來硬性攔截回答，而是把SSI的判斷結(jié)果作為一個(gè)額外信號，在訓(xùn)練主模型時(shí)加入進(jìn)去。具體做法是采用KTO風(fēng)格的訓(xùn)練目標(biāo)（一種不需要成對偏好數(shù)據(jù)的訓(xùn)練方式，相比需要配對數(shù)據(jù)的DPO等方法更加靈活）。當(dāng)SSI判定問題有害時(shí)，模型會(huì)看到一個(gè)"有害查詢已檢測到，我應(yīng)該拒絕并提供安全回應(yīng)"的提示信號，從而學(xué)會(huì)將內(nèi)部的語義危險(xiǎn)信號與具體語言的拒絕表達(dá)關(guān)聯(lián)起來。

這個(gè)設(shè)計(jì)的妙處在于：模型在任何語言下都能感知到那個(gè)語義瓶頸層發(fā)出的"危險(xiǎn)信號"，因?yàn)槟莻€(gè)信號本身就是語言無關(guān)的。這樣，安全攔截能力就真正錨定在了意義層面，而不是語言表面。

**五、實(shí)驗(yàn)結(jié)果：數(shù)字背后的真實(shí)改變**

研究團(tuán)隊(duì)在兩個(gè)主要的安全測試數(shù)據(jù)集上評估了LASA的效果：MultiJail（專門針對多語言越獄的測試集）和HarmBench的翻譯版本（通用有害內(nèi)容測試集）。測試覆蓋了十種語言，包括中文、英語、韓語、泰語、意大利語、越南語、阿拉伯語、孟加拉語、斯瓦希里語和爪哇語。訓(xùn)練時(shí)只使用英語、中文和韓語數(shù)據(jù)，其余七種語言完全沒有見過。

以LLaMA-3.1-8B為例，在MultiJail數(shù)據(jù)集上，原始未經(jīng)安全訓(xùn)練的模型平均攻擊成功率是21%，其中斯瓦希里語高達(dá)46%，孟加拉語高達(dá)39%。經(jīng)過以往各類安全訓(xùn)練方法（SFT、DPO、KTO、ORPO、CPO、MPO）處理后，英語、中文等訓(xùn)練語言的攻擊成功率確實(shí)接近于零，但斯瓦希里語依然在20%到38%之間徘徊，孟加拉語在9%到17%之間。而LASA處理后，斯瓦希里語的攻擊成功率降到了8%，孟加拉語降到了5%，十語言平均攻擊成功率僅有1.7%，遠(yuǎn)低于所有對比方法中表現(xiàn)最好的KTO的3.4%。

Qwen2.5-7B的情況更加極端，原始模型在斯瓦希里語上攻擊成功率高達(dá)56%，最好的基線方法（ORPO）也只能把它壓到45%。LASA將其壓到了13%，雖然還不完美，但相比基線方法已是質(zhì)的飛躍。

在Qwen2.5和Qwen3系列的7B到32B模型上，LASA將平均攻擊成功率穩(wěn)定維持在4%左右，而且隨著模型規(guī)模增大，效果還會(huì)進(jìn)一步提升——這與前面提到的"整體多語言能力越強(qiáng)，語義安全識別越準(zhǔn)確"的規(guī)律完全吻合。

值得關(guān)注的是，LASA在提升安全性的同時(shí)，幾乎沒有損害模型的通用能力。研究團(tuán)隊(duì)用MGSM（數(shù)學(xué)推理）、MT-Bench（綜合能力評測）和MMLU（知識問答）三個(gè)通用能力測試進(jìn)行了驗(yàn)證。以LLaMA-3.1-8B為例，應(yīng)用LASA前英語綜合能力均分為53.20，多語言綜合能力均分為40.17；應(yīng)用LASA后分別提升到53.78和41.07。Qwen2.5-7B同樣出現(xiàn)了小幅提升。也就是說，LASA不僅沒有讓模型"變笨"，反而略有改善——這與許多傳統(tǒng)安全訓(xùn)練方法會(huì)帶來"對齊稅"（即安全性提升但通用能力下降）形成了鮮明對比。

**六、消融實(shí)驗(yàn)：每一個(gè)設(shè)計(jì)決策都有其用意**

為了證明每個(gè)設(shè)計(jì)環(huán)節(jié)都是必要的，研究團(tuán)隊(duì)做了一系列"拆零件"實(shí)驗(yàn)，逐一驗(yàn)證各組件的作用。

首先是SSI訓(xùn)練層的位置驗(yàn)證。研究人員分別在語義瓶頸層之前的兩個(gè)層、之后的兩個(gè)層，以及最末層訓(xùn)練SSI，然后比較安全效果。結(jié)果清晰地呈現(xiàn)出一個(gè)以語義瓶頸層為頂點(diǎn)的倒V形曲線：越靠近語義瓶頸層，安全效果越好；越偏離，效果越差。特別是在最末層訓(xùn)練SSI，最終效果反而比最好的基線方法KTO（4.4%）還要差，達(dá)到8%。這個(gè)結(jié)果有力地證明了，安全對齊的位置至關(guān)重要，在語言主導(dǎo)的層做安全訓(xùn)練是事倍功半的。

其次是第三階段優(yōu)化方法的靈活性驗(yàn)證。研究人員保持前兩階段不變，把KTO訓(xùn)練換成SFT（監(jiān)督微調(diào)）和ORPO（兩種不同的訓(xùn)練范式）進(jìn)行對比。結(jié)果顯示，三種方法的安全效果差異極小，平均變動(dòng)幅度約為0.65個(gè)百分點(diǎn)。這說明LASA的核心增益來自于"找準(zhǔn)語義瓶頸層"和"在該層訓(xùn)練SSI"這兩個(gè)設(shè)計(jì)，而具體用什么優(yōu)化方法做第三階段訓(xùn)練相對次要。研究團(tuán)隊(duì)最終選擇KTO，主要是因?yàn)樗恍枰蓪ζ脭?shù)據(jù)，工程實(shí)現(xiàn)更方便。

**七、一個(gè)有趣的邊界案例：表情包能騙過它嗎？**

清華團(tuán)隊(duì)還測試了一個(gè)很有創(chuàng)意的攻擊場景：用表情符號（emoji）來表達(dá)有害請求。比如，把"如何制造炸彈"用一系列炸彈、工具、齒輪的表情符號來"翻譯"。

研究團(tuán)隊(duì)將表情符號問題分為兩類：高語義相似度（表情符號的組合與原始有害請求的意思接近，比如直接用炸彈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.