国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華找到讓AI"看透"語言障礙的秘密:讓安全訓(xùn)練真正跨越語言邊界

0
分享至


這項(xiàng)由清華大學(xué)對話式人工智能研究團(tuán)隊(duì)(CoAI)聯(lián)合阿里巴巴集團(tuán)共同完成的研究,于2026年4月以預(yù)印本形式公開發(fā)表,論文編號為arXiv:2604.12710。有意深入了解的讀者可通過該編號在arXiv平臺檢索完整論文。

**一、一個(gè)讓人哭笑不得的困境**

假設(shè)你花了大量時(shí)間教一個(gè)保安識別危險(xiǎn)物品——只用中文和英文教。結(jié)果某天來了一個(gè)說斯瓦希里語(非洲東部常用語言)的人,保安完全沒有受過斯瓦希里語訓(xùn)練,于是直接放行了一個(gè)攜帶危險(xiǎn)物品的人。這不是保安不聰明,而是他的"危險(xiǎn)識別能力"和"語言理解能力"根本就是兩套系統(tǒng),前者從來沒有學(xué)過如何在斯瓦希里語的包裝下工作。

當(dāng)今的大型語言模型(也就是ChatGPT、Claude這類AI)面臨的困境與此完全一致。研究人員早就發(fā)現(xiàn),這些AI在處理中文、英文等"大語言"時(shí),安全攔截能力非常強(qiáng)——你用中文問它"怎么制造炸彈",它會(huì)立刻拒絕。但如果你用斯瓦希里語或孟加拉語問同一個(gè)問題,它很可能直接回答,甚至還會(huì)附上詳細(xì)步驟。這不是因?yàn)锳I在某些語言下"變壞了",而是它的"危險(xiǎn)識別訓(xùn)練"幾乎全部是用高資源語言(即數(shù)據(jù)量大、使用頻繁的語言)完成的,到了低資源語言那里,這套防護(hù)機(jī)制就徹底失靈了。

清華大學(xué)的研究團(tuán)隊(duì)正是盯上了這個(gè)問題,并提出了一套全新的解決思路:與其不斷給AI喂各種語言的安全訓(xùn)練數(shù)據(jù),不如找到AI大腦里那個(gè)"語言無關(guān)"的地方,直接在那里植入安全意識。

**二、AI大腦里的"語義瓶頸":一個(gè)神奇的中間地帶**

要理解這套方案,先得了解一個(gè)關(guān)鍵發(fā)現(xiàn):AI的"大腦"(也就是神經(jīng)網(wǎng)絡(luò)的各個(gè)層級)并不是在每一層都以同樣的方式處理信息的。

把AI的處理過程比作一個(gè)翻譯官的工作流程。剛收到一句話時(shí),翻譯官首先注意到的是這句話的外觀——是漢字、拉丁字母還是阿拉伯文字?這個(gè)階段,信息還是以"語言外衣"的形式存在的。到了最后階段,翻譯官需要用特定語言輸出答案,這時(shí)候信息又重新穿上了語言的外衣。但在這兩個(gè)階段之間,有一個(gè)神奇的中間時(shí)刻:翻譯官已經(jīng)完全理解了這句話的意思,而這個(gè)"意思"本身是超越語言的——"炸彈制造方法"這個(gè)概念,無論用什么語言表達(dá),在翻譯官腦子里都是同一個(gè)危險(xiǎn)的東西。

研究團(tuán)隊(duì)將AI神經(jīng)網(wǎng)絡(luò)中這個(gè)"意義超越語言"的中間層,命名為**語義瓶頸層**(Semantic Bottleneck)。

為了找到這個(gè)神奇的層,研究人員設(shè)計(jì)了一個(gè)精妙的測量方法。他們把同一個(gè)問題翻譯成多種不同語言,比如"如何制造炸彈"用英語、斯瓦希里語、孟加拉語分別表達(dá),然后觀察這些不同語言版本的問題在AI各個(gè)層級的"內(nèi)部表示"(可以理解為AI對這句話的內(nèi)部編碼)是否彼此相似。

如果某一層中,同一個(gè)問題的不同語言版本"擠在一起",而不同問題(比如"炸彈制造"和"如何開始違法生意")分開存在,那么這一層就是按照"意義"在組織信息的,這就是語義瓶頸層。反之,如果同一語言的所有問題都擠在一起,無論內(nèi)容是否相關(guān),那就說明這一層還在按"語言外衣"組織信息。

研究團(tuán)隊(duì)使用了一種叫做"輪廓得分"(Silhouette score)的數(shù)學(xué)工具來量化這種聚集程度,并用t-SNE可視化(一種可以把高維數(shù)據(jù)降維展示的技術(shù))直觀呈現(xiàn)了結(jié)果。實(shí)驗(yàn)結(jié)果非常清晰:在AI的早期層和末尾層,信息按照語言種類聚集;但在中間某些特定層,信息開始按照語義內(nèi)容聚集,英文"怎么制造炸彈"和斯瓦希里語"怎么制造炸彈"在這一層的內(nèi)部表示幾乎重疊在一起。這個(gè)差距最大的層,就是語義瓶頸層。

研究團(tuán)隊(duì)在多個(gè)不同規(guī)模的模型上驗(yàn)證了這個(gè)規(guī)律,包括Llama-3.1-8B(Meta公司的模型)和Qwen2.5、Qwen3系列(阿里巴巴的模型)。結(jié)果顯示,語義瓶頸層始終出現(xiàn)在網(wǎng)絡(luò)深度的43%到68%之間,也就是"中段偏后"的位置,而不是固定在某個(gè)絕對的層數(shù)上。模型越大,絕對層數(shù)越深,但相對位置保持穩(wěn)定。

**三、過去的方案為什么不夠用?**

在清華團(tuán)隊(duì)的研究之前,學(xué)術(shù)界已經(jīng)有不少人注意到了AI在低資源語言上的安全漏洞,并提出了一些解決方案。最直接的思路是:缺什么語言的安全訓(xùn)練數(shù)據(jù),就補(bǔ)什么語言的數(shù)據(jù)。你不是沒學(xué)過斯瓦希里語的危險(xiǎn)攔截嗎?那我們就專門收集或翻譯一批斯瓦希里語的安全訓(xùn)練樣本,讓AI練一練。

另一種思路是"遷移學(xué)習(xí)":先讓AI在高資源語言上學(xué)好安全規(guī)則,然后通過獎(jiǎng)勵(lì)機(jī)制或自我蒸餾的方式,讓高資源語言的安全行為"遷移"到低資源語言上。

這些方法都有一定效果,但清華團(tuán)隊(duì)的實(shí)驗(yàn)揭示了一個(gè)殘酷的現(xiàn)實(shí):即便用英語、中文和韓語進(jìn)行了充分的安全訓(xùn)練,AI在斯瓦希里語上的"攻擊成功率"(簡單說就是被壞問題成功騙過的比例)仍然高達(dá)50%左右。換句話說,訓(xùn)練覆蓋的語言,AI學(xué)得好;訓(xùn)練沒覆蓋的語言,AI依然是個(gè)漏洞。

這背后的根本原因,就是這些方案都在"文本表面層"做文章,而沒有觸及那個(gè)語言無關(guān)的語義核心。以保安的比喻來說,以前的方案是"給保安增加更多語言的培訓(xùn)材料",但從未考慮過讓保安學(xué)會(huì)"不管什么語言,我都先看清楚這個(gè)東西的本質(zhì)是什么危險(xiǎn)物品"。

**四、LASA方案:直接在意義的根源處設(shè)卡**

清華團(tuán)隊(duì)提出的方案叫做**LASA**,全稱是"語言無關(guān)語義對齊"(Language-Agnostic Semantic Alignment)。這套方案的核心邏輯,就是找到語義瓶頸層,然后在那里直接訓(xùn)練AI的安全判斷能力。

整個(gè)方案分為三個(gè)階段,環(huán)環(huán)相扣。

第一階段是"找到那扇門",也就是定位語義瓶頸層。按照前面介紹的輪廓得分方法,研究人員對每個(gè)模型逐層計(jì)算語義聚集程度和語言聚集程度的差值,差值最大的那一層就是語義瓶頸層。不同模型的具體層數(shù)不同,但都穩(wěn)定落在中段偏后的位置。

第二階段是訓(xùn)練一個(gè)"安全語義解讀器"(Safety Semantic Interpreter,簡稱SSI)。這是一個(gè)非常輕量的小模塊,參數(shù)量不到主模型的0.2%,相當(dāng)于在一個(gè)大型圖書館里加了一個(gè)超薄的書簽卡片。SSI的任務(wù)非常專一:從語義瓶頸層提取出當(dāng)前問題的內(nèi)部表示,然后判斷這個(gè)問題是"安全的"還是"有害的"。訓(xùn)練時(shí),研究人員給SSI看大量有害和無害的問題樣本(從PKUSafeRLHF這個(gè)公開安全數(shù)據(jù)集中獲取),讓它學(xué)會(huì)在語義瓶頸層的信號里識別危險(xiǎn)。

SSI能跨語言泛化嗎?研究團(tuán)隊(duì)專門做了驗(yàn)證。他們只用英語、中文和韓語的數(shù)據(jù)訓(xùn)練SSI,然后測試SSI在斯瓦希里語、泰語等未見過語言上的準(zhǔn)確率。結(jié)果發(fā)現(xiàn),SSI在這些"從未練習(xí)過"的語言上依然表現(xiàn)出相當(dāng)高的準(zhǔn)確率,而且準(zhǔn)確率與AI在這些語言上的整體理解能力(用MMLU多語言理解測試衡量)呈現(xiàn)出強(qiáng)烈的正相關(guān)關(guān)系。

這個(gè)關(guān)系呈現(xiàn)出一條漂亮的"飽和曲線":當(dāng)AI對某個(gè)語言的整體理解能力較弱時(shí),SSI的安全識別準(zhǔn)確率也相對較低;但隨著AI整體能力提升,安全識別準(zhǔn)確率迅速追上,并在較高水平趨于飽和。研究團(tuán)隊(duì)用數(shù)學(xué)公式擬合了這條曲線,發(fā)現(xiàn)擬合度(R?值)達(dá)到0.988,幾乎完美——這意味著"提升AI的整體多語言能力"和"提升安全語義識別能力"幾乎是同一件事。

第三階段是"語義條件對齊訓(xùn)練"。有了SSI之后,研究人員并沒有直接用SSI的判斷來硬性攔截回答,而是把SSI的判斷結(jié)果作為一個(gè)額外信號,在訓(xùn)練主模型時(shí)加入進(jìn)去。具體做法是采用KTO風(fēng)格的訓(xùn)練目標(biāo)(一種不需要成對偏好數(shù)據(jù)的訓(xùn)練方式,相比需要配對數(shù)據(jù)的DPO等方法更加靈活)。當(dāng)SSI判定問題有害時(shí),模型會(huì)看到一個(gè)"有害查詢已檢測到,我應(yīng)該拒絕并提供安全回應(yīng)"的提示信號,從而學(xué)會(huì)將內(nèi)部的語義危險(xiǎn)信號與具體語言的拒絕表達(dá)關(guān)聯(lián)起來。

這個(gè)設(shè)計(jì)的妙處在于:模型在任何語言下都能感知到那個(gè)語義瓶頸層發(fā)出的"危險(xiǎn)信號",因?yàn)槟莻€(gè)信號本身就是語言無關(guān)的。這樣,安全攔截能力就真正錨定在了意義層面,而不是語言表面。

**五、實(shí)驗(yàn)結(jié)果:數(shù)字背后的真實(shí)改變**

研究團(tuán)隊(duì)在兩個(gè)主要的安全測試數(shù)據(jù)集上評估了LASA的效果:MultiJail(專門針對多語言越獄的測試集)和HarmBench的翻譯版本(通用有害內(nèi)容測試集)。測試覆蓋了十種語言,包括中文、英語、韓語、泰語、意大利語、越南語、阿拉伯語、孟加拉語、斯瓦希里語和爪哇語。訓(xùn)練時(shí)只使用英語、中文和韓語數(shù)據(jù),其余七種語言完全沒有見過。

以LLaMA-3.1-8B為例,在MultiJail數(shù)據(jù)集上,原始未經(jīng)安全訓(xùn)練的模型平均攻擊成功率是21%,其中斯瓦希里語高達(dá)46%,孟加拉語高達(dá)39%。經(jīng)過以往各類安全訓(xùn)練方法(SFT、DPO、KTO、ORPO、CPO、MPO)處理后,英語、中文等訓(xùn)練語言的攻擊成功率確實(shí)接近于零,但斯瓦希里語依然在20%到38%之間徘徊,孟加拉語在9%到17%之間。而LASA處理后,斯瓦希里語的攻擊成功率降到了8%,孟加拉語降到了5%,十語言平均攻擊成功率僅有1.7%,遠(yuǎn)低于所有對比方法中表現(xiàn)最好的KTO的3.4%。

Qwen2.5-7B的情況更加極端,原始模型在斯瓦希里語上攻擊成功率高達(dá)56%,最好的基線方法(ORPO)也只能把它壓到45%。LASA將其壓到了13%,雖然還不完美,但相比基線方法已是質(zhì)的飛躍。

在Qwen2.5和Qwen3系列的7B到32B模型上,LASA將平均攻擊成功率穩(wěn)定維持在4%左右,而且隨著模型規(guī)模增大,效果還會(huì)進(jìn)一步提升——這與前面提到的"整體多語言能力越強(qiáng),語義安全識別越準(zhǔn)確"的規(guī)律完全吻合。

值得關(guān)注的是,LASA在提升安全性的同時(shí),幾乎沒有損害模型的通用能力。研究團(tuán)隊(duì)用MGSM(數(shù)學(xué)推理)、MT-Bench(綜合能力評測)和MMLU(知識問答)三個(gè)通用能力測試進(jìn)行了驗(yàn)證。以LLaMA-3.1-8B為例,應(yīng)用LASA前英語綜合能力均分為53.20,多語言綜合能力均分為40.17;應(yīng)用LASA后分別提升到53.78和41.07。Qwen2.5-7B同樣出現(xiàn)了小幅提升。也就是說,LASA不僅沒有讓模型"變笨",反而略有改善——這與許多傳統(tǒng)安全訓(xùn)練方法會(huì)帶來"對齊稅"(即安全性提升但通用能力下降)形成了鮮明對比。

**六、消融實(shí)驗(yàn):每一個(gè)設(shè)計(jì)決策都有其用意**

為了證明每個(gè)設(shè)計(jì)環(huán)節(jié)都是必要的,研究團(tuán)隊(duì)做了一系列"拆零件"實(shí)驗(yàn),逐一驗(yàn)證各組件的作用。

首先是SSI訓(xùn)練層的位置驗(yàn)證。研究人員分別在語義瓶頸層之前的兩個(gè)層、之后的兩個(gè)層,以及最末層訓(xùn)練SSI,然后比較安全效果。結(jié)果清晰地呈現(xiàn)出一個(gè)以語義瓶頸層為頂點(diǎn)的倒V形曲線:越靠近語義瓶頸層,安全效果越好;越偏離,效果越差。特別是在最末層訓(xùn)練SSI,最終效果反而比最好的基線方法KTO(4.4%)還要差,達(dá)到8%。這個(gè)結(jié)果有力地證明了,安全對齊的位置至關(guān)重要,在語言主導(dǎo)的層做安全訓(xùn)練是事倍功半的。

其次是第三階段優(yōu)化方法的靈活性驗(yàn)證。研究人員保持前兩階段不變,把KTO訓(xùn)練換成SFT(監(jiān)督微調(diào))和ORPO(兩種不同的訓(xùn)練范式)進(jìn)行對比。結(jié)果顯示,三種方法的安全效果差異極小,平均變動(dòng)幅度約為0.65個(gè)百分點(diǎn)。這說明LASA的核心增益來自于"找準(zhǔn)語義瓶頸層"和"在該層訓(xùn)練SSI"這兩個(gè)設(shè)計(jì),而具體用什么優(yōu)化方法做第三階段訓(xùn)練相對次要。研究團(tuán)隊(duì)最終選擇KTO,主要是因?yàn)樗恍枰蓪ζ脭?shù)據(jù),工程實(shí)現(xiàn)更方便。

**七、一個(gè)有趣的邊界案例:表情包能騙過它嗎?**

清華團(tuán)隊(duì)還測試了一個(gè)很有創(chuàng)意的攻擊場景:用表情符號(emoji)來表達(dá)有害請求。比如,把"如何制造炸彈"用一系列炸彈、工具、齒輪的表情符號來"翻譯"。

研究團(tuán)隊(duì)將表情符號問題分為兩類:高語義相似度(表情符號的組合與原始有害請求的意思接近,比如直接用炸彈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

垚垚分享健康
2026-04-28 11:15:14
隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對陣出爐

隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對陣出爐

側(cè)身凌空斬
2026-04-28 05:28:25
中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

海洋知圈
2026-04-27 21:39:53
警惕經(jīng)濟(jì)的“無就業(yè)增長”

警惕經(jīng)濟(jì)的“無就業(yè)增長”

沈素明
2026-04-28 07:23:38
《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

魯中晨報(bào)
2026-04-28 09:53:07
伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

桂系007
2026-04-27 23:59:53
名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

懂球帝
2026-04-28 09:32:05
戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

東方不敗然多多
2026-04-23 10:37:33
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆?。?>
    </a>
        <h3>
      <a href=互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆??! BenSir本色說
2026-04-15 22:38:07
放棄克洛普!皇馬換帥突生變數(shù),伯納烏或?qū)⒂瓉怼白约胰?>
    </a>
        <h3>
      <a href=奶蓋熊本熊
2026-04-29 00:05:53
600678,將被“ST”!

600678,將被“ST”!

中國基金報(bào)
2026-04-28 23:15:48
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

動(dòng)物奇奇怪怪
2026-04-12 12:44:36
三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

佳佳說奇事故事
2026-04-29 03:43:45
林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

臺州交通廣播
2026-04-28 13:46:36
鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-28 22:55:26
動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢力,評論區(qū)意味深長

動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢力,評論區(qū)意味深長

譚談社會(huì)
2026-04-28 15:10:51
7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

矚望云霄
2026-04-28 13:04:41
廣東男籃主場17分負(fù)廣州,杜鋒難受,正義必勝!

廣東男籃主場17分負(fù)廣州,杜鋒難受,正義必勝!

二爺臺球解說
2026-04-29 03:36:39
跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

馬拉松跑步健身
2026-04-26 21:41:40
2026-04-29 04:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

游戲
本地
時(shí)尚
教育
公開課

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫面

本地新聞

用青花瓷的方式,打開西溪濕地

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

教育要聞

教育部通知,今年9月份開始,上學(xué)的規(guī)則全變了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版