国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊免費(fèi)郵箱

注冊VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

當(dāng)AI模型"學(xué)壞了"或"變脆了"，我們?nèi)绾翁崆爸溃?/h1>
2026-04-28 17:30:59　來源: 科技行者天津舉報(bào)

0

分享至

用微信掃碼二維碼

分享至好友和朋友圈

這項(xiàng)由獨(dú)立研究者完成的研究以預(yù)印本形式發(fā)布于2026年4月，論文編號為arXiv:2604.17698，感興趣的讀者可通過該編號在arXiv平臺查閱完整論文。
部署一個(gè)AI語言模型，就像把一名新員工送上崗。在上崗之前，你想知道他能不能按照你的指令行事；上崗之后，你還要持續(xù)觀察他有沒有在悄悄"變質(zhì)"。這兩件事聽起來是兩個(gè)完全不同的管理問題，但這項(xiàng)研究的核心發(fā)現(xiàn)是：它們其實(shí)根植于同一個(gè)問題——這個(gè)模型內(nèi)部的"空間結(jié)構(gòu)"到底有多穩(wěn)固。
研究者將這套方法命名為"Shesha"（取自印度神話中支撐宇宙的蛇神，象征結(jié)構(gòu)與穩(wěn)定性），并提出了有監(jiān)督和無監(jiān)督兩個(gè)變體，分別針對上崗前的可控性預(yù)測和上崗后的偏移監(jiān)控。這套框架在橫跨數(shù)十個(gè)模型、數(shù)百個(gè)實(shí)驗(yàn)條件的測試中展現(xiàn)出遠(yuǎn)超現(xiàn)有方法的表現(xiàn)。
一、先把問題講清楚：模型為什么會"變脆"或"漂移"
要理解這項(xiàng)研究，先得理解一個(gè)關(guān)鍵的背景：現(xiàn)代AI語言模型在內(nèi)部是用高維"空間"來理解語言的。每一段話、每一個(gè)概念，在模型眼中都是這個(gè)空間里的一個(gè)"點(diǎn)"。意思相近的句子，這些點(diǎn)彼此靠近；意思相反的句子，這些點(diǎn)彼此遠(yuǎn)離。
研究人員發(fā)現(xiàn)，可以通過直接操控這個(gè)空間來"操控"模型的行為。比如，找到代表"積極情緒"的方向，然后把模型的內(nèi)部狀態(tài)沿著這個(gè)方向推一推，模型就會更傾向于輸出積極的內(nèi)容。這種技術(shù)被稱為"向量引導(dǎo)"或"表示工程"，是目前AI可控性研究的前沿方向。
然而，這里有一個(gè)隱藏的陷阱。并不是所有模型都能被這樣"引導(dǎo)"。有些模型的內(nèi)部空間結(jié)構(gòu)非常穩(wěn)固，你輕輕推一下，整個(gè)結(jié)構(gòu)如磐石般紋絲不動，但方向上發(fā)生了預(yù)期的改變；另一些模型的內(nèi)部空間則像一堆散沙，你一推就散架了，完全無法實(shí)現(xiàn)可控的行為調(diào)整。更麻煩的是，從外部的分類準(zhǔn)確率來看，這兩種模型可能表現(xiàn)得一模一樣——你根本看不出誰"脆"誰"穩(wěn)"。
與此同時(shí)，還有另一個(gè)問題：模型經(jīng)過二次訓(xùn)練（比如通過人類反饋強(qiáng)化學(xué)習(xí)，也就是RLHF，或者指令微調(diào)）之后，內(nèi)部空間結(jié)構(gòu)會發(fā)生變化。這種變化有時(shí)候是有益的調(diào)整，有時(shí)候卻是危險(xiǎn)的"漂移"——模型的內(nèi)部世界已經(jīng)悄悄重組，但表面上的任務(wù)表現(xiàn)還沒來得及崩塌。等到外部指標(biāo)終于下降的時(shí)候，問題往往已經(jīng)積重難返。
這就是這項(xiàng)研究試圖解決的兩個(gè)核心問題：第一，在上崗之前，如何判斷一個(gè)模型能不能被可靠地引導(dǎo)？第二，模型上崗之后，如何盡早發(fā)現(xiàn)它的內(nèi)部結(jié)構(gòu)正在悄悄"漂移"？
二、理解"幾何穩(wěn)定性"：用房子的結(jié)構(gòu)來打比方
整個(gè)研究框架的核心概念是"幾何穩(wěn)定性"，這個(gè)詞聽起來很抽象，但本質(zhì)上是在問一個(gè)非常直覺化的問題：這棟房子的結(jié)構(gòu)，從不同角度看都是一致的嗎？
具體來說，研究者關(guān)注的是模型內(nèi)部空間里，任意兩個(gè)點(diǎn)之間的"距離關(guān)系"。如果把模型對一批文本的理解看作是在一張地圖上標(biāo)注點(diǎn)位，那么這張地圖里，每兩個(gè)點(diǎn)之間都有一個(gè)距離。"幾何穩(wěn)定性"問的就是：如果我遮住這張地圖的一半信息，用剩下一半重新畫一張地圖，這兩張地圖上的距離關(guān)系還一致嗎？
一致性越高，說明這個(gè)空間結(jié)構(gòu)越穩(wěn)固——信息被冗余地、分散地編碼在各個(gè)維度里，任何一部分的缺失都不會導(dǎo)致整體結(jié)構(gòu)崩塌。一致性越低，說明這個(gè)空間結(jié)構(gòu)越脆弱——關(guān)鍵信息只集中在少數(shù)幾個(gè)維度，稍有擾動就會面目全非。
研究者把這種測量方式稱為"特征分割版Shesha"（SheshaFS）：把模型的特征維度隨機(jī)分成兩半，分別計(jì)算各自的"點(diǎn)對點(diǎn)距離矩陣"（也就是那張"距離地圖"），然后看這兩張地圖的相關(guān)性有多高。這個(gè)過程會重復(fù)30次取平均，以獲得穩(wěn)定的估計(jì)。這是無監(jiān)督的版本，不需要任何標(biāo)簽信息。
而有監(jiān)督版本的Shesha則更進(jìn)一步，它不僅問"這張地圖內(nèi)部一致嗎"，還問"這張地圖和任務(wù)需要的理想地圖一致嗎"。研究者設(shè)計(jì)了四種有監(jiān)督變體，分別從不同角度衡量模型的內(nèi)部空間結(jié)構(gòu)與特定任務(wù)（比如情感分類、語義推理）之間的對齊程度。
第一種直接將模型的距離矩陣與按照標(biāo)簽構(gòu)建的"理想距離矩陣"進(jìn)行相關(guān)性計(jì)算，衡量模型的空間結(jié)構(gòu)在多大程度上忠實(shí)地反映了任務(wù)分類。第二種則采用方差比率：計(jì)算類別間的變異占總變異的比例，本質(zhì)上是問"這批數(shù)據(jù)里，類別差異能解釋多少整體差異"。第三種在距離空間中操作，比較類別間的平均距離和類別內(nèi)的平均距離，類似于統(tǒng)計(jì)學(xué)中的費(fèi)舍爾判別比，但操作對象是點(diǎn)對點(diǎn)距離而非投影方差。第四種則通過反復(fù)重采樣數(shù)據(jù)，看每次得到的"最優(yōu)分類方向"是否保持穩(wěn)定，穩(wěn)定性高意味著分類結(jié)構(gòu)不是偶然產(chǎn)生的，而是深植于模型的幾何結(jié)構(gòu)中。
三、上崗前的考核：幾何穩(wěn)定性能預(yù)測模型能不能被引導(dǎo)嗎
研究者在三個(gè)不同復(fù)雜度的任務(wù)上測試了這套方法。第一個(gè)是人工合成的情感數(shù)據(jù)集，用組合式語法生成了1000個(gè)情感色彩鮮明的句子，設(shè)計(jì)上刻意避免詞匯記憶效應(yīng)；第二個(gè)是經(jīng)典的SST-2二分類情感數(shù)據(jù)集；第三個(gè)是更難的MNLI三分類自然語言推理數(shù)據(jù)集。模型范圍覆蓋了69個(gè)（合成任務(wù)）或35個(gè)（真實(shí)任務(wù)）主流句子嵌入模型，橫跨MiniLM、DistilBERT、MPNet、BERT、RoBERTa、DeBERTa、E5、BGE、GTE、UAE、SimCSE等11個(gè)架構(gòu)家族。
實(shí)驗(yàn)設(shè)計(jì)非常嚴(yán)謹(jǐn)：每次實(shí)驗(yàn)將數(shù)據(jù)嚴(yán)格分為A、B兩組，A組用于計(jì)算幾何穩(wěn)定性指標(biāo)，B組用于實(shí)際測試引導(dǎo)效果，確保兩組之間完全沒有信息泄漏。測試過程中，研究者從B組數(shù)據(jù)的訓(xùn)練子集學(xué)習(xí)一個(gè)邏輯回歸探針，提取其權(quán)重向量作為"引導(dǎo)方向"，然后沿著這個(gè)方向?qū)δＰ偷膬?nèi)部表示進(jìn)行不同幅度的推移，記錄測試準(zhǔn)確率的最大下降幅度作為"引導(dǎo)效果"的度量。整個(gè)流程重復(fù)15個(gè)隨機(jī)種子，以確保結(jié)果的穩(wěn)定性。
結(jié)果令人印象深刻。有監(jiān)督版Shesha與引導(dǎo)效果之間的斯皮爾曼相關(guān)系數(shù)，在合成任務(wù)上達(dá)到0.894（p值遠(yuǎn)小于10的負(fù)24次方，69個(gè)模型），在SST-2上達(dá)到0.962（p值遠(yuǎn)小于10的負(fù)20次方，35個(gè)模型），在MNLI上達(dá)到0.974（p值遠(yuǎn)小于10的負(fù)22次方，35個(gè)模型）。換句話說，只需要在A組數(shù)據(jù)上計(jì)算這個(gè)幾何穩(wěn)定性指標(biāo)，就能以接近完美的精度預(yù)測這個(gè)模型在B組數(shù)據(jù)上能不能被有效引導(dǎo)——完全不需要實(shí)際嘗試任何引導(dǎo)操作。
打個(gè)比方：一個(gè)教室里的學(xué)生按照成績高低坐成兩排（類別可分性很好），但如果每次考試結(jié)果都會導(dǎo)致座位完全重排（幾何穩(wěn)定性很低），那么你根據(jù)今天的座位來預(yù)測明天的行為就會完全失效。類別可分性告訴你今天座位分得開，但幾何穩(wěn)定性才告訴你這個(gè)座位安排明天還在不在。
負(fù)面控制實(shí)驗(yàn)進(jìn)一步確認(rèn)了這個(gè)結(jié)論的可靠性。當(dāng)研究者把標(biāo)簽隨機(jī)打亂再計(jì)算有監(jiān)督Shesha時(shí)，指標(biāo)直接崩塌到接近零（-0.001），遠(yuǎn)比隨機(jī)預(yù)期的更低，表明該指標(biāo)確實(shí)在捕捉任務(wù)相關(guān)的幾何信息，而非某種無關(guān)的幾何噪聲。此外，與隨機(jī)方向相比，真正的引導(dǎo)方向產(chǎn)生的效果在合成任務(wù)上是隨機(jī)方向的10.8倍，SST-2上是2.7倍，MNLI上是1.3倍。邊際在縮小，但Shesha始終能區(qū)分哪些模型在這個(gè)縮小的邊際內(nèi)仍然保持穩(wěn)定。
在模型排名上，有監(jiān)督對比學(xué)習(xí)訓(xùn)練的模型（BGE、E5、GTE家族的大型版本）幾乎壟斷了最可引導(dǎo)的前列，而無監(jiān)督版本（unsup-SimCSE、E5-base-unsupervised）和以檢索為目標(biāo)訓(xùn)練的模型（multi-qa系列）則排在末尾。檢索模型尤為值得注意——它們往往有不錯的分類準(zhǔn)確率，但在引導(dǎo)測試中表現(xiàn)糟糕，再次印證了"可分"不等于"可控"。
四、一個(gè)關(guān)鍵的反差：無監(jiān)督穩(wěn)定性為何在真實(shí)任務(wù)上徹底失效
這項(xiàng)研究最值得細(xì)細(xì)品味的發(fā)現(xiàn)，是一個(gè)看似矛盾的現(xiàn)象：無監(jiān)督版的Shesha（也就是不需要標(biāo)簽的版本）在合成任務(wù)上與引導(dǎo)效果有相當(dāng)高的相關(guān)性（0.77），但一到真實(shí)的NLP任務(wù)，這個(gè)相關(guān)性就直接崩塌——SST-2上只有0.10，MNLI上只有0.35，統(tǒng)計(jì)學(xué)上均不顯著。控制了類別可分性之后，殘余相關(guān)性更是在所有設(shè)置下都低于0.10。
這個(gè)現(xiàn)象的背后有非常清晰的邏輯解釋。在合成數(shù)據(jù)集里，研究者刻意用組合語法生成句子，使得數(shù)據(jù)空間的主要變化軸恰好與情感極性對齊。在這種人工構(gòu)造的理想情況下，"內(nèi)部結(jié)構(gòu)一致"和"任務(wù)對齊"高度重合，所以無監(jiān)督穩(wěn)定性碰巧能預(yù)測引導(dǎo)效果。
但在真實(shí)的自然語言數(shù)據(jù)里，情況完全不同。一個(gè)模型的內(nèi)部空間里同時(shí)編碼了無數(shù)種信息——語法結(jié)構(gòu)、語義主題、情感色彩、語體風(fēng)格、句法依存關(guān)系……任務(wù)相關(guān)的信息（比如情感）只占據(jù)這個(gè)巨大空間的一個(gè)小小角落。一個(gè)模型可以在整體上結(jié)構(gòu)非常穩(wěn)固，但專門負(fù)責(zé)情感的那個(gè)小角落卻極其脆弱；反過來，一個(gè)整體結(jié)構(gòu)略顯松散的模型，恰好在情感這個(gè)維度上組織得非常清晰有序。
無監(jiān)督穩(wěn)定性測量的是整個(gè)空間的整體一致性，它根本分不清哪個(gè)部分的穩(wěn)固與任務(wù)相關(guān)。有監(jiān)督穩(wěn)定性則直接盯著任務(wù)相關(guān)的那個(gè)角落來測量，自然能準(zhǔn)確預(yù)測引導(dǎo)效果。
反過來，當(dāng)問題變成"模型整體有沒有發(fā)生漂移"的時(shí)候，無監(jiān)督穩(wěn)定性恰恰最合適，因?yàn)槲覀冃枰恼且粋€(gè)能感知整體結(jié)構(gòu)變化的探測器，而不需要局限于某個(gè)特定任務(wù)的視角。這種反差不是一個(gè)缺陷，而是這套框架最核心的設(shè)計(jì)邏輯：兩個(gè)變體各有各的適用范圍，恰好形成互補(bǔ)。
五、上崗后的監(jiān)控：無監(jiān)督Shesha如何比現(xiàn)有工具更早、更準(zhǔn)地發(fā)現(xiàn)漂移
在漂移檢測實(shí)驗(yàn)中，研究者構(gòu)建了一套全面的基準(zhǔn)，覆蓋四類實(shí)驗(yàn)場景，分別考察漂移檢測能力的不同側(cè)面。
第一個(gè)場景直接對比真實(shí)模型經(jīng)過指令微調(diào)前后的表示變化。研究者選取了23對"基礎(chǔ)版/指令版"模型對，橫跨Qwen、Llama、SmolLM、SmolLM2、Mistral、StableLM、Gemma、TinyLlama、Pythia、BLOOM、Falcon等11個(gè)家族，參數(shù)量從1.4億到70億不等。對每對模型，分別用四類語義不同的提示詞集合（事實(shí)性陳述、描述性文字、指令性請求、對話性內(nèi)容，每類50條）提取最后一層的平均池化表示，然后計(jì)算基礎(chǔ)版和指令版之間的幾何變化量。
結(jié)果顯示，Shesha檢測到的平均漂移為25.1%，而CKA只檢測到12.9%，比值約為1.96倍。這個(gè)差距在不同模型家族之間差異懸殊：Llama系列的差距最大，Shesha檢測到34.0%的變化，CKA只檢測到6.5%，差了整整5.23倍；而BLOOM系列的差距最小，兩者基本持平（1.14倍）。從提示詞類型來看，事實(shí)性和描述性提示詞引發(fā)的檢測差異最大（分別為2.37倍和2.28倍），指令性提示詞的差異最小（1.44倍），這暗示指令微調(diào)確實(shí)特別針對指令類輸入優(yōu)化了幾何結(jié)構(gòu)，但對其他類型的輸入產(chǎn)生了更廣泛的重組。
為什么CKA會系統(tǒng)性地低估這些變化？原因在于CKA這個(gè)工具的設(shè)計(jì)原理。CKA計(jì)算兩個(gè)表示空間的相似度時(shí)，對主要成分（也就是"最重要的方向"）給予很高的權(quán)重，對次要成分幾乎忽略不計(jì)。這個(gè)設(shè)計(jì)在比較兩個(gè)模型時(shí)非常穩(wěn)健，但代價(jià)是：當(dāng)微調(diào)導(dǎo)致的變化主要發(fā)生在次要成分（也就是"光譜尾部"）時(shí)，CKA根本感知不到。Shesha使用的是秩相關(guān)，對所有距離關(guān)系平等對待，不會因?yàn)槟承┳兓l(fā)生在"不重要"的維度就視而不見。
第二個(gè)場景測試了在受控?cái)_動下三種度量方法的響應(yīng)曲線，施加的擾動包括高斯噪聲（噪聲水平從0.01到0.50逐步增加）、量化壓縮（INT8和INT4兩種精度）以及LoRA微調(diào)（秩從1到64，初始化規(guī)模從0.001到0.1）。所有指標(biāo)都隨擾動增大而單調(diào)遞增，符合預(yù)期。在高噪聲水平（標(biāo)準(zhǔn)差0.5）下，Shesha捕捉到的漂移（71%）比CKA（43%）高出約1.7倍。量化擾動的影響相對溫和，INT8導(dǎo)致的Shesha漂移只有2.1%，INT4為6.2%，但對應(yīng)的精度損失微乎其微。LoRA擾動對精度影響最大——秩64或初始化規(guī)模0.1時(shí)會導(dǎo)致5到18%的精度下降，而初始化規(guī)模從0.001增大到0.1時(shí)，Shesha檢測到的漂移從0.06%驟增至44.2%，幅度極為劇烈。
第三個(gè)場景驗(yàn)證了漂移檢測的功能預(yù)測效度。研究者對26個(gè)句子嵌入模型注入51個(gè)級別的高斯噪聲，同時(shí)測量幾何漂移和下游分類準(zhǔn)確率。三種度量方法與精度下降的斯皮爾曼相關(guān)性非常接近：Shesha為0.927，CKA為0.937，Procrustes為0.935。在15個(gè)因果語言模型上的重復(fù)實(shí)驗(yàn)同樣顯示出高度一致的結(jié)果（三種方法相關(guān)系數(shù)均在0.90以上）。這說明幾何漂移是功能退化的可靠先兆，三種工具在"預(yù)測什么"這件事上沒有差異，真正的區(qū)別在于"什么時(shí)候"以及"以多高的誤報(bào)率"檢測到。
第四個(gè)場景專門考察早期預(yù)警能力。以5%為檢測閾值，在26個(gè)模型中，Shesha率先檢測到漂移的占73%（19/26），CKA率先檢測的占0%（0/26），其余27%（7/26）兩者同時(shí)檢測到。在兩者出現(xiàn)分歧的所有情況下，Shesha都是勝者。平均檢測閾值方面，Shesha在噪聲標(biāo)準(zhǔn)差0.123時(shí)觸發(fā)警報(bào)，CKA在0.136時(shí)才觸發(fā)——這意味著Shesha平均能在功能開始退化之前，比CKA早捕捉到漂移信號。在LoRA擾動的ROC分析中，Shesha以0.990的AUC位居三種方法之首（Procrustes為0.988，CKA為0.987）；在5%假陽性率下，Shesha保持了90.2%的敏感性，而Procrustes則降至85.4%。
然而，說到Procrustes，這里有一個(gè)很有意思的權(quán)衡。Procrustes方法在絕對意義上是檢測最早的（在噪聲標(biāo)準(zhǔn)差0.040時(shí)就觸發(fā)警報(bào)），但這種超靈敏反應(yīng)是有代價(jià)的。在精度下降不到1%的"穩(wěn)定區(qū)間"里，Procrustes觸發(fā)了38.7%的誤報(bào)，而Shesha和CKA的誤報(bào)率都只有約6.5%，相差整整6倍。在最微小的擾動下（LoRA初始化規(guī)模0.001，精度變化僅約0.08%），Procrustes報(bào)告了1.50%的漂移，而Shesha只報(bào)告了0.04%，膨脹了37倍。
這種過度敏感的原因同樣是數(shù)學(xué)結(jié)構(gòu)上的。Procrustes通過最優(yōu)旋轉(zhuǎn)來對齊兩個(gè)表示空間，然后計(jì)算對齊后的殘差（Frobenius范數(shù)）。在高維空間里，哪怕只有輕微的隨機(jī)擾動，光譜尾部的大量微小噪聲累積起來，就會讓Frobenius殘差顯著膨脹——即使這些擾動對模型的實(shí)際功能毫無影響。Shesha使用的是距離關(guān)系的排名相關(guān)，輕微擾動即使改變了具體距離值，只要沒有顯著打亂距離的相對大小順序，就不會觸發(fā)警報(bào)。
由此可見，Shesha在敏感性和特異性之間找到了一個(gè)恰當(dāng)?shù)钠胶恻c(diǎn)：比CKA敏感（能更早發(fā)現(xiàn)真實(shí)漂移），又比Procrustes特異（不會對無害擾動過度反應(yīng)）。這對于生產(chǎn)環(huán)境中的持續(xù)監(jiān)控至關(guān)重要——一個(gè)不斷誤報(bào)的監(jiān)控系統(tǒng)，最終只會讓運(yùn)維人員對它失去信任，反而起到反效果。
六、兩個(gè)工具，一套哲學(xué)：部署生命周期的完整覆蓋
歸根結(jié)底，這項(xiàng)研究構(gòu)建的不僅僅是兩個(gè)單獨(dú)的工具，而是一套覆蓋模型完整部署生命周期的診斷框架。
上崗之前，給定一個(gè)模型和一批帶標(biāo)簽的校準(zhǔn)數(shù)據(jù)，運(yùn)營者可以在完全獨(dú)立的測試集上計(jì)算有監(jiān)督Shesha，得到一個(gè)"可控性預(yù)測分?jǐn)?shù)"。分?jǐn)?shù)高，意味著這個(gè)模型的幾何結(jié)構(gòu)與任務(wù)高度對齊，引導(dǎo)干預(yù)將會可靠地工作；分?jǐn)?shù)低，意味著不管分類準(zhǔn)確率看起來多好，引導(dǎo)嘗試大概率會失敗甚至適得其反。這個(gè)診斷完全不需要實(shí)際嘗試任何引導(dǎo)操作，也不需要訓(xùn)練任何探針——所需的只是幾何計(jì)算。
上崗之后，運(yùn)營者可以持續(xù)監(jiān)控?zé)o監(jiān)督Shesha，不需要任何標(biāo)簽，只需要生產(chǎn)環(huán)境中持續(xù)流入的實(shí)際數(shù)據(jù)流。一旦Shesha讀數(shù)開始異常偏離歷史基線，就說明模型的內(nèi)部幾何結(jié)構(gòu)已經(jīng)開始重組，即使下游任務(wù)表現(xiàn)還沒有明顯變化，也應(yīng)當(dāng)引起重視和調(diào)查。
這兩個(gè)變體的互補(bǔ)性不是設(shè)計(jì)上的偶然，而是幾何測量本質(zhì)的必然結(jié)果。有監(jiān)督穩(wěn)定性問的是"與任務(wù)的對齊程度"，這是一個(gè)需要外部參照（標(biāo)簽）才能回答的問題；無監(jiān)督穩(wěn)定性問的是"內(nèi)部自身的一致程度"，這是一個(gè)純粹內(nèi)稟的問題，不依賴任何外部參照。這兩個(gè)問題在邏輯上是獨(dú)立的，在實(shí)踐中也確實(shí)是獨(dú)立的——研究者在合成和真實(shí)數(shù)據(jù)上都發(fā)現(xiàn)，兩者的相關(guān)性甚至可以接近于零。正因如此，它們才構(gòu)成了真正互補(bǔ)的診斷對。
研究者還指出了一個(gè)更深層的含義：這項(xiàng)工作為所謂的"線性表示假說"提供了一個(gè)可量化的可測試版本。線性表示假說認(rèn)為，語言模型將概念編碼為激活空間中穩(wěn)定的線性方向，這是當(dāng)前所有引導(dǎo)和激活工程技術(shù)的理論基礎(chǔ)。但"穩(wěn)定"這個(gè)詞以前從來沒有被具體化、量化過。有監(jiān)督Shesha恰好填補(bǔ)了這個(gè)空缺：它把"線性結(jié)構(gòu)是否穩(wěn)固"這個(gè)隱含假設(shè)變成了一個(gè)可以在部署前測量的具體數(shù)值，而不是一個(gè)必須在實(shí)驗(yàn)失敗后才能發(fā)現(xiàn)的暗坑。
當(dāng)然，研究者也坦誠地列出了這套方法目前的局限性。現(xiàn)有的引導(dǎo)實(shí)驗(yàn)測試的是句子嵌入模型，而非自回歸生成模型在推理時(shí)的隱層狀態(tài)，后者的擴(kuò)展是重要的后續(xù)工作。漂移分析使用的是固定的提示詞集合，而非模型訓(xùn)練時(shí)的實(shí)際數(shù)據(jù)分布。有監(jiān)督版本仍然需要標(biāo)簽來計(jì)算指標(biāo)，盡管不需要標(biāo)簽來訓(xùn)練模型。Shesha目前是全局性的度量，無法定位幾何損傷發(fā)生在哪個(gè)具體子空間或哪些網(wǎng)絡(luò)層。這些局限性也自然指向了后續(xù)研究的方向：逐層穩(wěn)定性分析、在線自適應(yīng)閾值系統(tǒng)、以及與機(jī)制可解釋性研究的交叉——如果有監(jiān)督穩(wěn)定性能識別出支持線性控制的子空間，而機(jī)制可解釋性能識別出對應(yīng)特定功能的電路，兩者的交叉可能揭示哪些電路是穩(wěn)固的、哪些是脆弱的。
說到底，判斷一個(gè)AI模型能不能被可靠控制、以及它有沒有開始悄悄變質(zhì)，一直是工業(yè)部署中缺少量化工具的兩個(gè)薄弱環(huán)節(jié)。這項(xiàng)研究提供的工具并不復(fù)雜，核心操作不過是把距離矩陣分半比較或者與標(biāo)簽矩陣相關(guān)——但它捕捉到的信息，恰恰是現(xiàn)有工具系統(tǒng)性忽視的那一部分。對于任何嚴(yán)肅對待AI可靠性的團(tuán)隊(duì)來說，這套框架提供了一套在現(xiàn)有工具鏈上可以直接疊加的補(bǔ)充診斷手段，而且實(shí)現(xiàn)成本相當(dāng)?shù)土?。讀者如有興趣進(jìn)一步探究，可以通過arXiv編號2604.17698查閱完整論文，同時(shí)研究者也在GitHub的prashantcraju/geometric-canary倉庫中開放了全部復(fù)現(xiàn)代碼。
Q&A
Q1：Shesha方法和CKA、Procrustes這些已有工具相比，核心區(qū)別是什么？
A：CKA主要關(guān)注表示空間里最"重要"的主成分方向，對次要維度的變化視而不見；Procrustes則通過最優(yōu)旋轉(zhuǎn)對齊后計(jì)算殘差，對哪怕無害的微小擾動也會過度反應(yīng)，誤報(bào)率很高。Shesha使用距離關(guān)系的排名相關(guān)，對所有點(diǎn)對點(diǎn)的距離關(guān)系平等對待，既不會像CKA那樣漏掉分散在次要維度的變化，也不會像Procrustes那樣被光譜尾部的無害噪聲誤導(dǎo)，在敏感性和特異性之間取得了更好的平衡。
Q2：有監(jiān)督Shesha和無監(jiān)督Shesha分別在什么情況下應(yīng)該用哪個(gè)？
A：有監(jiān)督Shesha需要標(biāo)簽信息，適合在模型部署之前評估它能不能被有效引導(dǎo)控制，可以作為一種"可控性預(yù)測"工具。無監(jiān)督Shesha不需要任何標(biāo)簽，適合模型上線后的持續(xù)監(jiān)控，用來檢測內(nèi)部幾何結(jié)構(gòu)有沒有發(fā)生漂移。兩者的分工非常清晰：有監(jiān)督版本回答"這個(gè)模型能不能按我的意思來"，無監(jiān)督版本回答"這個(gè)模型有沒有在悄悄變質(zhì)"。
Q3：為什么無監(jiān)督Shesha在合成數(shù)據(jù)上能預(yù)測引導(dǎo)效果，但在真實(shí)數(shù)據(jù)上就失效了？
A：在人工合成數(shù)據(jù)里，句子的主要變化方向恰好與情感極性對齊，所以整體幾何穩(wěn)定性與任務(wù)對齊性高度重合。但在真實(shí)的自然語言數(shù)據(jù)里，模型內(nèi)部空間同時(shí)編碼了語法、語義、情感、風(fēng)格等大量信息，任務(wù)相關(guān)的信息只占一個(gè)小子空間。一個(gè)模型整體結(jié)構(gòu)可能很穩(wěn)固，但情感相關(guān)的子空間卻很脆弱；反之亦然。無監(jiān)督Shesha測量的是整體穩(wěn)定性，無法區(qū)分哪部分與任務(wù)相關(guān)，自然無法預(yù)測引導(dǎo)效果。有監(jiān)督Shesha直接比對模型的距離結(jié)構(gòu)與任務(wù)標(biāo)簽結(jié)構(gòu)的對齊程度，因此不受這個(gè)問題困擾。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

辭任杭州市市長后，姚高員已任浙江省政府黨組成員

澎湃新聞 2026-04-28 14:24:00
159 跟貼 159

網(wǎng)傳深圳東部華僑城結(jié)業(yè)、閉園？最新回應(yīng)：不實(shí)

魯中晨報(bào) 2026-04-28 17:08:10
294 跟貼 294

上海迪士尼回應(yīng)游客勸阻吸煙被打：園區(qū)沒有禁煙；被打男子發(fā)聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229

南都報(bào)道后，區(qū)長現(xiàn)場督辦！廣州天河這條路“驚心”變順心

南方都市報(bào) 2026-04-28 15:12:23
192 跟貼 192

又一省份推動帶薪休假落地

澎湃新聞 2026-04-28 11:11:03
102 跟貼 102

31省份去年常住人口數(shù)據(jù)公布

第一財(cái)經(jīng)資訊 2026-04-28 18:58:16
693 跟貼 693

4秒58！上海小將趙一程創(chuàng)造新的世界紀(jì)錄！

澎湃新聞 2026-04-28 15:13:06
974 跟貼 974

爆冷！廣東隊(duì)季后賽首秀主場不敵廣州龍獅，下輪將迎背水一戰(zhàn)

南方都市報(bào) 2026-04-28 22:37:07
16 跟貼 16

微信緊急公告：立即掛斷，不要回答！

第一財(cái)經(jīng)資訊 2026-04-28 10:33:04
506 跟貼 506

比亞迪：旗下部分車型選裝天神之眼B輔助駕駛激光版的價(jià)格將從9900元上調(diào)為12000元

界面新聞 2026-04-28 15:38:04
794 跟貼 794

文旅部集中整治景區(qū)擺渡車，點(diǎn)名龍虎山、長白山、稻城亞丁等

南方都市報(bào) 2026-04-27 16:21:12
2131 跟貼 2131

撒貝寧獲全國五一勞動獎?wù)?/a>

閃電新聞 2026-04-28 16:25:55
202 跟貼 202

深圳“電雞”治理別只靠勸！專家：人海戰(zhàn)術(shù)撐不起長效秩序

南方都市報(bào) 2026-04-28 07:00:37
471 跟貼 471

80多萬買的新房未交房竟成工人臨時(shí)宿舍，業(yè)主要求減免物業(yè)費(fèi)遭開發(fā)商拒絕相關(guān)部門介入?yún)f(xié)調(diào)

紅星新聞 2026-04-28 19:46:29
170 跟貼 170

經(jīng)濟(jì)學(xué)家張斌：經(jīng)濟(jì)仍處于復(fù)蘇早期階段，政策不能“等等看”

南方都市報(bào) 2026-04-28 12:23:41
62 跟貼 62

今年“五一”假期小客車上高速繼續(xù)免收通行費(fèi)

界面新聞 2026-04-28 14:05:28
70 跟貼 70

哲思 | 人生三修：靜心，穩(wěn)事，柔行

人民論壇 2026-04-28 21:18:06
11 跟貼 11

小區(qū)地下車庫新增23道閘口？業(yè)主懵了，物業(yè)無奈，網(wǎng)友吵翻

新浪財(cái)經(jīng) 2026-04-29 04:06:39
0 跟貼 0

孕婦買水果被咒罵后引產(chǎn):別讓擺拍造假，耗盡世間最后一點(diǎn)善意

胡言炫語 2026-04-29 03:23:07
0 跟貼 0

斯諾克世錦賽：趙心童怒砍1分！墨菲連贏4局反超，霍金斯首節(jié)5-3
劉姚堯的文字城堡
2026-04-28 20:10:11

退休人員請注意！工齡41年及以上的，可以享受幾大福利，來看看
趣味萌寵的日常
2026-04-27 12:44:15

A股：不出意外的話！明天（4月29日）的市場會這樣走
風(fēng)風(fēng)順
2026-04-29 02:05:03

特斯拉把充電樁砍到5.8折，圖什么？
野生運(yùn)營
2026-04-28 16:20:53

勇士隊(duì)格林呼吁所有球館都應(yīng)提高球員待遇標(biāo)準(zhǔn)，而這卻被忽視了
好火子
2026-04-28 23:58:05

150萬人香港研究：低劑量他汀吃10年，整體癌癥風(fēng)險(xiǎn)降低57%？
醫(yī)學(xué)科普匯
2026-04-28 21:55:07

陳道明：人生走到最后，子女和老伴都不是最親的，最親的只有....
喬話
2026-04-19 22:13:11

龔雪現(xiàn)狀：和丈夫在上海生活，73歲仍然很美，唯一女兒在美國發(fā)展
素衣讀史
2026-04-28 20:06:40

10億都救不了一命！京東副總裁蔡磊，生命進(jìn)入倒計(jì)時(shí)
聽風(fēng)喃
2026-04-06 11:16:04

1985年，國安叛徒藏身南美，中國6名兵王萬里鋤奸，F(xiàn)BI顏面盡失
干史人
2026-04-14 21:10:03

白宮記協(xié)首位華裔主席：晚宴槍響后，她的狼狽撕碎了所有光環(huán)
十為先生
2026-04-28 17:01:15

美國能源部長：霍爾木茲海峽無需清除所有水雷也可以開放
環(huán)球網(wǎng)資訊
2026-04-28 21:47:34

德天空：布萊頓3500萬歐報(bào)價(jià)馬拉遭拒，為他標(biāo)價(jià)5000萬歐元
懂球帝
2026-04-28 18:54:08

阿聯(lián)酋突然退出歐佩克，猛將沙特一軍，間接助了特朗普一臂之力
聽風(fēng)50
2026-04-28 23:07:14

突然宣布：全網(wǎng)閉店！網(wǎng)友：再見了，國貨之光！
電影最TOP
2026-04-27 21:44:41

兩名非洲務(wù)工男子趕回國航班途中遇車禍身亡，遺體滯留海外50余天勞務(wù)公司：善后協(xié)議有分歧
紅星新聞
2026-04-28 21:44:27

張雪就聲援余承東引發(fā)爭議進(jìn)行回應(yīng)，稱自己不是網(wǎng)紅也不靠這吃飯
IT之家
2026-04-28 16:13:50

ChatGPT要變超級應(yīng)用，谷歌想讓AI隱形
算力游俠
2026-04-28 03:09:24

600111，一季度業(yè)績同比大增！“超級牛散”章建平出手
證券時(shí)報(bào)e公司
2026-04-28 20:59:47

強(qiáng)奸大嫂出獄后刺死見義勇為者，田永明被執(zhí)行死刑；遭強(qiáng)奸追殺女子稱不再擔(dān)心被報(bào)復(fù)，遇害者兒子：如釋重負(fù)，將去父親墓前告知結(jié)果
大風(fēng)新聞
2026-04-28 15:13:04

2026-04-29 04:43:00

科技正在如何變革商業(yè)世界

8183文章數(shù) 563關(guān)注度

往期回顧全部

科技要聞

10億周活目標(biāo)落空！傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞，一步之遙？！

娛樂要聞

蔡卓妍官宣結(jié)婚，老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會議定調(diào)，八大看點(diǎn)速覽！

汽車要聞

拒絕瘋狂套娃！現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

房產(chǎn)

手機(jī)

時(shí)尚

游戲

藝術(shù)要聞

京東浙江總部公示，99.99米高，中國第一民企落子民營大?。?/h3>

房產(chǎn)要聞

紅利爆發(fā)！海南，沖到全國人口增量第4?。?/h3>

手機(jī)要聞

三星裸眼3D屏來了，廣告牌能“跳”出來

普通女性春天穿什么好看？這些穿搭值得借鑒，自然舒適

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫面

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版