国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)AI模型"學(xué)壞了"或"變脆了",我們?nèi)绾翁崆爸溃?/h1>
0
分享至


這項(xiàng)由獨(dú)立研究者完成的研究以預(yù)印本形式發(fā)布于2026年4月,論文編號為arXiv:2604.17698,感興趣的讀者可通過該編號在arXiv平臺查閱完整論文。

部署一個(gè)AI語言模型,就像把一名新員工送上崗。在上崗之前,你想知道他能不能按照你的指令行事;上崗之后,你還要持續(xù)觀察他有沒有在悄悄"變質(zhì)"。這兩件事聽起來是兩個(gè)完全不同的管理問題,但這項(xiàng)研究的核心發(fā)現(xiàn)是:它們其實(shí)根植于同一個(gè)問題——這個(gè)模型內(nèi)部的"空間結(jié)構(gòu)"到底有多穩(wěn)固。

研究者將這套方法命名為"Shesha"(取自印度神話中支撐宇宙的蛇神,象征結(jié)構(gòu)與穩(wěn)定性),并提出了有監(jiān)督和無監(jiān)督兩個(gè)變體,分別針對上崗前的可控性預(yù)測和上崗后的偏移監(jiān)控。這套框架在橫跨數(shù)十個(gè)模型、數(shù)百個(gè)實(shí)驗(yàn)條件的測試中展現(xiàn)出遠(yuǎn)超現(xiàn)有方法的表現(xiàn)。

一、先把問題講清楚:模型為什么會"變脆"或"漂移"

要理解這項(xiàng)研究,先得理解一個(gè)關(guān)鍵的背景:現(xiàn)代AI語言模型在內(nèi)部是用高維"空間"來理解語言的。每一段話、每一個(gè)概念,在模型眼中都是這個(gè)空間里的一個(gè)"點(diǎn)"。意思相近的句子,這些點(diǎn)彼此靠近;意思相反的句子,這些點(diǎn)彼此遠(yuǎn)離。

研究人員發(fā)現(xiàn),可以通過直接操控這個(gè)空間來"操控"模型的行為。比如,找到代表"積極情緒"的方向,然后把模型的內(nèi)部狀態(tài)沿著這個(gè)方向推一推,模型就會更傾向于輸出積極的內(nèi)容。這種技術(shù)被稱為"向量引導(dǎo)"或"表示工程",是目前AI可控性研究的前沿方向。

然而,這里有一個(gè)隱藏的陷阱。并不是所有模型都能被這樣"引導(dǎo)"。有些模型的內(nèi)部空間結(jié)構(gòu)非常穩(wěn)固,你輕輕推一下,整個(gè)結(jié)構(gòu)如磐石般紋絲不動,但方向上發(fā)生了預(yù)期的改變;另一些模型的內(nèi)部空間則像一堆散沙,你一推就散架了,完全無法實(shí)現(xiàn)可控的行為調(diào)整。更麻煩的是,從外部的分類準(zhǔn)確率來看,這兩種模型可能表現(xiàn)得一模一樣——你根本看不出誰"脆"誰"穩(wěn)"。

與此同時(shí),還有另一個(gè)問題:模型經(jīng)過二次訓(xùn)練(比如通過人類反饋強(qiáng)化學(xué)習(xí),也就是RLHF,或者指令微調(diào))之后,內(nèi)部空間結(jié)構(gòu)會發(fā)生變化。這種變化有時(shí)候是有益的調(diào)整,有時(shí)候卻是危險(xiǎn)的"漂移"——模型的內(nèi)部世界已經(jīng)悄悄重組,但表面上的任務(wù)表現(xiàn)還沒來得及崩塌。等到外部指標(biāo)終于下降的時(shí)候,問題往往已經(jīng)積重難返。

這就是這項(xiàng)研究試圖解決的兩個(gè)核心問題:第一,在上崗之前,如何判斷一個(gè)模型能不能被可靠地引導(dǎo)?第二,模型上崗之后,如何盡早發(fā)現(xiàn)它的內(nèi)部結(jié)構(gòu)正在悄悄"漂移"?

二、理解"幾何穩(wěn)定性":用房子的結(jié)構(gòu)來打比方

整個(gè)研究框架的核心概念是"幾何穩(wěn)定性",這個(gè)詞聽起來很抽象,但本質(zhì)上是在問一個(gè)非常直覺化的問題:這棟房子的結(jié)構(gòu),從不同角度看都是一致的嗎?

具體來說,研究者關(guān)注的是模型內(nèi)部空間里,任意兩個(gè)點(diǎn)之間的"距離關(guān)系"。如果把模型對一批文本的理解看作是在一張地圖上標(biāo)注點(diǎn)位,那么這張地圖里,每兩個(gè)點(diǎn)之間都有一個(gè)距離。"幾何穩(wěn)定性"問的就是:如果我遮住這張地圖的一半信息,用剩下一半重新畫一張地圖,這兩張地圖上的距離關(guān)系還一致嗎?

一致性越高,說明這個(gè)空間結(jié)構(gòu)越穩(wěn)固——信息被冗余地、分散地編碼在各個(gè)維度里,任何一部分的缺失都不會導(dǎo)致整體結(jié)構(gòu)崩塌。一致性越低,說明這個(gè)空間結(jié)構(gòu)越脆弱——關(guān)鍵信息只集中在少數(shù)幾個(gè)維度,稍有擾動就會面目全非。

研究者把這種測量方式稱為"特征分割版Shesha"(SheshaFS):把模型的特征維度隨機(jī)分成兩半,分別計(jì)算各自的"點(diǎn)對點(diǎn)距離矩陣"(也就是那張"距離地圖"),然后看這兩張地圖的相關(guān)性有多高。這個(gè)過程會重復(fù)30次取平均,以獲得穩(wěn)定的估計(jì)。這是無監(jiān)督的版本,不需要任何標(biāo)簽信息。

而有監(jiān)督版本的Shesha則更進(jìn)一步,它不僅問"這張地圖內(nèi)部一致嗎",還問"這張地圖和任務(wù)需要的理想地圖一致嗎"。研究者設(shè)計(jì)了四種有監(jiān)督變體,分別從不同角度衡量模型的內(nèi)部空間結(jié)構(gòu)與特定任務(wù)(比如情感分類、語義推理)之間的對齊程度。

第一種直接將模型的距離矩陣與按照標(biāo)簽構(gòu)建的"理想距離矩陣"進(jìn)行相關(guān)性計(jì)算,衡量模型的空間結(jié)構(gòu)在多大程度上忠實(shí)地反映了任務(wù)分類。第二種則采用方差比率:計(jì)算類別間的變異占總變異的比例,本質(zhì)上是問"這批數(shù)據(jù)里,類別差異能解釋多少整體差異"。第三種在距離空間中操作,比較類別間的平均距離和類別內(nèi)的平均距離,類似于統(tǒng)計(jì)學(xué)中的費(fèi)舍爾判別比,但操作對象是點(diǎn)對點(diǎn)距離而非投影方差。第四種則通過反復(fù)重采樣數(shù)據(jù),看每次得到的"最優(yōu)分類方向"是否保持穩(wěn)定,穩(wěn)定性高意味著分類結(jié)構(gòu)不是偶然產(chǎn)生的,而是深植于模型的幾何結(jié)構(gòu)中。

三、上崗前的考核:幾何穩(wěn)定性能預(yù)測模型能不能被引導(dǎo)嗎

研究者在三個(gè)不同復(fù)雜度的任務(wù)上測試了這套方法。第一個(gè)是人工合成的情感數(shù)據(jù)集,用組合式語法生成了1000個(gè)情感色彩鮮明的句子,設(shè)計(jì)上刻意避免詞匯記憶效應(yīng);第二個(gè)是經(jīng)典的SST-2二分類情感數(shù)據(jù)集;第三個(gè)是更難的MNLI三分類自然語言推理數(shù)據(jù)集。模型范圍覆蓋了69個(gè)(合成任務(wù))或35個(gè)(真實(shí)任務(wù))主流句子嵌入模型,橫跨MiniLM、DistilBERT、MPNet、BERT、RoBERTa、DeBERTa、E5、BGE、GTE、UAE、SimCSE等11個(gè)架構(gòu)家族。

實(shí)驗(yàn)設(shè)計(jì)非常嚴(yán)謹(jǐn):每次實(shí)驗(yàn)將數(shù)據(jù)嚴(yán)格分為A、B兩組,A組用于計(jì)算幾何穩(wěn)定性指標(biāo),B組用于實(shí)際測試引導(dǎo)效果,確保兩組之間完全沒有信息泄漏。測試過程中,研究者從B組數(shù)據(jù)的訓(xùn)練子集學(xué)習(xí)一個(gè)邏輯回歸探針,提取其權(quán)重向量作為"引導(dǎo)方向",然后沿著這個(gè)方向?qū)δP偷膬?nèi)部表示進(jìn)行不同幅度的推移,記錄測試準(zhǔn)確率的最大下降幅度作為"引導(dǎo)效果"的度量。整個(gè)流程重復(fù)15個(gè)隨機(jī)種子,以確保結(jié)果的穩(wěn)定性。

結(jié)果令人印象深刻。有監(jiān)督版Shesha與引導(dǎo)效果之間的斯皮爾曼相關(guān)系數(shù),在合成任務(wù)上達(dá)到0.894(p值遠(yuǎn)小于10的負(fù)24次方,69個(gè)模型),在SST-2上達(dá)到0.962(p值遠(yuǎn)小于10的負(fù)20次方,35個(gè)模型),在MNLI上達(dá)到0.974(p值遠(yuǎn)小于10的負(fù)22次方,35個(gè)模型)。換句話說,只需要在A組數(shù)據(jù)上計(jì)算這個(gè)幾何穩(wěn)定性指標(biāo),就能以接近完美的精度預(yù)測這個(gè)模型在B組數(shù)據(jù)上能不能被有效引導(dǎo)——完全不需要實(shí)際嘗試任何引導(dǎo)操作。

打個(gè)比方:一個(gè)教室里的學(xué)生按照成績高低坐成兩排(類別可分性很好),但如果每次考試結(jié)果都會導(dǎo)致座位完全重排(幾何穩(wěn)定性很低),那么你根據(jù)今天的座位來預(yù)測明天的行為就會完全失效。類別可分性告訴你今天座位分得開,但幾何穩(wěn)定性才告訴你這個(gè)座位安排明天還在不在。

負(fù)面控制實(shí)驗(yàn)進(jìn)一步確認(rèn)了這個(gè)結(jié)論的可靠性。當(dāng)研究者把標(biāo)簽隨機(jī)打亂再計(jì)算有監(jiān)督Shesha時(shí),指標(biāo)直接崩塌到接近零(-0.001),遠(yuǎn)比隨機(jī)預(yù)期的更低,表明該指標(biāo)確實(shí)在捕捉任務(wù)相關(guān)的幾何信息,而非某種無關(guān)的幾何噪聲。此外,與隨機(jī)方向相比,真正的引導(dǎo)方向產(chǎn)生的效果在合成任務(wù)上是隨機(jī)方向的10.8倍,SST-2上是2.7倍,MNLI上是1.3倍。邊際在縮小,但Shesha始終能區(qū)分哪些模型在這個(gè)縮小的邊際內(nèi)仍然保持穩(wěn)定。

在模型排名上,有監(jiān)督對比學(xué)習(xí)訓(xùn)練的模型(BGE、E5、GTE家族的大型版本)幾乎壟斷了最可引導(dǎo)的前列,而無監(jiān)督版本(unsup-SimCSE、E5-base-unsupervised)和以檢索為目標(biāo)訓(xùn)練的模型(multi-qa系列)則排在末尾。檢索模型尤為值得注意——它們往往有不錯的分類準(zhǔn)確率,但在引導(dǎo)測試中表現(xiàn)糟糕,再次印證了"可分"不等于"可控"。

四、一個(gè)關(guān)鍵的反差:無監(jiān)督穩(wěn)定性為何在真實(shí)任務(wù)上徹底失效

這項(xiàng)研究最值得細(xì)細(xì)品味的發(fā)現(xiàn),是一個(gè)看似矛盾的現(xiàn)象:無監(jiān)督版的Shesha(也就是不需要標(biāo)簽的版本)在合成任務(wù)上與引導(dǎo)效果有相當(dāng)高的相關(guān)性(0.77),但一到真實(shí)的NLP任務(wù),這個(gè)相關(guān)性就直接崩塌——SST-2上只有0.10,MNLI上只有0.35,統(tǒng)計(jì)學(xué)上均不顯著。控制了類別可分性之后,殘余相關(guān)性更是在所有設(shè)置下都低于0.10。

這個(gè)現(xiàn)象的背后有非常清晰的邏輯解釋。在合成數(shù)據(jù)集里,研究者刻意用組合語法生成句子,使得數(shù)據(jù)空間的主要變化軸恰好與情感極性對齊。在這種人工構(gòu)造的理想情況下,"內(nèi)部結(jié)構(gòu)一致"和"任務(wù)對齊"高度重合,所以無監(jiān)督穩(wěn)定性碰巧能預(yù)測引導(dǎo)效果。

但在真實(shí)的自然語言數(shù)據(jù)里,情況完全不同。一個(gè)模型的內(nèi)部空間里同時(shí)編碼了無數(shù)種信息——語法結(jié)構(gòu)、語義主題、情感色彩、語體風(fēng)格、句法依存關(guān)系……任務(wù)相關(guān)的信息(比如情感)只占據(jù)這個(gè)巨大空間的一個(gè)小小角落。一個(gè)模型可以在整體上結(jié)構(gòu)非常穩(wěn)固,但專門負(fù)責(zé)情感的那個(gè)小角落卻極其脆弱;反過來,一個(gè)整體結(jié)構(gòu)略顯松散的模型,恰好在情感這個(gè)維度上組織得非常清晰有序。

無監(jiān)督穩(wěn)定性測量的是整個(gè)空間的整體一致性,它根本分不清哪個(gè)部分的穩(wěn)固與任務(wù)相關(guān)。有監(jiān)督穩(wěn)定性則直接盯著任務(wù)相關(guān)的那個(gè)角落來測量,自然能準(zhǔn)確預(yù)測引導(dǎo)效果。

反過來,當(dāng)問題變成"模型整體有沒有發(fā)生漂移"的時(shí)候,無監(jiān)督穩(wěn)定性恰恰最合適,因?yàn)槲覀冃枰恼且粋€(gè)能感知整體結(jié)構(gòu)變化的探測器,而不需要局限于某個(gè)特定任務(wù)的視角。這種反差不是一個(gè)缺陷,而是這套框架最核心的設(shè)計(jì)邏輯:兩個(gè)變體各有各的適用范圍,恰好形成互補(bǔ)。

五、上崗后的監(jiān)控:無監(jiān)督Shesha如何比現(xiàn)有工具更早、更準(zhǔn)地發(fā)現(xiàn)漂移

在漂移檢測實(shí)驗(yàn)中,研究者構(gòu)建了一套全面的基準(zhǔn),覆蓋四類實(shí)驗(yàn)場景,分別考察漂移檢測能力的不同側(cè)面。

第一個(gè)場景直接對比真實(shí)模型經(jīng)過指令微調(diào)前后的表示變化。研究者選取了23對"基礎(chǔ)版/指令版"模型對,橫跨Qwen、Llama、SmolLM、SmolLM2、Mistral、StableLM、Gemma、TinyLlama、Pythia、BLOOM、Falcon等11個(gè)家族,參數(shù)量從1.4億到70億不等。對每對模型,分別用四類語義不同的提示詞集合(事實(shí)性陳述、描述性文字、指令性請求、對話性內(nèi)容,每類50條)提取最后一層的平均池化表示,然后計(jì)算基礎(chǔ)版和指令版之間的幾何變化量。

結(jié)果顯示,Shesha檢測到的平均漂移為25.1%,而CKA只檢測到12.9%,比值約為1.96倍。這個(gè)差距在不同模型家族之間差異懸殊:Llama系列的差距最大,Shesha檢測到34.0%的變化,CKA只檢測到6.5%,差了整整5.23倍;而BLOOM系列的差距最小,兩者基本持平(1.14倍)。從提示詞類型來看,事實(shí)性和描述性提示詞引發(fā)的檢測差異最大(分別為2.37倍和2.28倍),指令性提示詞的差異最小(1.44倍),這暗示指令微調(diào)確實(shí)特別針對指令類輸入優(yōu)化了幾何結(jié)構(gòu),但對其他類型的輸入產(chǎn)生了更廣泛的重組。

為什么CKA會系統(tǒng)性地低估這些變化?原因在于CKA這個(gè)工具的設(shè)計(jì)原理。CKA計(jì)算兩個(gè)表示空間的相似度時(shí),對主要成分(也就是"最重要的方向")給予很高的權(quán)重,對次要成分幾乎忽略不計(jì)。這個(gè)設(shè)計(jì)在比較兩個(gè)模型時(shí)非常穩(wěn)健,但代價(jià)是:當(dāng)微調(diào)導(dǎo)致的變化主要發(fā)生在次要成分(也就是"光譜尾部")時(shí),CKA根本感知不到。Shesha使用的是秩相關(guān),對所有距離關(guān)系平等對待,不會因?yàn)槟承┳兓l(fā)生在"不重要"的維度就視而不見。

第二個(gè)場景測試了在受控?cái)_動下三種度量方法的響應(yīng)曲線,施加的擾動包括高斯噪聲(噪聲水平從0.01到0.50逐步增加)、量化壓縮(INT8和INT4兩種精度)以及LoRA微調(diào)(秩從1到64,初始化規(guī)模從0.001到0.1)。所有指標(biāo)都隨擾動增大而單調(diào)遞增,符合預(yù)期。在高噪聲水平(標(biāo)準(zhǔn)差0.5)下,Shesha捕捉到的漂移(71%)比CKA(43%)高出約1.7倍。量化擾動的影響相對溫和,INT8導(dǎo)致的Shesha漂移只有2.1%,INT4為6.2%,但對應(yīng)的精度損失微乎其微。LoRA擾動對精度影響最大——秩64或初始化規(guī)模0.1時(shí)會導(dǎo)致5到18%的精度下降,而初始化規(guī)模從0.001增大到0.1時(shí),Shesha檢測到的漂移從0.06%驟增至44.2%,幅度極為劇烈。

第三個(gè)場景驗(yàn)證了漂移檢測的功能預(yù)測效度。研究者對26個(gè)句子嵌入模型注入51個(gè)級別的高斯噪聲,同時(shí)測量幾何漂移和下游分類準(zhǔn)確率。三種度量方法與精度下降的斯皮爾曼相關(guān)性非常接近:Shesha為0.927,CKA為0.937,Procrustes為0.935。在15個(gè)因果語言模型上的重復(fù)實(shí)驗(yàn)同樣顯示出高度一致的結(jié)果(三種方法相關(guān)系數(shù)均在0.90以上)。這說明幾何漂移是功能退化的可靠先兆,三種工具在"預(yù)測什么"這件事上沒有差異,真正的區(qū)別在于"什么時(shí)候"以及"以多高的誤報(bào)率"檢測到。

第四個(gè)場景專門考察早期預(yù)警能力。以5%為檢測閾值,在26個(gè)模型中,Shesha率先檢測到漂移的占73%(19/26),CKA率先檢測的占0%(0/26),其余27%(7/26)兩者同時(shí)檢測到。在兩者出現(xiàn)分歧的所有情況下,Shesha都是勝者。平均檢測閾值方面,Shesha在噪聲標(biāo)準(zhǔn)差0.123時(shí)觸發(fā)警報(bào),CKA在0.136時(shí)才觸發(fā)——這意味著Shesha平均能在功能開始退化之前,比CKA早捕捉到漂移信號。在LoRA擾動的ROC分析中,Shesha以0.990的AUC位居三種方法之首(Procrustes為0.988,CKA為0.987);在5%假陽性率下,Shesha保持了90.2%的敏感性,而Procrustes則降至85.4%。

然而,說到Procrustes,這里有一個(gè)很有意思的權(quán)衡。Procrustes方法在絕對意義上是檢測最早的(在噪聲標(biāo)準(zhǔn)差0.040時(shí)就觸發(fā)警報(bào)),但這種超靈敏反應(yīng)是有代價(jià)的。在精度下降不到1%的"穩(wěn)定區(qū)間"里,Procrustes觸發(fā)了38.7%的誤報(bào),而Shesha和CKA的誤報(bào)率都只有約6.5%,相差整整6倍。在最微小的擾動下(LoRA初始化規(guī)模0.001,精度變化僅約0.08%),Procrustes報(bào)告了1.50%的漂移,而Shesha只報(bào)告了0.04%,膨脹了37倍。

這種過度敏感的原因同樣是數(shù)學(xué)結(jié)構(gòu)上的。Procrustes通過最優(yōu)旋轉(zhuǎn)來對齊兩個(gè)表示空間,然后計(jì)算對齊后的殘差(Frobenius范數(shù))。在高維空間里,哪怕只有輕微的隨機(jī)擾動,光譜尾部的大量微小噪聲累積起來,就會讓Frobenius殘差顯著膨脹——即使這些擾動對模型的實(shí)際功能毫無影響。Shesha使用的是距離關(guān)系的排名相關(guān),輕微擾動即使改變了具體距離值,只要沒有顯著打亂距離的相對大小順序,就不會觸發(fā)警報(bào)。

由此可見,Shesha在敏感性和特異性之間找到了一個(gè)恰當(dāng)?shù)钠胶恻c(diǎn):比CKA敏感(能更早發(fā)現(xiàn)真實(shí)漂移),又比Procrustes特異(不會對無害擾動過度反應(yīng))。這對于生產(chǎn)環(huán)境中的持續(xù)監(jiān)控至關(guān)重要——一個(gè)不斷誤報(bào)的監(jiān)控系統(tǒng),最終只會讓運(yùn)維人員對它失去信任,反而起到反效果。

六、兩個(gè)工具,一套哲學(xué):部署生命周期的完整覆蓋

歸根結(jié)底,這項(xiàng)研究構(gòu)建的不僅僅是兩個(gè)單獨(dú)的工具,而是一套覆蓋模型完整部署生命周期的診斷框架。

上崗之前,給定一個(gè)模型和一批帶標(biāo)簽的校準(zhǔn)數(shù)據(jù),運(yùn)營者可以在完全獨(dú)立的測試集上計(jì)算有監(jiān)督Shesha,得到一個(gè)"可控性預(yù)測分?jǐn)?shù)"。分?jǐn)?shù)高,意味著這個(gè)模型的幾何結(jié)構(gòu)與任務(wù)高度對齊,引導(dǎo)干預(yù)將會可靠地工作;分?jǐn)?shù)低,意味著不管分類準(zhǔn)確率看起來多好,引導(dǎo)嘗試大概率會失敗甚至適得其反。這個(gè)診斷完全不需要實(shí)際嘗試任何引導(dǎo)操作,也不需要訓(xùn)練任何探針——所需的只是幾何計(jì)算。

上崗之后,運(yùn)營者可以持續(xù)監(jiān)控?zé)o監(jiān)督Shesha,不需要任何標(biāo)簽,只需要生產(chǎn)環(huán)境中持續(xù)流入的實(shí)際數(shù)據(jù)流。一旦Shesha讀數(shù)開始異常偏離歷史基線,就說明模型的內(nèi)部幾何結(jié)構(gòu)已經(jīng)開始重組,即使下游任務(wù)表現(xiàn)還沒有明顯變化,也應(yīng)當(dāng)引起重視和調(diào)查。

這兩個(gè)變體的互補(bǔ)性不是設(shè)計(jì)上的偶然,而是幾何測量本質(zhì)的必然結(jié)果。有監(jiān)督穩(wěn)定性問的是"與任務(wù)的對齊程度",這是一個(gè)需要外部參照(標(biāo)簽)才能回答的問題;無監(jiān)督穩(wěn)定性問的是"內(nèi)部自身的一致程度",這是一個(gè)純粹內(nèi)稟的問題,不依賴任何外部參照。這兩個(gè)問題在邏輯上是獨(dú)立的,在實(shí)踐中也確實(shí)是獨(dú)立的——研究者在合成和真實(shí)數(shù)據(jù)上都發(fā)現(xiàn),兩者的相關(guān)性甚至可以接近于零。正因如此,它們才構(gòu)成了真正互補(bǔ)的診斷對。

研究者還指出了一個(gè)更深層的含義:這項(xiàng)工作為所謂的"線性表示假說"提供了一個(gè)可量化的可測試版本。線性表示假說認(rèn)為,語言模型將概念編碼為激活空間中穩(wěn)定的線性方向,這是當(dāng)前所有引導(dǎo)和激活工程技術(shù)的理論基礎(chǔ)。但"穩(wěn)定"這個(gè)詞以前從來沒有被具體化、量化過。有監(jiān)督Shesha恰好填補(bǔ)了這個(gè)空缺:它把"線性結(jié)構(gòu)是否穩(wěn)固"這個(gè)隱含假設(shè)變成了一個(gè)可以在部署前測量的具體數(shù)值,而不是一個(gè)必須在實(shí)驗(yàn)失敗后才能發(fā)現(xiàn)的暗坑。

當(dāng)然,研究者也坦誠地列出了這套方法目前的局限性。現(xiàn)有的引導(dǎo)實(shí)驗(yàn)測試的是句子嵌入模型,而非自回歸生成模型在推理時(shí)的隱層狀態(tài),后者的擴(kuò)展是重要的后續(xù)工作。漂移分析使用的是固定的提示詞集合,而非模型訓(xùn)練時(shí)的實(shí)際數(shù)據(jù)分布。有監(jiān)督版本仍然需要標(biāo)簽來計(jì)算指標(biāo),盡管不需要標(biāo)簽來訓(xùn)練模型。Shesha目前是全局性的度量,無法定位幾何損傷發(fā)生在哪個(gè)具體子空間或哪些網(wǎng)絡(luò)層。這些局限性也自然指向了后續(xù)研究的方向:逐層穩(wěn)定性分析、在線自適應(yīng)閾值系統(tǒng)、以及與機(jī)制可解釋性研究的交叉——如果有監(jiān)督穩(wěn)定性能識別出支持線性控制的子空間,而機(jī)制可解釋性能識別出對應(yīng)特定功能的電路,兩者的交叉可能揭示哪些電路是穩(wěn)固的、哪些是脆弱的。

說到底,判斷一個(gè)AI模型能不能被可靠控制、以及它有沒有開始悄悄變質(zhì),一直是工業(yè)部署中缺少量化工具的兩個(gè)薄弱環(huán)節(jié)。這項(xiàng)研究提供的工具并不復(fù)雜,核心操作不過是把距離矩陣分半比較或者與標(biāo)簽矩陣相關(guān)——但它捕捉到的信息,恰恰是現(xiàn)有工具系統(tǒng)性忽視的那一部分。對于任何嚴(yán)肅對待AI可靠性的團(tuán)隊(duì)來說,這套框架提供了一套在現(xiàn)有工具鏈上可以直接疊加的補(bǔ)充診斷手段,而且實(shí)現(xiàn)成本相當(dāng)?shù)土?。讀者如有興趣進(jìn)一步探究,可以通過arXiv編號2604.17698查閱完整論文,同時(shí)研究者也在GitHub的prashantcraju/geometric-canary倉庫中開放了全部復(fù)現(xiàn)代碼。

Q&A

Q1:Shesha方法和CKA、Procrustes這些已有工具相比,核心區(qū)別是什么?

A:CKA主要關(guān)注表示空間里最"重要"的主成分方向,對次要維度的變化視而不見;Procrustes則通過最優(yōu)旋轉(zhuǎn)對齊后計(jì)算殘差,對哪怕無害的微小擾動也會過度反應(yīng),誤報(bào)率很高。Shesha使用距離關(guān)系的排名相關(guān),對所有點(diǎn)對點(diǎn)的距離關(guān)系平等對待,既不會像CKA那樣漏掉分散在次要維度的變化,也不會像Procrustes那樣被光譜尾部的無害噪聲誤導(dǎo),在敏感性和特異性之間取得了更好的平衡。

Q2:有監(jiān)督Shesha和無監(jiān)督Shesha分別在什么情況下應(yīng)該用哪個(gè)?

A:有監(jiān)督Shesha需要標(biāo)簽信息,適合在模型部署之前評估它能不能被有效引導(dǎo)控制,可以作為一種"可控性預(yù)測"工具。無監(jiān)督Shesha不需要任何標(biāo)簽,適合模型上線后的持續(xù)監(jiān)控,用來檢測內(nèi)部幾何結(jié)構(gòu)有沒有發(fā)生漂移。兩者的分工非常清晰:有監(jiān)督版本回答"這個(gè)模型能不能按我的意思來",無監(jiān)督版本回答"這個(gè)模型有沒有在悄悄變質(zhì)"。

Q3:為什么無監(jiān)督Shesha在合成數(shù)據(jù)上能預(yù)測引導(dǎo)效果,但在真實(shí)數(shù)據(jù)上就失效了?

A:在人工合成數(shù)據(jù)里,句子的主要變化方向恰好與情感極性對齊,所以整體幾何穩(wěn)定性與任務(wù)對齊性高度重合。但在真實(shí)的自然語言數(shù)據(jù)里,模型內(nèi)部空間同時(shí)編碼了語法、語義、情感、風(fēng)格等大量信息,任務(wù)相關(guān)的信息只占一個(gè)小子空間。一個(gè)模型整體結(jié)構(gòu)可能很穩(wěn)固,但情感相關(guān)的子空間卻很脆弱;反之亦然。無監(jiān)督Shesha測量的是整體穩(wěn)定性,無法區(qū)分哪部分與任務(wù)相關(guān),自然無法預(yù)測引導(dǎo)效果。有監(jiān)督Shesha直接比對模型的距離結(jié)構(gòu)與任務(wù)標(biāo)簽結(jié)構(gòu)的對齊程度,因此不受這個(gè)問題困擾。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯諾克世錦賽:趙心童怒砍1分!墨菲連贏4局反超,霍金斯首節(jié)5-3

斯諾克世錦賽:趙心童怒砍1分!墨菲連贏4局反超,霍金斯首節(jié)5-3

劉姚堯的文字城堡
2026-04-28 20:10:11
退休人員請注意!工齡41年及以上的,可以享受幾大福利,來看看

退休人員請注意!工齡41年及以上的,可以享受幾大福利,來看看

趣味萌寵的日常
2026-04-27 12:44:15
A股:不出意外的話!明天(4月29日)的市場會這樣走

A股:不出意外的話!明天(4月29日)的市場會這樣走

風(fēng)風(fēng)順
2026-04-29 02:05:03
特斯拉把充電樁砍到5.8折,圖什么?

特斯拉把充電樁砍到5.8折,圖什么?

野生運(yùn)營
2026-04-28 16:20:53
勇士隊(duì)格林呼吁所有球館都應(yīng)提高球員待遇標(biāo)準(zhǔn),而這卻被忽視了

勇士隊(duì)格林呼吁所有球館都應(yīng)提高球員待遇標(biāo)準(zhǔn),而這卻被忽視了

好火子
2026-04-28 23:58:05
150萬人香港研究:低劑量他汀吃10年,整體癌癥風(fēng)險(xiǎn)降低57%?

150萬人香港研究:低劑量他汀吃10年,整體癌癥風(fēng)險(xiǎn)降低57%?

醫(yī)學(xué)科普匯
2026-04-28 21:55:07
陳道明:人生走到最后,子女和老伴都不是最親的,最親的只有....

陳道明:人生走到最后,子女和老伴都不是最親的,最親的只有....

喬話
2026-04-19 22:13:11
龔雪現(xiàn)狀:和丈夫在上海生活,73歲仍然很美,唯一女兒在美國發(fā)展

龔雪現(xiàn)狀:和丈夫在上海生活,73歲仍然很美,唯一女兒在美國發(fā)展

素衣讀史
2026-04-28 20:06:40
10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

聽風(fēng)喃
2026-04-06 11:16:04
1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

干史人
2026-04-14 21:10:03
白宮記協(xié)首位華裔主席:晚宴槍響后,她的狼狽撕碎了所有光環(huán)

白宮記協(xié)首位華裔主席:晚宴槍響后,她的狼狽撕碎了所有光環(huán)

十為先生
2026-04-28 17:01:15
美國能源部長:霍爾木茲海峽無需清除所有水雷也可以開放

美國能源部長:霍爾木茲海峽無需清除所有水雷也可以開放

環(huán)球網(wǎng)資訊
2026-04-28 21:47:34
德天空:布萊頓3500萬歐報(bào)價(jià)馬拉遭拒,為他標(biāo)價(jià)5000萬歐元

德天空:布萊頓3500萬歐報(bào)價(jià)馬拉遭拒,為他標(biāo)價(jià)5000萬歐元

懂球帝
2026-04-28 18:54:08
阿聯(lián)酋突然退出歐佩克,猛將沙特一軍,間接助了特朗普一臂之力

阿聯(lián)酋突然退出歐佩克,猛將沙特一軍,間接助了特朗普一臂之力

聽風(fēng)50
2026-04-28 23:07:14
突然宣布:全網(wǎng)閉店!網(wǎng)友:再見了,國貨之光!

突然宣布:全網(wǎng)閉店!網(wǎng)友:再見了,國貨之光!

電影最TOP
2026-04-27 21:44:41
兩名非洲務(wù)工男子趕回國航班途中遇車禍身亡,遺體滯留海外50余天 勞務(wù)公司:善后協(xié)議有分歧

兩名非洲務(wù)工男子趕回國航班途中遇車禍身亡,遺體滯留海外50余天 勞務(wù)公司:善后協(xié)議有分歧

紅星新聞
2026-04-28 21:44:27
張雪就聲援余承東引發(fā)爭議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
ChatGPT要變超級應(yīng)用,谷歌想讓AI隱形

ChatGPT要變超級應(yīng)用,谷歌想讓AI隱形

算力游俠
2026-04-28 03:09:24
600111,一季度業(yè)績同比大增!“超級牛散”章建平出手

600111,一季度業(yè)績同比大增!“超級牛散”章建平出手

證券時(shí)報(bào)e公司
2026-04-28 20:59:47
強(qiáng)奸大嫂出獄后刺死見義勇為者,田永明被執(zhí)行死刑;遭強(qiáng)奸追殺女子稱不再擔(dān)心被報(bào)復(fù),遇害者兒子:如釋重負(fù),將去父親墓前告知結(jié)果

強(qiáng)奸大嫂出獄后刺死見義勇為者,田永明被執(zhí)行死刑;遭強(qiáng)奸追殺女子稱不再擔(dān)心被報(bào)復(fù),遇害者兒子:如釋重負(fù),將去父親墓前告知結(jié)果

大風(fēng)新聞
2026-04-28 15:13:04
2026-04-29 04:43:00

科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
手機(jī)
時(shí)尚
游戲

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國第一民企落子民營大?。?/h3>

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4?。?/h3>

手機(jī)要聞

三星裸眼3D屏來了,廣告牌能“跳”出來

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫面

無障礙瀏覽 進(jìn)入關(guān)懷版