網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

梯度下降：距離神經(jīng)網(wǎng)絡(luò)模型中的隱式期望最大化

2026-02-15 21:38:40　來(lái)源: CreateAMind

上海舉報(bào)

分享至

Gradient Descent as Implicit EM in Distance-Based Neural Models

https://arxiv.org/pdf/2512.24780

摘要
使用標(biāo)準(zhǔn)目標(biāo)函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)展現(xiàn)出概率推理的特征行為：軟聚類、原型特化以及貝葉斯不確定性追蹤。這些現(xiàn)象普遍存在于各種架構(gòu)中——包括注意力機(jī)制、分類頭以及基于能量的模型——然而現(xiàn)有的解釋依賴于與混合模型的松散類比或事后架構(gòu)解讀。我們提供了一個(gè)直接的推導(dǎo)。對(duì)于任何具有基于距離或能量的對(duì)數(shù)求和指數(shù)（log-sum-exp）結(jié)構(gòu)的目標(biāo)函數(shù)，其關(guān)于每個(gè)距離的梯度恰好等于對(duì)應(yīng)分量的負(fù)后驗(yàn)責(zé)任：?L/?dj = -rj。這是一個(gè)代數(shù)恒等式，而非近似。直接的結(jié)果是，在此類目標(biāo)函數(shù)上的梯度下降隱式地執(zhí)行了期望最大化——責(zé)任不是需要計(jì)算的輔助變量，而是要應(yīng)用的梯度。無(wú)需顯式的推理算法，因?yàn)橥评硪亚度雰?yōu)化之中。這一結(jié)果將三種學(xué)習(xí)機(jī)制統(tǒng)一于單一框架之下：無(wú)監(jiān)督混合建模（其中責(zé)任完全潛在）、注意力機(jī)制（其中責(zé)任以查詢?yōu)闂l件）以及交叉熵分類（其中監(jiān)督將責(zé)任鉗制到目標(biāo)）。最近在訓(xùn)練過(guò)的Transformer中觀察到的貝葉斯結(jié)構(gòu)并非涌現(xiàn)屬性，而是目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。優(yōu)化與推理是同一過(guò)程。

1 引言
使用標(biāo)準(zhǔn)目標(biāo)函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)反復(fù)展現(xiàn)出與概率推理相關(guān)的行為：軟聚類、原型特化、不確定性追蹤以及混合模型動(dòng)力學(xué)。這些現(xiàn)象普遍存在于各種架構(gòu)中——注意力機(jī)制、分類頭以及基于能量的模型——然而它們的起源至今仍不清楚。它們是規(guī)模擴(kuò)大后的涌現(xiàn)屬性嗎？是架構(gòu)上的偶然？還是某種更根本的東西？本文認(rèn)為，這些行為都不是上述原因。它們是常見(jiàn)目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。

1.1 謎題

考慮那些在訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中自發(fā)出現(xiàn)的現(xiàn)象范圍。Transformer中的注意力頭學(xué)會(huì)專業(yè)化，各自為不同的語(yǔ)義角色路由信息。分類網(wǎng)絡(luò)將表征空間劃分為若干區(qū)域，這些區(qū)域的行為類似于混合成分。在含噪數(shù)據(jù)上訓(xùn)練的深度網(wǎng)絡(luò)展現(xiàn)出類似貝葉斯推斷的穩(wěn)健性模式：對(duì)離群點(diǎn)降權(quán)，并在不同輸入間追蹤不確定性。這些行為在沒(méi)有顯式概率建模、沒(méi)有混合模型架構(gòu)、也沒(méi)有任何類似期望最大化（EM）算法的情況下涌現(xiàn)出來(lái)。

標(biāo)準(zhǔn)解釋令人難以滿意。一種觀點(diǎn)認(rèn)為這些是規(guī)模的涌現(xiàn)屬性——足夠多的參數(shù)和數(shù)據(jù)以某種方式產(chǎn)生了統(tǒng)計(jì)結(jié)構(gòu)。另一種觀點(diǎn)將其視為架構(gòu)巧合，是特定設(shè)計(jì)選擇（如softmax歸一化或殘差連接）的產(chǎn)物。第三種觀點(diǎn)提供松散的類比：注意力“類似于”軟聚類；交叉熵“近似于”混合模型。這些解釋均未回答更深層的問(wèn)題：為何是這些特定行為出現(xiàn)，而非其他行為？又為何它們?cè)谌绱瞬煌募軜?gòu)和任務(wù)中如此可靠地出現(xiàn)？

1.2 近期證據(jù)

Aggarwal等人[2025a,b]的近期工作顯著深化了這一謎題。在受控實(shí)驗(yàn)環(huán)境——“貝葉斯風(fēng)洞”（其中真實(shí)后驗(yàn)可解析獲知）中，小型Transformer以低于1比特的精度復(fù)現(xiàn)了貝葉斯后驗(yàn)。這并非近似的貝葉斯行為，而是與解析解在逐位置上精確、可驗(yàn)證的一致。在相同條件下訓(xùn)練的容量匹配的MLP則完全失敗，表明該現(xiàn)象依賴于注意力的歸納偏置，而非僅靠?jī)?yōu)化。

更引人注目的是Aggarwal等人在梯度動(dòng)態(tài)中發(fā)現(xiàn)的現(xiàn)象：注意力權(quán)重在訓(xùn)練早期即趨于穩(wěn)定，而值向量則持續(xù)精煉——這種雙時(shí)間尺度結(jié)構(gòu)與經(jīng)典期望最大化中的E步和M步相呼應(yīng)。值向量接收的更新由注意力加權(quán)，恰如混合模型中原型接收由責(zé)任度加權(quán)的更新。作者提供了完整的一階分析，表明這一結(jié)構(gòu)并非偶然，而是系統(tǒng)性的。

然而，Aggarwal等人明確將這種EM聯(lián)系刻畫(huà)為“結(jié)構(gòu)性的而非變分的”——是一種類比，而非推導(dǎo)。他們觀察到注意力行為類似EM，但并未聲稱EM是目標(biāo)函數(shù)的必然結(jié)果。在他們的框架下，為何交叉熵訓(xùn)練會(huì)產(chǎn)生貝葉斯幾何這一問(wèn)題仍未解決。

1.3 本文貢獻(xiàn)
本文填補(bǔ)了這一空白。我們證明，對(duì)于在距離或能量上具有l(wèi)og-sum-exp結(jié)構(gòu)的目標(biāo)函數(shù)，損失關(guān)于每個(gè)距離的梯度恰好等于對(duì)應(yīng)成分的后驗(yàn)責(zé)任度。這并非近似，非相似，亦非類比。它是一個(gè)代數(shù)恒等式：

直接的結(jié)果是，在此類目標(biāo)函數(shù)上的梯度下降就是期望最大化（EM），不過(guò)是連續(xù)執(zhí)行，而非采用離散的交替步驟。前向傳播計(jì)算非歸一化的似然；歸一化產(chǎn)生責(zé)任；反向傳播則將責(zé)任加權(quán)后的更新量傳遞給參數(shù)。無(wú)需引入輔助的潛在變量，也無(wú)需調(diào)用任何推理算法。架構(gòu)并非在近似EM——它就在實(shí)現(xiàn)EM，因?yàn)樘荻缺旧砭褪秦?zé)任。

這重新定義了優(yōu)化與推理之間的關(guān)系。推理并非疊加在學(xué)習(xí)之上的獨(dú)立算法層，也不是對(duì)學(xué)習(xí)到的表征進(jìn)行的事后解釋。在我們所分析的目標(biāo)函數(shù)下，推理和優(yōu)化是同一計(jì)算過(guò)程在不同抽象層次上的體現(xiàn)。Aggarwal等人觀察到的貝葉斯結(jié)構(gòu)并非偶然出現(xiàn)的涌現(xiàn)屬性，而是由損失函數(shù)的幾何結(jié)構(gòu)所強(qiáng)制的。

1.4 貢獻(xiàn)

本文的貢獻(xiàn)刻意限定在較窄的范圍，可歸納為三個(gè)層次遞進(jìn)的論點(diǎn)。

一種解釋。這一恒等式表明，在基于距離的對(duì)數(shù)和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降，執(zhí)行的是隱式期望最大化。E步是前向傳播；M步是參數(shù)更新；責(zé)任從未被顯式計(jì)算，因?yàn)樗鼈兙褪翘荻?。EM并非被神經(jīng)訓(xùn)練所近似——而是被神經(jīng)訓(xùn)練所實(shí)現(xiàn)。

一個(gè)統(tǒng)一框架。根據(jù)所施加約束條件的不同，同一種機(jī)制體現(xiàn)在三種學(xué)習(xí)模式中。在無(wú)監(jiān)督模式下，責(zé)任完全潛在，原型之間自由競(jìng)爭(zhēng)。在條件模式——即注意力機(jī)制——下，責(zé)任基于共享的原型族，針對(duì)每個(gè)查詢重新計(jì)算。在約束模式——即交叉熵分類——下，監(jiān)督機(jī)制將其中一個(gè)責(zé)任鉗制到目標(biāo)值，而替代項(xiàng)之間的競(jìng)爭(zhēng)仍然存在。這三種并非不同的現(xiàn)象，而是同一現(xiàn)象在不同邊界條件下的表現(xiàn)。

2 幾何基礎(chǔ)

本文的主要結(jié)論——即責(zé)任作為梯度涌現(xiàn)——建立在一個(gè)特定的幾何基礎(chǔ)之上。本節(jié)將確立這一基礎(chǔ)。我們首先借鑒先前工作的成果，總結(jié)將神經(jīng)網(wǎng)絡(luò)輸出解讀為距離或能量而非置信度的觀點(diǎn)。接著，我們定義適用于我們分析的那一類對(duì)數(shù)和指數(shù)目標(biāo)函數(shù)。最后，我們簡(jiǎn)要回顧經(jīng)典期望最大化算法的結(jié)構(gòu)，并非因?yàn)槲覀兊姆椒ㄐ枰?，而是為了建立一個(gè)參照點(diǎn)，以便與隱式EM進(jìn)行對(duì)比。

2.1 基于距離的表示

神經(jīng)網(wǎng)絡(luò)輸出的標(biāo)準(zhǔn)解釋將其視為置信度或分?jǐn)?shù)，指示證據(jù)支持某一假設(shè)的強(qiáng)度。當(dāng)一個(gè)邏輯值（logit）很高時(shí)，表示網(wǎng)絡(luò)"相信"某個(gè)類別；當(dāng)一個(gè)注意力分?jǐn)?shù)很高時(shí)，表示一個(gè)查詢（query）與一個(gè)鍵（key）很"匹配"。這種解釋雖然直觀，但卻模糊了神經(jīng)網(wǎng)絡(luò)實(shí)際計(jì)算的幾何結(jié)構(gòu)。

這種解釋并非為了方便而強(qiáng)加的一種建模選擇。它是仿射變換與分段線性激活函數(shù)組合而成的數(shù)學(xué)屬性。線性層的權(quán)重定義了一個(gè)基；偏置定義了沿該基的偏移量；激活函數(shù)則衡量偏差。變化的并非計(jì)算本身，而是我們賦予計(jì)算的語(yǔ)義。在本文中，我們采用基于距離的解釋，并將神經(jīng)網(wǎng)絡(luò)的輸出互換地稱為能量或距離。后續(xù)的結(jié)果——特別是將梯度識(shí)別為責(zé)任（responsibilities）——依賴于這種幾何框架。

2.2 對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)

給定為輸入 x 計(jì)算的一組距離或能量 {d1, d2, ..., dK}，我們考慮如下形式的目標(biāo)函數(shù)：

這就是對(duì)數(shù)求和指數(shù)（LSE）目標(biāo)函數(shù)。它有一個(gè)自然的解釋：如果 exp(?dj) 表示組件 j 生成該輸入的未歸一化似然，那么 L 就是對(duì)數(shù)邊際似然——即某個(gè)組件生成該輸入的對(duì)數(shù)概率。最大化 L 會(huì)促使模型為每個(gè)輸入放置至少一個(gè)接近的原型。最小化 -L 則會(huì)鼓勵(lì)分離。

這些責(zé)任是非負(fù)的且總和為一。它們表示在組件間均勻先驗(yàn)的假設(shè)下，組件 j j對(duì)該輸入負(fù)責(zé)的后驗(yàn)概率。

2.3 經(jīng)典 EM 算法

期望最大化算法是擬合帶有潛在分配的混合模型的經(jīng)典算法。它通過(guò)兩個(gè)交替的步驟進(jìn)行。

在 E 步中，計(jì)算責(zé)任。給定當(dāng)前參數(shù)，每個(gè)數(shù)據(jù)點(diǎn)根據(jù)相對(duì)似然被軟分配至每個(gè)組件：

這些責(zé)任總和為一，并代表組件 j 生成該觀測(cè)值的后驗(yàn)概率。

在 M 步中，參數(shù)被更新。每個(gè)組件的參數(shù)被調(diào)整，以更好地?cái)M合分配給它的數(shù)據(jù)點(diǎn)，并由責(zé)任進(jìn)行加權(quán)：

對(duì)于高斯混合模型而言，這簡(jiǎn)化為計(jì)算責(zé)任加權(quán)的均值和協(xié)方差。
其關(guān)鍵特性在于，每一個(gè)數(shù)據(jù)點(diǎn)都會(huì)影響每一個(gè)組件，但這種影響受到該組件對(duì)該數(shù)據(jù)點(diǎn)所承擔(dān)責(zé)任大小的控制。

經(jīng)典的 EM 算法是離散且交替進(jìn)行的：先計(jì)算所有責(zé)任，然后更新所有參數(shù)，接著重復(fù)此過(guò)程。E 步和 M 步是具有不同計(jì)算作用的獨(dú)立步驟。這種分離是算法層面的，并非本質(zhì)上的。

3 主要結(jié)果：責(zé)任即梯度

我們現(xiàn)在闡述并推導(dǎo)核心結(jié)果。推導(dǎo)過(guò)程是基礎(chǔ)的——僅需一次鏈?zhǔn)椒▌t的應(yīng)用——但其意義深遠(yuǎn)。我們證明，對(duì)于基于距離的對(duì)數(shù)求和指數(shù)（log-sum-exp）目標(biāo)函數(shù)，關(guān)于每個(gè)距離的梯度恰好就是對(duì)應(yīng)組件的負(fù)責(zé)任。這一恒等式無(wú)需任何近似，并且對(duì)任何計(jì)算距離并通過(guò)梯度下降優(yōu)化 LSE 目標(biāo)的模型都成立。導(dǎo)數(shù)計(jì)算本身是教科書(shū)級(jí)別的；本文的貢獻(xiàn)在于認(rèn)識(shí)到所得的量恰好就是后驗(yàn)責(zé)任，并且這使得每一個(gè)梯度步驟都變成了一個(gè)責(zé)任加權(quán)的更新。

3.1 推導(dǎo)

3.2 這意味著什么

該定理有一個(gè)直接的解釋：責(zé)任并非必須被計(jì)算和存儲(chǔ)的量。它們是梯度。任何計(jì)算距離、應(yīng)用對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)并通過(guò)梯度下降更新參數(shù)的系統(tǒng)，都已經(jīng)在計(jì)算責(zé)任——不是作為一個(gè)中間步驟，而是作為學(xué)習(xí)信號(hào)本身。

注意，這個(gè)恒等式本身是純粹的代數(shù)結(jié)果——它對(duì)于任何對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)都成立，無(wú)論我們?nèi)绾谓忉屗婕暗母鱾€(gè)量。然而，EM（期望最大化）的解釋依賴于將理解為距離，并將理解為后驗(yàn)責(zé)任。數(shù)學(xué)結(jié)構(gòu)強(qiáng)制了梯度的形式；語(yǔ)義則賦予了它意義。

其結(jié)果是，在 LSE 目標(biāo)函數(shù)上的梯度下降恰恰就是 EM 算法。它不是 EM 的近似。經(jīng)典 EM 中離散的交替過(guò)程——計(jì)算責(zé)任，然后更新參數(shù)，再重復(fù)——坍縮為連續(xù)的、并行的優(yōu)化。每一個(gè)梯度步驟都是責(zé)任加權(quán)的更新。每一個(gè)訓(xùn)練過(guò)的網(wǎng)絡(luò)一直都在執(zhí)行 EM 算法。

在本文中，"隱式 EM"指的是在對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降時(shí)，責(zé)任加權(quán)的參數(shù)更新的出現(xiàn)——而非指坐標(biāo)上升式 EM 或關(guān)于收斂性的保證。

3.3 條件

該結(jié)果依賴于三個(gè)結(jié)構(gòu)條件。當(dāng)所有三個(gè)條件都滿足時(shí)，隱式EM動(dòng)態(tài)是必然發(fā)生的——它們由數(shù)學(xué)原理強(qiáng)制決定。

當(dāng)這些條件成立時(shí)，不存在額外的設(shè)計(jì)選擇來(lái)啟用或禁用類似 EM 的行為。這是目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。任何計(jì)算距離、通過(guò)指數(shù)函數(shù)進(jìn)行歸一化并使用梯度進(jìn)行訓(xùn)練的網(wǎng)絡(luò)架構(gòu)，都會(huì)展現(xiàn)出隱式 EM。

4 隱式推理的三種機(jī)制

同樣的機(jī)制在不同的約束條件下有不同的表現(xiàn)形式：

4.1 無(wú)監(jiān)督機(jī)制：混合學(xué)習(xí)

在最純粹的情況下，對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)在沒(méi)有監(jiān)督的情況下運(yùn)行。模型計(jì)算從輸入到 K 個(gè)組件中每一個(gè)的距離 dj(x)，并通過(guò)訓(xùn)練來(lái)最小化：

這就是負(fù)對(duì)數(shù)邊際似然——經(jīng)典混合模型擬合中使用的目標(biāo)函數(shù)。所有組件競(jìng)爭(zhēng)每一個(gè)輸入。沒(méi)有標(biāo)簽約束哪個(gè)組件應(yīng)該獲勝。

結(jié)果是自發(fā)的特化。即使采用隨機(jī)初始化，組件也會(huì)在訓(xùn)練過(guò)程中分化。每個(gè)原型都會(huì)漂移到輸入空間中它持續(xù)承擔(dān)高責(zé)任的區(qū)域，同時(shí)將其它區(qū)域讓給競(jìng)爭(zhēng)對(duì)手。聚類的出現(xiàn)并非因?yàn)橹付嗽撃繕?biāo)，而是因?yàn)槟繕?biāo)函數(shù)的幾何結(jié)構(gòu)強(qiáng)制進(jìn)行了責(zé)任加權(quán)的更新。

這種機(jī)制與混合模型上的經(jīng)典EM算法完全對(duì)應(yīng)。其固定點(diǎn)——以及通向固定點(diǎn)的路徑——都受相同的責(zé)任所支配。

4.2 條件機(jī)制：注意力機(jī)制

注意力權(quán)重恰好滿足了責(zé)任的定義。它們是非負(fù)的，在所有鍵上總和為一，并代表了每個(gè)鍵在多大程度上“解釋”了該查詢。輸出是值的責(zé)任加權(quán)組合：

4.3 約束機(jī)制：交叉熵分類

交叉熵分類引入了監(jiān)督信息，但這并未使其脫離隱式 EM 的框架。它只是對(duì)其施加了約束。

錯(cuò)誤類別之間的競(jìng)爭(zhēng)保持不變。當(dāng)模型分類錯(cuò)誤時(shí)，責(zé)任質(zhì)量分布在錯(cuò)誤的答案中，每個(gè)錯(cuò)誤答案都會(huì)接收到與其份額成正比的梯度信號(hào)。"錯(cuò)得最離譜"的類別——即那些具有最高的類別——受到的懲罰最強(qiáng)烈。這不是均勻的排斥；而是責(zé)任加權(quán)的修正。

交叉熵并不會(huì)消除 EM 動(dòng)態(tài)；它只是引導(dǎo)這些動(dòng)態(tài)。M 步仍然根據(jù)各組件所承擔(dān)的責(zé)任比例對(duì)其進(jìn)行更新，但監(jiān)督信息會(huì)將該過(guò)程偏向一個(gè)預(yù)設(shè)的分配。這解釋了為什么交叉熵盡管形式簡(jiǎn)單卻如此有效：它繼承了混合模型的軟競(jìng)爭(zhēng)和自動(dòng)加權(quán)特性，同時(shí)將這些動(dòng)態(tài)導(dǎo)向一個(gè)有監(jiān)督的目標(biāo)。這個(gè)損失函數(shù)所起的作用，比其熟悉的形式所暗示的要更多。

4.4 分類體系

這三種機(jī)制——無(wú)監(jiān)督機(jī)制、條件機(jī)制和約束機(jī)制——在觀測(cè)對(duì)象和潛在變量上有所不同。但它們共享一個(gè)共同的結(jié)構(gòu)：對(duì)距離進(jìn)行指數(shù)化，然后在候選項(xiàng)之間進(jìn)行歸一化。正是這個(gè)結(jié)構(gòu)產(chǎn)生了責(zé)任，而責(zé)任又產(chǎn)生了隱式 EM。

關(guān)鍵因素是歸一化。當(dāng)輸出被歸一化時(shí)——無(wú)論是通過(guò) softmax、通過(guò)對(duì)數(shù)求和指數(shù)配分函數(shù)，還是通過(guò)任何強(qiáng)制總和為一的約束操作——組件之間就會(huì)產(chǎn)生競(jìng)爭(zhēng)。一個(gè)組件似然的增加，必然會(huì)降低其他組件的相對(duì)似然。這種競(jìng)爭(zhēng)是分配產(chǎn)生的根源：每個(gè)輸入被概率性地分配給各個(gè)組件，而梯度也相應(yīng)地分布。

去除歸一化，這個(gè)結(jié)構(gòu)就會(huì)崩潰?？紤]基于沒(méi)有配分函數(shù)的核（如高斯核）的目標(biāo)函數(shù)，例如最大相關(guān)熵：

在這里，每個(gè)組件獨(dú)立運(yùn)作。一個(gè)遠(yuǎn)離所有原型的點(diǎn)，會(huì)對(duì)所有原型產(chǎn)生微弱的梯度——不是因?yàn)樨?zé)任被分配到了別處，而是因?yàn)闆](méi)有競(jìng)爭(zhēng)存在來(lái)進(jìn)行分配。這里沒(méi)有隱式的 E 步，因?yàn)椴淮嬖谪?zé)任。這種目標(biāo)函數(shù)增強(qiáng)了對(duì)異常值的魯棒性（遠(yuǎn)離所有原型的點(diǎn)被有效忽略），但完全失去了分配結(jié)構(gòu)。

這厘清了設(shè)計(jì)空間。指數(shù)化將距離轉(zhuǎn)化為似然；歸一化將似然轉(zhuǎn)化為責(zé)任。兩者兼?zhèn)鋾r(shí)，隱式 EM 就不可避免。僅有指數(shù)化，模型獲得了魯棒性，但放棄了推理。目標(biāo)函數(shù)的選擇，本質(zhì)上是在決定模型應(yīng)該進(jìn)行分配還是應(yīng)該忽略——而這種選擇是在損失函數(shù)層面做出的，而非網(wǎng)絡(luò)架構(gòu)層面。

5 與先前工作的關(guān)系

本文推導(dǎo)出的結(jié)果并非孤立存在。它依賴于先前的工作來(lái)奠定其幾何基礎(chǔ)，并且通過(guò)它所能解釋的近期實(shí)證發(fā)現(xiàn)而獲得重要性。本節(jié)將闡述本文的貢獻(xiàn)與三個(gè)方面工作的關(guān)聯(lián)：基于距離的神經(jīng)表示解釋、近期關(guān)于 Transformer 中貝葉斯結(jié)構(gòu)的證據(jù)，以及基于能量的學(xué)習(xí)和期望最大化方面的經(jīng)典成果。

5.1 關(guān)于基于距離表示的先前工作

在先前的工作 [Oursland, 2024] 中，我們奠定了本文所依賴的幾何解釋。該工作表明，標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)層——仿射變換后接 ReLU 或絕對(duì)值激活函數(shù)——計(jì)算出的量表現(xiàn)為與學(xué)習(xí)到的原型之間的距離。輸出是偏差，而非置信度；它們衡量的是輸入距離由權(quán)重定義的參考結(jié)構(gòu)有多遠(yuǎn)。這種解釋并非強(qiáng)加的，而是從所涉及操作的數(shù)學(xué)原理中推導(dǎo)出來(lái)的。

本文以此幾何基礎(chǔ)為前提，提出了一個(gè)不同的問(wèn)題：當(dāng)基于距離的表示在標(biāo)準(zhǔn)目標(biāo)函數(shù)下被優(yōu)化時(shí)，會(huì)發(fā)生什么？我們先前的工作并未涉及學(xué)習(xí)動(dòng)態(tài)。它描述了神經(jīng)網(wǎng)絡(luò)表示什么，而非它們?nèi)绾螌W(xué)習(xí)。本文的貢獻(xiàn)在于表明，對(duì)距離采用對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)會(huì)產(chǎn)生責(zé)任加權(quán)的梯度，而這會(huì)引發(fā)出隱式 EM。

這兩個(gè)結(jié)果是互補(bǔ)的，共同構(gòu)成了一幅完整的圖景。第一個(gè)結(jié)果指出：神經(jīng)網(wǎng)絡(luò)計(jì)算距離。第二個(gè)結(jié)果指出：用 LSE 目標(biāo)函數(shù)優(yōu)化距離就是在執(zhí)行推理。兩者互不包含。如果沒(méi)有距離的解釋，將梯度等同于責(zé)任只是一個(gè)形式上的趣聞。如果沒(méi)有梯度恒等式，距離的解釋描述的只是靜態(tài)的表示，無(wú)法說(shuō)明它們是如何產(chǎn)生的。幾何基礎(chǔ)支撐了學(xué)習(xí)動(dòng)態(tài)；學(xué)習(xí)動(dòng)態(tài)則證明關(guān)注幾何基礎(chǔ)是合理的。

Aggarwal 等人 [2025b] 從靜態(tài)分析轉(zhuǎn)向動(dòng)態(tài)分析，研究了交叉熵訓(xùn)練下注意力機(jī)制的梯度。他們推導(dǎo)出值向量接收的是責(zé)任加權(quán)的更新，并且注意力分?jǐn)?shù)會(huì)根據(jù)一種類似優(yōu)勢(shì)函數(shù)的規(guī)則進(jìn)行調(diào)整。他們觀察到一種雙時(shí)間尺度的結(jié)構(gòu)：注意力模式早期就穩(wěn)定下來(lái)，而值向量則持續(xù)細(xì)化——這鏡像了經(jīng)典 EM 算法中的 E 步和 M 步。該分析十分透徹，并且與 EM 的平行關(guān)系是明確的。

然而，作者們謹(jǐn)慎地將這種聯(lián)系描述為"結(jié)構(gòu)性的，而非變分性的"。他們觀察到注意力的行為類似于 EM，但并未斷言 EM 是目標(biāo)函數(shù)的必然結(jié)果。他們記錄了這種相似性，但未嘗試進(jìn)行推導(dǎo)。

本文提供了這一推導(dǎo)。在基于距離的神經(jīng)輸出解釋下，梯度恒等式 ?L/?dj = ?rj 并非結(jié)構(gòu)上的類比，而是一個(gè)代數(shù)事實(shí)。Aggarwal 等人觀察到的類 EM 動(dòng)態(tài)并非恰好出現(xiàn)在Transformer 中的涌現(xiàn)屬性——它們是由損失函數(shù)的幾何結(jié)構(gòu)強(qiáng)制決定的。任何計(jì)算距離并優(yōu)化對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)的模型，無(wú)論其是否類似于 Transformer，都會(huì)展現(xiàn)出相同的動(dòng)態(tài)。

這兩項(xiàng)貢獻(xiàn)之間的關(guān)系是觀察與解釋的關(guān)系。Aggarwal 等人以精確和嚴(yán)謹(jǐn)?shù)姆绞桨l(fā)現(xiàn)并記錄了該現(xiàn)象的實(shí)證證據(jù)。我們則提供了使該現(xiàn)象成為必然的理論機(jī)制。

5.3 其他聯(lián)系

LeCun 等人 [2006] 的基于能量的學(xué)習(xí)框架提供了重要的概念性支撐。該工作將學(xué)習(xí)重新定義為最小化能量函數(shù)，其中概率通過(guò)指數(shù)化和歸一化推導(dǎo)得出。本文分析的對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)是基于能量的模型中"自由能"公式的一個(gè)特例。我們的貢獻(xiàn)在于表明，這個(gè)自由能關(guān)于組件能量的梯度恰好就是后驗(yàn)責(zé)任——這個(gè)聯(lián)系在該框架中隱含存在，但據(jù)我們所知，此前未被作為一個(gè)形式恒等式明確提出。

Dempster 等人 [1977] 提出了期望最大化算法，用于含隱變量的極大似然估計(jì)。他們將 E 步和 M 步定義為離散的、交替進(jìn)行的操作。本文表明，對(duì)于基于距離的目標(biāo)函數(shù)，這些步驟坍縮為梯度下降：前向傳播隱式計(jì)算責(zé)任，反向傳播則應(yīng)用這些責(zé)任。這并非與經(jīng)典公式相矛盾，而是揭示出它是更普遍現(xiàn)象的一個(gè)特例。EM 不僅僅是一個(gè)可以選擇應(yīng)用的算法；它是某些目標(biāo)函數(shù)幾何結(jié)構(gòu)在基于梯度的優(yōu)化下的一個(gè)屬性。

Vaswani 等人 [2017] 引入了以注意力為核心機(jī)制的 Transformer 架構(gòu)。最初的闡述強(qiáng)調(diào)注意力是一種軟檢索操作——查詢關(guān)注鍵以聚合值。隱式 EM 的視角將注意力重新定義為條件混合推理，其中注意力權(quán)重作為責(zé)任，值投影作為原型參數(shù)。這種解釋與最初的公式一致，但提供了架構(gòu)描述所缺乏的概率語(yǔ)義。

混合專家模型 [Jacobs 等人, 1991] 使用顯式的門(mén)控網(wǎng)絡(luò)將輸入路由到專門(mén)的子網(wǎng)絡(luò)。門(mén)控權(quán)重?fù)Q個(gè)名字就是責(zé)任。區(qū)別在于架構(gòu)：在混合專家模型中，門(mén)控是一個(gè)單獨(dú)的學(xué)習(xí)函數(shù)；而在標(biāo)準(zhǔn)注意力和分類中，責(zé)任是作為目標(biāo)函數(shù)的梯度出現(xiàn)的，無(wú)需專門(mén)的門(mén)控機(jī)制。隱式 EM 揭示了混合專家模型中的顯式門(mén)控并非必需——任何對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)都會(huì)自動(dòng)產(chǎn)生責(zé)任加權(quán)的路由。

6 局限性與失效模式

隱式 EM 框架并非普遍適用。它在特定條件下成立，而當(dāng)這些條件不滿足時(shí)，該分析也隨之失效。本節(jié)將界定其邊界：隱式 EM 在何種情況下不會(huì)出現(xiàn)，即使出現(xiàn)時(shí)可能發(fā)生哪些病理現(xiàn)象，以及哪些現(xiàn)象完全超出其范圍。清晰地闡述局限性非但不會(huì)削弱，反而會(huì)加強(qiáng)本文的貢獻(xiàn)——它區(qū)分了精確的主張與過(guò)度的延伸。

6.1 隱式EM不出現(xiàn)的情況

在這種設(shè)置下，責(zé)任不存在。沒(méi)有一個(gè)量能在所有類別上總和為一；也沒(méi)有軟分配將輸入在不同候選項(xiàng)之間進(jìn)行分配。每個(gè)輸出通道孤立地運(yùn)作。一個(gè)點(diǎn)可能離所有原型同樣近，或者離所有原型同樣遠(yuǎn)，而梯度不會(huì)重新分配——它們僅僅反映獨(dú)立的誤差。

這不是架構(gòu)的失敗，而是缺少所需的目標(biāo)函數(shù)結(jié)構(gòu)。隱式 EM 源于競(jìng)爭(zhēng)，而競(jìng)爭(zhēng)源于歸一化。具有獨(dú)立輸出的系統(tǒng)可以學(xué)習(xí)到有用的表示，但它們不執(zhí)行混合推理，也不會(huì)展現(xiàn)出責(zé)任加權(quán)的動(dòng)態(tài)。該框架的解釋范圍止于歸一化失效之處。

6.2 尺度與坍縮

完整的高斯混合模型在似然函數(shù)中包含一個(gè)對(duì)數(shù)行列式項(xiàng)——這是對(duì)每個(gè)組件協(xié)方差體積的懲罰。這一項(xiàng)防止了坍縮：沒(méi)有它，組件可以將其協(xié)方差收縮為零，在單個(gè)點(diǎn)上放置無(wú)限密度，從而獲得無(wú)界似然。當(dāng)協(xié)方差坍縮時(shí)，對(duì)數(shù)行列式會(huì)發(fā)散，從而平衡密度的增長(zhǎng)。

大多數(shù)神經(jīng)網(wǎng)絡(luò)目標(biāo)函數(shù)省略了這一項(xiàng)。交叉熵和注意力 softmax 在距離或分?jǐn)?shù)上操作，沒(méi)有顯式的體積懲罰。隱式 EM 動(dòng)態(tài)仍然成立——梯度仍然是責(zé)任加權(quán)的——但沒(méi)有什么能阻止學(xué)習(xí)到的度量發(fā)生退化。網(wǎng)絡(luò)可以學(xué)會(huì)將所有輸入映射到鄰近的點(diǎn)，從而坍縮距離結(jié)構(gòu)并使責(zé)任變得無(wú)意義。

在實(shí)踐中，坍縮通常通過(guò)隱式機(jī)制來(lái)避免：權(quán)重衰減正則化投影的尺度；層歸一化約束激活值的幅度；像殘差連接這樣的架構(gòu)選擇則保留了信號(hào)的多樣性。這些干預(yù)措施是有效的，但它們并非源自目標(biāo)函數(shù)——它們只是恰好穩(wěn)定了幾何結(jié)構(gòu)的啟發(fā)式方法。

隱式 EM 框架闡明了為什么坍縮是一種風(fēng)險(xiǎn)。當(dāng)組件根據(jù)其責(zé)任比例進(jìn)行更新時(shí)，一個(gè)捕獲了稍多概率質(zhì)量的組件會(huì)接收到更強(qiáng)的梯度，進(jìn)而捕獲更多質(zhì)量，并可能完全主導(dǎo)。這種正反饋是 EM 動(dòng)態(tài)固有的，在經(jīng)典模型中由體積項(xiàng)控制。神經(jīng)網(wǎng)絡(luò)移除了這種控制，并依賴其他機(jī)制來(lái)填補(bǔ)這一空白。該框架并未解決這個(gè)問(wèn)題；它解釋了問(wèn)題為何存在。

6.3 監(jiān)督約束

在無(wú)監(jiān)督機(jī)制下，責(zé)任完全是潛在的——僅由數(shù)據(jù)決定哪些組件擁有哪些輸入。監(jiān)督學(xué)習(xí)改變了這一點(diǎn)。標(biāo)簽聲明了哪個(gè)組件應(yīng)該承擔(dān)責(zé)任，覆蓋了幾何結(jié)構(gòu)原本可能決定的結(jié)果。

這種約束強(qiáng)大但僵化。交叉熵訓(xùn)練強(qiáng)制正確類別的責(zé)任趨近于 1，無(wú)論輸入是靠近該類別原型還是遠(yuǎn)離所有原型。一個(gè)與所有類別邊界等距的輸入仍然會(huì)得到一個(gè)硬標(biāo)簽；模型必須將其分配到某處。在錯(cuò)誤類別之間，責(zé)任的軟性、分級(jí)結(jié)構(gòu)依然存在，但正確類別是被"夾住"的。

其后果之一是封閉世界的假設(shè)。Softmax 歸一化保證了責(zé)任之和為 1——某個(gè)類別必須為每個(gè)輸入承擔(dān)全部責(zé)任。沒(méi)有"以上皆非"的選項(xiàng)，模型無(wú)法將輸入視為所有已知類別之外的異類而予以拒絕。一個(gè)分布外的輸入，無(wú)論多么異常，都會(huì)被分配到距離最小的那個(gè)類別，并且模型的置信度可能任意高。

6.4 該框架無(wú)法解釋的內(nèi)容

隱式 EM 框架解釋了一種現(xiàn)象：基于距離的目標(biāo)函數(shù)中責(zé)任加權(quán)學(xué)習(xí)動(dòng)態(tài)的出現(xiàn)。它并不能解釋神經(jīng)網(wǎng)絡(luò)所做的所有事情。

泛化能力——即網(wǎng)絡(luò)為何能在未見(jiàn)數(shù)據(jù)上表現(xiàn)良好——并未涉及。該框架描述了訓(xùn)練的動(dòng)態(tài)過(guò)程，而非那些能夠?qū)崿F(xiàn)訓(xùn)練分布之外泛化的歸納偏置。規(guī)模法則——即模型大小、數(shù)據(jù)和性能之間可預(yù)測(cè)的關(guān)系——完全不在該分析的范圍內(nèi)。梯度恒等式本身并未說(shuō)明性能應(yīng)如何隨參數(shù)或計(jì)算量擴(kuò)展。

長(zhǎng)程推理、規(guī)劃以及序列決策涉及該框架未能捕獲的時(shí)間結(jié)構(gòu)。隱式EM描述了單個(gè)輸入如何被軟分配到各個(gè)組件，以及這些組件如何更新。它并未描述表征如何隨時(shí)間組合、目標(biāo)如何通過(guò)動(dòng)作序列反向傳播，或者模型如何學(xué)習(xí)搜索。

涌現(xiàn)能力——即隨著規(guī)模擴(kuò)大而突然出現(xiàn)的性質(zhì)上的新行為——仍未得到解釋。該框架沒(méi)有說(shuō)明為何某些能力會(huì)不連續(xù)地出現(xiàn)，或者為何它們需要特定的模型規(guī)模閾值。如果涌現(xiàn)能力源自隱式EM動(dòng)態(tài)，其聯(lián)系并不明顯；如果它們?cè)醋云渌麢C(jī)制，該框架則對(duì)此保持沉默。

這些并非分析的失敗，而是其范圍的邊界。本文的貢獻(xiàn)在于精確地識(shí)別并推導(dǎo)出一種機(jī)制，而非解釋整個(gè)深度學(xué)習(xí)。明確主張的范圍可以防止過(guò)度解讀——并為解釋隱式EM無(wú)法觸及的現(xiàn)象留下補(bǔ)充說(shuō)明的空間。

7 討論

本節(jié)反思隱式EM框架統(tǒng)一了哪些內(nèi)容，它對(duì)我們理解神經(jīng)網(wǎng)絡(luò)的方式有何啟示，以及它為未來(lái)的工作留下了哪些待解決的問(wèn)題。

7.1 統(tǒng)一性

該框架揭示出，高斯混合模型、注意力機(jī)制和交叉熵分類并非三種具有表面相似性的不同方法。它們是在不同約束條件下運(yùn)作的同一種機(jī)制。在GMM中，責(zé)任完全是潛在的。在注意力機(jī)制中，責(zé)任以查詢?yōu)闂l件，并為每個(gè)輸入重新計(jì)算。在交叉熵中，責(zé)任受到監(jiān)督信息的部分約束。其底層動(dòng)態(tài)——指數(shù)化、歸一化、責(zé)任加權(quán)更新——是相同的。

這暗示了我們?cè)诮庾x神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式上的轉(zhuǎn)變。概率常被視為原始量：我們定義分布，推導(dǎo)似然，然后進(jìn)行優(yōu)化。隱式EM的視角則反轉(zhuǎn)了這一關(guān)系。距離是首要的。網(wǎng)絡(luò)計(jì)算幾何量——與所學(xué)結(jié)構(gòu)的偏差——而概率僅在指數(shù)化和歸一化之后才出現(xiàn)。幾何先于概率；推理是在幾何目標(biāo)上進(jìn)行優(yōu)化的結(jié)果。

在這種觀點(diǎn)下，損失函數(shù)并非為追求性能而任意選擇的。它們是幾何先驗(yàn)。交叉熵編碼了一種假設(shè)，即輸入應(yīng)被完全地分配給離散類別。距離的對(duì)數(shù)和指數(shù)假設(shè)輸入源于潛在原因的混合。相關(guān)熵假設(shè)異常值應(yīng)被忽略。每個(gè)目標(biāo)函數(shù)都會(huì)引發(fā)不同的分配幾何結(jié)構(gòu)和不同的梯度流模式。選擇一個(gè)損失函數(shù)，就是選擇一種關(guān)于數(shù)據(jù)如何與結(jié)構(gòu)相關(guān)聯(lián)的理論——無(wú)論這種選擇是有意還是無(wú)意的。

7.2 意義

對(duì)于可解釋性而言，該框架提供了一條從訓(xùn)練動(dòng)態(tài)到語(yǔ)義結(jié)構(gòu)的直接路徑。如果責(zé)任就是梯度，那么網(wǎng)絡(luò)所做的分配就不再是需要探測(cè)或事后分析的隱藏量。它們存在于反向傳播中，在每個(gè)訓(xùn)練步驟都被計(jì)算。"哪個(gè)組件對(duì)這個(gè)輸入負(fù)責(zé)？"這個(gè)問(wèn)題在梯度本身中就有一個(gè)答案。這并不能解決可解釋性的全部問(wèn)題——理解一個(gè)組件為何承擔(dān)責(zé)任需要進(jìn)一步分析——但它將分配結(jié)構(gòu)定位在一個(gè)已被計(jì)算出的量中，而非一個(gè)必須被提取出來(lái)的量。

對(duì)于目標(biāo)函數(shù)設(shè)計(jì)而言，該分析將對(duì)數(shù)和指數(shù)函數(shù)重新定義為一種結(jié)構(gòu)性要求，而非僅僅是數(shù)值上的便利。引入Softmax通常是為了避免溢出或產(chǎn)生性質(zhì)良好的梯度。隱式EM的視角揭示了一個(gè)更深層的作用：對(duì)數(shù)和指數(shù)函數(shù)引發(fā)了競(jìng)爭(zhēng)，競(jìng)爭(zhēng)產(chǎn)生了責(zé)任，而責(zé)任則使學(xué)習(xí)表現(xiàn)得像推理。如果需要類似推理的行為，LSE結(jié)構(gòu)就是必不可少的。如果不需要這種行為——如果更傾向于獨(dú)立的預(yù)測(cè)或魯棒的異常值處理——那么就應(yīng)該有意識(shí)地避免使用LSE。這個(gè)選擇無(wú)關(guān)數(shù)值穩(wěn)定性；它關(guān)乎目標(biāo)函數(shù)將產(chǎn)生何種類型的學(xué)習(xí)動(dòng)態(tài)。

對(duì)于理論而言，該框架消解了一個(gè)長(zhǎng)期存在的分野。優(yōu)化和推理傳統(tǒng)上是不同的：一個(gè)關(guān)注尋找最小化損失的參數(shù)，另一個(gè)關(guān)注計(jì)算潛在變量的后驗(yàn)。隱式EM的結(jié)果表明，在正確的目標(biāo)函數(shù)下，這兩者是同一過(guò)程在不同層次上的觀察。當(dāng)梯度就是責(zé)任時(shí)，梯度下降就是推理。這并不是聲稱所有優(yōu)化都是推理，而是指對(duì)于一類明確界定的目標(biāo)函數(shù)，其間的區(qū)別消失了。前向傳播計(jì)算后驗(yàn)；反向傳播應(yīng)用后驗(yàn)。訓(xùn)練就是推理，在整個(gè)數(shù)據(jù)集上持續(xù)進(jìn)行。

7.3 開(kāi)放方向

仍有幾個(gè)方向待探索。神經(jīng)目標(biāo)函數(shù)中缺乏體積控制——缺失的對(duì)數(shù)行列式——導(dǎo)致了目前由啟發(fā)式方法管理的坍縮風(fēng)險(xiǎn)。一個(gè)原則性的方法要么從架構(gòu)選擇中推導(dǎo)出隱含的體積項(xiàng)，要么設(shè)計(jì)顯式包含這些項(xiàng)的目標(biāo)函數(shù)。理解歸一化層何時(shí)能夠替代體積控制，何時(shí)不能，這將把隱式EM框架與實(shí)際訓(xùn)練中的穩(wěn)定性問(wèn)題聯(lián)系起來(lái)。

現(xiàn)實(shí)環(huán)境中的監(jiān)督很少是干凈的。標(biāo)簽可能帶有噪聲、是部分的或不確定的。約束機(jī)制的分析假設(shè)硬標(biāo)簽?zāi)芫_地固定責(zé)任；更全面的處理應(yīng)將軟性或概率性監(jiān)督建模為對(duì)責(zé)任結(jié)構(gòu)的部分約束。這可能將半監(jiān)督學(xué)習(xí)、標(biāo)簽平滑以及從眾包標(biāo)注中學(xué)習(xí)統(tǒng)一到隱式EM框架下。

開(kāi)放集推理需要擺脫封閉世界的假設(shè)。當(dāng)前的目標(biāo)函數(shù)強(qiáng)制每個(gè)輸入都被分配；現(xiàn)實(shí)的部署需要提供拒絕的選項(xiàng)。支持非分配的目標(biāo)函數(shù)——一個(gè)顯式的"以上皆非"組件，或者一個(gè)低于其則沒(méi)有組件承擔(dān)責(zé)任的門(mén)檻——將把隱式EM擴(kuò)展到并非所有輸入都屬于已知類別的環(huán)境中。

最后，需要診斷工具。如果訓(xùn)練好的網(wǎng)絡(luò)執(zhí)行了隱式EM，那么這應(yīng)該是可以測(cè)量的：從梯度中提取責(zé)任，追蹤訓(xùn)練過(guò)程中的特化，檢測(cè)機(jī)制何時(shí)失效或退化。這樣的工具將把該框架從解釋性理論轉(zhuǎn)變?yōu)閷?shí)用工具，使研究人員能夠驗(yàn)證給定模型是否展現(xiàn)出理論預(yù)測(cè)的動(dòng)態(tài)。

8 結(jié)論

其意義是直接的。在基于距離的對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降，隱式地執(zhí)行了期望最大化算法。責(zé)任并非作為輔助量計(jì)算得到；它們就是梯度本身。前向傳播是 E 步；反向傳播是 M 步。不需要顯式的推理算法，因?yàn)橥评硪呀?jīng)嵌入在優(yōu)化之中。

這種機(jī)制統(tǒng)一了以往被視為不同的現(xiàn)象。無(wú)監(jiān)督混合學(xué)習(xí)、Transformer 中的注意力機(jī)制以及交叉熵分類，是同一底層過(guò)程的三種表現(xiàn)形式——它們?cè)谟^測(cè)內(nèi)容和潛在變量上有所不同，但受相同的動(dòng)態(tài)所支配。最近在訓(xùn)練好的 Transformer 中觀察到的貝葉斯結(jié)構(gòu)并非一個(gè)涌現(xiàn)的謎團(tuán)；它是用于訓(xùn)練它們的目標(biāo)函數(shù)的必然結(jié)果。

優(yōu)化和推理是同一過(guò)程在不同尺度上的觀察。

原文鏈接：https://arxiv.org/pdf/2512.24780

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.