網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

預(yù)測(cè)編碼擴(kuò)展深度神經(jīng)網(wǎng)絡(luò)：理論與實(shí)踐

2026-01-10 11:14:52　來(lái)源: CreateAMind

上海舉報(bào)

分享至

Towards Scaling Deep Neural Networks with Predictive Coding:Theory and Practice

https://arxiv.org/pdf/2510.23323

摘要

反向傳播（BP）是訓(xùn)練驅(qū)動(dòng)現(xiàn)代人工智能（包括大語(yǔ)言模型）的深度神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)算法。然而，BP 能效低下，且不太可能被生物大腦所實(shí)現(xiàn)。本論文研究了一種替代性、可能更高效的、受大腦啟發(fā)的算法——預(yù)測(cè)編碼（PC）。與 BP 不同，預(yù)測(cè)編碼網(wǎng)絡(luò)（PCN）在學(xué)習(xí)或權(quán)重更新之前，需通過(guò)神經(jīng)元活動(dòng)的迭代均衡來(lái)完成推理過(guò)程。近期研究表明，這種迭代推理機(jī)制相比 BP 具有多項(xiàng)潛在優(yōu)勢(shì)，例如訓(xùn)練速度更快。然而，這些優(yōu)勢(shì)尚未被一致復(fù)現(xiàn)；PCN 的推理與學(xué)習(xí)動(dòng)力學(xué)機(jī)制仍知之甚少；且深層 PCN 在實(shí)踐中仍難以訓(xùn)練。

本文通過(guò)基于優(yōu)化理論的理論分析，為拓展 PCN 的規(guī)模取得了重要進(jìn)展：第一，我們證明：盡管 PC 顯式僅使用一階梯度的局部更新，但其學(xué)習(xí)動(dòng)力學(xué)可被理解為一種使用二階信息的近似信賴域（trust-region）方法；第二，超越該近似框架，我們進(jìn)一步證明：原則上，PC 能夠利用任意高階信息；特別地，對(duì)于全連接網(wǎng)絡(luò)，PC 實(shí)際優(yōu)化的有效景觀遠(yuǎn)比（均方誤差）損失景觀更平緩、對(duì)梯度消失更具魯棒性；第三，受對(duì) PCN 推理動(dòng)力學(xué)研究的啟發(fā)，我們提出一種新型參數(shù)化方法——“μPC”，首次實(shí)現(xiàn)了在幾乎無(wú)需調(diào)參的情況下，穩(wěn)定訓(xùn)練超過(guò) 100 層的網(wǎng)絡(luò)，并在簡(jiǎn)單分類任務(wù)上取得與 BP 相當(dāng)?shù)男阅堋Ｎ覀冞€開(kāi)源了一個(gè)基于 JAX 的 PCN 訓(xùn)練 Python 庫(kù)。

總體而言，本論文顯著深化了我們對(duì) PCN 推理與學(xué)習(xí)動(dòng)力學(xué)的基礎(chǔ)理解；同時(shí)指出：若要使 PC 在規(guī)模上與 BP 競(jìng)爭(zhēng)，未來(lái)研究亟需聚焦于硬件協(xié)同設(shè)計(jì)與更具表達(dá)能力的網(wǎng)絡(luò)架構(gòu)。

1 引言
1.1 論文概述

本論文探討了一種訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)（DNN）的替代方法，而DNN是現(xiàn)代人工智能（AI）的基礎(chǔ)模型 [79]。當(dāng)前神經(jīng)網(wǎng)絡(luò)訓(xùn)練的標(biāo)準(zhǔn)方法是所謂的“誤差反向傳播”算法 [129]（BP）。本質(zhì)上，BP是一種高效計(jì)算復(fù)雜函數(shù)導(dǎo)數(shù)的方法，其依賴于專用硬件（如圖形處理器GPU）和軟件庫(kù)（如PyTorch [113] 和JAX [18]）。然而，BP存在若干固有局限。例如，BP需要存儲(chǔ)模型的前向計(jì)算圖，導(dǎo)致內(nèi)存和能耗效率低下 [38, 154, 150]。此外，BP是一種無(wú)法在模型各層之間并行化的串行算法 [69]。這些局限源于BP內(nèi)在的非局部性：任意權(quán)重的更新都依賴于網(wǎng)絡(luò)中所有下游層的信息?；谏鲜黾捌渌?，BP也被廣泛認(rèn)為“生物學(xué)上不可信”，即不太可能在大腦中實(shí)現(xiàn) [28, 89]。

本論文研究的替代算法稱為預(yù)測(cè)編碼（Predictive Coding，PC）[157, 131, 98, 99]。PC屬于一大類受大腦啟發(fā)、具有生物學(xué)合理性的學(xué)習(xí)算法，其中包括平衡傳播（equilibrium propagation）[138, 177]、目標(biāo)傳播（target propagation）[96]、前向?qū)W習(xí)（forward learning）[58] 等 [30, 114, 111, 88]。盡管這些算法在許多方面有所不同，但它們都共享一個(gè)區(qū)別于BP的關(guān)鍵特征：局部的、“類赫布式”（Hebbian-like）的權(quán)重更新，僅依賴相鄰神經(jīng)元之間的相互作用。

從高層次來(lái)看，PC基于這樣一個(gè)基本思想：大腦的運(yùn)作方式是通過(guò)一個(gè)關(guān)于環(huán)境的生成模型，不斷最小化其預(yù)測(cè)誤差。這一思想在計(jì)算神經(jīng)科學(xué)中有著悠久歷史。最初作為視網(wǎng)膜功能理論被提出 [147]，后來(lái)發(fā)展為一種更通用的大腦信息處理原則 [104, 124, 42, 43, 44]。近年來(lái)，自 [21, 14] 的開(kāi)創(chuàng)性教程起，PC開(kāi)始被探索作為一種可替代BP、且具有生物學(xué)合理性的學(xué)習(xí)算法。使用PC訓(xùn)練的DNN在分類、生成和記憶聯(lián)想等簡(jiǎn)單機(jī)器學(xué)習(xí)任務(wù)上已展現(xiàn)出與BP相當(dāng)?shù)男阅?[131, 98, 99]。此外，PC被認(rèn)為相較于BP具有一系列優(yōu)勢(shì) [146]，包括更快的學(xué)習(xí)收斂速度，以及在在線學(xué)習(xí)和持續(xù)學(xué)習(xí)等更具生物學(xué)現(xiàn)實(shí)性的任務(wù)中表現(xiàn)更佳。PC網(wǎng)絡(luò)（PCNs）還支持任意計(jì)算圖 [133, 22]，可執(zhí)行混合推理與因果推理 [132, 155]，并可擴(kuò)展至處理時(shí)序任務(wù) [102]。

然而，本論文試圖解決的主要挑戰(zhàn)是：如何將PC及其他局部學(xué)習(xí)算法擴(kuò)展到非常深（10層以上）的網(wǎng)絡(luò)，并應(yīng)用于ImageNet [32] 等大規(guī)模數(shù)據(jù)集（更不用說(shuō)在萬(wàn)億級(jí)token上訓(xùn)練的大語(yǔ)言模型）。局部算法很可能只有在模擬或神經(jīng)形態(tài)等非傳統(tǒng)數(shù)字硬件上才能實(shí)現(xiàn)實(shí)際擴(kuò)展（即在具備競(jìng)爭(zhēng)力的計(jì)算與內(nèi)存資源條件下）。我們將在結(jié)論部分（§7）再次討論這一點(diǎn)。盡管如此，本論文將表明，即使在標(biāo)準(zhǔn)GPU上研究PC，我們?nèi)阅茉诖四繕?biāo)上取得顯著進(jìn)展。

我們應(yīng)對(duì)PC擴(kuò)展挑戰(zhàn)的方式是理論與實(shí)驗(yàn)相結(jié)合。借鑒新興的深度學(xué)習(xí)理論領(lǐng)域 [90, 54, 127, 151, 119, 176]，我們將采用優(yōu)化理論視角，并以深度線性網(wǎng)絡(luò)（DLNs）作為主要理論模型。事實(shí)上，本論文的許多貢獻(xiàn)在于將針對(duì)DLNs的優(yōu)化理論分析適配到PC框架中。該模型不僅將為實(shí)用PCN的推斷與學(xué)習(xí)動(dòng)態(tài)提供最具解釋力和預(yù)測(cè)力的理論（第4–5章），而且首次使我們能夠以極少調(diào)參、在簡(jiǎn)單任務(wù)上達(dá)到有競(jìng)爭(zhēng)力性能的前提下，將PC擴(kuò)展至100多層的網(wǎng)絡(luò)（第5章）。其他貢獻(xiàn)（詳見(jiàn)下文§1.2）包括：對(duì)PC作為信賴域優(yōu)化器（trust-region optimiser）的新穎詮釋（第3章），以及一個(gè)用于在JAX中訓(xùn)練PCN的開(kāi)源Python軟件包（第6章）。

1.1.1 結(jié)構(gòu)

本論文結(jié)構(gòu)如下：本章余下部分將詳細(xì)闡述本博士研究的各項(xiàng)貢獻(xiàn)。第2章回顧預(yù)測(cè)編碼網(wǎng)絡(luò)（PCNs），為后續(xù)章節(jié)奠定基礎(chǔ)。除結(jié)論和附錄外，其余各章均對(duì)應(yīng)不同的研究論文。第3章提出了一個(gè)近似理論，將預(yù)測(cè)編碼（PC）解釋為一種二階信賴域方法。第4章在此理論基礎(chǔ)上大幅推進(jìn)，對(duì)PCN的學(xué)習(xí)景觀與動(dòng)態(tài)特性進(jìn)行了刻畫，并得出了令人驚訝且富有洞見(jiàn)的發(fā)現(xiàn)。在此基礎(chǔ)上，第5章對(duì)PCN的推斷景觀與動(dòng)態(tài)進(jìn)行了類似分析，并提出了“μPC”——一種新的PCN參數(shù)化方法，使得100多層網(wǎng)絡(luò)的穩(wěn)定訓(xùn)練成為可能。第6章介紹了JPC，這是一個(gè)為訓(xùn)練多種PCN而開(kāi)發(fā)的開(kāi)源Python庫(kù)，本論文中的許多實(shí)驗(yàn)均基于此庫(kù)完成。每一章均配有詳盡的附錄，通常包括相關(guān)文獻(xiàn)綜述、技術(shù)推導(dǎo)、實(shí)驗(yàn)細(xì)節(jié)和補(bǔ)充圖表。最后，第7章總結(jié)全文，討論本論文的主要啟示與局限，并提出一些推測(cè)性展望。

1.2 貢獻(xiàn)聲明

本論文的主要貢獻(xiàn)如下，每一項(xiàng)均對(duì)應(yīng)一章及一篇論文（詳見(jiàn)表1.1的摘要）：

第3章 [63]：我們表明，盡管預(yù)測(cè)編碼（PC）顯式地僅使用一階（梯度）信息，其學(xué)習(xí)動(dòng)態(tài)可被理解為一種隱式的近似二階信賴域方法。該理論（i）比以往工作做出更少的假設(shè)，（ii）為PC的工作機(jī)制提供了新的洞見(jiàn)，（iii）并提出了一些新穎的神經(jīng)科學(xué)解釋。此項(xiàng)工作發(fā)表于[63]，并在ICML 2023“局部學(xué)習(xí)”（Localized Learning）研討會(huì)上榮獲最佳論文獎(jiǎng)。相關(guān)ICML報(bào)告視頻可在此處觀看。
第4章 [61]：在上述工作的基礎(chǔ)上大幅推進(jìn)，我們通過(guò)刻畫PC實(shí)際學(xué)習(xí)所依賴的有效損失景觀的幾何結(jié)構(gòu)，發(fā)展出一套更為精確的PCN學(xué)習(xí)動(dòng)態(tài)理論。針對(duì)全連接（非殘差）網(wǎng)絡(luò)，我們證明PC實(shí)際上是在一個(gè)重縮放后的均方誤差損失上進(jìn)行學(xué)習(xí)，該損失在特定條件下比原始損失更容易優(yōu)化。我們的理論（i）糾正了文獻(xiàn)中先前的一個(gè)錯(cuò)誤，（ii）對(duì)看似矛盾的已有發(fā)現(xiàn)提供了統(tǒng)一解釋，（iii）并提出了若干新預(yù)測(cè)，且已通過(guò)實(shí)驗(yàn)驗(yàn)證。該工作已被NeurIPS 2024接收[61]，并隨后作為“機(jī)器學(xué)習(xí)2025”特刊的一部分，發(fā)表于《統(tǒng)計(jì)力學(xué)雜志：理論與實(shí)驗(yàn)》（Journal of Statistical Mechanics: Theory and Experiment）。
第5章 [60]：我們發(fā)展了一套類似的PCN推斷景觀與動(dòng)態(tài)理論，證明（i）隨著模型規(guī)模（寬度，尤其是深度）和訓(xùn)練時(shí)間的增加，推斷景觀會(huì)變得越來(lái)越病態(tài)（ill-conditioned）；（ii）標(biāo)準(zhǔn)PCN的前向傳播隨深度增加趨于消失或爆炸。受這些發(fā)現(xiàn)啟發(fā)，我們提出了μPC——一種新的PCN參數(shù)化方法，首次實(shí)現(xiàn)了在極少調(diào)參的情況下穩(wěn)定訓(xùn)練100多層的網(wǎng)絡(luò)，并在簡(jiǎn)單分類任務(wù)上達(dá)到有競(jìng)爭(zhēng)力的性能。據(jù)我所知，此前尚無(wú)任何局部性或受腦啟發(fā)的學(xué)習(xí)算法成功訓(xùn)練過(guò)如此深度的網(wǎng)絡(luò)。這項(xiàng)工作為未來(lái)擴(kuò)展PC奠定了基礎(chǔ)，已被NeurIPS 2025接收。
第6章 [62]：我們推出了JPC [62]——一個(gè)基于JAX、用于訓(xùn)練多種PCN的Python庫(kù)。JPC已在 https://github.com/thebuckleylab/jpc 開(kāi)源，包含大量示例和詳細(xì)文檔。

盡管本論文作者是上述所有工作的主要貢獻(xiàn)者，但為明確起見(jiàn)，各章末尾均包含一個(gè)專門說(shuō)明具體作者貢獻(xiàn)的小節(jié)。此外，我們還指出一項(xiàng)未納入本論文的博士期間成果：“A Simple Generalisation of the Implicit Dynamics of In-Context Learning”，該論文已被NeurIPS 2025 “What Can(’t) Transformers Do?” 研討會(huì)接收。

總體而言，本論文顯著深化了我們對(duì)PCN中推斷與學(xué)習(xí)及其相互作用機(jī)制的理解，并對(duì)擴(kuò)展PC及其他基于能量的學(xué)習(xí)算法具有明確的實(shí)際意義（詳見(jiàn)第7章討論）。任何未來(lái)試圖進(jìn)一步擴(kuò)展或深入理解PCN的工作都將受益于本研究。

2 預(yù)測(cè)編碼網(wǎng)絡(luò)（PCNs）

在本章中，我們將回顧預(yù)測(cè)編碼網(wǎng)絡(luò)（PCNs），作為后續(xù)章節(jié)的基礎(chǔ)。但請(qǐng)注意，我們的目標(biāo)是使每一章都自成體系，因此關(guān)鍵方程將被重新呈現(xiàn)。

其中，B 是批大小，或在訓(xùn)練過(guò)程中任意時(shí)刻擬合的數(shù)據(jù)點(diǎn)數(shù)量。為簡(jiǎn)化起見(jiàn)，我們通常會(huì)省略數(shù)據(jù)索引 i。公式 2.1 并非可寫出的最通用形式的 PC 能量函數(shù)，因?yàn)槿藗円部梢约僭O(shè)不同的層間函數(shù)（而非全連接）、每層多個(gè)變換以及非單位協(xié)方差。然而，本論文將專注于此公式化形式（及其細(xì)微變體），以忠實(shí)于實(shí)踐中訓(xùn)練的典型 PCN。另請(qǐng)注意，公式 2.1 可被重寫，以定義每個(gè)神經(jīng)元的能量，這不可避免地會(huì)導(dǎo)致關(guān)于活動(dòng)和權(quán)重的局部梯度。我們將使用來(lái)表示所有權(quán)重，其中 p 為參數(shù)總數(shù)；并用表示所有自由變化的活動(dòng)，其中 H = L - 1 為隱層數(shù)量。我們還將根據(jù)上下文使用下標(biāo)來(lái)索引層或時(shí)間步。

出于理論研究目的，我們通常（但并非總是）會(huì)研究深度線性網(wǎng)絡(luò)（DLNs）1，假設(shè)每一層 ? 的激活函數(shù)均為恒等函數(shù) φ? = I。選擇這一模型有兩個(gè)主要原因：首先，線性特性使數(shù)學(xué)分析在許多方面更易于處理；其次，正如 [137] 最初著名地展示的那樣，DLNs 已被證明是研究非線性網(wǎng)絡(luò)的一個(gè)有用模型。正如我們將在第 4 和第 5 章看到的，盡管 DLNs 只能學(xué)習(xí)線性表示，但它們具有與非線性對(duì)應(yīng)物相似的非凸損失景觀和非線性學(xué)習(xí)動(dòng)態(tài)。

PCN 訓(xùn)練。要訓(xùn)練一個(gè) PCN，生成模型的觀測(cè)值需要被鉗制到某些目標(biāo)數(shù)據(jù)上，即 zL := y ∈ ???。這可以是一個(gè)用于分類的標(biāo)簽，或一張用于生成的圖像，這兩種設(shè)置通常分別被稱為判別式 PC 和生成式 PC。在監(jiān)督學(xué)習(xí)（相對(duì)于無(wú)監(jiān)督學(xué)習(xí)）中，第一層也被固定為某個(gè)輸入，即 z0 := x ∈ ???。本論文的實(shí)驗(yàn)將聚焦于（監(jiān)督）判別式設(shè)置，但該理論通常可推廣至任何設(shè)置。請(qǐng)注意，不同論文會(huì)根據(jù)所關(guān)注的具體設(shè)置而使用不同的符號(hào)和術(shù)語(yǔ)。

一旦網(wǎng)絡(luò)輸出（以及可選的輸入）被鉗制到某些數(shù)據(jù)上，能量（公式 2.1）會(huì)以一種雙層期望最大化的方式被最小化 [31]，我們將在下文詳細(xì)解釋。

推斷。在第一階段，給定某些權(quán)重 θ?，我們針對(duì)網(wǎng)絡(luò)的活動(dòng)（activities）來(lái)最小化能量：

其中，?θF 是能量關(guān)于權(quán)重的梯度，Pt 是某個(gè)預(yù)條件矩陣，η 是全局學(xué)習(xí)率。請(qǐng)注意，通過(guò)選擇單位預(yù)條件矩陣 Pt = I，可以恢復(fù)標(biāo)準(zhǔn)的梯度下降法（GD）。這一階段被稱為“學(xué)習(xí)”，原因顯而易見(jiàn)，在實(shí)踐中通常使用 Adam 優(yōu)化器 [76] 來(lái)執(zhí)行。在一次權(quán)重更新后，我們用一個(gè)新的數(shù)據(jù)批次重新開(kāi)始優(yōu)化循環(huán)（為簡(jiǎn)化起見(jiàn)，此處未展示），并重復(fù)此過(guò)程，通常直到我們?cè)谝恍╊A(yù)留樣本上對(duì)測(cè)試或泛化性能感到滿意為止。參見(jiàn)算法1以獲取部分偽代碼。這種雙層優(yōu)化的執(zhí)行方式反映了這樣一種直覺(jué)：神經(jīng)元（活動(dòng)）動(dòng)力學(xué)（公式2.2）比突觸（權(quán)重）動(dòng)力學(xué)（公式2.3）運(yùn)行在更快的時(shí)間尺度上。

正如上文所提及的，與BP不同，能量的活動(dòng)梯度和權(quán)重梯度都是局部的，僅需相鄰神經(jīng)元的信息。毫不夸張地說(shuō)，本論文的重點(diǎn)在于理解（并改進(jìn)）當(dāng)能量參數(shù)化標(biāo)準(zhǔn)DNN時(shí)，這些耦合優(yōu)化問(wèn)題（公式2.2 & 2.3）。特別是，第3章和第4章關(guān)注學(xué)習(xí)，而第5章則聚焦于推斷。需要特別指出的是，以往試圖理解PC的研究主要依賴于對(duì)能量的功能性分析 [101, 4]，忽略了DNN豐富的結(jié)構(gòu)。正如我們將在第4章和第5章看到的，這種結(jié)構(gòu)對(duì)于解釋、預(yù)測(cè)和控制PCN的推斷與學(xué)習(xí)動(dòng)態(tài)至關(guān)重要。

PCN 測(cè)試。根據(jù)具體場(chǎng)景和任務(wù)目標(biāo)的不同，PCN 可以通過(guò)多種方式進(jìn)行測(cè)試。在任何監(jiān)督設(shè)置下（分類或生成），我們都可以像使用反向傳播（BP）一樣，通過(guò)對(duì)給定輸入執(zhí)行一次前向傳播來(lái)獲得預(yù)測(cè)結(jié)果。此外，由于 PCN 實(shí)現(xiàn)了一個(gè)生成模型，原則上我們可以將網(wǎng)絡(luò)的任意部分鉗制（clamp），并讓其推斷或“補(bǔ)全”所有未被固定的節(jié)點(diǎn)或?qū)拥幕顒?dòng)狀態(tài) [133]。這種方法可用于記憶聯(lián)想任務(wù)中補(bǔ)全被遮蔽的圖像、在給定圖像的情況下推斷標(biāo)簽（從而使單個(gè)網(wǎng)絡(luò)能夠同時(shí)執(zhí)行生成和分類任務(wù)），或在無(wú)監(jiān)督設(shè)置中推斷某種潛在表征 [157, 131, 98, 99]。

3 預(yù)測(cè)編碼作為信賴域優(yōu)化

3.1 摘要

預(yù)測(cè)編碼（Predictive Coding, PC）是一種受大腦啟發(fā)的局部學(xué)習(xí)算法，最近被認(rèn)為在具有生物學(xué)意義的任務(wù)中相比反向傳播（Backpropagation, BP）具有一定優(yōu)勢(shì)。盡管已有理論工作主要聚焦于PC在何種條件下可以近似或等同于BP，但標(biāo)準(zhǔn)PC與BP之間的差異仍缺乏深入理解。本文提出一種理論，將PC視為一種使用二階信息的近似自適應(yīng)信賴域（Trust-Region, TR）方法。我們證明，PC的權(quán)重梯度可被解釋為將BP損失梯度朝向由PC推斷動(dòng)態(tài)所計(jì)算出的信賴域方向進(jìn)行偏移。該理論表明，PC應(yīng)比BP更快地逃離鞍點(diǎn)——這一預(yù)測(cè)我們?cè)跍\層線性模型中予以證明，并通過(guò)深度網(wǎng)絡(luò)實(shí)驗(yàn)加以支持。本工作為理解PC其他被提出的優(yōu)點(diǎn)奠定了理論基礎(chǔ)。

3.2 引言

近年來(lái)，大量研究致力于探索預(yù)測(cè)編碼（PC）在何種條件下可退化為反向傳播（BP）。這項(xiàng)工作始于 [160]，其指出：在全連接網(wǎng)絡(luò)（或多層感知機(jī)，MLP）上，當(dāng)先驗(yàn)（輸入）相對(duì)于觀測(cè)（輸出）被賦予更高權(quán)重時(shí)，PC可近似BP所計(jì)算的梯度。[103] 將該結(jié)果推廣至任意計(jì)算圖，包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。隨后，一種在特定推斷時(shí)刻更新權(quán)重的PC變體被證明在MLP上與BP完全等價(jià) [145]，該結(jié)論又被 [134] 和 [128] 進(jìn)一步推廣。最終，[100] 在基于能量模型（EBM）的某些平衡性質(zhì)下，統(tǒng)一了上述及其他近似結(jié)果。

另一方面，標(biāo)準(zhǔn)PC（未經(jīng)任何修改）與BP之間的差異遠(yuǎn)未被充分理解。[146] 提出，PC（以及更廣義的EBM）實(shí)現(xiàn)了一種根本不同的信用分配原則，稱為“前瞻性配置”（prospective configuration）。根據(jù)該原則，神經(jīng)元首先調(diào)整其活動(dòng)以更好地預(yù)測(cè)目標(biāo)，然后更新權(quán)重以鞏固該活動(dòng)模式；這與BP中權(quán)重優(yōu)先于活動(dòng)的做法形成鮮明對(duì)比?；趶V泛的實(shí)證結(jié)果，[146] 指出PC相比BP可帶來(lái)一系列優(yōu)勢(shì)，包括更快的學(xué)習(xí)收斂速度，以及在更具生物學(xué)現(xiàn)實(shí)性的場(chǎng)景（如在線學(xué)習(xí)和持續(xù)學(xué)習(xí)）中表現(xiàn)更佳。

部分受到這一概念性原則的啟發(fā)，近期研究開(kāi)始發(fā)展針對(duì)標(biāo)準(zhǔn)預(yù)測(cè)編碼（PC）的理論。例如，[101] 證明了：(i) 在線性情形下，PC 推斷的平衡點(diǎn)可被解釋為反向傳播（BP）前向傳播值與目標(biāo)傳播（Target Propagation, TP）[96] 所計(jì)算的局部目標(biāo)之間的平均；(ii) PC 能量函數(shù)的任意臨界點(diǎn)同時(shí)也是 BP 損失函數(shù)的臨界點(diǎn)。在在線設(shè)置下（即數(shù)據(jù)批次大小為1），[4] 表明：通過(guò)對(duì)各層活動(dòng)和參數(shù)學(xué)習(xí)率進(jìn)行特定重縮放，PC 可近似隱式梯度下降。在我撰寫本章所基于的論文期間，[3] 進(jìn)一步指出：當(dāng)該近似成立時(shí)，PC 對(duì) Hessian 信息敏感（尤其在小學(xué)習(xí)率情況下）。盡管有這些成果，標(biāo)準(zhǔn) PC 與 BP 之間的根本關(guān)系仍未被完全闡明。

在上述研究基礎(chǔ)上，本文進(jìn)一步表明：PC 可被有效地理解為一種利用二階信息的近似自適應(yīng)信賴域（Trust-Region, TR）算法。具體而言，我們指出 PC 的推斷階段可被視為在 BP 損失上求解一個(gè)信賴域問(wèn)題，其信賴域由生成模型的 Fisher 信息定義（見(jiàn) §3.5）。隨后，PC 的權(quán)重梯度可被解釋為將 BP 計(jì)算出的損失梯度朝向該信賴域推斷解的方向偏移。我們的理論表明，PC 應(yīng)比 BP 更快地逃離鞍點(diǎn)——這是信賴域方法的一個(gè)廣為人知的特性 [27, 29, 167, 85, 105]。我們?cè)谝粋€(gè)簡(jiǎn)化模型中驗(yàn)證了這一預(yù)測(cè)（§3.4），并在深度網(wǎng)絡(luò)上提供了支持性實(shí)驗(yàn)（§3.6）。

本章其余部分結(jié)構(gòu)如下：在簡(jiǎn)要介紹 PC 與信賴域方法的相關(guān)背景之后（§3.3），我們通過(guò)一個(gè)簡(jiǎn)化模型來(lái)建立對(duì) PC 與 BP 差異的直觀理解（§3.4）。接著，§3.5 提出我們將 PC 視為信賴域方法的理論分析，隨后是與該理論一致的實(shí)驗(yàn)結(jié)果（§3.6）。最后，我們討論本工作的意義與局限性（§3.7）。所有推導(dǎo)、實(shí)驗(yàn)細(xì)節(jié)及補(bǔ)充圖表均移至附錄 A。

3.3 預(yù)備知識(shí)

3.4 一個(gè)簡(jiǎn)化模型

即使在這個(gè)簡(jiǎn)單設(shè)定中，我們也能觀察到兩種算法之間顯著的定性和定量差異。特別是，預(yù)測(cè)編碼（PC）似乎能夠避開(kāi)原點(diǎn)處的鞍點(diǎn)，采取一條更直接的路徑通向最近的解流形。這一點(diǎn)體現(xiàn)在平衡態(tài)能量景觀的幾何結(jié)構(gòu)中：該景觀在朝向鞍點(diǎn)的方向上呈現(xiàn)出更平坦的“陷阱”，而在朝向解谷的方向上則具有更強(qiáng)的負(fù)曲率（即“逃逸”方向）。對(duì)于這個(gè)簡(jiǎn)化模型，可以很容易地證明：使用（隨機(jī)）梯度下降法（SGD）時(shí)，PC 比反向傳播（BP）更快地逃離該鞍點(diǎn)（見(jiàn)定理 A.1）。

更一般地，平衡態(tài)能量的梯度場(chǎng)似乎比損失函數(shù)的梯度場(chǎng)更貼近解的方向。事實(shí)上，圖 3.2 顯示，平均而言，PC 的更新方向比 BP 更接近且更可靠地指向最優(yōu)方向（即朝向最近的解）。

我們還觀察到，PC 的梯度下降（GD）動(dòng)態(tài)在接近極小值時(shí)似乎會(huì)變慢。在 1MLP 情形下，可以證明這是因?yàn)槠胶鈶B(tài)能量的極小值流形比損失函數(shù)的極小值流形更平坦（見(jiàn)定理 A.2）。一個(gè)推論是，在訓(xùn)練過(guò)程中，PC 在接近極小值時(shí)對(duì)權(quán)重?cái)_動(dòng)更具魯棒性（參見(jiàn)圖 A.2），這在更具生物學(xué)意義的在線學(xué)習(xí)場(chǎng)景中可能尤為重要。

總之，在這個(gè)簡(jiǎn)化示例中，我們表明 PC 的推斷（公式 3.1）有效地重塑了權(quán)重景觀的幾何結(jié)構(gòu)，使得 GD：(i) 能更快地逃離原點(diǎn)處的鞍點(diǎn)；(ii) 在接近極小值時(shí)收斂更慢，但對(duì)擾動(dòng)更具魯棒性。接下來(lái)，我們將提出一個(gè)理論來(lái)解釋這些現(xiàn)象。然而，對(duì)這些觀察結(jié)果更精確、更具洞察力的解釋及其推廣，將在下一章中呈現(xiàn)。

3.5 PC 作為一種近似的二階信賴域方法

這一由推斷動(dòng)力學(xué)所求得的 TR 解，如何影響 PC 的權(quán)重梯度及其學(xué)習(xí)動(dòng)力學(xué)？回顧可知，在 PC 中權(quán)重通常是在活動(dòng)收斂后才進(jìn)行更新（§3.3.1）。因此，我們計(jì)算在上述剛推導(dǎo)出的近似推斷解處評(píng)估的能量的權(quán)重梯度（詳見(jiàn) §A.3）：

3.6 實(shí)驗(yàn)

本節(jié)報(bào)告了一些與假設(shè)一致的實(shí)驗(yàn)結(jié)果，該假設(shè)已在1MLP模型中被證明（定理 A.1），并由我們將PC視為信賴域（TR）方法的理論分析所提出（§3.5）——即當(dāng)使用(S)GD時(shí)，PC比BP能更快地逃離鞍點(diǎn)。

3.6.1 深層鏈?zhǔn)骄W(wǎng)絡(luò)

梯度消失/爆炸。我們將在第5章再次討論這一點(diǎn)。

根據(jù)先前的工作 [4, 146]，在每次實(shí)驗(yàn)中我們都進(jìn)行了學(xué)習(xí)率網(wǎng)格搜索，以確保結(jié)果的任何差異并非源于PC與BP固有的不同最優(yōu)學(xué)習(xí)率（詳見(jiàn) §A.1.2）。下文我們繪制的是訓(xùn)練過(guò)程中的損失動(dòng)態(tài)，而非測(cè)試結(jié)果，因?yàn)槲覀冴P(guān)注的是優(yōu)化動(dòng)力學(xué)，而非泛化性能。盡管如此，測(cè)試損失結(jié)果在圖 A.3 中有報(bào)告。

驗(yàn)證我們的主要預(yù)測(cè)，我們發(fā)現(xiàn)：使用SGD時(shí)，PC能夠比BP顯著更快地訓(xùn)練更深的鏈?zhǔn)骄W(wǎng)絡(luò)（圖3.3）。請(qǐng)注意，只要損失停止下降，訓(xùn)練即被終止。對(duì)于線性與Tanh激活函數(shù)，我們觀察到BP的收斂速度會(huì)隨著層數(shù)增加而顯著變慢。我們還觀察到在深度增加時(shí)出現(xiàn)相變現(xiàn)象——這一現(xiàn)象也在深層線性網(wǎng)絡(luò)的損失動(dòng)力學(xué)中被觀察到 [137, 68]。最后，我們注意到BP和PC均無(wú)法訓(xùn)練非常深的鏈?zhǔn)骄W(wǎng)絡(luò)（H=15），這可能歸因于梯度消失/爆炸問(wèn)題。

3.7 討論

總之，我們表明，盡管預(yù)測(cè)編碼（PC）顯式地僅使用一階更新，但它可被理解為一種利用二階信息的近似自適應(yīng)信賴域方法。

3.7.1 啟示

我們的理論表明，使用 SGD 時(shí)，PC 應(yīng)比 BP 更快地逃離鞍點(diǎn)——這一預(yù)測(cè)我們?cè)诤?jiǎn)化模型中得到了驗(yàn)證，并通過(guò)深度網(wǎng)絡(luò)實(shí)驗(yàn)提供了支持。這些結(jié)果與先前報(bào)道的 PC 相較于 BP 的加速現(xiàn)象一致 [146, 4]。例如，[146] 發(fā)現(xiàn)，在使用 Adam 優(yōu)化器訓(xùn)練 Fashion-MNIST 數(shù)據(jù)集的 15 層 LeakyReLU 網(wǎng)絡(luò)（ N = 64
）時(shí)，PC 的收斂速度遠(yuǎn)快于 BP。在在線學(xué)習(xí)設(shè)置下（批次大小為 1），[4] 也在相對(duì)較淺（ L = 3 ）但更寬（ N = 1024
）的 ReLU 網(wǎng)絡(luò)上進(jìn)行 CIFAR-10 分類與重建任務(wù)時(shí)觀察到了類似的加速效果。我們的理論從“更快逃離鞍點(diǎn)”的角度為這些結(jié)果提供了一種潛在解釋。下一章將對(duì)此預(yù)測(cè)進(jìn)行形式化并加以細(xì)化。

更一般地，我們的結(jié)果表明，PC 所利用的二階信息包含了損失景觀曲率的相關(guān)信息。與此相關(guān)，[3] 表明在在線學(xué)習(xí)設(shè)置下，PC 可近似信賴域牛頓法（TRN）。然而需注意，我們的理論不依賴于批次大小，且實(shí)驗(yàn)證據(jù)表明，即使在大批次情況下，PC 也能利用二階信息。盡管如此，正如我們下文所述，下一章將揭示該理論的局限性。

雖然我們未深入探討這一點(diǎn)，但我們的理論也可復(fù)現(xiàn)已有的關(guān)于 PC 近似 BP 或目標(biāo)傳播（TP）的結(jié)果——這些結(jié)果依賴于自下而上與自上而下信息之間的比例 [160, 101]。具體而言，調(diào)節(jié)這一比例可被視為調(diào)整信賴域的不同軸向，或等價(jià)地，調(diào)整逐參數(shù)的學(xué)習(xí)率（參見(jiàn)圖 A.5 的示意圖）。事實(shí)上，由于信賴域方法與線搜索方法之間存在對(duì)偶性 [27]，我們的理論還可將 PC 解釋為一種自適應(yīng)梯度方法，在概念上類似于 Adam [76] 等當(dāng)前最先進(jìn)的深度學(xué)習(xí)優(yōu)化器。值得注意的是，已有研究表明，自適應(yīng)方法相比標(biāo)準(zhǔn) SGD 也能更快地逃離鞍點(diǎn) [148, 112]。

[122] 的近期工作表明，我們的理論或許可通過(guò)生物數(shù)據(jù)進(jìn)行檢驗(yàn)。作者指出，在某些假設(shè)下，權(quán)重更新的幾何結(jié)構(gòu)可從權(quán)重分布中推斷出來(lái)，并提出標(biāo)準(zhǔn) GD 所定義的歐幾里得幾何與突觸權(quán)重經(jīng)驗(yàn)觀測(cè)到的對(duì)數(shù)正態(tài)分布不一致。這與我們的結(jié)果相符：PC 使用的是非歐幾里得（自然）幾何，其度量由 Fisher 信息給出。然而，要區(qū)分不同的非歐幾里得幾何，似乎需要學(xué)習(xí)前后的實(shí)驗(yàn)數(shù)據(jù)，因?yàn)?[122] 表明，不同的幾何結(jié)構(gòu)在不同初始分布下可能導(dǎo)致相同的學(xué)后分布。

與此相關(guān)，我們的研究也觸及了“大腦是否可能近似梯度下降（GD）”這一問(wèn)題。目前廣泛認(rèn)為，大腦會(huì)在某種目標(biāo)或損失函數(shù)上估計(jì)梯度 [93, 126, 89, 57, 125]。[125] 建議可通過(guò)考察突觸變化與特定任務(wù)損失的真實(shí)梯度之間的相關(guān)性來(lái)實(shí)驗(yàn)檢驗(yàn)這一主張。無(wú)論 PC 是否是大腦學(xué)習(xí)的良好模型，我們的結(jié)果表明：對(duì)局部目標(biāo)之和（此處為 PC 能量）執(zhí)行一階梯度更新，可導(dǎo)致對(duì)全局目標(biāo)的二階更新。這引出一種可能性：大腦或許可以通過(guò)對(duì)局部目標(biāo)之和執(zhí)行 GD 來(lái)利用損失的曲率信息。若果真如此，突觸變化可能不會(huì)與損失梯度直接相關(guān)，而應(yīng)與二階更新進(jìn)行比較。

最后，我們的理論可被視為為“前瞻性配置”（prospective configuration）這一概念性原則 [146] 及其關(guān)聯(lián)的實(shí)證優(yōu)勢(shì)提供更堅(jiān)實(shí)理論基礎(chǔ)的重要一步。將此框架擴(kuò)展以解釋（甚至發(fā)現(xiàn)）PC 的其他優(yōu)缺點(diǎn)（如對(duì)小批次的魯棒性、權(quán)重干擾減少等）將十分有趣。然而，在接下來(lái)的章節(jié)中，我們將論證：任何對(duì) PCN 推斷與學(xué)習(xí)動(dòng)態(tài)的嚴(yán)肅理論，都必須考慮神經(jīng)網(wǎng)絡(luò)豐富的架構(gòu)結(jié)構(gòu)。

3.7.2 局限性

如上所述，本理論的一個(gè)重要局限在于它僅在二階近似下成立（公式 3.4）。事實(shí)上，下一章我們將證明，PC 不僅利用了損失景觀的曲率信息，還利用了任意高階的信息。該理論的另一個(gè)弱點(diǎn)是：盡管適用于任意能量函數(shù)，但它未考慮網(wǎng)絡(luò)的結(jié)構(gòu)或架構(gòu)——而下一章將表明這一點(diǎn)至關(guān)重要。此外，盡管本工作突顯了 PC 推斷機(jī)制的潛在優(yōu)勢(shì)，但其計(jì)算成本仍然是一個(gè)主要限制，使其比 BP（至少在標(biāo)準(zhǔn) GPU 上）高出數(shù)個(gè)數(shù)量級(jí)。我們的結(jié)果通過(guò)揭示 Fisher 矩陣的隱式計(jì)算與求逆過(guò)程，為這一高昂的推斷成本提供了合理解釋。在這方面，我們注意到已有研究提出了攤銷式（amortised）PC 方案 [155]，未來(lái)工作可進(jìn)一步探究是否能在采用攤銷策略的同時(shí)保留迭代推斷所帶來(lái)的優(yōu)勢(shì)。

原文鏈接： https://arxiv.org/pdf/2510.23323

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.