国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

預(yù)測(cè)編碼擴(kuò)展深度神經(jīng)網(wǎng)絡(luò):理論與實(shí)踐

0
分享至

預(yù)測(cè)編碼擴(kuò)展深度神經(jīng)網(wǎng)絡(luò):理論與實(shí)踐

Towards Scaling Deep Neural Networks with Predictive Coding:Theory and Practice

https://arxiv.org/pdf/2510.23323



摘要

反向傳播(BP)是訓(xùn)練驅(qū)動(dòng)現(xiàn)代人工智能(包括大語(yǔ)言模型)的深度神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)算法。然而,BP 能效低下,且不太可能被生物大腦所實(shí)現(xiàn)。本論文研究了一種替代性、可能更高效的、受大腦啟發(fā)的算法——預(yù)測(cè)編碼(PC)。與 BP 不同,預(yù)測(cè)編碼網(wǎng)絡(luò)(PCN)在學(xué)習(xí)或權(quán)重更新之前,需通過(guò)神經(jīng)元活動(dòng)的迭代均衡來(lái)完成推理過(guò)程。近期研究表明,這種迭代推理機(jī)制相比 BP 具有多項(xiàng)潛在優(yōu)勢(shì),例如訓(xùn)練速度更快。然而,這些優(yōu)勢(shì)尚未被一致復(fù)現(xiàn);PCN 的推理與學(xué)習(xí)動(dòng)力學(xué)機(jī)制仍知之甚少;且深層 PCN 在實(shí)踐中仍難以訓(xùn)練。

本文通過(guò)基于優(yōu)化理論的理論分析,為拓展 PCN 的規(guī)模取得了重要進(jìn)展:第一,我們證明:盡管 PC 顯式僅使用一階梯度的局部更新,但其學(xué)習(xí)動(dòng)力學(xué)可被理解為一種使用二階信息的近似信賴域(trust-region)方法;第二,超越該近似框架,我們進(jìn)一步證明:原則上,PC 能夠利用任意高階信息;特別地,對(duì)于全連接網(wǎng)絡(luò),PC 實(shí)際優(yōu)化的有效景觀遠(yuǎn)比(均方誤差)損失景觀更平緩、對(duì)梯度消失更具魯棒性;第三,受對(duì) PCN 推理動(dòng)力學(xué)研究的啟發(fā),我們提出一種新型參數(shù)化方法——“μPC”,首次實(shí)現(xiàn)了在幾乎無(wú)需調(diào)參的情況下,穩(wěn)定訓(xùn)練超過(guò) 100 層的網(wǎng)絡(luò),并在簡(jiǎn)單分類任務(wù)上取得與 BP 相當(dāng)?shù)男阅堋N覀冞€開(kāi)源了一個(gè)基于 JAX 的 PCN 訓(xùn)練 Python 庫(kù)。

總體而言,本論文顯著深化了我們對(duì) PCN 推理與學(xué)習(xí)動(dòng)力學(xué)的基礎(chǔ)理解;同時(shí)指出:若要使 PC 在規(guī)模上與 BP 競(jìng)爭(zhēng),未來(lái)研究亟需聚焦于硬件協(xié)同設(shè)計(jì)更具表達(dá)能力的網(wǎng)絡(luò)架構(gòu)。

1 引言
1.1 論文概述

本論文探討了一種訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN)的替代方法,而DNN是現(xiàn)代人工智能(AI)的基礎(chǔ)模型 [79]。當(dāng)前神經(jīng)網(wǎng)絡(luò)訓(xùn)練的標(biāo)準(zhǔn)方法是所謂的“誤差反向傳播”算法 [129](BP)。本質(zhì)上,BP是一種高效計(jì)算復(fù)雜函數(shù)導(dǎo)數(shù)的方法,其依賴于專用硬件(如圖形處理器GPU)和軟件庫(kù)(如PyTorch [113] 和JAX [18])。然而,BP存在若干固有局限。例如,BP需要存儲(chǔ)模型的前向計(jì)算圖,導(dǎo)致內(nèi)存和能耗效率低下 [38, 154, 150]。此外,BP是一種無(wú)法在模型各層之間并行化的串行算法 [69]。這些局限源于BP內(nèi)在的非局部性:任意權(quán)重的更新都依賴于網(wǎng)絡(luò)中所有下游層的信息?;谏鲜黾捌渌?,BP也被廣泛認(rèn)為“生物學(xué)上不可信”,即不太可能在大腦中實(shí)現(xiàn) [28, 89]。

本論文研究的替代算法稱為預(yù)測(cè)編碼(Predictive Coding,PC)[157, 131, 98, 99]。PC屬于一大類受大腦啟發(fā)、具有生物學(xué)合理性的學(xué)習(xí)算法,其中包括平衡傳播(equilibrium propagation)[138, 177]、目標(biāo)傳播(target propagation)[96]、前向?qū)W習(xí)(forward learning)[58] 等 [30, 114, 111, 88]。盡管這些算法在許多方面有所不同,但它們都共享一個(gè)區(qū)別于BP的關(guān)鍵特征:局部的、“類赫布式”(Hebbian-like)的權(quán)重更新,僅依賴相鄰神經(jīng)元之間的相互作用。

從高層次來(lái)看,PC基于這樣一個(gè)基本思想:大腦的運(yùn)作方式是通過(guò)一個(gè)關(guān)于環(huán)境的生成模型,不斷最小化其預(yù)測(cè)誤差。這一思想在計(jì)算神經(jīng)科學(xué)中有著悠久歷史。最初作為視網(wǎng)膜功能理論被提出 [147],后來(lái)發(fā)展為一種更通用的大腦信息處理原則 [104, 124, 42, 43, 44]。近年來(lái),自 [21, 14] 的開(kāi)創(chuàng)性教程起,PC開(kāi)始被探索作為一種可替代BP、且具有生物學(xué)合理性的學(xué)習(xí)算法。使用PC訓(xùn)練的DNN在分類、生成和記憶聯(lián)想等簡(jiǎn)單機(jī)器學(xué)習(xí)任務(wù)上已展現(xiàn)出與BP相當(dāng)?shù)男阅?[131, 98, 99]。此外,PC被認(rèn)為相較于BP具有一系列優(yōu)勢(shì) [146],包括更快的學(xué)習(xí)收斂速度,以及在在線學(xué)習(xí)和持續(xù)學(xué)習(xí)等更具生物學(xué)現(xiàn)實(shí)性的任務(wù)中表現(xiàn)更佳。PC網(wǎng)絡(luò)(PCNs)還支持任意計(jì)算圖 [133, 22],可執(zhí)行混合推理與因果推理 [132, 155],并可擴(kuò)展至處理時(shí)序任務(wù) [102]。

然而,本論文試圖解決的主要挑戰(zhàn)是:如何將PC及其他局部學(xué)習(xí)算法擴(kuò)展到非常深(10層以上)的網(wǎng)絡(luò),并應(yīng)用于ImageNet [32] 等大規(guī)模數(shù)據(jù)集(更不用說(shuō)在萬(wàn)億級(jí)token上訓(xùn)練的大語(yǔ)言模型)。局部算法很可能只有在模擬或神經(jīng)形態(tài)等非傳統(tǒng)數(shù)字硬件上才能實(shí)現(xiàn)實(shí)際擴(kuò)展(即在具備競(jìng)爭(zhēng)力的計(jì)算與內(nèi)存資源條件下)。我們將在結(jié)論部分(§7)再次討論這一點(diǎn)。盡管如此,本論文將表明,即使在標(biāo)準(zhǔn)GPU上研究PC,我們?nèi)阅茉诖四繕?biāo)上取得顯著進(jìn)展。

我們應(yīng)對(duì)PC擴(kuò)展挑戰(zhàn)的方式是理論與實(shí)驗(yàn)相結(jié)合。借鑒新興的深度學(xué)習(xí)理論領(lǐng)域 [90, 54, 127, 151, 119, 176],我們將采用優(yōu)化理論視角,并以深度線性網(wǎng)絡(luò)(DLNs)作為主要理論模型。事實(shí)上,本論文的許多貢獻(xiàn)在于將針對(duì)DLNs的優(yōu)化理論分析適配到PC框架中。該模型不僅將為實(shí)用PCN的推斷與學(xué)習(xí)動(dòng)態(tài)提供最具解釋力和預(yù)測(cè)力的理論(第4–5章),而且首次使我們能夠以極少調(diào)參、在簡(jiǎn)單任務(wù)上達(dá)到有競(jìng)爭(zhēng)力性能的前提下,將PC擴(kuò)展至100多層的網(wǎng)絡(luò)(第5章)。其他貢獻(xiàn)(詳見(jiàn)下文§1.2)包括:對(duì)PC作為信賴域優(yōu)化器(trust-region optimiser)的新穎詮釋(第3章),以及一個(gè)用于在JAX中訓(xùn)練PCN的開(kāi)源Python軟件包(第6章)。

1.1.1 結(jié)構(gòu)

本論文結(jié)構(gòu)如下:本章余下部分將詳細(xì)闡述本博士研究的各項(xiàng)貢獻(xiàn)。第2章回顧預(yù)測(cè)編碼網(wǎng)絡(luò)(PCNs),為后續(xù)章節(jié)奠定基礎(chǔ)。除結(jié)論和附錄外,其余各章均對(duì)應(yīng)不同的研究論文。第3章提出了一個(gè)近似理論,將預(yù)測(cè)編碼(PC)解釋為一種二階信賴域方法。第4章在此理論基礎(chǔ)上大幅推進(jìn),對(duì)PCN的學(xué)習(xí)景觀與動(dòng)態(tài)特性進(jìn)行了刻畫,并得出了令人驚訝且富有洞見(jiàn)的發(fā)現(xiàn)。在此基礎(chǔ)上,第5章對(duì)PCN的推斷景觀與動(dòng)態(tài)進(jìn)行了類似分析,并提出了“μPC”——一種新的PCN參數(shù)化方法,使得100多層網(wǎng)絡(luò)的穩(wěn)定訓(xùn)練成為可能。第6章介紹了JPC,這是一個(gè)為訓(xùn)練多種PCN而開(kāi)發(fā)的開(kāi)源Python庫(kù),本論文中的許多實(shí)驗(yàn)均基于此庫(kù)完成。每一章均配有詳盡的附錄,通常包括相關(guān)文獻(xiàn)綜述、技術(shù)推導(dǎo)、實(shí)驗(yàn)細(xì)節(jié)和補(bǔ)充圖表。最后,第7章總結(jié)全文,討論本論文的主要啟示與局限,并提出一些推測(cè)性展望。

1.2 貢獻(xiàn)聲明

本論文的主要貢獻(xiàn)如下,每一項(xiàng)均對(duì)應(yīng)一章及一篇論文(詳見(jiàn)表1.1的摘要):


  • 第3章 [63]:我們表明,盡管預(yù)測(cè)編碼(PC)顯式地僅使用一階(梯度)信息,其學(xué)習(xí)動(dòng)態(tài)可被理解為一種隱式的近似二階信賴域方法。該理論(i)比以往工作做出更少的假設(shè),(ii)為PC的工作機(jī)制提供了新的洞見(jiàn),(iii)并提出了一些新穎的神經(jīng)科學(xué)解釋。此項(xiàng)工作發(fā)表于[63],并在ICML 2023“局部學(xué)習(xí)”(Localized Learning)研討會(huì)上榮獲最佳論文獎(jiǎng)。相關(guān)ICML報(bào)告視頻可在此處觀看。
  • 第4章 [61]:在上述工作的基礎(chǔ)上大幅推進(jìn),我們通過(guò)刻畫PC實(shí)際學(xué)習(xí)所依賴的有效損失景觀的幾何結(jié)構(gòu),發(fā)展出一套更為精確的PCN學(xué)習(xí)動(dòng)態(tài)理論。針對(duì)全連接(非殘差)網(wǎng)絡(luò),我們證明PC實(shí)際上是在一個(gè)重縮放后的均方誤差損失上進(jìn)行學(xué)習(xí),該損失在特定條件下比原始損失更容易優(yōu)化。我們的理論(i)糾正了文獻(xiàn)中先前的一個(gè)錯(cuò)誤,(ii)對(duì)看似矛盾的已有發(fā)現(xiàn)提供了統(tǒng)一解釋,(iii)并提出了若干新預(yù)測(cè),且已通過(guò)實(shí)驗(yàn)驗(yàn)證。該工作已被NeurIPS 2024接收[61],并隨后作為“機(jī)器學(xué)習(xí)2025”特刊的一部分,發(fā)表于《統(tǒng)計(jì)力學(xué)雜志:理論與實(shí)驗(yàn)》(Journal of Statistical Mechanics: Theory and Experiment)。
  • 第5章 [60]:我們發(fā)展了一套類似的PCN推斷景觀與動(dòng)態(tài)理論,證明(i)隨著模型規(guī)模(寬度,尤其是深度)和訓(xùn)練時(shí)間的增加,推斷景觀會(huì)變得越來(lái)越病態(tài)(ill-conditioned);(ii)標(biāo)準(zhǔn)PCN的前向傳播隨深度增加趨于消失或爆炸。受這些發(fā)現(xiàn)啟發(fā),我們提出了μPC——一種新的PCN參數(shù)化方法,首次實(shí)現(xiàn)了在極少調(diào)參的情況下穩(wěn)定訓(xùn)練100多層的網(wǎng)絡(luò),并在簡(jiǎn)單分類任務(wù)上達(dá)到有競(jìng)爭(zhēng)力的性能。據(jù)我所知,此前尚無(wú)任何局部性或受腦啟發(fā)的學(xué)習(xí)算法成功訓(xùn)練過(guò)如此深度的網(wǎng)絡(luò)。這項(xiàng)工作為未來(lái)擴(kuò)展PC奠定了基礎(chǔ),已被NeurIPS 2025接收。
  • 第6章 [62]:我們推出了JPC [62]——一個(gè)基于JAX、用于訓(xùn)練多種PCN的Python庫(kù)。JPC已在 https://github.com/thebuckleylab/jpc 開(kāi)源,包含大量示例和詳細(xì)文檔。

盡管本論文作者是上述所有工作的主要貢獻(xiàn)者,但為明確起見(jiàn),各章末尾均包含一個(gè)專門說(shuō)明具體作者貢獻(xiàn)的小節(jié)。此外,我們還指出一項(xiàng)未納入本論文的博士期間成果:“A Simple Generalisation of the Implicit Dynamics of In-Context Learning”,該論文已被NeurIPS 2025 “What Can(’t) Transformers Do?” 研討會(huì)接收。

總體而言,本論文顯著深化了我們對(duì)PCN中推斷與學(xué)習(xí)及其相互作用機(jī)制的理解,并對(duì)擴(kuò)展PC及其他基于能量的學(xué)習(xí)算法具有明確的實(shí)際意義(詳見(jiàn)第7章討論)。任何未來(lái)試圖進(jìn)一步擴(kuò)展或深入理解PCN的工作都將受益于本研究。

2 預(yù)測(cè)編碼網(wǎng)絡(luò)(PCNs)

在本章中,我們將回顧預(yù)測(cè)編碼網(wǎng)絡(luò)(PCNs),作為后續(xù)章節(jié)的基礎(chǔ)。但請(qǐng)注意,我們的目標(biāo)是使每一章都自成體系,因此關(guān)鍵方程將被重新呈現(xiàn)。



其中,B 是批大小,或在訓(xùn)練過(guò)程中任意時(shí)刻擬合的數(shù)據(jù)點(diǎn)數(shù)量。為簡(jiǎn)化起見(jiàn),我們通常會(huì)省略數(shù)據(jù)索引 i。公式 2.1 并非可寫出的最通用形式的 PC 能量函數(shù),因?yàn)槿藗円部梢约僭O(shè)不同的層間函數(shù)(而非全連接)、每層多個(gè)變換以及非單位協(xié)方差。然而,本論文將專注于此公式化形式(及其細(xì)微變體),以忠實(shí)于實(shí)踐中訓(xùn)練的典型 PCN。另請(qǐng)注意,公式 2.1 可被重寫,以定義每個(gè)神經(jīng)元的能量,這不可避免地會(huì)導(dǎo)致關(guān)于活動(dòng)和權(quán)重的局部梯度。我們將使用來(lái)表示所有權(quán)重,其中 p 為參數(shù)總數(shù);并用 表示所有自由變化的活動(dòng),其中 H = L - 1 為隱層數(shù)量。我們還將根據(jù)上下文使用下標(biāo)來(lái)索引層或時(shí)間步。

出于理論研究目的,我們通常(但并非總是)會(huì)研究深度線性網(wǎng)絡(luò)(DLNs)1,假設(shè)每一層 ? 的激活函數(shù)均為恒等函數(shù) φ? = I。選擇這一模型有兩個(gè)主要原因:首先,線性特性使數(shù)學(xué)分析在許多方面更易于處理;其次,正如 [137] 最初著名地展示的那樣,DLNs 已被證明是研究非線性網(wǎng)絡(luò)的一個(gè)有用模型。正如我們將在第 4 和第 5 章看到的,盡管 DLNs 只能學(xué)習(xí)線性表示,但它們具有與非線性對(duì)應(yīng)物相似的非凸損失景觀和非線性學(xué)習(xí)動(dòng)態(tài)。

PCN 訓(xùn)練。要訓(xùn)練一個(gè) PCN,生成模型的觀測(cè)值需要被鉗制到某些目標(biāo)數(shù)據(jù)上,即 zL := y ∈ ???。這可以是一個(gè)用于分類的標(biāo)簽,或一張用于生成的圖像,這兩種設(shè)置通常分別被稱為判別式 PC 和生成式 PC。在監(jiān)督學(xué)習(xí)(相對(duì)于無(wú)監(jiān)督學(xué)習(xí))中,第一層也被固定為某個(gè)輸入,即 z0 := x ∈ ???。本論文的實(shí)驗(yàn)將聚焦于(監(jiān)督)判別式設(shè)置,但該理論通常可推廣至任何設(shè)置。請(qǐng)注意,不同論文會(huì)根據(jù)所關(guān)注的具體設(shè)置而使用不同的符號(hào)和術(shù)語(yǔ)。

一旦網(wǎng)絡(luò)輸出(以及可選的輸入)被鉗制到某些數(shù)據(jù)上,能量(公式 2.1)會(huì)以一種雙層期望最大化的方式被最小化 [31],我們將在下文詳細(xì)解釋。

推斷。在第一階段,給定某些權(quán)重 θ?,我們針對(duì)網(wǎng)絡(luò)的活動(dòng)(activities)來(lái)最小化能量:




其中,?θF 是能量關(guān)于權(quán)重的梯度,Pt 是某個(gè)預(yù)條件矩陣,η 是全局學(xué)習(xí)率。請(qǐng)注意,通過(guò)選擇單位預(yù)條件矩陣 Pt = I,可以恢復(fù)標(biāo)準(zhǔn)的梯度下降法(GD)。這一階段被稱為“學(xué)習(xí)”,原因顯而易見(jiàn),在實(shí)踐中通常使用 Adam 優(yōu)化器 [76] 來(lái)執(zhí)行。在一次權(quán)重更新后,我們用一個(gè)新的數(shù)據(jù)批次重新開(kāi)始優(yōu)化循環(huán)(為簡(jiǎn)化起見(jiàn),此處未展示),并重復(fù)此過(guò)程,通常直到我們?cè)谝恍╊A(yù)留樣本上對(duì)測(cè)試或泛化性能感到滿意為止。參見(jiàn)算法1以獲取部分偽代碼。這種雙層優(yōu)化的執(zhí)行方式反映了這樣一種直覺(jué):神經(jīng)元(活動(dòng))動(dòng)力學(xué)(公式2.2)比突觸(權(quán)重)動(dòng)力學(xué)(公式2.3)運(yùn)行在更快的時(shí)間尺度上。


正如上文所提及的,與BP不同,能量的活動(dòng)梯度和權(quán)重梯度都是局部的,僅需相鄰神經(jīng)元的信息。毫不夸張地說(shuō),本論文的重點(diǎn)在于理解(并改進(jìn))當(dāng)能量參數(shù)化標(biāo)準(zhǔn)DNN時(shí),這些耦合優(yōu)化問(wèn)題(公式2.2 & 2.3)。特別是,第3章和第4章關(guān)注學(xué)習(xí),而第5章則聚焦于推斷。需要特別指出的是,以往試圖理解PC的研究主要依賴于對(duì)能量的功能性分析 [101, 4],忽略了DNN豐富的結(jié)構(gòu)。正如我們將在第4章和第5章看到的,這種結(jié)構(gòu)對(duì)于解釋、預(yù)測(cè)和控制PCN的推斷與學(xué)習(xí)動(dòng)態(tài)至關(guān)重要。

PCN 測(cè)試。根據(jù)具體場(chǎng)景和任務(wù)目標(biāo)的不同,PCN 可以通過(guò)多種方式進(jìn)行測(cè)試。在任何監(jiān)督設(shè)置下(分類或生成),我們都可以像使用反向傳播(BP)一樣,通過(guò)對(duì)給定輸入執(zhí)行一次前向傳播來(lái)獲得預(yù)測(cè)結(jié)果。此外,由于 PCN 實(shí)現(xiàn)了一個(gè)生成模型,原則上我們可以將網(wǎng)絡(luò)的任意部分鉗制(clamp),并讓其推斷或“補(bǔ)全”所有未被固定的節(jié)點(diǎn)或?qū)拥幕顒?dòng)狀態(tài) [133]。這種方法可用于記憶聯(lián)想任務(wù)中補(bǔ)全被遮蔽的圖像、在給定圖像的情況下推斷標(biāo)簽(從而使單個(gè)網(wǎng)絡(luò)能夠同時(shí)執(zhí)行生成和分類任務(wù)),或在無(wú)監(jiān)督設(shè)置中推斷某種潛在表征 [157, 131, 98, 99]。

3 預(yù)測(cè)編碼作為信賴域優(yōu)化


3.1 摘要

預(yù)測(cè)編碼(Predictive Coding, PC)是一種受大腦啟發(fā)的局部學(xué)習(xí)算法,最近被認(rèn)為在具有生物學(xué)意義的任務(wù)中相比反向傳播(Backpropagation, BP)具有一定優(yōu)勢(shì)。盡管已有理論工作主要聚焦于PC在何種條件下可以近似或等同于BP,但標(biāo)準(zhǔn)PC與BP之間的差異仍缺乏深入理解。本文提出一種理論,將PC視為一種使用二階信息的近似自適應(yīng)信賴域(Trust-Region, TR)方法。我們證明,PC的權(quán)重梯度可被解釋為將BP損失梯度朝向由PC推斷動(dòng)態(tài)所計(jì)算出的信賴域方向進(jìn)行偏移。該理論表明,PC應(yīng)比BP更快地逃離鞍點(diǎn)——這一預(yù)測(cè)我們?cè)跍\層線性模型中予以證明,并通過(guò)深度網(wǎng)絡(luò)實(shí)驗(yàn)加以支持。本工作為理解PC其他被提出的優(yōu)點(diǎn)奠定了理論基礎(chǔ)。

3.2 引言

近年來(lái),大量研究致力于探索預(yù)測(cè)編碼(PC)在何種條件下可退化為反向傳播(BP)。這項(xiàng)工作始于 [160],其指出:在全連接網(wǎng)絡(luò)(或多層感知機(jī),MLP)上,當(dāng)先驗(yàn)(輸入)相對(duì)于觀測(cè)(輸出)被賦予更高權(quán)重時(shí),PC可近似BP所計(jì)算的梯度。[103] 將該結(jié)果推廣至任意計(jì)算圖,包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。隨后,一種在特定推斷時(shí)刻更新權(quán)重的PC變體被證明在MLP上與BP完全等價(jià) [145],該結(jié)論又被 [134] 和 [128] 進(jìn)一步推廣。最終,[100] 在基于能量模型(EBM)的某些平衡性質(zhì)下,統(tǒng)一了上述及其他近似結(jié)果。

另一方面,標(biāo)準(zhǔn)PC(未經(jīng)任何修改)與BP之間的差異遠(yuǎn)未被充分理解。[146] 提出,PC(以及更廣義的EBM)實(shí)現(xiàn)了一種根本不同的信用分配原則,稱為“前瞻性配置”(prospective configuration)。根據(jù)該原則,神經(jīng)元首先調(diào)整其活動(dòng)以更好地預(yù)測(cè)目標(biāo),然后更新權(quán)重以鞏固該活動(dòng)模式;這與BP中權(quán)重優(yōu)先于活動(dòng)的做法形成鮮明對(duì)比?;趶V泛的實(shí)證結(jié)果,[146] 指出PC相比BP可帶來(lái)一系列優(yōu)勢(shì),包括更快的學(xué)習(xí)收斂速度,以及在更具生物學(xué)現(xiàn)實(shí)性的場(chǎng)景(如在線學(xué)習(xí)和持續(xù)學(xué)習(xí))中表現(xiàn)更佳。

部分受到這一概念性原則的啟發(fā),近期研究開(kāi)始發(fā)展針對(duì)標(biāo)準(zhǔn)預(yù)測(cè)編碼(PC)的理論。例如,[101] 證明了:(i) 在線性情形下,PC 推斷的平衡點(diǎn)可被解釋為反向傳播(BP)前向傳播值與目標(biāo)傳播(Target Propagation, TP)[96] 所計(jì)算的局部目標(biāo)之間的平均;(ii) PC 能量函數(shù)的任意臨界點(diǎn)同時(shí)也是 BP 損失函數(shù)的臨界點(diǎn)。在在線設(shè)置下(即數(shù)據(jù)批次大小為1),[4] 表明:通過(guò)對(duì)各層活動(dòng)和參數(shù)學(xué)習(xí)率進(jìn)行特定重縮放,PC 可近似隱式梯度下降。在我撰寫本章所基于的論文期間,[3] 進(jìn)一步指出:當(dāng)該近似成立時(shí),PC 對(duì) Hessian 信息敏感(尤其在小學(xué)習(xí)率情況下)。盡管有這些成果,標(biāo)準(zhǔn) PC 與 BP 之間的根本關(guān)系仍未被完全闡明。

在上述研究基礎(chǔ)上,本文進(jìn)一步表明:PC 可被有效地理解為一種利用二階信息的近似自適應(yīng)信賴域(Trust-Region, TR)算法。具體而言,我們指出 PC 的推斷階段可被視為在 BP 損失上求解一個(gè)信賴域問(wèn)題,其信賴域由生成模型的 Fisher 信息定義(見(jiàn) §3.5)。隨后,PC 的權(quán)重梯度可被解釋為將 BP 計(jì)算出的損失梯度朝向該信賴域推斷解的方向偏移。我們的理論表明,PC 應(yīng)比 BP 更快地逃離鞍點(diǎn)——這是信賴域方法的一個(gè)廣為人知的特性 [27, 29, 167, 85, 105]。我們?cè)谝粋€(gè)簡(jiǎn)化模型中驗(yàn)證了這一預(yù)測(cè)(§3.4),并在深度網(wǎng)絡(luò)上提供了支持性實(shí)驗(yàn)(§3.6)。

本章其余部分結(jié)構(gòu)如下:在簡(jiǎn)要介紹 PC 與信賴域方法的相關(guān)背景之后(§3.3),我們通過(guò)一個(gè)簡(jiǎn)化模型來(lái)建立對(duì) PC 與 BP 差異的直觀理解(§3.4)。接著,§3.5 提出我們將 PC 視為信賴域方法的理論分析,隨后是與該理論一致的實(shí)驗(yàn)結(jié)果(§3.6)。最后,我們討論本工作的意義與局限性(§3.7)。所有推導(dǎo)、實(shí)驗(yàn)細(xì)節(jié)及補(bǔ)充圖表均移至附錄 A。

3.3 預(yù)備知識(shí)





3.4 一個(gè)簡(jiǎn)化模型



即使在這個(gè)簡(jiǎn)單設(shè)定中,我們也能觀察到兩種算法之間顯著的定性和定量差異。特別是,預(yù)測(cè)編碼(PC)似乎能夠避開(kāi)原點(diǎn)處的鞍點(diǎn),采取一條更直接的路徑通向最近的解流形。這一點(diǎn)體現(xiàn)在平衡態(tài)能量景觀的幾何結(jié)構(gòu)中:該景觀在朝向鞍點(diǎn)的方向上呈現(xiàn)出更平坦的“陷阱”,而在朝向解谷的方向上則具有更強(qiáng)的負(fù)曲率(即“逃逸”方向)。對(duì)于這個(gè)簡(jiǎn)化模型,可以很容易地證明:使用(隨機(jī))梯度下降法(SGD)時(shí),PC 比反向傳播(BP)更快地逃離該鞍點(diǎn)(見(jiàn)定理 A.1)。

更一般地,平衡態(tài)能量的梯度場(chǎng)似乎比損失函數(shù)的梯度場(chǎng)更貼近解的方向。事實(shí)上,圖 3.2 顯示,平均而言,PC 的更新方向比 BP 更接近且更可靠地指向最優(yōu)方向(即朝向最近的解)。


我們還觀察到,PC 的梯度下降(GD)動(dòng)態(tài)在接近極小值時(shí)似乎會(huì)變慢。在 1MLP 情形下,可以證明這是因?yàn)槠胶鈶B(tài)能量的極小值流形比損失函數(shù)的極小值流形更平坦(見(jiàn)定理 A.2)。一個(gè)推論是,在訓(xùn)練過(guò)程中,PC 在接近極小值時(shí)對(duì)權(quán)重?cái)_動(dòng)更具魯棒性(參見(jiàn)圖 A.2),這在更具生物學(xué)意義的在線學(xué)習(xí)場(chǎng)景中可能尤為重要。

總之,在這個(gè)簡(jiǎn)化示例中,我們表明 PC 的推斷(公式 3.1)有效地重塑了權(quán)重景觀的幾何結(jié)構(gòu),使得 GD:(i) 能更快地逃離原點(diǎn)處的鞍點(diǎn);(ii) 在接近極小值時(shí)收斂更慢,但對(duì)擾動(dòng)更具魯棒性。接下來(lái),我們將提出一個(gè)理論來(lái)解釋這些現(xiàn)象。然而,對(duì)這些觀察結(jié)果更精確、更具洞察力的解釋及其推廣,將在下一章中呈現(xiàn)。

3.5 PC 作為一種近似的二階信賴域方法




這一由推斷動(dòng)力學(xué)所求得的 TR 解,如何影響 PC 的權(quán)重梯度及其學(xué)習(xí)動(dòng)力學(xué)?回顧可知,在 PC 中權(quán)重通常是在活動(dòng)收斂后才進(jìn)行更新(§3.3.1)。因此,我們計(jì)算在上述剛推導(dǎo)出的近似推斷解處評(píng)估的能量的權(quán)重梯度(詳見(jiàn) §A.3):



3.6 實(shí)驗(yàn)

本節(jié)報(bào)告了一些與假設(shè)一致的實(shí)驗(yàn)結(jié)果,該假設(shè)已在1MLP模型中被證明(定理 A.1),并由我們將PC視為信賴域(TR)方法的理論分析所提出(§3.5)——即當(dāng)使用(S)GD時(shí),PC比BP能更快地逃離鞍點(diǎn)。

3.6.1 深層鏈?zhǔn)骄W(wǎng)絡(luò)


梯度消失/爆炸。我們將在第5章再次討論這一點(diǎn)。

根據(jù)先前的工作 [4, 146],在每次實(shí)驗(yàn)中我們都進(jìn)行了學(xué)習(xí)率網(wǎng)格搜索,以確保結(jié)果的任何差異并非源于PC與BP固有的不同最優(yōu)學(xué)習(xí)率(詳見(jiàn) §A.1.2)。下文我們繪制的是訓(xùn)練過(guò)程中的損失動(dòng)態(tài),而非測(cè)試結(jié)果,因?yàn)槲覀冴P(guān)注的是優(yōu)化動(dòng)力學(xué),而非泛化性能。盡管如此,測(cè)試損失結(jié)果在圖 A.3 中有報(bào)告。

驗(yàn)證我們的主要預(yù)測(cè),我們發(fā)現(xiàn):使用SGD時(shí),PC能夠比BP顯著更快地訓(xùn)練更深的鏈?zhǔn)骄W(wǎng)絡(luò)(圖3.3)。請(qǐng)注意,只要損失停止下降,訓(xùn)練即被終止。對(duì)于線性與Tanh激活函數(shù),我們觀察到BP的收斂速度會(huì)隨著層數(shù)增加而顯著變慢。我們還觀察到在深度增加時(shí)出現(xiàn)相變現(xiàn)象——這一現(xiàn)象也在深層線性網(wǎng)絡(luò)的損失動(dòng)力學(xué)中被觀察到 [137, 68]。最后,我們注意到BP和PC均無(wú)法訓(xùn)練非常深的鏈?zhǔn)骄W(wǎng)絡(luò)(H=15),這可能歸因于梯度消失/爆炸問(wèn)題。




3.7 討論

總之,我們表明,盡管預(yù)測(cè)編碼(PC)顯式地僅使用一階更新,但它可被理解為一種利用二階信息的近似自適應(yīng)信賴域方法。

3.7.1 啟示

我們的理論表明,使用 SGD 時(shí),PC 應(yīng)比 BP 更快地逃離鞍點(diǎn)——這一預(yù)測(cè)我們?cè)诤?jiǎn)化模型中得到了驗(yàn)證,并通過(guò)深度網(wǎng)絡(luò)實(shí)驗(yàn)提供了支持。這些結(jié)果與先前報(bào)道的 PC 相較于 BP 的加速現(xiàn)象一致 [146, 4]。例如,[146] 發(fā)現(xiàn),在使用 Adam 優(yōu)化器訓(xùn)練 Fashion-MNIST 數(shù)據(jù)集的 15 層 LeakyReLU 網(wǎng)絡(luò)( N = 64
)時(shí),PC 的收斂速度遠(yuǎn)快于 BP。在在線學(xué)習(xí)設(shè)置下(批次大小為 1),[4] 也在相對(duì)較淺( L = 3 )但更寬( N = 1024
)的 ReLU 網(wǎng)絡(luò)上進(jìn)行 CIFAR-10 分類與重建任務(wù)時(shí)觀察到了類似的加速效果。我們的理論從“更快逃離鞍點(diǎn)”的角度為這些結(jié)果提供了一種潛在解釋。下一章將對(duì)此預(yù)測(cè)進(jìn)行形式化并加以細(xì)化。

更一般地,我們的結(jié)果表明,PC 所利用的二階信息包含了損失景觀曲率的相關(guān)信息。與此相關(guān),[3] 表明在在線學(xué)習(xí)設(shè)置下,PC 可近似信賴域牛頓法(TRN)。然而需注意,我們的理論不依賴于批次大小,且實(shí)驗(yàn)證據(jù)表明,即使在大批次情況下,PC 也能利用二階信息。盡管如此,正如我們下文所述,下一章將揭示該理論的局限性。

雖然我們未深入探討這一點(diǎn),但我們的理論也可復(fù)現(xiàn)已有的關(guān)于 PC 近似 BP 或目標(biāo)傳播(TP)的結(jié)果——這些結(jié)果依賴于自下而上與自上而下信息之間的比例 [160, 101]。具體而言,調(diào)節(jié)這一比例可被視為調(diào)整信賴域的不同軸向,或等價(jià)地,調(diào)整逐參數(shù)的學(xué)習(xí)率(參見(jiàn)圖 A.5 的示意圖)。事實(shí)上,由于信賴域方法與線搜索方法之間存在對(duì)偶性 [27],我們的理論還可將 PC 解釋為一種自適應(yīng)梯度方法,在概念上類似于 Adam [76] 等當(dāng)前最先進(jìn)的深度學(xué)習(xí)優(yōu)化器。值得注意的是,已有研究表明,自適應(yīng)方法相比標(biāo)準(zhǔn) SGD 也能更快地逃離鞍點(diǎn) [148, 112]。

[122] 的近期工作表明,我們的理論或許可通過(guò)生物數(shù)據(jù)進(jìn)行檢驗(yàn)。作者指出,在某些假設(shè)下,權(quán)重更新的幾何結(jié)構(gòu)可從權(quán)重分布中推斷出來(lái),并提出標(biāo)準(zhǔn) GD 所定義的歐幾里得幾何與突觸權(quán)重經(jīng)驗(yàn)觀測(cè)到的對(duì)數(shù)正態(tài)分布不一致。這與我們的結(jié)果相符:PC 使用的是非歐幾里得(自然)幾何,其度量由 Fisher 信息給出。然而,要區(qū)分不同的非歐幾里得幾何,似乎需要學(xué)習(xí)前后的實(shí)驗(yàn)數(shù)據(jù),因?yàn)?[122] 表明,不同的幾何結(jié)構(gòu)在不同初始分布下可能導(dǎo)致相同的學(xué)后分布。

與此相關(guān),我們的研究也觸及了“大腦是否可能近似梯度下降(GD)”這一問(wèn)題。目前廣泛認(rèn)為,大腦會(huì)在某種目標(biāo)或損失函數(shù)上估計(jì)梯度 [93, 126, 89, 57, 125]。[125] 建議可通過(guò)考察突觸變化與特定任務(wù)損失的真實(shí)梯度之間的相關(guān)性來(lái)實(shí)驗(yàn)檢驗(yàn)這一主張。無(wú)論 PC 是否是大腦學(xué)習(xí)的良好模型,我們的結(jié)果表明:對(duì)局部目標(biāo)之和(此處為 PC 能量)執(zhí)行一階梯度更新,可導(dǎo)致對(duì)全局目標(biāo)的二階更新。這引出一種可能性:大腦或許可以通過(guò)對(duì)局部目標(biāo)之和執(zhí)行 GD 來(lái)利用損失的曲率信息。若果真如此,突觸變化可能不會(huì)與損失梯度直接相關(guān),而應(yīng)與二階更新進(jìn)行比較。

最后,我們的理論可被視為為“前瞻性配置”(prospective configuration)這一概念性原則 [146] 及其關(guān)聯(lián)的實(shí)證優(yōu)勢(shì)提供更堅(jiān)實(shí)理論基礎(chǔ)的重要一步。將此框架擴(kuò)展以解釋(甚至發(fā)現(xiàn))PC 的其他優(yōu)缺點(diǎn)(如對(duì)小批次的魯棒性、權(quán)重干擾減少等)將十分有趣。然而,在接下來(lái)的章節(jié)中,我們將論證:任何對(duì) PCN 推斷與學(xué)習(xí)動(dòng)態(tài)的嚴(yán)肅理論,都必須考慮神經(jīng)網(wǎng)絡(luò)豐富的架構(gòu)結(jié)構(gòu)。

3.7.2 局限性

如上所述,本理論的一個(gè)重要局限在于它僅在二階近似下成立(公式 3.4)。事實(shí)上,下一章我們將證明,PC 不僅利用了損失景觀的曲率信息,還利用了任意高階的信息。該理論的另一個(gè)弱點(diǎn)是:盡管適用于任意能量函數(shù),但它未考慮網(wǎng)絡(luò)的結(jié)構(gòu)或架構(gòu)——而下一章將表明這一點(diǎn)至關(guān)重要。此外,盡管本工作突顯了 PC 推斷機(jī)制的潛在優(yōu)勢(shì),但其計(jì)算成本仍然是一個(gè)主要限制,使其比 BP(至少在標(biāo)準(zhǔn) GPU 上)高出數(shù)個(gè)數(shù)量級(jí)。我們的結(jié)果通過(guò)揭示 Fisher 矩陣的隱式計(jì)算與求逆過(guò)程,為這一高昂的推斷成本提供了合理解釋。在這方面,我們注意到已有研究提出了攤銷式(amortised)PC 方案 [155],未來(lái)工作可進(jìn)一步探究是否能在采用攤銷策略的同時(shí)保留迭代推斷所帶來(lái)的優(yōu)勢(shì)。

原文鏈接: https://arxiv.org/pdf/2510.23323

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭(zhēng)議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭(zhēng)議

阿SIR觀察
2026-01-27 10:38:05
高詩(shī)巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩(shī)巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國(guó)手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

星耀國(guó)際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰(shuí)看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰(shuí)看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國(guó)成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國(guó)成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長(zhǎng)必看

牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長(zhǎng)必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無(wú)辜農(nóng)戶欲哭無(wú)淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無(wú)辜農(nóng)戶欲哭無(wú)淚

過(guò)了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國(guó)武器庫(kù)!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

突擊檢查全國(guó)武器庫(kù)!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭(zhēng)悲劇絕不能重演

愛(ài)吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

揚(yáng)子晚報(bào)
2026-01-27 21:52:52
性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機(jī)場(chǎng)“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬(wàn)

首都機(jī)場(chǎng)“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬(wàn)

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

瀟湘晨報(bào)
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

大風(fēng)新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒(méi)找到

爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒(méi)找到

魯中晨報(bào)
2026-01-27 16:23:14
沉默24小時(shí)后,卡尼終于發(fā)聲,與中國(guó)協(xié)議作廢,美財(cái)長(zhǎng)得寸進(jìn)尺

沉默24小時(shí)后,卡尼終于發(fā)聲,與中國(guó)協(xié)議作廢,美財(cái)長(zhǎng)得寸進(jìn)尺

天仙無(wú)味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來(lái)面對(duì)過(guò)的最強(qiáng)大國(guó)家

頭條要聞

美報(bào)告稱中國(guó)是其19世紀(jì)以來(lái)面對(duì)過(guò)的最強(qiáng)大國(guó)家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂(lè)要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

親子
本地
游戲
公開(kāi)課
軍事航空

親子要聞

雙職工家庭,孩子上幼兒園后,無(wú)老人幫忙,夫妻倆能獨(dú)立帶娃嗎?

本地新聞

云游中國(guó)|撥開(kāi)云霧,巫山每幀都是航拍大片

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美海軍"林肯"號(hào)航母打擊群抵達(dá)中東地區(qū)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版