網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

陶柯霏：神經(jīng)網(wǎng)絡中的頓悟

2026-01-26 15:12:59　來源: 人工智能學家

北京舉報

分享至

來源：集智俱樂部

作者：陶柯霏

1. 歷史

1.1 頓悟的發(fā)現(xiàn)

2. 相關基礎知識

2.1 神經(jīng)網(wǎng)絡的記憶（Memorization）與泛化（Generalization）

2.2 神經(jīng)網(wǎng)絡中的涌現(xiàn)（Emergent Abilities）

2.3 早停機制（Early Stop）

3. 頓悟的場景

3.1 模運算

3.2 其他算法任務

3.3 非算法任務

3.4 大語言模型

4. 頓悟現(xiàn)象的可解釋性分析

4.1 結構化表征

4.2 時鐘和披薩算法

4.3 控制權之爭

4.4 參數(shù)空間

4.5 特征學習

5. 促進頓悟的方法

5.1 權重范數(shù)

5.2 慢梯度增強(Slow Gradient Amplification)

5.3 頓悟彩票（Grokking Ticket）

5.4 基于預訓練或遷移的加速學習策略

6. 頓悟與其他現(xiàn)象的關聯(lián)

6.1 雙降（double descent）

6.2 大語言模型的涌現(xiàn)能力

6.3 反思與批判：頓悟和涌現(xiàn)可能只是“度量的幻覺”

你是否經(jīng)歷過學習中的“靈光一現(xiàn)”？其實，人工智能模型也有這樣的時刻。

神經(jīng)網(wǎng)絡中的頓悟（grokking）指的是一種反直覺的現(xiàn)象：當模型在訓練過程中看似已經(jīng)“死記硬背”（過擬合）而無法處理新數(shù)據(jù)時，如果我們不停止訓練、堅持讓它繼續(xù)“思考”，它可能會在某個臨界點突然“開竅”，從而掌握數(shù)據(jù)背后的真實規(guī)律，實現(xiàn)泛化能力的飛躍。

我們可以用一個學生做題的例子來理解：想象一個剛學加法的小孩，起初他只是把練習冊上的答案全背了下來（訓練準確率100%），但一旦遇到?jīng)]見過的數(shù)字就束手無策（測試準確率接近0%）。按照常規(guī)判斷，這個孩子只是在死記硬背。

然而，如果還要讓他繼續(xù)反復看這些題，經(jīng)過漫長的枯燥過程后，由于某種原因，他突然理解了加法的原理。那一瞬間，他不僅能背出舊題，也能完美解決所有新題。這種從死記硬背到真正理解的延遲性突變，就是頓悟。在神經(jīng)網(wǎng)絡中，體現(xiàn)為如下圖所示的泛化延遲：

頓悟現(xiàn)象的直觀展示：訓練和驗證集上準確率曲線間的上升延遲

1. 歷史

1.1 頓悟的發(fā)現(xiàn)

OpenAI在ICLR2021數(shù)學推理workshop中發(fā)布的論文《Grokking: Generalization beyond overfitting on small algorithmic datasets》[1]，首次引入了神經(jīng)網(wǎng)絡中的頓悟（grokking）概念。而頓悟現(xiàn)象的發(fā)現(xiàn)其實源于一個有趣的巧合：當 OpenAI 團隊開始探索神經(jīng)網(wǎng)絡如何進行數(shù)學運算時，他們使用一個小型 Transformer來進行模加法運算（( a + b ) mod p = c ），測試了 Transformer 在未知的 a 和 b 組合下能否正確預測答案 c 。正如預期，當網(wǎng)絡進入過擬合狀態(tài)時，訓練數(shù)據(jù)的損失接近于零（它開始記憶所見內(nèi)容），而測試數(shù)據(jù)的損失開始上升，即神經(jīng)網(wǎng)絡沒有泛化能力。然而，在一次實驗中，負責訓練神經(jīng)網(wǎng)絡的那位成員忘記了停止訓練，隨著長時間繼續(xù)訓練它突然在未見過數(shù)據(jù)上變得準確，測試數(shù)據(jù)的準確率飆升到接近100%，這說明模型已經(jīng)完全理解了運算規(guī)則。隨后，團隊使用不同的任務和不同的網(wǎng)絡驗證了結果，這一發(fā)現(xiàn)得到了證實。

2. 相關基礎知識

2.1 神經(jīng)網(wǎng)絡的記憶（Memorization）與泛化（Generalization）

記憶指網(wǎng)絡對訓練數(shù)據(jù)的擬合能力。強大的記憶力能讓模型在訓練集上表現(xiàn)完美，但如果過強，模型可能會記住數(shù)據(jù)所包含的噪聲或偶然細節(jié)，導致過擬合。泛化指模型將學到的規(guī)律應用到未見過的樣本上的能力，提升泛化能力是機器學習的核心目標。

記憶與泛化兩者需要平衡，既要有足夠容量去擬合數(shù)據(jù)中存在的真實模式，又要通過正則化、早停、交叉驗證等手段抑制過擬合。直觀地說，記憶像“背答案”，泛化像“學方法、會舉一反三”；實踐中人們通常以降低驗證誤差為目標，避免訓練誤差下降而驗證誤差上升的過擬合，也避免訓練與驗證誤差都高的欠擬合。

2.2 神經(jīng)網(wǎng)絡中的涌現(xiàn)（Emergent Abilities）

頓悟是一種特殊的涌現(xiàn)現(xiàn)象，表現(xiàn)為泛化能力的突然躍升，可以被視為一種時間維度上的涌現(xiàn)。在大語言模型（LLM）發(fā)展時代，神經(jīng)網(wǎng)絡中涌現(xiàn)的概念已經(jīng)引發(fā)了廣泛關注。已有研究者系統(tǒng)研究了不同模型的能力差異，將大模型的涌現(xiàn)定義為小型模型不具備、但突然出現(xiàn)在大型模型中的能力特征[2]。而頓悟則是隨著訓練時間（步數(shù)）的增加，模型能力發(fā)生的突變。兩者都展示了深度神經(jīng)網(wǎng)絡在跨過某個臨界閾值后，性能發(fā)生質(zhì)變的非線性特征。

2.3 早停機制（Early Stop）

為了防止過擬合，機器學習界長期遵循一個黃金法則：在驗證集性能不再提升時停止訓練。這種策略被稱為早停機制，是一種簡單有效的正則化方法：在訓練過程中持續(xù)監(jiān)控驗證集指標（如驗證損失或準確率），當該指標在若干輪內(nèi)不再改善即停止訓練，以防模型在訓練集上繼續(xù)降低損失、卻在驗證集上開始惡化而產(chǎn)生過擬合。

3. 頓悟的場景

起初，頓悟似乎只是簡單數(shù)學玩具模型的一個特性，但隨著研究深入，人們發(fā)現(xiàn)從圖像識別到大語言模型，頓悟無處不在。

3.1 模運算

最初關于模型頓悟的研究大多在Transformer執(zhí)行模運算任務上進行[1][3]。為什么選擇用模運算任務？是因為小型算法數(shù)據(jù)集在研究神經(jīng)網(wǎng)絡泛化能力上具有重要作用：它構成了一個代數(shù)結構嚴密且特征獨立的小樣本空間，且具有強烈的離散性；在數(shù)據(jù)有限、規(guī)則清晰的情況下，模型必須理解隱藏在數(shù)據(jù)中的模式和規(guī)律才能實現(xiàn)泛化，有助于快速驗證頓悟理論和假設，加深對神經(jīng)網(wǎng)絡泛化能力的理解。因此，模運算成為了觀察模型從“機械記憶”向“算法泛化”轉變的最佳受控實驗場，能清晰地展示泛化能力突變的動態(tài)過程。

模運算數(shù)據(jù)集通常由形如 a ° b mod p = c 的方程組成，其中每個元素" a "、" ° "、" b "、" m o d "、" p "、" = "和" c "均為獨立token，可寫作 < c >=< a >< o p >< b >< m o d >< p > ，其中 < o p > 是運算符，通常在一個任務中只有 a , b , c 三個數(shù)字變量，也有研究試驗了對于不同運算符的泛化效果。除了首次發(fā)現(xiàn)頓悟現(xiàn)象的模加法運算，研究者們已經(jīng)在以下多種類型模運算上進行了實驗，驗證了頓悟并非偶然的個例，而是一個真實存在的規(guī)律：

3.2 其他算法任務

除了模運算，研究者還在以下數(shù)學任務中觀察到了頓悟：

1. 群運算（Group Operations）：這是模運算的推廣。Chughtai 等人[4]訓練MLP模型在階數(shù)為 ∣ G ∣= n 的有限群上執(zhí)行群組合運算，發(fā)現(xiàn)模型表現(xiàn)出頓悟現(xiàn)象。該任務模型輸入為有序?qū)? ( a , b ) （其中 a , b ∈ G ），訓練目標是預測群元素 c = a b 。值得注意的是，模運算任務是該任務的特例——因為模113加法運算等價于113階循環(huán)群的組合運算。

2. n位k稀疏奇偶校驗（Parity Check）：這是一個典型離散搜索問題。Barak等人[5]通過大量實驗證明，使用標準初始化（均勻、高斯、伯努利）和標準訓練（SGD）的各種神經(jīng)網(wǎng)絡架構（包括 2 層 MLP、特定設計的單神經(jīng)元網(wǎng)絡、Transformer、PolyNet），能夠在訓練步數(shù)接近計算極限 n O ( k ) 的情況下，成功學習 k-稀疏 n 位奇偶函數(shù)，即從 n 個比特中找出 k 個關鍵比特，并計算它們的異或作為標簽。

2023年，Nanda等人[3]發(fā)現(xiàn)有限數(shù)據(jù)是頓悟現(xiàn)象的必要條件，而無限數(shù)據(jù)會導致模型直接泛化，并在以下三種運算中證實這一現(xiàn)象：

3. 5位數(shù)加法：該任務輸入兩個隨機生成的5位數(shù)（例如 12345 + 67890），模型需預測其和的每一位數(shù)字（如 80235 的 8,0,2,3,5）。在1層完整Transformer上，訓練數(shù)據(jù)限制為700個樣本時出現(xiàn)頓悟；使用隨機生成的無限數(shù)據(jù)時未出現(xiàn)頓悟。

4. 重復子序列預測：該任務生成均勻分布的隨機符號序列，隨機選擇子序列進行重復，訓練模型預測被重復的符號（如 7,2,8,3, 1,9,3,8,3, 1,9,9,2,5，其中 1,9 為重復子序列）。在2層僅注意力Transformer上，訓練數(shù)據(jù)限制為512個樣本時出現(xiàn)頓悟；使用隨機生成的無限數(shù)據(jù)時未出現(xiàn)頓悟，形成歸納頭后直接泛化。

5. 跳躍三元組（skip trigram）：該任務的輸入是由0到19構成的符號序列（其中恰好一個符號≥10），模型需輸出≥10的符號。如 [0,3,15,7,...,2]，模型需輸出該特殊token 15。在1層僅注意力Transformer上，訓練數(shù)據(jù)限制為512個樣本時出現(xiàn)頓悟；使用隨機生成的無限數(shù)據(jù)時未出現(xiàn)頓悟，而是直接學習了所有跳躍三元組規(guī)則。

3.3 非算法任務

頓悟不僅僅存在于完美的數(shù)學公式中，劉子鳴團隊在2022年[6]首次證明，頓悟現(xiàn)象是機器學習中更為普遍的現(xiàn)象，不僅出現(xiàn)在算法數(shù)據(jù)集上，也會出現(xiàn)在主流基準數(shù)據(jù)集中，例如MNIST數(shù)據(jù)集；并通過調(diào)整優(yōu)化超參數(shù)能夠?qū)崿F(xiàn)對頓悟的控制，發(fā)現(xiàn)顯式增加初始化權重范數(shù)會誘發(fā)頓悟現(xiàn)象，并在以下三種非算數(shù)任務上得到了證明[7]：

IMDb文本情感分析任務：該數(shù)據(jù)集包含5萬條需分類為正面或負面的電影評論。采用LSTM模型進行分類，該模型包含兩層結構，嵌入維度64，隱藏維度128。
分子QM9任務：該數(shù)據(jù)是小分子及其性質(zhì)的數(shù)據(jù)庫。采用圖卷積神經(jīng)網(wǎng)絡（GCNN）預測各向同性極化率。該GCNN包含2個帶ReLU激活的卷積層和1個線性層。
MNIST任務：在MNIST數(shù)據(jù)集上訓練寬度200、深度3的ReLU多層感知機（MLP），采用均方誤差損失。

除此之外，Abramov等人[8]提出定向數(shù)據(jù)合成方法，在基于真實維基百科的多跳問答（Multi-hop QA）任務中，實驗表明當比例系數(shù)超過特定閾值時，頓悟隨即出現(xiàn)。這意味著，不需要復雜的提示工程，只要給模型足夠的時間去頓悟，它就能自動學會進行多步推理。

3.4 大語言模型

現(xiàn)有關于頓悟的研究通常針對一兩個高度特定或玩具級任務訓練小型模型數(shù)千個周期，而Li等人[9]首次基于7B參數(shù)大語言模型（LLM）OLMoE的單次預訓練過程展開研究，他們計算OLMoE在預訓練數(shù)據(jù)上的訓練損失，并在多樣化基準任務（包括數(shù)學推理、代碼生成、常識/領域知識檢索任務）上評估其泛化性能，該研究首次證實頓悟現(xiàn)象在實用化大規(guī)?；A模型的預訓練中依然存在，但不同數(shù)據(jù)可能異步進入其頓悟階段。

4. 頓悟現(xiàn)象的可解釋性分析

盡管人工智能神經(jīng)網(wǎng)絡在各種任務中非常出色，但它們的內(nèi)部機制仍然像過去一樣難以理解。研究人員一直在尋找任何可以深入了解這些模型的線索。頓悟現(xiàn)象的發(fā)現(xiàn)促使了很多后續(xù)研究，很多人已經(jīng)復現(xiàn)了這些結果，甚至進行了逆向工程。最近發(fā)表的研究論文不僅闡明了這些神經(jīng)網(wǎng)絡在頓悟時正在做什么，還提供了一個新的視角來審視它們的內(nèi)部機制。麻省理工學院的 Eric Michaud 評價，頓悟現(xiàn)象中數(shù)據(jù)的設置就像是一個很好的模式生物，觀察這個生物體內(nèi)部有助于理解深度學習的許多不同方面?，F(xiàn)就職于倫敦谷歌深度思維的 Neel Nanda 也認為，挖掘模型頓悟的內(nèi)部原理，不僅能發(fā)現(xiàn)美麗的結構，而且這種美麗的結構對于理解內(nèi)部發(fā)生的事情非常重要[10]。這些模型內(nèi)部表征的研究揭示了神經(jīng)網(wǎng)絡在處理復雜任務時的內(nèi)部運作機制，進一步驗證了頓悟現(xiàn)象的可重復性和可解釋性。通過深入分析內(nèi)部結構，科學家們能夠更好地理解神經(jīng)網(wǎng)絡如何逐步構建和優(yōu)化其認知模型，從而為未來的AI研究提供了寶貴的理論基礎和實踐指導。

4.1 結構化表征

OpenAI團隊在發(fā)現(xiàn)頓悟最初就對模型輸出層的權重進行了可視化（使用t-SNE），發(fā)現(xiàn)網(wǎng)絡學到的符號嵌入中出現(xiàn)了可識別的數(shù)學結構[1]，例如下圖所示，在模加法任務中，嵌入空間中出現(xiàn)了圓形拓撲結構，表現(xiàn)出模運算的循環(huán)性質(zhì)；在對稱群S5任務中，嵌入空間中出現(xiàn)了子群和陪集的結構，顯示出神經(jīng)網(wǎng)絡對群結構的理解。

群運算和模加法運算的嵌入空間結構（左：群運算，右：模加法運算）。左圖為在S5群運算上訓練的網(wǎng)絡輸出層權重的t-SNE投影，可以觀察到排列的聚類，每個聚類都是子群 ? ( 0 , 3 ) ( 1 , 4 ) , ( 1 , 2 ) ( 3 , 4 ) ? 或其共軛子群的陪集。右圖是在模加法上訓練的網(wǎng)絡輸出層權重的t-SNE投影，線條表示每個元素加8的結果，顏色表示各元素模8的余數(shù)。模加法對應的圓環(huán)拓撲結構通過"將每個元素加8"形成的"數(shù)軸"得以呈現(xiàn)，這種結構在采用權重衰減優(yōu)化的網(wǎng)絡中表現(xiàn)得更為明顯。

盡管對于神經(jīng)網(wǎng)絡來說，輸入是無內(nèi)在先驗結構與意義的符號，網(wǎng)絡仍能從它們的交互中推斷出結構，并形成有意義的嵌入表示，這表明神經(jīng)網(wǎng)絡不僅能記憶訓練數(shù)據(jù)，還能從有限樣本中歸納出抽象關系。

劉子鳴在他們的論文[6]里更明確地指出，泛化的發(fā)生與輸入嵌入高度結構化的出現(xiàn)直接相關。他們發(fā)現(xiàn)，在玩具模型中，這種結構表現(xiàn)為嵌入向量形成平行四邊形結構；在模運算中，表現(xiàn)為圓形結構。當且僅當模型學到了這種結構，它才能進行泛化。為了精確衡量結構化程度，他們還提出了一個可量化的指標——表征質(zhì)量指數(shù)（RQI）。RQI 衡量的是學習到的嵌入在多大程度上滿足任務所要求的數(shù)學關系（例如，在加法中，檢查有多少 ( i , j , m , n ) 四元組滿足 E i + E j = E m + E n ）。實驗表明，RQI 與模型的泛化準確率高度一致，證實了結構化表征是泛化的直接原因。

4.2 時鐘和披薩算法

Nanda 的工作重點是逆向工程訓練好的神經(jīng)網(wǎng)絡，以弄清楚它學習了哪些算法[3]。他設計了一個更簡單的神經(jīng)網(wǎng)絡版本，以便在模型學習模塊化算術時仔細檢查其參數(shù)。他觀察到了相同的行為：過擬合逐漸讓位于泛化，測試準確率突然提高。他的網(wǎng)絡也在將數(shù)字排列成圓形。

經(jīng)過一番努力，Nanda最終弄清了原因。當將數(shù)字表示在圓形時鐘上時，網(wǎng)絡并不是像看時鐘的小學生那樣簡單地數(shù)數(shù)，而是在進行一些復雜的數(shù)學操作。通過研究網(wǎng)絡參數(shù)的值，Nanda和同事們發(fā)現(xiàn)，它通過對這些時鐘數(shù)字進行“離散傅里葉變換”來相加——使用正弦和余弦等三角函數(shù)轉換數(shù)字，然后利用三角恒等式對這些值進行操作以得出解決方案。

劉子鳴團隊繼續(xù)研究了Nanda的工作，他們展示了這些“理解”神經(jīng)網(wǎng)絡并不總是發(fā)現(xiàn)這個“時鐘”算法，有時會找到研究人員稱之為“披薩”的算法[11]。這種方法設想一個披薩被分成若干片并按順序編號，要加兩個數(shù)，想象從披薩中心指向所問數(shù)字的箭頭，然后計算由前兩個箭頭形成的角度的角平分線。這條線穿過披薩某一片的中間：這一片的編號就是兩個數(shù)的和。這些操作也可以用三角函數(shù)和代數(shù)操作來表示，即對 a 和 b 的正弦和余弦進行操作，理論上它們與時鐘方法一樣精確。時鐘和披薩算法的原理如下圖所示：

時鐘與披薩算法示意圖。左側為Clock算法，右側為Pizza算法。兩者均包含三個核心步驟：輸入嵌入（Embed）、中間計算（MLP/Transformer）、輸出預測（Unembed/Logit），但中間計算邏輯存在本質(zhì)差異。時鐘算法模擬時鐘指針相加:將 a 和 b 對應的角度直接相加，得到和 a + b 對應的角度，再映射到結果 c 。披薩算法通過 a 和 b 的平均值向量所在的“披薩切片"區(qū)域判斷結果。平均值向量的角度由 a + b 決定，長度由 a ? b 決定。

劉子鳴說：“時鐘算法和披薩算法都有這種循環(huán)表示，但是它們利用正弦和余弦的方式不同。這就是我們稱它們?yōu)椴煌惴ǖ脑?。”而且這還不是全部。在訓練多個網(wǎng)絡進行模運算后，他們發(fā)現(xiàn)，這些網(wǎng)絡中發(fā)現(xiàn)的大約40%的算法是披薩算法或時鐘算法的變種，而目前還無法精確破譯。對于披薩算法和時鐘算法，“它只是碰巧找到了一些我們能人類解讀的東西。”劉說道。

4.3 控制權之爭

研究人員也開始理解網(wǎng)絡頓悟數(shù)據(jù)的過程。Varma 等人指出，模型執(zhí)行任務時存在兩種機制：高效但學習慢的泛化機制，和低效但學習快的記憶算法。頓悟現(xiàn)象的突然性源于記憶機制與泛化算法之間主導性的轉換——只有當模型完全抑制了其記憶機制之后，泛化能力才會真正顯現(xiàn)出來，并且存在一個數(shù)據(jù)集規(guī)模的臨界值 crit [12]。因此，雖然泛化能力的延遲似乎突然出現(xiàn)，但網(wǎng)絡內(nèi)部參數(shù)實際上一直在學習泛化算法。只有當網(wǎng)絡既學會了泛化算法，又完全消除了記憶算法時，才能實現(xiàn)頓悟。Nanda說：“看似突然的事情，實際上可能表面之下是漸進的”，這個問題在其他機器學習研究中也出現(xiàn)過。

并且，由于臨界數(shù)據(jù)集規(guī)模 crit 決定記憶和泛化競爭結果，通過控制數(shù)據(jù)集規(guī)?？裳苌骖D悟（ungrokking）和半頓悟（semi-grokking）現(xiàn)象。逆頓悟現(xiàn)象是指若對已完成頓悟的網(wǎng)絡在新數(shù)據(jù)集（滿足 < crit 條件）上繼續(xù)訓練，網(wǎng)絡會退化為顯著記憶狀態(tài)，導致測試損失重新惡化。半頓悟是指當 ≈ crit 時，記憶算法與泛化算法在收斂過程中相互競爭，因此我們觀察到測試損失有所改善但未達完美。

進一步地，Huang等人[13]對記憶與泛化之爭產(chǎn)生的不同訓練動態(tài)進行了更詳細的定義和劃分，他們研究了模型隱空間維度和訓練數(shù)據(jù)量如何影響模型訓練動態(tài)，并根據(jù)這兩個參數(shù)繪制出相空間，每個區(qū)域?qū)獙嶒炛杏^察到的不同訓練動態(tài)，如下圖所示：

不同配置與訓練數(shù)據(jù)量下模型表現(xiàn)出的動態(tài)差異與相圖。左圖展示了隨著模型規(guī)模增大而提升的記憶能力與降低的臨界數(shù)據(jù)集規(guī)模，可以將圖像劃分為四個區(qū)域——漸進區(qū)、記憶區(qū)、半頓悟區(qū)和頓悟區(qū)。每個區(qū)域?qū)覀日故镜奶囟ㄓ柧殑討B(tài)特征，關鍵交點處標注了估計值。

各子圖呈現(xiàn)特定訓練動態(tài)如下：

(a)漸進區(qū)(progressing)：當訓練數(shù)據(jù)量超過模型記憶容量時，模型無法完全記憶所有數(shù)據(jù)，表現(xiàn)為先以零驗證精度盡可能記憶訓練數(shù)據(jù)，隨后在保持訓練精度提升的同時對部分驗證數(shù)據(jù)產(chǎn)生泛化能力；

(b)記憶區(qū)(memorization)：小規(guī)模訓練數(shù)據(jù)下，模型能完全記憶且記憶回路效率優(yōu)于泛化機制，因此僅表現(xiàn)為對訓練數(shù)據(jù)的記憶行為，驗證精度始終為零；

(c)半頓悟區(qū)(semi-grokking)：當訓練數(shù)據(jù)量接近臨界規(guī)模時，模型在完成全記憶后會表現(xiàn)出中等程度的泛化能力；

(d)頓悟區(qū)(grokking)：訓練數(shù)據(jù)量超越臨界規(guī)模后，泛化回路效率超越記憶機制，導致模型在訓練性能達到完美后經(jīng)歷長期延遲才實現(xiàn)從記憶到泛化的轉變。

4.4 參數(shù)空間

研究人員對頓悟過程的參數(shù)空間進行了一系列的分析，以探索模型內(nèi)部真實變化。最初科學家們發(fā)現(xiàn)，使用權重衰減的訓練方式能顯著提升嵌入的結構化程度[1]。權重范數(shù)（Weight Norms）最近的研究也認為參數(shù)權重的L2 norm是結構頓悟的重要量?？傮w上來說，訓練過程中范數(shù)（Norms）增長被作為神經(jīng)網(wǎng)絡泛化的關鍵因素之一進行了研究。通過分析權重范數(shù)，研究者也提出了關于頓悟現(xiàn)象的解釋：

研究者認為，訓練損失與測試損失景觀之間的不匹配是導致頓悟的原因[7]。兩者在權重范數(shù) w > w c 區(qū)域的不匹配導致快慢動力學機制，從而產(chǎn)生頓悟現(xiàn)象。在權重范數(shù)較大時，模型很容易過擬合訓練數(shù)據(jù)，使得訓練損失較低。只有在權重范數(shù)接近“Goldilocks zone”時，測試損失才較低，模型泛化性能較好。如果模型權重范數(shù)初始化為較大值，模型會首先快速移動到一個過擬合的解，因為此時訓練損失最小化，在沒有正則化的情況下模型會停留在過擬合的狀態(tài)，因為訓練損失在過擬合解的山谷中梯度幾乎為零，泛化不會發(fā)生。

由于訓練損失和測試損失（相對于模型權重范數(shù)）通常分別呈現(xiàn)“L”形和“U”形，人們將其稱為“LU機制”。這一簡單機制可以很好地解釋頓悟的諸多特征：數(shù)據(jù)規(guī)模依賴性、權重衰減依賴性、表征的涌現(xiàn)等?；谶@一直觀圖像，研究者們成功在涉及圖像、語言和分子的任務中誘導出了頓悟現(xiàn)象。

4.5 特征學習

而從訓練動力學的角度探索模型，可將神經(jīng)網(wǎng)絡的訓練動態(tài)分為兩個階段，惰性訓練動態(tài)和豐富的特征學習動態(tài)。在惰性訓練動態(tài)階段，網(wǎng)絡參數(shù) w 幾乎停留在初始點 w 0 附近，網(wǎng)絡行為接近一個關于參數(shù)的線性模型：網(wǎng)絡通過初始神經(jīng)切線核（NTK）提供的特征來擬合數(shù)據(jù)，此時訓練相當于進行一次固定核的核回歸（Kernel Regression）。隨著訓練推進，參數(shù)更新幅度逐漸增大，網(wǎng)絡不再保持線性近似。這時網(wǎng)絡不再依賴初始NTK，而是通過學習生成新的特征空間，更好地捕捉數(shù)據(jù)的結構。

為了讓訓練發(fā)生從惰性到特征學習的轉變，需要同時滿足：

初始特征未對齊（misaligned NTK）：若初始NTK特征與任務標簽方向接近，則惰性模型已能泛化，不會出現(xiàn)頓悟。
中等規(guī)模數(shù)據(jù)集
惰性初始（小步長 / 大 α 值）：訓練初期參數(shù)變化緩慢，維持線性化狀態(tài)，使得網(wǎng)絡需較長時間才過渡到特征學習階段。

這些條件共同導致訓練曲線出現(xiàn)延遲分離和突然收斂的頓悟現(xiàn)象[14]。

5. 促進頓悟的方法

促進頓悟這一系列研究旨在減少記憶與泛化之間的延遲效應，從而使模型更快泛化，從而也被叫做“消除頓悟”。

5.1 權重范數(shù)

其中的一個關鍵發(fā)現(xiàn)與權重范數(shù)有關，可以理解為模型參數(shù)的體積或規(guī)模。在可解釋性部分的參數(shù)空間小節(jié)，我們講過，研究者們認為存在一個“黃金泛化區(qū)”，當模型規(guī)模恰好處于這個區(qū)間時，最容易學到真本領。于是，他們想出了一個巧妙的辦法：在訓練期間，使用一種約束技術，將模型的體積始終固定在這個最佳區(qū)域附近[7]。這就好比直接為模型規(guī)劃好了最佳的學習路徑，讓它無法繞遠去死記硬背，從而被迫從一開始就尋找通用的解決方案，極大地縮短了從記憶到泛化的等待時間，實現(xiàn)了頓悟的消除。

5.2 慢梯度增強(Slow Gradient Amplification)

這項名為 Grokfast 的研究發(fā)現(xiàn)造成頓悟的原因在于梯度的頻率特性[15]：

快梯度（高頻信號）：像噪音一樣劇烈抖動，主要導致模型死記硬背訓練數(shù)據(jù)。
慢梯度（低頻信號）：像洋流一樣緩慢且堅定，這才是推動模型理解通用規(guī)律的關鍵力量。

該方法的解決思路非常巧妙，即“濾噪存真”：把訓練過程中的梯度看作隨時間變化的信號。他們引入了一個簡單的低通濾波器（Low-Pass Filter），過濾掉那些雜亂的快梯度，提取出代表長期趨勢的慢梯度，并將其人為放大疊加回去。結果顯示，這種慢梯度增強策略能讓模型頓悟的速度提升 50 倍，只需幾行代碼即可實現(xiàn)，無需昂貴的算力堆疊。

5.3 頓悟彩票（Grokking Ticket）

“頓悟彩票”（Grokking Ticket）這個方法橋接了兩個重要的神經(jīng)網(wǎng)絡研究領域：Lottery Ticket Hypothesis (LTH, 彩票假設) 和頓悟現(xiàn)象。LTH 認為，任何一個隨機初始化的大型神經(jīng)網(wǎng)絡（密集網(wǎng)絡）內(nèi)部，都包含一個或多個稀疏子網(wǎng)絡。這些子網(wǎng)絡如果單獨從原始權重初始化并訓練，能夠比完整網(wǎng)絡更快、更好地收斂，達到相似的甚至更高的性能。LTH 將這些優(yōu)秀的稀疏子網(wǎng)絡比喻為中獎的“彩票”（Winning Ticket）。這意味著成功的關鍵不在于網(wǎng)絡有多大，而在于在隨機初始化中“抽中”了哪個具備優(yōu)秀拓撲結構的子集。

研究者們認為頓悟的延遲現(xiàn)象，并非單純在等待權重衰減降低參數(shù)范數(shù)，而是在高維參數(shù)空間中搜索并鎖定一個具備泛化能力的稀疏子網(wǎng)絡結構。所謂的“彩票假設掩碼”方法，實際上是一種提取并利用后驗結構知識的過程[16]：

首先將一個密集網(wǎng)絡訓練至完全泛化狀態(tài)，此時網(wǎng)絡內(nèi)部的功能回路已經(jīng)形成。通過幅度剪枝（Magnitude Pruning），保留權重絕對值較大的連接，將其拓撲結構固化為一個二值掩碼（Binary Mask），然后將此掩碼應用于一個隨機初始化的網(wǎng)絡。這意味著在訓練伊始，就強行約束了網(wǎng)絡的拓撲結構，使其僅在被篩選出的特定子空間內(nèi)進行優(yōu)化。該方法之所以能消除泛化延遲，其核心機理包含兩個方面：

拓撲結構即泛化歸納偏置：實驗表明，通過掩碼鎖定的稀疏子網(wǎng)絡本身就編碼了任務所需的良好表征（如模運算任務中的周期性特征）。這種特定的拓撲結構即使在權重隨機初始化時，也具備了快速學習任務特征的能力。

解耦權重優(yōu)化與結構優(yōu)化：在標準訓練中，模型需要同時進行參數(shù)值的優(yōu)化和有效結構的篩選。應用掩碼后，模型直接跳過了漫長的“結構搜索”階段，使得訓練準確率與測試準確率同步上升，從而消除了延遲泛化。

5.4 基于預訓練或遷移的加速學習策略

1. 權重初始化

權重初始化的方法即用已頓悟的模型部件來給新模型“開小灶”，由于擁有更多先驗知識，模型得以提前頓悟[17]。方法的具體步驟如下：首先在簡單任務（如模加法）上預訓練一個Transformer直到其頓悟，然后將其組件（嵌入層或整個Transformer主體）取出，作為新模型在相關任務（如模減法、線性表達式）對應組件的初始化權重，并在后續(xù)訓練中保持這些權重凍結，以此利用不同任務間內(nèi)部表示與算法的相似性，顯著加速新任務的頓悟過程。但該方法的成功高度依賴于源任務和目標任務之間的相似性，對于更復雜的操作，簡單移植基礎算術的組件可能不足以提供有效的先驗知識，復雜任務可能需要發(fā)現(xiàn)全新的、更復雜的算法。

2. 嵌入遷移

Xu等人提出了 GrokTransfer[18]（嵌入遷移法），提供了消除延遲泛化的一個簡潔而強大的解決方案。其核心洞察是：決定模型能否快速泛化的關鍵，在于它對輸入數(shù)據(jù)的初始理解，即數(shù)據(jù)在模型嵌入層中如何被表示和編碼。

嵌入遷移法的步驟可以簡單理解為：

請教弱模型：首先，我們快速訓練一個更小、更弱的模型。這個弱模型雖然無法達到完美性能，但它能以更快的速度學到一個初步但有效的數(shù)據(jù)結構地圖（即數(shù)據(jù)的嵌入表示）。

知識遷移：接著，我們將這個弱模型學習到的、帶有有效結構信息的嵌入層參數(shù)提取出來。用這些參數(shù)來初始化我們真正想要訓練的那個更強大、更復雜的模型的嵌入層。

通過這種方式，強大的目標模型在訓練之初就獲得了高質(zhì)量的嵌入，不再需要從零開始摸索數(shù)據(jù)間的潛在聯(lián)系。它直接站在了弱模型的肩膀上，因此可以迅速從記憶階段進入泛化階段，大大加速甚至完全消除了原有的泛化延遲現(xiàn)象。

6. 頓悟與其他現(xiàn)象的關聯(lián)

6.1 雙降（double descent）

Belkin等人[19]提出的雙下降（Double Descent）現(xiàn)象揭示了模型驗證誤差隨規(guī)模變化的非單調(diào)模式：誤差先下降，隨后因過擬合噪聲而上升，最終隨著模型容量的進一步擴大而再次下降。Nakkiran等人[20]進一步在多種架構下驗證了這一現(xiàn)象，指出誤差峰值往往出現(xiàn)在訓練誤差趨近于零的臨界區(qū)間。

近期研究致力于將雙下降現(xiàn)象與頓悟現(xiàn)象聯(lián)系起來。Davies等人[21]提出了一種基于“規(guī)模-時間”對偶性的假說，認為兩者本質(zhì)上反映了模型對不同復雜度模式的學習速率差異：模型傾向于先快速擬合簡單的虛假相關性（導致第一次下降后回升），只有在長時間訓練或更大規(guī)模下，才能掌握復雜的泛化模式（導致第二次下降，也即頓悟）。

具體而言，這種關聯(lián)的表現(xiàn)形式受限于訓練數(shù)據(jù)量。當數(shù)據(jù)量不足（低于特定臨界點）時，模型隨規(guī)模擴大會經(jīng)歷“漸進期—記憶期—半頓悟期—頓悟期”四個階段，其中“記憶期”的性能惡化直接對應雙下降的峰值；反之，當數(shù)據(jù)量充足時，模型能夠跳過記憶期帶來的負面影響，直接從漸進期過渡到頓悟期，表現(xiàn)為泛化性能的單調(diào)提升。

Grokking 現(xiàn)象和雙重下降現(xiàn)象可以被視為同一學習機制在不同條件下的表現(xiàn)。它們都源于一個共同的學習動態(tài)：神經(jīng)網(wǎng)絡的歸納偏置更傾向于選擇那些泛化能力強但學習速度慢的模式，因此模型會經(jīng)歷一個從“快速學習但泛化差”的模式向“學習慢但泛化好”的模式過渡的過程。

6.2 大語言模型的涌現(xiàn)能力

從記憶與泛化的競爭視角來看，純記憶任務的存在會阻礙模型在記憶完所有訓練數(shù)據(jù)后完全轉向泛化階段。然而，當模型規(guī)模達到足夠大時，其記憶能力會顯著超過訓練數(shù)據(jù)量，它可以在記住大量信息的同時，借助其強大的內(nèi)存能力去總結和學習出泛化的規(guī)律，從而表現(xiàn)出記憶與泛化等功能分化。

該現(xiàn)象與當前大語言模型（LLM）中觀察到的涌現(xiàn)能力相呼應——由于預訓練階段也可視為多任務學習場景，模型必須在保留海量世界知識的同時，習得上下文學習和多步推理等通用規(guī)則與能力。這一觀察也闡釋了Huang等人提出的假設[13]：涌現(xiàn)能力是通過不同神經(jīng)回路的競爭形成的。盡管當前LLM的能力涌現(xiàn)由諸多復雜因素驅(qū)動，頓悟研究將為理解LLM的涌現(xiàn)能力提供新視角，并推動該領域的進一步研究。

Anthropic 的團隊發(fā)現(xiàn)，LLM 的上下文學習（In-context Learning）能力的涌現(xiàn)，恰好發(fā)生在模型頓悟了“歸納頭”這一特定電路結構的時刻[22]。研究發(fā)現(xiàn)，模型在訓練過程中會出現(xiàn)一個短暫的相變時刻（即頓悟）。在這個時刻，驗證集損失突然下降，同時上下文學習能力突然涌現(xiàn)。這種同步發(fā)生是因為模型學會了使用歸納頭（Induction Heads）——一種能夠通過查找前文來復制模式的注意力機制電路。這一發(fā)現(xiàn)強烈暗示，宏觀的涌現(xiàn)是由微觀電路層面的頓悟驅(qū)動的。

The Quantization Model of Neural Scaling這篇文章[23]提供了一個非常漂亮的理論框架，解釋了為什么學習曲線會呈現(xiàn)階梯狀（即包含頓悟和涌現(xiàn)），而不是平滑曲線。作者提出了“神經(jīng)縮放的量子化模型”（QMNS），他們認為，復雜的任務是由許多離散的“子技能”（Quanta）組成的。隨著模型規(guī)?；蛴柧殨r間增加，模型并非一點點學好所有知識，而是按順序攻克一個個子技能。每當模型徹底掌握一個關鍵子技能，即對該子技能發(fā)生頓悟，整體性能就會出現(xiàn)一次階躍，表現(xiàn)為能力的階段性涌現(xiàn)。將頓悟（時間的階躍）和涌現(xiàn)（規(guī)模的階躍）統(tǒng)一到了同一個離散特征學習的框架下。

6.3 反思與批判：頓悟和涌現(xiàn)可能只是“度量的幻覺”

Schaeffer指出，所謂的“尖銳的涌現(xiàn)”或“突然的頓悟”，可能并非模型本身隨規(guī)模增長而產(chǎn)生的本質(zhì)變化[24]，而是由于研究人員選擇的評估指標（如準確率、完全匹配等非線性或不連續(xù)指標）對模型逐詞錯誤率進行了非線性或不連續(xù)的縮放，從而在特定任務上制造出的假象；若改用線性或連續(xù)的指標（如詞編輯距離、Brier分數(shù)），則模型性能會呈現(xiàn)平滑、連續(xù)、可預測的提升趨勢，所謂的“涌現(xiàn)”現(xiàn)象也隨之消失。這暗示頓悟和涌現(xiàn)可能并非模型內(nèi)部發(fā)生了魔法般的突變，而是模型內(nèi)部一直在進行平滑的漸進式學習，只是在越過某個閾值后，才被我們粗糙的指標捕捉到。這提示我們需要從不同角度審視與探討頓悟現(xiàn)象。

參考文獻

Power A; Burda Y; Edwards H; Babuschkin I; Misra V (2022). "Grokking: Generalization beyond overfitting on small algorithmic datasets". arXiv.
Wei J; Tay Y; Bommasani R; Raffel C; Zoph B; Borgeaud S; Yogatama D; Bosma M; Zhou D; Metzler D; Chi E. H.; Hashimoto T; Vinyals O; Liang P; Dean J; Fedus W. (2022). "Emergent abilities of large language models". Transactions on Machine Learning Research. ISSN 2835-8856.
Nanda N; Chan L; Lieberum T; Smith J; Steinhardt J (2023). "Progress measures for grokking via mechanistic interpretability". International Conference on Learning Representations (ICLR).
Chughtai B; Chan L; Nanda N (2023). "A toy model of universality: Reverse engineering how networks learn group operations". International Conference on Machine Learning (ICML), PMLR.
Barak B; Edelman B; Goel S; Kakade S; Malach E; Zhang C (2022). "Hidden progress in deep learning: SGD learns parities near the computational limit". Advances in Neural Information Processing Systems. 35: 21750–21764.
Liu Z; Kitouni O; Nolte N S; Michaud E; Tegmark M; Williams M (2022). "Towards understanding grokking: An effective theory of representation learning" (PDF). Advances in Neural Information Processing Systems. 35: 34651–34663.
Liu Z; Michaud E J; Tegmark M (2023). "OMNIGROK: Grokking Beyond Algorithmic Data". International Conference on Learning Representations (ICLR).
Abramov R; Steinbauer F; Kasneci G (2025). "Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers". arXiv.
Li Z; Fan C; Zhou T (2025). "Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test". arXiv.
Pérez I (2024). "How Do Machines Grok Data?". Quanta Magazine.
Zhong Z; Liu Z; Tegmark M; Andreas J (2023). "The clock and the pizza: Two stories in mechanistic explanation of neural networks". Advances in Neural Information Processing Systems. 36: 27223–27250.
Varma V; Shah R; Kenton Z; Kramár J; Kumar R (2023). "Explaining Grokking Through Circuit Efficiency". arXiv.
Huang Y; Hu S; Han X; Liu Z; Sun M (2024). "Unified View of Grokking, Double Descent and Emergent Abilities: A Comprehensive Study on Algorithm Task". First Conference on Language Modeling.
Kumar T; Bordelon B; Gershman S?J; Pehlevan C (2024). "Grokking as the Transition from Lazy to Rich Training Dynamics". Twelfth International Conference on Learning Representations (ICLR).
Lee, J.; Kang, B.?G.; Kim, K.; Lee, K.?M. (2024). "Grokfast: Accelerated Grokking by Amplifying Slow Gradients". arXiv:2405.20233.
Minegishi G; Iwasawa Y; Matsuo Y (2023). "Bridging Lottery ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?". arXiv preprint arXiv:2310.19470.
Furuta, H.; Minegishi, G.; Iwasawa, Y.; Matsuo, Y. (2024). "Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials". Transactions on Machine Learning Research. ISSN 2835-8856.
Xu Z; Ni Z; Wang Y; Hu W (2025). "Let me grok for you: Accelerating grokking via embedding transfer from a weaker model". arXiv preprint arXiv:2504.13292.
Belkin M; Hsu D; Ma S; Mandal S (2019). "Reconciling modern machine-learning practice and the classical bias–variance trade-off". Proceedings of the National Academy of Sciences. 116 (32): 15849–15854.
Nakkiran P; Kaplun G; Bansal Y; Yang T; Barak B; Sutskever I (2021). "Deep double descent: Where bigger models and more data hurt". Journal of Statistical Mechanics: Theory and Experiment. 2021 (12): 124003.
Davies X; Langosco L; Krueger D (2023). "Unifying grokking and double descent". arXiv preprint arXiv:2303.06173.
Olsson C; Elhage N; Nanda N; Joseph N; DasSarma N; Henighan T; Mann B; Askell A; Bai Y; Chen A (2022). "In-context learning and induction heads". arXiv preprint arXiv:2209.11895.
Michaud E; Liu Z; Girit U; Tegmark M (2023). "The quantization model of neural scaling". Advances in Neural Information Processing Systems. 36: 28699–28722.
Schaeffer R; Miranda B; Koyejo S (2023). "Are emergent abilities of large language models a mirage?". Advances in Neural Information Processing Systems. 36: 55565–55581.

參考文獻可上下滑動查看

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.