網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

深思而非長(zhǎng)思：面向組合泛化的深度遞歸Transformer

2026-03-25 00:08:19　來源: CreateAMind

上海舉報(bào)

分享至

THINKING DEEPER, NOT LONGER: DEPTH-RECURRENTTRANSFORMERS FOR COMPOSITIONAL GENERALIZATION

深思而非長(zhǎng)思：面向組合泛化的深度遞歸Transformer

https://arxiv.org/pdf/2603.21676

摘要：

標(biāo)準(zhǔn) Transformer 具有固定的計(jì)算深度，根本性地限制了它們泛化到需要可變深度推理的任務(wù)的能力，例如多跳圖遍歷或嵌套邏輯。我們提出一種深度遞歸 Transformer，它通過在潛在空間中迭代應(yīng)用共享權(quán)重的 Transformer 塊，將計(jì)算深度與參數(shù)數(shù)量解耦——使模型能夠在推理時(shí)用遞歸步驟換取更深的推理。我們的架構(gòu)結(jié)合了三種機(jī)制以使深度遞歸（20+ 步）穩(wěn)定：(1) 一個(gè)靜默思考目標(biāo)，僅監(jiān)督最終輸出，迫使真正的多步推理而不是中間啟發(fā)式捷徑；(2) LayerScale 初始化，以保護(hù)脆弱的推理狀態(tài)免受未訓(xùn)練層噪聲的影響；以及 (3) 一個(gè)恒等偏差遞歸，它在許多步之間創(chuàng)建了一條梯度高速公路。我們?cè)谌齻€(gè)具有遞減歸納偏差的組合推理領(lǐng)域進(jìn)行評(píng)估：圖可達(dá)性（嚴(yán)格鄰接掩碼）、嵌套布爾邏輯（相對(duì)定位）以及非結(jié)構(gòu)化關(guān)系文本（其中序列位置不提供結(jié)構(gòu)提示）。在所有任務(wù)中，我們觀察到一個(gè)清晰的計(jì)算前沿——一個(gè)性能隨著思考步驟隨任務(wù)復(fù)雜度縮放而從偶然過渡到近乎完美的邊界。此外，這些任務(wù)揭示了定性不同的泛化行為：精確但脆弱（圖）、近似但魯棒（邏輯）以及沒有結(jié)構(gòu)提示的自主潛在路由（文本）。這一進(jìn)展闡明了任務(wù)不變的遞歸推理核心與任務(wù)特定的感知接口之間的相互作用如何塑造分布外（OOD）泛化，提供了關(guān)于垂直思維鏈的機(jī)制視角，補(bǔ)充了現(xiàn)行的水平令牌生成范式。

關(guān)鍵詞： 思維鏈 · CoT · 垂直思維鏈 · VCoT · 水平思維鏈 · HCoT · 大語言模型

1 引言

大型語言模型（LLM）已在廣泛的任務(wù)中取得了顯著性能，然而它們的推理能力仍然從根本上受到架構(gòu)的限制。當(dāng)面對(duì)需要多步邏輯推導(dǎo)的問題時(shí)——例如規(guī)劃、數(shù)學(xué)證明或算法執(zhí)行——當(dāng)前模型嚴(yán)重依賴思維鏈（CoT）提示（Wei 等人，2022），它將中間推理外部化為一系列生成的令牌。我們將這種范式稱為水平遞歸：模型通過水平擴(kuò)展輸出序列來“思考”，每個(gè)推理步驟消耗可用的上下文長(zhǎng)度。

盡管水平 CoT 已被證明非常有效，但它存在幾個(gè)根本性的限制。首先，每個(gè)推理步驟消耗一個(gè)或多個(gè)令牌，迅速耗盡有限的上下文窗口。其次，每個(gè)令牌位置可用的計(jì)算深度由 Transformer 層數(shù)固定，無論問題難度如何。一個(gè) 32 層的 Transformer 應(yīng)用恰好 32 層的處理，無論輸入是需要瑣碎的模式匹配還是深度遞歸評(píng)估。第三，因?yàn)橹虚g推理步驟是用自然語言生成的，它們受制于復(fù)合錯(cuò)誤——每個(gè)令牌預(yù)測(cè)都攜帶了幻覺或邏輯失誤的風(fēng)險(xiǎn)。

在這項(xiàng)工作中，我們提出了一種正交的范式，我們稱之為垂直思維鏈：不是在水平方向上生成更多令牌，模型通過在潛在空間中遞歸應(yīng)用共享權(quán)重的 Transformer 塊來“思考得更深”。這種方法將計(jì)算深度與參數(shù)數(shù)量和上下文長(zhǎng)度都解耦了。模型可以通過簡(jiǎn)單地增加推理期間的遞歸步驟，在更難的實(shí)例上投入更多計(jì)算，而無需生成任何額外的令牌或消耗額外的上下文窗口空間。

使深度遞歸工作的關(guān)鍵挑戰(zhàn)是穩(wěn)定性。天真地將 Transformer 塊展開許多步會(huì)導(dǎo)致梯度爆炸或消失，以及表示崩潰。我們通過三種互補(bǔ)機(jī)制來解決這些問題，順序從我們的推理目標(biāo)向下到物理約束：

靜默思考：我們僅在最終遞歸步驟應(yīng)用監(jiān)督，沒有中間輔助損失。這迫使模型開發(fā)真正的多步推理路徑，而不是學(xué)習(xí)滿足每步監(jiān)督的啟發(fā)式捷徑。
LayerScale 初始化：在注意力和前饋?zhàn)訉又?，每通道縮放初始化為 10?4。這防止初始隨機(jī)權(quán)重在早期訓(xùn)練期間破壞精心保存的隱藏狀態(tài)，充當(dāng)脆弱邏輯表示的空間保護(hù)。
恒等偏差遞歸：為了解決展開網(wǎng)絡(luò) 20+ 步的物理限制，我們使用門控遞歸，門偏差初始化為 ?2.0。Sigmoid 門開始于接近 0.12，強(qiáng)烈偏向于保留之前的隱藏狀態(tài)。這創(chuàng)建了一條時(shí)間梯度高速公路，使穩(wěn)定的信號(hào)傳播成為可能，作為無限深度的核心引擎。

為了系統(tǒng)地評(píng)估深度遞歸 Transformer 的能力，我們?cè)O(shè)計(jì)了三個(gè)呈漸進(jìn)序列的分布外（OOD）推理任務(wù)。我們從圖可達(dá)性開始，使用拓?fù)溲诖a提供嚴(yán)格的物理概念驗(yàn)證。然后我們通過嵌套布爾邏輯增加結(jié)構(gòu)復(fù)雜性，展示模型使用相對(duì)定位維持脆弱層次狀態(tài)的能力。最后，我們?cè)诜墙Y(jié)構(gòu)化文本上的關(guān)系組合任務(wù)中移除所有任務(wù)對(duì)齊的結(jié)構(gòu)歸納偏差，證明我們不變的推理核心可以自主發(fā)現(xiàn)自然語言中復(fù)雜的潛在路由路徑。選擇這些任務(wù)是因?yàn)樗鼈兊挠?jì)算深度是精確可控的，能夠?qū)崿F(xiàn)對(duì)泛化行為的嚴(yán)格分析。

我們的實(shí)驗(yàn)揭示了一種一致的模式，我們稱之為計(jì)算前沿：準(zhǔn)確性熱圖（思考步驟 × 任務(wù)復(fù)雜度）中的一條對(duì)角線邊界，性能在此處從偶然水平急劇過渡到近乎完美。此外，這三個(gè)任務(wù)在相同的遞歸核心下表現(xiàn)出定性不同的泛化輪廓，我們將其歸因于它們各自感知界面的不同歸納偏差。

我們的貢獻(xiàn)總結(jié)如下：

我們提出了一種具有靜默思考、LayerScale 和恒等偏差遞歸的深度遞歸 Transformer 架構(gòu)，能夠在少于 100 萬參數(shù)的情況下實(shí)現(xiàn)超過 20 步的穩(wěn)定遞歸。
我們展示了在三個(gè)具有不同歸納偏差的組合任務(wù)上的強(qiáng)大 OOD 泛化能力，實(shí)現(xiàn)了對(duì)嚴(yán)格長(zhǎng)于訓(xùn)練分布中推理深度的魯棒外推。
我們識(shí)別并分析了計(jì)算前沿現(xiàn)象，并展示了特定任務(wù)的感知界面如何產(chǎn)生定性不同的泛化行為（精確但脆弱 vs. 近似但魯棒）。
我們提供了證據(jù)表明中間監(jiān)督可能是有害的，導(dǎo)致模型學(xué)習(xí)在分布偏移下崩潰的啟發(fā)式捷徑。

2 相關(guān)工作

2.1 思維鏈與測(cè)試時(shí)計(jì)算

思維鏈提示（Wei 等人，2022）及其變體（Kojima 等人，2022；Wang 等人，2023）已成為 LLM 推理的主導(dǎo)范式。最近關(guān)于測(cè)試時(shí)計(jì)算擴(kuò)展的工作（Snell 等人，2025）進(jìn)一步表明，允許模型執(zhí)行更多的推理時(shí)計(jì)算可以提高性能。然而，所有這些方法都通過水平令牌生成操作，消耗與推理深度成比例的上下文窗口。我們的工作探索了一個(gè)正交軸——潛在空間中的垂直深度遞歸——實(shí)現(xiàn)了無需令牌開銷的測(cè)試時(shí)計(jì)算擴(kuò)展。

2.2 暫停令牌與潛在推理

Goyal 等人（2024）提出將可學(xué)習(xí)的“暫停令牌”附加到輸入中，使 Transformer 在產(chǎn)生輸出之前獲得額外的前向傳播計(jì)算。最近的工作，如 Coconut（Hao 等人，2024），也探索訓(xùn)練 LLM 在連續(xù)潛在空間中進(jìn)行推理。盡管這些與我們?cè)谕评頃r(shí)提供額外計(jì)算的動(dòng)機(jī)相同，但暫停令牌根本上仍然是水平的：它們?cè)谛蛄兄芯€性占據(jù)位置并消耗上下文窗口。此外，每個(gè)暫停令牌仍然通過相同固定數(shù)量的層進(jìn)行處理，因此每個(gè)位置的計(jì)算深度不變。相比之下，我們的方法通過重復(fù)應(yīng)用相同的塊直接增加深度。不同于將整個(gè)序列壓縮為單個(gè)瓶頸向量傳統(tǒng) RNN，我們?cè)诿恳徊蕉季S護(hù)一個(gè)全序列長(zhǎng)度的狀態(tài)矩陣，保留豐富的空間交互。此外，不同于通過附加新生成的令牌來消耗有限上下文窗口的水平 CoT，我們的遞歸嚴(yán)格在潛在空間中操作，而不增加序列長(zhǎng)度。

2.3 通用 Transformer

通用 Transformer（UT）（Dehghani 等人，2019）引入了跨層權(quán)重共享，并使用自適應(yīng)計(jì)算時(shí)間（ACT）（Graves，2016）進(jìn)行動(dòng)態(tài)停止。我們的工作建立在這個(gè)基礎(chǔ)之上，但在幾個(gè)關(guān)鍵方面有所不同。首先，我們使用僅最終步監(jiān)督（靜默思考）而不是每步損失，我們通過經(jīng)驗(yàn)表明這避免了啟發(fā)式捷徑學(xué)習(xí)。其次，我們結(jié)合 LayerScale（Touvron 等人，2021）以在早期訓(xùn)練期間保護(hù)潛在表示。第三，我們采用具有負(fù)偏差初始化的恒等偏差門控遞歸，而不是簡(jiǎn)單的殘差連接，我們發(fā)現(xiàn)這對(duì)于超過 10 個(gè)遞歸步驟的穩(wěn)定性至關(guān)重要。第四，我們不依賴 ACT 復(fù)雜的令牌級(jí)停止概率和沉思成本正則化（Graves，2016），而是完全解耦計(jì)算深度。通過將遞歸步數(shù) T T 視為外部指定的預(yù)算，我們的模型原生支持靈活的測(cè)試時(shí)計(jì)算擴(kuò)展，而無需優(yōu)化開銷。這些差異使得能夠?qū)崿F(xiàn)魯棒的分布外外推，而不僅僅是分布內(nèi)轉(zhuǎn)換。

2.4 Transformer 中的深度與表達(dá)能力

理論工作已經(jīng)確立 Transformer 深度是表達(dá)能力的關(guān)鍵因素。Merrill 和 Sabharwal（2024）表明固定深度的 Transformer 局限于 TC0 電路復(fù)雜度，這排除了固有的序列計(jì)算。Feng 等人（2023）進(jìn)一步證明，如果沒有足夠的層，深度高效的 Transformer 無法解決某些組合任務(wù)。通過遞歸使深度動(dòng)態(tài)可變，我們的架構(gòu)原生地繞過了 TC0 限制。這種解耦允許展開的推理步驟嚴(yán)格隨輸入的內(nèi)在序列復(fù)雜度縮放，使模型能夠解決固定深度網(wǎng)絡(luò)在數(shù)學(xué)上無法解決的固有序列任務(wù)——例如多跳路由和嵌套邏輯。

2.5 神經(jīng)算法推理與歸納偏差

神經(jīng)算法推理領(lǐng)域的研究強(qiáng)調(diào)，神經(jīng)網(wǎng)絡(luò)必須與目標(biāo)任務(wù)的算法原語對(duì)齊。圖神經(jīng)網(wǎng)絡(luò)（GNN）（Gilmer 等人，2017；Xu 等人，2019）通過邊上的消息傳遞實(shí)現(xiàn)這一點(diǎn)。我們證明，通過將其自注意力矩陣應(yīng)用鄰接掩碼，Transformer 可以完美模擬最優(yōu) GNN。我們?cè)陔S后的邏輯和非結(jié)構(gòu)化文本實(shí)驗(yàn)中逐漸移除這些結(jié)構(gòu)先驗(yàn)，以測(cè)試不變推理核心的極限。

3 方法

我們的架構(gòu)由兩個(gè)組件組成：一個(gè)任務(wù)特定的感知接口，它將原始輸入編碼為初始隱藏表示；以及一個(gè)任務(wù)不變的推理核心，它通過共享權(quán)重遞歸迭代地細(xì)化該表示。經(jīng)過 T T 個(gè)遞歸步驟——其中 T T 可以在推理時(shí)靈活縮放——一個(gè)任務(wù)特定的讀出頭提取最終預(yù)測(cè)。

3.1 不變推理核心

標(biāo)準(zhǔn)序列注意力（任務(wù)無關(guān)先驗(yàn)）。 為了測(cè)試推理核心在非結(jié)構(gòu)化序列（例如，自然語言事實(shí)）中自主發(fā)現(xiàn)潛在路由路徑的能力，我們移除了特定于任務(wù)的結(jié)構(gòu)偏差。雖然我們保留標(biāo)準(zhǔn)旋轉(zhuǎn)位置嵌入（RoPE）以允許感知接口處理局部詞序，但輸入事實(shí)被完全打亂。因此，不同于邏輯領(lǐng)域（其中相對(duì)距離直接與層次深度相關(guān)），這種事實(shí)包中的 1D 序列距離不提供關(guān)于底層關(guān)系圖的任何有意義結(jié)構(gòu)提示。不變推理核心必須完全依靠自己發(fā)現(xiàn)正確的指針追蹤路線。

3.3 任務(wù)特定的讀出機(jī)制

在潛在推理展開 T 步后，一個(gè)讀出頭解碼最終狀態(tài)。我們根據(jù)接口采用不同的讀出機(jī)制：

成對(duì)節(jié)點(diǎn)讀出（用于拓?fù)漕I(lǐng)域）：提取對(duì)應(yīng)于特定源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的 d 維表示，將其拼接，并通過 MLP 傳遞。
全局序列讀出（用于層次領(lǐng)域）：提取位置 0 處 [CLS] 令牌的全局表示，并通過線性分類器傳遞。
潛在指針讀出（用于非結(jié)構(gòu)化領(lǐng)域）：類似于成對(duì)讀出，提取查詢實(shí)體的表示并拼接。這種局部化讀出迫使無約束的注意力機(jī)制在序列中的特定實(shí)體之間主動(dòng)路由信息。

4 實(shí)驗(yàn)

我們?cè)谌齻€(gè)結(jié)構(gòu)歸納偏差遞減的組合推理領(lǐng)域評(píng)估我們的架構(gòu)：圖可達(dá)性、布爾邏輯和關(guān)系文本。LayerScale 僅在實(shí)驗(yàn) II 和 III 中采用，其中脆弱的符號(hào)狀態(tài)和更高的步數(shù)需要額外的穩(wěn)定性；圖任務(wù)依賴拓?fù)溲诖a進(jìn)行結(jié)構(gòu)正則化，不需要它。評(píng)估的推理步驟最大數(shù)量在這些任務(wù)中各不相同，反映了它們各自結(jié)構(gòu)復(fù)雜性的自然上限。每個(gè)圖都用虛線標(biāo)記了深度和思考步驟的訓(xùn)練邊界；這些范圍之外的軸代表分布外（OOD）評(píng)估。

4.1 實(shí)驗(yàn) I：圖可達(dá)性

給定一個(gè)有向圖 G = ( V , E )確定是否存在從節(jié)點(diǎn) s 到 t 的有向路徑。模型在需要 1–5 跳且使用 5–8 個(gè)思考步驟的實(shí)例上進(jìn)行訓(xùn)練，并評(píng)估高達(dá) 12 跳以測(cè)試 OOD 泛化能力。

如圖 1 所示，我們觀察到一個(gè)尖銳的計(jì)算前沿。準(zhǔn)確率從隨機(jī)到完美的轉(zhuǎn)變類似于階躍函數(shù)：在恰好 N 個(gè)思考步驟時(shí)，模型解決 N 次查詢。少一步，準(zhǔn)確率就跌至隨機(jī)水平。模型在高達(dá) 8 跳（1.6 倍）時(shí)實(shí)現(xiàn)了 100% 的 OOD 泛化，但在 10 跳時(shí)突然崩潰，表明拓?fù)溲诖a強(qiáng)制執(zhí)行了一個(gè)清晰、僵化的泛化邊界。在步驟維度上，模型在訓(xùn)練范圍以下（1–3 步）和以上（12–20 步）也都穩(wěn)定泛化，對(duì)角前沿相應(yīng)移動(dòng)。

給定一個(gè)脆弱的嵌套布爾表達(dá)式（例如，!((T&F)|(!(T|F)))），將其求值為 True 或 False?？s放模型寬度（ d = 256 ）并添加 LayerScale 使得在嵌套深度 1–8 上的成功訓(xùn)練成為可能。

如圖 2 所示，我們觀察到一個(gè)漸進(jìn)的計(jì)算前沿。模型在訓(xùn)練分布之外平穩(wěn)泛化，在深度 14（1.75 倍 OOD）時(shí)達(dá)到 >90% 的準(zhǔn)確率。與圖任務(wù)不同，準(zhǔn)確率隨著更多思考步驟單調(diào)增加而不會(huì)崩潰。模型不會(huì)“過度思考”或隨著高達(dá) 24 步的過度計(jì)算而退化（步驟維度的 OOD），證實(shí)了負(fù)門偏置的穩(wěn)定性。

4.3 實(shí)驗(yàn) III：非結(jié)構(gòu)化文本中的關(guān)系組合

為了在純語言建模范疇中測(cè)試推理核心的能力，我們?cè)谝粋€(gè) CLUTRR 風(fēng)格的家庭關(guān)系組合任務(wù)上對(duì)其進(jìn)行評(píng)估。輸入是一系列隨機(jī)打亂的自然語言句子，用于定義關(guān)系（例如，Alice is the parent of Bob），并填充矛盾干擾句以防止統(tǒng)計(jì)捷徑。模型必須回答像 Alice is the sibling of Eve 這樣的查詢。

天真地生成關(guān)系鏈（例如，嚴(yán)格使用父母或嚴(yán)格使用子女）允許模型通過簡(jiǎn)單地統(tǒng)計(jì)關(guān)系詞或檢測(cè)奇偶性來作弊。為了強(qiáng)制執(zhí)行真正的算法推導(dǎo)（指針追蹤和數(shù)學(xué)偏移抵消），我們使用頂點(diǎn)路由策略（Apex Routing Strategy）生成鏈：邏輯路徑必須首先沿家族樹向上移動(dòng)到共同祖先（使用 parent），然后向下移動(dòng)（使用 child）。我們?cè)谠~匯表中添加 sibling（偏移 0），以便正負(fù)偏移可以完美抵消。此外，我們仔細(xì)構(gòu)建困難負(fù)樣本——錯(cuò)誤選項(xiàng)被刻意設(shè)計(jì)為與真實(shí)答案共享表面統(tǒng)計(jì)特征（例如，使用 grandparent 作為 sibling 的干擾項(xiàng)，因?yàn)閮烧叨脊蚕砼紨?shù)步偏移）。通過確保這些干擾項(xiàng)嚴(yán)格匹配正確關(guān)系的奇偶性，我們堵住了任何淺層統(tǒng)計(jì)捷徑，迫使模型執(zhí)行真正的潛在路由而不是表面模式匹配。

模型在深度 2–5 和思考步驟 1–12 上進(jìn)行訓(xùn)練，并評(píng)估至深度 9 和思考步驟 20。

如圖 3 所示，結(jié)果揭示了三個(gè)關(guān)鍵見解。首先，單調(diào)難度：隨著推理深度增加，準(zhǔn)確率嚴(yán)格下降。由于所有奇偶校驗(yàn)捷徑都被移除，模型被迫執(zhí)行真正的潛在路由，這對(duì)于更長(zhǎng)的鏈自然變得更難。其次，計(jì)算前沿：對(duì)于任何給定深度，增加思考步驟數(shù)量嚴(yán)格提高準(zhǔn)確率（例如，在深度 5，準(zhǔn)確率從 1 步時(shí)的 63.8% 增加到 12 步時(shí)的 81.7%，在 20 步（OOD）時(shí)保持在 80.6% 穩(wěn)定）。第三，魯棒的 OOD 泛化：盡管缺乏任務(wù)對(duì)齊的結(jié)構(gòu)提示（沒有圖掩碼，且 1D 相對(duì)位置對(duì)于完全打亂的句子不提供捷徑），不變核心成功地泛化到深度 6 和 7，并隨著 OOD 思考步驟（16–20）進(jìn)一步提高，其中深度 7–9 看到適度但一致的提升，證明它可以在非結(jié)構(gòu)化文本中自主發(fā)現(xiàn)指針追蹤路線。

4.4 消融分析：中間監(jiān)督的危險(xiǎn)

改進(jìn)算法推理的一個(gè)自然假設(shè)是應(yīng)用中間監(jiān)督——在每個(gè)思考步驟計(jì)算并平均損失，以創(chuàng)建一條梯度高速公路。為了測(cè)試這一點(diǎn)，我們?cè)趫D可達(dá)性任務(wù)上將我們的靜默思考目標(biāo)與中間監(jiān)督基線進(jìn)行消融對(duì)比。該領(lǐng)域非常適合診斷，因?yàn)猷徑友诖a提供了物理上可驗(yàn)證的基準(zhǔn)真值：一個(gè)采取 k 步的模型只能聚合來自 k k 跳之外的信息。

如表 1 所示，中間監(jiān)督表現(xiàn)出一個(gè)明顯的異常：它在僅經(jīng)過一個(gè)思考步驟后，就在 12 條路徑上實(shí)現(xiàn)了超過 70% 的準(zhǔn)確率。在嚴(yán)格拓?fù)溲诖a下，一個(gè) 1 步模型絕對(duì)沒有關(guān)于 12 跳之外節(jié)點(diǎn)的信息；真實(shí)準(zhǔn)確率必須界限在 50% 附近。這在數(shù)學(xué)上證明了模型已經(jīng)放棄了真正的消息傳遞。相反，它學(xué)習(xí)統(tǒng)計(jì)啟發(fā)式方法——例如從圖密度或源節(jié)點(diǎn)的度估計(jì)可達(dá)性——以貪婪地最小化早期步驟的訓(xùn)練損失。

我們將此歸因于一種帶寬占用失效模式。當(dāng)在第 1 步受到懲罰時(shí)，模型面臨一個(gè)選擇：采用“誠實(shí)策略”（接受 50% 的早期準(zhǔn)確率以學(xué)習(xí)深度傳播）或“捷徑策略”（學(xué)習(xí)淺層啟發(fā)式方法以獲得即時(shí)獎(jiǎng)勵(lì)）。中間監(jiān)督使得捷徑變得不可抗拒。一旦致力于這些啟發(fā)式方法，模型就失去了開發(fā)真正序列算法的激勵(lì)，即使在測(cè)試時(shí)被授予大量步驟，也會(huì)在深度 OOD 路徑上失敗。

我們的靜默思考明確地移除了這種信用分配捷徑。通過僅在最終步驟計(jì)算損失，模型從早期步驟懲罰中解放出來。它被迫接受早期層中的隨機(jī)猜測(cè)性能，并將其全部表示能力投入到學(xué)習(xí)真正的潛在算法中。最終，在算法推理中——其中中間狀態(tài)代表不可觀察的潛在計(jì)算而不是語義特征——強(qiáng)制中間答案是主動(dòng)有害的。

5 結(jié)論

我們提出了一種實(shí)現(xiàn)垂直思維鏈的深度遞歸 Transformer 架構(gòu)——通過在潛在空間中迭代而不是生成令牌來進(jìn)行推理。通過靜默思考、LayerScale 和恒等偏差遞歸，我們實(shí)現(xiàn)了超過 20 步的穩(wěn)定遞歸。在圖可達(dá)性、嵌套布爾邏輯和非結(jié)構(gòu)化關(guān)系組合上的實(shí)驗(yàn)展示了強(qiáng)大的分布外泛化能力。這些任務(wù)之間的對(duì)比揭示了感知接口如何塑造共享推理核心的泛化輪廓。通過“思考得更深，而不是更長(zhǎng)”，模型可以實(shí)現(xiàn)可變的計(jì)算深度而不消耗上下文窗口，作為下一代語言模型的基礎(chǔ)構(gòu)建塊。

我們承認(rèn)幾個(gè)局限性。首先，我們使用相對(duì)較小的模型（<100 萬參數(shù)）。其次，感知接口是手動(dòng)設(shè)計(jì)的。第三，我們沒有提供關(guān)于泛化界限的形式理論保證；我們的證據(jù)是實(shí)證的。我們相信與預(yù)訓(xùn)練 LLM 的整合是未來工作最重要的方向。

原文鏈接：https://arxiv.org/pdf/2603.21676

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.