国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

深思而非長(zhǎng)思:面向組合泛化的深度遞歸Transformer

0
分享至

THINKING DEEPER, NOT LONGER: DEPTH-RECURRENTTRANSFORMERS FOR COMPOSITIONAL GENERALIZATION

深思而非長(zhǎng)思:面向組合泛化的深度遞歸Transformer

https://arxiv.org/pdf/2603.21676


摘要:

標(biāo)準(zhǔn) Transformer 具有固定的計(jì)算深度,根本性地限制了它們泛化到需要可變深度推理的任務(wù)的能力,例如多跳圖遍歷或嵌套邏輯。我們提出一種深度遞歸 Transformer,它通過在潛在空間中迭代應(yīng)用共享權(quán)重的 Transformer 塊,將計(jì)算深度與參數(shù)數(shù)量解耦——使模型能夠在推理時(shí)用遞歸步驟換取更深的推理。我們的架構(gòu)結(jié)合了三種機(jī)制以使深度遞歸(20+ 步)穩(wěn)定:(1) 一個(gè)靜默思考目標(biāo),僅監(jiān)督最終輸出,迫使真正的多步推理而不是中間啟發(fā)式捷徑;(2) LayerScale 初始化,以保護(hù)脆弱的推理狀態(tài)免受未訓(xùn)練層噪聲的影響;以及 (3) 一個(gè)恒等偏差遞歸,它在許多步之間創(chuàng)建了一條梯度高速公路。我們?cè)谌齻€(gè)具有遞減歸納偏差的組合推理領(lǐng)域進(jìn)行評(píng)估:圖可達(dá)性(嚴(yán)格鄰接掩碼)、嵌套布爾邏輯(相對(duì)定位)以及非結(jié)構(gòu)化關(guān)系文本(其中序列位置不提供結(jié)構(gòu)提示)。在所有任務(wù)中,我們觀察到一個(gè)清晰的計(jì)算前沿——一個(gè)性能隨著思考步驟隨任務(wù)復(fù)雜度縮放而從偶然過渡到近乎完美的邊界。此外,這些任務(wù)揭示了定性不同的泛化行為:精確但脆弱(圖)、近似但魯棒(邏輯)以及沒有結(jié)構(gòu)提示的自主潛在路由(文本)。這一進(jìn)展闡明了任務(wù)不變的遞歸推理核心與任務(wù)特定的感知接口之間的相互作用如何塑造分布外(OOD)泛化,提供了關(guān)于垂直思維鏈的機(jī)制視角,補(bǔ)充了現(xiàn)行的水平令牌生成范式。

關(guān)鍵詞: 思維鏈 · CoT · 垂直思維鏈 · VCoT · 水平思維鏈 · HCoT · 大語言模型

1 引言

大型語言模型(LLM)已在廣泛的任務(wù)中取得了顯著性能,然而它們的推理能力仍然從根本上受到架構(gòu)的限制。當(dāng)面對(duì)需要多步邏輯推導(dǎo)的問題時(shí)——例如規(guī)劃、數(shù)學(xué)證明或算法執(zhí)行——當(dāng)前模型嚴(yán)重依賴思維鏈(CoT)提示(Wei 等人,2022),它將中間推理外部化為一系列生成的令牌。我們將這種范式稱為水平遞歸:模型通過水平擴(kuò)展輸出序列來“思考”,每個(gè)推理步驟消耗可用的上下文長(zhǎng)度。

盡管水平 CoT 已被證明非常有效,但它存在幾個(gè)根本性的限制。首先,每個(gè)推理步驟消耗一個(gè)或多個(gè)令牌,迅速耗盡有限的上下文窗口。其次,每個(gè)令牌位置可用的計(jì)算深度由 Transformer 層數(shù)固定,無論問題難度如何。一個(gè) 32 層的 Transformer 應(yīng)用恰好 32 層的處理,無論輸入是需要瑣碎的模式匹配還是深度遞歸評(píng)估。第三,因?yàn)橹虚g推理步驟是用自然語言生成的,它們受制于復(fù)合錯(cuò)誤——每個(gè)令牌預(yù)測(cè)都攜帶了幻覺或邏輯失誤的風(fēng)險(xiǎn)。

在這項(xiàng)工作中,我們提出了一種正交的范式,我們稱之為垂直思維鏈:不是在水平方向上生成更多令牌,模型通過在潛在空間中遞歸應(yīng)用共享權(quán)重的 Transformer 塊來“思考得更深”。這種方法將計(jì)算深度與參數(shù)數(shù)量和上下文長(zhǎng)度都解耦了。模型可以通過簡(jiǎn)單地增加推理期間的遞歸步驟,在更難的實(shí)例上投入更多計(jì)算,而無需生成任何額外的令牌或消耗額外的上下文窗口空間。

使深度遞歸工作的關(guān)鍵挑戰(zhàn)是穩(wěn)定性。天真地將 Transformer 塊展開許多步會(huì)導(dǎo)致梯度爆炸或消失,以及表示崩潰。我們通過三種互補(bǔ)機(jī)制來解決這些問題,順序從我們的推理目標(biāo)向下到物理約束:

  1. 靜默思考:我們僅在最終遞歸步驟應(yīng)用監(jiān)督,沒有中間輔助損失。這迫使模型開發(fā)真正的多步推理路徑,而不是學(xué)習(xí)滿足每步監(jiān)督的啟發(fā)式捷徑。
  2. LayerScale 初始化:在注意力和前饋?zhàn)訉又?,每通道縮放初始化為 10?4。這防止初始隨機(jī)權(quán)重在早期訓(xùn)練期間破壞精心保存的隱藏狀態(tài),充當(dāng)脆弱邏輯表示的空間保護(hù)。
  3. 恒等偏差遞歸:為了解決展開網(wǎng)絡(luò) 20+ 步的物理限制,我們使用門控遞歸,門偏差初始化為 ?2.0。Sigmoid 門開始于接近 0.12,強(qiáng)烈偏向于保留之前的隱藏狀態(tài)。這創(chuàng)建了一條時(shí)間梯度高速公路,使穩(wěn)定的信號(hào)傳播成為可能,作為無限深度的核心引擎。

為了系統(tǒng)地評(píng)估深度遞歸 Transformer 的能力,我們?cè)O(shè)計(jì)了三個(gè)呈漸進(jìn)序列的分布外(OOD)推理任務(wù)。我們從圖可達(dá)性開始,使用拓?fù)溲诖a提供嚴(yán)格的物理概念驗(yàn)證。然后我們通過嵌套布爾邏輯增加結(jié)構(gòu)復(fù)雜性,展示模型使用相對(duì)定位維持脆弱層次狀態(tài)的能力。最后,我們?cè)诜墙Y(jié)構(gòu)化文本上的關(guān)系組合任務(wù)中移除所有任務(wù)對(duì)齊的結(jié)構(gòu)歸納偏差,證明我們不變的推理核心可以自主發(fā)現(xiàn)自然語言中復(fù)雜的潛在路由路徑。選擇這些任務(wù)是因?yàn)樗鼈兊挠?jì)算深度是精確可控的,能夠?qū)崿F(xiàn)對(duì)泛化行為的嚴(yán)格分析。

我們的實(shí)驗(yàn)揭示了一種一致的模式,我們稱之為計(jì)算前沿:準(zhǔn)確性熱圖(思考步驟 × 任務(wù)復(fù)雜度)中的一條對(duì)角線邊界,性能在此處從偶然水平急劇過渡到近乎完美。此外,這三個(gè)任務(wù)在相同的遞歸核心下表現(xiàn)出定性不同的泛化輪廓,我們將其歸因于它們各自感知界面的不同歸納偏差。

我們的貢獻(xiàn)總結(jié)如下:

  • 我們提出了一種具有靜默思考、LayerScale 和恒等偏差遞歸的深度遞歸 Transformer 架構(gòu),能夠在少于 100 萬參數(shù)的情況下實(shí)現(xiàn)超過 20 步的穩(wěn)定遞歸。
  • 我們展示了在三個(gè)具有不同歸納偏差的組合任務(wù)上的強(qiáng)大 OOD 泛化能力,實(shí)現(xiàn)了對(duì)嚴(yán)格長(zhǎng)于訓(xùn)練分布中推理深度的魯棒外推。
  • 我們識(shí)別并分析了計(jì)算前沿現(xiàn)象,并展示了特定任務(wù)的感知界面如何產(chǎn)生定性不同的泛化行為(精確但脆弱 vs. 近似但魯棒)。
  • 我們提供了證據(jù)表明中間監(jiān)督可能是有害的,導(dǎo)致模型學(xué)習(xí)在分布偏移下崩潰的啟發(fā)式捷徑。

2 相關(guān)工作

2.1 思維鏈與測(cè)試時(shí)計(jì)算

思維鏈提示(Wei 等人,2022)及其變體(Kojima 等人,2022;Wang 等人,2023)已成為 LLM 推理的主導(dǎo)范式。最近關(guān)于測(cè)試時(shí)計(jì)算擴(kuò)展的工作(Snell 等人,2025)進(jìn)一步表明,允許模型執(zhí)行更多的推理時(shí)計(jì)算可以提高性能。然而,所有這些方法都通過水平令牌生成操作,消耗與推理深度成比例的上下文窗口。我們的工作探索了一個(gè)正交軸——潛在空間中的垂直深度遞歸——實(shí)現(xiàn)了無需令牌開銷的測(cè)試時(shí)計(jì)算擴(kuò)展。

2.2 暫停令牌與潛在推理

Goyal 等人(2024)提出將可學(xué)習(xí)的“暫停令牌”附加到輸入中,使 Transformer 在產(chǎn)生輸出之前獲得額外的前向傳播計(jì)算。最近的工作,如 Coconut(Hao 等人,2024),也探索訓(xùn)練 LLM 在連續(xù)潛在空間中進(jìn)行推理。盡管這些與我們?cè)谕评頃r(shí)提供額外計(jì)算的動(dòng)機(jī)相同,但暫停令牌根本上仍然是水平的:它們?cè)谛蛄兄芯€性占據(jù)位置并消耗上下文窗口。此外,每個(gè)暫停令牌仍然通過相同固定數(shù)量的層進(jìn)行處理,因此每個(gè)位置的計(jì)算深度不變。相比之下,我們的方法通過重復(fù)應(yīng)用相同的塊直接增加深度。不同于將整個(gè)序列壓縮為單個(gè)瓶頸向量傳統(tǒng) RNN,我們?cè)诿恳徊蕉季S護(hù)一個(gè)全序列長(zhǎng)度的狀態(tài)矩陣,保留豐富的空間交互。此外,不同于通過附加新生成的令牌來消耗有限上下文窗口的水平 CoT,我們的遞歸嚴(yán)格在潛在空間中操作,而不增加序列長(zhǎng)度。

2.3 通用 Transformer

通用 Transformer(UT)(Dehghani 等人,2019)引入了跨層權(quán)重共享,并使用自適應(yīng)計(jì)算時(shí)間(ACT)(Graves,2016)進(jìn)行動(dòng)態(tài)停止。我們的工作建立在這個(gè)基礎(chǔ)之上,但在幾個(gè)關(guān)鍵方面有所不同。首先,我們使用僅最終步監(jiān)督(靜默思考)而不是每步損失,我們通過經(jīng)驗(yàn)表明這避免了啟發(fā)式捷徑學(xué)習(xí)。其次,我們結(jié)合 LayerScale(Touvron 等人,2021)以在早期訓(xùn)練期間保護(hù)潛在表示。第三,我們采用具有負(fù)偏差初始化的恒等偏差門控遞歸,而不是簡(jiǎn)單的殘差連接,我們發(fā)現(xiàn)這對(duì)于超過 10 個(gè)遞歸步驟的穩(wěn)定性至關(guān)重要。第四,我們不依賴 ACT 復(fù)雜的令牌級(jí)停止概率和沉思成本正則化(Graves,2016),而是完全解耦計(jì)算深度。通過將遞歸步數(shù) T T 視為外部指定的預(yù)算,我們的模型原生支持靈活的測(cè)試時(shí)計(jì)算擴(kuò)展,而無需優(yōu)化開銷。這些差異使得能夠?qū)崿F(xiàn)魯棒的分布外外推,而不僅僅是分布內(nèi)轉(zhuǎn)換。

2.4 Transformer 中的深度與表達(dá)能力

理論工作已經(jīng)確立 Transformer 深度是表達(dá)能力的關(guān)鍵因素。Merrill 和 Sabharwal(2024)表明固定深度的 Transformer 局限于 TC0 電路復(fù)雜度,這排除了固有的序列計(jì)算。Feng 等人(2023)進(jìn)一步證明,如果沒有足夠的層,深度高效的 Transformer 無法解決某些組合任務(wù)。通過遞歸使深度動(dòng)態(tài)可變,我們的架構(gòu)原生地繞過了 TC0 限制。這種解耦允許展開的推理步驟嚴(yán)格隨輸入的內(nèi)在序列復(fù)雜度縮放,使模型能夠解決固定深度網(wǎng)絡(luò)在數(shù)學(xué)上無法解決的固有序列任務(wù)——例如多跳路由和嵌套邏輯。

2.5 神經(jīng)算法推理與歸納偏差

神經(jīng)算法推理領(lǐng)域的研究強(qiáng)調(diào),神經(jīng)網(wǎng)絡(luò)必須與目標(biāo)任務(wù)的算法原語對(duì)齊。圖神經(jīng)網(wǎng)絡(luò)(GNN)(Gilmer 等人,2017;Xu 等人,2019)通過邊上的消息傳遞實(shí)現(xiàn)這一點(diǎn)。我們證明,通過將其自注意力矩陣應(yīng)用鄰接掩碼,Transformer 可以完美模擬最優(yōu) GNN。我們?cè)陔S后的邏輯和非結(jié)構(gòu)化文本實(shí)驗(yàn)中逐漸移除這些結(jié)構(gòu)先驗(yàn),以測(cè)試不變推理核心的極限。

3 方法

我們的架構(gòu)由兩個(gè)組件組成:一個(gè)任務(wù)特定的感知接口,它將原始輸入編碼為初始隱藏表示;以及一個(gè)任務(wù)不變的推理核心,它通過共享權(quán)重遞歸迭代地細(xì)化該表示。經(jīng)過 T T 個(gè)遞歸步驟——其中 T T 可以在推理時(shí)靈活縮放——一個(gè)任務(wù)特定的讀出頭提取最終預(yù)測(cè)。

3.1 不變推理核心







標(biāo)準(zhǔn)序列注意力(任務(wù)無關(guān)先驗(yàn))。 為了測(cè)試推理核心在非結(jié)構(gòu)化序列(例如,自然語言事實(shí))中自主發(fā)現(xiàn)潛在路由路徑的能力,我們移除了特定于任務(wù)的結(jié)構(gòu)偏差。雖然我們保留標(biāo)準(zhǔn)旋轉(zhuǎn)位置嵌入(RoPE)以允許感知接口處理局部詞序,但輸入事實(shí)被完全打亂。因此,不同于邏輯領(lǐng)域(其中相對(duì)距離直接與層次深度相關(guān)),這種事實(shí)包中的 1D 序列距離不提供關(guān)于底層關(guān)系圖的任何有意義結(jié)構(gòu)提示。不變推理核心必須完全依靠自己發(fā)現(xiàn)正確的指針追蹤路線。

3.3 任務(wù)特定的讀出機(jī)制

在潛在推理展開 T 步后,一個(gè)讀出頭解碼最終狀態(tài)。我們根據(jù)接口采用不同的讀出機(jī)制:

  • 成對(duì)節(jié)點(diǎn)讀出(用于拓?fù)漕I(lǐng)域):提取對(duì)應(yīng)于特定源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的 d 維表示,將其拼接,并通過 MLP 傳遞。
  • 全局序列讀出(用于層次領(lǐng)域):提取位置 0 處 [CLS] 令牌的全局表示,并通過線性分類器傳遞。
  • 潛在指針讀出(用于非結(jié)構(gòu)化領(lǐng)域):類似于成對(duì)讀出,提取查詢實(shí)體的表示并拼接。這種局部化讀出迫使無約束的注意力機(jī)制在序列中的特定實(shí)體之間主動(dòng)路由信息。

4 實(shí)驗(yàn)

我們?cè)谌齻€(gè)結(jié)構(gòu)歸納偏差遞減的組合推理領(lǐng)域評(píng)估我們的架構(gòu):圖可達(dá)性、布爾邏輯和關(guān)系文本。LayerScale 僅在實(shí)驗(yàn) II 和 III 中采用,其中脆弱的符號(hào)狀態(tài)和更高的步數(shù)需要額外的穩(wěn)定性;圖任務(wù)依賴拓?fù)溲诖a進(jìn)行結(jié)構(gòu)正則化,不需要它。評(píng)估的推理步驟最大數(shù)量在這些任務(wù)中各不相同,反映了它們各自結(jié)構(gòu)復(fù)雜性的自然上限。每個(gè)圖都用虛線標(biāo)記了深度和思考步驟的訓(xùn)練邊界;這些范圍之外的軸代表分布外(OOD)評(píng)估。

4.1 實(shí)驗(yàn) I:圖可達(dá)性

給定一個(gè)有向圖 G = ( V , E )確定是否存在從節(jié)點(diǎn) s 到 t 的有向路徑。模型在需要 1–5 跳且使用 5–8 個(gè)思考步驟的實(shí)例上進(jìn)行訓(xùn)練,并評(píng)估高達(dá) 12 跳以測(cè)試 OOD 泛化能力。

如圖 1 所示,我們觀察到一個(gè)尖銳的計(jì)算前沿。準(zhǔn)確率從隨機(jī)到完美的轉(zhuǎn)變類似于階躍函數(shù):在恰好 N 個(gè)思考步驟時(shí),模型解決 N 次查詢。少一步,準(zhǔn)確率就跌至隨機(jī)水平。模型在高達(dá) 8 跳(1.6 倍)時(shí)實(shí)現(xiàn)了 100% 的 OOD 泛化,但在 10 跳時(shí)突然崩潰,表明拓?fù)溲诖a強(qiáng)制執(zhí)行了一個(gè)清晰、僵化的泛化邊界。在步驟維度上,模型在訓(xùn)練范圍以下(1–3 步)和以上(12–20 步)也都穩(wěn)定泛化,對(duì)角前沿相應(yīng)移動(dòng)。


給定一個(gè)脆弱的嵌套布爾表達(dá)式(例如,!((T&F)|(!(T|F)))),將其求值為 True 或 False??s放模型寬度( d = 256 )并添加 LayerScale 使得在嵌套深度 1–8 上的成功訓(xùn)練成為可能。

如圖 2 所示,我們觀察到一個(gè)漸進(jìn)的計(jì)算前沿。模型在訓(xùn)練分布之外平穩(wěn)泛化,在深度 14(1.75 倍 OOD)時(shí)達(dá)到 >90% 的準(zhǔn)確率。與圖任務(wù)不同,準(zhǔn)確率隨著更多思考步驟單調(diào)增加而不會(huì)崩潰。模型不會(huì)“過度思考”或隨著高達(dá) 24 步的過度計(jì)算而退化(步驟維度的 OOD),證實(shí)了負(fù)門偏置的穩(wěn)定性。


4.3 實(shí)驗(yàn) III:非結(jié)構(gòu)化文本中的關(guān)系組合

為了在純語言建模范疇中測(cè)試推理核心的能力,我們?cè)谝粋€(gè) CLUTRR 風(fēng)格的家庭關(guān)系組合任務(wù)上對(duì)其進(jìn)行評(píng)估。輸入是一系列隨機(jī)打亂的自然語言句子,用于定義關(guān)系(例如,Alice is the parent of Bob),并填充矛盾干擾句以防止統(tǒng)計(jì)捷徑。模型必須回答像 Alice is the sibling of Eve 這樣的查詢。

天真地生成關(guān)系鏈(例如,嚴(yán)格使用父母或嚴(yán)格使用子女)允許模型通過簡(jiǎn)單地統(tǒng)計(jì)關(guān)系詞或檢測(cè)奇偶性來作弊。為了強(qiáng)制執(zhí)行真正的算法推導(dǎo)(指針追蹤和數(shù)學(xué)偏移抵消),我們使用頂點(diǎn)路由策略(Apex Routing Strategy)生成鏈:邏輯路徑必須首先沿家族樹向上移動(dòng)到共同祖先(使用 parent),然后向下移動(dòng)(使用 child)。我們?cè)谠~匯表中添加 sibling(偏移 0),以便正負(fù)偏移可以完美抵消。此外,我們仔細(xì)構(gòu)建困難負(fù)樣本——錯(cuò)誤選項(xiàng)被刻意設(shè)計(jì)為與真實(shí)答案共享表面統(tǒng)計(jì)特征(例如,使用 grandparent 作為 sibling 的干擾項(xiàng),因?yàn)閮烧叨脊蚕砼紨?shù)步偏移)。通過確保這些干擾項(xiàng)嚴(yán)格匹配正確關(guān)系的奇偶性,我們堵住了任何淺層統(tǒng)計(jì)捷徑,迫使模型執(zhí)行真正的潛在路由而不是表面模式匹配。

模型在深度 2–5 和思考步驟 1–12 上進(jìn)行訓(xùn)練,并評(píng)估至深度 9 和思考步驟 20。

如圖 3 所示,結(jié)果揭示了三個(gè)關(guān)鍵見解。首先,單調(diào)難度:隨著推理深度增加,準(zhǔn)確率嚴(yán)格下降。由于所有奇偶校驗(yàn)捷徑都被移除,模型被迫執(zhí)行真正的潛在路由,這對(duì)于更長(zhǎng)的鏈自然變得更難。其次,計(jì)算前沿:對(duì)于任何給定深度,增加思考步驟數(shù)量嚴(yán)格提高準(zhǔn)確率(例如,在深度 5,準(zhǔn)確率從 1 步時(shí)的 63.8% 增加到 12 步時(shí)的 81.7%,在 20 步(OOD)時(shí)保持在 80.6% 穩(wěn)定)。第三,魯棒的 OOD 泛化:盡管缺乏任務(wù)對(duì)齊的結(jié)構(gòu)提示(沒有圖掩碼,且 1D 相對(duì)位置對(duì)于完全打亂的句子不提供捷徑),不變核心成功地泛化到深度 6 和 7,并隨著 OOD 思考步驟(16–20)進(jìn)一步提高,其中深度 7–9 看到適度但一致的提升,證明它可以在非結(jié)構(gòu)化文本中自主發(fā)現(xiàn)指針追蹤路線。


4.4 消融分析:中間監(jiān)督的危險(xiǎn)

改進(jìn)算法推理的一個(gè)自然假設(shè)是應(yīng)用中間監(jiān)督——在每個(gè)思考步驟計(jì)算并平均損失,以創(chuàng)建一條梯度高速公路。為了測(cè)試這一點(diǎn),我們?cè)趫D可達(dá)性任務(wù)上將我們的靜默思考目標(biāo)與中間監(jiān)督基線進(jìn)行消融對(duì)比。該領(lǐng)域非常適合診斷,因?yàn)猷徑友诖a提供了物理上可驗(yàn)證的基準(zhǔn)真值:一個(gè)采取 k 步的模型只能聚合來自 k k 跳之外的信息。

如表 1 所示,中間監(jiān)督表現(xiàn)出一個(gè)明顯的異常:它在僅經(jīng)過一個(gè)思考步驟后,就在 12 條路徑上實(shí)現(xiàn)了超過 70% 的準(zhǔn)確率。在嚴(yán)格拓?fù)溲诖a下,一個(gè) 1 步模型絕對(duì)沒有關(guān)于 12 跳之外節(jié)點(diǎn)的信息;真實(shí)準(zhǔn)確率必須界限在 50% 附近。這在數(shù)學(xué)上證明了模型已經(jīng)放棄了真正的消息傳遞。相反,它學(xué)習(xí)統(tǒng)計(jì)啟發(fā)式方法——例如從圖密度或源節(jié)點(diǎn)的度估計(jì)可達(dá)性——以貪婪地最小化早期步驟的訓(xùn)練損失。


我們將此歸因于一種帶寬占用失效模式。當(dāng)在第 1 步受到懲罰時(shí),模型面臨一個(gè)選擇:采用“誠實(shí)策略”(接受 50% 的早期準(zhǔn)確率以學(xué)習(xí)深度傳播)或“捷徑策略”(學(xué)習(xí)淺層啟發(fā)式方法以獲得即時(shí)獎(jiǎng)勵(lì))。中間監(jiān)督使得捷徑變得不可抗拒。一旦致力于這些啟發(fā)式方法,模型就失去了開發(fā)真正序列算法的激勵(lì),即使在測(cè)試時(shí)被授予大量步驟,也會(huì)在深度 OOD 路徑上失敗。

我們的靜默思考明確地移除了這種信用分配捷徑。通過僅在最終步驟計(jì)算損失,模型從早期步驟懲罰中解放出來。它被迫接受早期層中的隨機(jī)猜測(cè)性能,并將其全部表示能力投入到學(xué)習(xí)真正的潛在算法中。最終,在算法推理中——其中中間狀態(tài)代表不可觀察的潛在計(jì)算而不是語義特征——強(qiáng)制中間答案是主動(dòng)有害的。

5 結(jié)論

我們提出了一種實(shí)現(xiàn)垂直思維鏈的深度遞歸 Transformer 架構(gòu)——通過在潛在空間中迭代而不是生成令牌來進(jìn)行推理。通過靜默思考、LayerScale 和恒等偏差遞歸,我們實(shí)現(xiàn)了超過 20 步的穩(wěn)定遞歸。在圖可達(dá)性、嵌套布爾邏輯和非結(jié)構(gòu)化關(guān)系組合上的實(shí)驗(yàn)展示了強(qiáng)大的分布外泛化能力。這些任務(wù)之間的對(duì)比揭示了感知接口如何塑造共享推理核心的泛化輪廓。通過“思考得更深,而不是更長(zhǎng)”,模型可以實(shí)現(xiàn)可變的計(jì)算深度而不消耗上下文窗口,作為下一代語言模型的基礎(chǔ)構(gòu)建塊。

我們承認(rèn)幾個(gè)局限性。首先,我們使用相對(duì)較小的模型(<100 萬參數(shù))。其次,感知接口是手動(dòng)設(shè)計(jì)的。第三,我們沒有提供關(guān)于泛化界限的形式理論保證;我們的證據(jù)是實(shí)證的。我們相信與預(yù)訓(xùn)練 LLM 的整合是未來工作最重要的方向。

原文鏈接:https://arxiv.org/pdf/2603.21676

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
杜月笙在河邊釣魚,遇到地痞要保護(hù)費(fèi),杜月笙:找你們老板過來

杜月笙在河邊釣魚,遇到地痞要保護(hù)費(fèi),杜月笙:找你們老板過來

千秋文化
2026-03-25 21:29:50
2026 世界杯最強(qiáng)攻擊線TOP 10 ,阿根廷僅第 5,第一毫無懸念

2026 世界杯最強(qiáng)攻擊線TOP 10 ,阿根廷僅第 5,第一毫無懸念

瀾歸序
2026-03-29 04:03:53
小孩子能口無遮攔到什么程度!網(wǎng)友:恨不得當(dāng)場(chǎng)找個(gè)地縫鉆進(jìn)去

小孩子能口無遮攔到什么程度!網(wǎng)友:恨不得當(dāng)場(chǎng)找個(gè)地縫鉆進(jìn)去

夜深愛雜談
2026-03-28 19:52:52
現(xiàn)在國(guó)企的工作也不是那么好干啊

現(xiàn)在國(guó)企的工作也不是那么好干啊

微微熱評(píng)
2026-03-28 21:57:50
為娶學(xué)生拋棄懷孕發(fā)妻,16年后出軌他人妻,卻說:我從不玩弄女性

為娶學(xué)生拋棄懷孕發(fā)妻,16年后出軌他人妻,卻說:我從不玩弄女性

歷史人文2
2026-03-28 13:24:06
伊朗鋼鐵工業(yè)被重創(chuàng)!三大鋼廠遭“地毯轟炸”,70%產(chǎn)能一夜歸零

伊朗鋼鐵工業(yè)被重創(chuàng)!三大鋼廠遭“地毯轟炸”,70%產(chǎn)能一夜歸零

說歷史的老牢
2026-03-28 21:54:21
4月1日起,高血壓糖尿病患者必辦三件事,藥費(fèi)直接省一半

4月1日起,高血壓糖尿病患者必辦三件事,藥費(fèi)直接省一半

今日養(yǎng)生之道
2026-03-28 07:00:22
中國(guó)拒絕出席G7峰會(huì),法國(guó)表示將采取措施應(yīng)對(duì)

中國(guó)拒絕出席G7峰會(huì),法國(guó)表示將采取措施應(yīng)對(duì)

二大爺觀世界
2026-03-28 22:45:28
王思懿在采訪里親口承認(rèn),當(dāng)年拍水滸時(shí)和演武松的丁海峰真動(dòng)了心

王思懿在采訪里親口承認(rèn),當(dāng)年拍水滸時(shí)和演武松的丁海峰真動(dòng)了心

東方不敗然多多
2026-03-29 10:05:42
東契奇交易的最大受害者!私人飛機(jī)變公共航空,庫班引狼入室被坑

東契奇交易的最大受害者!私人飛機(jī)變公共航空,庫班引狼入室被坑

你的籃球頻道
2026-03-29 07:39:35
突發(fā)!3次了!禁賽東契奇!

突發(fā)!3次了!禁賽東契奇!

左右為籃
2026-03-29 10:57:22
李梓萌,私生活傳聞太荒唐

李梓萌,私生活傳聞太荒唐

做一個(gè)合格的吃瓜群眾
2026-03-21 19:20:55
委內(nèi)瑞拉石油,引爆美方4個(gè)煉油廠,特朗普做的孽,終于來了報(bào)應(yīng)

委內(nèi)瑞拉石油,引爆美方4個(gè)煉油廠,特朗普做的孽,終于來了報(bào)應(yīng)

阿握聊事
2026-03-28 12:27:56
伊朗:擊中一架美國(guó)F-16戰(zhàn)斗機(jī),一架美國(guó)MQ-9無人機(jī);擊斃5名“恐怖分子”,抓捕19名美以雇傭兵

伊朗:擊中一架美國(guó)F-16戰(zhàn)斗機(jī),一架美國(guó)MQ-9無人機(jī);擊斃5名“恐怖分子”,抓捕19名美以雇傭兵

臺(tái)州交通廣播
2026-03-29 00:55:06
張水華被男選手跟跑!比賽解說怒斥:沒有紳士風(fēng)度 想蹭她的熱度

張水華被男選手跟跑!比賽解說怒斥:沒有紳士風(fēng)度 想蹭她的熱度

念洲
2026-03-29 08:30:55
皇家馬德里中場(chǎng)大將后悔做出手術(shù)決定

皇家馬德里中場(chǎng)大將后悔做出手術(shù)決定

本澤體育
2026-03-29 08:51:36
湖人87-109大勝助西部三隊(duì)受益,火箭重獲主動(dòng)權(quán)

湖人87-109大勝助西部三隊(duì)受益,火箭重獲主動(dòng)權(quán)

余蹮搞笑段子
2026-03-29 08:58:56
向華強(qiáng)談張雪峰突然離世,直言其飲食不健康,重油重鹽有大問題

向華強(qiáng)談張雪峰突然離世,直言其飲食不健康,重油重鹽有大問題

娛樂E君
2026-03-27 12:47:59
時(shí)代最令人失望者!加州州長(zhǎng)怒批馬斯克:親手將美國(guó)電車王冠讓給了中國(guó)

時(shí)代最令人失望者!加州州長(zhǎng)怒批馬斯克:親手將美國(guó)電車王冠讓給了中國(guó)

快科技
2026-03-27 14:18:12
薩巴倫卡奪冠登頂積分榜,高芙升至第三,鄭欽文排名第26

薩巴倫卡奪冠登頂積分榜,高芙升至第三,鄭欽文排名第26

老癘體育解說
2026-03-29 06:11:45
2026-03-29 11:24:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1311文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

副部級(jí)高官任上落馬 十天前仍參加省政協(xié)會(huì)議

頭條要聞

副部級(jí)高官任上落馬 十天前仍參加省政協(xié)會(huì)議

體育要聞

全球第二大車企,也救不了這支德甲隊(duì)?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

家居
數(shù)碼
時(shí)尚
旅游
公開課

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

數(shù)碼要聞

博主為蘋果MacBook Neo改裝水冷散熱,單核性能暴漲18.6%

和田曦薇一樣嫩嘟嘟,這3個(gè)變美技巧你一定不能錯(cuò)過!

旅游要聞

【春游記】東北“報(bào)春第一花”冰上綻放

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版