網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

基礎(chǔ)推理范式促使語言模型實(shí)現(xiàn)域外泛化

2026-02-17 00:22:08　來源: CreateAMind

上海舉報(bào)

分享至

Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

基礎(chǔ)推理范式促使語言模型實(shí)現(xiàn)域外泛化

https://www.arxiv.org/pdf/2602.08658

摘要

演繹、歸納和溯因是基本的推理范式，也是人類邏輯思維的核心。盡管提升大語言模型的推理能力已吸引大量研究關(guān)注，但這些基本范式能在多大程度上誘導(dǎo)模型產(chǎn)生泛化能力，尚未得到系統(tǒng)性的探索。在本研究中，我們揭示了這些核心范式之間的相互作用如何影響大語言模型的推理行為。為此，我們首先從符號(hào)化任務(wù)中收集了一個(gè)新的推理軌跡數(shù)據(jù)集，每個(gè)軌跡對(duì)應(yīng)三種基本范式之一，以抽象掉具體的世界知識(shí)。接著，我們研究了將這些技能有效注入大語言模型的方法。我們實(shí)驗(yàn)了一系列方法，包括簡(jiǎn)單的微調(diào)，以及增加模型深度或?qū)⒚芗Ｐ娃D(zhuǎn)換為混合專家模型的更復(fù)雜方法。我們?nèi)嬖u(píng)估了這些誘導(dǎo)后的模型在現(xiàn)實(shí)領(lǐng)域外的任務(wù)上的表現(xiàn)，這些任務(wù)完全以自然語言表述且包含現(xiàn)實(shí)世界知識(shí)。結(jié)果顯示，我們的方法在不同現(xiàn)實(shí)任務(wù)上均取得了強(qiáng)大的泛化能力，帶來了顯著的性能提升（高達(dá)14.60）。

1 引言

演繹、歸納和溯因是基本的推理范式，構(gòu)成了人類邏輯推理的基石（Frankfurt, 1958; Salmon, 1994）。演繹根據(jù)規(guī)則和觀察推斷結(jié)論。歸納基于前提和觀察中的模式提煉規(guī)則。溯因則是在給定一組規(guī)則的情況下，推斷出解釋某個(gè)觀察的最合理假設(shè)。這些范式對(duì)于理解和提升大語言模型的推理能力起著至關(guān)重要的作用（Dougrez-Lewis 等，2025；Tan 等，2025；Hu 等，2025）。

先前的研究常?；煜龤w納、演繹和溯因，忽視了它們各自在提升大語言模型推理能力方面的具體作用（Zheng 等，2025；Hu 等，2025）。雖然 Tan 等人（2025）通過微調(diào)單獨(dú)誘導(dǎo)演繹技能以提升模型的領(lǐng)域外泛化能力，但他們忽略了歸納和溯因。此外，常見做法是使用混雜了世界知識(shí)與推理的數(shù)據(jù)來提升大語言模型的推理能力（Hu 等，2025；Guha 等，2025；DeepSeek-AI，2025），這使得性能提升究竟源于真正的推理能力還是事實(shí)記憶變得模糊不清。因此，兩個(gè)主要問題仍未得到探索：（1）截然不同的演繹、歸納和溯因技能在多大程度上能提升通用推理能力；（2）誘導(dǎo)這些能力最有效的方法是什么？

為了回答這些問題，我們首先對(duì) Hu 等人（2025）提出的一個(gè)程序生成的符號(hào)推理數(shù)據(jù)集進(jìn)行了擴(kuò)充，加入了來自教師大語言模型的推理軌跡。該數(shù)據(jù)集包含各種任務(wù)，每個(gè)任務(wù)都針對(duì)三種基本范式之一，同時(shí)將推理與世界知識(shí)相剝離。然而，該數(shù)據(jù)集最初只包含問題和答案，沒有相關(guān)的推理軌跡。這些軌跡可以作為獨(dú)立于世界知識(shí)的推理模式的示例。隨后，我們向?qū)W生大語言模型注入基本的推理能力，研究演繹、歸納和溯因各自的影響及其相互作用。我們首次系統(tǒng)地評(píng)估了超越標(biāo)準(zhǔn)微調(diào)的一系列誘導(dǎo)方法，包括通過擴(kuò)展增加模型深度（Wu 等，2024），以有效吸收新的推理能力；以及通過升級(jí)循環(huán)將標(biāo)準(zhǔn)大語言模型轉(zhuǎn)換為混合專家模型，以擴(kuò)展模型容量，同時(shí)避免現(xiàn)有信息與新注入信息之間的干擾

（Komatsuzaki 等，2023）。最后，我們?cè)趦蓚€(gè)模型系列上，對(duì)誘導(dǎo)后的模型進(jìn)行了全面的評(píng)估，包括領(lǐng)域內(nèi)（即相同的符號(hào)任務(wù)上）和領(lǐng)域外（其余的符號(hào)任務(wù)以及需要現(xiàn)實(shí)世界知識(shí)的現(xiàn)實(shí)任務(wù)上）的表現(xiàn)（見圖 1）。我們的貢獻(xiàn)如下：

我們收集并發(fā)布了一個(gè)新的用于演繹、歸納和溯因的符號(hào)推理數(shù)據(jù)集。該數(shù)據(jù)集總共包含約 17K 個(gè)符號(hào)問題，并附帶了由兩個(gè)來自不同系列的教師大語言模型生成的超過 160K 條推理軌跡。
我們證明，向較小的學(xué)生大語言模型注入與世界知識(shí)解耦的基本推理技能，能使其在不同誘導(dǎo)方法和模型系列上，于現(xiàn)實(shí)的領(lǐng)域外任務(wù)中取得顯著的性能提升（高達(dá) 14.60）。
我們發(fā)現(xiàn)，演繹能力普遍為各個(gè)模型帶來最高的領(lǐng)域外性能提升。我們還觀察到了強(qiáng)烈的跨范式性能提升，這表明即使是孤立的單個(gè)基本推理技能也能惠及大語言模型的整體推理能力。另一方面，最有效的誘導(dǎo)方法因模型而異，其中升級(jí)循環(huán)方法在整體上取得了最佳效果。

2 相關(guān)工作

在大語言模型中激發(fā)推理能力大型推理模型在訓(xùn)練后階段整合了逐步推理的過程（Olmo 等，2025）。近期研究探索了基本推理范式如何影響大語言模型推理的有效性。Zheng 等人（2025）評(píng)估了不同的邏輯推理范式，但僅比較了歸納推理與溯因及演繹的結(jié)合，缺乏對(duì)單個(gè)基本推理范式的理解。Hu 等人（2025）分別讓大語言模型專精于演繹、歸納和溯因推理，隨后合并生成的模型，將所有推理范式混雜在一起。這使得難以厘清每個(gè)基本推理范式單獨(dú)對(duì)性能產(chǎn)生的影響。因此，我們通過教師大語言模型收集的推理軌跡，分別學(xué)習(xí)每個(gè)特定的基本推理范式。這種方法首次為更清晰、細(xì)致地理解它們對(duì)大語言模型推理的影響提供了可能。

合成推理軌跡大語言模型的推理在訓(xùn)練后階段需要大規(guī)模的軌跡數(shù)據(jù)（Liu 等，2024；Yang 等，2025）。然而，人工整理的推理數(shù)據(jù)常常包含噪聲（Morishita 等，2024），且難以規(guī)?；⊿un 等，2024）。因此，越來越多的工作使用來自教師模型的合成推理軌跡來訓(xùn)練學(xué)生模型（DeepSeek-AI，2025；Olmo 等，2025）。雖然這些軌跡在通用領(lǐng)域（Guha 等，2025）和專業(yè)領(lǐng)域（Yu 等，2024；Zhao 等，2025；Yu 等，2025）帶來了顯著的性能提升，但軌跡中包含了世界知識(shí)，這使得難以分離出基本推理能力的改進(jìn)。Tan 等人（2025）使用符號(hào)推理軌跡來解耦世界知識(shí)，但他們的研究只專注于演繹推理，未探索其他基本推理范式。

3 基礎(chǔ)推理數(shù)據(jù)

我們的目標(biāo)是研究向大語言模型注入三種基礎(chǔ)推理類型（演繹、歸納和溯因）所產(chǎn)生的影響。為此，我們需要相應(yīng)的推理軌跡。

3.1 符號(hào)推理任務(wù)
我們豐富了由 Hu 等人（2025）開發(fā)的一個(gè)現(xiàn)有基礎(chǔ)推理數(shù)據(jù)集。我們選擇這個(gè)數(shù)據(jù)集是因?yàn)樗枪_可用的，包含 3,600 個(gè)演繹問題、4,500 個(gè)歸納問題和 9,000 個(gè)溯因問題及其答案，但沒有附帶對(duì)我們的研究至關(guān)重要的推理軌跡。該數(shù)據(jù)是基于三個(gè)符號(hào)任務(wù)通過程序生成的（圖 2）。

演繹。該任務(wù)包含布爾可滿足性問題，要求找出滿足給定公式的變量的真值。所有問題都保證是可滿足的。原始問題單獨(dú)列出公式，未使用合取范式，這是一種將布爾公式寫為子句合取的標(biāo)準(zhǔn)形式，其中每個(gè)子句是變量或其否定形式的析取。我們的初步實(shí)驗(yàn)表明，這會(huì)給大語言模型造成混淆。此外，原始答案以純文本形式呈現(xiàn)，這使自動(dòng)評(píng)估復(fù)雜化。因此，我們將原始公式修改為合取范式，并用 JSON 格式表示答案，以便收集推理軌跡。

歸納。此任務(wù)要求模型預(yù)測(cè)給定數(shù)字序列中的下一個(gè)數(shù)字，代表了一種基本的歸納推理形式。數(shù)字序列由涉及加法、減法或乘法的重復(fù)模式構(gòu)成。我們直接使用原始的輸入-輸出對(duì)，未作任何修改。

溯因。該任務(wù)使用邏輯公式和已知原子，這些原子具有隱藏的真值。目標(biāo)是通過檢查是否存在與目標(biāo)相關(guān)的公式，首先從原子中識(shí)別所有可達(dá)目標(biāo)。模型需要運(yùn)用溯因推理，從假設(shè)的結(jié)論（即目標(biāo)為真）反向推導(dǎo)，假設(shè)出最可能的前提集（前件的真值）。然而，原始任務(wù)說明并未闡明已知原子不一定等同于真原子，這導(dǎo)致大語言模型產(chǎn)生誤解。此外，盡管要求大語言模型識(shí)別相關(guān)前提并回溯已知原子的真值，但原始答案僅檢查目標(biāo)的可達(dá)性。這種過度簡(jiǎn)化使得模型僅僅檢查目標(biāo)是否出現(xiàn)在前提中。為了克服這些局限性，我們保留了原始公式，但修改了任務(wù)說明和答案，使用 Prolog（Wielemaker 等，2012）來搜索能夠使可達(dá)目標(biāo)為真的已知原子的可能真值。附錄 A 的表 3 展示了我們?cè)O(shè)計(jì)的溯因任務(wù)與原任務(wù)的對(duì)比。

3.2 推理軌跡采樣

數(shù)據(jù)劃分。對(duì)于每種任務(wù)類型，我們分別使用 100 個(gè)問答對(duì)進(jìn)行測(cè)試，100 個(gè)用于開發(fā)，其余全部用于訓(xùn)練。我們僅為訓(xùn)練集收集推理軌跡。每個(gè)問答對(duì)及其軌跡只會(huì)出現(xiàn)在其中一個(gè)數(shù)據(jù)劃分中。

教師模型。我們使用兩個(gè)廣泛使用的開源權(quán)重大語言模型來采樣推理軌跡：Qwen3-30B-Instruct (Yang 等，2025) 和 Llama-3.3-70B-Instruct (Grattafiori 等，2024)。

采樣。在零樣本設(shè)置下，將問題輸入教師大語言模型（提示詞見附錄 A）。對(duì)于每個(gè)問題，我們使用不同的隨機(jī)種子采樣五個(gè)響應(yīng)。我們將生成的最大令牌數(shù)設(shè)置為 10,000，以確保軌跡能夠推導(dǎo)出結(jié)論。我們排除了字?jǐn)?shù)少于 20 的響應(yīng)，因?yàn)槿绱硕痰奈谋静惶赡馨行У耐评碥壽E。對(duì)于 Qwen 模型，這導(dǎo)致過濾掉了 554 條演繹軌跡、2,430 條歸納軌跡和 19,872 條溯因軌跡。然而，Llama 模型沒有任何軌跡被過濾掉。我們發(fā)現(xiàn)，Qwen 被過濾的響應(yīng)要么是空的，要么是包含隨機(jī)令牌的字符串，這可能是由于模型困惑而產(chǎn)生的。由于自動(dòng)驗(yàn)證文本推理軌跡的邏輯一致性仍然是一個(gè)開放性問題，并且大語言模型更多是從結(jié)構(gòu)而非內(nèi)容中學(xué)習(xí) (Li 等，2025a)，我們沒有過濾掉更多的軌跡。

最終的訓(xùn)練集包含約 16,000 個(gè)問題，以及分別由 Llama 和 Qwen 教師模型生成的約 82,000 條和 60,000 條軌跡。表 1 顯示了詳細(xì)的統(tǒng)計(jì)數(shù)據(jù)。我們注意到，Qwen 生成的軌跡比 Llama 更長(zhǎng)，尤其是在歸納和溯因任務(wù)上（平均長(zhǎng)度是 Llama 的四倍）。我們進(jìn)一步觀察到，Qwen 傾向于在其推理步驟中重復(fù)問題中的公式和序列。它還經(jīng)常使用表格來總結(jié)其響應(yīng)，并生成許多特殊令牌，例如 “ ”、“ ”。這很可能是由于其在工具調(diào)用方面的后訓(xùn)練所致。

4 注入基礎(chǔ)推理技能

我們嘗試了多種注入方法，從標(biāo)準(zhǔn)的微調(diào)到引入模型結(jié)構(gòu)變更的更復(fù)雜的方法。

全參數(shù)微調(diào)。首先，我們簡(jiǎn)單地通過在收集到的推理軌跡上進(jìn)行下一個(gè)令牌預(yù)測(cè)來更新所有模型參數(shù)，類似于 Tan 等人 (2025) 的做法。

模型擴(kuò)展。LoRA 的低秩約束雖然高效，但在領(lǐng)域適應(yīng)方面存在局限性（Biderman 等，2024；Pletenev 等，2025）。模型擴(kuò)展（Wu 等，2024；Cao 等，2025）通過在預(yù)訓(xùn)練大語言模型中插入額外的層來增加模型容量。通過僅更新新層，擴(kuò)展方法保留了原有的參數(shù)化知識(shí)。它還能更好地獲取新的語言知識(shí)（Choudhury 等，2025；Lee 等，2025）和適應(yīng)領(lǐng)域（Hoffmann 等，2025；Lim 等，2025）。我們使用 LLaMAPro（Wu 等，2024）進(jìn)行模型擴(kuò)展，將基礎(chǔ)模型劃分為多個(gè)層組，并在每個(gè)組之上插入新層。新層通過復(fù)制相應(yīng)基礎(chǔ)層的權(quán)重進(jìn)行初始化，并將注意力機(jī)制和 MLP 的輸出投影矩陣設(shè)置為零。

模型升級(jí)循環(huán)。升級(jí)循環(huán)（Komatsuzaki 等，2023；Nakamura 等，2025）通過將多層感知器塊擴(kuò)展為多個(gè)專家多層感知器，將稠密的 Transformer 層轉(zhuǎn)換為混合專家層。在推理過程中，由路由網(wǎng)絡(luò)選擇專家。該方法已成功應(yīng)用于多語言（Zhou 等，2025；Zhang 等，2025）和領(lǐng)域適應(yīng)（Li 等，2025b）。與擴(kuò)展模型深度的擴(kuò)展方法相比，升級(jí)循環(huán)是一種高效的寬度擴(kuò)展方法。我們采用稀疏升級(jí)循環(huán)（Komatsuzaki 等，2023），因?yàn)樗恍枰獮槁酚删W(wǎng)絡(luò)進(jìn)行額外訓(xùn)練（Gritsch 等，2025），也無需在混合專家結(jié)構(gòu)之外添加額外模塊（Zhou 等，2025）。稀疏升級(jí)循環(huán)通過復(fù)制原始預(yù)訓(xùn)練多層感知器的權(quán)重來初始化新的專家多層感知器，而路由網(wǎng)絡(luò)則是隨機(jī)初始化的。

5 實(shí)驗(yàn)設(shè)置

5.1 訓(xùn)練設(shè)置
為了研究每種基礎(chǔ)推理范式如何影響推理行為，我們分別使用演繹、歸納和溯因推理軌跡對(duì)大語言模型進(jìn)行單獨(dú)訓(xùn)練。作為對(duì)比，我們還將所有三種推理類型一起（即混合）注入大語言模型，以評(píng)估它們是否能提供互補(bǔ)的歸納偏置。

5.2 模型與基線
我們使用兩個(gè)學(xué)生模型：具有 32 層的 Llama-3.1-8B-Instruct（Grattafiori 等，2024）；以及具有 36 層的 Qwen3-8B（Yang 等，2025）。
我們將注入方法與（1）微調(diào)前的學(xué)生模型（原始版本）；（2）用于收集軌跡的教師模型（§3.2）進(jìn)行比較。

5.3 實(shí)現(xiàn)細(xì)節(jié)
為了公平比較，除全參數(shù)微調(diào)外，我們保持所有注入后模型的參數(shù)規(guī)模相近，僅更新新增的參數(shù)。我們將 LoRA 應(yīng)用于學(xué)生模型的所有線性層，其中 Llama-3.1-8B-Instruct 的秩設(shè)置為 1,024，Qwen3-8B 的秩設(shè)置為 512。對(duì)于模型擴(kuò)展，我們將每個(gè)學(xué)生模型劃分為四個(gè)層組，每個(gè)組中插入三個(gè)新層。我們遵循 Fedus 等人（2022）的做法，通過為每個(gè)奇數(shù)編號(hào)的稠密層添加一個(gè)專家多層感知器，將其升級(jí)循環(huán)為混合專家層。
更多細(xì)節(jié)詳見附錄 B。

5.4 評(píng)估
符號(hào)領(lǐng)域內(nèi)。我們?cè)谂c訓(xùn)練所用推理類型相對(duì)應(yīng)的測(cè)試集（§3.2）上進(jìn)行評(píng)估（例如，在歸納任務(wù)上訓(xùn)練和測(cè)試）。當(dāng)在混合數(shù)據(jù)集上訓(xùn)練時(shí)，所有三種推理類型的測(cè)試集都屬于領(lǐng)域內(nèi)。

符號(hào)領(lǐng)域外。為了測(cè)試符號(hào)泛化能力，我們?cè)谟?xùn)練期間未見的符號(hào)任務(wù)上進(jìn)行評(píng)估（例如，用溯因任務(wù)訓(xùn)練，用演繹任務(wù)測(cè)試）。
現(xiàn)實(shí)領(lǐng)域外。我們包含以下現(xiàn)實(shí)領(lǐng)域外數(shù)據(jù)集：True Detective（Del 和 Fishel，2023）包含偵探謎題，形式為多項(xiàng)選擇題；αNLI（Zhao 等，2023）包含在給定語境下最可能解釋的多項(xiàng)選擇題；WinoWhy（Zhang 等，2020）包含對(duì) Winograd 挑戰(zhàn)賽（Levesque 等，2012）中問題的解釋，旨在區(qū)分合理的理由與相似但錯(cuò)誤的理由；FOLIO（Han 等，2024）包含自然語言的邏輯推理問題。模型需在給定上下文（一組一階邏輯公式）下，預(yù)測(cè)一個(gè)陳述為真、假或不確定；RECV（Dougrez-Lewis 等，2025）包含來自 Twitter 和 Wikipedia 的斷言，需要運(yùn)用演繹或溯因推理來確定其真?zhèn)巍?br/>指標(biāo)。我們報(bào)告最終答案的準(zhǔn)確率，由 Qwen3-30B-Instruct 進(jìn)行評(píng)判。根據(jù)（Haldar 和 Hockenmaier，2025）近期的分析，我們采用此評(píng)判模型，該分析表明該模型在連貫性、一致性和相關(guān)性方面比具有競(jìng)爭(zhēng)力的替代方案（包括 Llama-3 和 Deepseek-R1（DeepSeek-AI，2025））更為穩(wěn)健。

6 結(jié)果

圖 3 和圖 4 分別展示了模型在符號(hào)任務(wù)和現(xiàn)實(shí)任務(wù)上的性能。附錄 D 的表 4 和表 5 顯示了完整結(jié)果和標(biāo)準(zhǔn)差。

6.1 符號(hào)任務(wù)

領(lǐng)域內(nèi)：專項(xiàng)訓(xùn)練帶來最大提升。圖 3 主對(duì)角線上的子圖及最后一列代表了領(lǐng)域內(nèi)設(shè)置，即訓(xùn)練與測(cè)試的范式相匹配。在六種情景（2 個(gè)學(xué)生模型 × 3 種符號(hào)任務(wù)）中的五種里，經(jīng)過專項(xiàng)注入的模型顯著優(yōu)于原始學(xué)生模型。我們發(fā)現(xiàn)，注入演繹能力帶來的提升最大（例如，Llama-3.1-8B 通過模型擴(kuò)展提升了 56.00，而 Qwen-3-8B 通過升級(jí)循環(huán)提升了 12.33）。歸納能力次之（全參數(shù)微調(diào)提升 46.00，升級(jí)循環(huán)提升 9.67），而注入溯因能力帶來的相對(duì)提升最?。↙oRA 提升 41.66，升級(jí)循環(huán)提升 10.67）。演繹能力提升更大的一個(gè)可能解釋是 Transformer 架構(gòu)具有適合演繹的結(jié)構(gòu)（Aggarwal 等，2025）。值得注意的是，混合設(shè)置（即在所有三種范式的混合數(shù)據(jù)上訓(xùn)練大語言模型）提供了一種有競(jìng)爭(zhēng)力的注入策略。雖然混合設(shè)置并未產(chǎn)生由單范式專項(xiàng)模型所獲得的最大領(lǐng)域內(nèi)性能提升，但在八種情況（2 個(gè)教師 × 4 種注入方法）中的六種里，它在所有符號(hào)任務(wù)上的表現(xiàn)仍優(yōu)于原始 Qwen-3-8B 模型。

領(lǐng)域外：范式間的非對(duì)稱遷移。轉(zhuǎn)向分析圖 3 中的其他子圖，我們考察領(lǐng)域外泛化能力，即用一種范式訓(xùn)練的模型在其他范式任務(wù)上進(jìn)行測(cè)試。我們觀察到一種明顯的效能順序：演繹 > 歸納 > 溯因。演繹能力的提升能強(qiáng)力遷移到其他任務(wù)。在每種范式涉及的 16 種符號(hào)任務(wù)情景中，演繹能力的提升在 12 種情景中發(fā)生了遷移，其中分別有 9 次提升了歸納和溯因任務(wù)。相比之下，歸納能力的遷移效果中等（在 7 種情景中伴隨提升出現(xiàn)），而溯因能力的遷移效果很差，僅在 4 種情景中有益于演繹任務(wù)，在 5 種情景中有益于歸納任務(wù)。例如，當(dāng)通過升級(jí)循環(huán)注入 Qwen-3-8B 時(shí)，演繹能力產(chǎn)生了最具遷移性的提升（歸納：73.00，溯因：34.67）。歸納能力實(shí)現(xiàn)了中等程度的遷移，表現(xiàn)出非對(duì)稱的泛化（演繹：89.00，溯因：11.00）。相比之下，注入溯因能力并未提供可比的提升（演繹：74.67，歸納：62.00）。這些結(jié)果表明基礎(chǔ)推理范式之間的遷移是非對(duì)稱的。雖然溯因最難學(xué)習(xí)（領(lǐng)域內(nèi)提升最低），但演繹能力是最具可遷移性的技能，是推理能力的通用供體。

注入方法：容量擴(kuò)展 vs. 高效適配。觀察不同的注入方法，我們發(fā)現(xiàn)最有效的方法因模型而異，盡管升級(jí)循環(huán)通常能帶來更穩(wěn)健的提升。對(duì)于 Qwen3-8B，升級(jí)循環(huán)在不同范式上始終帶來最高的提升（例如，演繹提升 12.33，歸納提升 9.67，溯因提升 10.67）。相比之下，Llama-3.1-8B 受益于多種多樣的注入方法。模型擴(kuò)展使其在演繹任務(wù)上達(dá)到峰值提升（56.00），而全參數(shù)微調(diào)在歸納任務(wù)上表現(xiàn)最佳（46.00）。雖然 LoRA 是一種有競(jìng)爭(zhēng)力的高效替代方案，并意外地在溯因任務(wù)上取得了最佳提升（41.66），但它總體上落后于擴(kuò)展容量的方法（如升級(jí)循環(huán)），這表明基礎(chǔ)推理技能受益于結(jié)構(gòu)適配所提供的額外容量。

更強(qiáng)的教師模型帶來更高的學(xué)生模型性能。Qwen-3-30B 在符號(hào)任務(wù)上的表現(xiàn)大幅優(yōu)于 Llama-3.3-70B（演繹：82.00 對(duì)比 33.00，歸納：81.00 對(duì)比 55.33，溯因：74.33 對(duì)比 16.00）。兩個(gè)學(xué)生大語言模型在符號(hào)任務(wù)上都更多地受益于更強(qiáng)的 Qwen 教師模型。例如，Qwen3-8B 使用 Llama 教師模型時(shí)，在大多數(shù)情況（43/48）下導(dǎo)致性能下降。當(dāng)改用 Qwen 教師模型后，其演繹性能顯著提升（通過演繹注入的升級(jí)循環(huán)達(dá)到 92.00），甚至超越了教師模型本身（82.00）。在演繹任務(wù)上的這種提升在不同注入范式下（除溯因外）均有觀察到，進(jìn)一步佐證了范式間的非對(duì)稱遷移。教師模型之間的性能差異凸顯了推理軌跡的質(zhì)量對(duì)于符號(hào)泛化至關(guān)重要。

6.2 現(xiàn)實(shí)任務(wù)

演繹 > 歸納 > 溯因。我們觀察到，在符號(hào)實(shí)驗(yàn)（§6.1）中確立的效能順序在現(xiàn)實(shí)任務(wù)中依然存在。如圖 4 所示，注入演繹能力為現(xiàn)實(shí)領(lǐng)域外任務(wù)帶來了最強(qiáng)的性能。例如，當(dāng)使用來自 Llama 教師模型的軌跡時(shí)，Qwen-3-8B 和 Llama-3.1-8B 都在注入演繹能力時(shí)達(dá)到了最高的平均性能（分別通過升級(jí)循環(huán)達(dá)到 70.14，通過模型擴(kuò)展達(dá)到 58.70）。注入歸納能力帶來的性能略低（升級(jí)循環(huán) 69.49，模型擴(kuò)展 57.58），而注入溯因能力帶來的提升則更為有限（升級(jí)循環(huán) 69.34，全參數(shù)微調(diào) 56.79）。與符號(hào)任務(wù)上的表現(xiàn)相反，混合策略的效果遜于任何一種單范式方法（升級(jí)循環(huán) 69.04，模型擴(kuò)展 56.07）。我們推測(cè)，與符號(hào)任務(wù)不同，現(xiàn)實(shí)任務(wù)的結(jié)構(gòu)化程度較低，這導(dǎo)致混合設(shè)置稀釋了單范式（尤其是演繹）提供的強(qiáng)歸納偏置。

無知識(shí)注入能夠超越教師模型。注入與世界知識(shí)相解耦的推理范式，使學(xué)生大語言模型即使在現(xiàn)實(shí)任務(wù)中也能超越其教師模型。例如，當(dāng)使用 Llama 教師模型（RECV: 77.07）訓(xùn)練 Llama 學(xué)生模型（RECV: 71.98）時(shí)，16 個(gè)注入后模型（四種注入范式 × 四種注入方法）中有 13 個(gè)優(yōu)于教師模型，通過溯因全參數(shù)微調(diào)最高達(dá)到 81.73。引人注目的是，即使學(xué)生模型初始表現(xiàn)優(yōu)于教師模型，這種提升依然可見。例如，當(dāng)使用 Qwen 教師模型（αNLI: 75.77）訓(xùn)練 Qwen 學(xué)生模型（αNLI: 81.26）時(shí)，學(xué)生模型在多數(shù)情況（13/16）下表現(xiàn)更好，通過歸納升級(jí)循環(huán)最高達(dá)到 84.24。這種提升在不同教師-學(xué)生組合的任務(wù)中均有觀察到。我們將這些提升歸因于無知識(shí)的符號(hào)軌跡。教師模型通過符號(hào)結(jié)構(gòu)向?qū)W生模型傳遞了更好的基礎(chǔ)推理技能，避免了現(xiàn)實(shí)任務(wù)中普遍存在的世界知識(shí)內(nèi)容偏差。

跨范式遷移：溯因悖論。注入與現(xiàn)實(shí)任務(wù)相對(duì)應(yīng)的推理范式并不總能帶來最佳性能。這在那些高度依賴溯因的現(xiàn)實(shí)任務(wù)中表現(xiàn)得很明顯。對(duì)于 True Detective 任務(wù)，在演繹任務(wù)上進(jìn)行訓(xùn)練為 Llama-3.1-8B 和 Qwen3-8B 都帶來了最佳性能（分別為 26.18 和 44.50）。相比之下，在溯因任務(wù)上訓(xùn)練的表現(xiàn)最差（21.47 和 38.57）。類似模式也出現(xiàn)在 αNLI 任務(wù)上，注入歸納能力（79.73/85.76）始終優(yōu)于注入溯因能力（77.37/82.73）。由于溯因本身難以學(xué)習(xí)，模型更多地受益于通過演繹或歸納獲得的、具有遷移性的邏輯。

任務(wù)特定的增益集中性。領(lǐng)域外泛化的提升高度集中于特定任務(wù)。與原始模型相比，在 αNLI（64 種情況中有 50 種獲得提升）和 Folio（64 種情況中有 41 種獲得提升）上的增益更大。然而，這些增益的來源因教師模型系列而異。Llama 教師模型在 RECV 任務(wù)上更有效（32 種情況中有 28 種獲得提升），而 Qwen 教師模型在此任務(wù)上表現(xiàn)掙扎（32 種情況中僅 16 種獲得提升），但在 WinoWhy 任務(wù)上表現(xiàn)更好（提升的情況從 5 種增加到 13 種）。這表明，雖然訓(xùn)練范式?jīng)Q定了領(lǐng)域外效果，但教師模型決定了哪些任務(wù)能從遷移中受益。

學(xué)生模型從同系列的教師模型中學(xué)習(xí)效果更好。雖然符號(hào)任務(wù)無論模型系列如何都受益于更強(qiáng)的 Qwen 教師模型，但現(xiàn)實(shí)領(lǐng)域外泛化在教師和學(xué)生屬于同一模型系列時(shí)提升更大，這與我們?cè)诜?hào)任務(wù)（§6.1）中的發(fā)現(xiàn)相悖。例如，當(dāng)為 Llama-3.1-8B 注入演繹能力時(shí)，在現(xiàn)實(shí)任務(wù)上取得最佳性能的是使用 Llama 教師模型（58.70），而非 Qwen 教師模型（54.79）。在為學(xué)生模型注入演繹或歸納能力時(shí)，這種模式在兩個(gè)學(xué)生模型上均保持一致。我們推測(cè)，現(xiàn)實(shí)任務(wù)對(duì)跨系列蒸餾中固有的風(fēng)格不匹配更為敏感。這與先前關(guān)于跨模型軌跡不匹配的研究（Wen 等，2025）一致，表明最小化教師和學(xué)生之間的分布偏移比教師的能力更為關(guān)鍵。

注入方法：與符號(hào)任務(wù)一致。我們觀察到與符號(hào)領(lǐng)域（§6.1）相似的模式：雖然最有效的注入方法因模型而異，但升級(jí)循環(huán)總體上提供了更穩(wěn)健的改進(jìn)。在所有八種設(shè)置（兩種教師模型 × 四種注入范式）中，升級(jí)循環(huán)后的 Qwen-3-8B 在七種情況下取得了最高的現(xiàn)實(shí)任務(wù)性能。例如，當(dāng)使用 Llama 教師模型時(shí)，升級(jí)循環(huán)在所有范式下都為 Qwen-3-8B 帶來了最佳的現(xiàn)實(shí)任務(wù)性能（演繹：70.14，歸納：69.49，溯因：69.34，混合：69.04）。相比之下，Llama-3.1-8B 受益于多樣化的注入方法（即全參數(shù)微調(diào)、LoRA、模型擴(kuò)展）。這一觀察結(jié)果表明，當(dāng)應(yīng)用相同的注入方法時(shí)，符號(hào)任務(wù)和現(xiàn)實(shí)任務(wù)上的領(lǐng)域外泛化具有一致性。此外，升級(jí)循環(huán)的優(yōu)越性能進(jìn)一步說明，更復(fù)雜的注入方法優(yōu)于當(dāng)前使用更簡(jiǎn)單的全參數(shù)微調(diào)的實(shí)踐，即 Tan 等人（2025）的方法。

7 定性分析

表 2 展示了使用不同注入方法的推理行為示例。在案例 1 中，原始 Llama 模型和經(jīng)過演繹全參數(shù)微調(diào)的 Llama 模型都失敗了，它們過早地消解了認(rèn)知上的不確定性，通過隱含的假設(shè)得出了一個(gè)確定的結(jié)論。相比之下，經(jīng)過演繹模型擴(kuò)展的 Llama 模型成功了，因?yàn)樗Ａ袅擞蛇x言前提產(chǎn)生的不確定性。這表明，通過注入方法引入的更強(qiáng)結(jié)構(gòu)約束支持了邏輯有效性，防止在條件不足的現(xiàn)實(shí)推理問題上得出過于自信的結(jié)論。

在案例 2 中，原始 Qwen 模型和經(jīng)過溯因升級(jí)循環(huán)的 Qwen 模型都失敗了，它們優(yōu)先考慮世界知識(shí)而非邏輯推理，修改了看似不合理的前提，并覆蓋了給定的邏輯規(guī)則。相反，經(jīng)過演繹升級(jí)循環(huán)的 Qwen 模型成功了，因?yàn)樗鼑?yán)格遵守所述前提，并應(yīng)用邏輯規(guī)則，而不考慮內(nèi)容。這種行為與溯因和演繹的內(nèi)在本質(zhì)相符。溯因側(cè)重于探索一組規(guī)則下最合理的觀察，因此鼓勵(lì)對(duì)前提進(jìn)行重新解釋。相比之下，演繹從規(guī)則和觀察中推導(dǎo)結(jié)論，內(nèi)在地促進(jìn)了對(duì)前提的忠實(shí)。這進(jìn)一步強(qiáng)調(diào)了注入與世界知識(shí)解耦的推理范式如何減少內(nèi)容偏差，從而在現(xiàn)實(shí)任務(wù)上產(chǎn)生更穩(wěn)健的推理泛化能力。我們還在附錄 F 中包含了對(duì)符號(hào)任務(wù)的詳細(xì)分析。

8 結(jié)論與啟示

我們系統(tǒng)地研究了注入基礎(chǔ)推理類型（即演繹、歸納和溯因）如何塑造大語言模型推理的泛化能力。通過在與世界知識(shí)相解耦的推理軌跡上進(jìn)行訓(xùn)練，我們分離出每種范式的影響。我們?cè)u(píng)估了一系列注入方法，從標(biāo)準(zhǔn)微調(diào)到容量擴(kuò)展方法（如模型擴(kuò)展和升級(jí)循環(huán)）。我們的結(jié)果表明，無知識(shí)注入能帶來顯著且可遷移的領(lǐng)域外增益。演繹是最穩(wěn)健的范式，而升級(jí)循環(huán)提供了最大的整體改進(jìn)，使學(xué)生大語言模型能夠獲得結(jié)構(gòu)性的歸納偏置，甚至在現(xiàn)實(shí)任務(wù)上超越其教師模型。未來的工作將擴(kuò)展此框架，并探索在不稀釋各自貢獻(xiàn)的前提下組合多種推理范式的基本原則。

局限性

鑒于推理數(shù)據(jù)集的可用性和多樣性，所有數(shù)據(jù)和評(píng)估均使用英語。我們承認(rèn)，基礎(chǔ)推理的語言表達(dá)和底層認(rèn)知策略可能因語言而異，這是未來研究的一個(gè)有趣方向。

此外，雖然可以生成許多不同的符號(hào)任務(wù)來代表三種基礎(chǔ)推理范式，但本研究分別為演繹、歸納和溯因探索了一個(gè)代表性的任務(wù)。事實(shí)上，我們關(guān)注的是基礎(chǔ)范式與注入方法之間的相互作用，優(yōu)先考慮分析的深度，而非詳盡覆蓋所有符號(hào)推理任務(wù)。雖然我們發(fā)現(xiàn)所提出的任務(wù)足以誘導(dǎo)出強(qiáng)大的領(lǐng)域外泛化能力，但未來的研究可以探究不同符號(hào)數(shù)據(jù)對(duì)性能和泛化能力的潛在影響。

原文鏈接：https://www.arxiv.org/pdf/2602.08658

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.