DeepSeek-R1推理智能從哪來？谷歌研究：模型內(nèi)心多個角色吵翻了

2026-01-26 14:15:48　來源: 機器之心Pro

北京舉報

分享至

編輯｜張倩、陳陳

過去兩年，大模型的推理能力出現(xiàn)了一次明顯的躍遷。在數(shù)學、邏輯、多步規(guī)劃等復雜任務上，推理模型如 OpenAI 的 o 系列、DeepSeek-R1、QwQ-32B，開始穩(wěn)定拉開與傳統(tǒng)指令微調(diào)模型的差距。直觀來看，它們似乎只是思考得更久了：更長的 Chain-of-Thought、更高的 test-time compute，成為最常被引用的解釋。

但如果把問題繼續(xù)往深處追問：推理能力的本質(zhì)，真的只是多算幾步嗎？

谷歌、芝加哥大學等機構的研究者最近發(fā)表的一篇論文給出了一個更具結構性的答案，推理能力的提升并非僅源于計算步數(shù)的增加，而是來自模型在推理過程中隱式模擬了一種復雜的、類多智能體的交互結構，他們稱之為「思維社會」（society of thought）。

簡單理解就是，這項研究發(fā)現(xiàn)，為了解決難題，推理模型有時會模擬不同角色之間的內(nèi)部對話，就像他們數(shù)字大腦中的辯論隊一樣。他們爭論、糾正對方、表達驚訝，并調(diào)和不同觀點以達成正確答案。人類智能很可能是因為社交互動而進化的，而類似的直覺似乎也適用于人工智能！

通過對推理輸出進行分類，以及結合作用于推理軌跡的機制可解釋性方法，研究發(fā)現(xiàn)，諸如 DeepSeek-R1 和 QwQ-32B 等推理模型，相較于基線模型和僅進行指令微調(diào)的模型，展現(xiàn)出顯著更高的視角多樣性。在推理過程中，它們會激活更廣泛、異質(zhì)性更強的、與人格和專業(yè)知識相關的特征，并在這些特征之間產(chǎn)生更充分的沖突。

這種類多智能體的內(nèi)部結構具體表現(xiàn)為一系列對話式行為，包括提問 — 回答序列、視角切換以及對沖突觀點的整合；同時還體現(xiàn)在刻畫激烈往返互動的社會情緒角色之中。這些行為通過直接與間接兩種路徑，共同促進了關鍵認知策略的運作，從而解釋了推理任務中準確率優(yōu)勢的來源。

進一步的受控強化學習實驗顯示，即便僅以推理準確率作為獎勵信號，基礎模型也會自發(fā)地增加對話式行為；而在訓練中引入對話式腳手架（conversational scaffolding），相較于未微調(diào)的基礎模型以及采用獨白式推理微調(diào)的模型，能夠顯著加速推理能力的提升。

這些結果表明，思維的社會化組織形式有助于對解空間進行更高效的探索。谷歌認為，推理模型在計算層面建立了一種與人類群體中的集體智能相對應的機制：在結構化的條件下，多樣性能夠帶來更優(yōu)的問題求解能力。

基于此，谷歌提出了通過智能體組織形式來系統(tǒng)性利用「群體智慧」的新研究方向。

論文地址：https://arxiv.org/pdf/2601.10825

同時，這一研究也給社區(qū)提供了一些啟發(fā)。

方法概覽

對話行為

本研究采用以 Gemini-2.5-Pro 模型作為評估器的方法，從推理軌跡中識別出四類對話行為：

1. 問答行為：指對話中先提出問題后給出回答的語列，例如「為什么……？因為……」「倘若…… 會怎樣？那么……」

2. 視角轉換：指對話過程中切換至新的想法、觀點、假設或分析方法的行為。

3. 觀點沖突：指表達出與其他觀點不一致、糾正對方觀點或觀點間存在矛盾張力的情況，例如「等等，這肯定不對……」「這與…… 相矛盾」。

4. 觀點調(diào)和：指將存在沖突的觀點整合或梳理為連貫結論的情形，例如「因此，若滿足…… 條件，或許兩種觀點都成立」「結合這些見解……」以及「這就化解了觀點間的矛盾……」

針對每條推理軌跡，大語言模型評估器會統(tǒng)計各類會話行為的獨立出現(xiàn)次數(shù)，輸出整數(shù)計數(shù)結果（無對應行為時計為 0）。

在這四類會話行為的標注上，Gemini-2.5-Pro 與 GPT-5.2 的結果展現(xiàn)出高度一致性。此外，Gemini-2.5-Pro 的標注結果與人工評分也具有一致性。

社會情感角色

本研究基于 Bales 互動過程分析（IPA）框架，對推理軌跡中社會情感角色的呈現(xiàn)情況展開分析。該框架將話語劃分為 12 種互動角色類型，每種類型均在提示詞中通過具體行為描述進行操作性定義。以 Gemini-2.5-Pro 模型構建的 LLM-as-judge 評估器，會分別統(tǒng)計這 12 類角色的獨立出現(xiàn)次數(shù)；在核心分析環(huán)節(jié)，作者將這些統(tǒng)計結果進一步歸總為四大高階類別，具體如下：

信息給予類角色：包括提出建議、表達觀點、提供導向。
信息征詢類角色，包括征詢建議、征詢觀點、征詢導向。
積極情感類角色，包括展現(xiàn)團結、釋放緊張、表示認同。
消極情感類角色，包括表現(xiàn)對抗、顯露緊張、表示異議。

在核心分析采用的四大高階 IPA 類別中，評分者間信度均達到較高水平。

為衡量推理軌跡中社會情感角色是否存在交互共現(xiàn)特征，作者針對兩組角色組合計算 Jaccard 指數(shù)。該指數(shù)用于衡量模型是否會在同一條推理軌跡中協(xié)調(diào)互補性角色，而非孤立地使用單一角色。Jaccard 指數(shù)越高，代表模型的互動模式越均衡、趨近于對話形態(tài)；指數(shù)越低，則說明其推理過程更偏向單向、獨白式的表達。

認知行為

本研究采用 Gemini-2.5-Pro 作為 LLM-as-judge 評估器，識別出四類此前已被證實對語言模型推理準確率存在影響的認知行為。

在測量環(huán)節(jié)，作者沿用了 Gandhi 等人使用的提示詞與示例，該套材料的有效性已通過多名人工評分者驗證。每類認知行為均在提示詞中附帶具體示例，以操作性定義的方式指導標注工作，具體如下：

結果核驗：指推理鏈中明確將當前推導結果與目標答案進行比對的情形。提示詞中給出的典型示例包括：「該推導過程得出結果 1，與目標值 22 不符」「由于計算結果 25 不等于目標值 22」。
路徑回溯：指模型意識到當前推理路徑無法得到正確結果，進而明確返回并嘗試其他方法的情形。
子目標拆解：指模型將原問題分解為若干更小、可分步完成的中間目標的情形。
逆向推理：指模型從目標答案出發(fā)，反向推導至初始問題的情形。

在這四類認知推理行為的標注上，Gemini-2.5-Pro 與 GPT-5.2 的一致性處于良好至極佳區(qū)間。Gemini-2.5-Pro 的標注結果與人工評分也呈現(xiàn)出高度一致性。

上述信度評估的計算基于兩類推理軌跡樣本：一類是用于解決通用推理問題的 30 條推理軌跡，另一類是 Qwen-2.5-3B 模型在強化學習過程中生成的 50 條推理軌跡。

特征干預

為探究會話行為在推理過程中發(fā)揮的作用，作者采用稀疏自編碼器（SAE），對模型激活空間內(nèi)具有可解釋性的特征進行識別與操控。稀疏自編碼器可將神經(jīng)網(wǎng)絡的激活值分解為一組稀疏的線性特征，從而能夠在不修改模型權重的前提下，對特定行為維度實施定向干預。本研究使用的稀疏自編碼器，基于 DeepSeek-R1-Llama-8B 模型第 15 層的殘差流激活值訓練得到。

從候選特征中，作者最終選定了特征 30939。經(jīng)大語言模型評估器歸納，該特征的定義為「用于表達驚訝、頓悟或認同的話語標記」。在涉及話輪轉換與社交互動的語境中，當出現(xiàn)「Oh!」這類 token 時，該特征會被激活。特征 30939 的會話占比為 65.7%（在所有特征中處于第 99 百分位），同時具備高度稀疏性（僅在 0.016% 的 token 上激活），這表明該特征是會話現(xiàn)象所特有的，而非適用于通用語言模式的特征。

在文本生成階段，作者通過激活值添加法對特征 30939 進行調(diào)控：在每個 token 的生成步驟中，將該特征的解碼器向量按調(diào)控強度系數(shù) s 進行縮放后，疊加至模型第 15 層的殘差流激活值中。

實驗結果

先說主要結論，本文證明了，即便在推理軌跡長度相近的條件下，推理模型依然表現(xiàn)出更高頻率的對話式行為和社會情緒角色。

對話行為和社會情感角色

DeepSeek-R1 的推理過程中明顯出現(xiàn)了視角切換和觀點沖突，并通過諸如「不同意」「給出觀點」「提供解釋」等社會情緒角色加以體現(xiàn)，例如：「但這里是環(huán)己 - 1,3 - 二烯，而不是苯?！埂噶硪环N可能是高溫會導致酮失去 CO 之類的反應，但不太可能?！?/p>

相比之下，DeepSeek-V3 在同一問題上的推理軌跡中，既沒有視角沖突，也沒有視角切換，更不存在分歧表達，只是以單線獨白的方式連續(xù)給出觀點和解釋，且缺乏自我修正，缺少不完整的推理。

在一個創(chuàng)造性句子改寫任務中，DeepSeek-R1 同樣通過視角沖突展開不同寫作風格之間的討論，并伴隨「不同意」「提出建議」等社會情緒角色，例如：「但那樣加入了‘根深蒂固’，原句里并沒有，我們應該避免添加新想法?！埂傅鹊龋遣皇且粋€詞?！埂覆贿^要注意，‘cast’ 的力度不如 ‘flung’，所以我們用 ‘hurled’ 更合適?！?/p>

而 DeepSeek-V3 幾乎沒有出現(xiàn)沖突或分歧，只是給出若干建議，缺乏 DeepSeek-R1 中那種反復比較、逐步修正的過程。

如圖 1a 結果表明，DeepSeek-R1 和 QwQ-32B 的對話式行為出現(xiàn)頻率顯著高于各類指令微調(diào)模型。與 DeepSeek-V3 相比，DeepSeek-R1 在提問 — 回答（=0.345）、視角切換（=0.213）以及整合與調(diào)和（=0.191）方面均顯著更頻繁。QwQ-32B 相對于 Qwen-2.5-32B-IT 也呈現(xiàn)出高度一致的趨勢，在提問 — 回答、視角切換、視角沖突和整合行為上均顯著更多。值得注意的是，無論模型參數(shù)規(guī)模大?。?B、32B、70B 或 671B），所有指令微調(diào)模型的對話式行為出現(xiàn)頻率都始終處于較低水平。

如圖 1b 所示，與對應的指令微調(diào)模型相比，DeepSeek-R1 和 QwQ-32B 均展現(xiàn)出更具互惠性的社會情緒角色結構：它們既會提出問題、請求指引、意見和建議，也會給予回應，同時還表現(xiàn)出負向與正向的情緒角色。

指令微調(diào)模型主要以單向方式給出指引、觀點和建議，幾乎不進行反向提問，也缺乏情緒層面的互動，其推理過程更像是一段獨白，而非對話的模擬。

本文進一步使用 Jaccard 指數(shù)來量化社會情緒角色的互惠平衡性。表明，DeepSeek-R1 在推理過程中更傾向于以互相協(xié)調(diào)的方式組織不同角色，而不是將它們孤立地、零散地使用。QwQ-32B 相對于 Qwen-2.5-32B-IT 也表現(xiàn)出一致的趨勢。

進一步考察發(fā)現(xiàn)，當 DeepSeek-R1 面對更高難度的問題時，對話式行為和社會情緒角色會更加明顯。

例如，在復雜度最高的任務中，如研究生水平的科學推理（GPQA）以及高難度數(shù)學題，模型展現(xiàn)出非常明顯的對話特征；而在布爾表達式、基礎邏輯推理等較為簡單、程序化的任務中，對話行為則非常有限。

對話特征引導可提升推理準確率

在觀察到推理軌跡中廣泛存在對話式行為之后，作者進一步提出一個問題：這些與對話相關的行為，是否真的有助于提升模型的推理表現(xiàn)？

具體實驗選用了 Countdown 游戲，如圖 2b 所示，對對話式驚訝特征進行正向引導（+10），會使 Countdown 任務的準確率從 27.1% 提升至 54.8%，幾乎翻倍；而進行負向引導（?10）則會將準確率降低至 23.8%。

當引導強度從 0 增加到 +10 時，四類對話式行為均顯著增強；相反，當引導強度從 0 降至 ?10 時，這些對話行為會被系統(tǒng)性抑制。

例如，擴展數(shù)據(jù)表 1 所示，正向引導（+10）會誘發(fā)模型在推理過程中主動質(zhì)疑先前的解法（如「等等，讓我再看看…… 另一個思路是……」），體現(xiàn)出明顯的視角切換和觀點沖突；而負向引導（?10）則會生成相對平鋪直敘的推理文本，缺乏內(nèi)部討論和自我辯論的過程。

綜合來看，這些發(fā)現(xiàn)表明：對話特征通過兩條路徑提升推理能力：一方面，它們直接幫助模型更有效地探索解空間；另一方面，它們通過腳手架式地支持驗證、回溯和子目標分解等認知策略，推動系統(tǒng)性的問題求解過程。

強化學習實驗

為進一步檢驗：當只獎勵正確答案時，大模型是否會自發(fā)強化對話式行為，為此，作者設計并實施了一項自教式強化學習（self-taught RL）實驗。結果顯示對話式結構本身，能夠在強化學習過程中促進推理策略的自發(fā)涌現(xiàn)與加速形成。

了解更多內(nèi)容，請參考原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.