国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek-R1推理智能從哪來?谷歌研究:模型內(nèi)心多個角色吵翻了

0
分享至





編輯|張倩、陳陳

過去兩年,大模型的推理能力出現(xiàn)了一次明顯的躍遷。在數(shù)學、邏輯、多步規(guī)劃等復雜任務上,推理模型如 OpenAI 的 o 系列、DeepSeek-R1、QwQ-32B,開始穩(wěn)定拉開與傳統(tǒng)指令微調(diào)模型的差距。直觀來看,它們似乎只是思考得更久了:更長的 Chain-of-Thought、更高的 test-time compute,成為最常被引用的解釋。

但如果把問題繼續(xù)往深處追問:推理能力的本質(zhì),真的只是多算幾步嗎?

谷歌、芝加哥大學等機構的研究者最近發(fā)表的一篇論文給出了一個更具結構性的答案,推理能力的提升并非僅源于計算步數(shù)的增加,而是來自模型在推理過程中隱式模擬了一種復雜的、類多智能體的交互結構,他們稱之為「思維社會」(society of thought)。

簡單理解就是,這項研究發(fā)現(xiàn),為了解決難題,推理模型有時會模擬不同角色之間的內(nèi)部對話,就像他們數(shù)字大腦中的辯論隊一樣。他們爭論、糾正對方、表達驚訝,并調(diào)和不同觀點以達成正確答案。人類智能很可能是因為社交互動而進化的,而類似的直覺似乎也適用于人工智能!



通過對推理輸出進行分類,以及結合作用于推理軌跡的機制可解釋性方法,研究發(fā)現(xiàn),諸如 DeepSeek-R1 和 QwQ-32B 等推理模型,相較于基線模型和僅進行指令微調(diào)的模型,展現(xiàn)出顯著更高的視角多樣性。在推理過程中,它們會激活更廣泛、異質(zhì)性更強的、與人格和專業(yè)知識相關的特征,并在這些特征之間產(chǎn)生更充分的沖突。

這種類多智能體的內(nèi)部結構具體表現(xiàn)為一系列對話式行為,包括提問 — 回答序列、視角切換以及對沖突觀點的整合;同時還體現(xiàn)在刻畫激烈往返互動的社會情緒角色之中。這些行為通過直接與間接兩種路徑,共同促進了關鍵認知策略的運作,從而解釋了推理任務中準確率優(yōu)勢的來源。

進一步的受控強化學習實驗顯示,即便僅以推理準確率作為獎勵信號,基礎模型也會自發(fā)地增加對話式行為;而在訓練中引入對話式腳手架(conversational scaffolding),相較于未微調(diào)的基礎模型以及采用獨白式推理微調(diào)的模型,能夠顯著加速推理能力的提升。

這些結果表明,思維的社會化組織形式有助于對解空間進行更高效的探索。谷歌認為,推理模型在計算層面建立了一種與人類群體中的集體智能相對應的機制:在結構化的條件下,多樣性能夠帶來更優(yōu)的問題求解能力。

基于此,谷歌提出了通過智能體組織形式來系統(tǒng)性利用「群體智慧」的新研究方向。



論文地址:https://arxiv.org/pdf/2601.10825

同時,這一研究也給社區(qū)提供了一些啟發(fā)。



方法概覽

對話行為

本研究采用以 Gemini-2.5-Pro 模型作為評估器的方法,從推理軌跡中識別出四類對話行為:

1. 問答行為:指對話中先提出問題后給出回答的語列,例如「為什么……?因為……」「倘若…… 會怎樣?那么……」

2. 視角轉換:指對話過程中切換至新的想法、觀點、假設或分析方法的行為。

3. 觀點沖突:指表達出與其他觀點不一致、糾正對方觀點或觀點間存在矛盾張力的情況,例如「等等,這肯定不對……」「這與…… 相矛盾」。

4. 觀點調(diào)和:指將存在沖突的觀點整合或梳理為連貫結論的情形,例如 「因此,若滿足…… 條件,或許兩種觀點都成立」「結合這些見解……」以及「這就化解了觀點間的矛盾……」

針對每條推理軌跡,大語言模型評估器會統(tǒng)計各類會話行為的獨立出現(xiàn)次數(shù),輸出整數(shù)計數(shù)結果(無對應行為時計為 0)。

在這四類會話行為的標注上,Gemini-2.5-Pro 與 GPT-5.2 的結果展現(xiàn)出高度一致性。此外,Gemini-2.5-Pro 的標注結果與人工評分也具有一致性。

社會情感角色

本研究基于 Bales 互動過程分析(IPA)框架,對推理軌跡中社會情感角色的呈現(xiàn)情況展開分析。該框架將話語劃分為 12 種互動角色類型,每種類型均在提示詞中通過具體行為描述進行操作性定義。以 Gemini-2.5-Pro 模型構建的 LLM-as-judge 評估器,會分別統(tǒng)計這 12 類角色的獨立出現(xiàn)次數(shù);在核心分析環(huán)節(jié),作者將這些統(tǒng)計結果進一步歸總為四大高階類別,具體如下:

  • 信息給予類角色:包括提出建議、表達觀點、提供導向。
  • 信息征詢類角色,包括征詢建議、征詢觀點、征詢導向。
  • 積極情感類角色,包括展現(xiàn)團結、釋放緊張、表示認同。
  • 消極情感類角色,包括表現(xiàn)對抗、顯露緊張、表示異議。

在核心分析采用的四大高階 IPA 類別中,評分者間信度均達到較高水平。

為衡量推理軌跡中社會情感角色是否存在交互共現(xiàn)特征,作者針對兩組角色組合計算 Jaccard 指數(shù)。該指數(shù)用于衡量模型是否會在同一條推理軌跡中協(xié)調(diào)互補性角色,而非孤立地使用單一角色。Jaccard 指數(shù)越高,代表模型的互動模式越均衡、趨近于對話形態(tài);指數(shù)越低,則說明其推理過程更偏向單向、獨白式的表達。

認知行為

本研究采用 Gemini-2.5-Pro 作為 LLM-as-judge 評估器,識別出四類此前已被證實對語言模型推理準確率存在影響的認知行為。

在測量環(huán)節(jié),作者沿用了 Gandhi 等人使用的提示詞與示例,該套材料的有效性已通過多名人工評分者驗證。每類認知行為均在提示詞中附帶具體示例,以操作性定義的方式指導標注工作,具體如下:

  • 結果核驗:指推理鏈中明確將當前推導結果與目標答案進行比對的情形。提示詞中給出的典型示例包括:「該推導過程得出結果 1,與目標值 22 不符」「由于計算結果 25 不等于目標值 22」。
  • 路徑回溯:指模型意識到當前推理路徑無法得到正確結果,進而明確返回并嘗試其他方法的情形。
  • 子目標拆解:指模型將原問題分解為若干更小、可分步完成的中間目標的情形。
  • 逆向推理:指模型從目標答案出發(fā),反向推導至初始問題的情形。

在這四類認知推理行為的標注上,Gemini-2.5-Pro 與 GPT-5.2 的一致性處于良好至極佳區(qū)間。Gemini-2.5-Pro 的標注結果與人工評分也呈現(xiàn)出高度一致性。

上述信度評估的計算基于兩類推理軌跡樣本:一類是用于解決通用推理問題的 30 條推理軌跡,另一類是 Qwen-2.5-3B 模型在強化學習過程中生成的 50 條推理軌跡。

特征干預

為探究會話行為在推理過程中發(fā)揮的作用,作者采用稀疏自編碼器(SAE),對模型激活空間內(nèi)具有可解釋性的特征進行識別與操控。稀疏自編碼器可將神經(jīng)網(wǎng)絡的激活值分解為一組稀疏的線性特征,從而能夠在不修改模型權重的前提下,對特定行為維度實施定向干預。本研究使用的稀疏自編碼器,基于 DeepSeek-R1-Llama-8B 模型第 15 層的殘差流激活值訓練得到。

從候選特征中,作者最終選定了特征 30939。經(jīng)大語言模型評估器歸納,該特征的定義為「用于表達驚訝、頓悟或認同的話語標記」。在涉及話輪轉換與社交互動的語境中,當出現(xiàn)「Oh!」這類 token 時,該特征會被激活。特征 30939 的會話占比為 65.7%(在所有特征中處于第 99 百分位),同時具備高度稀疏性(僅在 0.016% 的 token 上激活),這表明該特征是會話現(xiàn)象所特有的,而非適用于通用語言模式的特征。

在文本生成階段,作者通過激活值添加法對特征 30939 進行調(diào)控:在每個 token 的生成步驟中,將該特征的解碼器向量按調(diào)控強度系數(shù) s 進行縮放后,疊加至模型第 15 層的殘差流激活值中。

實驗結果

先說主要結論,本文證明了,即便在推理軌跡長度相近的條件下,推理模型依然表現(xiàn)出更高頻率的對話式行為和社會情緒角色。

對話行為和社會情感角色

DeepSeek-R1 的推理過程中明顯出現(xiàn)了視角切換和觀點沖突,并通過諸如「不同意」「給出觀點」「提供解釋」等社會情緒角色加以體現(xiàn),例如:「但這里是環(huán)己 - 1,3 - 二烯,而不是苯?!埂噶硪环N可能是高溫會導致酮失去 CO 之類的反應,但不太可能?!?/p>

相比之下,DeepSeek-V3 在同一問題上的推理軌跡中,既沒有視角沖突,也沒有視角切換,更不存在分歧表達,只是以單線獨白的方式連續(xù)給出觀點和解釋,且缺乏自我修正,缺少不完整的推理。

在一個創(chuàng)造性句子改寫任務中,DeepSeek-R1 同樣通過視角沖突展開不同寫作風格之間的討論,并伴隨「不同意」「提出建議」等社會情緒角色,例如:「但那樣加入了‘根深蒂固’,原句里并沒有,我們應該避免添加新想法?!埂傅鹊龋遣皇且粋€詞?!埂覆贿^要注意,‘cast’ 的力度不如 ‘flung’,所以我們用 ‘hurled’ 更合適?!?/p>

而 DeepSeek-V3 幾乎沒有出現(xiàn)沖突或分歧,只是給出若干建議,缺乏 DeepSeek-R1 中那種反復比較、逐步修正的過程。



如圖 1a 結果表明,DeepSeek-R1 和 QwQ-32B 的對話式行為出現(xiàn)頻率顯著高于各類指令微調(diào)模型。與 DeepSeek-V3 相比,DeepSeek-R1 在提問 — 回答(=0.345)、視角切換(=0.213)以及整合與調(diào)和(=0.191)方面均顯著更頻繁。QwQ-32B 相對于 Qwen-2.5-32B-IT 也呈現(xiàn)出高度一致的趨勢,在提問 — 回答、視角切換、視角沖突和整合行為上均顯著更多。值得注意的是,無論模型參數(shù)規(guī)模大?。?B、32B、70B 或 671B),所有指令微調(diào)模型的對話式行為出現(xiàn)頻率都始終處于較低水平。

如圖 1b 所示,與對應的指令微調(diào)模型相比,DeepSeek-R1 和 QwQ-32B 均展現(xiàn)出更具互惠性的社會情緒角色結構:它們既會提出問題、請求指引、意見和建議,也會給予回應,同時還表現(xiàn)出負向與正向的情緒角色。

指令微調(diào)模型主要以單向方式給出指引、觀點和建議,幾乎不進行反向提問,也缺乏情緒層面的互動,其推理過程更像是一段獨白,而非對話的模擬。

本文進一步使用 Jaccard 指數(shù)來量化社會情緒角色的互惠平衡性。表明,DeepSeek-R1 在推理過程中更傾向于以互相協(xié)調(diào)的方式組織不同角色,而不是將它們孤立地、零散地使用。QwQ-32B 相對于 Qwen-2.5-32B-IT 也表現(xiàn)出一致的趨勢。

進一步考察發(fā)現(xiàn),當 DeepSeek-R1 面對更高難度的問題時,對話式行為和社會情緒角色會更加明顯。

例如,在復雜度最高的任務中,如研究生水平的科學推理(GPQA)以及高難度數(shù)學題,模型展現(xiàn)出非常明顯的對話特征;而在布爾表達式、基礎邏輯推理等較為簡單、程序化的任務中,對話行為則非常有限。

對話特征引導可提升推理準確率

在觀察到推理軌跡中廣泛存在對話式行為之后,作者進一步提出一個問題:這些與對話相關的行為,是否真的有助于提升模型的推理表現(xiàn)?

具體實驗選用了 Countdown 游戲,如圖 2b 所示,對對話式驚訝特征進行正向引導(+10),會使 Countdown 任務的準確率從 27.1% 提升至 54.8%,幾乎翻倍;而進行負向引導(?10)則會將準確率降低至 23.8%。

當引導強度從 0 增加到 +10 時,四類對話式行為均顯著增強;相反,當引導強度從 0 降至 ?10 時,這些對話行為會被系統(tǒng)性抑制。



例如,擴展數(shù)據(jù)表 1 所示,正向引導(+10)會誘發(fā)模型在推理過程中主動質(zhì)疑先前的解法(如「等等,讓我再看看…… 另一個思路是……」),體現(xiàn)出明顯的視角切換和觀點沖突;而負向引導(?10)則會生成相對平鋪直敘的推理文本,缺乏內(nèi)部討論和自我辯論的過程。



綜合來看,這些發(fā)現(xiàn)表明:對話特征通過兩條路徑提升推理能力:一方面,它們直接幫助模型更有效地探索解空間;另一方面,它們通過腳手架式地支持驗證、回溯和子目標分解等認知策略,推動系統(tǒng)性的問題求解過程。

強化學習實驗

為進一步檢驗:當只獎勵正確答案時,大模型是否會自發(fā)強化對話式行為,為此,作者設計并實施了一項自教式強化學習(self-taught RL)實驗。結果顯示對話式結構本身,能夠在強化學習過程中促進推理策略的自發(fā)涌現(xiàn)與加速形成。



了解更多內(nèi)容,請參考原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:今天,放量并未大漲,跡象已明確,做好準備,很可能這樣走

A股:今天,放量并未大漲,跡象已明確,做好準備,很可能這樣走

丁丁鯉史紀
2026-01-26 12:16:17
新華社記者直擊伊朗最新局勢

新華社記者直擊伊朗最新局勢

新華社
2026-01-24 17:45:55
委內(nèi)瑞拉代總統(tǒng):我“受夠了”來自華盛頓的命令

委內(nèi)瑞拉代總統(tǒng):我“受夠了”來自華盛頓的命令

揚子晚報
2026-01-26 12:40:21
李湘王詩齡被曝已經(jīng)跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

李湘王詩齡被曝已經(jīng)跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

花哥扒娛樂
2026-01-24 16:06:55
美國正式退出世界衛(wèi)生組織,外交部回應

美國正式退出世界衛(wèi)生組織,外交部回應

環(huán)球網(wǎng)資訊
2026-01-26 15:43:50
徒手獨攀臺北101,是人類對AI模擬一切的最有力反擊

徒手獨攀臺北101,是人類對AI模擬一切的最有力反擊

不懂經(jīng)1人獨角獸
2026-01-25 22:38:44
“家里東西被移動過!”女子查看路由器記錄發(fā)現(xiàn)……真相令人毛骨悚然!

“家里東西被移動過!”女子查看路由器記錄發(fā)現(xiàn)……真相令人毛骨悚然!

深圳晚報
2026-01-26 12:16:04
“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

“戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

流史歲月
2026-01-26 10:58:30
知名女星被實名舉報代孕、插足婚姻,據(jù)稱已退出遼寧春晚

知名女星被實名舉報代孕、插足婚姻,據(jù)稱已退出遼寧春晚

深圳晚報
2026-01-26 10:02:54
五五分流為什么分不下去了?背后的真相

五五分流為什么分不下去了?背后的真相

楓冷慕詩
2026-01-24 13:09:19
日本為何禁肉1200年?乃是統(tǒng)治者“制度設計”,解禁后人均身高迅速上漲

日本為何禁肉1200年?乃是統(tǒng)治者“制度設計”,解禁后人均身高迅速上漲

齊天候
2026-01-25 23:29:25
無人機吊豬下山掛電線上致村莊停電10小時,知情人:本有十余頭,第一頭就掛上了

無人機吊豬下山掛電線上致村莊停電10小時,知情人:本有十余頭,第一頭就掛上了

瀟湘晨報
2026-01-25 11:50:16
火箭軍反腐大動作!倒查9年揪出采購黑幕,74名專家終身禁入

火箭軍反腐大動作!倒查9年揪出采購黑幕,74名專家終身禁入

青煙小先生
2026-01-26 14:15:22
富婆太癡情!29歲酒吧男銷冠同時和倆富婆談戀愛,騙走上千萬

富婆太癡情!29歲酒吧男銷冠同時和倆富婆談戀愛,騙走上千萬

有書
2026-01-24 23:00:03
“留學一年嘴都變大了”,女學生面相變化圖走紅,牢A果然權威

“留學一年嘴都變大了”,女學生面相變化圖走紅,牢A果然權威

澤澤先生
2026-01-25 21:55:27
雷軍無奈宣布:全部下架!

雷軍無奈宣布:全部下架!

電動知家
2026-01-25 15:31:25
央媒怒批、目不識丁,這幾位德不配位的“文盲”明星,憑啥走紅

央媒怒批、目不識丁,這幾位德不配位的“文盲”明星,憑啥走紅

天天熱點見聞
2026-01-24 07:50:34
雪豹傷人真相曝光:不是偶遇是送命!當事人撒謊,航拍圖還原真相

雪豹傷人真相曝光:不是偶遇是送命!當事人撒謊,航拍圖還原真相

吃貨的分享
2026-01-26 02:27:32
解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

新華社
2026-01-24 23:03:04
10億產(chǎn)業(yè)毀于貪婪?云南毒紅薯后續(xù):無辜農(nóng)戶畝虧數(shù)千

10億產(chǎn)業(yè)毀于貪婪?云南毒紅薯后續(xù):無辜農(nóng)戶畝虧數(shù)千

愛下廚的阿椅
2026-01-26 06:45:40
2026-01-26 16:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12193文章數(shù) 142549關注度
往期回顧 全部

科技要聞

印奇再上牌桌,階躍融資50億

頭條要聞

高市早苗:若執(zhí)政黨陣營在選舉中未過半數(shù) 將即刻辭職

頭條要聞

高市早苗:若執(zhí)政黨陣營在選舉中未過半數(shù) 將即刻辭職

體育要聞

叛逆的大公子,要砸了貝克漢姆這塊招牌

娛樂要聞

張雨綺被實名舉報代孕、插足婚姻

財經(jīng)要聞

從美式斬殺線看中國社會的制度韌性構建

汽車要聞

賓利第四臺Batur敞篷版發(fā)布 解鎖四項定制創(chuàng)新

態(tài)度原創(chuàng)

房產(chǎn)
本地
教育
藝術
公開課

房產(chǎn)要聞

6大碾壓級優(yōu)勢!2025??谧顝姇縼砹?!

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點贊

教育要聞

a+b=5,ab=3,求3次方

藝術要聞

溥心畬的花鳥,淡雅清新

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版