国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek-V3.2|技術(shù)報告解讀

0
分享至

這是一篇報告解讀,原文是《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》


DS-V3.2獲得這份報告

先說結(jié)論

DeepSeek-V3.2
在推理能力上追平 GPT-5-High,在部分指標(biāo)上超越

DeepSeek-V3.2-Speciale(高算力版)
在 2025 年 IMO 和 IOI 拿了金牌,推理能力接近 Gemini-3.0-Pro


圖1|核心基準(zhǔn)對比。DeepSeek-V3.2-Speciale 在數(shù)學(xué)和編程上已經(jīng)和 Gemini-3.0-Pro 打平 怎么做到的?三件事

DSA(DeepSeek Sparse Attention)
一種稀疏注意力機制,大幅降低長上下文的計算成本

后訓(xùn)練加碼
把后訓(xùn)練的計算預(yù)算提到預(yù)訓(xùn)練的 10% 以上

大規(guī)模合成數(shù)據(jù)
生成了 1,800 個環(huán)境、85,000 個任務(wù),全是合成的

下面一個一個說

DSA:把注意力從 O(L2) 降到 O(Lk)

傳統(tǒng)的 Transformer 注意力機制是 O(L2) 復(fù)雜度,L 指的是序列長度

簡單說一下 計算機領(lǐng)域,通常用 O(x) 來說明復(fù)雜度:比如 O(L) 的含義是隨著 L 增加,則復(fù)雜度線性增加;而 O(L2) 的意思是按長度的平方倍增加。 文本長度翻 2 倍,計算量翻 4 倍;長度翻 10 倍,計算量翻 100 倍

這長上下文場景中,這個復(fù)雜度就成了大問題,推理慢,后訓(xùn)練也很難做
所以你很少會見到超過 128k 的上下文( GPT-3.5 最早默認(rèn) 4k 上下文)

DeepSeek 的解決方案是 DSA,核心思路是:
并非每個 token 都看全部上下文,只看最相關(guān)的 k 個 token

這樣計算量就變成 O(Lk),k 是個固定值(2048),不再隨文本長度爆炸式增長


圖2|DSA 架構(gòu)。Lightning Indexer 快速篩選,Top-k Selector 精選 2048 個 token 做注意力計算

具體實現(xiàn)分兩步:

第一步:Lightning Indexer

一個輕量級的打分器,給每個歷史 token 打分,決定哪些值得關(guān)注

這個打分器用 ReLU 激活函數(shù),可以跑在 FP8 精度,算力開銷很小

第二步:Fine-grained Token Selection

根據(jù) Lightning Indexer 的打分,只選 top-k 個 token 做真正的注意力計算

在 DeepSeek-V3.2 里,k =2048

雖然 Lightning Indexer 本身還是 O(L2),但它比主注意力輕很多,整體效率大幅提升

DSA 訓(xùn)練的兩個階段 階段一:Dense Warm-up

先凍住主模型,只訓(xùn)練 Lightning Indexer

訓(xùn)練目標(biāo)是讓 Indexer 的輸出分布對齊主注意力的分布

用 KL 散度做 loss

只訓(xùn)練了 1000 步,共 2.1B tokens

階段二:Sparse Training

放開所有參數(shù),讓模型適應(yīng)稀疏注意力模式

繼續(xù)用 KL 散度對齊 Indexer 和主注意力

訓(xùn)練了 15000 步,共 943.7B tokens


圖3|推理成本對比。V3.2 在長序列場景下成本幾乎是平的,V3.1 是線性增長 效果怎么樣?

在 128K 長度的 prefilling 階段,V3.2 的成本基本不隨位置增長,V3.1-Terminus 是線性增長

并且:性能沒降

在 ChatbotArena 的 Elo 評分上,V3.2-Exp 和 V3.1-Terminus 基本持平

在獨立的長上下文評測(AA-LCR、Fiction.liveBench)上,V3.2-Exp 甚至更好

后訓(xùn)練加碼:預(yù)算超過預(yù)訓(xùn)練的 10%

過去,開源模型的后訓(xùn)練投入普遍不足,這限制了它們在難任務(wù)上的表現(xiàn)

DeepSeek 的做法是:大力出奇跡

具體數(shù)字是:后訓(xùn)練的計算預(yù)算超過預(yù)訓(xùn)練成本的 10%

這是很激進的配置

后訓(xùn)練流程分兩步 第一步:專家蒸餾(Specialist Distillation)

為每個任務(wù)領(lǐng)域訓(xùn)練一個專門的「專家模型」
六個領(lǐng)域:數(shù)學(xué)、編程、通用邏輯推理、通用智能體、代碼智能體、搜索智能體

每個領(lǐng)域都支持 thinking 和 non-thinking 兩種模式
每個專家都用大規(guī)模 RL 訓(xùn)練

訓(xùn)練好之后,用專家模型生成領(lǐng)域數(shù)據(jù),給最終模型用

第二步:混合 RL 訓(xùn)練(Mixed RL Training)

把推理、智能體、人類對齊三類任務(wù)合并成一個 RL 階段

用 GRPO(Group Relative Policy Optimization)算法

這樣做的好處是:避免多階段訓(xùn)練的災(zāi)難性遺忘

GRPO 的幾個關(guān)鍵改進

論文詳細(xì)說了四個穩(wěn)定化技巧:

1. Unbiased KL Estimate

原來的 K3 estimator 在某些情況下會給低概率 token 分配過大的梯度權(quán)重,導(dǎo)致訓(xùn)練不穩(wěn)定

DeepSeek 用重要性采樣修正了這個問題

Off-Policy Sequence Masking

把偏離當(dāng)前策略太遠(yuǎn)的負(fù)樣本 mask 掉

直覺是:從自己的錯誤里學(xué)比從不相關(guān)的錯誤里學(xué)更有效

Keep Routing

MoE 模型的專家路由在推理和訓(xùn)練時可能不一致

DeepSeek 保存推理時的路由路徑,訓(xùn)練時強制復(fù)用

Keep Sampling Mask

Top-p 采樣時的截斷 mask 也保存下來,訓(xùn)練時復(fù)用

保證采樣策略和訓(xùn)練策略一致

大規(guī)模智能體數(shù)據(jù)合成

泛化能力,是大模型在智能體場景的另一個短板

原因很簡單:沒有足夠多樣的訓(xùn)練環(huán)境

DeepSeek 的解決方案是:自己合成


表1|智能體任務(wù)分布。50275 個搜索任務(wù)、24667 個代碼任務(wù)、4417 個通用任務(wù)、5908 個代碼解釋任務(wù)

具體數(shù)據(jù) 代碼智能體 24,667 個任務(wù)(真實環(huán)境,提取的提示) 搜索智能體 50,275 個任務(wù)(真實環(huán)境,合成的提示) 通用智能體 4,417 個任務(wù)(合成環(huán)境,合成提示) 代碼解釋器 5,908 個任務(wù)(真實環(huán)境,提取的提示)
合成流程,很有意思

  1. 1. 給定一個任務(wù)類型(比如旅行規(guī)劃),agent 先用 bash 和搜索工具從網(wǎng)上拉數(shù)據(jù),存到沙箱數(shù)據(jù)庫

  2. 2. Agent 合成一套任務(wù)相關(guān)的工具函數(shù)

  3. 3. Agent 先提出一個簡單任務(wù),寫好解決方案和驗證函數(shù)

  4. 4. 迭代增加任務(wù)難度,同時更新解決方案和驗證函數(shù)

  5. 5. 如果現(xiàn)有工具不夠用,agent 會自動擴展工具集

最終得到了1,827個環(huán)境,4,417個任務(wù)


合成任務(wù)示例:三天旅行規(guī)劃。約束條件復(fù)雜,驗證容易,搜索空間大——典型的「難解易驗」問題

有個 Trip Planning 的例子 從杭州出發(fā)的三天旅行,要求不重復(fù)城市/酒店/餐廳/景點,第二天的預(yù)算有復(fù)雜的條件約束...

任務(wù)很難解,但驗證很簡單——只要檢查所有約束是否滿足

這類「難解易驗」的任務(wù)特別適合 RL

合成數(shù)據(jù)真的有用嗎?

論文做了消融實驗
用 V3.2-SFT 只在合成的通用智能體數(shù)據(jù)上做 RL,測試在Tau2Bench、MCP-Mark、MCP-Universe上的效果

結(jié)果是:顯著提升

作為對照,只在代碼和搜索環(huán)境上做 RL,這三個 benchmark 上沒有提升

簡而言之,這么做,確實帶來了泛化能力


圖5|合成數(shù)據(jù) RL 效果,藍(lán)線是 RL-Synthetic-Data Thinking in Tool-Use

讓推理和工具調(diào)用融合,是 v3.2 在工程上的關(guān)鍵設(shè)計

DeepSeek-R1 證明了「thinking」對解決復(fù)雜問題很有幫助

但 R1 的策略是:第二輪消息到來時,丟棄之前的推理內(nèi)容

這在工具調(diào)用場景下很浪費——每次工具返回結(jié)果,模型都要重新推理一遍


圖4|Thinking 保留機制。只有新用戶消息到來時才丟棄推理內(nèi)容,工具結(jié)果不觸發(fā)丟棄

DeepSeek-V3.2 的設(shè)計是:

  • ? 只有新的用戶消息到來時才丟棄推理內(nèi)容

  • ? 如果只是工具返回結(jié)果,保留推理內(nèi)容

  • ? 丟棄推理內(nèi)容時,工具調(diào)用歷史保留

注意 Roo Code、Terminus 這類用「用戶消息」模擬工具交互的框架,無法享受這個優(yōu)化;論文建議這類框架用 non-thinking 模式
Cold-Start

怎么讓模型學(xué)會「邊推理邊調(diào)工具」,這個能力需要教

DeepSeek 的做法是設(shè)計專門的 system prompt:

  • ? 告訴模型可以在 標(biāo)簽內(nèi)多次調(diào)用工具

  • ? 最多 20 次

  • ? 最終答案不能包含工具調(diào)用

雖然這樣訓(xùn)練出來的模式一開始不太穩(wěn)定,但偶爾能產(chǎn)生正確的軌跡

有了這些種子數(shù)據(jù),后續(xù)的 RL 就能持續(xù)優(yōu)化

結(jié)果對比

到這里,我們看一下模型的性能,自己看圖,不贅述了

這個是DeepSeek-V3.2


表2|完整基準(zhǔn)對比。DeepSeek-V3.2-Thinking 與 GPT-5-High 基本持平,Speciale 版本在數(shù)學(xué)上超越

這個是DeepSeek-V3.2-Speciale的競賽成績


表4|競賽成績。IOI 2025 第10名,ICPC WF 2025 第2名。這是通用模型,不是專門為競賽訓(xùn)練的

需要說明的是:Token 效率,是 DeepSeek-V3.2 的一個短板

舉個例子,在 Codeforces 中,Gemini-3.0-Pro 用 22k tokens 拿 2708 分,DeepSeek-V3.2 用 42k tokens 才拿 2386 分,Speciale 版本用 77k tokens 拿 2701 分

Speciale 版本為了達(dá)到更高性能,輸出 token 數(shù)明顯更多

具體的看這張圖


表3|各個模型的 token 效率 其他:上下文管理策略

搜索智能體場景有個問題:經(jīng)常撞到 128K 的上下文限制

DeepSeek 試了幾種策略:

  1. 1.Summary:超限后總結(jié)軌跡,重新開始

  2. 2.Discard-75%:丟棄前 75% 的工具調(diào)用歷史

  3. 3.Discard-all:丟棄所有工具調(diào)用歷史(類似 Anthropic 的 new context tool)

  4. 4.Parallel-fewest-step:并行采樣多個軌跡,選步數(shù)最少的

圖6|上下文管理效果。Discard-all 簡單但效果最好,67.6% vs 基線 53.4%

結(jié)果有點反直覺:
最簡單的 Discard-all 效果最好,BrowseComp 從 53.4% 提升到 67.6%
Summary 效率最低,雖然也能提升性能

還差什么

DeepSeek 團隊坦誠說了三個局限:

1. 世界知識不夠豐富
訓(xùn)練算力有限,知識廣度不如 Gemini-3.0-Pro
計劃未來擴大預(yù)訓(xùn)練規(guī)模

2. Token 效率低
達(dá)到同樣輸出質(zhì)量,需要生成更多 token
需要優(yōu)化推理鏈的「智能密度」
這個上文提了

3. 最難的任務(wù)還有差距
在最頂尖的復(fù)雜任務(wù)上,和 Gemini-3.0-Pro 還有差距

我覺得吧,這三個局限其實指向同一個問題:算力
預(yù)訓(xùn)練算力不夠,知識就不夠廣
后訓(xùn)練算力不夠,token 效率就上不去
基礎(chǔ)模型能力不夠,最難的任務(wù)就做不好

但反過來說,DeepSeek 在有限算力下能做到這個程度,也或許說明...技術(shù)路線是對的?

總結(jié)

這篇論文,大致說了這三件事兒

  • ?DSA 解決了效率問題,讓大規(guī)模后訓(xùn)練成為可能

  • ?大規(guī)模后訓(xùn)練,帶來了更高的訓(xùn)練回報

  • ?大規(guī)模合成數(shù)據(jù),讓智能體能力的泛化成為可能

三件事串起來,讓 DeepSeek v3.2,在推理能力上追平了 GPT-5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陳志被捕荷槍實彈遣返北京,個子矮小藍(lán)色囚衣關(guān)東城區(qū)看守所。

陳志被捕荷槍實彈遣返北京,個子矮小藍(lán)色囚衣關(guān)東城區(qū)看守所。

環(huán)球趣聞分享
2026-01-09 13:30:03
王亞平的安保:吃飯要檢測,出門配警衛(wèi),這種“副國級”待遇是不是小題大作?

王亞平的安保:吃飯要檢測,出門配警衛(wèi),這種“副國級”待遇是不是小題大作?

歷史回憶室
2026-01-06 15:54:12
馬斯克的Grok在X上每小時生成數(shù)千張裸露圖像,受害者維權(quán)無門

馬斯克的Grok在X上每小時生成數(shù)千張裸露圖像,受害者維權(quán)無門

IT之家
2026-01-07 19:57:03
169萬元!京東拿下查干湖頭魚,今年近五成查干湖魚將由京東包銷

169萬元!京東拿下查干湖頭魚,今年近五成查干湖魚將由京東包銷

野馬財經(jīng)
2026-01-08 15:45:40
德云社職務(wù)突變不到半個月,官媒官宣王惠新動向,郭麒麟真沒說錯

德云社職務(wù)突變不到半個月,官媒官宣王惠新動向,郭麒麟真沒說錯

瓜汁橘長Dr
2026-01-09 10:13:09
CBA最新消息!山西男籃簽約新教練,威廉姆斯或加盟山東

CBA最新消息!山西男籃簽約新教練,威廉姆斯或加盟山東

體壇瞎白話
2026-01-09 07:50:09
農(nóng)民無辜被抓,受盡各種酷刑,1996年運城特大刑訊逼供案始末

農(nóng)民無辜被抓,受盡各種酷刑,1996年運城特大刑訊逼供案始末

曉記
2025-12-12 17:18:39
《驚變》登央視8套!于和偉富大龍飆戲,35集諜戰(zhàn)藏生死時速

《驚變》登央視8套!于和偉富大龍飆戲,35集諜戰(zhàn)藏生死時速

手工制作阿殲
2026-01-08 13:41:35
1955年,一名身體強壯的日本女人赤裸上身背著黑色編織袋站在海邊

1955年,一名身體強壯的日本女人赤裸上身背著黑色編織袋站在海邊

忠于法紀(jì)
2026-01-07 17:46:09
2026年初官媒高調(diào)官宣王虹喜訊,韋東奕:終于等到這天

2026年初官媒高調(diào)官宣王虹喜訊,韋東奕:終于等到這天

地球記
2026-01-06 10:19:43
重慶一中學(xué)老師強制學(xué)生剪發(fā)并打人?校方通報

重慶一中學(xué)老師強制學(xué)生剪發(fā)并打人?校方通報

界面新聞
2026-01-09 07:13:46
跟了自己十幾年的貼身秘書,是美國間諜?僅一個眼神就發(fā)現(xiàn)不對勁

跟了自己十幾年的貼身秘書,是美國間諜?僅一個眼神就發(fā)現(xiàn)不對勁

墨蘭史書
2026-01-03 05:45:03
43分+18板+16助!聯(lián)盟第2!老詹說得沒錯,他能進全明星

43分+18板+16助!聯(lián)盟第2!老詹說得沒錯,他能進全明星

世界體育圈
2026-01-09 11:02:30
爆冷!紐卡新援身價反超利物浦標(biāo)王,3000 萬歐差距太扎心

爆冷!紐卡新援身價反超利物浦標(biāo)王,3000 萬歐差距太扎心

瀾歸序
2026-01-09 03:04:17
重磅!全球局勢不穩(wěn),新華社官宣轟-20、殲-36或在2026年正式亮相

重磅!全球局勢不穩(wěn),新華社官宣轟-20、殲-36或在2026年正式亮相

策略述
2026-01-08 18:17:38
阿隆索:我不喜歡西蒙尼這樣對我的球員說話;姆巴佩明天出發(fā)

阿隆索:我不喜歡西蒙尼這樣對我的球員說話;姆巴佩明天出發(fā)

懂球帝
2026-01-09 06:23:14
拖欠他人工資,中山兩企業(yè)被列入廣東新一批欠薪“黑名單”

拖欠他人工資,中山兩企業(yè)被列入廣東新一批欠薪“黑名單”

南方都市報
2026-01-09 11:02:07
上海離異女房東收租15年,卻倒欠租客26萬,敗訴后房東一夜白頭

上海離異女房東收租15年,卻倒欠租客26萬,敗訴后房東一夜白頭

千百度籃球視角
2026-01-09 10:34:37
里奇-保羅:就算東契奇防守提升到托尼-阿倫的水平,湖人也無法奪冠

里奇-保羅:就算東契奇防守提升到托尼-阿倫的水平,湖人也無法奪冠

懂球帝
2026-01-08 15:28:44
豪門對決夜 皇馬2-1馬競進決賽 巴黎6-3馬賽奪冠 阿森納0-0利物浦

豪門對決夜 皇馬2-1馬競進決賽 巴黎6-3馬賽奪冠 阿森納0-0利物浦

狍子歪解體壇
2026-01-09 05:59:59
2026-01-09 14:08:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
243文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

頭條要聞

媒體:看到委內(nèi)瑞拉總統(tǒng)被美軍活捉 李顯龍怕了

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

更智能更豪華 樂道L90加配置會貴多少?

態(tài)度原創(chuàng)

教育
時尚
家居
藝術(shù)
本地

教育要聞

你給孩子的支點越多,他的心理就越強大

這一次,抖音美妝讓36萬用戶來定義美

家居要聞

木色留白 演繹現(xiàn)代自由

藝術(shù)要聞

Sean Yoro:街頭藝術(shù)界的“沖浪高手”

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

無障礙瀏覽 進入關(guān)懷版