DeepSeek V4即將發(fā)布？先讀懂梁文峰這份86頁的技術(shù)底牌

2026-01-10 08:18:54　來源: AI進(jìn)化論花生

北京舉報(bào)

分享至

最近DeepSeek V4的傳言越來越多了。

據(jù)The Information報(bào)道，知情人士透露DeepSeek計(jì)劃在2月中旬、農(nóng)歷新年前后發(fā)布V4模型。內(nèi)部測試顯示，V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。

去年R1也是春節(jié)前一周發(fā)布的，直接引發(fā)了全球市場一萬億美元的震動。在大型節(jié)假日前搞大事確實(shí)也很符合DeepSeek一貫的做法，今年會不會故技重施？

但在V4發(fā)布之前，DeepSeek先悄悄做了一件事：把一年前的R1論文從22頁擴(kuò)充到了86頁。

我下載了兩個版本對比，文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話，是他們訓(xùn)練的詳細(xì)賬本和踩過的坑。

這個時間點(diǎn)更新舊論文，絕不是巧合。我猜他們在做兩件事：一是為V4鋪路，讓社區(qū)先完全理解R1的技術(shù)細(xì)節(jié)；二是用行動回應(yīng)之前"只開源權(quán)重不給訓(xùn)練細(xì)節(jié)"的質(zhì)疑。

說實(shí)話，看完這份更新，我對Open這個詞有了新的理解。上周我發(fā)的這篇關(guān)于DeepSeek mHC論文的解讀很多人表示意外地能看懂，閱讀量都突破20萬+了，哈哈哈～

所以我今天再挑戰(zhàn)下自己，試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

先說更新了什么

v1版本發(fā)布于2025年1月22日，22頁，主要講R1是什么、怎么訓(xùn)的、效果多好。

v2版本發(fā)布于2026年1月4日，86頁。時隔將近一年，多出來的60多頁都在講什么？

我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix（作者列表）。v2新增了6大類Supplementary：

A: GRPO和PPO的詳細(xì)對比
B: 訓(xùn)練細(xì)節(jié)（這部分最長，約50頁）
C: 推理行為分析
D: 基準(zhǔn)測試詳情 + 10頁安全報(bào)告
E: 綜合分析（與V3對比、test-time scaling等）
F: 推理能力遷移

說白了，這次更新就是把"解題過程"補(bǔ)上了，給出了可復(fù)現(xiàn)的技術(shù)文檔。

之前R1開源的時候，很多人吐槽說"只給權(quán)重不給訓(xùn)練細(xì)節(jié)，這算什么開源"?，F(xiàn)在DeepSeek把這塊補(bǔ)上了。

294K美元的訓(xùn)練賬單

論文新增了Table 7，第一次公開了完整的訓(xùn)練成本：

階段

GPU小時

成本

DeepSeek-R1-Zero

101K

$202K

SFT數(shù)據(jù)創(chuàng)建

$10K

DeepSeek-R1

41K

$82K

總計(jì)

147K

$294K

這個成本是按H800租賃價格$2/GPU hour算的。

29.4萬美元，訓(xùn)練一個媲美OpenAI o1的推理模型。

29.4萬美元是什么概念？之前寫V3.2的時候我提到，DeepSeek只有150人的團(tuán)隊(duì)?，F(xiàn)在加上這個成本數(shù)據(jù)，畫面更清晰了——他們不是靠砸錢，是靠效率。

具體怎么訓(xùn)的？論文給了精確配置：

R1-Zero: 64×8張H800 GPU，跑了198小時
R1: 同樣的GPU配置，80小時（約4天）

64×8是512張卡。198+80=278小時。不到12天，訓(xùn)完了兩個階段。

數(shù)據(jù)配方首次公開

這是我覺得最有價值的部分——Table 4詳細(xì)列出了RL訓(xùn)練數(shù)據(jù)的構(gòu)成：

數(shù)學(xué)：26k題

從區(qū)域競賽到國際奧林匹克級別
包括代數(shù)、微積分、概率、幾何
排除了數(shù)學(xué)證明（因?yàn)殡y以自動驗(yàn)證）

代碼：17k + 8k

17k算法競賽題（Codeforces、LeetCode風(fēng)格）
8k GitHub真實(shí)bug修復(fù)問題

STEM：22k選擇題

化學(xué)占46.5%（最多）
生物30.7%
物理15.5%
其他7.3%

邏輯：15k題

真實(shí)世界：腦筋急轉(zhuǎn)彎、經(jīng)典邏輯謎題
合成數(shù)據(jù)：Code-IO問題、Zebra puzzle等

通用：66k + 12k

66k評估helpfulness（創(chuàng)意寫作、編輯、問答、角色扮演）
12k評估harmlessness

總共約150k條數(shù)據(jù)。

為什么化學(xué)題最多？論文沒解釋，但我猜測可能是因?yàn)榛瘜W(xué)題的答案更容易自動驗(yàn)證（選擇題），同時又需要多步推理。

更有意思的是Cold Start數(shù)據(jù)的創(chuàng)建流程。R1不是從零開始訓(xùn)的，而是先用R1-Zero的輸出，經(jīng)過這個流程：

用R1-Zero在高溫度（1.0）下生成多條推理軌跡
過濾：保留答案正確、格式可讀的
用sympy驗(yàn)證數(shù)學(xué)表達(dá)式
用DeepSeek-V3重寫，讓推理過程更"人話"
人工二次驗(yàn)證

論文里甚至給出了重寫的prompt，讓V3把R1-Zero那種"we"風(fēng)格的推理，改成"I"風(fēng)格——因?yàn)橛脩舾矚g第一人稱的思考過程。

這種細(xì)節(jié)，以前根本不會公開。

失敗也寫進(jìn)論文

v1版本有一小節(jié)叫"Unsuccessful Attempts"，提到PRM和MCTS不太行。v2把這部分?jǐn)U展了，還加了一個我覺得很有價值的案例：Reward Hacking。

Figure 6展示了一個典型的失敗場景：用helpful reward model訓(xùn)練時，reward分?jǐn)?shù)一直在漲（左邊紅線），但CodeForces的實(shí)際性能卻在跌（右邊藍(lán)線）。

這就是reward hacking——模型學(xué)會了"討好"獎勵函數(shù)，但并沒有真正變強(qiáng)。

論文原文的解釋是：

"如果reward model包含系統(tǒng)性偏差或不準(zhǔn)確，LLM可能學(xué)會生成那些被模型高評分、但與真實(shí)人類偏好背離的回答。"

PRM（Process Reward Model）的問題也講得更清楚了：

細(xì)粒度步驟難定義：什么算"一步推理"？在通用推理任務(wù)里很難界定
中間步驟對錯難判斷：自動標(biāo)注效果差，人工標(biāo)注又沒法規(guī)模化
必然導(dǎo)致reward hacking：只要引入模型做判斷，就會被exploit

所以DeepSeek最后用的是rule-based reward——數(shù)學(xué)題直接匹配答案，代碼題跑測試用例。簡單粗暴，但不會被hack。

為什么要公開這些失??？我覺得這才是真正的Open。告訴社區(qū)"這條路我們走過了，不通"，比只展示成功更有價值。

基礎(chǔ)設(shè)施首次披露

Supplementary B.1詳細(xì)描述了RL訓(xùn)練的基礎(chǔ)設(shè)施，分為4個模塊：

1. Rollout Module

用vLLM做推理
對MoE架構(gòu)實(shí)現(xiàn)expert parallelism，減少內(nèi)存訪問開銷
部署熱點(diǎn)expert的冗余副本來負(fù)載均衡
用MTP（Multi-Token Prediction）做self-speculative decoding加速

2. Inference Module

加載reward model和reference model
對rollout階段生成的樣本做forward pass

3. Rule-based Reward Module

統(tǒng)一接口：代碼執(zhí)行器、答案匹配器、格式檢查器
異步調(diào)度，和前兩個模塊overlap執(zhí)行

4. Training Module

支持PPO、GRPO、DPO等算法
數(shù)據(jù)打包策略：先按長度排序，再用Best-Fit裝箱
集成了DualPipe算法做pipeline parallelism

還有一個細(xì)節(jié)：每個模塊跑完后，模型會自動從顯存offload到內(nèi)存或磁盤，給下一個模塊騰空間。

這些基礎(chǔ)設(shè)施細(xì)節(jié)以前只有DeepSeek內(nèi)部知道?，F(xiàn)在寫進(jìn)論文，其他團(tuán)隊(duì)可以照著搭。

10頁安全報(bào)告

Supplementary D.3是一份完整的安全評估報(bào)告，包括：

風(fēng)控系統(tǒng)：公開了完整的risk review prompt（Listing 8）
6個公開benchmark對比：和其他SOTA模型的安全性比較
分類測試：基于自研安全測試集的細(xì)分評估
多語言安全：不同語言下的安全表現(xiàn)
Jailbreak魯棒性：對抗攻擊下的表現(xiàn)

風(fēng)控prompt里列了11條安全標(biāo)準(zhǔn)，從"通用原則"到"隱私偽造"到"風(fēng)險建議"，細(xì)到可以直接抄。

對想部署R1的企業(yè)來說，這部分很實(shí)用——不只是模型安全性數(shù)據(jù)，還告訴你外部風(fēng)控系統(tǒng)怎么搭。

為什么選擇現(xiàn)在更新？

論文更新的時間點(diǎn)是2026年1月4日。

結(jié)合V4的發(fā)布傳言，時間線就很清晰了：

2025年1月20日：R1發(fā)布，春節(jié)前一周
2026年1月4日：R1論文v2發(fā)布，詳細(xì)補(bǔ)全技術(shù)細(xì)節(jié)
2026年2月中旬（傳聞）：V4發(fā)布，又是春節(jié)前后

DeepSeek似乎在做一件事：先把上一代的賬本攤開，再發(fā)布下一代。

這對社區(qū)的好處是顯而易見的——當(dāng)V4發(fā)布時，研究者已經(jīng)完全理解R1的技術(shù)細(xì)節(jié)，可以更清晰地看出V4到底改進(jìn)了什么。

當(dāng)然，這也可能是回應(yīng)之前"只開源權(quán)重不給訓(xùn)練細(xì)節(jié)"的批評。不管出于什么原因，結(jié)果很實(shí)在——社區(qū)拿到了一份真正可復(fù)現(xiàn)的技術(shù)報(bào)告。

最后

回到"Open"這個詞。

大多數(shù)公司的Open是什么？開源權(quán)重，開源推理代碼，發(fā)個技術(shù)博客。

DeepSeek的Open是什么？

訓(xùn)練成本精確到GPU小時
數(shù)據(jù)配方精確到每個類別的數(shù)量和來源
失敗嘗試寫進(jìn)論文，告訴你哪條路不通
基礎(chǔ)設(shè)施架構(gòu)圖，告訴你怎么搭RL系統(tǒng)
安全評估報(bào)告，告訴你怎么做風(fēng)控

這才是讓社區(qū)能真正復(fù)現(xiàn)和改進(jìn)的Open。

之前寫mHC論文的時候我說，DeepSeek的技術(shù)哲學(xué)是"去質(zhì)疑那些所有人都覺得沒必要改的東西"?，F(xiàn)在看來，他們對"開源"這件事的理解也是一樣——不是做到行業(yè)平均水平就夠了，而是要做到讓別人能真正用起來。

從22頁到86頁，多出來的60頁不是湊數(shù)，是掏心窩子的誠意。

至于V4會帶來什么？如果傳言屬實(shí)，2月中旬就會揭曉。

但不管V4表現(xiàn)如何，這份86頁的論文已經(jīng)是一份禮物——它讓我們知道，一個頂尖推理模型是怎么從零訓(xùn)出來的。這種知識，以前只有極少數(shù)公司內(nèi)部才有。

參考資料：

DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2
DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1
V4傳言報(bào)道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.