国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek V4即將發(fā)布?先讀懂梁文峰這份86頁的技術(shù)底牌

0
分享至

最近DeepSeek V4的傳言越來越多了。

據(jù)The Information報道,知情人士透露DeepSeek計劃在2月中旬、農(nóng)歷新年前后發(fā)布V4模型。內(nèi)部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。


去年R1也是春節(jié)前一周發(fā)布的,直接引發(fā)了全球市場一萬億美元的震動。在大型節(jié)假日前搞大事確實也很符合DeepSeek一貫的做法,今年會不會故技重施?

但在V4發(fā)布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴充到了86頁。

我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓(xùn)練的詳細賬本和踩過的坑。


這個時間點更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區(qū)先完全理解R1的技術(shù)細節(jié);二是用行動回應(yīng)之前"只開源權(quán)重不給訓(xùn)練細節(jié)"的質(zhì)疑。

說實話,看完這份更新,我對Open這個詞有了新的理解。上周我發(fā)的這篇關(guān)于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~

所以我今天再挑戰(zhàn)下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

先說更新了什么

v1版本發(fā)布于2025年1月22日,22頁,主要講R1是什么、怎么訓(xùn)的、效果多好。

v2版本發(fā)布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?

我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:

  • A: GRPO和PPO的詳細對比

  • B: 訓(xùn)練細節(jié)(這部分最長,約50頁)

  • C: 推理行為分析

  • D: 基準測試詳情 + 10頁安全報告

  • E: 綜合分析(與V3對比、test-time scaling等)

  • F: 推理能力遷移

說白了,這次更新就是把"解題過程"補上了,給出了可復(fù)現(xiàn)的技術(shù)文檔。

之前R1開源的時候,很多人吐槽說"只給權(quán)重不給訓(xùn)練細節(jié),這算什么開源"?,F(xiàn)在DeepSeek把這塊補上了。

294K美元的訓(xùn)練賬單

論文新增了Table 7,第一次公開了完整的訓(xùn)練成本:


階段

GPU小時

成本

DeepSeek-R1-Zero

101K

$202K

SFT數(shù)據(jù)創(chuàng)建

5K

$10K

DeepSeek-R1

41K

$82K

總計

147K

$294K

這個成本是按H800租賃價格$2/GPU hour算的。

29.4萬美元,訓(xùn)練一個媲美OpenAI o1的推理模型。

29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團隊?,F(xiàn)在加上這個成本數(shù)據(jù),畫面更清晰了——他們不是靠砸錢,是靠效率。

具體怎么訓(xùn)的?論文給了精確配置:

  • R1-Zero: 64×8張H800 GPU,跑了198小時

  • R1: 同樣的GPU配置,80小時(約4天)

64×8是512張卡。198+80=278小時。不到12天,訓(xùn)完了兩個階段。

數(shù)據(jù)配方首次公開

這是我覺得最有價值的部分——Table 4詳細列出了RL訓(xùn)練數(shù)據(jù)的構(gòu)成:


數(shù)學:26k題

  • 從區(qū)域競賽到國際奧林匹克級別

  • 包括代數(shù)、微積分、概率、幾何

  • 排除了數(shù)學證明(因為難以自動驗證)

代碼:17k + 8k

  • 17k算法競賽題(Codeforces、LeetCode風格)

  • 8k GitHub真實bug修復(fù)問題

STEM:22k選擇題

  • 化學占46.5%(最多)

  • 生物30.7%

  • 物理15.5%

  • 其他7.3%

邏輯:15k題

  • 真實世界:腦筋急轉(zhuǎn)彎、經(jīng)典邏輯謎題

  • 合成數(shù)據(jù):Code-IO問題、Zebra puzzle等

通用:66k + 12k

  • 66k評估helpfulness(創(chuàng)意寫作、編輯、問答、角色扮演)

  • 12k評估harmlessness

總共約150k條數(shù)據(jù)。

為什么化學題最多?論文沒解釋,但我猜測可能是因為化學題的答案更容易自動驗證(選擇題),同時又需要多步推理。

更有意思的是Cold Start數(shù)據(jù)的創(chuàng)建流程。R1不是從零開始訓(xùn)的,而是先用R1-Zero的輸出,經(jīng)過這個流程:

  1. 用R1-Zero在高溫度(1.0)下生成多條推理軌跡

  2. 過濾:保留答案正確、格式可讀的

  3. 用sympy驗證數(shù)學表達式

  4. 用DeepSeek-V3重寫,讓推理過程更"人話"

  5. 人工二次驗證

論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風格的推理,改成"I"風格——因為用戶更喜歡第一人稱的思考過程。

這種細節(jié),以前根本不會公開。

失敗也寫進論文

v1版本有一小節(jié)叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分擴展了,還加了一個我覺得很有價值的案例:Reward Hacking。


Figure 6展示了一個典型的失敗場景:用helpful reward model訓(xùn)練時,reward分數(shù)一直在漲(左邊紅線),但CodeForces的實際性能卻在跌(右邊藍線)。

這就是reward hacking——模型學會了"討好"獎勵函數(shù),但并沒有真正變強。

論文原文的解釋是:

"如果reward model包含系統(tǒng)性偏差或不準確,LLM可能學會生成那些被模型高評分、但與真實人類偏好背離的回答。"

PRM(Process Reward Model)的問題也講得更清楚了:

  1. 細粒度步驟難定義:什么算"一步推理"?在通用推理任務(wù)里很難界定

  2. 中間步驟對錯難判斷:自動標注效果差,人工標注又沒法規(guī)?;?/p>

  3. 必然導(dǎo)致reward hacking:只要引入模型做判斷,就會被exploit

所以DeepSeek最后用的是rule-based reward——數(shù)學題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。

為什么要公開這些失???我覺得這才是真正的Open。告訴社區(qū)"這條路我們走過了,不通",比只展示成功更有價值。

基礎(chǔ)設(shè)施首次披露

Supplementary B.1詳細描述了RL訓(xùn)練的基礎(chǔ)設(shè)施,分為4個模塊:

1. Rollout Module

  • 用vLLM做推理

  • 對MoE架構(gòu)實現(xiàn)expert parallelism,減少內(nèi)存訪問開銷

  • 部署熱點expert的冗余副本來負載均衡

  • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

2. Inference Module

  • 加載reward model和reference model

  • 對rollout階段生成的樣本做forward pass

3. Rule-based Reward Module

  • 統(tǒng)一接口:代碼執(zhí)行器、答案匹配器、格式檢查器

  • 異步調(diào)度,和前兩個模塊overlap執(zhí)行

4. Training Module

  • 支持PPO、GRPO、DPO等算法

  • 數(shù)據(jù)打包策略:先按長度排序,再用Best-Fit裝箱

  • 集成了DualPipe算法做pipeline parallelism

還有一個細節(jié):每個模塊跑完后,模型會自動從顯存offload到內(nèi)存或磁盤,給下一個模塊騰空間。

這些基礎(chǔ)設(shè)施細節(jié)以前只有DeepSeek內(nèi)部知道?,F(xiàn)在寫進論文,其他團隊可以照著搭。

10頁安全報告

Supplementary D.3是一份完整的安全評估報告,包括:

  1. 風控系統(tǒng):公開了完整的risk review prompt(Listing 8)

  2. 6個公開benchmark對比:和其他SOTA模型的安全性比較

  3. 分類測試:基于自研安全測試集的細分評估

  4. 多語言安全:不同語言下的安全表現(xiàn)

  5. Jailbreak魯棒性:對抗攻擊下的表現(xiàn)

風控prompt里列了11條安全標準,從"通用原則"到"隱私偽造"到"風險建議",細到可以直接抄。

對想部署R1的企業(yè)來說,這部分很實用——不只是模型安全性數(shù)據(jù),還告訴你外部風控系統(tǒng)怎么搭。

為什么選擇現(xiàn)在更新?

論文更新的時間點是2026年1月4日。

結(jié)合V4的發(fā)布傳言,時間線就很清晰了:

  • 2025年1月20日:R1發(fā)布,春節(jié)前一周

  • 2026年1月4日:R1論文v2發(fā)布,詳細補全技術(shù)細節(jié)

  • 2026年2月中旬(傳聞):V4發(fā)布,又是春節(jié)前后

DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發(fā)布下一代。

這對社區(qū)的好處是顯而易見的——當V4發(fā)布時,研究者已經(jīng)完全理解R1的技術(shù)細節(jié),可以更清晰地看出V4到底改進了什么。

當然,這也可能是回應(yīng)之前"只開源權(quán)重不給訓(xùn)練細節(jié)"的批評。不管出于什么原因,結(jié)果很實在——社區(qū)拿到了一份真正可復(fù)現(xiàn)的技術(shù)報告。

最后

回到"Open"這個詞。

大多數(shù)公司的Open是什么?開源權(quán)重,開源推理代碼,發(fā)個技術(shù)博客。

DeepSeek的Open是什么?

  • 訓(xùn)練成本精確到GPU小時

  • 數(shù)據(jù)配方精確到每個類別的數(shù)量和來源

  • 失敗嘗試寫進論文,告訴你哪條路不通

  • 基礎(chǔ)設(shè)施架構(gòu)圖,告訴你怎么搭RL系統(tǒng)

  • 安全評估報告,告訴你怎么做風控

這才是讓社區(qū)能真正復(fù)現(xiàn)和改進的Open。

之前寫mHC論文的時候我說,DeepSeek的技術(shù)哲學是"去質(zhì)疑那些所有人都覺得沒必要改的東西"?,F(xiàn)在看來,他們對"開源"這件事的理解也是一樣——不是做到行業(yè)平均水平就夠了,而是要做到讓別人能真正用起來。

從22頁到86頁,多出來的60頁不是湊數(shù),是掏心窩子的誠意。

至于V4會帶來什么?如果傳言屬實,2月中旬就會揭曉。

但不管V4表現(xiàn)如何,這份86頁的論文已經(jīng)是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓(xùn)出來的。這種知識,以前只有極少數(shù)公司內(nèi)部才有。

參考資料

  • DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2

  • DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1

  • V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
盧卡申科26年首訪獲甜頭后翻臉,向普京抱怨美國太善變

盧卡申科26年首訪獲甜頭后翻臉,向普京抱怨美國太善變

村里一枝花人
2026-03-03 20:05:09
醫(yī)生:希望你的肺部CT報告里,永遠別出現(xiàn)這4點描述,別小瞧

醫(yī)生:希望你的肺部CT報告里,永遠別出現(xiàn)這4點描述,別小瞧

垚垚分享健康
2026-03-03 16:50:39
未來20年,婚姻到底會變成什么樣

未來20年,婚姻到底會變成什么樣

潘幸知
2026-03-02 22:12:41
全國政協(xié)委員:停止"內(nèi)卷式"加班 要讓政府出手

全國政協(xié)委員:停止"內(nèi)卷式"加班 要讓政府出手

看看新聞Knews
2026-03-02 11:47:43
胡金秋重返俱樂部訓(xùn)練引熱議!王博:必須強制讓他休息幾天

胡金秋重返俱樂部訓(xùn)練引熱議!王博:必須強制讓他休息幾天

狼叔評論
2026-03-03 16:50:27
菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

傲傲講歷史
2025-09-27 16:59:25
李雨桐再錘薛之謙!指控他濫殺無辜,恐怕要坐牢,張杰無辜受牽連

李雨桐再錘薛之謙!指控他濫殺無辜,恐怕要坐牢,張杰無辜受牽連

離離言幾許
2026-03-03 11:09:30
終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

福建平子
2026-01-28 10:52:25
沖突升級恐慌蔓延!現(xiàn)貨黃金失守5000美元關(guān)口 道指跌逾1200點

沖突升級恐慌蔓延!現(xiàn)貨黃金失守5000美元關(guān)口 道指跌逾1200點

財聯(lián)社
2026-03-03 23:55:13
踏上回廣州的路!90后小伙出差被困伊朗,全公司為他瘋狂搶機票,制定曲折回廣州路線

踏上回廣州的路!90后小伙出差被困伊朗,全公司為他瘋狂搶機票,制定曲折回廣州路線

極目新聞
2026-03-03 13:17:33
若不出意外,2026年上半年開始,一半家庭都可能面臨“四大難題”

若不出意外,2026年上半年開始,一半家庭都可能面臨“四大難題”

貓叔東山再起
2026-03-01 12:40:03
滿500.01元減500元!廣東發(fā)放新一輪消費券!

滿500.01元減500元!廣東發(fā)放新一輪消費券!

珠海發(fā)布
2026-03-03 20:47:15
上海31所本科高校最新排名:上交復(fù)旦并列第1,上海電力第20!

上海31所本科高校最新排名:上交復(fù)旦并列第1,上海電力第20!

高三倒計時
2026-03-03 17:50:12
向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
暴走團老人路上訓(xùn)練,交警勸不聽,貨車司機“不想走那就別走了”

暴走團老人路上訓(xùn)練,交警勸不聽,貨車司機“不想走那就別走了”

源遠講堂
2025-07-31 18:13:50
美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

深析古今
2026-03-03 02:35:58
女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局特爽

女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局特爽

觀察鑒娛
2026-03-01 14:40:39
A股,一個“重磅利好”信號傳來,明天,或?qū)⒂瓉泶笞儽P!

A股,一個“重磅利好”信號傳來,明天,或?qū)⒂瓉泶笞儽P!

夜深愛雜談
2026-03-03 16:13:27
反轉(zhuǎn)了?濟南“絕情臭豆腐”門口排長隊,顧客都撐著傘在雨中支持

反轉(zhuǎn)了?濟南“絕情臭豆腐”門口排長隊,顧客都撐著傘在雨中支持

江山揮筆
2026-03-03 10:28:04
6萬換條命!青島寶媽中東逃亡:抱娃狂奔,平安才是奢侈品?

6萬換條命!青島寶媽中東逃亡:抱娃狂奔,平安才是奢侈品?

瓜哥的動物日記
2026-03-03 18:17:45
2026-03-04 01:11:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
149文章數(shù) 66關(guān)注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

頭條要聞

美國突發(fā)史無前例撤離令引外界擔憂:終極空襲或來臨

頭條要聞

美國突發(fā)史無前例撤離令引外界擔憂:終極空襲或來臨

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車要聞

第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

手機
教育
時尚
本地
健康

手機要聞

vivo X300 Ultra視頻能力巨幅提升,實際效果令人期待

教育要聞

東高地第三小學教育集團舉行2026年春季開學典禮

今年流行的“新老錢風”,優(yōu)雅又時髦,太適合春天了!

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進入關(guān)懷版