国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek V4即將發(fā)布?先讀懂梁文峰這份86頁的技術(shù)底牌

0
分享至

最近DeepSeek V4的傳言越來越多了。

據(jù)The Information報(bào)道,知情人士透露DeepSeek計(jì)劃在2月中旬、農(nóng)歷新年前后發(fā)布V4模型。內(nèi)部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。


去年R1也是春節(jié)前一周發(fā)布的,直接引發(fā)了全球市場一萬億美元的震動。在大型節(jié)假日前搞大事確實(shí)也很符合DeepSeek一貫的做法,今年會不會故技重施?

但在V4發(fā)布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴(kuò)充到了86頁

我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓(xùn)練的詳細(xì)賬本和踩過的坑。


這個時間點(diǎn)更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區(qū)先完全理解R1的技術(shù)細(xì)節(jié);二是用行動回應(yīng)之前"只開源權(quán)重不給訓(xùn)練細(xì)節(jié)"的質(zhì)疑。

說實(shí)話,看完這份更新,我對Open這個詞有了新的理解。上周我發(fā)的這篇關(guān)于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~

所以我今天再挑戰(zhàn)下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

先說更新了什么

v1版本發(fā)布于2025年1月22日,22頁,主要講R1是什么、怎么訓(xùn)的、效果多好。

v2版本發(fā)布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?

我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:

  • A: GRPO和PPO的詳細(xì)對比

  • B: 訓(xùn)練細(xì)節(jié)(這部分最長,約50頁)

  • C: 推理行為分析

  • D: 基準(zhǔn)測試詳情 + 10頁安全報(bào)告

  • E: 綜合分析(與V3對比、test-time scaling等)

  • F: 推理能力遷移

說白了,這次更新就是把"解題過程"補(bǔ)上了,給出了可復(fù)現(xiàn)的技術(shù)文檔。

之前R1開源的時候,很多人吐槽說"只給權(quán)重不給訓(xùn)練細(xì)節(jié),這算什么開源"?,F(xiàn)在DeepSeek把這塊補(bǔ)上了。

294K美元的訓(xùn)練賬單

論文新增了Table 7,第一次公開了完整的訓(xùn)練成本:


階段

GPU小時

成本

DeepSeek-R1-Zero

101K

$202K

SFT數(shù)據(jù)創(chuàng)建

5K

$10K

DeepSeek-R1

41K

$82K

總計(jì)

147K

$294K

這個成本是按H800租賃價格$2/GPU hour算的。

29.4萬美元,訓(xùn)練一個媲美OpenAI o1的推理模型。

29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團(tuán)隊(duì)?,F(xiàn)在加上這個成本數(shù)據(jù),畫面更清晰了——他們不是靠砸錢,是靠效率。

具體怎么訓(xùn)的?論文給了精確配置:

  • R1-Zero: 64×8張H800 GPU,跑了198小時

  • R1: 同樣的GPU配置,80小時(約4天)

64×8是512張卡。198+80=278小時。不到12天,訓(xùn)完了兩個階段。

數(shù)據(jù)配方首次公開

這是我覺得最有價值的部分——Table 4詳細(xì)列出了RL訓(xùn)練數(shù)據(jù)的構(gòu)成:


數(shù)學(xué):26k題

  • 從區(qū)域競賽到國際奧林匹克級別

  • 包括代數(shù)、微積分、概率、幾何

  • 排除了數(shù)學(xué)證明(因?yàn)殡y以自動驗(yàn)證)

代碼:17k + 8k

  • 17k算法競賽題(Codeforces、LeetCode風(fēng)格)

  • 8k GitHub真實(shí)bug修復(fù)問題

STEM:22k選擇題

  • 化學(xué)占46.5%(最多)

  • 生物30.7%

  • 物理15.5%

  • 其他7.3%

邏輯:15k題

  • 真實(shí)世界:腦筋急轉(zhuǎn)彎、經(jīng)典邏輯謎題

  • 合成數(shù)據(jù):Code-IO問題、Zebra puzzle等

通用:66k + 12k

  • 66k評估helpfulness(創(chuàng)意寫作、編輯、問答、角色扮演)

  • 12k評估harmlessness

總共約150k條數(shù)據(jù)。

為什么化學(xué)題最多?論文沒解釋,但我猜測可能是因?yàn)榛瘜W(xué)題的答案更容易自動驗(yàn)證(選擇題),同時又需要多步推理。

更有意思的是Cold Start數(shù)據(jù)的創(chuàng)建流程。R1不是從零開始訓(xùn)的,而是先用R1-Zero的輸出,經(jīng)過這個流程:

  1. 用R1-Zero在高溫度(1.0)下生成多條推理軌跡

  2. 過濾:保留答案正確、格式可讀的

  3. 用sympy驗(yàn)證數(shù)學(xué)表達(dá)式

  4. 用DeepSeek-V3重寫,讓推理過程更"人話"

  5. 人工二次驗(yàn)證

論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風(fēng)格的推理,改成"I"風(fēng)格——因?yàn)橛脩舾矚g第一人稱的思考過程。

這種細(xì)節(jié),以前根本不會公開。

失敗也寫進(jìn)論文

v1版本有一小節(jié)叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分?jǐn)U展了,還加了一個我覺得很有價值的案例:Reward Hacking。


Figure 6展示了一個典型的失敗場景:用helpful reward model訓(xùn)練時,reward分?jǐn)?shù)一直在漲(左邊紅線),但CodeForces的實(shí)際性能卻在跌(右邊藍(lán)線)。

這就是reward hacking——模型學(xué)會了"討好"獎勵函數(shù),但并沒有真正變強(qiáng)。

論文原文的解釋是:

"如果reward model包含系統(tǒng)性偏差或不準(zhǔn)確,LLM可能學(xué)會生成那些被模型高評分、但與真實(shí)人類偏好背離的回答。"

PRM(Process Reward Model)的問題也講得更清楚了:

  1. 細(xì)粒度步驟難定義:什么算"一步推理"?在通用推理任務(wù)里很難界定

  2. 中間步驟對錯難判斷:自動標(biāo)注效果差,人工標(biāo)注又沒法規(guī)模化

  3. 必然導(dǎo)致reward hacking:只要引入模型做判斷,就會被exploit

所以DeepSeek最后用的是rule-based reward——數(shù)學(xué)題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。

為什么要公開這些失???我覺得這才是真正的Open。告訴社區(qū)"這條路我們走過了,不通",比只展示成功更有價值。

基礎(chǔ)設(shè)施首次披露

Supplementary B.1詳細(xì)描述了RL訓(xùn)練的基礎(chǔ)設(shè)施,分為4個模塊:

1. Rollout Module

  • 用vLLM做推理

  • 對MoE架構(gòu)實(shí)現(xiàn)expert parallelism,減少內(nèi)存訪問開銷

  • 部署熱點(diǎn)expert的冗余副本來負(fù)載均衡

  • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

2. Inference Module

  • 加載reward model和reference model

  • 對rollout階段生成的樣本做forward pass

3. Rule-based Reward Module

  • 統(tǒng)一接口:代碼執(zhí)行器、答案匹配器、格式檢查器

  • 異步調(diào)度,和前兩個模塊overlap執(zhí)行

4. Training Module

  • 支持PPO、GRPO、DPO等算法

  • 數(shù)據(jù)打包策略:先按長度排序,再用Best-Fit裝箱

  • 集成了DualPipe算法做pipeline parallelism

還有一個細(xì)節(jié):每個模塊跑完后,模型會自動從顯存offload到內(nèi)存或磁盤,給下一個模塊騰空間。

這些基礎(chǔ)設(shè)施細(xì)節(jié)以前只有DeepSeek內(nèi)部知道?,F(xiàn)在寫進(jìn)論文,其他團(tuán)隊(duì)可以照著搭。

10頁安全報(bào)告

Supplementary D.3是一份完整的安全評估報(bào)告,包括:

  1. 風(fēng)控系統(tǒng):公開了完整的risk review prompt(Listing 8)

  2. 6個公開benchmark對比:和其他SOTA模型的安全性比較

  3. 分類測試:基于自研安全測試集的細(xì)分評估

  4. 多語言安全:不同語言下的安全表現(xiàn)

  5. Jailbreak魯棒性:對抗攻擊下的表現(xiàn)

風(fēng)控prompt里列了11條安全標(biāo)準(zhǔn),從"通用原則"到"隱私偽造"到"風(fēng)險建議",細(xì)到可以直接抄。

對想部署R1的企業(yè)來說,這部分很實(shí)用——不只是模型安全性數(shù)據(jù),還告訴你外部風(fēng)控系統(tǒng)怎么搭。

為什么選擇現(xiàn)在更新?

論文更新的時間點(diǎn)是2026年1月4日。

結(jié)合V4的發(fā)布傳言,時間線就很清晰了:

  • 2025年1月20日:R1發(fā)布,春節(jié)前一周

  • 2026年1月4日:R1論文v2發(fā)布,詳細(xì)補(bǔ)全技術(shù)細(xì)節(jié)

  • 2026年2月中旬(傳聞):V4發(fā)布,又是春節(jié)前后

DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發(fā)布下一代。

這對社區(qū)的好處是顯而易見的——當(dāng)V4發(fā)布時,研究者已經(jīng)完全理解R1的技術(shù)細(xì)節(jié),可以更清晰地看出V4到底改進(jìn)了什么。

當(dāng)然,這也可能是回應(yīng)之前"只開源權(quán)重不給訓(xùn)練細(xì)節(jié)"的批評。不管出于什么原因,結(jié)果很實(shí)在——社區(qū)拿到了一份真正可復(fù)現(xiàn)的技術(shù)報(bào)告。

最后

回到"Open"這個詞。

大多數(shù)公司的Open是什么?開源權(quán)重,開源推理代碼,發(fā)個技術(shù)博客。

DeepSeek的Open是什么?

  • 訓(xùn)練成本精確到GPU小時

  • 數(shù)據(jù)配方精確到每個類別的數(shù)量和來源

  • 失敗嘗試寫進(jìn)論文,告訴你哪條路不通

  • 基礎(chǔ)設(shè)施架構(gòu)圖,告訴你怎么搭RL系統(tǒng)

  • 安全評估報(bào)告,告訴你怎么做風(fēng)控

這才是讓社區(qū)能真正復(fù)現(xiàn)和改進(jìn)的Open。

之前寫mHC論文的時候我說,DeepSeek的技術(shù)哲學(xué)是"去質(zhì)疑那些所有人都覺得沒必要改的東西"?,F(xiàn)在看來,他們對"開源"這件事的理解也是一樣——不是做到行業(yè)平均水平就夠了,而是要做到讓別人能真正用起來。

從22頁到86頁,多出來的60頁不是湊數(shù),是掏心窩子的誠意。

至于V4會帶來什么?如果傳言屬實(shí),2月中旬就會揭曉。

但不管V4表現(xiàn)如何,這份86頁的論文已經(jīng)是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓(xùn)出來的。這種知識,以前只有極少數(shù)公司內(nèi)部才有。

參考資料

  • DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2

  • DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1

  • V4傳言報(bào)道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實(shí)厲害,但真不合適

林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實(shí)厲害,但真不合適

浩渺青史
2026-04-17 13:55:15
成都蓉城2-1云南玉昆,賽后評分:成都蓉城9號排第一

成都蓉城2-1云南玉昆,賽后評分:成都蓉城9號排第一

側(cè)身凌空斬
2026-04-21 21:35:23
威爾遜:我和趙心童奧沙利文特魯姆普 是世錦賽四大奪冠熱門人選

威爾遜:我和趙心童奧沙利文特魯姆普 是世錦賽四大奪冠熱門人選

羅克
2026-04-21 12:54:49
成都萬象城即將易主 華潤置地?cái)M出售這座運(yùn)營十余年的城市地標(biāo)

成都萬象城即將易主 華潤置地?cái)M出售這座運(yùn)營十余年的城市地標(biāo)

封面新聞
2026-04-21 21:55:02
中國股市:炒股不需太勤快,只需死磕“漲停天量陰”,逢買就漲!

中國股市:炒股不需太勤快,只需死磕“漲停天量陰”,逢買就漲!

股經(jīng)縱橫談
2026-04-18 21:13:27
赫本內(nèi)衣火了!無痕提拉塑形,好穿到不想脫

赫本內(nèi)衣火了!無痕提拉塑形,好穿到不想脫

十點(diǎn)讀書
2026-04-20 19:02:56
12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

就一點(diǎn)
2026-03-08 23:09:47
吃藍(lán)莓別亂搭!這些禁忌要記牢,90%的人都不懂

吃藍(lán)莓別亂搭!這些禁忌要記牢,90%的人都不懂

開心美食白科
2026-04-21 21:16:32
力挺張敬軒事件升級,一言不發(fā)的霍汶希,終于不再顧及所謂的體面

力挺張敬軒事件升級,一言不發(fā)的霍汶希,終于不再顧及所謂的體面

小椰的奶奶
2026-04-21 23:59:51
女大學(xué)生校園內(nèi)被群狗圍咬20多處,當(dāng)事人:幸虧有人騎電動車撞開狗群

女大學(xué)生校園內(nèi)被群狗圍咬20多處,當(dāng)事人:幸虧有人騎電動車撞開狗群

極目新聞
2026-04-21 17:39:34
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個。

動物奇奇怪怪
2026-04-12 12:44:36
受益PCB擴(kuò)產(chǎn)潮 設(shè)備廠商一季度業(yè)績大增

受益PCB擴(kuò)產(chǎn)潮 設(shè)備廠商一季度業(yè)績大增

證券時報(bào)
2026-04-21 07:40:05
我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

千秋文化
2026-04-20 19:55:30
愛奇藝熱搜背后,揭秘“買臉”這門生意

愛奇藝熱搜背后,揭秘“買臉”這門生意

定焦One
2026-04-21 09:49:55
阿聯(lián)酋突然曝出了大新聞,消息震動中東,美以這回捅了馬蜂窩

阿聯(lián)酋突然曝出了大新聞,消息震動中東,美以這回捅了馬蜂窩

淺暮雪
2026-04-22 05:19:54
不出意外!2026年5月起,房子、車子、存款或?qū)⒂瓉怼靶伦兓保?>
    </a>
        <h3>
      <a href=平說財(cái)經(jīng)
2026-04-21 13:55:56
歐洲人終于發(fā)現(xiàn)了:俄烏鬧4年了,合著是華強(qiáng)北在打代理人戰(zhàn)爭?

歐洲人終于發(fā)現(xiàn)了:俄烏鬧4年了,合著是華強(qiáng)北在打代理人戰(zhàn)爭?

用冷眼洞悉世界
2026-04-22 02:23:19
詹姆斯單挑能力真相:多位球星直言不諱,陪練視頻暴露真實(shí)水平

詹姆斯單挑能力真相:多位球星直言不諱,陪練視頻暴露真實(shí)水平

不似少年游
2026-04-21 17:09:07
多所中小學(xué)校長接連被查!學(xué)校小賣部、食堂等被當(dāng)成“私人提款機(jī)”

多所中小學(xué)校長接連被查!學(xué)校小賣部、食堂等被當(dāng)成“私人提款機(jī)”

閃電新聞
2026-04-21 15:59:48
原來他就是趙心童恩師,因經(jīng)濟(jì)收入低轉(zhuǎn)行教練,教出4位世界冠軍

原來他就是趙心童恩師,因經(jīng)濟(jì)收入低轉(zhuǎn)行教練,教出4位世界冠軍

攬星河的筆記
2026-04-21 23:17:32
2026-04-22 06:36:49
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
189文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財(cái)經(jīng)要聞

現(xiàn)實(shí)是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態(tài)度原創(chuàng)

數(shù)碼
教育
游戲
旅游
公開課

數(shù)碼要聞

大疆DJI Mic Mini 2發(fā)布:329元起 可更換麥克風(fēng)磁吸前蓋

教育要聞

家里不讓我去留學(xué)了,怎么辦?

漲價兩周即回調(diào)!索尼官方PS5數(shù)字版定價重回399美元

旅游要聞

京城今春“濱水+”玩法迭代

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版