網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek-V4報(bào)告亮了！V4發(fā)布延遲的秘密，終于曝光了

2026-04-25 13:42:06　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：Aeneas 好困

【新智元導(dǎo)讀】DeepSeek-V4的技術(shù)報(bào)告，簡直誠實(shí)得令人震驚。V4發(fā)布延遲的秘密，被正式透露了！這顆大雷的背后，究竟是指誰？研究者們已經(jīng)紛紛展開了猜測。并且，論文中用硬核工程暴力重構(gòu)Agent的操作，也讓社區(qū)直呼：國產(chǎn)之光，實(shí)至名歸。

昨天，是名副其實(shí)的AI圈「春晚」。

DeepSeek-V4的技術(shù)報(bào)告一出，近60頁的篇幅，從架構(gòu)到訓(xùn)練到后訓(xùn)練全部攤開。

484天，對(duì)這個(gè)團(tuán)隊(duì)來說不尋常。V3從V2到發(fā)布只用了不到8個(gè)月。V4為什么多花了將近一倍的時(shí)間？

認(rèn)真研讀完這篇報(bào)告，我們發(fā)現(xiàn)了背后可能的原因，以及這家「國產(chǎn)之光」令人震撼的工程底色實(shí)。

可以說，DeepSeek-V4真正令人深思的，不是它堆了多少算力，而是它在Agent訓(xùn)練、工程底座、以及處理「訓(xùn)練震蕩」時(shí)的那種近乎殘酷的理性和透明。

今天，我們直接拆開V4的引擎蓋，看看里面藏著哪些不為人知的硬核細(xì)節(jié)。

33T Token + 萬億參數(shù)

難度直接拉滿

距離V3發(fā)布整整484天，V4才以「preview version」的姿態(tài)上線。

論文里雖然沒有解釋這個(gè)時(shí)間跨度，但有一段內(nèi)容或許能提供線索。

V3用了14.8T token做預(yù)訓(xùn)練，V4直接翻倍，V4-Flash訓(xùn)了32T，V4-Pro訓(xùn)了33T。參數(shù)量同樣大幅擴(kuò)張，V4-Pro總參數(shù)1.6T，V4-Flash也有284B。

數(shù)據(jù)翻倍、參數(shù)翻倍，訓(xùn)練穩(wěn)定性的難度也跟著上了一個(gè)量級(jí)。

報(bào)告里非常誠實(shí)：DeepSeek明確點(diǎn)名了「訓(xùn)練穩(wěn)定性挑戰(zhàn)」。

谷歌DeepMind研究者Susan Zhang表揚(yáng)說：這種透明的做法值得稱贊。這個(gè)說法還得到了龍蝦之父的轉(zhuǎn)發(fā)

在超大規(guī)模集群上，當(dāng)參數(shù)量和訓(xùn)練數(shù)據(jù)達(dá)到某個(gè)臨界點(diǎn)時(shí)，硬件的細(xì)微誤差會(huì)被無限放大。

論文里，「stability」這個(gè)詞出現(xiàn)了十余次。

放在一篇技術(shù)報(bào)告里，這個(gè)頻率本身就是信號(hào)。正常情況下，穩(wěn)定性是默認(rèn)前提，不值得反復(fù)提。反復(fù)提，說明它確實(shí)是個(gè)問題。

具體來看，DeepSeek發(fā)現(xiàn)MoE層中的數(shù)值異常值（outlier）會(huì)通過路由機(jī)制不斷放大，形成惡性循環(huán)，最終觸發(fā)loss spike，訓(xùn)練曲線突然飆升。

團(tuán)隊(duì)祭出的主要補(bǔ)救措施是兩招。

第一招叫Anticipatory Routing。它本質(zhì)上就是在路由階段使用稍早版本的參數(shù)，把骨干網(wǎng)絡(luò)和路由網(wǎng)絡(luò)的更新解耦，打破兩者之間的惡性循環(huán)。

第二招是SwiGLU Clamping。它直接把SwiGLU的數(shù)值范圍鉗制在[-10, 10]以內(nèi)，從源頭壓制異常值，雖然暴力但很有效。

當(dāng)前大模型訓(xùn)練已進(jìn)入硬件底層、編譯器棧、以及數(shù)學(xué)架構(gòu)三位一體的無人區(qū)

論文里有個(gè)細(xì)節(jié)很耐琢磨。

Anticipatory Routing和SwiGLU Clamping，DeepSeek確認(rèn)「顯著有效」，但緊跟一句「底層機(jī)理仍是open question」。

連Q/KV歸一化這種已經(jīng)被廣泛驗(yàn)證的基礎(chǔ)操作，論文的措辭都只敢寫「may improve training stability」。

一個(gè)「may」字，足以說明在萬億參數(shù)MoE的訓(xùn)練里，沒有什么是百分百靠得住的。

從15T到33T，數(shù)據(jù)量翻倍帶來的不是線性增長的困難，而是指數(shù)級(jí)放大的系統(tǒng)性風(fēng)險(xiǎn)。

每一層網(wǎng)絡(luò)、每一個(gè)梯度更新、每一次通信同步，都在更大的規(guī)模下被放大成潛在的崩潰點(diǎn)。

而DeepSeek選擇把這些全寫進(jìn)論文里，這在業(yè)內(nèi)幾乎沒有先例。

硬件的鍋，還是軟件的鍋？

所以，技術(shù)報(bào)告中明確提出的「訓(xùn)練穩(wěn)定性挑戰(zhàn)」，指的到底是誰家的硬件？

雖然論文里沒有明確點(diǎn)名任何硬件平臺(tái)，但已經(jīng)有嗅覺敏銳的人開始猜測了。

有觀點(diǎn)直接指出：所謂「訓(xùn)練穩(wěn)定性挑戰(zhàn)」，很可能就是算力平臺(tái)的問題。而且不只是DeepSeek一家踩坑，各大廠商都遇到過。

xAI在一次發(fā)布會(huì)上，Macrohard項(xiàng)目的負(fù)責(zé)人曾隱晦提到，英偉達(dá)最新的芯片給他們?cè)斐闪恕覆恍〉穆闊梗坏貌恢匦麻_發(fā)硬件適配程序。這或許也解釋了xAI進(jìn)度突然放緩的原因之一。

不過，這件事當(dāng)然沒那么簡單。

大型算力集群涉及的變量太多：芯片本身、互連架構(gòu)、散熱系統(tǒng)、電力供應(yīng)、驅(qū)動(dòng)版本、編譯棧適配。訓(xùn)練不穩(wěn)定未必等于芯片級(jí)缺陷，也可能是系統(tǒng)集成層的問題。

不過，目前還沒有任何官方文件給出答案。

一切都還在猜測之中。

Agent訓(xùn)練體系

工程能力讓人肅然起敬

如果說V4的預(yù)訓(xùn)練是在和硬件博弈，那么它的Post-training則展現(xiàn)了教科書級(jí)別的工程審美。

可以說，Agent能力的工程化路徑，是V4論文里最值得細(xì)讀的部分。

以往我們認(rèn)為Agent能力是「教」出來的，但DeepSeek認(rèn)為，Agent能力應(yīng)該是「長」出來的。

拒絕「硬遷移」，預(yù)訓(xùn)練階段的「血脈注入」

行業(yè)內(nèi)大部分的做法是，先訓(xùn)一個(gè)對(duì)話模型，再硬遷移成Agent。DeepSeek看來，這太低效了。

在V4的mid-training階段，他們就注入了海量的Agentic Data。

這意味著，模型在基礎(chǔ)學(xué)習(xí)階段，就已經(jīng)見過長任務(wù)鏈、環(huán)境反饋和文件修改模式。它還沒學(xué)會(huì)寫詩，就已經(jīng)見過了Linux命令行的報(bào)錯(cuò)。

這就是一種地基層面的設(shè)計(jì)。

獨(dú)創(chuàng)的Specialist Training（專家特訓(xùn)法）

另一大亮點(diǎn)，就是DeepSeek獨(dú)創(chuàng)的專家特訓(xùn)法。

V4沒有直接練一個(gè)全能戰(zhàn)士，而是先練出了數(shù)學(xué)專家、代碼專家、Agent專家、指令跟隨專家。

這種分階段的Specialist Training保證了每個(gè)領(lǐng)域的上限被拉到最高。

最后，再通過OPD（Multi-teacher On-Policy Distillation，多教師在線策略蒸餾），將這些專家的靈魂聚合成一個(gè)統(tǒng)一的模型。

這里工程上的難度在于，同時(shí)加載十多個(gè)萬億參數(shù)級(jí)的教師模型做在線推理不現(xiàn)實(shí)。

V4的方案是不緩存教師的logits（顯存裝不下），只緩存教師最后一層的隱藏狀態(tài)，訓(xùn)練時(shí)按需通過prediction head重建logits。

然后，按教師索引排序訓(xùn)練樣本，確保每個(gè)教師的prediction head只加載一次。KL散度計(jì)算則用TileLang編寫的專用kernel加速。

告別傳統(tǒng)Reward Model

另外，對(duì)于「難以驗(yàn)證（hard-to-verify）」的任務(wù)，傳統(tǒng)的標(biāo)量獎(jiǎng)勵(lì)模型（Scalar Reward Model）已經(jīng)力不從心。

對(duì)此，DeepSeek選擇引入了Generative Reward Model (GRM)。

它不再簡單地給一個(gè)0到1的分?jǐn)?shù)，而是根據(jù)預(yù)設(shè)的Rubric（評(píng)估準(zhǔn)則）生成詳細(xì)的評(píng)估報(bào)告。

更關(guān)鍵的是，DeepSeek對(duì)GRM本身也做了RL優(yōu)化，讓actor網(wǎng)絡(luò)同時(shí)充當(dāng)生成式獎(jiǎng)勵(lì)模型，評(píng)判能力和生成能力在同一個(gè)模型中聯(lián)合優(yōu)化。

把Agent做成一套分布式系統(tǒng)

不僅如此，DeepSeek還為V4專門自研了一套底座。

DSec：生產(chǎn)級(jí)沙箱集群

為了訓(xùn)練Agent的實(shí)操能力，DeepSeek搭建了一個(gè)名為DSec的平臺(tái)。

3FS分布式文件系統(tǒng)，確保了數(shù)據(jù)的極速存��；數(shù)十萬并發(fā)Sandbox實(shí)例，則意味著V4在訓(xùn)練時(shí)，同時(shí)有幾十萬臺(tái)「虛擬電腦」在跑代碼、測Bug。

MegaMoE：通信計(jì)算一體化

在MoE層，DeepSeek把通信和計(jì)算融合進(jìn)單個(gè)pipeline kernel，專家按wave調(diào)度，通信延遲完全隱藏在計(jì)算之下。

結(jié)果就是，通用場景加速1.5到1.73倍，RL rollout等延遲敏感場景最高1.96倍。

自研DSML：拒絕轉(zhuǎn)義失敗

工具調(diào)用方面，DeepSeek干脆自己設(shè)計(jì)了一套類似XML的DSL（領(lǐng)域特定語言）。

這套協(xié)議簡單高效，直接把工具調(diào)用的成功率從「看運(yùn)氣」提升到了「工業(yè)級(jí)穩(wěn)健」。

Reasoning Effort分模式訓(xùn)練

還有一個(gè)精細(xì)的設(shè)計(jì)，就是V4支持不同的思考模式。

Non-think模式是簡單的工具選擇，秒回。High/Max則針對(duì)長文檔、重構(gòu)、復(fù)雜Bug，拉滿推理算力。

這種「能省則省，該狠則狠」的策略，也是V4成本能做到Claude 1/4的關(guān)鍵。

社區(qū)的很多研究者讀完這部分后，膜拜得五體投地：「DeepSeek的工程能力，依舊扎實(shí)得讓人沒話說」。

Interleaved Thinking升級(jí)

V3.2在每個(gè)新用戶消息到來時(shí)會(huì)丟棄之前的思考痕跡，V4在Tool-Calling場景下保留了完整的跨輪次推理歷史，讓Agent在長時(shí)程任務(wù)中維持連貫的推理鏈。

普通對(duì)話場景仍每輪清空，保持上下文精簡。

硬幣的另一面，是94%的幻覺率

Artificial Analysis的實(shí)測給出了一個(gè)更立體的畫面。

跑完Intelligence Index的全量基準(zhǔn)測試，V4 Pro只花了1071美金，比Claude Opus 4.7的4811美金便宜了四倍多。

Agent能力方面，V4 Pro Max在GDPval-AA實(shí)測（面向真實(shí)工作任務(wù)的Agent基準(zhǔn)）中拿到了1554分，全面領(lǐng)先一眾開源模型。

然而，天下沒有免費(fèi)的午餐。

Aritificial Analysis的報(bào)告里也非常坦誠地指出了這種做法的代價(jià)：V4 pro在AA-Ominiscience上的幻覺率高達(dá)94%。

這揭示了一個(gè)結(jié)構(gòu)性困境：要在有限算力預(yù)算下逼近頂級(jí)性能，就不得不在某些維度上做取舍。

DeepSeek選擇把籌碼全壓在推理和Agent能力上，代價(jià)，就是知識(shí)都準(zhǔn)確性。

為什么我們依然對(duì)DeepSeek充滿敬意？

在這次V4的報(bào)告中，有人看到了「訓(xùn)練不穩(wěn)」的尷尬，有人看到了「幻覺嚴(yán)重」的短板。

但在我們看來，這份報(bào)告最動(dòng)人的地方在于透明。

他們敢于承認(rèn)硬件適配陣痛，敢于披露那些看似「補(bǔ)丁」的解決方案，更敢于展示自己如何用最硬核的工程能力，在幾十萬個(gè)沙箱里一點(diǎn)點(diǎn)磨出Agent的靈魂。

從V3的Multi-head Latent Attention到V4的OPD蒸餾和DSec沙箱，DeepSeek正在用一種近乎偏執(zhí)的「工程主義」，探索著大模型通往AGI的另一條路徑——

如果架構(gòu)還沒完美，那就用工程把墻砌厚；如果算力不夠便宜，那就用算法把效率榨干。

DeepSeek-V4也許不是最完美的終局，但它絕對(duì)是目前最真實(shí)的、最充滿活力的「中國AI現(xiàn)場」。

參考資料：

https://x.com/suchenzang/status/2047559677316325807

https://x.com/ArtificialAnlys/status/2047735160544841953

https://x.com/jakevin7/status/2047578619946664413

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.