国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-V4報(bào)告亮了!V4發(fā)布延遲的秘密,終于曝光了

0
分享至


新智元報(bào)道

編輯:Aeneas 好困

【新智元導(dǎo)讀】DeepSeek-V4的技術(shù)報(bào)告,簡直誠實(shí)得令人震驚。V4發(fā)布延遲的秘密,被正式透露了!這顆大雷的背后,究竟是指誰?研究者們已經(jīng)紛紛展開了猜測。并且,論文中用硬核工程暴力重構(gòu)Agent的操作,也讓社區(qū)直呼:國產(chǎn)之光,實(shí)至名歸。

昨天,是名副其實(shí)的AI圈「春晚」。

DeepSeek-V4的技術(shù)報(bào)告一出,近60頁的篇幅,從架構(gòu)到訓(xùn)練到后訓(xùn)練全部攤開。

484天,對(duì)這個(gè)團(tuán)隊(duì)來說不尋常。V3從V2到發(fā)布只用了不到8個(gè)月。V4為什么多花了將近一倍的時(shí)間?

認(rèn)真研讀完這篇報(bào)告,我們發(fā)現(xiàn)了背后可能的原因,以及這家「國產(chǎn)之光」令人震撼的工程底色實(shí)。

可以說,DeepSeek-V4真正令人深思的,不是它堆了多少算力,而是它在Agent訓(xùn)練、工程底座、以及處理「訓(xùn)練震蕩」時(shí)的那種近乎殘酷的理性和透明。

今天,我們直接拆開V4的引擎蓋,看看里面藏著哪些不為人知的硬核細(xì)節(jié)。

33T Token + 萬億參數(shù)

難度直接拉滿

距離V3發(fā)布整整484天,V4才以「preview version」的姿態(tài)上線。

論文里雖然沒有解釋這個(gè)時(shí)間跨度,但有一段內(nèi)容或許能提供線索。


V3用了14.8T token做預(yù)訓(xùn)練,V4直接翻倍,V4-Flash訓(xùn)了32T,V4-Pro訓(xùn)了33T。參數(shù)量同樣大幅擴(kuò)張,V4-Pro總參數(shù)1.6T,V4-Flash也有284B。

數(shù)據(jù)翻倍、參數(shù)翻倍,訓(xùn)練穩(wěn)定性的難度也跟著上了一個(gè)量級(jí)。

報(bào)告里非常誠實(shí):DeepSeek明確點(diǎn)名了「訓(xùn)練穩(wěn)定性挑戰(zhàn)」。


谷歌DeepMind研究者Susan Zhang表揚(yáng)說:這種透明的做法值得稱贊。這個(gè)說法還得到了龍蝦之父的轉(zhuǎn)發(fā)

在超大規(guī)模集群上,當(dāng)參數(shù)量和訓(xùn)練數(shù)據(jù)達(dá)到某個(gè)臨界點(diǎn)時(shí),硬件的細(xì)微誤差會(huì)被無限放大。

論文里,「stability」這個(gè)詞出現(xiàn)了十余次。

放在一篇技術(shù)報(bào)告里,這個(gè)頻率本身就是信號(hào)。正常情況下,穩(wěn)定性是默認(rèn)前提,不值得反復(fù)提。反復(fù)提,說明它確實(shí)是個(gè)問題。


具體來看,DeepSeek發(fā)現(xiàn)MoE層中的數(shù)值異常值(outlier)會(huì)通過路由機(jī)制不斷放大,形成惡性循環(huán),最終觸發(fā)loss spike,訓(xùn)練曲線突然飆升。

團(tuán)隊(duì)祭出的主要補(bǔ)救措施是兩招。

第一招叫Anticipatory Routing。它本質(zhì)上就是在路由階段使用稍早版本的參數(shù),把骨干網(wǎng)絡(luò)和路由網(wǎng)絡(luò)的更新解耦,打破兩者之間的惡性循環(huán)。

第二招是SwiGLU Clamping。它直接把SwiGLU的數(shù)值范圍鉗制在[-10, 10]以內(nèi),從源頭壓制異常值,雖然暴力但很有效。


當(dāng)前大模型訓(xùn)練已進(jìn)入硬件底層、編譯器棧、以及數(shù)學(xué)架構(gòu)三位一體的無人區(qū)

論文里有個(gè)細(xì)節(jié)很耐琢磨。

Anticipatory Routing和SwiGLU Clamping,DeepSeek確認(rèn)「顯著有效」,但緊跟一句「底層機(jī)理仍是open question」。

連Q/KV歸一化這種已經(jīng)被廣泛驗(yàn)證的基礎(chǔ)操作,論文的措辭都只敢寫「may improve training stability」。

一個(gè)「may」字,足以說明在萬億參數(shù)MoE的訓(xùn)練里,沒有什么是百分百靠得住的。


從15T到33T,數(shù)據(jù)量翻倍帶來的不是線性增長的困難,而是指數(shù)級(jí)放大的系統(tǒng)性風(fēng)險(xiǎn)。

每一層網(wǎng)絡(luò)、每一個(gè)梯度更新、每一次通信同步,都在更大的規(guī)模下被放大成潛在的崩潰點(diǎn)。

而DeepSeek選擇把這些全寫進(jìn)論文里,這在業(yè)內(nèi)幾乎沒有先例。

硬件的鍋,還是軟件的鍋?

所以,技術(shù)報(bào)告中明確提出的「訓(xùn)練穩(wěn)定性挑戰(zhàn)」,指的到底是誰家的硬件?

雖然論文里沒有明確點(diǎn)名任何硬件平臺(tái),但已經(jīng)有嗅覺敏銳的人開始猜測了。

有觀點(diǎn)直接指出:所謂「訓(xùn)練穩(wěn)定性挑戰(zhàn)」,很可能就是算力平臺(tái)的問題。而且不只是DeepSeek一家踩坑,各大廠商都遇到過。

xAI在一次發(fā)布會(huì)上,Macrohard項(xiàng)目的負(fù)責(zé)人曾隱晦提到,英偉達(dá)最新的芯片給他們?cè)斐闪恕覆恍〉穆闊梗坏貌恢匦麻_發(fā)硬件適配程序。這或許也解釋了xAI進(jìn)度突然放緩的原因之一。


不過,這件事當(dāng)然沒那么簡單。

大型算力集群涉及的變量太多:芯片本身、互連架構(gòu)、散熱系統(tǒng)、電力供應(yīng)、驅(qū)動(dòng)版本、編譯棧適配。訓(xùn)練不穩(wěn)定未必等于芯片級(jí)缺陷,也可能是系統(tǒng)集成層的問題。

不過,目前還沒有任何官方文件給出答案。

一切都還在猜測之中。


Agent訓(xùn)練體系

工程能力讓人肅然起敬

如果說V4的預(yù)訓(xùn)練是在和硬件博弈,那么它的Post-training則展現(xiàn)了教科書級(jí)別的工程審美。

可以說,Agent能力的工程化路徑,是V4論文里最值得細(xì)讀的部分。

以往我們認(rèn)為Agent能力是「教」出來的,但DeepSeek認(rèn)為,Agent能力應(yīng)該是「長」出來的。


拒絕「硬遷移」,預(yù)訓(xùn)練階段的「血脈注入」

行業(yè)內(nèi)大部分的做法是,先訓(xùn)一個(gè)對(duì)話模型,再硬遷移成Agent。DeepSeek看來,這太低效了。

在V4的mid-training階段,他們就注入了海量的Agentic Data。

這意味著,模型在基礎(chǔ)學(xué)習(xí)階段,就已經(jīng)見過長任務(wù)鏈、環(huán)境反饋和文件修改模式。它還沒學(xué)會(huì)寫詩,就已經(jīng)見過了Linux命令行的報(bào)錯(cuò)。

這就是一種地基層面的設(shè)計(jì)。

獨(dú)創(chuàng)的Specialist Training(專家特訓(xùn)法)

另一大亮點(diǎn),就是DeepSeek獨(dú)創(chuàng)的專家特訓(xùn)法。

V4沒有直接練一個(gè)全能戰(zhàn)士,而是先練出了數(shù)學(xué)專家、代碼專家、Agent專家、指令跟隨專家。

這種分階段的Specialist Training保證了每個(gè)領(lǐng)域的上限被拉到最高。

最后,再通過OPD(Multi-teacher On-Policy Distillation,多教師在線策略蒸餾),將這些專家的靈魂聚合成一個(gè)統(tǒng)一的模型。

這里工程上的難度在于,同時(shí)加載十多個(gè)萬億參數(shù)級(jí)的教師模型做在線推理不現(xiàn)實(shí)。

V4的方案是不緩存教師的logits(顯存裝不下),只緩存教師最后一層的隱藏狀態(tài),訓(xùn)練時(shí)按需通過prediction head重建logits。

然后,按教師索引排序訓(xùn)練樣本,確保每個(gè)教師的prediction head只加載一次。KL散度計(jì)算則用TileLang編寫的專用kernel加速。

告別傳統(tǒng)Reward Model

另外,對(duì)于「難以驗(yàn)證(hard-to-verify)」的任務(wù),傳統(tǒng)的標(biāo)量獎(jiǎng)勵(lì)模型(Scalar Reward Model)已經(jīng)力不從心。

對(duì)此,DeepSeek選擇引入了Generative Reward Model (GRM)。

它不再簡單地給一個(gè)0到1的分?jǐn)?shù),而是根據(jù)預(yù)設(shè)的Rubric(評(píng)估準(zhǔn)則)生成詳細(xì)的評(píng)估報(bào)告。

更關(guān)鍵的是,DeepSeek對(duì)GRM本身也做了RL優(yōu)化,讓actor網(wǎng)絡(luò)同時(shí)充當(dāng)生成式獎(jiǎng)勵(lì)模型,評(píng)判能力和生成能力在同一個(gè)模型中聯(lián)合優(yōu)化。

把Agent做成一套分布式系統(tǒng)

不僅如此,DeepSeek還為V4專門自研了一套底座。

DSec:生產(chǎn)級(jí)沙箱集群

為了訓(xùn)練Agent的實(shí)操能力,DeepSeek搭建了一個(gè)名為DSec的平臺(tái)。

3FS分布式文件系統(tǒng),確保了數(shù)據(jù)的極速存;數(shù)十萬并發(fā)Sandbox實(shí)例,則意味著V4在訓(xùn)練時(shí),同時(shí)有幾十萬臺(tái)「虛擬電腦」在跑代碼、測Bug。

MegaMoE:通信計(jì)算一體化

在MoE層,DeepSeek把通信和計(jì)算融合進(jìn)單個(gè)pipeline kernel,專家按wave調(diào)度,通信延遲完全隱藏在計(jì)算之下。

結(jié)果就是,通用場景加速1.5到1.73倍,RL rollout等延遲敏感場景最高1.96倍。

自研DSML:拒絕轉(zhuǎn)義失敗

工具調(diào)用方面,DeepSeek干脆自己設(shè)計(jì)了一套類似XML的DSL(領(lǐng)域特定語言)。

這套協(xié)議簡單高效,直接把工具調(diào)用的成功率從「看運(yùn)氣」提升到了「工業(yè)級(jí)穩(wěn)健」。


Reasoning Effort分模式訓(xùn)練

還有一個(gè)精細(xì)的設(shè)計(jì),就是V4支持不同的思考模式。

Non-think模式是簡單的工具選擇,秒回。High/Max則針對(duì)長文檔、重構(gòu)、復(fù)雜Bug,拉滿推理算力。

這種「能省則省,該狠則狠」的策略,也是V4成本能做到Claude 1/4的關(guān)鍵。

社區(qū)的很多研究者讀完這部分后,膜拜得五體投地:「DeepSeek的工程能力,依舊扎實(shí)得讓人沒話說」。


Interleaved Thinking升級(jí)

V3.2在每個(gè)新用戶消息到來時(shí)會(huì)丟棄之前的思考痕跡,V4在Tool-Calling場景下保留了完整的跨輪次推理歷史,讓Agent在長時(shí)程任務(wù)中維持連貫的推理鏈。

普通對(duì)話場景仍每輪清空,保持上下文精簡。

硬幣的另一面,是94%的幻覺率

Artificial Analysis的實(shí)測給出了一個(gè)更立體的畫面。

跑完Intelligence Index的全量基準(zhǔn)測試,V4 Pro只花了1071美金,比Claude Opus 4.7的4811美金便宜了四倍多。

Agent能力方面,V4 Pro Max在GDPval-AA實(shí)測(面向真實(shí)工作任務(wù)的Agent基準(zhǔn))中拿到了1554分,全面領(lǐng)先一眾開源模型。



然而,天下沒有免費(fèi)的午餐。

Aritificial Analysis的報(bào)告里也非常坦誠地指出了這種做法的代價(jià):V4 pro在AA-Ominiscience上的幻覺率高達(dá)94%。


這揭示了一個(gè)結(jié)構(gòu)性困境:要在有限算力預(yù)算下逼近頂級(jí)性能,就不得不在某些維度上做取舍。

DeepSeek選擇把籌碼全壓在推理和Agent能力上,代價(jià),就是知識(shí)都準(zhǔn)確性。


為什么我們依然對(duì)DeepSeek充滿敬意?

在這次V4的報(bào)告中,有人看到了「訓(xùn)練不穩(wěn)」的尷尬,有人看到了「幻覺嚴(yán)重」的短板。

但在我們看來,這份報(bào)告最動(dòng)人的地方在于透明。

他們敢于承認(rèn)硬件適配陣痛,敢于披露那些看似「補(bǔ)丁」的解決方案,更敢于展示自己如何用最硬核的工程能力,在幾十萬個(gè)沙箱里一點(diǎn)點(diǎn)磨出Agent的靈魂。

從V3的Multi-head Latent Attention到V4的OPD蒸餾和DSec沙箱,DeepSeek正在用一種近乎偏執(zhí)的「工程主義」,探索著大模型通往AGI的另一條路徑——

如果架構(gòu)還沒完美,那就用工程把墻砌厚;如果算力不夠便宜,那就用算法把效率榨干。

DeepSeek-V4也許不是最完美的終局,但它絕對(duì)是目前最真實(shí)的、最充滿活力的「中國AI現(xiàn)場」。

參考資料:

https://x.com/suchenzang/status/2047559677316325807

https://x.com/ArtificialAnlys/status/2047735160544841953

https://x.com/jakevin7/status/2047578619946664413

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
丟人!假空姐大鬧亞航后續(xù):賬號(hào)被扒正臉曝光,十級(jí)美顏淪為笑話

丟人!假空姐大鬧亞航后續(xù):賬號(hào)被扒正臉曝光,十級(jí)美顏淪為笑話

壹月情感
2026-04-25 13:23:50
NBA季后賽明天4月26日賽程:雷霆沖擊賽點(diǎn),掘金PK狼隊(duì)避免3連敗

NBA季后賽明天4月26日賽程:雷霆沖擊賽點(diǎn),掘金PK狼隊(duì)避免3連敗

薇說體育
2026-04-25 16:52:59
下課倒計(jì)時(shí)!火箭3連敗+烏杜卡遭完爆,拒絕哈登加盟,你后悔嗎?

下課倒計(jì)時(shí)!火箭3連敗+烏杜卡遭完爆,拒絕哈登加盟,你后悔嗎?

兵哥籃球故事
2026-04-25 15:57:34
全世界會(huì)發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個(gè)超級(jí)大國了

全世界會(huì)發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個(gè)超級(jí)大國了

深析古今
2026-04-14 00:35:58
老人1500元賣掉自家大狗,小孫女舍不得哭得撕心裂肺,狗販心軟不收了,只要求退回1300元,“那200塊就當(dāng)補(bǔ)償小姑娘吧”

老人1500元賣掉自家大狗,小孫女舍不得哭得撕心裂肺,狗販心軟不收了,只要求退回1300元,“那200塊就當(dāng)補(bǔ)償小姑娘吧”

觀威海
2026-04-24 10:56:04
用了這么多年Mac才發(fā)現(xiàn),我天天拔插充電線的樣子像個(gè)傻子…

用了這么多年Mac才發(fā)現(xiàn),我天天拔插充電線的樣子像個(gè)傻子…

小柱解說游戲
2026-04-22 11:19:09
出乎意料!2032奧運(yùn)主辦地確定了,不知名小城市以72:5碾壓當(dāng)選

出乎意料!2032奧運(yùn)主辦地確定了,不知名小城市以72:5碾壓當(dāng)選

安珈使者啊
2026-04-24 11:44:45
猛降14℃!降溫、降雨、雷暴大風(fēng)即將抵達(dá)長沙!另外,“五一”假期長沙天氣最新預(yù)測→

猛降14℃!降溫、降雨、雷暴大風(fēng)即將抵達(dá)長沙!另外,“五一”假期長沙天氣最新預(yù)測→

芒果都市
2026-04-25 15:31:14
鄭愷苗苗合體露面被偶遇,手挽手同行超甜蜜,真夫妻就是好嗑

鄭愷苗苗合體露面被偶遇,手挽手同行超甜蜜,真夫妻就是好嗑

扒蝦侃娛
2026-04-24 16:32:53
斯馬特加時(shí)賽拿下8分,97年以來湖人球員僅次于科比

斯馬特加時(shí)賽拿下8分,97年以來湖人球員僅次于科比

懂球帝
2026-04-25 12:50:45
她為兒子息影,卻在丈夫肝癌去世后,從主持人到演員,靠演技出圈

她為兒子息影,卻在丈夫肝癌去世后,從主持人到演員,靠演技出圈

以茶帶書
2026-04-25 15:05:16
昔日福建地產(chǎn)首富黃其森卸任泰禾集團(tuán)董事長,年初剛解除留置,身家曾達(dá)200億

昔日福建地產(chǎn)首富黃其森卸任泰禾集團(tuán)董事長,年初剛解除留置,身家曾達(dá)200億

紅星新聞
2026-04-25 14:28:17
全球最疲憊總統(tǒng)宣布退場

全球最疲憊總統(tǒng)宣布退場

劉瀾昌
2026-04-25 08:43:52
TVB老戲骨忍無可忍含淚揭家丑,每月接濟(jì)兒子五萬,走了向太老路

TVB老戲骨忍無可忍含淚揭家丑,每月接濟(jì)兒子五萬,走了向太老路

翰飛觀事
2026-04-22 19:35:28
萬萬沒想到,打敗彩禮居然是社保

萬萬沒想到,打敗彩禮居然是社保

放牛娃的遐想
2026-03-03 08:34:32
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
黃一鳴回應(yīng):沒結(jié)婚一天找8個(gè)男的也沒關(guān)系,承認(rèn)跟40歲大叔交往過

黃一鳴回應(yīng):沒結(jié)婚一天找8個(gè)男的也沒關(guān)系,承認(rèn)跟40歲大叔交往過

林雁飛
2026-04-25 17:07:43
局勢惡化!日本開出危險(xiǎn)一槍,中國紅線遭踩踏,東部戰(zhàn)區(qū)行動(dòng)了

局勢惡化!日本開出危險(xiǎn)一槍,中國紅線遭踩踏,東部戰(zhàn)區(qū)行動(dòng)了

云舟史策
2026-04-23 07:32:35
我勒個(gè)去!25歲還是當(dāng)家老大,26歲成魚腩替補(bǔ),他怎么混這么差

我勒個(gè)去!25歲還是當(dāng)家老大,26歲成魚腩替補(bǔ),他怎么混這么差

球毛鬼胎
2026-04-25 16:13:02
成都一居民小區(qū)凌晨起火致5死2傷,記者現(xiàn)場探訪:起火樓棟入口被熏黑,傷者無生命危險(xiǎn)

成都一居民小區(qū)凌晨起火致5死2傷,記者現(xiàn)場探訪:起火樓棟入口被熏黑,傷者無生命危險(xiǎn)

極目新聞
2026-04-25 16:02:45
2026-04-25 17:56:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15060文章數(shù) 66803關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂要聞

鄧超最大的幸運(yùn),就是遇見孫儷

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

親子
時(shí)尚
健康
公開課
軍事航空

親子要聞

孩子上幼兒園第一天又哭又鬧?幾個(gè)原因,家長提前了解

上新|| 入夏第一件短袖,買它!

干細(xì)胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長:戰(zhàn)事不會(huì)“沒完沒了”

無障礙瀏覽 進(jìn)入關(guān)懷版