国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek V4重磅發(fā)布,百萬(wàn)上下文成標(biāo)配,華為昇騰率先適配!

0
分享至

4 月 24 日的 AI 技術(shù)圈再次因大模型的升級(jí)而沸騰。

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

就在 OpenAI 于凌晨剛推出 版本之后的幾個(gè)小時(shí),國(guó)產(chǎn)大模型也迎來(lái)了重磅時(shí)刻——DeepSeek-V4 預(yù)覽版官宣上線,并同步開(kāi)源。

官方發(fā)布 58 頁(yè)完整技術(shù)報(bào)告,讓開(kāi)源大模型邁入百萬(wàn) token 高效上下文時(shí)代,徹底重構(gòu)長(zhǎng)文本大模型的效率與能力邊界。


開(kāi)源地址:

  • https://huggingface.co/collections/deepseek-ai/deepseek-v4

  • https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

技術(shù)報(bào)告:

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf


雙模型齊發(fā):1.6T 旗艦與 284B 輕量版,均支持百萬(wàn)字上下文

最新發(fā)布的 DeepSeek-V4 系列一次性推出兩款全新的 MoE 架構(gòu)大模型,全部支持 百萬(wàn)字超長(zhǎng)上下文,按照模型大小來(lái)分:

  • DeepSeek-V4-Pro:總參數(shù)量為 1.6T、激活參數(shù)為 49B, 在知識(shí)、推理、代碼、智能體、長(zhǎng)文檔理解上比肩頂級(jí)閉源模型;

  • DeepSeek?V4?Flash:總參數(shù) 284B,激活參數(shù)為 13B,以極小激活參數(shù)量實(shí)現(xiàn)逼近旗艦的推理性能。


官方表示,兩款模型在 Agent 能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國(guó)內(nèi)與開(kāi)源領(lǐng)域的領(lǐng)先。 即日起,登錄 DeepSeek 官網(wǎng) chat.deepseek.com 或官方App,就可以直接體驗(yàn)最新的 DeepSeek-V4 能力。

此外,API 服務(wù)已同步更新,通過(guò)修改 model_name 為 deepseek-v4-pro 或 deepseek-v4-flash 即可調(diào)用。



架構(gòu)升級(jí),關(guān)鍵技術(shù)創(chuàng)新大幅提高上下文效率

從技術(shù)架構(gòu)層面來(lái)看,DeepSeek?V4 沒(méi)有停留在堆參數(shù)、擴(kuò)數(shù)據(jù)的傳統(tǒng)路線,而是從注意力機(jī)制、殘差連接、優(yōu)化器三大底層維度,進(jìn)行了技術(shù)升級(jí)。

簡(jiǎn)單來(lái)看,與 DeepSeek-V3 架構(gòu)相比,DeepSeek-V4 系列保留了 DeepSeekMoE 框架和多詞元預(yù)測(cè)(MTP)策略,同時(shí)在架構(gòu)和優(yōu)化方面引入了多項(xiàng)關(guān)鍵創(chuàng)新:

  • 采用混合注意力架構(gòu),將壓縮稀疏注意力(CSA)和重壓縮注意力(HCA)結(jié)合,用于提升長(zhǎng)上下文處理效率。CSA 沿序列維度壓縮鍵值緩存,然后執(zhí)行 DeepSeek 稀疏注意力(DSA),而 HCA 對(duì)鍵值緩存應(yīng)用更激進(jìn)的壓縮,但保持了密集注意力;

  • 為了增強(qiáng)建模能力,DeepSeek 也在架構(gòu)中引入了流形約束超連接(mHC),在傳統(tǒng)殘差連接基礎(chǔ)上進(jìn)一步增強(qiáng)信息傳遞能力;

  • 以及 Muon 優(yōu)化器被引入了 DeepSeek-V4 系列的訓(xùn)練中,用于加快收斂速度并提升訓(xùn)練穩(wěn)定性。


在訓(xùn)練維度,DeepSeek 在超過(guò) 32T 高質(zhì)量、多樣化的 token 上對(duì)兩個(gè)模型進(jìn)行了預(yù)訓(xùn)練,并在此基礎(chǔ)上引入了一整套完整的后訓(xùn)練流程,進(jìn)一步增強(qiáng)模型能力。

同時(shí),據(jù)技術(shù)報(bào)告顯示,DeepSeek-V4 系列在長(zhǎng)上下文場(chǎng)景下也表現(xiàn)出極高的效率。在百萬(wàn) Token 的上下文設(shè)置下,DeepSeek-V4-Pro 僅需 DeepSeek-V3.2 的 27% 單 Token 推理 FLOP,KV cache 占用僅為 10%。

正因此,DeepSeek 能夠?qū)ⅰ鞍偃f(wàn) token 上下文”作為常規(guī)能力來(lái)支持,從而顯著提升長(zhǎng)時(shí)序任務(wù)的可行性,并為測(cè)試階段的進(jìn)一步擴(kuò)展提供了空間。正如官方所說(shuō):“從現(xiàn)在開(kāi)始,1M(一百萬(wàn))上下文將是 DeepSeek 所有官方服務(wù)的標(biāo)配。



性能比肩頂級(jí)閉源模型

值得注意的是,DeepSeek-V4-ProMax 是 DeepSeek-V4-Pro 的最高推理模式,重新定義了開(kāi)放模型的性能標(biāo)準(zhǔn),在核心任務(wù)上超越了其前代產(chǎn)品。

另外,DeepSeek-V4 系列的性能在多個(gè)維度都有了全面的提升:

  • 在廣義世界知識(shí)評(píng)估中,DeepSeek-V4-Pro 的最高推理模式 DeepSeek-V4-Pro-Max,在 SimpleQA 和 Chinese-SimpleQA 等基準(zhǔn)測(cè)試上,顯著優(yōu)于主流開(kāi)源模型。


在教育類知識(shí)評(píng)估方面(包括 MMLU-Pro、HLE 和 GPQA),DeepSeek-V4-Pro-Max 相較開(kāi)源模型仍保持小幅領(lǐng)先。同時(shí),它與領(lǐng)先的閉源模型 Gemini-3.1-Pro 的差距已經(jīng)大幅縮小,但在這些知識(shí)類測(cè)試中仍略遜一籌。


  • 在推理維度,通過(guò)增加推理 token 的投入,DeepSeek-V4-Pro-Max 在標(biāo)準(zhǔn)推理基準(zhǔn)上展現(xiàn)出優(yōu)于 GPT-5.2 和 Gemini-3.0-Pro 的表現(xiàn)。

    不過(guò),其性能仍略低于 GPT-5.4 和 Gemini-3.1-Pro,這表明其整體發(fā)展水平大約落后最前沿模型 3 到 6 個(gè)月。

    此外,DeepSeek-V4-Flash-Max 在復(fù)雜推理任務(wù)中達(dá)到了接近 GPT-5.2 和 Gemini-3.0-Pro 的表現(xiàn),體現(xiàn)出較高的性價(jià)比。

  • Agent 能力上,在公開(kāi)基準(zhǔn)測(cè)試中,DeepSeek-V4-Pro-Max 與領(lǐng)先開(kāi)源模型(如 Kimi-K2.6 和 GLM-5.1)表現(xiàn)相當(dāng),但略遜于頂級(jí)閉源模型。在內(nèi)部評(píng)測(cè)中,DeepSeek-V4-Pro-Max 超過(guò)了 Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平。

  • 在支持 100 萬(wàn) token 上下文窗口的情況下,DeepSeek-V4-Pro-Max 在合成任務(wù)和真實(shí)場(chǎng)景中均表現(xiàn)出色,甚至在學(xué)術(shù)基準(zhǔn)測(cè)試中超過(guò)了 Gemini-3.1-Pro。


相比 DeepSeek-V4-Pro-Max,DeepSeek-V4-Flash-Max 由于參數(shù)規(guī)模更小, 在知識(shí)類評(píng)估中的表現(xiàn)略低。但在給予更大思考預(yù)算時(shí),其推理任務(wù)表現(xiàn)可以接近 DeepSeek-V4-Pro-Max。

在 Agent 評(píng)測(cè)中,DeepSeek-V4-Flash-Max 在部分基準(zhǔn)上能夠與 DeepSeek-V4-Pro-Max 持平,但在更復(fù)雜、高難度任務(wù)中仍存在差距。


算力支持

值得注意的是,對(duì)于行業(yè)最關(guān)注的國(guó)產(chǎn)算力落地,DeepSeek 在技術(shù)報(bào)告中指出,他們?cè)?NVIDIA GPU 和華為 Ascend NPU 平臺(tái)上,對(duì)細(xì)粒度 EP(Expert Parallelism)方案進(jìn)行了驗(yàn)證。

另一方面,華為昇騰超節(jié)點(diǎn)系列產(chǎn)品也宣布全面支持,本次通過(guò)雙方芯模技術(shù)緊密協(xié)同,實(shí)現(xiàn)異騰超節(jié)點(diǎn)全系列產(chǎn)品支持 DeepSeek V4 系列模型。



API 同步開(kāi)放:無(wú)縫兼容主流接口,一鍵接入最強(qiáng)開(kāi)源長(zhǎng)上下文

時(shí)下 DeepSeek?V4 API 已同步上線,支持 OpenAI ChatCompletions 與 Anthropic 接口規(guī)范。

訪問(wèn)新模型時(shí),base_url 不變, model 參數(shù)需要改為 deepseek-v4-pro 或 deepseek-v4-flash。


另外,DeepSeek 官方還提到,舊有的 API 接口的兩個(gè)模型名 deepseek-chat 與deepseek-reasoner 將于三個(gè)月后(2026-07-24)停止使用。當(dāng)前階段內(nèi),這兩個(gè)模型名分別指向 deepseek-v4-flash 的非思考模式與思考模式。

普通用戶可直接登錄 DeepSeek 官網(wǎng)或官方 App,體驗(yàn) 100 萬(wàn) Token 上下文帶來(lái)的震撼能力:一次性上傳整本書、整個(gè)項(xiàng)目代碼、整份合同文檔,實(shí)現(xiàn)真正的 “一次性讀懂、全程記憶、深度推理”。

DeepSeek?V4 的到來(lái),不只是一次模型升級(jí),更是開(kāi)源大模型進(jìn)入 “百萬(wàn)上下文高效時(shí)代” 的標(biāo)志。它用架構(gòu)創(chuàng)新證明:超長(zhǎng)上下文不必靠暴力算力,小激活參數(shù)也能擁有頂級(jí)推理。

開(kāi)源地址:

  • https://huggingface.co/collections/deepseek-ai/deepseek-v4

  • https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

技術(shù)報(bào)告:

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

「粉絲專屬回饋:60+ 頂級(jí)大廠 AI 實(shí)戰(zhàn) PPT 限時(shí)領(lǐng)!」

2026 奇點(diǎn)智能技術(shù)大會(huì)·上海站圓滿落幕!整整兩天,CSDN 與奇點(diǎn)智能研究院攜手,把“AI 正在如何重塑軟件開(kāi)發(fā)”徹底攤開(kāi)講透了。

這不僅僅是一場(chǎng)會(huì)議,更是一份關(guān)于未來(lái)的答案。從 NVIDIA、微軟、Google 的全球視野,到華為、阿里、騰訊、京東、網(wǎng)易、快手、昆侖萬(wàn)維的本土實(shí)踐;從月之暗面、階躍星辰、MiniMax 的獨(dú)角獸洞察,再到北大、智源、奇點(diǎn)智能研究院的前沿探索。

Agent 正在成為新入口,軟件形態(tài)正在被重寫。

錯(cuò)過(guò)了現(xiàn)場(chǎng)?沒(méi)關(guān)系!為回饋粉絲,我們特將本次大會(huì)的高質(zhì)量演講 PPT 完整打包。

領(lǐng)取方式: 在公眾號(hào)后臺(tái)私信發(fā)送 「奇點(diǎn)」 二字,即可一鍵獲取全套干貨。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
消息人士:伊朗外長(zhǎng)離開(kāi)巴基斯坦

消息人士:伊朗外長(zhǎng)離開(kāi)巴基斯坦

新華社
2026-04-25 22:35:09
戰(zhàn)與和的拉扯:美國(guó)無(wú)限反轉(zhuǎn)在消磨什么?日本擴(kuò)軍狂飆想干什么?

戰(zhàn)與和的拉扯:美國(guó)無(wú)限反轉(zhuǎn)在消磨什么?日本擴(kuò)軍狂飆想干什么?

上觀新聞
2026-04-25 18:49:05
73歲老人被85歲室友打到大小便失禁,養(yǎng)老院稱未聽(tīng)到任何異常聲音,巡查頻次符合規(guī)定……

73歲老人被85歲室友打到大小便失禁,養(yǎng)老院稱未聽(tīng)到任何異常聲音,巡查頻次符合規(guī)定……

新民周刊
2026-04-25 18:57:53
三折甩賣無(wú)人要!曾經(jīng)的中產(chǎn)鞋王,如今竟成智商稅代名詞

三折甩賣無(wú)人要!曾經(jīng)的中產(chǎn)鞋王,如今竟成智商稅代名詞

青眼財(cái)經(jīng)
2026-04-25 23:03:53
雷克薩斯全新一代ES:不做越級(jí),而做躍級(jí)

雷克薩斯全新一代ES:不做越級(jí),而做躍級(jí)

網(wǎng)上車市
2026-04-24 21:32:03
蔡磊的妻子段睿深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

蔡磊的妻子段睿深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

北緯的咖啡豆
2026-04-25 09:01:01
這臺(tái)大眾很不大眾 解讀一汽-大眾ID. AURA T6

這臺(tái)大眾很不大眾 解讀一汽-大眾ID. AURA T6

新出行
2026-04-25 14:01:58
歐洲用20年嚴(yán)格監(jiān)管美國(guó)科技巨頭,卻把自己管成美國(guó)的“經(jīng)濟(jì)農(nóng)奴”

歐洲用20年嚴(yán)格監(jiān)管美國(guó)科技巨頭,卻把自己管成美國(guó)的“經(jīng)濟(jì)農(nóng)奴”

風(fēng)向觀察
2026-04-25 14:32:55
隨著上海海港4-0,北京國(guó)安2-4,成都蓉城4-0,中超最新積分榜出爐

隨著上海海港4-0,北京國(guó)安2-4,成都蓉城4-0,中超最新積分榜出爐

側(cè)身凌空斬
2026-04-25 21:59:26
網(wǎng)易號(hào)平臺(tái)每日辟謠公告(四月二十四日)

網(wǎng)易號(hào)平臺(tái)每日辟謠公告(四月二十四日)

網(wǎng)易號(hào)官方平臺(tái)
2026-04-24 17:54:26
美國(guó)被曝考慮“懲罰”西班牙 桑切斯:支持盟友須遵守國(guó)際法

美國(guó)被曝考慮“懲罰”西班牙 桑切斯:支持盟友須遵守國(guó)際法

環(huán)球網(wǎng)資訊
2026-04-25 14:06:16
陳奕迅女兒陳康堤承認(rèn)與香港網(wǎng)球一哥黃澤林戀愛(ài):是家人介紹的

陳奕迅女兒陳康堤承認(rèn)與香港網(wǎng)球一哥黃澤林戀愛(ài):是家人介紹的

懂球帝
2026-04-25 16:34:10
敵人不是中國(guó),70人要扒總統(tǒng)皮,特朗普連發(fā)4文,賀錦麗殺回政壇

敵人不是中國(guó),70人要扒總統(tǒng)皮,特朗普連發(fā)4文,賀錦麗殺回政壇

生活魔術(shù)專家
2026-04-25 15:58:04
48小時(shí)內(nèi),美日都打算派高層訪華,特朗普說(shuō):我不生中國(guó)氣

48小時(shí)內(nèi),美日都打算派高層訪華,特朗普說(shuō):我不生中國(guó)氣

一口娛樂(lè)
2026-04-25 17:37:52
斯諾克世錦賽:丁俊暉第二階段7-9落后趙心童,瓦菲3連鞭逆轉(zhuǎn)NO.1

斯諾克世錦賽:丁俊暉第二階段7-9落后趙心童,瓦菲3連鞭逆轉(zhuǎn)NO.1

劉姚堯的文字城堡
2026-04-26 00:21:08
失聯(lián)十余日!兩屆奧運(yùn)冠軍,羽協(xié)主席張軍被查!后果與影響分析

失聯(lián)十余日!兩屆奧運(yùn)冠軍,羽協(xié)主席張軍被查!后果與影響分析

史海流年號(hào)
2026-04-25 08:22:32
霍爾木茲海峽,傳來(lái)大消息!伊朗總統(tǒng),最新發(fā)聲!比特幣跳水,超9.9萬(wàn)人爆倉(cāng)!

霍爾木茲海峽,傳來(lái)大消息!伊朗總統(tǒng),最新發(fā)聲!比特幣跳水,超9.9萬(wàn)人爆倉(cāng)!

證券時(shí)報(bào)e公司
2026-04-25 22:11:02
死了這條心!人民日?qǐng)?bào)表態(tài):中國(guó)不會(huì)救菲律賓,馬科斯投機(jī)到頭了

死了這條心!人民日?qǐng)?bào)表態(tài):中國(guó)不會(huì)救菲律賓,馬科斯投機(jī)到頭了

風(fēng)干迷茫人
2026-04-24 16:01:23
世錦賽戰(zhàn)報(bào):趙心童9-7領(lǐng)先丁俊暉!最終比分浮現(xiàn),勝者對(duì)陣墨菲

世錦賽戰(zhàn)報(bào):趙心童9-7領(lǐng)先丁俊暉!最終比分浮現(xiàn),勝者對(duì)陣墨菲

小火箭愛(ài)體育
2026-04-26 00:18:49
7499元,新機(jī)官宣:4月24日,全渠道首銷!

7499元,新機(jī)官宣:4月24日,全渠道首銷!

科技堡壘
2026-04-24 09:54:10
2026-04-26 05:00:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26482文章數(shù) 242272關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

媒體:美軍在中東罕見(jiàn)高密度集結(jié) 伊朗開(kāi)始調(diào)整戰(zhàn)術(shù)

頭條要聞

媒體:美軍在中東罕見(jiàn)高密度集結(jié) 伊朗開(kāi)始調(diào)整戰(zhàn)術(shù)

體育要聞

那一刻開(kāi)始,兩支球隊(duì)的命運(yùn)悄然改變了

娛樂(lè)要聞

《我們的爸爸2》第一季完美爸爸翻車了

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒(méi)了

汽車要聞

2026款樂(lè)道L90亮相北京車展 樂(lè)道L80正式官宣

態(tài)度原創(chuàng)

親子
時(shí)尚
游戲
本地
家居

親子要聞

終于理解了什么是“鼓勵(lì)式教育”,鼓勵(lì)比責(zé)怪更有力量!

這些穿搭適合春天!外套彩色內(nèi)搭白色、褲子穿基礎(chǔ)款,舒適大方

金發(fā)美少女魔王和我是鄰居!新游首曝美女角色太吸睛

本地新聞

云游中國(guó)|逛世界風(fēng)箏都 留學(xué)生探秘中國(guó)傳統(tǒng)文化

家居要聞

自然肌理 溫潤(rùn)美學(xué)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版