国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

海外評(píng)測(cè)DeepSeek-V4:智能體任務(wù)排名開(kāi)源第一,幻覺(jué)率上升,Token消耗大

0
分享至

4月24日, DeepSeek-V4預(yù)覽版正式發(fā)布并同步開(kāi)源,號(hào)稱在Agent能力、世界知識(shí)與推理性能三大維度達(dá)到國(guó)內(nèi)及開(kāi)源領(lǐng)域領(lǐng)先水平。

DeepSeek-V4分為Pro與Flash兩個(gè)版本,均支持百萬(wàn)(1M)token超長(zhǎng)上下文。

兩個(gè)版本均大幅降低了對(duì)計(jì)算和顯存的需求,將每個(gè)標(biāo)記的推理FLOP降低 73%,并將KV緩存內(nèi)存占用降低90%。


4月24日,全球最大AI模型應(yīng)用程序編程接口聚合平臺(tái)OpenRouter的數(shù)據(jù)顯示,V4-Flash的調(diào)用量達(dá)270億Token,V4-Pro為47.9億Token,但沒(méi)有登上排行榜。


DeepSeek-V4發(fā)布后,主流評(píng)測(cè)平臺(tái)進(jìn)行了能力測(cè)試和排名。

Artificial Analysis對(duì)DeepSeek-V4進(jìn)行了推理能力專項(xiàng)測(cè)評(píng)。結(jié)果顯示,V4-Pro在人工分析智能指數(shù)中斬獲52分,相較V3.2版本的42分實(shí)現(xiàn)10分躍升,成為僅次于Kimi K2.6的全球第二大開(kāi)源推理模型。

V4-Flash得分47分,性能弱于V4-Pro,但顯著超越DeepSeek-V3.2,綜合智能水平對(duì)標(biāo)Claude Sonnet 4.6(全力版),介于頂尖閉源模型與主流中端模型之間。


在智能體任務(wù)表現(xiàn)方面,V4-Pro在真實(shí)場(chǎng)景智能體工作任務(wù)中,性能位居所有開(kāi)源權(quán)重模型首位,得分1554,超越Kimi K2.6(1484)、GLM-5.1(1535)、GLM-5(1402)以及MiniMax-M2.7(1514)。


DeepSeek-V4知識(shí)儲(chǔ)備升級(jí),但幻覺(jué)發(fā)生率上升。V4-Pro在全知綜合評(píng)測(cè)指標(biāo)(AA-Omniscience)中得分為-10,較V3.2推理版提升11分,核心得益于知識(shí)回答準(zhǔn)確率的顯著優(yōu)化。V4-Flash得分為-23,整體水平與V3.2基本持平。


相較于V3.2的幻覺(jué)率(82%),V4兩款模型的幻覺(jué)問(wèn)題突出:V4-Pro幻覺(jué)率為94%、V4-Flash幻覺(jué)率為96%,意味著模型在未知問(wèn)題場(chǎng)景下,幾乎都會(huì)強(qiáng)行生成答案。


DeepSeek-V4的運(yùn)行成本低于頂級(jí)閉源模型,高于主流開(kāi)源模型,較前代大幅上漲。完成全套人工分析智能指數(shù)測(cè)評(píng),V4-Pro的運(yùn)行成本為1071美元,僅不到Claude Opus 4.7(4811 美元)的四分之一;但對(duì)比同類開(kāi)源模型仍偏高,高于Kimi K2.6(948 美元)、GLM-5.1(544美元)、DeepSeek-V3.2(71美元)、gpt-oss-120B(67 美元)。DeepSeek-V4-Flash運(yùn)行成本僅約113美元,成本優(yōu)勢(shì)顯著。


完成標(biāo)準(zhǔn)測(cè)評(píng)流程,V4-Pro輸出Token消耗量達(dá)1.9億,屬于本次測(cè)評(píng)中Token消耗最高的模型之一;V4-Flash消耗進(jìn)一步攀升至2.4億Token。即便定價(jià)偏低,高額的Token消耗仍是V4-Pro綜合使用成本高于其他開(kāi)源模型的核心原因。


在其他評(píng)測(cè)中,大模型競(jìng)技場(chǎng)Arena.ai將DeepSeek-V4-Pro定性為“相較DeepSeek-V3.2的重大飛躍”,在其代碼競(jìng)技場(chǎng)中位列開(kāi)源模型第3位、綜合第14位。DeepSeek-V4-Pro在智能體網(wǎng)頁(yè)開(kāi)發(fā)任務(wù)中與GPT-5.4-high和Gemini-3.1-Pro處于同一水平。在其文本競(jìng)技場(chǎng)中,DeepSeek-V4-Pro位列開(kāi)源模型排名第2、綜合第14,與Kimi-2.6持平。DeepSeek-V4-Flash位列開(kāi)源模型排名第10、綜合第14。


另一家測(cè)評(píng)方Vals AI稱,DeepSeek-V4在其Vibe Code Benchmark(氛圍代碼基準(zhǔn))中以“壓倒性優(yōu)勢(shì)”拿下開(kāi)源權(quán)重模型榜首,較上代V3.2實(shí)現(xiàn)約10倍性能躍升,甚至擊敗了像Gemini 3.1 Pro這樣的頂尖閉源模型。DeepSeek-V4也是唯一一個(gè)在Vibe Code Benchmar上突破40%的開(kāi)源權(quán)重模型。


相較于DeepSeek-V4的能力,海外更加關(guān)注DeepSeek與華為的合作。

在DeepSeek-V4公布API價(jià)格信息的最下方,官方特別標(biāo)注指出:“受限于高端算力,目前Pro的服務(wù)吞吐量十分有限,預(yù)計(jì)下半年昇騰(Ascend)950超節(jié)點(diǎn)批量上市后,Pro的價(jià)格會(huì)大幅下調(diào)。”


DeepSeek在技術(shù)報(bào)告中稱,V4已在NVIDIA GPU和華為昇騰NPUs平臺(tái)上驗(yàn)證了精細(xì)粒度的EP(專家并行)方案,相較于強(qiáng)大的非融合基線,其在通用推理任務(wù)上可實(shí)現(xiàn)1.50~1.73倍的加速效果,而在對(duì)時(shí)延敏感的場(chǎng)景(如RL推演和高速代理服務(wù))中則可達(dá)到1.96倍的加速效果。

而在V4發(fā)布后,華為昇騰也同步宣布“超節(jié)點(diǎn)全系列產(chǎn)品支持DeepSeek-V4系列模型”。據(jù)悉,昇騰950通過(guò)融合kernel和多流并行技術(shù)降低Attention計(jì)算和訪存開(kāi)銷,大幅提升推理性能,結(jié)合多種量化算法,實(shí)現(xiàn)了高吞吐、低時(shí)延的DeepSeek-V4模型推理部署。

對(duì)于DeepSeek此次與華為合作,市場(chǎng)研究機(jī)構(gòu)Omdia半導(dǎo)體研究主管何輝表示:“這對(duì)中國(guó)人工智能行業(yè)而言意義重大?!?/p>

他進(jìn)一步說(shuō)道:“華為昇騰芯片是中國(guó)自研水平最高、可替代英偉達(dá)的產(chǎn)品。DeepSeek-V4大模型適配搭載華為芯片,標(biāo)志著中國(guó)頂級(jí)大模型如今已能夠?qū)崿F(xiàn)國(guó)產(chǎn)化硬件落地運(yùn)行。

高盛分析師Christopher Moniz點(diǎn)評(píng)稱,DeepSeek-V4預(yù)覽版發(fā)布后,GPU及國(guó)產(chǎn)芯片板塊應(yīng)聲走強(qiáng)。核心關(guān)注點(diǎn)之一是支撐V4模型的芯片底層架構(gòu):包括模型訓(xùn)練所使用的芯片,以及推理階段搭載的硬件設(shè)備。華為搭載昇騰AI處理器的新一代人工智能計(jì)算集群,可適配運(yùn)行DeepSeek-V4模型。這也意味著,中國(guó)自研AI硬件生態(tài),正在為DeepSeek持續(xù)迭代前沿大模型提供算力支撐。

DeepSeek此次技術(shù)路線轉(zhuǎn)向,也印證了英偉達(dá)首席執(zhí)行官黃仁勛此前的擔(dān)憂:英偉達(dá)正面臨失去中國(guó)開(kāi)發(fā)者生態(tài)的風(fēng)險(xiǎn)。

本月上旬,英偉達(dá)創(chuàng)始人黃仁勛在接受Dwarkesh Patel專訪時(shí)曾言:“如果DeepSeek先在華為平臺(tái)上發(fā)布,那對(duì)美國(guó)來(lái)說(shuō)將是災(zāi)難性的?!痹邳S仁勛看來(lái),雖然DeepSeek是一款開(kāi)源模型,同樣可被用于英偉達(dá)產(chǎn)品上,但如果DeepSeek專門針對(duì)華為算力進(jìn)行優(yōu)化,在高端算力采購(gòu)受限等局限下,英偉達(dá)將處于劣勢(shì)。

與DeepSeek-R1不同,DeepSeek-V4并沒(méi)有引發(fā)美國(guó)科技股大跌。晨星高級(jí)股票分析師Ivan Su表示,DeepSeek-V4很難復(fù)刻推理模型R1當(dāng)初的市場(chǎng)影響力,因?yàn)榻灰资袌?chǎng)早已充分消化了預(yù)期:中國(guó)人工智能技術(shù)具備競(jìng)爭(zhēng)力,且使用成本更低。

Ivan Su還稱,DeepSeek此次全新的產(chǎn)品定位,將國(guó)內(nèi)其他開(kāi)源大模型直接劃入競(jìng)品行列。

布魯金斯學(xué)會(huì)研究員Kyle Chan表示,DeepSeek-V4令人印象深刻,因?yàn)樗且粋€(gè)接近最先進(jìn)水平的模型,具有高效的100萬(wàn)Token上下文長(zhǎng)度,并且可以在華為的新芯片上運(yùn)行。DeepSeek-V4沒(méi)有復(fù)制“DeepSeek-R1時(shí)刻”,因?yàn)橥饨鐚?duì)中國(guó)AI能力的期望值要比以往高得多。

免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請(qǐng)核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鮑爾默6000萬(wàn)美元投資血本無(wú)歸,痛斥欺詐創(chuàng)始人“我被騙了”

鮑爾默6000萬(wàn)美元投資血本無(wú)歸,痛斥欺詐創(chuàng)始人“我被騙了”

IT之家
2026-04-25 12:43:15
智駕產(chǎn)業(yè)邏輯面臨顛覆,卓馭迎來(lái)價(jià)值全面重估

智駕產(chǎn)業(yè)邏輯面臨顛覆,卓馭迎來(lái)價(jià)值全面重估

第一財(cái)經(jīng)資訊
2026-04-20 22:04:00
雷克薩斯全新一代ES:不做越級(jí),而做躍級(jí)

雷克薩斯全新一代ES:不做越級(jí),而做躍級(jí)

網(wǎng)上車市
2026-04-24 21:32:03
急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

達(dá)文西看世界
2026-04-25 11:40:56
英超-阿森納3-0紐卡斯?fàn)枺籂?zhēng)冠未失主動(dòng),槍手撈凈勝球|前瞻

英超-阿森納3-0紐卡斯?fàn)枺籂?zhēng)冠未失主動(dòng),槍手撈凈勝球|前瞻

體育世界
2026-04-25 15:51:42
烏度卡談最后崩盤:我不知道他們是太年輕,還是懼怕關(guān)鍵時(shí)刻

烏度卡談最后崩盤:我不知道他們是太年輕,還是懼怕關(guān)鍵時(shí)刻

懂球帝
2026-04-25 12:18:07
泡泡瑪特:4月30日發(fā)售兩款Labubu冰箱,售價(jià)5999元,每款全球限量發(fā)售999臺(tái)

泡泡瑪特:4月30日發(fā)售兩款Labubu冰箱,售價(jià)5999元,每款全球限量發(fā)售999臺(tái)

魯中晨報(bào)
2026-04-24 20:08:07
震驚!網(wǎng)傳云南某明星演唱會(huì),因舞臺(tái)像某標(biāo)志被叫停,真相來(lái)了…

震驚!網(wǎng)傳云南某明星演唱會(huì),因舞臺(tái)像某標(biāo)志被叫停,真相來(lái)了…

火山詩(shī)話
2026-04-24 10:39:54
回顧陜西男子3次報(bào)警,民警拒不派警,致兩家四口被殺,法院判了

回顧陜西男子3次報(bào)警,民警拒不派警,致兩家四口被殺,法院判了

談史論天地
2026-04-25 13:10:12
2025年中國(guó)私人對(duì)烏克蘭捐款位列全球第四

2025年中國(guó)私人對(duì)烏克蘭捐款位列全球第四

劉耘博士
2026-04-25 10:25:41
女子用飲料把男子手中煙給澆滅,得知要被拘留后立馬選擇和解

女子用飲料把男子手中煙給澆滅,得知要被拘留后立馬選擇和解

映射生活的身影
2026-04-25 15:40:32
48小時(shí)內(nèi),美日都打算派高層訪華,特朗普說(shuō):我不生中國(guó)氣

48小時(shí)內(nèi),美日都打算派高層訪華,特朗普說(shuō):我不生中國(guó)氣

一口娛樂(lè)
2026-04-25 17:37:52
快訊!特朗普提出組建五國(guó)集團(tuán)!

快訊!特朗普提出組建五國(guó)集團(tuán)!

達(dá)文西看世界
2026-04-25 11:34:00
齊達(dá)內(nèi)坦言:皇馬王朝靠C羅支撐!但梅西的高度,C羅永遠(yuǎn)追不上

齊達(dá)內(nèi)坦言:皇馬王朝靠C羅支撐!但梅西的高度,C羅永遠(yuǎn)追不上

體育閑話說(shuō)
2026-04-25 18:27:16
世錦賽戰(zhàn)報(bào):再爆大冷,世界第2慘敗出局,8強(qiáng)決出2席!羅伯遜4-1

世錦賽戰(zhàn)報(bào):再爆大冷,世界第2慘敗出局,8強(qiáng)決出2席!羅伯遜4-1

求球不落諦
2026-04-25 19:43:42
千年難遇的美人,太漂亮了,沒(méi)有一點(diǎn)毛病,太完美了

千年難遇的美人,太漂亮了,沒(méi)有一點(diǎn)毛病,太完美了

情感大頭說(shuō)說(shuō)
2026-04-24 12:46:24
火箭隊(duì)記開(kāi)噴杜蘭特未現(xiàn)身場(chǎng)邊:他可能放棄火箭了

火箭隊(duì)記開(kāi)噴杜蘭特未現(xiàn)身場(chǎng)邊:他可能放棄火箭了

體壇周報(bào)
2026-04-25 15:38:11
5月1日起全國(guó)嚴(yán)查!以前的“小事”現(xiàn)在可能坐牢,抓緊了解一下!

5月1日起全國(guó)嚴(yán)查!以前的“小事”現(xiàn)在可能坐牢,抓緊了解一下!

細(xì)說(shuō)職場(chǎng)
2026-04-25 17:42:02
廣場(chǎng)舞噪音亂入!深圳一演唱會(huì)現(xiàn)場(chǎng)遭觀眾吐槽,官方回應(yīng)

廣場(chǎng)舞噪音亂入!深圳一演唱會(huì)現(xiàn)場(chǎng)遭觀眾吐槽,官方回應(yīng)

南方都市報(bào)
2026-04-25 15:33:03
上千業(yè)主入住多年無(wú)法辦房產(chǎn)證背后:一開(kāi)發(fā)商多個(gè)樓盤涉違建、超建 住建局:已成立專班

上千業(yè)主入住多年無(wú)法辦房產(chǎn)證背后:一開(kāi)發(fā)商多個(gè)樓盤涉違建、超建 住建局:已成立專班

紅星新聞
2026-04-25 20:48:31
2026-04-25 21:08:49
每日經(jīng)濟(jì)新聞 incentive-icons
每日經(jīng)濟(jì)新聞
中國(guó)主流財(cái)經(jīng)全媒體平臺(tái)。
1550450文章數(shù) 2725519關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

男童7歲18斤被當(dāng)腦癱治多年 父母查其出生病歷發(fā)現(xiàn)問(wèn)題

頭條要聞

男童7歲18斤被當(dāng)腦癱治多年 父母查其出生病歷發(fā)現(xiàn)問(wèn)題

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂(lè)要聞

《我們的爸爸2》第一季完美爸爸翻車了

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒(méi)了

汽車要聞

2026款樂(lè)道L90亮相北京車展 樂(lè)道L80正式官宣

態(tài)度原創(chuàng)

家居
藝術(shù)
數(shù)碼
本地
公開(kāi)課

家居要聞

自然肌理 溫潤(rùn)美學(xué)

藝術(shù)要聞

302米!迪拜又拿下一項(xiàng)全球之最,通體是陶瓷!

數(shù)碼要聞

雷達(dá)感應(yīng)自動(dòng)開(kāi)關(guān)燈,Yeelight新品來(lái)了

本地新聞

云游中國(guó)|逛世界風(fēng)箏都 留學(xué)生探秘中國(guó)傳統(tǒng)文化

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版