国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

實(shí)測在DeepSeek-V4上燒1000萬token,我發(fā)現(xiàn)了3個驚喜和1個意外

0
分享至


智東西
作者 陳駿達(dá)
編輯 心緣

智東西4月24日報(bào)道,今天,DeepSeek-V4開源并火速沖上Hugging Face模型榜首,號稱推理和智能體編程性能沖到開源模型第一、比肩先進(jìn)閉源模型。為了驗(yàn)證兩款模型的真實(shí)效果,我們進(jìn)行了多維度的深度體驗(yàn)。


▲DeepSeek-V4-Pro登頂Hugging Face熱榜第一(圖源:Hugging Face)

我們的這次實(shí)測累計(jì)消耗超過1000萬token??傮w來看,DeepSeek-V4系列,尤其是Pro版本,展現(xiàn)出強(qiáng)大的自主規(guī)劃與執(zhí)行能力;但在部分極限任務(wù)和輕量級場景中,也存在一些有趣的短板。以下是我們提煉出的核心體驗(yàn)要點(diǎn):

(1)智能體編程提升明顯,長程任務(wù)能力驚艷:DeepSeek-V4-Pro能夠連續(xù)自主編程60分鐘以上,無需人工干預(yù),完成復(fù)雜的數(shù)據(jù)庫設(shè)計(jì)和安卓模擬器開發(fā)等工程任務(wù),展現(xiàn)出強(qiáng)大的長程規(guī)劃、自我糾錯和工具調(diào)用能力。

(2)復(fù)雜推理有亮點(diǎn)也有短板:模型在海龜湯等邏輯題上表現(xiàn)出色,但在IMO數(shù)學(xué)難題和部分輕量級測試中陷入死循環(huán)或給出錯誤答案,推理穩(wěn)定性還有提升空間。

(3)輕量級任務(wù)表現(xiàn)意外翻車:簡單問題(如洗車店問題)上,Pro版有時(shí)反而因?yàn)椤斑^度思考”無法給出正確答案,而Flash版更為直接高效。

(4)價(jià)格有所上漲,但緩存機(jī)制降低部分成本:相比DeepSeek-V3.2,V4系列API價(jià)格上調(diào),但在長任務(wù)中借助緩存,總賬單的增長沒有API漲幅那么明顯。

以下是我們的完整實(shí)測:

一、智能體編程能力明顯提升,實(shí)測連續(xù)干活60分鐘無需干預(yù)

DeepSeek-V4的官方博客,尤其強(qiáng)調(diào)模型的Agentic Coding能力。這次實(shí)測中,我們讓DeepSeek-V4-Pro與Claude Code打配合,執(zhí)行了兩個較為復(fù)雜的工程任務(wù)。

任務(wù)1:連續(xù)編程60分鐘,打造完整記賬系統(tǒng)

在數(shù)據(jù)庫設(shè)計(jì)任務(wù)中,我們的提示詞并未給模型提供過多的約束,這考察了其自主規(guī)劃任務(wù)的能力

拿到任務(wù)后,DeepSeek-V4-Pro先是思考了一會兒,然后輸出了一個完整的數(shù)據(jù)庫設(shè)計(jì)方案,包含8個核心功能模塊和6張數(shù)據(jù)表,目標(biāo)是實(shí)現(xiàn)記賬、流水統(tǒng)計(jì)等功能。


此外,它還規(guī)劃了開發(fā)流程,除了打造每個具體組件之外,DeepSeek-V4-Pro也計(jì)劃在開發(fā)結(jié)束后自主進(jìn)行驗(yàn)證,并列出10項(xiàng)驗(yàn)證的清單,考慮得較為周到。

之后,我們就完全放手讓DeepSeek-V4-Pro自主執(zhí)行任務(wù),它連續(xù)編程了接近60分鐘,期間沒有出現(xiàn)中斷或者死循環(huán),也沒有遺漏關(guān)鍵步驟,完全按照此前的規(guī)劃執(zhí)行。

DeepSeek-V4-Pro的開發(fā)結(jié)果如下,從前端的角度來看,這一數(shù)據(jù)庫在美感層面稍有欠缺,但所有核心功能都運(yùn)轉(zhuǎn)正常。我們試著添加了一條數(shù)據(jù),沒有出現(xiàn)報(bào)錯信息。

在前端中,用戶可以直接完成各種自定義操作,比如新增分類,刪改數(shù)據(jù)等等。而此前我們體驗(yàn)的部分模型在這種任務(wù)上可能會把所有設(shè)置都寫死,這影響了后續(xù)的可擴(kuò)展性。


查看后端數(shù)據(jù)庫也可以發(fā)現(xiàn),我們在前端輸入的新數(shù)據(jù)可以正常同步到數(shù)據(jù)庫后臺,下圖最后兩行數(shù)據(jù),就是手動添加的。這證明前后端之間的數(shù)據(jù)交互接口與數(shù)據(jù)傳輸鏈路均處于正常、可用的狀態(tài)。


總體來看,在復(fù)雜數(shù)據(jù)庫開發(fā)這種綜合考察模型長程規(guī)劃能力、自我糾錯能力、長上下文能力和推理能力的任務(wù)上,DeepSeek-V4-Pro的表現(xiàn)可以說遠(yuǎn)遠(yuǎn)超過了DeepSeek-V3.2。

不過,需要注意的是,與此前DeepSeek的旗艦級模型相比,DeepSeek-V4-Pro的價(jià)格有一定幅度的上漲,跑完上述這一任務(wù)的token消耗量大概在20萬個左右(大部分為輸入token),換算為API賬單大概是5塊錢,由于緩存機(jī)制的介入,價(jià)格還算可以接受。

任務(wù)2:從零開始打造安卓模擬器,代碼、環(huán)境全程包辦

我們的下一個任務(wù)挑戰(zhàn)更大:讓DeepSeek-V4-Pro從零開始打造一個安卓模擬器。

這一任務(wù)的復(fù)雜程度似乎已經(jīng)超出DeepSeek-V4-Pro的知識范圍了,于是它決定開啟聯(lián)網(wǎng)搜索,查詢配套工具、參考架構(gòu)等等,進(jìn)行了18次工具調(diào)用。


在足足思考了11分鐘之后,DeepSeek-V4-Pro才開始動筆寫開發(fā)計(jì)劃,它還自我評價(jià)道:“很好,Plan Agent輸出了很全面的架構(gòu),我現(xiàn)在開始寫完整架構(gòu)?!贝藭r(shí),已經(jīng)燒了8000多個token。


不過這種token消耗并非浪費(fèi),通過更為全面的規(guī)劃,DeepSeek-V4-Pro讓我們原本極為簡單的提示詞變得更加體系化,有助于后續(xù)的開發(fā)。


最終,DeepSeek-V4-Pro的計(jì)劃是七步走完成開發(fā),包含框架搭建、圖像管理模塊設(shè)計(jì)、VNC顯示插件、完整GUI開發(fā)、APK安裝功能、打包和debug。


這一項(xiàng)目的規(guī)模確實(shí)有點(diǎn)大,DeepSeek-V4-Pro連續(xù)跑了50多分鐘才完成。


我把后續(xù)的調(diào)試和環(huán)境依賴安裝工作也交給了DeepSeek-V4-Pro。執(zhí)行過程中,DeepSeek-V4-Pro缺了什么資源就會調(diào)動搜索工具,直接搜索到對應(yīng)鏈接進(jìn)行下載,也能通過命令行幫我解壓、安裝相關(guān)環(huán)境,徹底解放雙手。


DeepSeek-V4-Pro又工作了20多分鐘,把活全部都干完了。不過,最后這一模擬器未能成功運(yùn)行,截至發(fā)稿,DeepSeek還在幫我debug。


二、實(shí)測復(fù)雜推理,被IMO難題打入死循環(huán)

除了智能體、編程能力之外,DeepSeek-V4在推理方面的提升也值得關(guān)注。

DeepSeek官方稱,DeepSeek-V4-Pro和DeepSeek-V4-Flash兩個模型的推理能力接近。在下方這幾道邏輯和推理題目中,我們便同時(shí)測試了兩個模型。

任務(wù)1:解答海龜湯,Pro反而比Flash要快?

我們向DeepSeek發(fā)送的題目如下。這種題目的考察難點(diǎn)主要不在“謎面有多復(fù)雜”,而在于模型如何突破常見的思維慣性。


先來看看DeepSeek-V4-Pro的解題過程。DeepSeek-V4-Pro用時(shí)33秒就便推理出正確答案,思考過程簡潔清晰。


DeepSeek-V4-Flash的推理速度反而更慢,耗時(shí)61秒,輸出的結(jié)果是正確的。DeepSeek-V4-Flash慢的原因是它的思維過程有些冗余,多了不少反復(fù)的確認(rèn)與自我質(zhì)疑。


任務(wù)2:實(shí)測IMO難題,F(xiàn)lash答錯、Pro死循環(huán)了

解答數(shù)學(xué)題也是DeepSeek的老傳統(tǒng)之一了。此次,DeepSeek稱V4-Pro的數(shù)學(xué)能力在測評中超過了所有已公開測評的開源模型,比肩世界頂級閉源模型。

我們拿去年IMO的題目考了考DeepSeek,關(guān)閉聯(lián)網(wǎng)開啟推理,讓模型完全靠自己解決問題。這張高糊的題目也考察了DeepSeek網(wǎng)頁服務(wù)中OCR的能力,我們檢查了下,識別結(jié)果都是正確的。


這道題目讓兩個模型都思考了很久很久,似乎陷入了無盡的循環(huán)。DeepSeek-V4-Flash最后給出答案,但是是錯誤的。DeepSeek-V4-Pro跑了10多分鐘,沒有明顯進(jìn)展,最后我們手動中斷了思考。


三、輕量級測試題集錦:洗車店問題竟意外難倒V4-Pro

上述案例都比較硬核,接下來我們看幾個輕松點(diǎn)的案例。

首先是大家喜聞樂見的洗車難題。我們讓DeepSeek-V4-Flash、DeepSeek-V4-Pro在關(guān)閉聯(lián)網(wǎng)和思考的模式下解答。

DeepSeek-V4-Flash給出了正確答案,它覺得這個問題太簡單了,語氣中滿是嘲諷。


DeepSeek-V4-Pro的思路則有些清奇,它建議我們把車推過去,認(rèn)為“這種方案對車最好,省去冷啟動磨損”,還補(bǔ)充道“推過去是愛車的極致表現(xiàn),直接開過去是最不劃算的方式?!?/p>

后來我們又給了DeepSeek-V4-Pro幾次機(jī)會,它給出正確答案的概率還是高一些,但偶爾還是會因?yàn)檫^度思考而把自己繞進(jìn)陷阱。


鵜鶘騎自行車的SVG,DeepSeek-V4-Flash就可以輕松拿下,結(jié)果基本完美:


像是網(wǎng)頁小游戲這樣的題目,DeepSeek-V4-Pro和DeepSeek-V4-Flash的表現(xiàn)其實(shí)都不太好,F(xiàn)lash打造的結(jié)果根本無法渲染,Pro打造的雖然渲染成功,但基本不可玩。


在這些“Toy Case”上,DeepSeek似乎沒有花太多精力進(jìn)行針對性的優(yōu)化。

結(jié)語:DeepSeek-V4,又一次定義開源模型的上限

DeepSeek-V4系列模型確實(shí)帶來了驚喜,尤其是在智能體編程方面,其長程規(guī)劃與執(zhí)行能力令人印象深刻。其基準(zhǔn)測試也基本回應(yīng)了AI圈對DeepSeek的期待,拿下了多項(xiàng)開源SOTA。

DeepSeek的開源不只是把模型權(quán)重開放出來,在某種意義上,也是將訓(xùn)練1.6T超大規(guī)模模型所需的算力、資金乃至工程經(jīng)驗(yàn)一并“開源”給了整個社區(qū)。這一選擇值得敬意。

可以預(yù)見,隨著后續(xù)迭代優(yōu)化,DeepSeek-V4有望持續(xù)進(jìn)化,成為開源AI生態(tài)中一個兼具性能與活力的基座模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
37歲把公司賣給馬云,套現(xiàn)300億全部用來造車,何小鵬究竟有多牛

37歲把公司賣給馬云,套現(xiàn)300億全部用來造車,何小鵬究竟有多牛

三農(nóng)老歷
2026-04-25 17:01:05
眼紅??!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

火山詩話
2026-04-23 07:11:53
中紀(jì)委最新通報(bào):伍浩被查!曾任國家發(fā)改委秘書長

中紀(jì)委最新通報(bào):伍浩被查!曾任國家發(fā)改委秘書長

看看新聞Knews
2026-04-25 18:16:03
上海一老人墜樓身亡后續(xù),80多歲,6樓有人想拉他夠不到

上海一老人墜樓身亡后續(xù),80多歲,6樓有人想拉他夠不到

九方魚論
2026-04-25 17:47:25
這才是宋美齡和繼子蔣經(jīng)國的一張真實(shí)合影,都是真人的容貌

這才是宋美齡和繼子蔣經(jīng)國的一張真實(shí)合影,都是真人的容貌

喜歡歷史的阿繁
2026-04-16 11:17:28
打起來了!伊朗不宣而戰(zhàn),白宮宣布撤僑,美航母再次出動

打起來了!伊朗不宣而戰(zhàn),白宮宣布撤僑,美航母再次出動

泠泠說史
2026-04-25 18:26:59
一個被防火墻攔截的故事:我們失去了什么

一個被防火墻攔截的故事:我們失去了什么

心事寄山海
2026-04-24 08:44:56
李詩灃湯杯狀態(tài)堪憂!韓國男隊(duì)被丹麥隊(duì)暴揍!

李詩灃湯杯狀態(tài)堪憂!韓國男隊(duì)被丹麥隊(duì)暴揍!

楊晨大神
2026-04-25 12:14:01
東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
單桿61分制勝!斯諾克12冠王11-8沖賽點(diǎn),囧哥或翻車,羅伯遜追平

單桿61分制勝!斯諾克12冠王11-8沖賽點(diǎn),囧哥或翻車,羅伯遜追平

劉姚堯的文字城堡
2026-04-25 18:23:06
美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

混沌錄
2026-04-25 16:42:06
徹底焊死了!

徹底焊死了!

安安說
2026-04-25 11:52:50
湖人頭號奇兵!斯馬特21+10+5斷兩數(shù)據(jù)全場最高 統(tǒng)治加時(shí)連場給力

湖人頭號奇兵!斯馬特21+10+5斷兩數(shù)據(jù)全場最高 統(tǒng)治加時(shí)連場給力

醉臥浮生
2026-04-25 11:14:52
做一次胃腸鏡能保幾年平安?消化科醫(yī)生說出大實(shí)話

做一次胃腸鏡能保幾年平安?消化科醫(yī)生說出大實(shí)話

荷蘭豆愛健康
2026-04-24 17:16:33
甲鈷胺該怎么用?很多人都用錯了!

甲鈷胺該怎么用?很多人都用錯了!

醫(yī)學(xué)界
2026-04-24 19:11:41
罵早了?大姐偷萬元幼犬后續(xù),更惡心的內(nèi)幕曝光:不止一次干這事

罵早了?大姐偷萬元幼犬后續(xù),更惡心的內(nèi)幕曝光:不止一次干這事

觀察鑒娛
2026-04-25 09:50:34
彭總在哈軍工用餐時(shí),一學(xué)員同坐,責(zé)問陳賡:他有什么資格坐這?

彭總在哈軍工用餐時(shí),一學(xué)員同坐,責(zé)問陳賡:他有什么資格坐這?

小莜讀史
2026-04-20 15:17:58
華晨宇撫仙湖演唱會延期,地址是否在生態(tài)保護(hù)“紅線”范圍內(nèi)? 湖長省級監(jiān)督電話回應(yīng)

華晨宇撫仙湖演唱會延期,地址是否在生態(tài)保護(hù)“紅線”范圍內(nèi)? 湖長省級監(jiān)督電話回應(yīng)

紅星新聞
2026-04-24 19:23:44
央視標(biāo)王爆料:我早知許家印要倒 他進(jìn)去因有人要背鍋 犯了一大忌

央視標(biāo)王爆料:我早知許家印要倒 他進(jìn)去因有人要背鍋 犯了一大忌

風(fēng)過鄉(xiāng)
2026-04-24 12:03:53
賀州滅門案:妹妹為錢殺害姐姐一家四口,落網(wǎng)后提出一個無恥請求

賀州滅門案:妹妹為錢殺害姐姐一家四口,落網(wǎng)后提出一個無恥請求

南書房
2026-04-24 21:25:03
2026-04-25 21:16:50
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11685文章數(shù) 117047關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

男童7歲18斤被當(dāng)腦癱治多年 父母查其出生病歷發(fā)現(xiàn)問題

頭條要聞

男童7歲18斤被當(dāng)腦癱治多年 父母查其出生病歷發(fā)現(xiàn)問題

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
手機(jī)
健康
公開課

藝術(shù)要聞

302米!迪拜又拿下一項(xiàng)全球之最,通體是陶瓷!

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!海口,開始瘋狂建學(xué)校!

手機(jī)要聞

iPhone18ProMax再爆料!厚度近 14mm,堪稱史上最厚蘋果手機(jī)!

干細(xì)胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版