DeepSeek V4 發(fā)布后遇冷，開發(fā)者只聊Codex：便宜不是萬能藥

2026-05-06 21:25:43　來源: 雷科技

廣東舉報

分享至

去年 DeepSeek V3 發(fā)布時，整個 AI 圈的氣氛，和今年完全不一樣。

那時候的討論非常熱烈，甚至有點像 ChatGPT 剛火爆全球，社交媒體上到處都是實測、跑分、成本分析，很多海外開發(fā)者第一次認(rèn)真討論一家中國大模型公司。國內(nèi)和硅谷公司都意識到，原來除了 OpenAI、Anthropic、Google 之外，還有團隊能把模型做到這個水平。

更關(guān)鍵的是，它還便宜。DeepSeek 帶來的沖擊不只是技術(shù)層面，更低的訓(xùn)練成本、更激進的工程優(yōu)化、更高的推理性價比，都讓整個行業(yè)重新思考大模型的競爭邏輯，很多人都將其視為真正的「Open AI」。

兩周前，DeepSeek V4 發(fā)布，行業(yè)當(dāng)然非常關(guān)注，很多開發(fā)者第一時間跑測試、做對比，但整個市場的情緒明顯冷靜了很多。過去兩周，對普通用戶來說，該用豆包、ChatGPT 的繼續(xù)用，而對開發(fā)者群體來說，很多使用 Codex、Claude Code 的人，也并沒有因為 DeepSeek V4 更便宜就替換掉 GPT-5.5 或者 Claude 4.6/4.7。

圖片來源：YouTube

甚至很多開發(fā)者現(xiàn)在討論 AI 時，已經(jīng)不太提 GPT-5.5、Claude 4.6 或 DeepSeek V4 這些模型名字了，更多人張口閉口聊的是 Codex、Claude Code、OpenClaw、OpenCode、Hermes 等 Agent 框架。

事實上在過去一年，AI 行業(yè)的競爭重點，已經(jīng)從模型本身的能力逐漸轉(zhuǎn)向 AI 實際的產(chǎn)出價值。在這件事上，DeepSeek V4 還缺少一個屬于自己的 Codex。

DeepSeek V4 很好，但大家都不太看模型了

「我在 opencode 上試了同樣的操作，deepseek v4 pro high 模式下速度慢得驚人，同樣的任務(wù)在 codex 5.5 med 模式下只需 20 分鐘，而在 v4 pro 上卻要花 2 小時。」X 用戶 Ayush Jaipuriar 最近談到。

圖片來源：X

需要先說明，DeepSeek V4 當(dāng)然是一個強模型。包括代碼能力、推理能力、長上下文、多輪理解，V4 相比去年 V3 都有明顯提升，尤其是在中文場景、復(fù)雜邏輯推理以及長上下文等方面。與此同時，在國內(nèi)外一眾大模型的漲價潮中，V4 也是少數(shù)降價的大模型。

但問題在于，2026 年的大模型行業(yè)，各種基準(zhǔn)測試的成績越來越不能說明實際工作中 AI 的表現(xiàn)。去年每次新模型發(fā)布，社交媒體第一時間討論的還是在 MMLU 上超過誰、在 SWE-Bench 上刷新紀(jì)錄、在人類評測里又提升了多少等等。

不是說基準(zhǔn)測試完全沒價值，但開發(fā)者顯然沒那么在意了。原因并不復(fù)雜，大家已經(jīng)見過太多「測試很強，但實際不好用」的模型，很多 benchmark 更像考試，而真實工作環(huán)境遠比考試復(fù)雜，實際的干活表現(xiàn)很多時候也比價格優(yōu)勢更重要。

半導(dǎo)體和 AI 分析機構(gòu) SemiAnalysis 最近還做了一次橫向測試，覆蓋 GPT-5.5、Opus 4.7 和 DeepSeek V4，指出 DeepSeek V4 是目前成本最低的頂尖閉源模型替代方案，但其能力尚未達到領(lǐng)先水平。

更何況，Token 成本的計算方式也不合理，更合理的其實是做好一個任務(wù)的成本。開發(fā)者、前媒體人王博源在 X 上就提到，用次頂級國產(chǎn)模型搞了半天都沒搞定的一個問題，用 Codex 一次就解決了。開發(fā)者、墨問西東創(chuàng)始人池建強也遇到 Claude Code 兩次解決不了，Codex 卻能一次搞定。

圖片來源：X

顯而易見的是，實際的模型成本就不能簡單對比「官方 Token 定價」，先不說結(jié)果，實際使用的 Token 量就不一致。而且 GPT-5.5 這次很重要的一點升級就是「效率」，能用更少的 Token 完成同樣的任務(wù)。

所以即便有一些方法可以在 Claude Code、Codex 上使用如 DeepSeek V4 等第三方模型，考慮到穩(wěn)定性、效果、時間等因素，絕大部分人都還是采用官方的默認(rèn)模型，Claude Code 是 Claude 4.x，Codex 是 GPT-5.x。

尤其是在 Coding 場景，開發(fā)者真正每天面對的問題，是 AI 到底能不能參與完整的軟件工程流程。比如能不能理解整個項目結(jié)構(gòu)，能不能持續(xù)修改十幾個文件，能不能自己調(diào)用 terminal，能不能自動修 bug，能不能在報錯后繼續(xù)嘗試，能不能長時間保持上下文穩(wěn)定。

這些東西，考驗的不只是「模型能力」，更需要一套完整的 AI 工作系統(tǒng)。開發(fā)者 Vladimir 在使用了 1443 萬 Token 的 DeepSeek V4 后表示，V4 的智能程度接近于 GPT-5.2/GPT-5.3，但最大的問題是經(jīng)常忽略 agents 文件，實際使用中必須強制執(zhí)行工具和 Harness 框架。

圖片來源：X

Claude Code、Codex 是真正完整的產(chǎn)品，但 DeepSeek V4 只是模型。SemiAnalysis 在測試報告中還強調(diào)：「真正完整的產(chǎn)品是運行框架 + 模型。缺了其中任一個，你就有所欠缺。」

過去一年，OpenClaw（龍蝦）、Claude Code 和 Codex 這類 Agent 框架的存在感越來越強。很多開發(fā)者現(xiàn)在已經(jīng)不會說「我在用 Claude 4.6」，而是直接說「我在用 Claude Code」。同樣，很多人在討論 Codex 而非 GPT-5.5。

DeepSeek 還差一個自己的 Codex

很多人現(xiàn)在回頭看 ChatGPT 剛火的時候，會發(fā)現(xiàn)當(dāng)時整個行業(yè)其實都在圍繞「對話」做產(chǎn)品。無論是 OpenAI、Anthropic 還是國內(nèi)廠商，本質(zhì)上都是讓模型更像人類聊天，重點是模型更聰明、更自然、更像真人。

但現(xiàn)在 AI 的重點，正在從「聊天」變成「工作」。這個變化看起來好像只是用途的變化，但背后連帶整個行業(yè)競爭邏輯也變了。以前模型公司最重要的任務(wù)，是把模型訓(xùn)練得更聰明；現(xiàn)在越來越重要的問題，則是怎么讓 AI 真正完成任務(wù)。

這也是為什么最近一年，行業(yè)里開始大量出現(xiàn) Agent、Workflow、Context Engineering、Harness Engineering 這些詞。本質(zhì)上，它們都在解決同一個問題：怎么讓 AI 真正進入生產(chǎn)流程。

所以現(xiàn)在很多開發(fā)者評價 AI Coding 或者 Agent 產(chǎn)品時，模型作為系統(tǒng)「引擎」當(dāng)然重要，但直接決定 AI 實際價值的關(guān)鍵，更在于一套系統(tǒng)工程。比如上下文管理，比如工具調(diào)用，比如長期記憶，比如任務(wù)拆解，比如錯誤恢復(fù)，比如多 Agent 協(xié)同。實際工作中，這些能力很多時候甚至比模型本身的優(yōu)勢更重要。

圖片來源：X

這也是為什么越來越多人開始說，AI Coding 的競爭已經(jīng)不只是 LLM 競爭，而是 AgentOS 競爭。

反過來看，也能在一定程度上理解 Claude Code、Codex 的成功。一方面是自家模型在能力上的領(lǐng)先，另一方面則是從底層模型到 Agent 框架的垂直整合，在真實工作環(huán)境中可以帶來更穩(wěn)定、高效的表現(xiàn)。尤其是長任務(wù)場景下，Claude Code 更像一個能持續(xù)自主代理工作的 AI 助手。

而 GPT-5.5 真正重要的地方，也不只是模型更強，還有背后 Codex 工作流越來越成熟。包括文件管理、工具調(diào)用、Agent 協(xié)同、任務(wù)拆解、上下文管理，這些能力的疊加，也讓實際 AI 表現(xiàn)出的能力和價值有了質(zhì)的變化。

OpenAI 前幾天也官宣表示，GPT-5.5 發(fā)布一周的 API 收入增長速度超過以往任何版本的兩倍多，而 Codex 在不到七天內(nèi)收入翻倍。而且現(xiàn)在來看，這種優(yōu)勢已經(jīng)從 AI Coding 溢出到了更多的 Agent 場景上。

關(guān)注 Anthropic、OpenAI 的朋友應(yīng)該都能發(fā)現(xiàn)，這段時間兩家公司都在將 Claude Code、Codex 擴展到更多場景下，包括連接更多第三方應(yīng)用和平臺。

圖片來源：X

不僅如此，Claude Code 更多承接了 Claude Cowork 的辦公定位，最新推出了專為銀行和其他金融服務(wù)企業(yè)量身定制的 AI Agent，Codex 也在強調(diào)更多研究、文書、會計等工作，而不僅限于 Coding。

回頭再看 DeepSeek V4，雖然已經(jīng)在模型層面追上了行業(yè)的前沿變化和領(lǐng)先陣營，但還差一個自己的 Codex。事實上，這種呼聲已經(jīng)不小了，還有人在 Github 上開源了基于 DeepSeek V4 開發(fā)的終端 Coding Agent——DeepSeek TUI，支持 Skill 以及大量 Agent 框架上的常見功能。

但這畢竟還是第三方開發(fā)者的作品，對于 DeepSeek V4 的理解很難比擬官方團隊，不太可能充分發(fā)揮 V4 的垂直整合優(yōu)勢。最好的期待是，借由 DeepSeek TUI 的反饋和呼聲，DeepSeek 官方能夠下場打造自己的開源 Agent 框架，自己的 Codex。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.