国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek V4 發(fā)布后遇冷,開發(fā)者只聊Codex:便宜不是萬能藥

0
分享至

去年 DeepSeek V3 發(fā)布時,整個 AI 圈的氣氛,和今年完全不一樣。

那時候的討論非常熱烈,甚至有點像 ChatGPT 剛火爆全球,社交媒體上到處都是實測、跑分、成本分析,很多海外開發(fā)者第一次認真討論一家中國大模型公司。國內(nèi)和硅谷公司都意識到,原來除了 OpenAI、Anthropic、Google 之外,還有團隊能把模型做到這個水平。

更關鍵的是,它還便宜。DeepSeek 帶來的沖擊不只是技術層面,更低的訓練成本、更激進的工程優(yōu)化、更高的推理性價比,都讓整個行業(yè)重新思考大模型的競爭邏輯,很多人都將其視為真正的「Open AI」。

兩周前,DeepSeek V4 發(fā)布,行業(yè)當然非常關注,很多開發(fā)者第一時間跑測試、做對比,但整個市場的情緒明顯冷靜了很多。過去兩周,對普通用戶來說,該用豆包、ChatGPT 的繼續(xù)用,而對開發(fā)者群體來說,很多使用 Codex、Claude Code 的人,也并沒有因為 DeepSeek V4 更便宜就替換掉 GPT-5.5 或者 Claude 4.6/4.7。



圖片來源:YouTube

甚至很多開發(fā)者現(xiàn)在討論 AI 時,已經(jīng)不太提 GPT-5.5、Claude 4.6 或 DeepSeek V4 這些模型名字了,更多人張口閉口聊的是 Codex、Claude Code、OpenClaw、OpenCode、Hermes 等 Agent 框架。

事實上在過去一年,AI 行業(yè)的競爭重點,已經(jīng)從模型本身的能力逐漸轉向 AI 實際的產(chǎn)出價值。在這件事上,DeepSeek V4 還缺少一個屬于自己的 Codex。

DeepSeek V4 很好,但大家都不太看模型了

「我在 opencode 上試了同樣的操作,deepseek v4 pro high 模式下速度慢得驚人,同樣的任務在 codex 5.5 med 模式下只需 20 分鐘,而在 v4 pro 上卻要花 2 小時?!筙 用戶 Ayush Jaipuriar 最近談到。



圖片來源:X

需要先說明,DeepSeek V4 當然是一個強模型。包括代碼能力、推理能力、長上下文、多輪理解,V4 相比去年 V3 都有明顯提升,尤其是在中文場景、復雜邏輯推理以及長上下文等方面。與此同時,在國內(nèi)外一眾大模型的漲價潮中,V4 也是少數(shù)降價的大模型。

但問題在于,2026 年的大模型行業(yè),各種基準測試的成績越來越不能說明實際工作中 AI 的表現(xiàn)。去年每次新模型發(fā)布,社交媒體第一時間討論的還是在 MMLU 上超過誰、在 SWE-Bench 上刷新紀錄、在人類評測里又提升了多少等等。

不是說基準測試完全沒價值,但開發(fā)者顯然沒那么在意了。原因并不復雜,大家已經(jīng)見過太多「測試很強,但實際不好用」的模型,很多 benchmark 更像考試,而真實工作環(huán)境遠比考試復雜,實際的干活表現(xiàn)很多時候也比價格優(yōu)勢更重要。

半導體和 AI 分析機構 SemiAnalysis 最近還做了一次橫向測試,覆蓋 GPT-5.5、Opus 4.7 和 DeepSeek V4,指出 DeepSeek V4 是目前成本最低的頂尖閉源模型替代方案,但其能力尚未達到領先水平。

更何況,Token 成本的計算方式也不合理,更合理的其實是做好一個任務的成本。開發(fā)者、前媒體人王博源在 X 上就提到,用次頂級國產(chǎn)模型搞了半天都沒搞定的一個問題,用 Codex 一次就解決了。開發(fā)者、墨問西東創(chuàng)始人池建強也遇到 Claude Code 兩次解決不了,Codex 卻能一次搞定。



圖片來源:X

顯而易見的是,實際的模型成本就不能簡單對比「官方 Token 定價」,先不說結果,實際使用的 Token 量就不一致。而且 GPT-5.5 這次很重要的一點升級就是「效率」,能用更少的 Token 完成同樣的任務。

所以即便有一些方法可以在 Claude Code、Codex 上使用如 DeepSeek V4 等第三方模型,考慮到穩(wěn)定性、效果、時間等因素,絕大部分人都還是采用官方的默認模型,Claude Code 是 Claude 4.x,Codex 是 GPT-5.x。

尤其是在 Coding 場景,開發(fā)者真正每天面對的問題,是 AI 到底能不能參與完整的軟件工程流程。比如能不能理解整個項目結構,能不能持續(xù)修改十幾個文件,能不能自己調(diào)用 terminal,能不能自動修 bug,能不能在報錯后繼續(xù)嘗試,能不能長時間保持上下文穩(wěn)定。

這些東西,考驗的不只是「模型能力」,更需要一套完整的 AI 工作系統(tǒng)。開發(fā)者 Vladimir 在使用了 1443 萬 Token 的 DeepSeek V4 后表示,V4 的智能程度接近于 GPT-5.2/GPT-5.3,但最大的問題是經(jīng)常忽略 agents 文件,實際使用中必須強制執(zhí)行工具和 Harness 框架。



圖片來源:X

Claude Code、Codex 是真正完整的產(chǎn)品,但 DeepSeek V4 只是模型。SemiAnalysis 在測試報告中還強調(diào):「真正完整的產(chǎn)品是運行框架 + 模型。缺了其中任一個,你就有所欠缺。」

過去一年,OpenClaw(龍蝦)、Claude Code 和 Codex 這類 Agent 框架的存在感越來越強。很多開發(fā)者現(xiàn)在已經(jīng)不會說「我在用 Claude 4.6」,而是直接說「我在用 Claude Code」。同樣,很多人在討論 Codex 而非 GPT-5.5。

DeepSeek 還差一個自己的 Codex

很多人現(xiàn)在回頭看 ChatGPT 剛火的時候,會發(fā)現(xiàn)當時整個行業(yè)其實都在圍繞「對話」做產(chǎn)品。無論是 OpenAI、Anthropic 還是國內(nèi)廠商,本質(zhì)上都是讓模型更像人類聊天,重點是模型更聰明、更自然、更像真人。

但現(xiàn)在 AI 的重點,正在從「聊天」變成「工作」。這個變化看起來好像只是用途的變化,但背后連帶整個行業(yè)競爭邏輯也變了。以前模型公司最重要的任務,是把模型訓練得更聰明;現(xiàn)在越來越重要的問題,則是怎么讓 AI 真正完成任務。

這也是為什么最近一年,行業(yè)里開始大量出現(xiàn) Agent、Workflow、Context Engineering、Harness Engineering 這些詞。本質(zhì)上,它們都在解決同一個問題:怎么讓 AI 真正進入生產(chǎn)流程。

所以現(xiàn)在很多開發(fā)者評價 AI Coding 或者 Agent 產(chǎn)品時,模型作為系統(tǒng)「引擎」當然重要,但直接決定 AI 實際價值的關鍵,更在于一套系統(tǒng)工程。比如上下文管理,比如工具調(diào)用,比如長期記憶,比如任務拆解,比如錯誤恢復,比如多 Agent 協(xié)同。實際工作中,這些能力很多時候甚至比模型本身的優(yōu)勢更重要。



圖片來源:X

這也是為什么越來越多人開始說,AI Coding 的競爭已經(jīng)不只是 LLM 競爭,而是 AgentOS 競爭。

反過來看,也能在一定程度上理解 Claude Code、Codex 的成功。一方面是自家模型在能力上的領先,另一方面則是從底層模型到 Agent 框架的垂直整合,在真實工作環(huán)境中可以帶來更穩(wěn)定、高效的表現(xiàn)。尤其是長任務場景下,Claude Code 更像一個能持續(xù)自主代理工作的 AI 助手。

而 GPT-5.5 真正重要的地方,也不只是模型更強,還有背后 Codex 工作流越來越成熟。包括文件管理、工具調(diào)用、Agent 協(xié)同、任務拆解、上下文管理,這些能力的疊加,也讓實際 AI 表現(xiàn)出的能力和價值有了質(zhì)的變化。

OpenAI 前幾天也官宣表示,GPT-5.5 發(fā)布一周的 API 收入增長速度超過以往任何版本的兩倍多,而 Codex 在不到七天內(nèi)收入翻倍。而且現(xiàn)在來看,這種優(yōu)勢已經(jīng)從 AI Coding 溢出到了更多的 Agent 場景上。

關注 Anthropic、OpenAI 的朋友應該都能發(fā)現(xiàn),這段時間兩家公司都在將 Claude Code、Codex 擴展到更多場景下,包括連接更多第三方應用和平臺。



圖片來源:X

不僅如此,Claude Code 更多承接了 Claude Cowork 的辦公定位,最新推出了專為銀行和其他金融服務企業(yè)量身定制的 AI Agent,Codex 也在強調(diào)更多研究、文書、會計等工作,而不僅限于 Coding。

回頭再看 DeepSeek V4,雖然已經(jīng)在模型層面追上了行業(yè)的前沿變化和領先陣營,但還差一個自己的 Codex。事實上,這種呼聲已經(jīng)不小了,還有人在 Github 上開源了基于 DeepSeek V4 開發(fā)的終端 Coding Agent——DeepSeek TUI,支持 Skill 以及大量 Agent 框架上的常見功能。

但這畢竟還是第三方開發(fā)者的作品,對于 DeepSeek V4 的理解很難比擬官方團隊,不太可能充分發(fā)揮 V4 的垂直整合優(yōu)勢。最好的期待是,借由 DeepSeek TUI 的反饋和呼聲,DeepSeek 官方能夠下場打造自己的開源 Agent 框架,自己的 Codex。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
3-1爆冷羅馬尼亞!梁靖崑輸球原因曝光 王楚欽雙殺定軍心 劉國正點評不留情面

3-1爆冷羅馬尼亞!梁靖崑輸球原因曝光 王楚欽雙殺定軍心 劉國正點評不留情面

好乒乓
2026-05-06 23:40:33
新款不知火舞性感手辦推出!前凸后翹難以抵擋!

新款不知火舞性感手辦推出!前凸后翹難以抵擋!

游民星空
2026-05-03 23:45:02
FIFA急瘋了!除了中國,還有這么多國家不給世界杯買單了

FIFA急瘋了!除了中國,還有這么多國家不給世界杯買單了

泠泠說史
2026-05-05 19:53:46
白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
王晶曝陳百強真正死因,64歲何超瓊顏面盡失

王晶曝陳百強真正死因,64歲何超瓊顏面盡失

君笙的拂兮
2026-03-22 03:44:36
快訊!菲律賓傳來消息

快訊!菲律賓傳來消息

果媽聊娛樂
2026-05-06 16:30:15
男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

國創(chuàng)漫話
2026-04-19 15:57:41
她是吳宜澤姐姐,血脈壓制從小揪弟弟耳朵,長得漂亮是機車愛好者

她是吳宜澤姐姐,血脈壓制從小揪弟弟耳朵,長得漂亮是機車愛好者

以茶帶書
2026-05-05 16:57:12
8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

小莜讀史
2026-05-04 20:33:26
開門黑!U17亞洲杯首輪:中國87分鐘被印尼絕殺 鄺兆鐳謝晉未登場

開門黑!U17亞洲杯首輪:中國87分鐘被印尼絕殺 鄺兆鐳謝晉未登場

新英體育
2026-05-06 10:29:27
謝娜演唱會林志穎助陣,可惜他又矮又胖,皮膚黑肚子大,有點滑稽

謝娜演唱會林志穎助陣,可惜他又矮又胖,皮膚黑肚子大,有點滑稽

小娛樂悠悠
2026-05-06 07:20:02
5.6世乒賽:松島輝空爆冷門科,張本智和力挽狂瀾連拿2分

5.6世乒賽:松島輝空爆冷門科,張本智和力挽狂瀾連拿2分

鏗鏘格斗
2026-05-07 01:33:15
“自由計劃”啟動僅1天被叫停!80余國上千艘船仍被困 魯比奧:“史詩怒火”結束

“自由計劃”啟動僅1天被叫停!80余國上千艘船仍被困 魯比奧:“史詩怒火”結束

紅星新聞
2026-05-06 16:20:13
嫁富二代明星后,40歲再懷三胎,豪宅豪車生活

嫁富二代明星后,40歲再懷三胎,豪宅豪車生活

陶尋愛說
2026-04-12 21:58:52
阿森納2.90賠率登頂歐冠頭號熱門,拜仁巴黎誰上誰跪!

阿森納2.90賠率登頂歐冠頭號熱門,拜仁巴黎誰上誰跪!

易象君
2026-05-06 16:56:55
國際油價暴跌11%,汽柴油預漲0.42元/升后,漲幅或顯著“縮水”!

國際油價暴跌11%,汽柴油預漲0.42元/升后,漲幅或顯著“縮水”!

豬友巴巴
2026-05-06 19:47:59
50歲查理茲·塞隆自曝不婚原因:睡小鮮肉太爽了!

50歲查理茲·塞隆自曝不婚原因:睡小鮮肉太爽了!

阿廢冷眼觀察所
2026-05-05 14:57:32
06年我把臥鋪票讓給孕婦,自己站了一宿,下車前她遞給我一張紙條

06年我把臥鋪票讓給孕婦,自己站了一宿,下車前她遞給我一張紙條

溫情郵局
2026-01-27 10:14:26
三星旗艦回音壁打骨折,這價格能沖嗎

三星旗艦回音壁打骨折,這價格能沖嗎

心事寄山海
2026-05-07 00:36:58
伊朗外長訪華時間差背后的荒誕戲碼

伊朗外長訪華時間差背后的荒誕戲碼

小眼睛小世界
2026-05-06 08:54:06
2026-05-07 02:16:49
雷科技 incentive-icons
雷科技
專注AI硬科技
37006文章數(shù) 812074關注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

特朗普:伊朗可能將其高濃縮鈾運往美國

頭條要聞

特朗普:伊朗可能將其高濃縮鈾運往美國

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

謝娜演唱會暗藏驚喜 何炅瞞天過?,F(xiàn)身

財經(jīng)要聞

估值450億美元 大基金被曝將投資DeepSeek

汽車要聞

領克10/領克10+ 無論能源形式 領克都要快樂

態(tài)度原創(chuàng)

房產(chǎn)
親子
健康
手機
公開課

房產(chǎn)要聞

遙遙領先!這個澄邁頂流紅盤,憑什么持續(xù)霸榜

親子要聞

開車的小孩子最帥了

干細胞治燒燙傷面臨這些“瓶頸”

手機要聞

“iPhone Ultra”或將成為業(yè)內(nèi)最易維修的折疊屏手機

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版