網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

貼臉對(duì)打Opus 4.5！最新Codex自己寫(xiě)自己，網(wǎng)友實(shí)測(cè)“放手”8小時(shí)不崩

2026-02-06 15:25:16　來(lái)源: AI前線

北京舉報(bào)

分享至

作者｜木子

OpenAI 和 Anthropic，這回真是貼臉對(duì)打。

Claude Opus 4.6 發(fā)布還不到半小時(shí)，GPT-5.3-Codex 直接上線，沒(méi)有鋪墊，沒(méi)有預(yù)熱。

這不是小修小補(bǔ)，而是 OpenAI 目前最強(qiáng)的Agent 化編程模型。

對(duì)此，網(wǎng)友又搬出了一張經(jīng)典的圖：

有意思的是，OpenAI 自己承認(rèn)：Codex 團(tuán)隊(duì)在開(kāi)發(fā) GPT-5.3 的過(guò)程中，使用早期版本，來(lái)調(diào)試自己的訓(xùn)練、管理自己部署、診斷測(cè)試結(jié)果和評(píng)估——簡(jiǎn)而言之，就是AI 自己參與開(kāi)發(fā)了自己。

如果說(shuō)過(guò)去的 Codex 更像一個(gè)高效的編碼助手，那 GPT-5.3-Codex，可謂“能在電腦上完成幾乎全部專業(yè)工作”的通用 Agent。

有多通用？——它不只是寫(xiě)代碼，還能長(zhǎng)期運(yùn)行任務(wù)、調(diào)用工具、操作終端、管理部署流程；也就是說(shuō)，從研發(fā)到上線，幾乎整條鏈路都能自己接住。

用 OpenAI 聯(lián)創(chuàng)兼總裁 Greg Brockman 的話來(lái)說(shuō)，就是軟件開(kāi)發(fā)正在經(jīng)歷一次復(fù)興，而 Agent 成為了“第一入口”。

他們定了一個(gè)挺激進(jìn)的目標(biāo)：對(duì)任何技術(shù)任務(wù)，人類第一反應(yīng)應(yīng)該是“和 Agent 交互”，而不是打開(kāi)編輯器或終端。

奪多項(xiàng) SOTA，網(wǎng)友實(shí)測(cè)長(zhǎng)聯(lián)路

穩(wěn)定性超過(guò) Opus 4.5

那么，GPT-5.3-Codex 到底好用嗎，有多好用？

先拿最直觀的Benchmark 跑分說(shuō)話。

最明顯變化，是它在終端環(huán)境的實(shí)際執(zhí)行能力變強(qiáng)了。在 Terminal-Bench 2.0 上，GPT-5.3-Codex 拿到77.3%，相比 GPT-5.2-Codex 直接抬高了將近 13 個(gè)百分點(diǎn)。

Terminal-Bench 2.0 測(cè)的不是“會(huì)不會(huì)寫(xiě)代碼”，而是專門(mén)衡量Agent 能否真的在終端環(huán)境完成真實(shí)工程任務(wù)：敲命令、調(diào)工具、多步驟執(zhí)行、出錯(cuò)再修。

換句話說(shuō)，這個(gè)指標(biāo)考的是工程現(xiàn)場(chǎng)表現(xiàn)，而不是像 SWE-Bench 那樣的單純刷題表現(xiàn)。

有意思的是，Claude Opus 4.6 也跑了 Terminal-Bench 2.0，成績(jī)是 65.4%，GPT-5.3-Codex 的得分比它高出了 12%。

除此之外，GPT-5.3-Codex 的提升主要還有：

計(jì)算機(jī)操作能力，翻倍級(jí)提升。它在 OSWorld 得分 64.7%，而上一代 GPT-5.2-Codex 得分才 38.2%。
大家現(xiàn)在很關(guān)心的網(wǎng)絡(luò)安全能力，它在 Cybersecurity CTF 得分 77.6%，比上一代 GPT-5.2-Codex 提升了約 10%。
輸出準(zhǔn)確率上，GPT-5.3-Codex 對(duì)于不同輸出 token 數(shù)量，準(zhǔn)確率始終高于 GPT-5.2-Codex 和 GPT-5.2

有網(wǎng)友問(wèn) GPT-5.3-Codex 和 Claude Code 誰(shuí)更好用，Gork 是這樣的回答的（Doge）：

一位叫 Matt Shumer 的小哥（下文簡(jiǎn)稱 Matt 哥）也迅速親測(cè)了一把 GPT-5.3-Codex，他也是 Github for prompts 的創(chuàng)建者。

Matt 哥看起來(lái)對(duì)測(cè)評(píng)結(jié)果還挺滿意的，他甚至還給這篇 Blog 起了個(gè)霸氣的標(biāo)題：《完全自主時(shí)代已到來(lái)》。

他在 Blog 中興奮地寫(xiě)到：這是他第一次敢把任務(wù)丟給模型，然后他真的走開(kāi)幾個(gè)小時(shí)（甚至 8+ 小時(shí)），模型都不會(huì)中途崩潰、漂移或降智。

Matt 哥指出，GPT-5.3-Codex 不只是寫(xiě)代碼，它還會(huì)自己補(bǔ)全模糊信息、自己做架構(gòu)判斷、自己修 Bug、自己部署、自己看日志，然后一直改到測(cè)試全綠。只要給它清晰的驗(yàn)證標(biāo)準(zhǔn)，它可以連續(xù)跑幾個(gè)小時(shí)都不跑偏。

而讓他最欣喜的，不是模型“更聰明”，而是判斷力：當(dāng)指令有歧義時(shí)，這個(gè) AI 模型選的路徑，往往就是他本人也會(huì)選的那條，而不是那種看起來(lái)最快、但后患無(wú)窮的“捷徑”。

你只要把 pass/fail 講清楚，它就能一直迭代、一直修，直到測(cè)試全綠才停。另外，你告訴它怎么判定對(duì)錯(cuò)，講得越明確，它就越能自己閉環(huán)，不需要人在中途不停糾偏。

而且它是真能把閉環(huán)跑完整：改代碼、push、部署、打開(kāi)線上鏈接、tail 日志——哪里出錯(cuò)就繼續(xù)修到能用為止。

Matt 哥舉了個(gè)例子，他給了 Railway CLI 這類部署工具的權(quán)限，讓模型自己把“上線”這一步做完，然后用線上反饋繼續(xù)修，直到真的可用。

除此之外，GPT-5.3-Codex 還挺會(huì)利用等待時(shí)間：命令在跑著，它就去補(bǔ)文檔、補(bǔ)上下文、順手修點(diǎn)邊角問(wèn)題，但又不會(huì)亂改一堆你沒(méi)讓它碰的東西。

也就是說(shuō)，這個(gè)模型解決了跟多人在用 Agent 去 Vibe Coding 時(shí)的“心腹大患”：它非?！岸执纭?，會(huì)做有幫助的事，但不越界、不亂改。

Matt 哥指出，關(guān)于長(zhǎng)鏈路任務(wù)穩(wěn)定性，GPT-5.3-Codex 的表現(xiàn)明顯好于 Opus 4.5。雖然它比 Opus 4.5 慢，但也更穩(wěn)。

另外，多 Agent 也終于不再像聊天表演了：Matt 哥認(rèn)為，GPT-5.3-Codex 真的能把任務(wù)切成幾個(gè)并行工作流，每個(gè) Agent 各盯一塊，整體推進(jìn)更快、也更不容易漏東西。

不過(guò)，GPT-5.3-Codex 的缺點(diǎn)，或者說(shuō)為了“穩(wěn)”而付出的代價(jià)，也很明顯：它真的慢。而且過(guò)程播報(bào)偶爾會(huì)斷掉、更不適合拿來(lái)設(shè)計(jì) prompt/agent 架構(gòu)。

但如果你要的是“別出錯(cuò)、別跑偏、別讓我盯著”，那終于像那么回事了。更確切地說(shuō)：它不一定是“最好玩”的那種模型，但在“復(fù)雜、長(zhǎng)時(shí)間、約束多、最好一次做對(duì)”的活上，它能讓使用者足夠安心。

OpenAI 總裁：

Agent正重構(gòu)軟件開(kāi)發(fā)

前文提到，OpenAI 聯(lián)合創(chuàng)始人兼總裁 Greg Brockman 發(fā)了一條帖子，說(shuō)軟件開(kāi)發(fā)正在經(jīng)歷一次“復(fù)興”，而 Agent 正在變成工程師的“第一入口”。

在他看來(lái)，像 GPT-5.3-Codex 這樣的模型，已經(jīng)強(qiáng)到可以在長(zhǎng)時(shí)間、復(fù)雜約束下，獨(dú)立把一整條工程鏈路跑完：從寫(xiě)代碼到調(diào)試、部署，再到持續(xù)迭代。

當(dāng)模型能力已經(jīng)到這個(gè)程度，問(wèn)題就不再只是“要不要用”，而是公司是否準(zhǔn)備好把流程、代碼結(jié)構(gòu)甚至團(tuán)隊(duì)協(xié)作方式一起改掉。

這條帖子更像是一份內(nèi)部轉(zhuǎn)型說(shuō)明書(shū)，里面講的不只是模型變強(qiáng)了，而是當(dāng)默認(rèn)入口變成 Agent 之后，工程組織該怎么自處。完整內(nèi)容如下：

軟件開(kāi)發(fā)正在我們眼前經(jīng)歷一次復(fù)興。

如果你最近還沒(méi)有用這些工具，你很可能低估了自己錯(cuò)過(guò)了什么。自去年 12 月以來(lái)，像 Codex 這樣的工具能力出現(xiàn)了階躍式提升。

昨天有幾位 OpenAI 的優(yōu)秀工程師告訴我，自 12 月以來(lái)，他們的工作方式已經(jīng)發(fā)生了根本變化。此前，他們只能用 Codex 寫(xiě)單元測(cè)試；而現(xiàn)在，它幾乎寫(xiě)了全部代碼，還承擔(dān)了大量運(yùn)維和調(diào)試工作。并不是每個(gè)人都完成了這種轉(zhuǎn)變，但通常阻礙他們的并不是模型能力本身。

現(xiàn)在，每家公司都面臨同樣的機(jī)會(huì)。而要駕馭它，就像當(dāng)年面對(duì)云計(jì)算或互聯(lián)網(wǎng)一樣，需要認(rèn)真思考。這篇文章分享了 OpenAI 當(dāng)前如何將團(tuán)隊(duì)重構(gòu)為“Agent 化軟件開(kāi)發(fā)”的實(shí)踐。我們?nèi)栽趯W(xué)習(xí)和迭代，但這是我們目前的思路：

第一步，我們希望在 3 月 31 日前做到：

1）對(duì)于任何技術(shù)任務(wù)，人類的第一選擇工具是與 Agent 交互，而不是打開(kāi)編輯器或終端。

2）人類默認(rèn)使用 Agent 的方式必須經(jīng)過(guò)明確的安全評(píng)估，同時(shí)足夠高效，使大多數(shù)工作流程無(wú)需額外審批。

為了實(shí)現(xiàn)這一目標(biāo)，我們幾周前向團(tuán)隊(duì)提出了以下建議：

1、花時(shí)間真正去嘗試這些工具。很多人已經(jīng)在 Codex 5.2 上有了驚艷體驗(yàn)，但也有不少人因?yàn)槊β颠€沒(méi)嘗試，或者陷入“它真的能做 X 嗎”的懷疑，而不是直接試一試。

為團(tuán)隊(duì)指定一名“Agent 負(fù)責(zé)人”，專門(mén)思考如何把 Agent 融入團(tuán)隊(duì)工作流。
在內(nèi)部渠道分享經(jīng)驗(yàn)和問(wèn)題。
舉辦一次公司范圍內(nèi)的 Codex Hackathon。

2、創(chuàng)建 skills 和 AGENTS.md 文件。

為每個(gè)項(xiàng)目維護(hù)一個(gè) AGENTS.md，當(dāng) Agent 出錯(cuò)或卡住時(shí)及時(shí)更新。
把你讓 Codex 執(zhí)行的能力抽象為 skills，并提交到共享倉(cāng)庫(kù)。

3、盤(pán)點(diǎn)并開(kāi)放內(nèi)部工具。

列出團(tuán)隊(duì)依賴的工具，并確保有人負(fù)責(zé)將其改造成 Agent 可訪問(wèn)（例如提供 CLI 或 MCP Server 接口）。

4、讓代碼庫(kù)結(jié)構(gòu)“Agent 優(yōu)先”。

寫(xiě)運(yùn)行快速的測(cè)試。
構(gòu)建高質(zhì)量的組件接口。

5、拒絕“垃圾代碼”。

大規(guī)模管理 AI 生成代碼是一個(gè)新問(wèn)題，需要新的流程與規(guī)范。
確保每一段合并代碼都有明確的人工負(fù)責(zé)人。
審查標(biāo)準(zhǔn)至少與人類寫(xiě)的代碼一樣嚴(yán)格。

6、建設(shè)基礎(chǔ)設(shè)施。

不僅要記錄最終提交的代碼，還要記錄 Agent 的執(zhí)行軌跡。
建立可觀測(cè)性系統(tǒng)與統(tǒng)一工具管理機(jī)制。

https://openai.com/index/introducing-gpt-5-3-codex/

https://x.com/OpenAI/status/2019474152743223477

https://x.com/gdb/status/2019566641491963946

https://shumer.dev/gpt53-codex-review

聲明：本文為 AI 前線整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

InfoQ 2026 全年會(huì)議規(guī)劃已上線！從 AI Infra 到 Agentic AI，從 AI 工程化到產(chǎn)業(yè)落地，從技術(shù)前沿到行業(yè)應(yīng)用，全面覆蓋 AI 與軟件開(kāi)發(fā)核心賽道！集結(jié)全球技術(shù)先鋒，拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn)，探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能，獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察，高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn)，搶占 2026 智能升級(jí)發(fā)展先機(jī)！

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.