国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

貼臉對(duì)打Opus 4.5!最新Codex自己寫(xiě)自己,網(wǎng)友實(shí)測(cè)“放手”8小時(shí)不崩

0
分享至


作者 | 木子

OpenAI 和 Anthropic,這回真是貼臉對(duì)打。

Claude Opus 4.6 發(fā)布還不到半小時(shí),GPT-5.3-Codex 直接上線,沒(méi)有鋪墊,沒(méi)有預(yù)熱。

這不是小修小補(bǔ),而是 OpenAI 目前最強(qiáng)的Agent 化編程模型。


對(duì)此,網(wǎng)友又搬出了一張經(jīng)典的圖:


有意思的是,OpenAI 自己承認(rèn):Codex 團(tuán)隊(duì)在開(kāi)發(fā) GPT-5.3 的過(guò)程中,使用早期版本,來(lái)調(diào)試自己的訓(xùn)練、管理自己部署、診斷測(cè)試結(jié)果和評(píng)估——簡(jiǎn)而言之,就是AI 自己參與開(kāi)發(fā)了自己。


如果說(shuō)過(guò)去的 Codex 更像一個(gè)高效的編碼助手,那 GPT-5.3-Codex,可謂“能在電腦上完成幾乎全部專業(yè)工作”的通用 Agent。

有多通用?——它不只是寫(xiě)代碼,還能長(zhǎng)期運(yùn)行任務(wù)、調(diào)用工具、操作終端、管理部署流程;也就是說(shuō),從研發(fā)到上線,幾乎整條鏈路都能自己接住。

用 OpenAI 聯(lián)創(chuàng)兼總裁 Greg Brockman 的話來(lái)說(shuō),就是軟件開(kāi)發(fā)正在經(jīng)歷一次復(fù)興,而 Agent 成為了“第一入口”。

他們定了一個(gè)挺激進(jìn)的目標(biāo):對(duì)任何技術(shù)任務(wù),人類第一反應(yīng)應(yīng)該是“和 Agent 交互”,而不是打開(kāi)編輯器或終端。


奪多項(xiàng) SOTA,網(wǎng)友實(shí)測(cè)長(zhǎng)聯(lián)路

穩(wěn)定性超過(guò) Opus 4.5

那么,GPT-5.3-Codex 到底好用嗎,有多好用?

先拿最直觀的Benchmark 跑分說(shuō)話。

最明顯變化,是它在終端環(huán)境的實(shí)際執(zhí)行能力變強(qiáng)了。在 Terminal-Bench 2.0 上,GPT-5.3-Codex 拿到77.3%,相比 GPT-5.2-Codex 直接抬高了將近 13 個(gè)百分點(diǎn)。


Terminal-Bench 2.0 測(cè)的不是“會(huì)不會(huì)寫(xiě)代碼”,而是專門(mén)衡量Agent 能否真的在終端環(huán)境完成真實(shí)工程任務(wù):敲命令、調(diào)工具、多步驟執(zhí)行、出錯(cuò)再修。

換句話說(shuō),這個(gè)指標(biāo)考的是工程現(xiàn)場(chǎng)表現(xiàn),而不是像 SWE-Bench 那樣的單純刷題表現(xiàn)。

有意思的是,Claude Opus 4.6 也跑了 Terminal-Bench 2.0,成績(jī)是 65.4%,GPT-5.3-Codex 的得分比它高出了 12%。

除此之外,GPT-5.3-Codex 的提升主要還有:

  • 計(jì)算機(jī)操作能力,翻倍級(jí)提升。它在 OSWorld 得分 64.7%,而上一代 GPT-5.2-Codex 得分才 38.2%。

  • 大家現(xiàn)在很關(guān)心的網(wǎng)絡(luò)安全能力,它在 Cybersecurity CTF 得分 77.6%,比上一代 GPT-5.2-Codex 提升了約 10%。

  • 輸出準(zhǔn)確率上,GPT-5.3-Codex 對(duì)于不同輸出 token 數(shù)量,準(zhǔn)確率始終高于 GPT-5.2-Codex 和 GPT-5.2


有網(wǎng)友問(wèn) GPT-5.3-Codex 和 Claude Code 誰(shuí)更好用,Gork 是這樣的回答的(Doge):


一位叫 Matt Shumer 的小哥(下文簡(jiǎn)稱 Matt 哥)也迅速親測(cè)了一把 GPT-5.3-Codex,他也是 Github for prompts 的創(chuàng)建者。

Matt 哥看起來(lái)對(duì)測(cè)評(píng)結(jié)果還挺滿意的,他甚至還給這篇 Blog 起了個(gè)霸氣的標(biāo)題:《完全自主時(shí)代已到來(lái)》。

他在 Blog 中興奮地寫(xiě)到:這是他第一次敢把任務(wù)丟給模型,然后他真的走開(kāi)幾個(gè)小時(shí)(甚至 8+ 小時(shí)),模型都不會(huì)中途崩潰、漂移或降智。


Matt 哥指出,GPT-5.3-Codex 不只是寫(xiě)代碼,它還會(huì)自己補(bǔ)全模糊信息、自己做架構(gòu)判斷、自己修 Bug、自己部署、自己看日志,然后一直改到測(cè)試全綠。只要給它清晰的驗(yàn)證標(biāo)準(zhǔn),它可以連續(xù)跑幾個(gè)小時(shí)都不跑偏。

而讓他最欣喜的,不是模型“更聰明”,而是判斷力:當(dāng)指令有歧義時(shí),這個(gè) AI 模型選的路徑,往往就是他本人也會(huì)選的那條,而不是那種看起來(lái)最快、但后患無(wú)窮的“捷徑”。

你只要把 pass/fail 講清楚,它就能一直迭代、一直修,直到測(cè)試全綠才停。另外,你告訴它怎么判定對(duì)錯(cuò),講得越明確,它就越能自己閉環(huán),不需要人在中途不停糾偏。

而且它是真能把閉環(huán)跑完整:改代碼、push、部署、打開(kāi)線上鏈接、tail 日志——哪里出錯(cuò)就繼續(xù)修到能用為止。

Matt 哥舉了個(gè)例子,他給了 Railway CLI 這類部署工具的權(quán)限,讓模型自己把“上線”這一步做完,然后用線上反饋繼續(xù)修,直到真的可用。

除此之外,GPT-5.3-Codex 還挺會(huì)利用等待時(shí)間:命令在跑著,它就去補(bǔ)文檔、補(bǔ)上下文、順手修點(diǎn)邊角問(wèn)題,但又不會(huì)亂改一堆你沒(méi)讓它碰的東西。

也就是說(shuō),這個(gè)模型解決了跟多人在用 Agent 去 Vibe Coding 時(shí)的“心腹大患”:它非?!岸执纭?,會(huì)做有幫助的事,但不越界、不亂改。

Matt 哥指出,關(guān)于長(zhǎng)鏈路任務(wù)穩(wěn)定性,GPT-5.3-Codex 的表現(xiàn)明顯好于 Opus 4.5。雖然它比 Opus 4.5 慢,但也更穩(wěn)。

另外,多 Agent 也終于不再像聊天表演了:Matt 哥認(rèn)為,GPT-5.3-Codex 真的能把任務(wù)切成幾個(gè)并行工作流,每個(gè) Agent 各盯一塊,整體推進(jìn)更快、也更不容易漏東西。

不過(guò),GPT-5.3-Codex 的缺點(diǎn),或者說(shuō)為了“穩(wěn)”而付出的代價(jià),也很明顯:它真的慢。而且過(guò)程播報(bào)偶爾會(huì)斷掉、更不適合拿來(lái)設(shè)計(jì) prompt/agent 架構(gòu)。

但如果你要的是“別出錯(cuò)、別跑偏、別讓我盯著”,那終于像那么回事了。更確切地說(shuō):它不一定是“最好玩”的那種模型,但在“復(fù)雜、長(zhǎng)時(shí)間、約束多、最好一次做對(duì)”的活上,它能讓使用者足夠安心。

OpenAI 總裁:

Agent正重構(gòu)軟件開(kāi)發(fā)

前文提到,OpenAI 聯(lián)合創(chuàng)始人兼總裁 Greg Brockman 發(fā)了一條帖子,說(shuō)軟件開(kāi)發(fā)正在經(jīng)歷一次“復(fù)興”,而 Agent 正在變成工程師的“第一入口”。

在他看來(lái),像 GPT-5.3-Codex 這樣的模型,已經(jīng)強(qiáng)到可以在長(zhǎng)時(shí)間、復(fù)雜約束下,獨(dú)立把一整條工程鏈路跑完:從寫(xiě)代碼到調(diào)試、部署,再到持續(xù)迭代。

當(dāng)模型能力已經(jīng)到這個(gè)程度,問(wèn)題就不再只是“要不要用”,而是公司是否準(zhǔn)備好把流程、代碼結(jié)構(gòu)甚至團(tuán)隊(duì)協(xié)作方式一起改掉。

這條帖子更像是一份內(nèi)部轉(zhuǎn)型說(shuō)明書(shū),里面講的不只是模型變強(qiáng)了,而是當(dāng)默認(rèn)入口變成 Agent 之后,工程組織該怎么自處。完整內(nèi)容如下:

軟件開(kāi)發(fā)正在我們眼前經(jīng)歷一次復(fù)興。

如果你最近還沒(méi)有用這些工具,你很可能低估了自己錯(cuò)過(guò)了什么。自去年 12 月以來(lái),像 Codex 這樣的工具能力出現(xiàn)了階躍式提升。

昨天有幾位 OpenAI 的優(yōu)秀工程師告訴我,自 12 月以來(lái),他們的工作方式已經(jīng)發(fā)生了根本變化。此前,他們只能用 Codex 寫(xiě)單元測(cè)試;而現(xiàn)在,它幾乎寫(xiě)了全部代碼,還承擔(dān)了大量運(yùn)維和調(diào)試工作。并不是每個(gè)人都完成了這種轉(zhuǎn)變,但通常阻礙他們的并不是模型能力本身。

現(xiàn)在,每家公司都面臨同樣的機(jī)會(huì)。而要駕馭它,就像當(dāng)年面對(duì)云計(jì)算或互聯(lián)網(wǎng)一樣,需要認(rèn)真思考。這篇文章分享了 OpenAI 當(dāng)前如何將團(tuán)隊(duì)重構(gòu)為“Agent 化軟件開(kāi)發(fā)”的實(shí)踐。我們?nèi)栽趯W(xué)習(xí)和迭代,但這是我們目前的思路:

第一步,我們希望在 3 月 31 日前做到:

1)對(duì)于任何技術(shù)任務(wù),人類的第一選擇工具是與 Agent 交互,而不是打開(kāi)編輯器或終端。

2)人類默認(rèn)使用 Agent 的方式必須經(jīng)過(guò)明確的安全評(píng)估,同時(shí)足夠高效,使大多數(shù)工作流程無(wú)需額外審批。

為了實(shí)現(xiàn)這一目標(biāo),我們幾周前向團(tuán)隊(duì)提出了以下建議:

1、花時(shí)間真正去嘗試這些工具。很多人已經(jīng)在 Codex 5.2 上有了驚艷體驗(yàn),但也有不少人因?yàn)槊β颠€沒(méi)嘗試,或者陷入“它真的能做 X 嗎”的懷疑,而不是直接試一試。

  • 為團(tuán)隊(duì)指定一名“Agent 負(fù)責(zé)人”,專門(mén)思考如何把 Agent 融入團(tuán)隊(duì)工作流。

  • 在內(nèi)部渠道分享經(jīng)驗(yàn)和問(wèn)題。

  • 舉辦一次公司范圍內(nèi)的 Codex Hackathon。

2、創(chuàng)建 skills 和 AGENTS.md 文件。

  • 為每個(gè)項(xiàng)目維護(hù)一個(gè) AGENTS.md,當(dāng) Agent 出錯(cuò)或卡住時(shí)及時(shí)更新。

  • 把你讓 Codex 執(zhí)行的能力抽象為 skills,并提交到共享倉(cāng)庫(kù)。

3、盤(pán)點(diǎn)并開(kāi)放內(nèi)部工具。

  • 列出團(tuán)隊(duì)依賴的工具,并確保有人負(fù)責(zé)將其改造成 Agent 可訪問(wèn)(例如提供 CLI 或 MCP Server 接口)。

4、讓代碼庫(kù)結(jié)構(gòu)“Agent 優(yōu)先”。

  • 寫(xiě)運(yùn)行快速的測(cè)試。

  • 構(gòu)建高質(zhì)量的組件接口。

5、拒絕“垃圾代碼”。

  • 大規(guī)模管理 AI 生成代碼是一個(gè)新問(wèn)題,需要新的流程與規(guī)范。

  • 確保每一段合并代碼都有明確的人工負(fù)責(zé)人。

  • 審查標(biāo)準(zhǔn)至少與人類寫(xiě)的代碼一樣嚴(yán)格。

6、建設(shè)基礎(chǔ)設(shè)施。

  • 不僅要記錄最終提交的代碼,還要記錄 Agent 的執(zhí)行軌跡。

  • 建立可觀測(cè)性系統(tǒng)與統(tǒng)一工具管理機(jī)制。

https://openai.com/index/introducing-gpt-5-3-codex/

https://x.com/OpenAI/status/2019474152743223477

https://x.com/gdb/status/2019566641491963946

https://shumer.dev/gpt53-codex-review

聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

InfoQ 2026 全年會(huì)議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開(kāi)發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn),探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),搶占 2026 智能升級(jí)發(fā)展先機(jī)!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
烏克蘭嘗試成為美國(guó)盟友,俄羅斯向伊朗提供情報(bào)

烏克蘭嘗試成為美國(guó)盟友,俄羅斯向伊朗提供情報(bào)

一種觀點(diǎn)
2026-03-07 11:53:21
重要信息只說(shuō)了60%?比亞迪閃充的殺傷力,這次比華為大

重要信息只說(shuō)了60%?比亞迪閃充的殺傷力,這次比華為大

路咖汽車
2026-03-06 10:15:12
美伊打了足足6天,朝鮮突然發(fā)射巡航導(dǎo)彈,特朗普收到一封挑戰(zhàn)書(shū)

美伊打了足足6天,朝鮮突然發(fā)射巡航導(dǎo)彈,特朗普收到一封挑戰(zhàn)書(shū)

軍機(jī)Talk
2026-03-05 18:22:21
魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

靜若梨花
2026-03-06 00:05:09
樂(lè)道月銷量不到3000臺(tái),L90怎么也熄火了?

樂(lè)道月銷量不到3000臺(tái),L90怎么也熄火了?

《新車新技術(shù)》
2026-03-06 14:02:15
央視緊急揭露:全是假貨!別再往家里搬了,很多人天天在用!

央視緊急揭露:全是假貨!別再往家里搬了,很多人天天在用!

古事尋蹤記
2026-03-07 07:07:35
撿漏時(shí)刻!蘋(píng)果15款產(chǎn)品停產(chǎn),第三方平臺(tái)已大幅降價(jià)

撿漏時(shí)刻!蘋(píng)果15款產(chǎn)品停產(chǎn),第三方平臺(tái)已大幅降價(jià)

環(huán)球網(wǎng)資訊
2026-03-07 11:23:32
激戰(zhàn)7天伊朗殺紅了眼,神秘軍隊(duì)攜帶中國(guó)武器入場(chǎng),特朗普失算了

激戰(zhàn)7天伊朗殺紅了眼,神秘軍隊(duì)攜帶中國(guó)武器入場(chǎng),特朗普失算了

起喜電影
2026-03-06 17:21:47
俄國(guó)向伊朗提供美軍坐標(biāo)!戰(zhàn)略信號(hào)還是象征性支援?

俄國(guó)向伊朗提供美軍坐標(biāo)!戰(zhàn)略信號(hào)還是象征性支援?

咣當(dāng)?shù)厍?/span>
2026-03-07 11:55:08
陳昌浩回國(guó)后默默無(wú)聞,前妻任副部長(zhǎng),兒子卻是萬(wàn)人敬仰的大人物

陳昌浩回國(guó)后默默無(wú)聞,前妻任副部長(zhǎng),兒子卻是萬(wàn)人敬仰的大人物

比利
2026-03-04 10:59:11
我想要老板娘不打碼的圖片,我該怎么說(shuō)?

我想要老板娘不打碼的圖片,我該怎么說(shuō)?

太急張三瘋
2026-03-07 10:26:24
中國(guó)貨船通過(guò)霍爾木茲海峽,伊朗:僅針對(duì)美以歐…

中國(guó)貨船通過(guò)霍爾木茲海峽,伊朗:僅針對(duì)美以歐…

觀察者網(wǎng)
2026-03-05 18:05:08
賭徒的結(jié)局真的是一無(wú)所有嗎 網(wǎng)友講述百億老板到騙他300萬(wàn)過(guò)程

賭徒的結(jié)局真的是一無(wú)所有嗎 網(wǎng)友講述百億老板到騙他300萬(wàn)過(guò)程

侃神評(píng)故事
2026-03-07 07:15:03
F1澳大利亞三練:拉塞爾最快,安東內(nèi)利嚴(yán)重碰撞,比賽兩度紅旗

F1澳大利亞三練:拉塞爾最快,安東內(nèi)利嚴(yán)重碰撞,比賽兩度紅旗

懂球帝
2026-03-07 11:03:08
新娘臨時(shí)要10萬(wàn)下車費(fèi),新郎去取錢(qián)卻未歸,新娘趕到婆家瞬間淚目

新娘臨時(shí)要10萬(wàn)下車費(fèi),新郎去取錢(qián)卻未歸,新娘趕到婆家瞬間淚目

千秋歷史
2026-02-02 20:23:42
看了鴇鳥(niǎo)怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

看了鴇鳥(niǎo)怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

米果說(shuō)識(shí)
2026-03-06 22:02:30
隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

側(cè)身凌空斬
2026-03-07 06:34:39
伊朗導(dǎo)彈千里獵殺,美驅(qū)逐艦燃起大火?特朗普一句話震動(dòng)全球

伊朗導(dǎo)彈千里獵殺,美驅(qū)逐艦燃起大火?特朗普一句話震動(dòng)全球

東極妙嚴(yán)
2026-03-06 15:09:57
中美國(guó)運(yùn)終局:這不是美伊戰(zhàn)爭(zhēng),是大國(guó)終極對(duì)決!

中美國(guó)運(yùn)終局:這不是美伊戰(zhàn)爭(zhēng),是大國(guó)終極對(duì)決!

音樂(lè)時(shí)光的娛樂(lè)
2026-03-06 19:21:13
馬筱梅的計(jì)劃落空,多失望啊,這潑天的流量被自己弄丟了!

馬筱梅的計(jì)劃落空,多失望啊,這潑天的流量被自己弄丟了!

小娛樂(lè)悠悠
2026-03-07 10:02:49
2026-03-07 12:32:49
AI前線 incentive-icons
AI前線
面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1345文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

中東局勢(shì)動(dòng)蕩 歐盟"女外長(zhǎng)"污蔑:中國(guó)趁機(jī)拿捏歐洲

頭條要聞

中東局勢(shì)動(dòng)蕩 歐盟"女外長(zhǎng)"污蔑:中國(guó)趁機(jī)拿捏歐洲

體育要聞

塔圖姆歸來(lái):凱爾特人的春之綠

娛樂(lè)要聞

周杰倫田馥甄20年地下情 被扒得底朝天

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

手機(jī)
親子
家居
本地
公開(kāi)課

手機(jī)要聞

榮耀Magic V6折疊屏,6400萬(wàn)長(zhǎng)焦鏡頭有多強(qiáng)?

親子要聞

全國(guó)政協(xié)委員厲彥虎:太早學(xué)不該學(xué)的反而害了孩子

家居要聞

暖棕撞色 輕法奶油風(fēng)

本地新聞

食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版