国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)測(cè) GPT-5.3-Codex,OpenAI 史上第一個(gè)高危模型,連 API 都還不敢給我們

0
分享至

今天凌晨發(fā)布的 GPT-5.3-Codex 可以說(shuō)是 OpenAI 對(duì)這段時(shí)間來(lái),各種本地 Agent 爆火的一記重拳回?fù)?,?dāng)然主要是對(duì) Anthropic 的反擊。

配合 OpenAI 前幾天的發(fā)布的 Codex 桌面版應(yīng)用,Skill、Cowork、Claude Code,甚至是 Openclaw,這些熱門(mén)工具能實(shí)現(xiàn)的功能,現(xiàn)在通過(guò) Codex 的外殼 + GPT-5.3-Codex 模型能力,都能做到了。


▲ 在 Codex App 內(nèi)可以直接選擇 GPT-5.3-Codex 模型,也能選擇深度思考的強(qiáng)度

和之前介紹 Cowork 的能力一樣,我們也丟了一些類(lèi)似的任務(wù)讓 Codex 來(lái)完成,像是直接處理本地文件、各種格式轉(zhuǎn)換、調(diào)用不同的 Skills 組合能力、做 Word/PPT/Excel、下載視頻、開(kāi)發(fā) App……

GPT-5.3-Codex 的表現(xiàn)確實(shí)亮眼,相比較從頭開(kāi)始安裝 Claude Code,對(duì)新人用戶(hù)來(lái)說(shuō),現(xiàn)在直接下載 Codex 會(huì)是一個(gè)更好的選擇。這也是未來(lái)模型廠商的一種趨勢(shì),一開(kāi)始大家都是從黑乎乎的命令行終端開(kāi)始做本地 Agent,接著都慢慢回歸到可視化的友好界面。

網(wǎng)上對(duì) Codex 的評(píng)價(jià)在這幾天也有了不少逆轉(zhuǎn),許多開(kāi)發(fā)者從 Claude Code 轉(zhuǎn)向 Codex,一些在國(guó)內(nèi)的獨(dú)立開(kāi)發(fā)者也表示 Codex Plus 會(huì)員就可以用,而且還不會(huì)像 Claude 那般總是無(wú)情封號(hào)。


奧特曼更是激動(dòng)的宣布,Codex 的活躍用戶(hù)已經(jīng)超過(guò) 100 萬(wàn)。在模型更新博客,也是毫不掩飾和留有余地的夸贊,

GPT-5.3-Codex 是我們第一個(gè)能夠自我構(gòu)建的模型。通過(guò)使用 5.3-Codex,我們能夠以如此快的速度發(fā)布 5.3-Codex。

跟 Claude 團(tuán)隊(duì)用兩周的時(shí)間,使用 Claude Code,100% AI 代碼,搓出一個(gè) Cowork 一樣;還有 OpenAI 去年年底發(fā)布的文章,「使用 Codex 在 28 天內(nèi)構(gòu)建 Android 版 Sora」,Agent 的時(shí)代真的來(lái)了。

用 Codex 取代我的 ChatGPT 和 Claude Code

和大多數(shù)的本地 Agent 一樣,無(wú)論是終端還是 Cowork,我們都是先選擇一個(gè)工作文件夾。在 Codex 中,我們可以創(chuàng)建多個(gè) Project,選擇對(duì)應(yīng)的文件夾,再進(jìn)一步開(kāi)始對(duì)話(huà),Codex 把它們叫做 Threads 線(xiàn)程。

先用最普遍和簡(jiǎn)單的例子,我們添加了一個(gè)空的下載文件夾,然后點(diǎn)擊開(kāi)始一個(gè)線(xiàn)程,選擇 GPT-5.3-Codex 模型;就像在 ChatGPT 里面對(duì)話(huà)一樣,輸入指令。

要求它幫我們下載一個(gè) X 視頻,Codex 會(huì)自動(dòng)檢查可用的 Skills 來(lái)處理,接著通過(guò) yt-dlp 工具進(jìn)行下載,這個(gè)視頻有四個(gè)多小時(shí)長(zhǎng),Codex 會(huì)一直在對(duì)話(huà)框里自動(dòng)更新下載進(jìn)度。


▲GIF 圖經(jīng)過(guò)加速處理

視頻下載后,我們還可以要求它提取視頻的逐字稿,給我們一份雙語(yǔ)版本的文檔,最后讓它把整個(gè)流程打包為一個(gè) Skill,方便下次使用。


如果視頻中有一些比較有意思的片段,想要裁剪視頻,或者是把裁出來(lái)的視頻轉(zhuǎn)成 GIF 圖,在 Codex 里都能做到。

例如,我們這里下載了一個(gè)視頻,然后要求它把視頻的 5s-25s 裁剪出來(lái)成為一個(gè)新的視頻;得益于 GPT-5.3-Codex 的 Token 快速處理,整個(gè)過(guò)程不需要很長(zhǎng)時(shí)間,反而更多是取決于本地電腦的硬件解碼編碼能力。


▲ GIF 圖經(jīng)過(guò)加速處理

或者我們也可以直接要求它把視頻的前 5s 轉(zhuǎn)成一個(gè) GIF 文件,并且確保大小在 10MB 以?xún)?nèi),幀數(shù)可以自行調(diào)整,清晰度上將寬度控制在 640px。


很快,我們就能得到對(duì)應(yīng)的 GIF 文件。更極端一點(diǎn),還能讓它把整個(gè)視頻轉(zhuǎn)成圖片,每秒 30 幀,每一幀就是一張圖。

這些對(duì)本地文件的直接處理,和 GPT-5.3-Codex 在 Terminal-Bench-2 測(cè)試集上的優(yōu)異表現(xiàn),讓 Codex 基本上能滿(mǎn)足各種生產(chǎn)力工具、效率工具的功能實(shí)現(xiàn)。

作為對(duì)比,同樣是剛剛發(fā)布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%,GPT-5.3-Codex 是 77.3%。



▲ 圖片來(lái)源:https://x.com/neilsuperduper/status/2019486017703547309/

例如在這個(gè)文件夾中,有多張圖片,我們首先是要求它根據(jù)圖片內(nèi)容,對(duì)這些圖片文件進(jìn)行重命名,并保持文件名不超過(guò) 20 個(gè)字母,不允許使用符號(hào)。


▲ GIF 圖經(jīng)過(guò)加速

自動(dòng)修改完成后,我們還能要求他對(duì)這些圖片進(jìn)行拼接,無(wú)論是垂直拼接還是水平,調(diào)用對(duì)應(yīng)的工具,Codex 都可以做到。


和 Claude Skills 一樣,Codex 也能安裝 Skills 市場(chǎng)上豐富的技能,并且在應(yīng)用內(nèi),就已經(jīng)提供了包括 pptx、xls、word、canvas、notion 在內(nèi)的多款技能。


回到基礎(chǔ)的編程能力,升級(jí)后的 GPT-5.3-Codex 表現(xiàn)也比 GPT-5.2 要好上不少。我們直接要求它寫(xiě)一個(gè)「每日一詞」的 App。和在 ChatGPT 里面直接用 Canvas 給我們一個(gè)帶不走的網(wǎng)頁(yè)不同,Codex 能在本地從零開(kāi)始,完成項(xiàng)目,然后使用 Vercel 或 Cloudflare 等 Skills 部署到網(wǎng)頁(yè)上。

這里我們選擇的推理模式是 Extra High,超強(qiáng)推理模式,于是在每一步操作之前,GPT-5.3-Codex 都會(huì)詢(xún)問(wèn)我下一步的操作選擇,這也和 Codex 內(nèi)部能直接根據(jù)任務(wù)情況,調(diào)用不同 Skills 有關(guān),其中的頭腦風(fēng)暴 Skill,會(huì)自動(dòng)進(jìn)行不斷對(duì)話(huà)的模式。


最后,它基本上還是完成了我一開(kāi)始要求它完成的全部功能,并且還能進(jìn)一步開(kāi)發(fā) macOS、iOS,和安卓版本。

如果我們有現(xiàn)成的代碼項(xiàng)目,也可以選擇該項(xiàng)目文件夾,在 Codex 中打開(kāi),GPT-5.3-Codex 會(huì)分析項(xiàng)目存在的 Bug,并且修復(fù)它。



在過(guò)去很長(zhǎng)一段時(shí)間里,無(wú)論是工具還是模型,開(kāi)發(fā)者的首選其實(shí)都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在編程、尤其是長(zhǎng)代碼邏輯推理上的掉隊(duì),曾讓不少開(kāi)發(fā)者轉(zhuǎn)投陣營(yíng)。

GPT-5.3-Codex 的出現(xiàn),就是為了終結(jié)這場(chǎng)爭(zhēng)論。現(xiàn)在 GPT-5.3-Codex 在編程基準(zhǔn)測(cè)試和實(shí)際表現(xiàn)上,不僅碾壓了自家的前代模型,也確實(shí)有把友商模型按在地上摩擦的前兆。它真正具備了編寫(xiě)、測(cè)試和推理代碼的能力。

做游戲項(xiàng)目,是這次模型介紹博客里,網(wǎng)站開(kāi)發(fā)部分主要案例,我們也讓 GPT-5.3-Codex 做了一個(gè)簡(jiǎn)單的物理彈球游戲,整體的效果雖然沒(méi)有達(dá)到我的期待,因?yàn)槲以谔崾驹~里面有說(shuō)希望這是一個(gè) RPG 的游戲,但 GPT-5.3-Codex 給我的界面還是過(guò)于簡(jiǎn)陋了。不過(guò),好在還是能玩。


我們也在 X 上找到了一些用 GPT-5.3-Codex 做的小游戲,像這個(gè)類(lèi)似超級(jí)瑪麗的收集金幣。


▲來(lái)源:https://x.com/Angaisb_/status/2019548783869325331

強(qiáng)中更有強(qiáng)中手

對(duì) Anthropic 來(lái)說(shuō),OpenAI 今天玩的這些,可能會(huì)說(shuō),這都是我們玩剩下的。無(wú)論是代碼、或者 Agent 的能力,還是開(kāi)始著手去做本地 Agent,從之前 Codex 的終端轉(zhuǎn)成現(xiàn)在的 macOS App。

在技術(shù)的領(lǐng)域,OpenAI 仿佛都是跟著 Claude 的腳步在走,Claude 深耕代碼能力,OpenAI 搞了 Sora、日?qǐng)?bào)、瀏覽器、ChatGPT agent,都沒(méi)什么水花,于是也在代碼上發(fā)力;Claude 一月初推出 Cowork,OpenAI 也緊接著在二月初發(fā)布 Codex App。


就和今天的密集發(fā)布一樣,凌晨 1:45,Claude 官方發(fā) X 推出 Claude Opus 4.6,緊接著就是 OpenAI 端上 GPT-5.3-Codex。兩款模型其實(shí)都是為了給 Agent 更強(qiáng)大的基座能力,以前是說(shuō)代碼/vibe coding,但現(xiàn)在 Agent 能做好,基本上都是「寫(xiě)代碼寫(xiě)得好」。

Opus 4.6 雖然在 SWE-Bench 上的表現(xiàn)甚至不如 Opus 4.5,并且 Terminal-Bench 2.0 上的成績(jī)也沒(méi)有 GPT-5.3-Codex 強(qiáng),但是 Opus 破天荒地把上下文長(zhǎng)度拉到了一百萬(wàn) token 的窗口。而且,這些 benchmark 的表現(xiàn)還沒(méi)有相差很多。

Claude 說(shuō),我的 Sonnet 5 還沒(méi)上來(lái),那才是真功夫。

我們?cè)诰W(wǎng)上也找了一些 Opus 4.6 最新的測(cè)試案例,有網(wǎng)友說(shuō) Claude 4.6 Opus 只是一次調(diào)用,就完全重構(gòu)了他的整個(gè)代碼庫(kù),將原來(lái)混亂的代碼「屎山」全部模塊化,并且沒(méi)有模型能像 Opus 這樣做到。


還有網(wǎng)友拿 Opus 4.6 和 4.5 進(jìn)行對(duì)比,讓兩個(gè)模型玩同一款經(jīng)營(yíng)游戲,看誰(shuí)的賬戶(hù)等級(jí)、財(cái)富和裝備更高。測(cè)試博主提到,4.6 版本在初期制定戰(zhàn)略的時(shí)間更長(zhǎng),但是做出了更好的戰(zhàn)略決策,并且在最后確實(shí)做到了遙遙領(lǐng)先。



還有網(wǎng)友也做了一個(gè)游戲,不過(guò)是一個(gè)寶可夢(mèng)的克隆版。博主提到這是他用 AI 做出來(lái)的最酷的東西。他提到,Claude Opus 4.6 思考了 1 小時(shí) 30 分鐘,使用了 11 萬(wàn)個(gè) Token,并且只迭代了三次。


▲ https://x.com/chatgpt21/status/2019679978162634930

在 CLaude 官方演示和早期用戶(hù)的反饋中,也提到了一個(gè) Opus 表現(xiàn)優(yōu)秀的案例。Opus 4.6 在一天內(nèi)自主關(guān)閉了 13 個(gè) issue,issue 即項(xiàng)目存在的待解決問(wèn)題,并將另外 12 個(gè) issue 準(zhǔn)確分派給了正確的人類(lèi)團(tuán)隊(duì)成員。

和 Kimi K2.5 的智能體蜂群一樣,Opus 4.6 也能管理一個(gè) 50 人規(guī)模組織的代碼庫(kù)。在 Claude Code 中,我們可以組建 Agent Teams,召喚出一整個(gè)隊(duì)伍的 AI,不再是一個(gè) AI 在戰(zhàn)斗。這些AI 可以有的負(fù)責(zé)寫(xiě)代碼,有的負(fù)責(zé) Review,有的負(fù)責(zé)測(cè)試,它們之間自主協(xié)作。

也有網(wǎng)友測(cè)試了 Claude Code 里面的 Agent 蜂群,提到啟用蜂群之后的 Opus 4.6,速度提升 2.5 倍,并且效果也更好。


我們現(xiàn)在的狀態(tài)就跟這張圖片一樣,雖然一山比一山高,但都繞不出這個(gè)圈。前幾個(gè)月可能是 Gemini 賺走了風(fēng)頭,一月份來(lái),應(yīng)該是 Claude,然后看樣子又要輪到 OpenAI,或者馬斯克的 Grok。


好在這個(gè)輪回的過(guò)程中,作為用戶(hù)的我們,能明顯感覺(jué)到 AI 的能力一直在變強(qiáng)。

GPT-5.3-Codex 的 API 還沒(méi)有開(kāi)放,原因是模型太強(qiáng)了,會(huì)存在很大的風(fēng)險(xiǎn),所以 OpenAI 還在考慮怎么安全地啟用 API。

Claude Opus 4.6 已經(jīng)可以在 Claude 通用聊天應(yīng)用、Claude Code、API 多種方式使用,這兩個(gè)作為今年國(guó)外御三家首發(fā)的兩款模型,非常值得一試。


未來(lái),更好的服務(wù) Agent,讓 Agent 為我們做事,還會(huì)是大模型更新的重點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列打響第一槍?zhuān)笈鷳?zhàn)機(jī)空襲德黑蘭,哈梅內(nèi)伊和伊朗總統(tǒng)遇襲

以色列打響第一槍?zhuān)笈鷳?zhàn)機(jī)空襲德黑蘭,哈梅內(nèi)伊和伊朗總統(tǒng)遇襲

頭條爆料007
2026-02-28 15:58:28
幾塊錢(qián)的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

幾塊錢(qián)的維生素B2,竟是高血壓克星?提醒:還有助改善性生活

橘子約定
2026-02-27 09:33:19
游客吐槽“杭州西湖景區(qū)停車(chē)費(fèi)30元一小時(shí)”,官方回應(yīng):節(jié)假日差別化收費(fèi),倡導(dǎo)公交出行,日常收費(fèi)10元一小時(shí)

游客吐槽“杭州西湖景區(qū)停車(chē)費(fèi)30元一小時(shí)”,官方回應(yīng):節(jié)假日差別化收費(fèi),倡導(dǎo)公交出行,日常收費(fèi)10元一小時(shí)

大象新聞
2026-02-27 15:45:09
巴拿馬總統(tǒng)“不許”中國(guó)反制,否則報(bào)復(fù),全世界都在等著看好戲?

巴拿馬總統(tǒng)“不許”中國(guó)反制,否則報(bào)復(fù),全世界都在等著看好戲?

世界背后的秘密
2026-02-28 15:13:22
年后快遞員大批離職,他們不是不想干了,而是心徹底涼了!

年后快遞員大批離職,他們不是不想干了,而是心徹底涼了!

一口娛樂(lè)
2026-02-27 16:55:34
國(guó)乒混雙輝煌被徹底終結(jié),背后離不開(kāi)王勵(lì)勤的戰(zhàn)略調(diào)整:拔苗助長(zhǎng)

國(guó)乒混雙輝煌被徹底終結(jié),背后離不開(kāi)王勵(lì)勤的戰(zhàn)略調(diào)整:拔苗助長(zhǎng)

楊哥乒乓
2026-02-25 23:17:41
以色列宣布襲擊伊朗

以色列宣布襲擊伊朗

每日經(jīng)濟(jì)新聞
2026-02-28 14:30:13
正式道歉!國(guó)際籃聯(lián)認(rèn)錯(cuò),縱容裁判吹黑哨,日媒承認(rèn)吹罰不公正!

正式道歉!國(guó)際籃聯(lián)認(rèn)錯(cuò),縱容裁判吹黑哨,日媒承認(rèn)吹罰不公正!

不期而遇的緣分
2026-02-28 13:28:37
中國(guó)游客不去日本消費(fèi),中國(guó)經(jīng)濟(jì)反而比日本虧?這筆賬給你掰到底

中國(guó)游客不去日本消費(fèi),中國(guó)經(jīng)濟(jì)反而比日本虧?這筆賬給你掰到底

何氽簡(jiǎn)史
2026-02-27 19:20:59
美軍活捉馬杜羅細(xì)節(jié)曝光:機(jī)師中彈四次強(qiáng)行降落,獲頒榮譽(yù)勛章!

美軍活捉馬杜羅細(xì)節(jié)曝光:機(jī)師中彈四次強(qiáng)行降落,獲頒榮譽(yù)勛章!

像夢(mèng)一場(chǎng)a
2026-02-26 14:00:03
中國(guó)駐符拉迪沃斯托克總領(lǐng)館:18-65歲在俄長(zhǎng)期居留男性 須同意在俄軍事單位等至少服役1年

中國(guó)駐符拉迪沃斯托克總領(lǐng)館:18-65歲在俄長(zhǎng)期居留男性 須同意在俄軍事單位等至少服役1年

閃電新聞
2026-02-26 12:56:09
外資撤不走,中國(guó)攔不住,如今的中國(guó)廣東,制造早已不是代工

外資撤不走,中國(guó)攔不住,如今的中國(guó)廣東,制造早已不是代工

甜檸聊史
2026-01-23 14:01:57
拉什福德接受19萬(wàn)周薪,永久轉(zhuǎn)會(huì)巴薩已定!曼聯(lián)不降價(jià)但同意分期

拉什福德接受19萬(wàn)周薪,永久轉(zhuǎn)會(huì)巴薩已定!曼聯(lián)不降價(jià)但同意分期

羅米的曼聯(lián)博客
2026-02-28 10:42:01
癌癥 “源頭” 已發(fā)現(xiàn)?油炸食品沒(méi)上榜,第1名大家或天天都在吃!

癌癥 “源頭” 已發(fā)現(xiàn)?油炸食品沒(méi)上榜,第1名大家或天天都在吃!

劉哥談體育
2026-02-28 15:45:59
【早報(bào)】證監(jiān)會(huì)召開(kāi)重磅會(huì)議,吳清發(fā)聲;特朗警告伊朗“有時(shí)候不得不打”

【早報(bào)】證監(jiān)會(huì)召開(kāi)重磅會(huì)議,吳清發(fā)聲;特朗警告伊朗“有時(shí)候不得不打”

財(cái)聯(lián)社
2026-02-28 07:33:07
主人開(kāi)出服務(wù)區(qū)40公里后才發(fā)現(xiàn)沒(méi)帶狗, 回去找時(shí)看到難忘的一幕

主人開(kāi)出服務(wù)區(qū)40公里后才發(fā)現(xiàn)沒(méi)帶狗, 回去找時(shí)看到難忘的一幕

觀察鑒娛
2026-02-28 10:20:09
來(lái)了!中國(guó)男籃上訴成功,F(xiàn)IBA正式致歉,日本球迷被郭士強(qiáng)打破防

來(lái)了!中國(guó)男籃上訴成功,F(xiàn)IBA正式致歉,日本球迷被郭士強(qiáng)打破防

緋雨兒
2026-02-28 16:24:34
全球只有5位領(lǐng)導(dǎo)人被永久保留遺體,他們都是誰(shuí)

全球只有5位領(lǐng)導(dǎo)人被永久保留遺體,他們都是誰(shuí)

扶蘇聊歷史
2026-01-29 16:13:42
五部門(mén):7月1日起,全國(guó)使用統(tǒng)一死亡證明!在家中死亡到哪里開(kāi)?

五部門(mén):7月1日起,全國(guó)使用統(tǒng)一死亡證明!在家中死亡到哪里開(kāi)?

寶哥精彩賽事
2026-02-27 17:12:29
美以對(duì)伊發(fā)動(dòng)聯(lián)合軍事行動(dòng) 畫(huà)面顯示德黑蘭市中心濃煙滾滾

美以對(duì)伊發(fā)動(dòng)聯(lián)合軍事行動(dòng) 畫(huà)面顯示德黑蘭市中心濃煙滾滾

環(huán)球網(wǎng)資訊
2026-02-28 15:46:15
2026-02-28 16:59:00
愛(ài)范兒 incentive-icons
愛(ài)范兒
消費(fèi)科技第一媒體
38471文章數(shù) 2601002關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話(huà)

頭條要聞

內(nèi)塔尼亞胡:美以軍事行動(dòng)目標(biāo)是推翻伊朗政權(quán)

頭條要聞

內(nèi)塔尼亞胡:美以軍事行動(dòng)目標(biāo)是推翻伊朗政權(quán)

體育要聞

球隊(duì)主力全報(bào)銷(xiāo)?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車(chē)要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時(shí)尚
游戲
家居
教育
本地

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

《星際戰(zhàn)甲》Switch2版來(lái)了!官方定檔3月25日

家居要聞

素色肌理 品意式格調(diào)

教育要聞

我給兩會(huì)捎句話(huà)丨剛性保障中小學(xué)每天一節(jié)體育課

本地新聞

津南好·四時(shí)總相宜

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版