網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

中門對狙！Claude Opus 4.6和GPT-5.3 Codex同時發(fā)布，這下真的AI春晚了。

2026-02-06 05:23:18　來源: 數(shù)字生命卡茲克

天津舉報

分享至

　　在全網(wǎng)翹首以盼的等了兩天之后，在凌晨2點。

　　Anthropic的新模型Cluade Opus 4.6正式更新了。

　　我說實話，我是真的最近因為AI圈這些模型和產(chǎn)品，熬夜熬的有點扛不住了。

　　但其實最顛最絕望的是，20分鐘之后，OpenAI也發(fā)了新模型。。。

　　GPT 5.3 Codex也來了。

　　這尼瑪，真的是中門對狙了。

　　要了親命了。。。

　　這兩模型都還是得看，因為之前GPT和Claude幾乎就是我最常用的維二最主力的模型，GPT-5.2用來做各種各樣的搜索和事實核查還有研究還有編程改BUG，Opus 4.5做創(chuàng)作和主力編程。

　　現(xiàn)在，兩個都來了。

　　太刺激了。

　　一個一個說吧。

　　一. Claude Opus 4.6

　　這次 Anthropic其實不止發(fā)了Claude Opus 4.6，還有一個很好玩的東西，Agent Teams，還有關(guān)于Excel和PPT插件的更新。

　　先說Claude Opus 4.6。

　　每次有新模型發(fā)布，大家第一反應就是看跑分。

　　這次Opus 4.6的跑分確實很漂亮，我挑幾個重點說說。

　　首先是Terminal-Bench 2.0，這是一個測試AI在終端環(huán)境下編程能力的評估，Opus 4.6拿了65.4%，是所有模型里最高的（沒看到GPT-5.3 codex之前）。

　　GPT-5.2是64.7%，Gemini 3 Pro是56.2%。

　　讓我比較驚訝的是OSWorld這個評估，測的是AI操作電腦的能力，Opus 4.6拿了72.7%，比Opus 4.5的66.3%高了不少。

　　這就意味著Claude越來越會用電腦了，它能更好地操作鼠標、點擊按鈕、在不同應用之間切換，在Coding能力提升的同時，電腦操作的能力也有大幅提升，這是真的要奔著全面Agent化去了。

　　還有一個BrowseComp，也是讓我意外的，測的是Agent在網(wǎng)上搜索信息的能力，Opus 4.6拿了84.0%，遠超其他模型。

　　第二名GPT-5.2 Pro是77.9%，差了6個多點。

　　因為我自己其實一直把GPT-5.2 Pro當作是我最牛逼的研究報告生成引擎去用的，他比DeepResearch還要強，精準度極高幻覺率極低，現(xiàn)在Opus 4.6比它還要搞6個點，說實話有點離譜了。

　　然后就是GDPval-AA這個評估，這個評估測的是AI在真實工作任務中的表現(xiàn)，包括金融、法律等領(lǐng)域的知識工作。Opus 4.6拿了1606的Elo分，比GPT-5.2高了144分，比自己的前代Opus 4.5高了190分。

　　144分的Elo差距還是挺大的，也就是說，在干活這件事上，Opus 4.6確實是目前最強的，Cluade是真的把自己的編程能力，開始逐漸泛化到其他的工作場景里面去了。

　　然后最離譜的是這個，ARC AGI 2，68.8%，吊打一切。。。

　　我之前在GPT-5.2發(fā)布時候的文章里科普過這玩意，就是下面這種題。

　　這種能力，現(xiàn)在稱為流體智力（Fluid Intelligence），意思就是指不依賴于已有的知識，在全新情境下進行邏輯推理、識別模式和解決問題的能力。

　　說白了，就是你的悟性和開竅的能力。

　　之前在ARC-AGI-2上，GPT-5.1的得分是17.6%，而GPT-5.2 Pro，直接飆到了50%多。

　　這一次，Claude Opus 4.6，直接干到了68.8%，是有點離譜的，差點摸到7字頭了。

　　從上面這些跑分看，除了一些世界知識和問答上，Claude Opus 4.6還弱于GPT-5.2，其他的幾乎已經(jīng)全面領(lǐng)先。

　　當之無愧的SOTA。

　　說實話，我對跑分一直有點復雜的感情。

　　一方面，跑分確實能說明一些問題，但另一方面，跑分和實際使用體驗之間，往往有一道很深的鴻溝。

　　很多模型跑分很高，但用起來就是不順手，反過來，有些模型你看著整體跑分一般，但在某些場景下就是還挺好用的。

　　所以我更關(guān)注的，是這次更新在產(chǎn)品層面做了什么。

　　第一個：1M token的上下文窗口。

　　普天同慶�。�！Claude Opus系列，終于有1M上下文啦�。�！

　　Opus 4.6終于支持100萬token的上下文了！�。�

　　真的，做Coding的朋友們都知道，上下文容量有多重要。。。

　　之前只有200K的小窗口，這次整整翻了5倍�。�！現(xiàn)在再也不用擔心這個問題了�。�！

　　而且我要說一個很重要的點，就是上下文窗口大，不等于模型能真正用好這么大的上下文。

　　很多模型雖然支持很長的上下文，但你真的塞進去很多內(nèi)容之后，模型的表現(xiàn)會明顯下降，會變得很蠢。

　　這個問題在業(yè)內(nèi)叫"context rot"，上下文腐爛，也就是你用的越久，模型能力開始變得越差。

　　而這次，Claude Opus 4.6，在MRCR v2的測試上做了實驗，這個測試是大海撈針類的，就是在一大堆文本里藏幾個關(guān)鍵信息，看模型能不能找到。

　　在100萬token、藏8根針的測試里，Opus 4.6直接拿了76%，而Sonnet 4.5只有18.5%，太牛逼了！

　　而且上下文推理上，也傲視群雄。

　　這對很多實際場景來說真的非常有用，也是我最最最喜歡的升級點，不只是coding，其實比如你想讓Claude幫你審查一份幾百頁的法律文件，或者分析一個大公司的財報，現(xiàn)在大概率也是可以一次性搞定了。

　　第二個：輸出上限提升到128K。

　　以前Claude的輸出上限都是64K，這次直接翻倍了。

　　也算是一個相當不錯的利好。

　　這個改進聽起來不起眼，但對于實際使用來說真的很重要。

　　第三個：Context Compaction，上下文壓縮。

　　這個功能其實Claude Code已經(jīng)實現(xiàn)很久了，但我覺得還是很有必要說一下，因為它解決了一個很現(xiàn)實的問題。

　　當你跟AI聊了很久，或者讓AI執(zhí)行一個很長的任務，對話內(nèi)容會越來越多，最終會超過上下文窗口的限制。以前遇到這種情況，要么任務失敗，要么得手動清理對話歷史。

　　現(xiàn)在有了Context Compaction，Claude可以自動把舊的對話內(nèi)容壓縮成摘要，騰出空間給新的內(nèi)容。

　　這樣Claude就能執(zhí)行更長時間的任務，而不會因為上下文溢出而中斷。

　　這對于那些需要Claude長時間自主工作的場景來說，是一個很實用的改進。

　　以前是在Claude Code里使用工程實現(xiàn)的，現(xiàn)在直接模型自帶了。

　　第四個：Adaptive Thinking和Effort控制

　　以前Claude有一個"extended thinking"功能，就是讓它在回答之前先深度思考一會兒。

　　這個功能開啟之后，Claude的回答質(zhì)量會提升，但速度會變慢，成本也會增加。

　　問題是，以前這個功能是要么開要么關(guān)，沒有中間狀態(tài)。有些簡單問題，你開了深度思考，就有點殺雞用牛刀了。

　　現(xiàn)在有了兩個新功能來解決這個問題。

　　一個是Adaptive Thinking，自適應思考。開啟之后，Claude會自己判斷這個問題需不需要深度思考。簡單問題就快速回答，復雜問題就多想一會兒。

　　另一個是Effort控制，讓你可以手動設置Claude的思考程度。有四個檔位：low、medium、high、max，默認是high。

　　這兩個功能加起來，讓Claude的使用變得更靈活了。

　　你可以根據(jù)實際需求，在速度、成本、質(zhì)量之間找到平衡點。

　　然后還有一個，是Claude Code里面很重要的更新，叫做Agent Teams。

　　以前你用Claude Code，是一個Claude在干活，你給它一個任務，它自己去做，做完了給你看結(jié)果。

　　現(xiàn)在有了Agent Teams不一樣了，你可以讓一個會話充當團隊負責人，協(xié)調(diào)工作、分配任務并綜合結(jié)果。

　　然后啟動團隊成員獨立工作，各自在自己的上下文窗口中，并彼此直接通信。

　　比如假設你要做一個代碼審查，需要看前端代碼、后端代碼、還有數(shù)據(jù)庫相關(guān)的代碼。以前你可能要分三次讓Claude看，每次看一部分。

　　現(xiàn)在你可以說"幫我審查這個代碼庫"，然后Claude會自動啟動3個團隊成員，一個看前端，一個看后端，一個看數(shù)據(jù)庫，三個同時進行，最后把結(jié)果匯總給你。

　　而且這些團隊成員不是完全獨立的，它們可以相互溝通。比如后端代理發(fā)現(xiàn)一個API的變更，它可以告訴前端代理，讓前端代理檢查一下調(diào)用這個API的地方有沒有問題，而且他們也可以互相質(zhì)疑、互相挑戰(zhàn)、互相發(fā)現(xiàn)。

　　跟Claude Code里面之前subagents也就是子代理不同的點在于，子代理在單個會話中運行，只能向主代理報告結(jié)果，而Agent Teams是一個團隊，團隊成員可以直接與各個團隊成員互動，無需通過負責人。

　　他們自己也做了一個非常明確的圖表來進行區(qū)分。

　　當你需要快速、專注的工作人員進行反饋時，使用子代理。當團隊成員需要共享發(fā)現(xiàn)、相互挑戰(zhàn)和自主協(xié)調(diào)時，使用Agent Teams。

　　然后就是兩個小的更新，一個是Claude in Excel這個插件將Claude Opus 4.6直接集成到了excel里面。

　　現(xiàn)在還支持數(shù)據(jù)透視表編輯、圖表修改、條件格式設置、排序和篩選、數(shù)據(jù)驗證以及金融級格式設置。

　　還添加了可用性改進，包括長對話的自動壓縮和拖放多文件支持等等。

　　然后還發(fā)了一個Claude in PowerPoint。

　　將Claude集成到了PowerPoint側(cè)邊欄中，讓它在創(chuàng)建新內(nèi)容之前讀取現(xiàn)有的布局、字體和母版。

　　Claude也可以根據(jù)客戶模板構(gòu)建演示文稿、對現(xiàn)有幻燈片進行針對性編輯。

　　Anthropic真的憑借著Claude，在B端領(lǐng)域，真的開始大殺四方了。

　　GPT說實話，現(xiàn)在整個B端和生產(chǎn)力端的體驗，稍微落后的有點多了。

　　最后說一下價格。

　　API價格保持不變，還是$5/$25每百萬token（輸入/輸出）。

　　如果用超過20萬token的上下文，會有額外定價，是$10/$37.50每百萬token。

　　目前，Claude網(wǎng)頁版和Claude Code上，Claude Opus 4.6均以全面上線，已經(jīng)可以快樂的玩耍起來了。

　　二. GPT-5.3 Codex

　　終于聊完了Claude的東西，然后到了GPT這邊。

　　說實話，我自己對GPT一直也是有自己的情感的，他依然是我現(xiàn)在在任何時候想到問題，第一個去問的模型，想要要驗證某一個事的時候，第一個去問的模型。

　　而且，雖然我不是一個專業(yè)的編程大佬，但是在我有限的Vibe Coding的經(jīng)驗里，我覺得GPT-5.2 Codex在解決BUG和難點的問題上，是要強于Claude Opus 4.5的。

　　特別是GPT-5.2 Codex+Codex的改BUG體驗，是要比Claude Opus 4.5+Claude Code要更強的。

　　所以我自己經(jīng)常的工作流，經(jīng)常是用Claude code寫一個大的，然后用codex接手后續(xù)進行調(diào)整。

　　所以我剛好，還真是這兩玩意的用戶。。。

　　所以GPT-5.3 Codex的更新，我自然也非常的開心。

　　兩者中門對狙，開心的自然是我們用戶。

　　這次GPT-5.3 Codex，其實最讓我驚訝的東西，不是跑分，是他們博客里的一句話：

　　"GPT-5.3 Codex是我們第一個在創(chuàng)造自己的過程中發(fā)揮重要作用的模型。"

　　OpenAI說，他們的Codex團隊在開發(fā)GPT-5.3的過程中，用早期版本的模型來debug自己的訓練過程、管理部署、診斷測試結(jié)果和評估。

　　用人話說就是，AI參與了自己的開發(fā)。

　　這個事情聽起來有點科幻，但其實邏輯上是通的。

　　AI模型的開發(fā)過程，本質(zhì)上也是一堆代碼，訓練腳本是代碼，部署流程是代碼，測試框架也是代碼。

　　既然AI已經(jīng)coding能力已經(jīng)這么牛逼了，那讓AI來幫忙寫這些代碼，也是順理成章的事。

　　但順理成章和真的做到了說實話，是兩碼事。

　　OpenAI的團隊說，他們被Codex能夠加速自身開發(fā)的程度震驚了。

　　如果AI能夠越來越多地參與自己的開發(fā)，那AI進化的速度會不會變得更快？這個問題，可能比任何跑分都重要。

　　這個世界，真的都在瘋狂的加速啊。

　　然后老規(guī)矩，再看下跑分。

　　GPT-5.3 Codex在幾個關(guān)鍵的編程評測上都拿到了最高分。

　　這時候，你肯定會問了， GPT-5.3 Codex和Claude Opus 4.6，到底哪個跑分更牛逼一點？？？

　　說實話，因為兩家的評測基準，還是有很多細節(jié)差異，所以，完全沒法直接進行對比。。。

　　唯一一個對齊的基準是Terminal-Bench 2.0，這是一個由89個復雜真實任務組成的基準，這些任務都在終端環(huán)境中執(zhí)行，每個任務運行在獨立Docker容器內(nèi)。

　　2.0版本于2025年11月7日發(fā)布。

　　Claude Opus 4.6得分65.4%，GPT-5.3 Codex得分77.3%，OpenAI領(lǐng)先11.9個百分點。

　　在這個唯一相同的基準里，GPT更勝一籌，而且是大勝，符合我對Codex系列的認知。

　　然后是OSWorld，評估AI agent操作真實計算機的能力，人類基線為72.36%。

　　關(guān)鍵區(qū)別在于，Claude Opus 4.6報告的是原版OSWorld（72.7%），而 GPT-5.3 Codex報告的是OSWorld-Verified（64.7%）。

　　OSWorld-Verified于2025年7月28日發(fā)布，是一次全面重構(gòu)，修復了原版中300+已識別問題，包括失效 URL、反爬 CAPTCHA、不穩(wěn)定 HTML 結(jié)構(gòu)、含糊指令，以及過嚴/過松的評測腳本。

　　所以說，別看這個評測看著Claude更強，但是兩個分數(shù)衡量的并不是同一件事。

　　OSWorld-Verified 提供了更嚴格、更可控的信號，也一般被認為更難，所以嚴格意義上來說， GPT-5.3 Codex的 64.7% 甚至是要強于 Claude Opus 4.6的 72.7%的。

　　然后是GDPVal，這個事在美國GDP貢獻最大的9個行業(yè)中，覆蓋44種職業(yè)、1320個真實知識工作任務。

　　任務要求產(chǎn)出真實職業(yè)交付物，如文檔、表格、演示、圖表，平均相當于7小時專家工作量。

　　可比性問題在這里最明顯。

　　GPT-5.3 Codex的“GDPval wins or ties: 70.9%”，使用的是 OpenAI 自己的方法，由職業(yè)人類評審盲評 AI 產(chǎn)出與人類專家產(chǎn)出，判斷 AI 版本是否“與人類一樣好或更好”，分母是固定的人類標準。

　　Claude Opus 4.6的“GDPval-AA Elo: 1606”，這是獨立評測機構(gòu)Artificial Analysis的體系，使用其自有Stirrup agent框架（具備 shell 與網(wǎng)頁瀏覽能力）跑模型，再由Gemini 3 Pro做兩兩比較評判，最終用Bradley-Terry模型擬合Elo評分，并以GPT-5.1的1000 為錨點。

　　所以這個是太難換算了，我也不太清楚兩邊哪個更牛逼。。。

　　然后就是SWE-bench，SWE-bench測試AI是否能通過生成代碼補丁修復真實 GitHub issue。

　　SWE-bench Verified（Claude Opus 4.6使用，80.8%）是500題、人工驗證、僅Python的子集，由OpenAI Preparedness團隊在2024年8月發(fā)布。

　　93位職業(yè)開發(fā)者驗證了每道題都具備明確問題描述和公平單測，頂級模型已超過70%，該基準接近飽和。

　　SWE-bench Pro Public（GPT-5.3 Codex 使用，56.8%）是731題、多語言基準，由Scale AI創(chuàng)建。它覆蓋Python、Go、JavaScript、TypeScript等，橫跨41個倉庫。參考解平均107.4行、4.1個文件，明顯比 Verified常見的單文件補丁更復雜。

　　它還納入copyleft與專有代碼庫，專門降低數(shù)據(jù)污染風險。

　　所以說，Claude Opus 4.6在Verified的80.8%與GPT-5.3 codex在Pro Public的56.8%不能直接比較。

　　但說實話Pro明顯更難，發(fā)布時GPT-5和Claude Opus 4.1在Pro上都只有約23%，不到其Verified分數(shù)的三分之一。

　　所以說，其實整體跑分上，雖然看著GPT-5.3 Codex的得分好像都低一點。

　　但是含金量更足，如果非要我說的話，結(jié)合著我過去的測試印象，單開發(fā)這一塊，可能會是GPT-5.3 Codex會更強更實用一點。

　　當然，還有一個最關(guān)鍵的一點是，GPT...他不封號呀= =

　　然后跑分是一回事，能做什么是另一回事。

　　OpenAI在博客里展示了兩個用GPT-5.3 Codex做的游戲，一個賽車游戲和一個潛水游戲。

　　這兩個游戲都不只是那種我們隨處可見簡單的demo，而是完整的、可玩的游戲。

　　賽車游戲有不同的賽車、八張地圖、還有道具系統(tǒng)。

　　潛水游戲有不同的珊瑚礁可以探索、有氧氣和壓力管理系統(tǒng)、還有危險要素。

　　關(guān)鍵是，這些游戲全都是GPT-5.3 Codex自己做的。

　　OpenAI說，他們在Codex產(chǎn)品了里，用這個模型和一個叫develop web game的Skills，加上一些通用的跟進提示（比如"修復這個bug"或者"改進這個游戲"），讓GPT-5.3 Codex在幾天的時間里，自主迭代了數(shù)百萬個token，最終做出了這些游戲。

　　說實話，有點牛逼的。

　　而且這次有一個很棒的更新點。

　　就是你可以在GPT-5.3 Codex工作的時候跟它互動，可以隨時介入，隨時調(diào)整方向了。。。

　　終于不用先停止了，這個小能力還挺香的。

　　目前已經(jīng)在Codex上上線，我已經(jīng)開始用起來了。

　　而且直觀感受，在Codex上運行GPT-5.3 codex真的快了非常非常多。

　　在博客里沒有這塊數(shù)據(jù)，不過奧特曼自己的X上寫出來了。

　　“完成相同任務所需的令牌數(shù)不到 5.2-Codex 的一半，且單令牌速度快 25% 以上！”

　　非常推薦大家下載個Codex試試，真的蠻好用的。

　　這篇稿子又寫了個通宵，基本上把我對這兩個模型的理解都寫進去了，應該沒啥漏的了，應該是最全的一篇了。

　　至于實際測試，希望大家見諒，這么一點點時間實在測不出來，可能我得需要一整個周末的時候，正兒八經(jīng)的開發(fā)幾個產(chǎn)品，才能感受到明顯的差異。

　　不過有一點就是，現(xiàn)在的模型幾乎都是奔著Coding和Agent去的，所以這塊的提升基本都很明顯，跟手機一樣，用新不用舊。

　　直覺上我的工作流還是不太會變，Claude Opus 4.6 + Claude code打草稿，GPT-5.3 Codex + Codex進行后續(xù)精準開發(fā)。

　　最后。

　　今天真的是AI行業(yè)的大日子。

　　Anthropic發(fā)了Opus 4.6，OpenAI發(fā)了GPT-5.3 Codex。

　　兩家頭部AI公司在同一天放出大招，這在歷史上也是罕見的。

　　Anthropic發(fā)了Opus 4.6，OpenAI發(fā)了GPT-5.3 Codex和Frontier。兩家頭部AI公司在同一天放出大招，這在歷史上也是罕見的。

　　從模型能力上看，兩家都在快速進步，差距在縮小。

　　從產(chǎn)品形態(tài)上看，兩家都在押注Agent，但側(cè)重點有所不同。

　　從行業(yè)影響上看，傳統(tǒng)SaaS公司開始感到壓力，軟件行業(yè)絕對正在經(jīng)歷一場從誕生以來最大的一次范式轉(zhuǎn)變。

　　我不知道一年后這個行業(yè)會變成什么樣。

　　但我知道，現(xiàn)在，絕對是一個需要密切關(guān)注、積極學習的時期。

　　錯過這一波，可能就真的錯過了。

　　如果你還沒用過Claude Code，沒用過Codex，現(xiàn)在是一個很好的開始時機。

　　畢竟，未來已經(jīng)來了。

　　只是，還沒均勻分布。

　　以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

　　>/ 作者：卡茲克

　　>/ 投稿或爆料，請聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.