OpenAI、Anthropic發(fā)新模型，一個替你寫代碼，一個替公司管流程

2026-02-06 14:59:53　來源: DeepTech深科技

北京舉報

分享至

凌晨，Anthropic和OpenAI同時上線了新模型Claude Opus 4.6和GPT-5.3-Codex，給兩家企業(yè)本就在為超級碗廣告互嗆的激烈氣氛又添了一把柴火。當(dāng)全美觀眾還在為它倆斥資數(shù)百萬美元投放的互懟廣告津津樂道時，它們已經(jīng)殺到了同日發(fā)新模型這樣的正面交鋒戰(zhàn)場上。

Anthropic發(fā)布Claude Opus 4.6：搭載處于Beta階段的1M上下文窗口

Anthropic發(fā)布了Claude Opus 4.6，其并非僅僅是參數(shù)量的增加，而是在多個關(guān)鍵維度上實現(xiàn)了實質(zhì)性的更聰明和更可用。一個值得關(guān)注的亮點是它那處于Beta階段的1M上下文窗口。過去的模型在處理極長文本時，經(jīng)常出現(xiàn)上下文腐化的問題，即模型性能隨著文本長度增加而顯著下降，導(dǎo)致它忘記或者混淆較早之前的信息。

而Claude Opus 4.6在著名的大海撈針基準(zhǔn)測試MRCR v2上，成績達到了76%，遠超前代Sonnet 4.5的18.5%，這證明它能夠真正有效地利用超長下文，在海量文檔中精準(zhǔn)定位并提取被深埋的關(guān)鍵信息，從而勝任大型代碼庫分析、多篇論文綜述、跨會話長程任務(wù)規(guī)劃等場景。

（來源：https://www.anthropic.com/news/claude-opus-4-6）

在推理能力和編碼能力上，Claude Opus 4.6在多項權(quán)威基準(zhǔn)測試中確立了行業(yè)領(lǐng)先地位，特別是在需要自主規(guī)劃和多步執(zhí)行的智能體編碼任務(wù)上。比如，在Terminal-Bench 2.0中它的測試成績排名第一。

實際表現(xiàn)就是，當(dāng)你交給它一個復(fù)雜的開發(fā)任務(wù)時間，它會進行更加審慎的規(guī)劃，對代碼進行更加徹底的自我審查和自我調(diào)試，并能在大型項目中保持更好的方向感和一致性。也就是說不再是簡單地生成一段代碼，實際上是在扮演一個更有經(jīng)驗的開發(fā)者角色。

為了讓這種深度能力更加容易被調(diào)控，Anthropic引入了努力程度（Effort）控制參數(shù)，開發(fā)者現(xiàn)在可以在低、中、高、最大這四個級別中進行選擇。

在高模式或者最大模式下，模型會投入更多計算資源進行深度思考，非常適合解決一些棘手問題；而對于簡單的查詢，切換到中模式或者低模式則可以獲得更快的響應(yīng)并能降低成本。與之配套的自適應(yīng)思考功能，則允許模型根據(jù)上下文自行判斷何時需要啟動深度推理，進一步提高了靈活性。

為了解決長會話或智能體任務(wù)中必然遇到的上文長度限制問題，API還能提供上下文壓縮Beta功能。當(dāng)對話接近預(yù)設(shè)的token閾值時，模型會自動將較早的上下文進行智能摘要并替換，從而為新的交互騰出空間，讓超長程任務(wù)成為了可能，而不僅僅是理論上地支持長上下文。

（來源：https://www.anthropic.com/news/claude-opus-4-6）

在應(yīng)用層，Claude正在深度融入生產(chǎn)力工具鏈。Claude Code引入了智能體團體的研究預(yù)覽功能，允許創(chuàng)建多個協(xié)同工作的AI智能體來并行處理任務(wù)，例如同時對代碼庫的不同模塊進行審查。

而對于更廣泛的辦公場景，Claude in Excel和全新推出的Claude in PowerPoint研究預(yù)覽版，將模型的推理能力和生成能力直接嵌入到電子表格和幻燈片制作中。它能執(zhí)行公式操作，也能通過理解你的數(shù)據(jù)意圖進行多步規(guī)劃；在PPT中，它可以理解企業(yè)品牌模板和字體，生成風(fēng)格一致的內(nèi)容。

安全與能力對齊一直是Anthropic的重點之一。據(jù)了解，Opus 4.6在保持與頂尖模型相當(dāng)?shù)陌踩雷o水平的同時，其過度拒絕的概率降低到了近期Claude模型中的最低點。這意味著它在有效攔截有害請求的同時，對于普通問題和良性問題的回應(yīng)更加開放和有用。針對該模型的網(wǎng)絡(luò)安全能力，Anthropic也專門開發(fā)了新的檢測探針，并將其用于輔助發(fā)現(xiàn)和修復(fù)開源軟件漏洞等防御性用途。

總的來說，Claude Opus 4.6一定程度上代表著大模型正從對話式問答工具向可承擔(dān)復(fù)雜工作的智能體伙伴演進。它對于超長上下文的實用化支持、精細(xì)化的推理控制、以及深度集成的工作流，能夠進一步地提高用戶效率。

OpenAI推出GPT-5.3-Codex：可能是目前最強大的智能體編碼模型

OpenAI此次推出的是GPT-5.3-Codex，被稱為是迄今為止最強大的智能體編碼模型，能夠獨立接管涉及研究、工具使用和復(fù)雜執(zhí)行的長期任務(wù)。也就是說，一個可以持續(xù)工作數(shù)天之久、可以從零開始構(gòu)建出復(fù)雜游戲應(yīng)用的AI誕生了，在它工作的過程中你可以隨時和其對話并調(diào)整工作方向，無需擔(dān)心失去長上下文記憶。

（來源：https://openai.com/index/introducing-gpt-5-3-codex/）

在多項關(guān)鍵基準(zhǔn)測試中，GPT-5.3-Codex都創(chuàng)下了新的行業(yè)紀(jì)錄，以77.3%的準(zhǔn)確率大幅超越了前代模型在衡量終端編程技能的Terminal-Bench 2.0基準(zhǔn)測試上的表現(xiàn)，并在更嚴(yán)格的、涵蓋多語言的SWE-Bench Pro軟件工程測評中達到了領(lǐng)先水平。

GPT-5.3-Codex的能力邊界已經(jīng)從純粹的編碼拓展到整個知識工作領(lǐng)域。在衡量真實世界職業(yè)任務(wù)的GDPval評估中，其表現(xiàn)能力與OpenAI的通用旗艦?zāi)Ｐ虶PT-5.2相當(dāng)。在制作金融分析PPT、設(shè)計零售培訓(xùn)文檔以及編寫商業(yè)計劃書中，GPT-5.3-Codex能夠輸出專業(yè)的可使用內(nèi)容。

（來源：https://openai.com/index/introducing-gpt-5-3-codex/）

OpenAI透露，GPT-5.3-Codex的開發(fā)過程本身就是一個自我實現(xiàn)的范例，OpenAI利用該模型的早期版本來調(diào)試其自身的訓(xùn)練過程、管理部署并診斷測試結(jié)果，加速了整個模型的研發(fā)周期。總結(jié)來說，GPT-5.3-Codex的推出讓AI進一步地從一個等待指令的編程工具轉(zhuǎn)變?yōu)橐粋€能主動思考、跨領(lǐng)域執(zhí)行并與人類實時協(xié)作的電腦伙伴。

急于變現(xiàn)？OpenAI推出AI企業(yè)級產(chǎn)品Frontier

如果說這次同一天發(fā)布新品，OpenAI的贏點之一或許在多發(fā)了一樣新品，那就是企業(yè)級產(chǎn)品Frontier。它不是一個大模型，是一個專門為企業(yè)打造的、可用于規(guī)?；瘶?gòu)建、能夠部署和管理AI智能體的平臺。它的核心目標(biāo)是將模型能力，真正轉(zhuǎn)化為企業(yè)內(nèi)可協(xié)同、可管控、能直接創(chuàng)造價值的AI同事。

（來源：https://openai.com/index/introducing-openai-frontie）

過去幾年，盡管許多企業(yè)嘗試引入AI，但往往陷入了試點困境，一個個獨立的AI應(yīng)用像孤島一樣，缺乏對于企業(yè)整體業(yè)務(wù)背景的理解，難以融入核心流程。Frontier旨在解決這一問題，它為企業(yè)AI智能體提供了四大關(guān)鍵支撐：共享的業(yè)務(wù)背景理解、可靠的執(zhí)行環(huán)境、持續(xù)的學(xué)習(xí)優(yōu)化機制，以及明確的身份權(quán)限和安全邊界。

簡單來說，F(xiàn)rontier試圖像培訓(xùn)一位剛?cè)肼毜男聠T工一樣，來配置一個AI智能體。它會打通企業(yè)內(nèi)部固有的數(shù)據(jù)倉庫、CRM系統(tǒng)和內(nèi)部應(yīng)用，讓AI理解信息如何流動、決策在何處產(chǎn)生。

在此基礎(chǔ)之上，AI智能體可以在一個受控的執(zhí)行環(huán)境中，使用工具、運行代碼、處理文件，從而能夠?qū)嶋H地完成各種知識工作任務(wù)，并在過程中積累記憶，以便能夠越做越好而不是越做越差。同時，每個AI智能體都擁有獨立的身份和明確的權(quán)限護欄，確保其在敏感環(huán)境和受監(jiān)管的環(huán)境里也能被安全地使用。

目前，OpenAI已經(jīng)和惠普、甲骨文以及Uber等企業(yè)合作。OpenAI還舉了和一家大型制造商合作的案例，通過部署基于Frontier的智能體，后者將生產(chǎn)優(yōu)化分析工作從六周縮短到了一天。

其實也可以看出，OpenAI的變現(xiàn)愿望是非常強的，此次伴隨新模型一并推出Frontier，也反映出其戰(zhàn)略重心正從提供單一的模型API轉(zhuǎn)向深入的企業(yè)復(fù)雜工作量，深入到提供端到端解決方案的地步。對于希望將AI轉(zhuǎn)化為實際競爭優(yōu)勢的企業(yè)而言，F(xiàn)rontier或許是一個值得關(guān)注的備選方案。

而這一凌晨對決何嘗不是一個新的超級碗時刻？Anthropic的創(chuàng)始人本來就是OpenAI的前員工，讓這一對決更是增加了火藥味。

整體來看，Claude Opus 4.6的核心優(yōu)勢在于精細(xì)控制和可靠性，GPT-5.3-Codex則展現(xiàn)了OpenAI的系統(tǒng)整合能力。前者勝在深度和可靠，后者強在廣度和進化速度。未來到底孰強孰弱，主要還看誰家產(chǎn)品能夠轉(zhuǎn)化為真正不可替代的產(chǎn)業(yè)發(fā)展成果。

參考資料：

https://www.anthropic.com/news/claude-opus-4-6

https://openai.com/index/introducing-gpt-5-3-codex/

https://openai.com/index/introducing-openai-frontier/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.