網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

凌晨，GPT-5.5收復失地！Anthropic緊急出手

2026-04-24 08:12:24　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯心緣

智東西4月24日報道，今天凌晨，OpenAI智能體編程模型GPT?5.5正式發(fā)布！

GPT?5.5能更快地理解用戶的目標，擅長編寫和調(diào)試代碼、在線研究、分析數(shù)據(jù)、創(chuàng)建文檔和電子表格以及在多個工具之間協(xié)同操作。

▲OpenAI官宣推文（指路：https://x.com/OpenAI/status/2047376561205325845）

OpenAI團隊將其稱之為“這是我們迄今為止最智能、最直觀易用的模型，也是邁向在計算機上完成工作的全新方式的重要一步。”

Sam Altman本人評價該模型：“根據(jù)我的經(jīng)驗，它‘知道該做什么’。”

在性能上，GPT?5.5的提升在智能體編碼、計算機使用、知識型工作以及早期科學研究等領(lǐng)域尤為顯著——這些領(lǐng)域的進展依賴于跨上下文的推理和持續(xù)的自主行動。

在編程能力上，GPT?5.5全面超越了Gemini 3.1 Pro；在專業(yè)任務(wù)、計算機使用與視覺、工具使用以及抽象推理方面，其在大部分測試集的成績都高于Claude Opus 4.7和Gemini 3.1 Pro。

但在學術(shù)和工具使用能力上，GPT?5.5與Claude Opus 4.7和Gemini 3.1 Pro并未拉出明顯差距。

在速度上，GPT?5.5在實際服務(wù)中保持了與GPT?5.4相當?shù)拿縯oken延遲，同時實現(xiàn)了更高的智能水平。完成相同的Codex任務(wù)時，GPT?5.5使用的token數(shù)顯著更少，因此效率更高、能力也更強。

模型一經(jīng)發(fā)布，就有很多參與內(nèi)部測試的網(wǎng)友分享了他們的使用感受。

開源項目Claude Engineer的創(chuàng)建者、AI設(shè)計助手MagicPath的CEO Pietro Schirano分享稱，GPT-5.5只用了大約20分鐘就幫他自動對比了其項目兩個版本的代碼差異，然后基于正式版本創(chuàng)建了新分支，還將其他分支的所有改動完美合并了進去。

他還用GPT-5.5一次性生成了一個可玩的3D射擊游戲，游戲整體操作手感流暢，而且每一個圖形都是由Three.js從零生成的。

此外，Pietro Schirano讓GPT-5.5通過USB連接為他的Flipper Zero創(chuàng)建了應(yīng)用程序，并成功地將它們推送到了設(shè)備上。

Pietro Schirano感慨道：“GPT-5.5是我用過的最強大的工具。我第一次感覺自己不再受限于模型的功能，而只受限于我的想象力。訓練工作流程、不可能的優(yōu)化、通過USB進行硬件實驗。Vibe硬件時代開啟?！?/p>

AI工程師Peter Gostev深度體驗了GPT-5.5，并放出了他用GPT-5.5工作的幾個例子。他分享稱，用戶可以給GPT-5.5設(shè)定好步驟提示詞，GPT-5.5就會按照步驟逐項完成，親測至少可以穩(wěn)定自主運行7個小時。

Peter Gostev要求GPT-5.5創(chuàng)建一個帶有地標和季節(jié)變化的倫敦玩具鐵路，該模型一次性就出色地完成了任務(wù)。他對比發(fā)現(xiàn)，相比于GPT-5.4，GPT-5.5生成的作品在構(gòu)思上要宏大得多、邏輯更連貫，而且錯誤也更少。

波蘭波茲南密茨凱維奇大學數(shù)學系助理教授Bartosz Naskr?cki使用Codex中的GPT?5.5，僅憑一條提示詞，在11分鐘內(nèi)就構(gòu)建了一個代數(shù)幾何應(yīng)用，該應(yīng)用能夠可視化二次曲面的交線，并將結(jié)果曲線轉(zhuǎn)換為Weierstrass模型。

隨后，他擴展了該應(yīng)用，加入了更穩(wěn)定的奇點可視化功能以及可在后續(xù)工作中復用的精確系數(shù)。

知名AI測評網(wǎng)紅Matthew Berman稱其最近兩周都在測試GPT-5.5，他感受到OpenAI改進了模型的個性，他認為這是為了搶占更多個人智能體（如 OpenClaw）市場?！八幕卮鸶啙崱⒏裾嫒?、不那么正式。它確實有了自己的個性。”

價格上，GPT-5.5定價為每100萬輸入token 5美元，每100萬輸出token 30美元，上下文窗口為100萬token。與GPT-5.4相比，其價格整體貴了一倍。

GPT-5.5 Pro定價為每100萬輸入token 30美元，每100萬輸出token 180美元。

與Anthropic的Claude模型的價格相比，GPT-5.5的價格與Opus 4.7幾乎持平，在輸出定價上每100萬token比Opus 4.7貴5美元。

今天，GPT?5.5正在向ChatGPT和Codex中的Plus、Pro、Business和Enterprise用戶逐步推出，GPT?5.5 Pro則向ChatGPT中的 Pro、Business和Enterprise用戶推出。

在ChatGPT中，GPT?5.5 Thinking面向Plus、Pro、Business和Enterprise用戶開放。對于API開發(fā)者，gpt-5.5即將在Responses API和Chat Completions API中提供。

GPT-5.5發(fā)布之際，正值Claude Code最近性能變差屢遭投訴?；蛟S是感受到來自GPT-5.5的壓力，Anthropic今日發(fā)長文宣布已修復降智問題，并自今日起重置所有訂閱用戶的使用限制。

一、登頂編碼Agent榜首，成本僅為競品一半

OpenAI團隊稱，GPT?5.5是OpenAI迄今為止最強大的Agentic Coding模型。

Artificial Analysis智能指數(shù)?是由第三方機構(gòu)運行的10項評估的加權(quán)平均值，具體包括：AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ2-Bench Telecom。

Artificial Analysis官方發(fā)文稱，OpenAI的GPT-5.5（xhigh）在Terminal-Bench Hard、GDPval-AA以及APEX-Agents-AA中均處于領(lǐng)先地位。該模型僅在CritPt 和AA-LCR上落后于其他OpenAI模型，并在另外三項評估中僅次于Gemini 3.1 Pro Preview，綜合表現(xiàn)排名第一。

根據(jù)Artificial Analysis的智能指數(shù)，GPT?5.5在成績最高的同時，其成本僅為同類前沿編碼模型的一半。

在復雜執(zhí)行測試Terminal-Bench 2.0上，GPT?5.5的成績?yōu)?strong>82.7%。在真實世界問題解決測試SWE-Bench Pro上，它取得了58.6%的成績，單次端到端解決的任務(wù)數(shù)量超過以往模型。在內(nèi)部長周期任務(wù)測試Expert-SWE上，GPT?5.5同樣優(yōu)于GPT?5.4。

在所有這三項評估中，GPT?5.5在比GPT?5.4使用更少token的同時，得分均有提升。

該模型在編碼方面的優(yōu)勢在Codex中表現(xiàn)得尤為突出。在Codex中，GPT?5.5可以承擔從實現(xiàn)、重構(gòu)到調(diào)試、測試和驗證等一系列工程工作。

早期測試表明，GPT?5.5能更好地勝任實際工程工作所依賴的行為，例如在大型系統(tǒng)中保持上下文理解、針對模糊的故障進行推理、通過工具驗證假設(shè)，以及對相關(guān)的整個代碼庫進行變更同步。

例如，GPT?5.5可以使用NASA/JPL Horizons提供的獵戶座飛船、月球和太陽的矢量數(shù)據(jù)渲染出運行軌跡，并且還可以進行顯示縮放：

▲太空任務(wù)App

GPT?5.5還能夠制作出一個可以動態(tài)顯示地震頻次、地點等信息的追蹤網(wǎng)站：

▲地震追蹤

配合Codex，用戶可以使用GPT?5.5制作出可玩的3D游戲：

▲3D地牢競技場游戲

二、客服測試成績達98%，能自主瀏覽界面操作工具

由于GPT?5.5能更好地理解用戶意圖，它可以更自然地完成知識型工作的整個閉環(huán)：查找信息、理解重點、使用工具、檢查輸出結(jié)果，并將原始素材轉(zhuǎn)化為有用的成果。

在ChatGPT中，GPT?5.5 Thinking（思維模式）在編碼、研究、信息綜合與分析以及文檔密集型任務(wù)等專業(yè)性工作中表現(xiàn)出色。

基準測試方面，在規(guī)范知識型工作測試GDPva上，GPT?5.5獲得了84.9%的分數(shù)。在真實操作計算機測試OSWorld-Verified上，該模型達到了78.7%。在客服測試Tau2-bench Telecom上，GPT?5.5在未經(jīng)提示調(diào)優(yōu)的情況下達到了98.0%的分數(shù)。

GPT?5.5在其他知識型工作基準測試中也表現(xiàn)也很亮眼：在FinanceAgent上為60.0%，在內(nèi)部投資銀行建模任務(wù)上為88.5%，在OfficeQA Pro上為54.1%。

實際應(yīng)用中，在Codex中，GPT?5.5在生成文檔、電子表格和幻燈片演示方面優(yōu)于GPT?5.4。alpha測試人員表示，在運營研究、電子表格建模以及將雜亂無章的業(yè)務(wù)信息轉(zhuǎn)化為計劃等工作上，它的表現(xiàn)超過了以往的模型。

當結(jié)合Codex的計算機使用技能時，GPT?5.5模型似乎真的在與用戶一起使用計算機：它能查看屏幕上的內(nèi)容、點擊、打字、瀏覽界面，并在不同工具之間協(xié)同操作。

例如，OpenAI財務(wù)團隊使用Codex審閱了24771份K-1稅務(wù)表格，總計71637頁，所采用的工作流程幫助團隊節(jié)省了兩周的時間。

▲財務(wù)模型

用戶團隊則可以利用GPT?5.5設(shè)計并調(diào)試新客戶引導流程：

▲測試新用戶引導流程

三、發(fā)現(xiàn)拉姆齊數(shù)新證明，在遺傳學生物學表現(xiàn)亮眼

GPT?5.5在科學和技術(shù)研究工作流上的表現(xiàn)也有所進步。在科研中，研究人員需要探索一個想法、收集證據(jù)、檢驗假設(shè)、解讀結(jié)果，并決定下一步的嘗試方向。

用戶可以用GPT?5.5 Thing反復審閱稿件草稿、對技術(shù)論證進行壓力測試、提出分析建議，并協(xié)同處理代碼、筆記以及PDF上下文。GPT?5.5更擅長幫助研究人員從提出問題到進行實驗，再到最終產(chǎn)出成果。

GeneBench?是一個專注于遺傳學和定量生物學中多階段科學數(shù)據(jù)分析的新評估基準，GPT?5.5相較于GPT?5.4表現(xiàn)出明顯的提升。

這些問題要求模型在極少的監(jiān)督指導下，對可能存在歧義或錯誤的數(shù)據(jù)進行推理，應(yīng)對諸如隱藏混雜因素或質(zhì)控失敗等現(xiàn)實障礙，并正確實現(xiàn)和解讀現(xiàn)代統(tǒng)計方法?？紤]到這些任務(wù)通常相當于科學專家需要耗時數(shù)天的項目，該模型的表現(xiàn)令人矚目。

同樣，在圍繞真實世界生物信息學與數(shù)據(jù)分析設(shè)計的基準測試BixBench?上，GPT?5.5在已公布分數(shù)的模型中領(lǐng)先。

在安全方面，OpenAI團隊介紹稱，其為GPT?5.5配備了迄今為止最強大的安全防護措施。

他們在全套安全和準備框架下對該模型進行了評估，與內(nèi)部及外部紅隊成員合作，針對高級網(wǎng)絡(luò)安全和生物學能力增加了針對性測試，并在發(fā)布前收集了近200個值得信賴的早期合作伙伴在實際用例中的反饋。

結(jié)語：OpenAI向自主執(zhí)行更進一步

GPT-5.5的發(fā)布，標志著OpenAI正將大模型的能力內(nèi)核轉(zhuǎn)向執(zhí)行。

在追求更大參數(shù)與更強算力的行業(yè)熱潮中，GPT-5.5選擇了一條更務(wù)實的路徑：用更少的token完成更多的事。無論是編碼、知識工作還是科學研究，它都展示了效率與智能并非不可兼得。

其性價比、多工具協(xié)同能力以及安全防護機制，為開發(fā)者和企業(yè)用戶提供了更強大的生產(chǎn)力工具。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.