国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

凌晨,GPT-5.5收復失地!Anthropic緊急出手

0
分享至


智東西
作者 王涵
編輯 心緣

智東西4月24日報道,今天凌晨,OpenAI智能體編程模型GPT?5.5正式發(fā)布!

GPT?5.5能更快地理解用戶的目標,擅長編寫和調(diào)試代碼、在線研究、分析數(shù)據(jù)、創(chuàng)建文檔和電子表格以及在多個工具之間協(xié)同操作。


▲OpenAI官宣推文(指路:https://x.com/OpenAI/status/2047376561205325845)

OpenAI團隊將其稱之為“這是我們迄今為止最智能、最直觀易用的模型,也是邁向在計算機上完成工作的全新方式的重要一步。”

Sam Altman本人評價該模型:“根據(jù)我的經(jīng)驗,它‘知道該做什么’。”


在性能上,GPT?5.5的提升在智能體編碼、計算機使用、知識型工作以及早期科學研究等領(lǐng)域尤為顯著——這些領(lǐng)域的進展依賴于跨上下文的推理和持續(xù)的自主行動。

在編程能力上,GPT?5.5全面超越了Gemini 3.1 Pro;在專業(yè)任務(wù)、計算機使用與視覺、工具使用以及抽象推理方面,其在大部分測試集的成績都高于Claude Opus 4.7和Gemini 3.1 Pro。

但在學術(shù)和工具使用能力上,GPT?5.5與Claude Opus 4.7和Gemini 3.1 Pro并未拉出明顯差距。


在速度上,GPT?5.5在實際服務(wù)中保持了與GPT?5.4相當?shù)拿縯oken延遲,同時實現(xiàn)了更高的智能水平。完成相同的Codex任務(wù)時,GPT?5.5使用的token數(shù)顯著更少,因此效率更高、能力也更強。

模型一經(jīng)發(fā)布,就有很多參與內(nèi)部測試的網(wǎng)友分享了他們的使用感受。

開源項目Claude Engineer的創(chuàng)建者、AI設(shè)計助手MagicPath的CEO Pietro Schirano分享稱,GPT-5.5只用了大約20分鐘就幫他自動對比了其項目兩個版本的代碼差異,然后基于正式版本創(chuàng)建了新分支,還將其他分支的所有改動完美合并了進去。


他還用GPT-5.5一次性生成了一個可玩的3D射擊游戲,游戲整體操作手感流暢,而且每一個圖形都是由Three.js從零生成的。

此外,Pietro Schirano讓GPT-5.5通過USB連接為他的Flipper Zero創(chuàng)建了應(yīng)用程序,并成功地將它們推送到了設(shè)備上。


Pietro Schirano感慨道:“GPT-5.5是我用過的最強大的工具。我第一次感覺自己不再受限于模型的功能,而只受限于我的想象力。訓練工作流程、不可能的優(yōu)化、通過USB進行硬件實驗。Vibe硬件時代開啟?!?/p>


AI工程師Peter Gostev深度體驗了GPT-5.5,并放出了他用GPT-5.5工作的幾個例子。他分享稱,用戶可以給GPT-5.5設(shè)定好步驟提示詞,GPT-5.5就會按照步驟逐項完成,親測至少可以穩(wěn)定自主運行7個小時。


Peter Gostev要求GPT-5.5創(chuàng)建一個帶有地標和季節(jié)變化的倫敦玩具鐵路,該模型一次性就出色地完成了任務(wù)。他對比發(fā)現(xiàn),相比于GPT-5.4,GPT-5.5生成的作品在構(gòu)思上要宏大得多、邏輯更連貫,而且錯誤也更少。

波蘭波茲南密茨凱維奇大學數(shù)學系助理教授Bartosz Naskr?cki使用Codex中的GPT?5.5,僅憑一條提示詞,在11分鐘內(nèi)就構(gòu)建了一個代數(shù)幾何應(yīng)用,該應(yīng)用能夠可視化二次曲面的交線,并將結(jié)果曲線轉(zhuǎn)換為Weierstrass模型。

隨后,他擴展了該應(yīng)用,加入了更穩(wěn)定的奇點可視化功能以及可在后續(xù)工作中復用的精確系數(shù)。


知名AI測評網(wǎng)紅Matthew Berman稱其最近兩周都在測試GPT-5.5,他感受到OpenAI改進了模型的個性,他認為這是為了搶占更多個人智能體(如 OpenClaw)市場?!八幕卮鸶啙崱⒏裾嫒?、不那么正式。它確實有了自己的個性。”


價格上,GPT-5.5定價為每100萬輸入token 5美元,每100萬輸出token 30美元,上下文窗口為100萬token。與GPT-5.4相比,其價格整體貴了一倍。

GPT-5.5 Pro定價為每100萬輸入token 30美元,每100萬輸出token 180美元


與Anthropic的Claude模型的價格相比,GPT-5.5的價格與Opus 4.7幾乎持平,在輸出定價上每100萬token比Opus 4.7貴5美元。


今天,GPT?5.5正在向ChatGPT和Codex中的Plus、Pro、Business和Enterprise用戶逐步推出,GPT?5.5 Pro則向ChatGPT中的 Pro、Business和Enterprise用戶推出。

在ChatGPT中,GPT?5.5 Thinking面向Plus、Pro、Business和Enterprise用戶開放。對于API開發(fā)者,gpt-5.5即將在Responses API和Chat Completions API中提供。

GPT-5.5發(fā)布之際,正值Claude Code最近性能變差屢遭投訴?;蛟S是感受到來自GPT-5.5的壓力,Anthropic今日發(fā)長文宣布已修復降智問題,并自今日起重置所有訂閱用戶的使用限制。


一、登頂編碼Agent榜首,成本僅為競品一半

OpenAI團隊稱,GPT?5.5是OpenAI迄今為止最強大的Agentic Coding模型。

Artificial Analysis智能指數(shù)?是由第三方機構(gòu)運行的10項評估的加權(quán)平均值,具體包括:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ2-Bench Telecom。

Artificial Analysis官方發(fā)文稱,OpenAI的GPT-5.5(xhigh)在Terminal-Bench Hard、GDPval-AA以及APEX-Agents-AA中均處于領(lǐng)先地位。該模型僅在CritPt 和AA-LCR上落后于其他OpenAI模型,并在另外三項評估中僅次于Gemini 3.1 Pro Preview,綜合表現(xiàn)排名第一。


根據(jù)Artificial Analysis的智能指數(shù),GPT?5.5在成績最高的同時,其成本僅為同類前沿編碼模型的一半。


在復雜執(zhí)行測試Terminal-Bench 2.0上,GPT?5.5的成績?yōu)?strong>82.7%。在 真實世界問題解決測試SWE-Bench Pro上,它取得了58.6%的成績,單次端到端解決的任務(wù)數(shù)量超過以往模型。在內(nèi)部長周期任務(wù)測試Expert-SWE上,GPT?5.5同樣優(yōu)于GPT?5.4。

在所有這三項評估中,GPT?5.5在比GPT?5.4使用更少token的同時,得分均有提升。


該模型在編碼方面的優(yōu)勢在Codex中表現(xiàn)得尤為突出。在Codex中,GPT?5.5可以承擔從實現(xiàn)、重構(gòu)到調(diào)試、測試和驗證等一系列工程工作。

早期測試表明,GPT?5.5能更好地勝任實際工程工作所依賴的行為,例如在大型系統(tǒng)中保持上下文理解、針對模糊的故障進行推理、通過工具驗證假設(shè),以及對相關(guān)的整個代碼庫進行變更同步。

例如,GPT?5.5可以使用NASA/JPL Horizons提供的獵戶座飛船、月球和太陽的矢量數(shù)據(jù)渲染出運行軌跡,并且還可以進行顯示縮放:

▲太空任務(wù)App

GPT?5.5還能夠制作出一個可以動態(tài)顯示地震頻次、地點等信息的追蹤網(wǎng)站:

▲地震追蹤

配合Codex,用戶可以使用GPT?5.5制作出可玩的3D游戲:

▲3D地牢競技場游戲

二、客服測試成績達98%,能自主瀏覽界面操作工具

由于GPT?5.5能更好地理解用戶意圖,它可以更自然地完成知識型工作的整個閉環(huán):查找信息、理解重點、使用工具、檢查輸出結(jié)果,并將原始素材轉(zhuǎn)化為有用的成果。

在ChatGPT中,GPT?5.5 Thinking(思維模式)在編碼、研究、信息綜合與分析以及文檔密集型任務(wù)等專業(yè)性工作中表現(xiàn)出色。

基準測試方面,在規(guī)范知識型工作測試GDPva上,GPT?5.5獲得了84.9%的分數(shù)。在真實操作計算機測試OSWorld-Verified上,該模型達到了78.7%。在客服測試Tau2-bench Telecom上,GPT?5.5在未經(jīng)提示調(diào)優(yōu)的情況下達到了98.0%的分數(shù)。




GPT?5.5在其他知識型工作基準測試中也表現(xiàn)也很亮眼:在FinanceAgent上為60.0%,在內(nèi)部投資銀行建模任務(wù)上為88.5%,在OfficeQA Pro上為54.1%

實際應(yīng)用中,在Codex中,GPT?5.5在生成文檔、電子表格和幻燈片演示方面優(yōu)于GPT?5.4。alpha測試人員表示,在運營研究、電子表格建模以及將雜亂無章的業(yè)務(wù)信息轉(zhuǎn)化為計劃等工作上,它的表現(xiàn)超過了以往的模型。

當結(jié)合Codex的計算機使用技能時,GPT?5.5模型似乎真的在與用戶一起使用計算機:它能查看屏幕上的內(nèi)容、點擊、打字、瀏覽界面,并在不同工具之間協(xié)同操作。

例如,OpenAI財務(wù)團隊使用Codex審閱了24771份K-1稅務(wù)表格,總計71637頁,所采用的工作流程幫助團隊節(jié)省了兩周的時間。

▲財務(wù)模型

用戶團隊則可以利用GPT?5.5設(shè)計并調(diào)試新客戶引導流程:

▲測試新用戶引導流程

三、發(fā)現(xiàn)拉姆齊數(shù)新證明,在遺傳學生物學表現(xiàn)亮眼

GPT?5.5在科學和技術(shù)研究工作流上的表現(xiàn)也有所進步。在科研中,研究人員需要探索一個想法、收集證據(jù)、檢驗假設(shè)、解讀結(jié)果,并決定下一步的嘗試方向。

用戶可以用GPT?5.5 Thing反復審閱稿件草稿、對技術(shù)論證進行壓力測試、提出分析建議,并協(xié)同處理代碼、筆記以及PDF上下文。GPT?5.5更擅長幫助研究人員從提出問題到進行實驗,再到最終產(chǎn)出成果。

GeneBench?是一個專注于遺傳學和定量生物學中多階段科學數(shù)據(jù)分析的新評估基準,GPT?5.5相較于GPT?5.4表現(xiàn)出明顯的提升。


這些問題要求模型在極少的監(jiān)督指導下,對可能存在歧義或錯誤的數(shù)據(jù)進行推理,應(yīng)對諸如隱藏混雜因素或質(zhì)控失敗等現(xiàn)實障礙,并正確實現(xiàn)和解讀現(xiàn)代統(tǒng)計方法??紤]到這些任務(wù)通常相當于科學專家需要耗時數(shù)天的項目,該模型的表現(xiàn)令人矚目。

同樣,在圍繞真實世界生物信息學與數(shù)據(jù)分析設(shè)計的基準測試BixBench?上,GPT?5.5在已公布分數(shù)的模型中領(lǐng)先。


在安全方面,OpenAI團隊介紹稱,其為GPT?5.5配備了迄今為止最強大的安全防護措施。

他們在全套安全和準備框架下對該模型進行了評估,與內(nèi)部及外部紅隊成員合作,針對高級網(wǎng)絡(luò)安全和生物學能力增加了針對性測試,并在發(fā)布前收集了近200個值得信賴的早期合作伙伴在實際用例中的反饋。

結(jié)語:OpenAI向自主執(zhí)行更進一步

GPT-5.5的發(fā)布,標志著OpenAI正將大模型的能力內(nèi)核轉(zhuǎn)向執(zhí)行。

在追求更大參數(shù)與更強算力的行業(yè)熱潮中,GPT-5.5選擇了一條更務(wù)實的路徑:用更少的token完成更多的事。無論是編碼、知識工作還是科學研究,它都展示了效率與智能并非不可兼得。

其性價比、多工具協(xié)同能力以及安全防護機制,為開發(fā)者和企業(yè)用戶提供了更強大的生產(chǎn)力工具。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
誰敢相信!0次全明星,季后賽場均21分,現(xiàn)役最強3D就是他

誰敢相信!0次全明星,季后賽場均21分,現(xiàn)役最強3D就是他

球毛鬼胎
2026-05-06 19:53:11
賽場邊“韓國棒球女神”火到歐美,無數(shù)網(wǎng)友“表白”,卻被證實是AI生成

賽場邊“韓國棒球女神”火到歐美,無數(shù)網(wǎng)友“表白”,卻被證實是AI生成

紅星新聞
2026-05-06 15:47:36
毛主席的壓力,到底有多大?放眼全球,無人能比!

毛主席的壓力,到底有多大?放眼全球,無人能比!

溫讀史
2026-05-05 15:56:05
她是吳宜澤姐姐,血脈壓制從小揪弟弟耳朵,長得漂亮是機車愛好者

她是吳宜澤姐姐,血脈壓制從小揪弟弟耳朵,長得漂亮是機車愛好者

以茶帶書
2026-05-05 16:57:12
52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

一盅情懷
2026-05-06 10:52:19
國乒女團變陣沖8強!蒯曼被棄用,王藝迪上陣,孫穎莎王曼昱登場

國乒女團變陣沖8強!蒯曼被棄用,王藝迪上陣,孫穎莎王曼昱登場

劉姚堯的文字城堡
2026-05-06 19:00:40
男子電梯倒地抽搐,6人圍觀無人施救而死亡!法院的判決全網(wǎng)震怒

男子電梯倒地抽搐,6人圍觀無人施救而死亡!法院的判決全網(wǎng)震怒

蝴蝶花雨話教育
2026-05-06 00:20:05
合同到期!CBA昔日王牌后衛(wèi)與主教練鬧翻,或離開老東家

合同到期!CBA昔日王牌后衛(wèi)與主教練鬧翻,或離開老東家

國籃會自強
2026-05-06 19:41:11
終身不讓吸,史上最嚴禁煙來了

終身不讓吸,史上最嚴禁煙來了

南風窗
2026-05-06 15:24:30
段鵬79歲臨終前說出隱情:和尚死在黑云寨,是因為和尚知道了……

段鵬79歲臨終前說出隱情:和尚死在黑云寨,是因為和尚知道了……

呆子的故事
2026-02-10 14:44:11
次輪8支球隊全部亮相,具備奪冠實力的只有2隊,騎士馬刺希望不大

次輪8支球隊全部亮相,具備奪冠實力的只有2隊,騎士馬刺希望不大

毒舌NBA
2026-05-06 14:06:31
002731、688121,被證監(jiān)會立案!

002731、688121,被證監(jiān)會立案!

證券時報e公司
2026-05-06 19:57:07
筱梅分享帶娃日常,抱小寶寶手法熟練!小寶寶嬰兒房舒適又寬敞!

筱梅分享帶娃日常,抱小寶寶手法熟練!小寶寶嬰兒房舒適又寬敞!

觀察者海風
2026-05-06 18:00:11
斯內(nèi)德打趣:歐足聯(lián)應(yīng)直接把拜仁和巴黎的比賽設(shè)置成歐冠決賽

斯內(nèi)德打趣:歐足聯(lián)應(yīng)直接把拜仁和巴黎的比賽設(shè)置成歐冠決賽

懂球帝
2026-05-06 08:13:34
波切蒂諾爆料:姆巴佩和梅西在巴黎踢不到一塊去

波切蒂諾爆料:姆巴佩和梅西在巴黎踢不到一塊去

體壇周報
2026-05-06 10:36:14
威海市醫(yī)療保障局黨組成員、三級調(diào)研員于華偉接受審查調(diào)查

威海市醫(yī)療保障局黨組成員、三級調(diào)研員于華偉接受審查調(diào)查

齊魯壹點
2026-05-06 18:07:39
秦昊真坦誠?。汉鸵聊莒o結(jié)婚時,她卡里有6000萬,我就20萬

秦昊真坦誠?。汉鸵聊莒o結(jié)婚時,她卡里有6000萬,我就20萬

阿廢冷眼觀察所
2026-05-06 15:16:12
倫敦世乒賽:大逆轉(zhuǎn)!國乒3:1晉級8強,王楚欽拿2分,梁靖崑輸球

倫敦世乒賽:大逆轉(zhuǎn)!國乒3:1晉級8強,王楚欽拿2分,梁靖崑輸球

國乒二三事
2026-05-06 19:10:53
50萬鎊獎金如何花?吳宜澤將在英國買一套房,墨菲呼吁向中國學習

50萬鎊獎金如何花?吳宜澤將在英國買一套房,墨菲呼吁向中國學習

侃球熊弟
2026-05-06 01:24:34
上千噸香蕉爛在手里,菲律賓香蕉協(xié)會:中國斷了30萬蕉農(nóng)的生計!

上千噸香蕉爛在手里,菲律賓香蕉協(xié)會:中國斷了30萬蕉農(nóng)的生計!

據(jù)說說娛樂
2026-05-06 14:56:48
2026-05-06 20:32:50
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11749文章數(shù) 117061關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應(yīng)

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應(yīng)

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

最新GDP!全國30強城市,又變了

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

游戲
親子
本地
公開課
軍事航空

《生化危機9》大量廢案曝光 里昂有8項身體強化

親子要聞

童心寄星河,這份航天熱愛太珍貴。

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

實施不到48小時 特朗普緊急喊停"霍爾木茲自由計劃"

無障礙瀏覽 進入關(guān)懷版