国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

凌晨,GPT-5.5收復(fù)失地!Anthropic緊急出手

0
分享至


智東西
作者 王涵
編輯 心緣

智東西4月24日報道,今天凌晨,OpenAI智能體編程模型GPT?5.5正式發(fā)布!

GPT?5.5能更快地理解用戶的目標(biāo),擅長編寫和調(diào)試代碼、在線研究、分析數(shù)據(jù)、創(chuàng)建文檔和電子表格以及在多個工具之間協(xié)同操作。


▲OpenAI官宣推文(指路:https://x.com/OpenAI/status/2047376561205325845)

OpenAI團(tuán)隊(duì)將其稱之為“這是我們迄今為止最智能、最直觀易用的模型,也是邁向在計算機(jī)上完成工作的全新方式的重要一步!

Sam Altman本人評價該模型:“根據(jù)我的經(jīng)驗(yàn),它‘知道該做什么’!


在性能上,GPT?5.5的提升在智能體編碼、計算機(jī)使用、知識型工作以及早期科學(xué)研究等領(lǐng)域尤為顯著——這些領(lǐng)域的進(jìn)展依賴于跨上下文的推理和持續(xù)的自主行動。

在編程能力上,GPT?5.5全面超越了Gemini 3.1 Pro;在專業(yè)任務(wù)、計算機(jī)使用與視覺、工具使用以及抽象推理方面,其在大部分測試集的成績都高于Claude Opus 4.7和Gemini 3.1 Pro。

但在學(xué)術(shù)和工具使用能力上,GPT?5.5與Claude Opus 4.7和Gemini 3.1 Pro并未拉出明顯差距。


在速度上,GPT?5.5在實(shí)際服務(wù)中保持了與GPT?5.4相當(dāng)?shù)拿縯oken延遲,同時實(shí)現(xiàn)了更高的智能水平。完成相同的Codex任務(wù)時,GPT?5.5使用的token數(shù)顯著更少,因此效率更高、能力也更強(qiáng)

模型一經(jīng)發(fā)布,就有很多參與內(nèi)部測試的網(wǎng)友分享了他們的使用感受。

開源項(xiàng)目Claude Engineer的創(chuàng)建者、AI設(shè)計助手MagicPath的CEO Pietro Schirano分享稱,GPT-5.5只用了大約20分鐘就幫他自動對比了其項(xiàng)目兩個版本的代碼差異,然后基于正式版本創(chuàng)建了新分支,還將其他分支的所有改動完美合并了進(jìn)去。


他還用GPT-5.5一次性生成了一個可玩的3D射擊游戲,游戲整體操作手感流暢,而且每一個圖形都是由Three.js從零生成的。

此外,Pietro Schirano讓GPT-5.5通過USB連接為他的Flipper Zero創(chuàng)建了應(yīng)用程序,并成功地將它們推送到了設(shè)備上。


Pietro Schirano感慨道:“GPT-5.5是我用過的最強(qiáng)大的工具。我第一次感覺自己不再受限于模型的功能,而只受限于我的想象力。訓(xùn)練工作流程、不可能的優(yōu)化、通過USB進(jìn)行硬件實(shí)驗(yàn)。Vibe硬件時代開啟!


AI工程師Peter Gostev深度體驗(yàn)了GPT-5.5,并放出了他用GPT-5.5工作的幾個例子。他分享稱,用戶可以給GPT-5.5設(shè)定好步驟提示詞,GPT-5.5就會按照步驟逐項(xiàng)完成,親測至少可以穩(wěn)定自主運(yùn)行7個小時。


Peter Gostev要求GPT-5.5創(chuàng)建一個帶有地標(biāo)和季節(jié)變化的倫敦玩具鐵路,該模型一次性就出色地完成了任務(wù)。他對比發(fā)現(xiàn),相比于GPT-5.4,GPT-5.5生成的作品在構(gòu)思上要宏大得多、邏輯更連貫,而且錯誤也更少。

波蘭波茲南密茨凱維奇大學(xué)數(shù)學(xué)系助理教授Bartosz Naskr?cki使用Codex中的GPT?5.5,僅憑一條提示詞,在11分鐘內(nèi)就構(gòu)建了一個代數(shù)幾何應(yīng)用,該應(yīng)用能夠可視化二次曲面的交線,并將結(jié)果曲線轉(zhuǎn)換為Weierstrass模型。

隨后,他擴(kuò)展了該應(yīng)用,加入了更穩(wěn)定的奇點(diǎn)可視化功能以及可在后續(xù)工作中復(fù)用的精確系數(shù)。


知名AI測評網(wǎng)紅Matthew Berman稱其最近兩周都在測試GPT-5.5,他感受到OpenAI改進(jìn)了模型的個性,他認(rèn)為這是為了搶占更多個人智能體(如 OpenClaw)市場。“它的回答更簡潔、更像真人、不那么正式。它確實(shí)有了自己的個性!


價格上,GPT-5.5定價為每100萬輸入token 5美元,每100萬輸出token 30美元,上下文窗口為100萬token。與GPT-5.4相比,其價格整體貴了一倍。

GPT-5.5 Pro定價為每100萬輸入token 30美元,每100萬輸出token 180美元


與Anthropic的Claude模型的價格相比,GPT-5.5的價格與Opus 4.7幾乎持平,在輸出定價上每100萬token比Opus 4.7貴5美元。


今天,GPT?5.5正在向ChatGPT和Codex中的Plus、Pro、Business和Enterprise用戶逐步推出,GPT?5.5 Pro則向ChatGPT中的 Pro、Business和Enterprise用戶推出。

在ChatGPT中,GPT?5.5 Thinking面向Plus、Pro、Business和Enterprise用戶開放。對于API開發(fā)者,gpt-5.5即將在Responses API和Chat Completions API中提供。

GPT-5.5發(fā)布之際,正值Claude Code最近性能變差屢遭投訴;蛟S是感受到來自GPT-5.5的壓力,Anthropic今日發(fā)長文宣布已修復(fù)降智問題,并自今日起重置所有訂閱用戶的使用限制。


一、登頂編碼Agent榜首,成本僅為競品一半

OpenAI團(tuán)隊(duì)稱,GPT?5.5是OpenAI迄今為止最強(qiáng)大的Agentic Coding模型。

Artificial Analysis智能指數(shù)?是由第三方機(jī)構(gòu)運(yùn)行的10項(xiàng)評估的加權(quán)平均值,具體包括:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ2-Bench Telecom。

Artificial Analysis官方發(fā)文稱,OpenAI的GPT-5.5(xhigh)在Terminal-Bench Hard、GDPval-AA以及APEX-Agents-AA中均處于領(lǐng)先地位。該模型僅在CritPt 和AA-LCR上落后于其他OpenAI模型,并在另外三項(xiàng)評估中僅次于Gemini 3.1 Pro Preview,綜合表現(xiàn)排名第一。


根據(jù)Artificial Analysis的智能指數(shù),GPT?5.5在成績最高的同時,其成本僅為同類前沿編碼模型的一半


在復(fù)雜執(zhí)行測試Terminal-Bench 2.0上,GPT?5.5的成績?yōu)?strong>82.7%。在 真實(shí)世界問題解決測試SWE-Bench Pro上,它取得了58.6%的成績,單次端到端解決的任務(wù)數(shù)量超過以往模型。在內(nèi)部長周期任務(wù)測試Expert-SWE上,GPT?5.5同樣優(yōu)于GPT?5.4。

在所有這三項(xiàng)評估中,GPT?5.5在比GPT?5.4使用更少token的同時,得分均有提升。


該模型在編碼方面的優(yōu)勢在Codex中表現(xiàn)得尤為突出。在Codex中,GPT?5.5可以承擔(dān)從實(shí)現(xiàn)、重構(gòu)到調(diào)試、測試和驗(yàn)證等一系列工程工作。

早期測試表明,GPT?5.5能更好地勝任實(shí)際工程工作所依賴的行為,例如在大型系統(tǒng)中保持上下文理解、針對模糊的故障進(jìn)行推理、通過工具驗(yàn)證假設(shè),以及對相關(guān)的整個代碼庫進(jìn)行變更同步。

例如,GPT?5.5可以使用NASA/JPL Horizons提供的獵戶座飛船、月球和太陽的矢量數(shù)據(jù)渲染出運(yùn)行軌跡,并且還可以進(jìn)行顯示縮放:

▲太空任務(wù)App

GPT?5.5還能夠制作出一個可以動態(tài)顯示地震頻次、地點(diǎn)等信息的追蹤網(wǎng)站:

▲地震追蹤

配合Codex,用戶可以使用GPT?5.5制作出可玩的3D游戲:

▲3D地牢競技場游戲

二、客服測試成績達(dá)98%,能自主瀏覽界面操作工具

由于GPT?5.5能更好地理解用戶意圖,它可以更自然地完成知識型工作的整個閉環(huán):查找信息、理解重點(diǎn)、使用工具、檢查輸出結(jié)果,并將原始素材轉(zhuǎn)化為有用的成果。

在ChatGPT中,GPT?5.5 Thinking(思維模式)在編碼、研究、信息綜合與分析以及文檔密集型任務(wù)等專業(yè)性工作中表現(xiàn)出色。

基準(zhǔn)測試方面,在規(guī)范知識型工作測試GDPva上,GPT?5.5獲得了84.9%的分?jǐn)?shù)。在真實(shí)操作計算機(jī)測試OSWorld-Verified上,該模型達(dá)到了78.7%。在客服測試Tau2-bench Telecom上,GPT?5.5在未經(jīng)提示調(diào)優(yōu)的情況下達(dá)到了98.0%的分?jǐn)?shù)。




GPT?5.5在其他知識型工作基準(zhǔn)測試中也表現(xiàn)也很亮眼:在FinanceAgent上為60.0%,在內(nèi)部投資銀行建模任務(wù)上為88.5%,在OfficeQA Pro上為54.1%。

實(shí)際應(yīng)用中,在Codex中,GPT?5.5在生成文檔、電子表格和幻燈片演示方面優(yōu)于GPT?5.4。alpha測試人員表示,在運(yùn)營研究、電子表格建模以及將雜亂無章的業(yè)務(wù)信息轉(zhuǎn)化為計劃等工作上,它的表現(xiàn)超過了以往的模型。

當(dāng)結(jié)合Codex的計算機(jī)使用技能時,GPT?5.5模型似乎真的在與用戶一起使用計算機(jī):它能查看屏幕上的內(nèi)容、點(diǎn)擊、打字、瀏覽界面,并在不同工具之間協(xié)同操作。

例如,OpenAI財務(wù)團(tuán)隊(duì)使用Codex審閱了24771份K-1稅務(wù)表格,總計71637頁,所采用的工作流程幫助團(tuán)隊(duì)節(jié)省了兩周的時間。

▲財務(wù)模型

用戶團(tuán)隊(duì)則可以利用GPT?5.5設(shè)計并調(diào)試新客戶引導(dǎo)流程:

▲測試新用戶引導(dǎo)流程

三、發(fā)現(xiàn)拉姆齊數(shù)新證明,在遺傳學(xué)生物學(xué)表現(xiàn)亮眼

GPT?5.5在科學(xué)和技術(shù)研究工作流上的表現(xiàn)也有所進(jìn)步。在科研中,研究人員需要探索一個想法、收集證據(jù)、檢驗(yàn)假設(shè)、解讀結(jié)果,并決定下一步的嘗試方向。

用戶可以用GPT?5.5 Thing反復(fù)審閱稿件草稿、對技術(shù)論證進(jìn)行壓力測試、提出分析建議,并協(xié)同處理代碼、筆記以及PDF上下文。GPT?5.5更擅長幫助研究人員從提出問題到進(jìn)行實(shí)驗(yàn),再到最終產(chǎn)出成果。

GeneBench?是一個專注于遺傳學(xué)和定量生物學(xué)中多階段科學(xué)數(shù)據(jù)分析的新評估基準(zhǔn),GPT?5.5相較于GPT?5.4表現(xiàn)出明顯的提升。


這些問題要求模型在極少的監(jiān)督指導(dǎo)下,對可能存在歧義或錯誤的數(shù)據(jù)進(jìn)行推理,應(yīng)對諸如隱藏混雜因素或質(zhì)控失敗等現(xiàn)實(shí)障礙,并正確實(shí)現(xiàn)和解讀現(xiàn)代統(tǒng)計方法?紤]到這些任務(wù)通常相當(dāng)于科學(xué)專家需要耗時數(shù)天的項(xiàng)目,該模型的表現(xiàn)令人矚目。

同樣,在圍繞真實(shí)世界生物信息學(xué)與數(shù)據(jù)分析設(shè)計的基準(zhǔn)測試BixBench?上,GPT?5.5在已公布分?jǐn)?shù)的模型中領(lǐng)先。


在安全方面,OpenAI團(tuán)隊(duì)介紹稱,其為GPT?5.5配備了迄今為止最強(qiáng)大的安全防護(hù)措施

他們在全套安全和準(zhǔn)備框架下對該模型進(jìn)行了評估,與內(nèi)部及外部紅隊(duì)成員合作,針對高級網(wǎng)絡(luò)安全和生物學(xué)能力增加了針對性測試,并在發(fā)布前收集了近200個值得信賴的早期合作伙伴在實(shí)際用例中的反饋。

結(jié)語:OpenAI向自主執(zhí)行更進(jìn)一步

GPT-5.5的發(fā)布,標(biāo)志著OpenAI正將大模型的能力內(nèi)核轉(zhuǎn)向執(zhí)行。

在追求更大參數(shù)與更強(qiáng)算力的行業(yè)熱潮中,GPT-5.5選擇了一條更務(wù)實(shí)的路徑:用更少的token完成更多的事。無論是編碼、知識工作還是科學(xué)研究,它都展示了效率與智能并非不可兼得。

其性價比、多工具協(xié)同能力以及安全防護(hù)機(jī)制,為開發(fā)者和企業(yè)用戶提供了更強(qiáng)大的生產(chǎn)力工具。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黑龍江慶安縣林草局副局長楊某家暴女兒致輕傷二級,目前已刑事立案

黑龍江慶安縣林草局副局長楊某家暴女兒致輕傷二級,目前已刑事立案

正在新聞
2026-04-23 17:09:10
森林狼本不愿和尼克斯進(jìn)行唐斯蘭德爾互換 直到迪文琴佐加入進(jìn)來

森林狼本不愿和尼克斯進(jìn)行唐斯蘭德爾互換 直到迪文琴佐加入進(jìn)來

仰臥撐FTUer
2026-04-24 10:02:06
一名參與強(qiáng)擄委總統(tǒng)馬杜羅的美軍特種兵被捕:在特朗普宣布前,賭馬杜羅下臺賺超40萬美元

一名參與強(qiáng)擄委總統(tǒng)馬杜羅的美軍特種兵被捕:在特朗普宣布前,賭馬杜羅下臺賺超40萬美元

魯中晨報
2026-04-24 07:28:05
爆料瘋傳!中南醫(yī)院院長落馬,“王護(hù)士長”被扒,各種獎拿到手軟

爆料瘋傳!中南醫(yī)院院長落馬,“王護(hù)士長”被扒,各種獎拿到手軟

許三歲
2026-04-23 11:43:44
個人獲賠1.2億元!江蘇這個案例創(chuàng)國內(nèi)之最

個人獲賠1.2億元!江蘇這個案例創(chuàng)國內(nèi)之最

現(xiàn)代快報
2026-04-23 18:03:34
女子被保安扇耳光后續(xù)!知情者曝內(nèi)情,保安身份被扒,學(xué);貞(yīng)

女子被保安扇耳光后續(xù)!知情者曝內(nèi)情,保安身份被扒,學(xué);貞(yīng)

180視角
2026-04-23 12:56:07
曝王思聰被綠!戀愛期間女友被金主包養(yǎng),難怪孩子像王健林也不認(rèn)

曝王思聰被綠!戀愛期間女友被金主包養(yǎng),難怪孩子像王健林也不認(rèn)

一盅情懷
2026-04-24 09:36:58
突發(fā)!杜蘭特!那完了,是真的完了…

突發(fā)!杜蘭特!那完了,是真的完了…

左右為籃
2026-04-24 09:57:39
人社部、財政部通知:支持大學(xué)畢業(yè)生“回爐”讀技校

人社部、財政部通知:支持大學(xué)畢業(yè)生“回爐”讀技校

深度報
2026-04-23 22:43:47
50億!國產(chǎn)保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

50億!國產(chǎn)保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

李砍柴
2026-04-23 16:41:54
庫克反思其15年CEO任期:蘋果地圖發(fā)布是“首個重大錯誤”,Apple Watch是最引以為豪的作品

庫克反思其15年CEO任期:蘋果地圖發(fā)布是“首個重大錯誤”,Apple Watch是最引以為豪的作品

魯中晨報
2026-04-23 13:16:04
決戰(zhàn)時刻:美軍增兵一萬即將抵達(dá),伊朗公布海底光纜圖!

決戰(zhàn)時刻:美軍增兵一萬即將抵達(dá),伊朗公布海底光纜圖!

勝研集
2026-04-23 14:26:39
眼紅!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

火山詩話
2026-04-23 07:11:53
狀元大熱門!迪班薩官宣參加今年NBA選秀 模板杜蘭特麥迪布朗

狀元大熱門!迪班薩官宣參加今年NBA選秀 模板杜蘭特麥迪布朗

醉臥浮生
2026-04-24 00:20:29
演員陳麗君晉升副主任!代表作《我的大觀園》《鏢人》等

演員陳麗君晉升副主任!代表作《我的大觀園》《鏢人》等

大象新聞
2026-04-24 01:17:03
曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

小莜讀史
2026-04-20 22:58:35
俄副外長:俄方獲邀以最高級別參加美國G20峰會

俄副外長:俄方獲邀以最高級別參加美國G20峰會

財聯(lián)社
2026-04-23 11:20:05
大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

火山詩話
2026-04-23 09:14:07
伊朗用血淚給中國換來了教訓(xùn):最大的敵人,并不是美國和以色列

伊朗用血淚給中國換來了教訓(xùn):最大的敵人,并不是美國和以色列

墨印齋
2026-04-23 15:42:00
各科醫(yī)生最想跟你說的大實(shí)話,很有用!收藏好?纯

各科醫(yī)生最想跟你說的大實(shí)話,很有用!收藏好?纯

華人星光
2026-04-23 12:00:20
2026-04-24 10:12:49
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11677文章數(shù) 117037關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.5正式上線:跑分更猛

頭條要聞

用了16年的學(xué)位證"失效"男子舉報自己 高校最新通報

頭條要聞

用了16年的學(xué)位證"失效"男子舉報自己 高校最新通報

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

藝術(shù)
親子
健康
公開課
軍事航空

藝術(shù)要聞

江青對聯(lián)驚艷眾人,書法與寫字的界限究竟在哪?

親子要聞

語出驚人的萌娃

干細(xì)胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進(jìn)入關(guān)懷版