国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

凌晨,GPT-5.5收復失地!Anthropic緊急出手

0
分享至


智東西
作者 王涵
編輯 心緣

智東西4月24日報道,今天凌晨,OpenAI智能體編程模型GPT?5.5正式發(fā)布

GPT?5.5能更快地理解用戶的目標,擅長編寫和調試代碼、在線研究、分析數(shù)據(jù)、創(chuàng)建文檔和電子表格以及在多個工具之間協(xié)同操作。


▲OpenAI官宣推文(指路:https://x.com/OpenAI/status/2047376561205325845)

OpenAI團隊將其稱之為“這是我們迄今為止最智能、最直觀易用的模型,也是邁向在計算機上完成工作的全新方式的重要一步。”

Sam Altman本人評價該模型:“根據(jù)我的經(jīng)驗,它‘知道該做什么’。”


在性能上,GPT?5.5的提升在智能體編碼、計算機使用、知識型工作以及早期科學研究等領域尤為顯著——這些領域的進展依賴于跨上下文的推理和持續(xù)的自主行動。

在編程能力上,GPT?5.5全面超越了Gemini 3.1 Pro;在專業(yè)任務、計算機使用與視覺、工具使用以及抽象推理方面,其在大部分測試集的成績都高于Claude Opus 4.7和Gemini 3.1 Pro。

但在學術和工具使用能力上,GPT?5.5與Claude Opus 4.7和Gemini 3.1 Pro并未拉出明顯差距。


在速度上,GPT?5.5在實際服務中保持了與GPT?5.4相當?shù)拿縯oken延遲,同時實現(xiàn)了更高的智能水平。完成相同的Codex任務時,GPT?5.5使用的token數(shù)顯著更少,因此效率更高、能力也更強。

模型一經(jīng)發(fā)布,就有很多參與內部測試的網(wǎng)友分享了他們的使用感受。

開源項目Claude Engineer的創(chuàng)建者、AI設計助手MagicPath的CEO Pietro Schirano分享稱,GPT-5.5只用了大約20分鐘就幫他自動對比了其項目兩個版本的代碼差異,然后基于正式版本創(chuàng)建了新分支,還將其他分支的所有改動完美合并了進去。


他還用GPT-5.5一次性生成了一個可玩的3D射擊游戲,游戲整體操作手感流暢,而且每一個圖形都是由Three.js從零生成的。

此外,Pietro Schirano讓GPT-5.5通過USB連接為他的Flipper Zero創(chuàng)建了應用程序,并成功地將它們推送到了設備上。


Pietro Schirano感慨道:“GPT-5.5是我用過的最強大的工具。我第一次感覺自己不再受限于模型的功能,而只受限于我的想象力。訓練工作流程、不可能的優(yōu)化、通過USB進行硬件實驗。Vibe硬件時代開啟!


AI工程師Peter Gostev深度體驗了GPT-5.5,并放出了他用GPT-5.5工作的幾個例子。他分享稱,用戶可以給GPT-5.5設定好步驟提示詞,GPT-5.5就會按照步驟逐項完成,親測至少可以穩(wěn)定自主運行7個小時。


Peter Gostev要求GPT-5.5創(chuàng)建一個帶有地標和季節(jié)變化的倫敦玩具鐵路,該模型一次性就出色地完成了任務。他對比發(fā)現(xiàn),相比于GPT-5.4,GPT-5.5生成的作品在構思上要宏大得多、邏輯更連貫,而且錯誤也更少。

波蘭波茲南密茨凱維奇大學數(shù)學系助理教授Bartosz Naskr?cki使用Codex中的GPT?5.5,僅憑一條提示詞,在11分鐘內就構建了一個代數(shù)幾何應用,該應用能夠可視化二次曲面的交線,并將結果曲線轉換為Weierstrass模型。

隨后,他擴展了該應用,加入了更穩(wěn)定的奇點可視化功能以及可在后續(xù)工作中復用的精確系數(shù)。


知名AI測評網(wǎng)紅Matthew Berman稱其最近兩周都在測試GPT-5.5,他感受到OpenAI改進了模型的個性,他認為這是為了搶占更多個人智能體(如 OpenClaw)市場!八幕卮鸶啙崱⒏裾嫒、不那么正式。它確實有了自己的個性。”


價格上,GPT-5.5定價為每100萬輸入token 5美元,每100萬輸出token 30美元,上下文窗口為100萬token。與GPT-5.4相比,其價格整體貴了一倍。

GPT-5.5 Pro定價為每100萬輸入token 30美元,每100萬輸出token 180美元


與Anthropic的Claude模型的價格相比,GPT-5.5的價格與Opus 4.7幾乎持平,在輸出定價上每100萬token比Opus 4.7貴5美元。


今天,GPT?5.5正在向ChatGPT和Codex中的Plus、Pro、Business和Enterprise用戶逐步推出,GPT?5.5 Pro則向ChatGPT中的 Pro、Business和Enterprise用戶推出。

在ChatGPT中,GPT?5.5 Thinking面向Plus、Pro、Business和Enterprise用戶開放。對于API開發(fā)者,gpt-5.5即將在Responses API和Chat Completions API中提供。

GPT-5.5發(fā)布之際,正值Claude Code最近性能變差屢遭投訴;蛟S是感受到來自GPT-5.5的壓力,Anthropic今日發(fā)長文宣布已修復降智問題,并自今日起重置所有訂閱用戶的使用限制。


一、登頂編碼Agent榜首,成本僅為競品一半

OpenAI團隊稱,GPT?5.5是OpenAI迄今為止最強大的Agentic Coding模型

Artificial Analysis智能指數(shù)?是由第三方機構運行的10項評估的加權平均值,具體包括:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ2-Bench Telecom。

Artificial Analysis官方發(fā)文稱,OpenAI的GPT-5.5(xhigh)在Terminal-Bench Hard、GDPval-AA以及APEX-Agents-AA中均處于領先地位。該模型僅在CritPt 和AA-LCR上落后于其他OpenAI模型,并在另外三項評估中僅次于Gemini 3.1 Pro Preview,綜合表現(xiàn)排名第一。


根據(jù)Artificial Analysis的智能指數(shù),GPT?5.5在成績最高的同時,其成本僅為同類前沿編碼模型的一半


在復雜執(zhí)行測試Terminal-Bench 2.0上,GPT?5.5的成績?yōu)?strong>82.7%。在 真實世界問題解決測試SWE-Bench Pro上,它取得了58.6%的成績,單次端到端解決的任務數(shù)量超過以往模型。在內部長周期任務測試Expert-SWE上,GPT?5.5同樣優(yōu)于GPT?5.4。

在所有這三項評估中,GPT?5.5在比GPT?5.4使用更少token的同時,得分均有提升。


該模型在編碼方面的優(yōu)勢在Codex中表現(xiàn)得尤為突出。在Codex中,GPT?5.5可以承擔從實現(xiàn)、重構到調試、測試和驗證等一系列工程工作。

早期測試表明,GPT?5.5能更好地勝任實際工程工作所依賴的行為,例如在大型系統(tǒng)中保持上下文理解、針對模糊的故障進行推理、通過工具驗證假設,以及對相關的整個代碼庫進行變更同步。

例如,GPT?5.5可以使用NASA/JPL Horizons提供的獵戶座飛船、月球和太陽的矢量數(shù)據(jù)渲染出運行軌跡,并且還可以進行顯示縮放:

▲太空任務App

GPT?5.5還能夠制作出一個可以動態(tài)顯示地震頻次、地點等信息的追蹤網(wǎng)站:

▲地震追蹤

配合Codex,用戶可以使用GPT?5.5制作出可玩的3D游戲:

▲3D地牢競技場游戲

二、客服測試成績達98%,能自主瀏覽界面操作工具

由于GPT?5.5能更好地理解用戶意圖,它可以更自然地完成知識型工作的整個閉環(huán):查找信息、理解重點、使用工具、檢查輸出結果,并將原始素材轉化為有用的成果。

在ChatGPT中,GPT?5.5 Thinking(思維模式)在編碼、研究、信息綜合與分析以及文檔密集型任務等專業(yè)性工作中表現(xiàn)出色。

基準測試方面,在規(guī)范知識型工作測試GDPva上,GPT?5.5獲得了84.9%的分數(shù)。在真實操作計算機測試OSWorld-Verified上,該模型達到了78.7%。在客服測試Tau2-bench Telecom上,GPT?5.5在未經(jīng)提示調優(yōu)的情況下達到了98.0%的分數(shù)。




GPT?5.5在其他知識型工作基準測試中也表現(xiàn)也很亮眼:在FinanceAgent上為60.0%,在內部投資銀行建模任務上為88.5%,在OfficeQA Pro上為54.1%

實際應用中,在Codex中,GPT?5.5在生成文檔、電子表格和幻燈片演示方面優(yōu)于GPT?5.4。alpha測試人員表示,在運營研究、電子表格建模以及將雜亂無章的業(yè)務信息轉化為計劃等工作上,它的表現(xiàn)超過了以往的模型。

當結合Codex的計算機使用技能時,GPT?5.5模型似乎真的在與用戶一起使用計算機:它能查看屏幕上的內容、點擊、打字、瀏覽界面,并在不同工具之間協(xié)同操作。

例如,OpenAI財務團隊使用Codex審閱了24771份K-1稅務表格,總計71637頁,所采用的工作流程幫助團隊節(jié)省了兩周的時間。

▲財務模型

用戶團隊則可以利用GPT?5.5設計并調試新客戶引導流程:

▲測試新用戶引導流程

三、發(fā)現(xiàn)拉姆齊數(shù)新證明,在遺傳學生物學表現(xiàn)亮眼

GPT?5.5在科學和技術研究工作流上的表現(xiàn)也有所進步。在科研中,研究人員需要探索一個想法、收集證據(jù)、檢驗假設、解讀結果,并決定下一步的嘗試方向。

用戶可以用GPT?5.5 Thing反復審閱稿件草稿、對技術論證進行壓力測試、提出分析建議,并協(xié)同處理代碼、筆記以及PDF上下文。GPT?5.5更擅長幫助研究人員從提出問題到進行實驗,再到最終產(chǎn)出成果。

GeneBench?是一個專注于遺傳學和定量生物學中多階段科學數(shù)據(jù)分析的新評估基準,GPT?5.5相較于GPT?5.4表現(xiàn)出明顯的提升。


這些問題要求模型在極少的監(jiān)督指導下,對可能存在歧義或錯誤的數(shù)據(jù)進行推理,應對諸如隱藏混雜因素或質控失敗等現(xiàn)實障礙,并正確實現(xiàn)和解讀現(xiàn)代統(tǒng)計方法?紤]到這些任務通常相當于科學專家需要耗時數(shù)天的項目,該模型的表現(xiàn)令人矚目。

同樣,在圍繞真實世界生物信息學與數(shù)據(jù)分析設計的基準測試BixBench?上,GPT?5.5在已公布分數(shù)的模型中領先。


在安全方面,OpenAI團隊介紹稱,其為GPT?5.5配備了迄今為止最強大的安全防護措施。

他們在全套安全和準備框架下對該模型進行了評估,與內部及外部紅隊成員合作,針對高級網(wǎng)絡安全和生物學能力增加了針對性測試,并在發(fā)布前收集了近200個值得信賴的早期合作伙伴在實際用例中的反饋。

結語:OpenAI向自主執(zhí)行更進一步

GPT-5.5的發(fā)布,標志著OpenAI正將大模型的能力內核轉向執(zhí)行。

在追求更大參數(shù)與更強算力的行業(yè)熱潮中,GPT-5.5選擇了一條更務實的路徑:用更少的token完成更多的事。無論是編碼、知識工作還是科學研究,它都展示了效率與智能并非不可兼得。

其性價比、多工具協(xié)同能力以及安全防護機制,為開發(fā)者和企業(yè)用戶提供了更強大的生產(chǎn)力工具。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2027款寶馬X5外觀引爭議?雙腎變“豬鼻子”,車主:不適應

2027款寶馬X5外觀引爭議?雙腎變“豬鼻子”,車主:不適應

汽車網(wǎng)評
2026-04-23 22:56:32
大量特務被捕,美國中情局叫苦連天,中國為何能讓間諜寸步難行?

大量特務被捕,美國中情局叫苦連天,中國為何能讓間諜寸步難行?

生活新鮮市
2026-04-23 19:55:31
福建富豪許世輝超市內湊孫!緊盯特價商品,獨子去世,曝女婿上門

福建富豪許世輝超市內湊孫!緊盯特價商品,獨子去世,曝女婿上門

裕豐娛間說
2026-04-23 17:26:11
八登春晚演員作死被捕,56歲面相大變,老搭檔斷絕往來

八登春晚演員作死被捕,56歲面相大變,老搭檔斷絕往來

落雪聽梅a
2026-04-24 04:18:02
拜仁下賽季主場球衣曝光:金色元素回歸,預計在對科隆前發(fā)售

拜仁下賽季主場球衣曝光:金色元素回歸,預計在對科隆前發(fā)售

懂球帝
2026-04-24 00:59:01
三方交易炸場?歐文聯(lián)手華子,戈貝爾遠赴快船,獨行俠徹底重建!

三方交易炸場?歐文聯(lián)手華子,戈貝爾遠赴快船,獨行俠徹底重建!

體育大朋說
2026-04-23 11:05:03
張雪機車被圍堵了,同行不修它的車,直播修車成唯一出路,這事兒真不是演的

張雪機車被圍堵了,同行不修它的車,直播修車成唯一出路,這事兒真不是演的

陳意小可愛
2026-04-24 00:03:15
心臟決定壽命,建議中老年人別太節(jié)儉,常吃3樣,身強體壯更長壽

心臟決定壽命,建議中老年人別太節(jié)儉,常吃3樣,身強體壯更長壽

江江食研社
2026-02-10 20:30:07
上海新房市場,開始反轉了

上海新房市場,開始反轉了

魔都財觀
2026-04-24 07:39:55
又一催收巨頭被查,警方出動兩輛大巴連鍋端

又一催收巨頭被查,警方出動兩輛大巴連鍋端

鷂石周說
2026-04-23 20:26:06
一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發(fā)出來了

一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發(fā)出來了

林子說事
2026-04-23 12:56:34
1979年計劃生育,一家只準生一個,陳云:搞不好要被罵斷子絕孫

1979年計劃生育,一家只準生一個,陳云:搞不好要被罵斷子絕孫

觀史搜尋著
2026-03-19 06:44:44
他是人民的好總理,65歲官至副國級,為人低調清廉,晚年捐200萬

他是人民的好總理,65歲官至副國級,為人低調清廉,晚年捐200萬

阿柒的訊
2026-04-24 08:36:07
知乎高贊帖!為什么女兒反應這么強烈?

知乎高贊帖!為什么女兒反應這么強烈?

丫頭舫
2026-04-23 10:17:08
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
陳嘉庚先生回憶:當年去延安,毛主席為了招待我,連雞肉都是借的

陳嘉庚先生回憶:當年去延安,毛主席為了招待我,連雞肉都是借的

東哥講歷史1
2025-08-16 01:32:44
“秀才”相當于如今什么學歷?說出來可別不信,別被電視劇誤導了

“秀才”相當于如今什么學歷?說出來可別不信,別被電視劇誤導了

瑩瑩的歷史說
2026-04-23 00:44:55
生姜立大功?美國研究發(fā)現(xiàn):生姜可在48小時內清除50%老化細胞?

生姜立大功?美國研究發(fā)現(xiàn):生姜可在48小時內清除50%老化細胞?

芹姐說生活
2026-04-21 14:45:08
何潤東夫婦現(xiàn)身東陽街頭,兩人騎自行車買早餐!林姵希氣質出眾!

何潤東夫婦現(xiàn)身東陽街頭,兩人騎自行車買早餐!林姵希氣質出眾!

黔鄉(xiāng)小姊妹
2026-04-24 08:21:16
西漢姆聯(lián)混亂讓努諾面臨幾乎不可能的保級任務

西漢姆聯(lián)混亂讓努諾面臨幾乎不可能的保級任務

綠茵情報局
2026-04-24 02:56:39
2026-04-24 10:32:49
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11678文章數(shù) 117037關注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.5正式上線:跑分更猛

頭條要聞

用了16年的學位證"失效"男子舉報自己 高校最新通報

頭條要聞

用了16年的學位證"失效"男子舉報自己 高校最新通報

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態(tài)度原創(chuàng)

房產(chǎn)
藝術
親子
數(shù)碼
公開課

房產(chǎn)要聞

三亞安居房,突然官宣!

藝術要聞

江青對聯(lián)驚艷眾人,書法與寫字的界限究竟在哪?

親子要聞

語出驚人的萌娃

數(shù)碼要聞

重磅回歸!當貝超級盒子正式開啟預約 4月27日全網(wǎng)開售

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版