国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2深夜炸場,評測碾壓谷歌Gemini 3 Pro,真正的打工人利器

0
分享至

  作者|沐風

  來源|AI先鋒官

  上周,OpenAI CEO奧特曼剛宣布完公司進入“紅色警戒”(Code Red)狀態(tài),要求團隊將工作重心轉(zhuǎn)移到提高ChatGPT的性能和用戶體驗上后。

  就在今天,OpenAI發(fā)布了最新的頂級模型 GPT-5.2系列。

  GPT-5.2 將向 ChatGPT 付費用戶開放,并通過 API 提供給開發(fā)者,一共分為三個系列:

  GPT?5.2 Instant(即時版)

  GPT?5.2 Thinking(思考版)

  GPT?5.2 Pro(專業(yè)版)

  在OpenAI官方公布的基準測試中,它幾乎對Gemini 3 Pro、Claude Opus 4.5實現(xiàn)了全方位碾壓。

  

  值得注意的是,GPT?5.2 Thinking在AIME 2025(數(shù)學)的分數(shù)達到了滿分,Gemini 3 Pro 的分數(shù)是 95%。

  OpenAI應(yīng)用CEO Fidji Simo曾說過,GPT-5.2 的設(shè)計目標就是為人們創(chuàng)造更多經(jīng)濟價值。

  那么如何創(chuàng)造呢?

  那就不得不提到GPT-5.2的拿手好戲:制作電子表格、構(gòu)建演示文稿、編寫代碼、理解圖像、處理超長上下文、使用工具,以及執(zhí)行復(fù)雜的多步驟項目等等。

  空口無憑,讓我們先來看看數(shù)據(jù)。

  在OpenAI新出的基準測試GDPval(覆蓋 44 個職業(yè)、針對明確知識工作任務(wù)的評估體系)中,GPT-5.2 Thinking 在70.9%的任務(wù)上勝過或打平行業(yè)專家,GPT-5.2 Pro更高,為74.1%。

  

  主要測試內(nèi)容為制作演示文稿、電子表格以及其他專業(yè)產(chǎn)出物。

  官方還放出了對比圖,GPT-5.2 做的表格比GPT-5.1確實精細很多。

  

  一個評審員對此的評價是:“看起來像是一個有員工的專業(yè)公司做的,布局和建議都很專業(yè),雖然還有一些小錯誤需要修正?!?/p>

  另外,GPT-5.2 Thinking生成輸出的速度也超過人類專家11 倍以上,成本不到人類專家的1%。

  OpenAI 聲稱這是AI模型首次達到了“人類專家水平”。

  在ARC-AGI放出的測試中,此前o3 (High) 在ARC-AGI-1測試得分為88%,平均每項任務(wù)成本為4500美元。

  而GPT-5.2 Pro (X-High) 最新SOTA得分為90.5%,是第一個突破90%的模型,它的平均任務(wù)成本僅為11.64美元,在一年內(nèi)效率提高了約390倍。

  

  ARC-AGI-2(抽象推理)的分數(shù)是 52.9%,相較此前翻了三倍,對比Gemini 3 Pro是 31.1 %。

  

  GPT-5.2 Thinking的代碼能力也同樣刷新了紀錄:

  在SWE-bench Verified上,得分達到80%。

  在SWE-Bench Pro上,得分達到55.6%。

  

  SWE-Bench Pro是新的代碼基準測試,比SWE-bench Verified更難,涵蓋四種編程語言,不只是Python,更接近真實軟件工程。

  早期測試者特別提到,GPT-5.2在前端的能力也明顯提升了,尤其是3D和復(fù)雜UI。

  官方也放出了由單prompt生成的demo:

  

  同時,GPT-5.2 Thinking在長文檔處理方面的表現(xiàn)也很亮眼。

  在OpenAI自制的MRCRv2(長文檔中多個信息點的整合能力)評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4-needle上達到接近100%準確率的模型。

  

  不過,更難的8 needle版還是有明顯下降。

  

  GPT-5.2 Thinking的視覺能力也明顯提升,錯誤率基本減半。

  在CharXiv Reasoning測試中,GPT-5.2 Thinking得分達到88.7%,GPT-5.1是80.3%。

  

  在ScreenSpot-Pro測試中,GPT-5.2 Thinking得分達到86.3%。GPT-5.1 是 64.2%。

  

  在官方放出的示例中,OpenAI 要求模型識別輸入圖像中的組件,并返回帶有大致邊界框的標簽。

  

  即使在低質(zhì)量圖像上,GPT-5.2 也能識別出主要區(qū)域,并放置有時能與每個組件真實位置相匹配的框;而 GPT-5.1 僅標記了少數(shù)幾個部分,且對其空間排列的理解要弱得多。

  而且,GPT-5.2 Thinking 的幻覺比GPT-5.1 Thinking更少了。

  在一組去標識化的ChatGPT查詢中,前者包含錯誤的回答相對減少了30%。

  

  最后,我們來聊聊價格,GPT-5.2的價格一如既往的貴到離譜。

  GPT-5.2的定價為1.75美元/百萬輸入Token,14美元/百萬輸出Token,緩存輸入有90%的折扣,比GPT-5.1貴40%。

  ChatGPT訂閱價格不變。

  

  但是!

  在多個智能體評估中,盡管GPT-5.2的每Token成本更高,但GPT-5.2由于更高的Token效率,性價比反而更高。

  ChatGPT 將于今日開始逐步推出 GPT-5.2(包括 Instant、Thinking 和 Pro 版本),首先面向付費用戶(Plus、Pro、Go、Business 和 Enterprise 版本)提供。

  為確保 ChatGPT 的流暢性和穩(wěn)定性,GPT-5.2 將分階段部署,在 ChatGPT 中,付費用戶仍可在三個月內(nèi)繼續(xù)使用 GPT-5.1(舊版模式),之后 GPT-5.1 將逐步下線。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李亞鵬找到醫(yī)院新址,直播眼里泛淚,房東心態(tài)崩了,只求過個好年

李亞鵬找到醫(yī)院新址,直播眼里泛淚,房東心態(tài)崩了,只求過個好年

子芫伴你成長
2026-01-25 08:10:03
"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

"第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

毒sir財經(jīng)
2025-12-08 22:57:40
終止重組一字跌停,業(yè)績下滑閃崩跌停,今日2股地板收盤!

終止重組一字跌停,業(yè)績下滑閃崩跌停,今日2股地板收盤!

財經(jīng)智多星
2026-01-27 15:37:41
致命七日!50架F-35鎖死伊朗,十年棄殲-10C終釀防空絕境

致命七日!50架F-35鎖死伊朗,十年棄殲-10C終釀防空絕境

星辰夜語
2026-01-27 18:54:15
81歲林豆豆現(xiàn)狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

81歲林豆豆現(xiàn)狀:已退休23年,獨居在北京老房子,用閱讀打發(fā)時間

攬星河的筆記
2025-11-12 12:36:17
1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當場下一死命令,事后宋慶齡感慨:主席真聰明

1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當場下一死命令,事后宋慶齡感慨:主席真聰明

寄史言志
2025-12-17 16:08:14
這是李宗仁和白崇禧的真實容貌,不是演員扮演

這是李宗仁和白崇禧的真實容貌,不是演員扮演

手工制作阿殲
2026-01-27 14:52:44
陸游81歲寫下一首梅花詩,短短二十八個字,寫盡人間最美相思!

陸游81歲寫下一首梅花詩,短短二十八個字,寫盡人間最美相思!

銘記歷史呀
2026-01-26 19:50:33
美國華人直言:中國手機掃碼支付是最不智能的發(fā)明!

美國華人直言:中國手機掃碼支付是最不智能的發(fā)明!

阿傖說事
2026-01-20 12:53:01
騰訊總裁劉熾平談AI競爭:字節(jié)是大力出奇跡,騰訊是常青大師

騰訊總裁劉熾平談AI競爭:字節(jié)是大力出奇跡,騰訊是常青大師

電廠
2026-01-27 18:44:14
上海疾控:尼帕病毒本地傳播風險較低

上海疾控:尼帕病毒本地傳播風險較低

上觀新聞
2026-01-27 18:53:11
美國大使威脅:若加拿大不推進采購88架F-35戰(zhàn)機 美軍戰(zhàn)機將更頻繁進入加領(lǐng)空

美國大使威脅:若加拿大不推進采購88架F-35戰(zhàn)機 美軍戰(zhàn)機將更頻繁進入加領(lǐng)空

財聯(lián)社
2026-01-27 22:04:25
伊拉克真主旅成員簽署自殺任務(wù),為伊朗戰(zhàn)備站臺

伊拉克真主旅成員簽署自殺任務(wù),為伊朗戰(zhàn)備站臺

桂系007
2026-01-28 00:00:01
沖上熱搜!“金融女神”李蓓稱上個月已清空黃金,未來10至20年不值得投資,她給出兩點分析,但有人表示不贊同

沖上熱搜!“金融女神”李蓓稱上個月已清空黃金,未來10至20年不值得投資,她給出兩點分析,但有人表示不贊同

每日經(jīng)濟新聞
2026-01-27 22:17:09
對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

南方都市報
2026-01-27 22:02:49
2只旅日大熊貓已起飛回國,預(yù)計將于今日午夜抵達成都,日本54年來首次沒有大熊貓,民眾留言:希望來中國看

2只旅日大熊貓已起飛回國,預(yù)計將于今日午夜抵達成都,日本54年來首次沒有大熊貓,民眾留言:希望來中國看

極目新聞
2026-01-27 21:39:56
結(jié)婚23年她的內(nèi)衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

結(jié)婚23年她的內(nèi)衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

琨玉秋霜
2026-01-27 14:10:08
后續(xù)!武漢師傅跨500公里送發(fā)動機:錢款已退回,車主正臉曝光

后續(xù)!武漢師傅跨500公里送發(fā)動機:錢款已退回,車主正臉曝光

離離言幾許
2026-01-27 14:38:53
比亞迪、賽力斯、長安的“建筑共識”:以圓為形!

比亞迪、賽力斯、長安的“建筑共識”:以圓為形!

GA環(huán)球建筑
2026-01-28 00:02:43
”經(jīng)濟學家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

”經(jīng)濟學家吳曉求教授說:“老百姓都沒收入了,還在刺激消費!這種做法是錯誤的!

張曉磊
2025-11-07 11:34:05
2026-01-28 00:40:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評測
421文章數(shù) 41關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

因樓下鄰居關(guān)閉水閥女子家中斷水400天 起訴索賠被駁

頭條要聞

因樓下鄰居關(guān)閉水閥女子家中斷水400天 起訴索賠被駁

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺風波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

親子
家居
教育
游戲
健康

親子要聞

雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

家居要聞

現(xiàn)代古典 中性又顯韻味

教育要聞

再創(chuàng)歷史新高!南京高三期末調(diào)研考劃線及成績出爐

被女隊友踢出戰(zhàn)隊,只因為男隊員太想贏了?

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

無障礙瀏覽 進入關(guān)懷版