国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2深夜炸場(chǎng),評(píng)測(cè)碾壓谷歌Gemini 3 Pro,真正的打工人利器

0
分享至

  作者|沐風(fēng)

  來源|AI先鋒官

  上周,OpenAI CEO奧特曼剛宣布完公司進(jìn)入“紅色警戒”(Code Red)狀態(tài),要求團(tuán)隊(duì)將工作重心轉(zhuǎn)移到提高ChatGPT的性能和用戶體驗(yàn)上后。

  就在今天,OpenAI發(fā)布了最新的頂級(jí)模型 GPT-5.2系列。

  GPT-5.2 將向 ChatGPT 付費(fèi)用戶開放,并通過 API 提供給開發(fā)者,一共分為三個(gè)系列:

  GPT?5.2 Instant(即時(shí)版)

  GPT?5.2 Thinking(思考版)

  GPT?5.2 Pro(專業(yè)版)

  在OpenAI官方公布的基準(zhǔn)測(cè)試中,它幾乎對(duì)Gemini 3 Pro、Claude Opus 4.5實(shí)現(xiàn)了全方位碾壓。

  

  值得注意的是,GPT?5.2 Thinking在AIME 2025(數(shù)學(xué))的分?jǐn)?shù)達(dá)到了滿分,Gemini 3 Pro 的分?jǐn)?shù)是 95%。

  OpenAI應(yīng)用CEO Fidji Simo曾說過,GPT-5.2 的設(shè)計(jì)目標(biāo)就是為人們創(chuàng)造更多經(jīng)濟(jì)價(jià)值。

  那么如何創(chuàng)造呢?

  那就不得不提到GPT-5.2的拿手好戲:制作電子表格、構(gòu)建演示文稿、編寫代碼、理解圖像、處理超長(zhǎng)上下文、使用工具,以及執(zhí)行復(fù)雜的多步驟項(xiàng)目等等。

  空口無(wú)憑,讓我們先來看看數(shù)據(jù)。

  在OpenAI新出的基準(zhǔn)測(cè)試GDPval(覆蓋 44 個(gè)職業(yè)、針對(duì)明確知識(shí)工作任務(wù)的評(píng)估體系)中,GPT-5.2 Thinking 在70.9%的任務(wù)上勝過或打平行業(yè)專家,GPT-5.2 Pro更高,為74.1%。

  

  主要測(cè)試內(nèi)容為制作演示文稿、電子表格以及其他專業(yè)產(chǎn)出物。

  官方還放出了對(duì)比圖,GPT-5.2 做的表格比GPT-5.1確實(shí)精細(xì)很多。

  

  一個(gè)評(píng)審員對(duì)此的評(píng)價(jià)是:“看起來像是一個(gè)有員工的專業(yè)公司做的,布局和建議都很專業(yè),雖然還有一些小錯(cuò)誤需要修正?!?/p>

  另外,GPT-5.2 Thinking生成輸出的速度也超過人類專家11 倍以上,成本不到人類專家的1%。

  OpenAI 聲稱這是AI模型首次達(dá)到了“人類專家水平”。

  在ARC-AGI放出的測(cè)試中,此前o3 (High) 在ARC-AGI-1測(cè)試得分為88%,平均每項(xiàng)任務(wù)成本為4500美元。

  而GPT-5.2 Pro (X-High) 最新SOTA得分為90.5%,是第一個(gè)突破90%的模型,它的平均任務(wù)成本僅為11.64美元,在一年內(nèi)效率提高了約390倍。

  

  ARC-AGI-2(抽象推理)的分?jǐn)?shù)是 52.9%,相較此前翻了三倍,對(duì)比Gemini 3 Pro是 31.1 %。

  

  GPT-5.2 Thinking的代碼能力也同樣刷新了紀(jì)錄:

  在SWE-bench Verified上,得分達(dá)到80%。

  在SWE-Bench Pro上,得分達(dá)到55.6%。

  

  SWE-Bench Pro是新的代碼基準(zhǔn)測(cè)試,比SWE-bench Verified更難,涵蓋四種編程語(yǔ)言,不只是Python,更接近真實(shí)軟件工程。

  早期測(cè)試者特別提到,GPT-5.2在前端的能力也明顯提升了,尤其是3D和復(fù)雜UI。

  官方也放出了由單prompt生成的demo:

  

  同時(shí),GPT-5.2 Thinking在長(zhǎng)文檔處理方面的表現(xiàn)也很亮眼。

  在OpenAI自制的MRCRv2(長(zhǎng)文檔中多個(gè)信息點(diǎn)的整合能力)評(píng)測(cè)中,GPT-5.2 Thinking成為首個(gè)在256k 上下文長(zhǎng)的4-needle上達(dá)到接近100%準(zhǔn)確率的模型。

  

  不過,更難的8 needle版還是有明顯下降。

  

  GPT-5.2 Thinking的視覺能力也明顯提升,錯(cuò)誤率基本減半。

  在CharXiv Reasoning測(cè)試中,GPT-5.2 Thinking得分達(dá)到88.7%,GPT-5.1是80.3%。

  

  在ScreenSpot-Pro測(cè)試中,GPT-5.2 Thinking得分達(dá)到86.3%。GPT-5.1 是 64.2%。

  

  在官方放出的示例中,OpenAI 要求模型識(shí)別輸入圖像中的組件,并返回帶有大致邊界框的標(biāo)簽。

  

  即使在低質(zhì)量圖像上,GPT-5.2 也能識(shí)別出主要區(qū)域,并放置有時(shí)能與每個(gè)組件真實(shí)位置相匹配的框;而 GPT-5.1 僅標(biāo)記了少數(shù)幾個(gè)部分,且對(duì)其空間排列的理解要弱得多。

  而且,GPT-5.2 Thinking 的幻覺比GPT-5.1 Thinking更少了。

  在一組去標(biāo)識(shí)化的ChatGPT查詢中,前者包含錯(cuò)誤的回答相對(duì)減少了30%。

  

  最后,我們來聊聊價(jià)格,GPT-5.2的價(jià)格一如既往的貴到離譜。

  GPT-5.2的定價(jià)為1.75美元/百萬(wàn)輸入Token,14美元/百萬(wàn)輸出Token,緩存輸入有90%的折扣,比GPT-5.1貴40%。

  ChatGPT訂閱價(jià)格不變。

  

  但是!

  在多個(gè)智能體評(píng)估中,盡管GPT-5.2的每Token成本更高,但GPT-5.2由于更高的Token效率,性價(jià)比反而更高。

  ChatGPT 將于今日開始逐步推出 GPT-5.2(包括 Instant、Thinking 和 Pro 版本),首先面向付費(fèi)用戶(Plus、Pro、Go、Business 和 Enterprise 版本)提供。

  為確保 ChatGPT 的流暢性和穩(wěn)定性,GPT-5.2 將分階段部署,在 ChatGPT 中,付費(fèi)用戶仍可在三個(gè)月內(nèi)繼續(xù)使用 GPT-5.1(舊版模式),之后 GPT-5.1 將逐步下線。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
切忌熟人“借運(yùn)”,風(fēng)水師:熟人若帶這3樣?xùn)|西上門,千萬(wàn)別要!

切忌熟人“借運(yùn)”,風(fēng)水師:熟人若帶這3樣?xùn)|西上門,千萬(wàn)別要!

一根香煙的少女
2026-03-18 13:21:11
單依純演唱會(huì)互動(dòng)發(fā)言沒素質(zhì):我的歌很難唱,老了都得夾著屁股唱

單依純演唱會(huì)互動(dòng)發(fā)言沒素質(zhì):我的歌很難唱,老了都得夾著屁股唱

觀魚聽雨
2026-03-30 18:56:54
法國(guó)對(duì)特朗普指責(zé)“不配合”表“驚訝”

法國(guó)對(duì)特朗普指責(zé)“不配合”表“驚訝”

澎湃新聞
2026-04-01 02:25:03
哈佛大學(xué)研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風(fēng)險(xiǎn)

哈佛大學(xué)研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風(fēng)險(xiǎn)

黯泉
2026-03-29 12:00:55
震驚!一程序員與公司達(dá)成73萬(wàn)補(bǔ)償和解,網(wǎng)友:公司還是低頭了…

震驚!一程序員與公司達(dá)成73萬(wàn)補(bǔ)償和解,網(wǎng)友:公司還是低頭了…

火山詩(shī)話
2026-03-31 12:16:45
死傷慘重!伊朗鎖定美兩處藏匿點(diǎn),官兵遭襲,五角大樓為何沉默?

死傷慘重!伊朗鎖定美兩處藏匿點(diǎn),官兵遭襲,五角大樓為何沉默?

阿七說體育
2026-03-30 19:53:28
被逼到墻角?莫迪發(fā)出最后警告:再不放行化肥,14億人將迎來危機(jī)

被逼到墻角?莫迪發(fā)出最后警告:再不放行化肥,14億人將迎來危機(jī)

泠泠說史
2026-03-31 16:36:07
杠上了,國(guó)足0比2落后喀麥隆,黃健翔發(fā)文再次暗諷董路

杠上了,國(guó)足0比2落后喀麥隆,黃健翔發(fā)文再次暗諷董路

姜大叔侃球
2026-03-31 15:34:06
凈勝21分,一人登場(chǎng)6分鐘輸7分,這就是曾被郭士強(qiáng)選中的準(zhǔn)國(guó)手

凈勝21分,一人登場(chǎng)6分鐘輸7分,這就是曾被郭士強(qiáng)選中的準(zhǔn)國(guó)手

弄月公子
2026-03-31 22:06:09
不夠圓滑的張雪,回答了關(guān)于雷軍和挖孔機(jī)蓋事件

不夠圓滑的張雪,回答了關(guān)于雷軍和挖孔機(jī)蓋事件

ZAKER新聞
2026-03-31 16:48:49
鄭麗文受邀訪陸后!中方制裁日議員,盧秀燕慌了,美緊急派人赴臺(tái)

鄭麗文受邀訪陸后!中方制裁日議員,盧秀燕慌了,美緊急派人赴臺(tái)

勇士軍武閑談
2026-03-30 19:40:43
華為發(fā)布2025年財(cái)報(bào):實(shí)現(xiàn)全球銷售收入8809億元,凈利潤(rùn)680億元

華為發(fā)布2025年財(cái)報(bào):實(shí)現(xiàn)全球銷售收入8809億元,凈利潤(rùn)680億元

每日經(jīng)濟(jì)新聞
2026-03-31 21:14:08
國(guó)防科大誕生新英雄,毛東東能超越偉人祖輩的輝煌嗎?

國(guó)防科大誕生新英雄,毛東東能超越偉人祖輩的輝煌嗎?

觀史搜尋著
2026-03-31 11:24:33
中國(guó)共產(chǎn)主義青年團(tuán)中央委員會(huì)書記處關(guān)于二十屆中央第四輪巡視整改進(jìn)展情況的通報(bào)

中國(guó)共產(chǎn)主義青年團(tuán)中央委員會(huì)書記處關(guān)于二十屆中央第四輪巡視整改進(jìn)展情況的通報(bào)

中國(guó)網(wǎng)
2026-03-31 22:30:15
官方:開拓者易主!

官方:開拓者易主!

五星體育
2026-04-01 01:58:59
全網(wǎng)震動(dòng)!字節(jié)跳動(dòng)多人被抓!

全網(wǎng)震動(dòng)!字節(jié)跳動(dòng)多人被抓!

大佬灼見
2026-03-30 11:39:00
即使伊朗總統(tǒng)警告不?;?,伊朗經(jīng)濟(jì)將崩潰,革命衛(wèi)隊(duì)也不愿談判

即使伊朗總統(tǒng)警告不?;?,伊朗經(jīng)濟(jì)將崩潰,革命衛(wèi)隊(duì)也不愿談判

山河路口
2026-03-31 16:41:19
退役了也躲不過傷??!阿圭羅踢元老賽不幸跟腱斷裂

退役了也躲不過傷??!阿圭羅踢元老賽不幸跟腱斷裂

仰臥撐FTUer
2026-03-31 20:53:12
中國(guó)駐外大使:ASML賣給中國(guó)一臺(tái)光刻機(jī),其利潤(rùn)相當(dāng)于20萬(wàn)噸豬肉

中國(guó)駐外大使:ASML賣給中國(guó)一臺(tái)光刻機(jī),其利潤(rùn)相當(dāng)于20萬(wàn)噸豬肉

杰絲聊古今
2026-03-31 09:48:16
奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

品牌營(yíng)銷報(bào)
2026-02-23 11:31:10
2026-04-01 03:07:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測(cè)
469文章數(shù) 69關(guān)注度
往期回顧 全部

科技要聞

華為2025年銷售收入8809億,凈利潤(rùn)680億元

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭(zhēng) 前提是訴求得到滿足

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭(zhēng) 前提是訴求得到滿足

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

《月鱗綺紀(jì)》空降 鞠婧祎卻被舉報(bào)偷稅

財(cái)經(jīng)要聞

油價(jià)暴漲 我們的生活成本會(huì)飆升多少?

汽車要聞

騰勢(shì)Z9GT到底GT在哪?

態(tài)度原創(chuàng)

時(shí)尚
教育
健康
藝術(shù)
數(shù)碼

「性治療室」里的00后,男多女少

教育要聞

微專題:高考地理中的地理實(shí)驗(yàn)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

藝術(shù)要聞

震撼!他筆下的美女,色彩美得讓人無(wú)法自拔!

數(shù)碼要聞

RTX 50又免費(fèi)升級(jí)!DLSS 4.5 6× 多幀生成+動(dòng)態(tài)多幀生成搶先體驗(yàn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版