網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.2深夜炸場(chǎng)，評(píng)測(cè)碾壓谷歌Gemini 3 Pro，真正的打工人利器

2025-12-12 11:48:16　來源: AI先鋒官

北京舉報(bào)

分享至

　　作者｜沐風(fēng)

　　來源｜AI先鋒官

　　上周，OpenAI CEO奧特曼剛宣布完公司進(jìn)入“紅色警戒”（Code Red）狀態(tài)，要求團(tuán)隊(duì)將工作重心轉(zhuǎn)移到提高ChatGPT的性能和用戶體驗(yàn)上后。

　　就在今天，OpenAI發(fā)布了最新的頂級(jí)模型 GPT-5.2系列。

　　GPT-5.2 將向 ChatGPT 付費(fèi)用戶開放，并通過 API 提供給開發(fā)者，一共分為三個(gè)系列：

　　GPT?5.2 Instant（即時(shí)版）

　　GPT?5.2 Thinking（思考版）

　　GPT?5.2 Pro（專業(yè)版）

　　在OpenAI官方公布的基準(zhǔn)測(cè)試中，它幾乎對(duì)Gemini 3 Pro、Claude Opus 4.5實(shí)現(xiàn)了全方位碾壓。

　　值得注意的是，GPT?5.2 Thinking在AIME 2025（數(shù)學(xué)）的分?jǐn)?shù)達(dá)到了滿分，Gemini 3 Pro 的分?jǐn)?shù)是 95%。

　　OpenAI應(yīng)用CEO Fidji Simo曾說過，GPT-5.2 的設(shè)計(jì)目標(biāo)就是為人們創(chuàng)造更多經(jīng)濟(jì)價(jià)值。

　　那么如何創(chuàng)造呢？

　　那就不得不提到GPT-5.2的拿手好戲：制作電子表格、構(gòu)建演示文稿、編寫代碼、理解圖像、處理超長(zhǎng)上下文、使用工具，以及執(zhí)行復(fù)雜的多步驟項(xiàng)目等等。

　　空口無(wú)憑，讓我們先來看看數(shù)據(jù)。

　　在OpenAI新出的基準(zhǔn)測(cè)試GDPval（覆蓋 44 個(gè)職業(yè)、針對(duì)明確知識(shí)工作任務(wù)的評(píng)估體系）中，GPT-5.2 Thinking 在70.9%的任務(wù)上勝過或打平行業(yè)專家，GPT-5.2 Pro更高，為74.1%。

　　主要測(cè)試內(nèi)容為制作演示文稿、電子表格以及其他專業(yè)產(chǎn)出物。

　　官方還放出了對(duì)比圖，GPT-5.2 做的表格比GPT-5.1確實(shí)精細(xì)很多。

　　一個(gè)評(píng)審員對(duì)此的評(píng)價(jià)是：“看起來像是一個(gè)有員工的專業(yè)公司做的，布局和建議都很專業(yè)，雖然還有一些小錯(cuò)誤需要修正?！?/p>

　　另外，GPT-5.2 Thinking生成輸出的速度也超過人類專家11 倍以上，成本不到人類專家的1%。

　　OpenAI 聲稱這是AI模型首次達(dá)到了“人類專家水平”。

　　在ARC-AGI放出的測(cè)試中，此前o3 (High) 在ARC-AGI-1測(cè)試得分為88%，平均每項(xiàng)任務(wù)成本為4500美元。

　　而GPT-5.2 Pro (X-High) 最新SOTA得分為90.5%，是第一個(gè)突破90%的模型，它的平均任務(wù)成本僅為11.64美元，在一年內(nèi)效率提高了約390倍。

　　ARC-AGI-2（抽象推理）的分?jǐn)?shù)是 52.9%，相較此前翻了三倍，對(duì)比Gemini 3 Pro是 31.1 %。

　　GPT-5.2 Thinking的代碼能力也同樣刷新了紀(jì)錄：

　　在SWE-bench Verified上，得分達(dá)到80%。

　　在SWE-Bench Pro上，得分達(dá)到55.6%。

　　SWE-Bench Pro是新的代碼基準(zhǔn)測(cè)試，比SWE-bench Verified更難，涵蓋四種編程語(yǔ)言，不只是Python，更接近真實(shí)軟件工程。

　　早期測(cè)試者特別提到，GPT-5.2在前端的能力也明顯提升了，尤其是3D和復(fù)雜UI。

　　官方也放出了由單prompt生成的demo：

　　同時(shí)，GPT-5.2 Thinking在長(zhǎng)文檔處理方面的表現(xiàn)也很亮眼。

　　在OpenAI自制的MRCRv2（長(zhǎng)文檔中多個(gè)信息點(diǎn)的整合能力）評(píng)測(cè)中，GPT-5.2 Thinking成為首個(gè)在256k 上下文長(zhǎng)的4-needle上達(dá)到接近100%準(zhǔn)確率的模型。

　　不過，更難的8 needle版還是有明顯下降。

　　GPT-5.2 Thinking的視覺能力也明顯提升，錯(cuò)誤率基本減半。

　　在CharXiv Reasoning測(cè)試中，GPT-5.2 Thinking得分達(dá)到88.7%，GPT-5.1是80.3%。

　　在ScreenSpot-Pro測(cè)試中，GPT-5.2 Thinking得分達(dá)到86.3%。GPT-5.1 是 64.2%。

　　在官方放出的示例中，OpenAI 要求模型識(shí)別輸入圖像中的組件，并返回帶有大致邊界框的標(biāo)簽。

　　即使在低質(zhì)量圖像上，GPT-5.2 也能識(shí)別出主要區(qū)域，并放置有時(shí)能與每個(gè)組件真實(shí)位置相匹配的框；而 GPT-5.1 僅標(biāo)記了少數(shù)幾個(gè)部分，且對(duì)其空間排列的理解要弱得多。

　　而且，GPT-5.2 Thinking 的幻覺比GPT-5.1 Thinking更少了。

　　在一組去標(biāo)識(shí)化的ChatGPT查詢中，前者包含錯(cuò)誤的回答相對(duì)減少了30%。

　　最后，我們來聊聊價(jià)格，GPT-5.2的價(jià)格一如既往的貴到離譜。

　　GPT-5.2的定價(jià)為1.75美元/百萬(wàn)輸入Token，14美元/百萬(wàn)輸出Token，緩存輸入有90%的折扣，比GPT-5.1貴40%。

　　ChatGPT訂閱價(jià)格不變。

　　但是！

　　在多個(gè)智能體評(píng)估中，盡管GPT-5.2的每Token成本更高，但GPT-5.2由于更高的Token效率，性價(jià)比反而更高。

　　ChatGPT 將于今日開始逐步推出 GPT-5.2（包括 Instant、Thinking 和 Pro 版本），首先面向付費(fèi)用戶（Plus、Pro、Go、Business 和 Enterprise 版本）提供。

　　為確保 ChatGPT 的流暢性和穩(wěn)定性，GPT-5.2 將分階段部署，在 ChatGPT 中，付費(fèi)用戶仍可在三個(gè)月內(nèi)繼續(xù)使用 GPT-5.1（舊版模式），之后 GPT-5.1 將逐步下線。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.