網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.2 震撼發(fā)布：知識(shí)型工作超越人類(lèi)專(zhuān)家的 AI 生產(chǎn)力革命！

2025-12-15 14:24:55　來(lái)源: JavaEdge

上海舉報(bào)

分享至

點(diǎn)擊下方“JavaEdge”，選擇“設(shè)為星標(biāo)”

第一時(shí)間關(guān)注技術(shù)干貨！

本文已收錄在Github，關(guān)注我，緊跟本系列專(zhuān)欄文章，咱們下篇再續(xù)！

魔都架構(gòu)師 | 全網(wǎng)30W技術(shù)追隨者
大廠(chǎng)分布式系統(tǒng)/數(shù)據(jù)中臺(tái)實(shí)戰(zhàn)專(zhuān)家
主導(dǎo)交易系統(tǒng)百萬(wàn)級(jí)流量調(diào)優(yōu) & 車(chē)聯(lián)網(wǎng)平臺(tái)架構(gòu)
AIGC應(yīng)用開(kāi)發(fā)先行者 | 區(qū)塊鏈落地實(shí)踐者
以技術(shù)驅(qū)動(dòng)創(chuàng)新，我們的征途是改變世界！
實(shí)戰(zhàn)干貨：編程嚴(yán)選網(wǎng)

0 前言

GPT?5.2 在眾多基準(zhǔn)測(cè)試中都刷新了行業(yè)水平，包括 GDPval。在該評(píng)測(cè)中，它在涵蓋 44 個(gè)職業(yè)的明確知識(shí)型工作任務(wù)上超越了行業(yè)專(zhuān)家。

GPT?5.2 ThinkingGPT?5.1 Thinking

**GDPval（勝出或持平） **知識(shí)型工作任務(wù)

70.9%

38.8% (GPT?5)

SWE-Bench Pro（公開(kāi)版）

軟件工程

55.6%

50.8%

**SWE-bench Verified **軟件工程

80.0%

76.3%

**GPQA Diamond（無(wú)工具） **科學(xué)問(wèn)題

92.4%

88.1%

**CharXiv 推理（使用 Python） **科學(xué)圖表類(lèi)問(wèn)題

88.7%

80.3%

**HMMT（2025 年 2 月） **數(shù)學(xué)競(jìng)賽

99.4%

96.3%

**FrontierMath(Tier 1–3) **高等數(shù)學(xué)

40.3%

31.0%

**ARC-AGI-1 (Verified) **抽象推理

86.2%

72.8%

**ARC-AGI-2 (Verified) **抽象推理

52.9%

17.6%

Notion、Box、Shopify、Harvey和Zoom觀(guān)察到，GPT?5.2 展現(xiàn)出強(qiáng)大的長(zhǎng)時(shí)推理和工具調(diào)用性能
Databricks、Hex和Triple Whale發(fā)現(xiàn)，GPT?5.2 在智能體數(shù)據(jù)科學(xué)和文檔分析任務(wù)中表現(xiàn)出色
Cognition、Warp、Charlie Labs、JetBrains和Augment Code表示，GPT?5.2 在智能體編碼方面達(dá)到了行業(yè)領(lǐng)先水平，并在交互式編程、代碼審查和缺陷定位等領(lǐng)域帶來(lái)可量化的提升

1 模型性能 1.1 具備經(jīng)濟(jì)效益的任務(wù)

1.2 編碼

GPT?5.2 Thinking 在 SWE-bench Pro 測(cè)試取得了 55.6% 的新成績(jī)。SWE-bench Pro 是一項(xiàng)嚴(yán)格評(píng)估真實(shí)軟件工程能力的基準(zhǔn)測(cè)試。與只測(cè)試 Python 的 SWE-bench Verified 不同，SWE-bench Pro 涵蓋四種語(yǔ)言，旨在更具抗污染性、更具挑戰(zhàn)性、更具多樣性，也更貼近真實(shí)工業(yè)場(chǎng)景。

SWE-Bench Pro（公開(kāi)版）軟件工程

SWE-bench Pro???為模型提供一個(gè)代碼倉(cāng)庫(kù)，要求其生成補(bǔ)丁以完成真實(shí)的軟件工程任務(wù)。

在 SWEvbench Verified 測(cè)試中（未繪制在圖表中），GPT?5.2 Thinking 取得了我們?nèi)碌淖罡叱煽?jī)：80%。

在日常專(zhuān)業(yè)應(yīng)用中，這意味著該模型能夠更可靠地調(diào)試生產(chǎn)環(huán)境代碼、實(shí)現(xiàn)功能需求、重構(gòu)大型代碼庫(kù)，并以更少的人工干預(yù)完成端到端的修復(fù)交付。

GPT?5.2 Thinking 在前端軟件工程方面也優(yōu)于 GPT?5.1 Thinking。早期測(cè)試者發(fā)現(xiàn)，它在前端開(kāi)發(fā)以及復(fù)雜或非傳統(tǒng)的 UI 工作上表現(xiàn)更強(qiáng)（尤其是涉及 3D 元素的場(chǎng)景），這讓它成為工程師在全棧工作中的強(qiáng)大日?；锇?。

編碼能力的反饋

早期測(cè)試者分享了他們對(duì) GPT?5.2 編碼能力的反饋：

“GPT-5.2 代表了自 GPT-5 以來(lái)在智能體編碼上的最大飛躍，并且在同價(jià)位中是業(yè)界領(lǐng)先的編碼模型。版本號(hào)的提升甚至低估了它在智能水平上的跨越。我們很高興將它設(shè)為 Windsurf 以及多個(gè)核心 Devin 工作負(fù)載的默認(rèn)模型?！盝eff Wang，Windsurf 首席執(zhí)行官

“結(jié)合 Warp 使用的 GPT-5.2 在代理式編程性能上達(dá)到行業(yè)領(lǐng)先水平，在 Terminal-Bench 2.0 上得分 61.14%。借助 GPT-5.2，Warp 的智能代理能更好地‘閉環(huán)’操作——驗(yàn)證自身修改并完成長(zhǎng)、多步驟的工作流，其可靠性前所未有。”Zach Lloyd，Warp 創(chuàng)始人兼首席執(zhí)行官

“當(dāng)我們用最嚴(yán)格的編碼評(píng)測(cè)測(cè)試 GPT-5.2 時(shí)，改進(jìn)是顯而易見(jiàn)的：任務(wù)解決率提高了最高 35%，長(zhǎng)鏈任務(wù)中的級(jí)聯(lián)錯(cuò)誤減少了 30–40%。模型在執(zhí)行指令時(shí)更一致，代碼結(jié)構(gòu)更整潔，這些提升開(kāi)發(fā)者在日常使用中都能明顯感受到?！盫ladislav Tankov，JetBrains 人工智能總監(jiān)

“GPT-5.2 擁有比以往任何模型都更強(qiáng)的深度代碼推理能力，因此它是唯一支撐 Augment Code Review 的模型。它能更高效地利用 Augment 的 Context Engine，讓系統(tǒng)在保持低誤報(bào)率的同時(shí)發(fā)現(xiàn)更多真實(shí)缺陷。開(kāi)啟高推理模式后，Augment Code Review 在 Greptile 的 AI 代碼審查基準(zhǔn)上超越了所有其他模型?！盙uy Gur-Ari，Augment 聯(lián)合創(chuàng)始人兼首席科學(xué)家

“我們對(duì) GPT-5.2 的印象極佳——甚至常常忘了切換回我們平時(shí)使用的舊模型。它規(guī)劃更深入，執(zhí)行更出色，整體表現(xiàn)顯著優(yōu)于以往版本。研究結(jié)果更豐富、上下文更高效、焦點(diǎn)更明確；代碼修改更精確，范圍得當(dāng)，幾乎無(wú)需人工干預(yù)。新生成的代碼結(jié)構(gòu)良好，并能自動(dòng)遵循現(xiàn)有架構(gòu)模式?！盞evin Bond，Cline 創(chuàng)始工程師

“GPT-5.2 在我們的內(nèi)部評(píng)估中取得了歷史最高分。它在多輪、復(fù)雜代理任務(wù)中能精準(zhǔn)遵循指令，即使面對(duì)大量上下文，也能保持出色表現(xiàn)——讓 Charlie 成為我們技術(shù)客戶(hù)的更強(qiáng)大合作伙伴?！盧iley Tomasek，Charlie Labs 創(chuàng)始人兼首席執(zhí)行官

“GPT-5.2 讓我非常驚艷。在測(cè)試中，我給它拋出了一個(gè)其他頂尖模型都無(wú)法解決的 bug。它主動(dòng)要求我提供截圖以獲取更多上下文。當(dāng)我發(fā)送后，它立刻修復(fù)了問(wèn)題。這展示了模型識(shí)別信息缺口并主動(dòng)索取恰當(dāng)補(bǔ)充的能力。GPT-5.2 能始終專(zhuān)注任務(wù)，生成的測(cè)試案例極為優(yōu)質(zhì)，提交說(shuō)明簡(jiǎn)潔而精準(zhǔn)?！盞evin van Dijk，Kilo 軟件工程師

“我們認(rèn)為 GPT-5.2 是迄今為止我們用過(guò)最強(qiáng)的模型。它改變了我們?cè)O(shè)計(jì)智能代理系統(tǒng)的方式，因?yàn)槟Ｐ同F(xiàn)在能在更長(zhǎng)的任務(wù)鏈中獨(dú)立完成更多環(huán)節(jié)，無(wú)需人類(lèi)干預(yù)。GPT-5.2 將‘自主性’從一種錦上添花的特性，提升為核心能力——正在重新定義我們?nèi)绾螛?gòu)建高獨(dú)立性的智能代理系統(tǒng)?！盡ichael Carter，Azad 創(chuàng)始人

1.3 事實(shí)性

GPT?5.2 Thinking 的幻覺(jué)率低于 GPT?5.1 Thinking。在一組來(lái)自 ChatGPT、已去標(biāo)識(shí)化的查詢(xún)中，含有錯(cuò)誤的回答出現(xiàn)頻率相對(duì)減少了 38%。對(duì)專(zhuān)業(yè)人士，意味在研究、寫(xiě)作、分析和決策支持等任務(wù)中，模型犯錯(cuò)更少，從而在日常知識(shí)型工作中更可靠。

推理強(qiáng)度設(shè)置為可用的最高級(jí)別，并啟用了搜索工具。錯(cuò)誤由其他模型檢測(cè)，但這些模型本身也可能出錯(cuò)。由于多數(shù)回復(fù)包含多個(gè)論斷，論斷層面的錯(cuò)誤率顯著低于回復(fù)層面的錯(cuò)誤率。

像所有模型一樣，GPT?5.2 Thinking 并不完美。對(duì)于任何關(guān)鍵任務(wù)，請(qǐng)務(wù)必再次核查它的回答。

1.4 長(zhǎng)上下文

GPT?5.2 Thinking 在長(zhǎng)上下文推理樹(shù)立新技術(shù)標(biāo)桿。OpenAI MRCRv2 是一項(xiàng)用于測(cè)試模型整合長(zhǎng)文檔中分散信息能力的評(píng)估，GPT?5.2 Thinking 在該評(píng)估中表現(xiàn)領(lǐng)先。在真實(shí)任務(wù)中，如深度文檔分析（需跨數(shù)十萬(wàn) Token 關(guān)聯(lián)信息），GPT?5.2 Thinking 的準(zhǔn)確性顯著高于 GPT?5.1 Thinking。這是我們首次看到某模型在 4-needle MRCR 評(píng)測(cè)變體（最長(zhǎng)可達(dá) 256k Token）中實(shí)現(xiàn)接近 100% 準(zhǔn)確率。

實(shí)際應(yīng)用，專(zhuān)業(yè)人士能用 GPT?5.2 處理長(zhǎng)文檔，如報(bào)告、合同、研究論文、會(huì)議記錄和多文件項(xiàng)目，同時(shí)在數(shù)十萬(wàn) Token 的范圍內(nèi)保持連貫性和準(zhǔn)確性。因此，GPT?5.2 尤其適合深度分析、信息綜合以及復(fù)雜的多來(lái)源工作流程。

對(duì)那些需要在最大上下文窗口之外繼續(xù)推理的任務(wù)，GPT?5.2 Thinking 可與我們?nèi)碌?Responses/compact端點(diǎn)配合使用，從而擴(kuò)展模型的有效上下文窗口。這使得 GPT?5.2 Thinking 能夠處理更多依賴(lài)工具的長(zhǎng)時(shí)工作流程，而這些流程在過(guò)去會(huì)受到上下文長(zhǎng)度的限制。參閱API 文檔。

1.5 展望

GPT?5.2 Thinking 是我們迄今最強(qiáng)大的視覺(jué)模型，在圖表推理和軟件界面理解方面將錯(cuò)誤率大幅降低，約減少了一半。

在日常專(zhuān)業(yè)場(chǎng)景中，這意味著模型能夠更準(zhǔn)確地理解控制面板、產(chǎn)品截圖、技術(shù)圖示和可視化報(bào)告，從而支持金融、運(yùn)營(yíng)、工程、設(shè)計(jì)和客戶(hù)支持等以視覺(jué)信息為核心的工作流程。

在ScreenSpot-Pro（在新窗口中打開(kāi)）中，模型需要對(duì)來(lái)自各種專(zhuān)業(yè)場(chǎng)景的高分辨率圖形界面截圖進(jìn)行推理。在該任務(wù)中，Python 工具被啟用，并將推理力度設(shè)為最高。若未啟用 Python 工具，得分會(huì)顯著降低。因此，我們建議在此類(lèi)視覺(jué)任務(wù)中啟用 Python 工具。

與以往模型相比，GPT?5.2 Thinking 對(duì)圖像中各元素的空間位置有更強(qiáng)的理解能力，這在需要依賴(lài)相對(duì)布局來(lái)解決問(wèn)題的任務(wù)中尤為重要。在下面的示例中，我們讓模型識(shí)別圖像中的組件（這里是一塊主板），并返回帶有大致邊界框的標(biāo)簽。即使面對(duì)低質(zhì)量圖像，GPT?5.2 仍能識(shí)別主要區(qū)域，并將邊界框大致放在各組件的真實(shí)位置上；而 GPT?5.1 只能標(biāo)出少數(shù)部分，對(duì)空間關(guān)系的理解也明顯較弱。

GPT-5.1
GPT-5.21.6 工具調(diào)用

GPT?5.2 Thinking 在 Tau2 bench Telecom 測(cè)試中取得了 98.7% 的全新優(yōu)異成績(jī)，展示了它在長(zhǎng)程、多輪任務(wù)中可靠使用工具的能力。

在對(duì)延遲敏感的場(chǎng)景中，GPT?5.2 Thinking 在 reasoning.effort='none' 模式下也有顯著提升，性能大幅領(lǐng)先 GPT?5.1 和 GPT?4.1。

Tau2-bench Telecom 客戶(hù)支持中的工具使用

Tau2-bench Retail 客戶(hù)支持中的工具使用

對(duì)于專(zhuān)業(yè)人士而言，這意味著端到端的工作流程將更加穩(wěn)健，如處理客戶(hù)支持案例、從多個(gè)系統(tǒng)提取數(shù)據(jù)、執(zhí)行分析以及生成最終結(jié)果，各步驟之間出現(xiàn)中斷的情況也更少。

如當(dāng)用戶(hù)提出一個(gè)需要多步驟解決的復(fù)雜客服問(wèn)題時(shí)，模型能夠更有效地在多個(gè)代理之間協(xié)調(diào)完整的工作流程。在下面的案例中，一位旅客報(bào)告航班延誤、錯(cuò)過(guò)轉(zhuǎn)機(jī)、在紐約過(guò)夜以及需要醫(yī)療座位安排。GPT?5.2 能夠處理整個(gè)任務(wù)鏈，包括改簽、座位安排的特殊協(xié)助和補(bǔ)償，最終結(jié)果比 GPT?5.1 更完整。

1.7 科學(xué)與數(shù)學(xué)

我們對(duì)人工智能的期望之一，是它能夠有效推進(jìn)科學(xué)研究，從而惠及全人類(lèi)。為此，我們一直與科學(xué)家合作并聽(tīng)取他們的意見(jiàn)，探索人工智能如何可提升他們的科研效率。上個(gè)月，我們?cè)谶@里?分享了一些早期的合作實(shí)驗(yàn)。

GPT?5.2 Pro 和 GPT?5.2 Thinking 是目前最能支持并加快科研進(jìn)展的模型。在研究生級(jí)防 Google 問(wèn)答基準(zhǔn)測(cè)試 GPQA Diamond 中，GPT?5.2 Pro 取得了 93.2% 的成績(jī)，GPT?5.2 Thinking 緊隨其后，達(dá)到 92.4%。

在專(zhuān)家級(jí)數(shù)學(xué)評(píng)測(cè) FrontierMath (Tier 1–3) 中，GPT?5.2 Thinking 樹(shù)立了新的技術(shù)標(biāo)桿，解決了 40.3% 的問(wèn)題。

FrontierMath (Tier 1–3) 高等數(shù)學(xué)

我們已經(jīng)開(kāi)始看到，人工智能模型在數(shù)學(xué)和科學(xué)領(lǐng)域以切實(shí)可見(jiàn)的方式有效推進(jìn)研究進(jìn)展。例如，在一項(xiàng)使用 GPT?5.2 Pro 的近期研究?中，研究人員探討了統(tǒng)計(jì)學(xué)習(xí)理論中的一個(gè)開(kāi)放問(wèn)題。在一個(gè)范圍明確、設(shè)定清晰的情境下，模型提出了一個(gè)證明，之后由作者核實(shí)并請(qǐng)外部專(zhuān)家審閱，說(shuō)明前沿模型在嚴(yán)密的人類(lèi)監(jiān)督下也能為數(shù)學(xué)研究提供幫助。

ARC-AGI 2

在 ARC-AGI-1 (Verified) 這一用于衡量通用推理能力的基準(zhǔn)測(cè)試中，GPT?5.2 成為首個(gè)突破 90% 閾值的模型，相較去年 o3?preview 的 87% 有明顯提升，同時(shí)將達(dá)到該性能的成本降低了約 390 倍。

在更高難度、更加側(cè)重流體推理能力的 ARC-AGI-2 (Verified) 中，GPT?5.2 Thinking 以 52.9% 的成績(jī)刷新了鏈?zhǔn)剿季S模型的最新紀(jì)錄；GPT?5.2 Pro 表現(xiàn)更進(jìn)一步，達(dá)到 54.2%，進(jìn)一步拓展了模型在處理全新抽象問(wèn)題時(shí)的推理能力。

從這些評(píng)測(cè)結(jié)果的提升可以看出，GPT?5.2 在多步推理、數(shù)值準(zhǔn)確性和處理復(fù)雜技術(shù)問(wèn)題的穩(wěn)定性上都有了更強(qiáng)的表現(xiàn)。

以下是早期測(cè)試者對(duì) GPT?5.2 的反饋：

“GPT-5.2 為我們開(kāi)啟了完整的架構(gòu)轉(zhuǎn)型。我們將一個(gè)脆弱的多智能體系統(tǒng)整合為一個(gè)擁有 20 多個(gè)工具的超級(jí)智能體。最棒的是，它就是這么好用。這款超級(jí)智能體速度更快、更聰明，維護(hù)起來(lái)容易 100 倍。我們觀(guān)察到延遲顯著降低，工具調(diào)用性能更強(qiáng)大，并且我們不再需要龐大的系統(tǒng)提示，因?yàn)?5.2 只需一行簡(jiǎn)單的提示就能穩(wěn)定執(zhí)行。這感覺(jué)就像魔法。” AJ Orbach，Triple Whale 首席執(zhí)行官

“GPT-5.2 在需要處理復(fù)雜、沖突信息的長(zhǎng)程推理任務(wù)中表現(xiàn)突出——這種模糊性正是知識(shí)型工作的真實(shí)寫(xiě)照。它的速度也非?？?，并在我們?cè)u(píng)估體系的所有維度上都超越了 GPT-5.1。我們相信，注重品質(zhì)的客戶(hù)會(huì)把 GPT-5.2 作為他們新的日常主力模型。”Abhishek Modi，Notion 人工智能負(fù)責(zé)人

“GPT-5.2 在工具調(diào)用方面表現(xiàn)非常出色：Zoom AI Companion 的會(huì)議安排成功率提升了 10%，在我們內(nèi)部的多步問(wèn)答基準(zhǔn)測(cè)試中表現(xiàn)提升了 3.5%。這些進(jìn)步讓 AI Companion 在安排會(huì)議和應(yīng)對(duì)復(fù)雜問(wèn)題時(shí)更加可靠，并能在恰當(dāng)?shù)臅r(shí)機(jī)提供精準(zhǔn)洞見(jiàn)。”X.D. Huang，Zoom 首席技術(shù)官

“我們正進(jìn)入一個(gè)由人工智能驅(qū)動(dòng)的新生產(chǎn)力階段，而 GPT-5.2 為 Box AI 企業(yè)套件帶來(lái)了重大提升。與以往模型相比，復(fù)雜文檔提取的延遲縮短了 31%，法律任務(wù)推理準(zhǔn)確率提升了 76%——而法律領(lǐng)域?qū)_度要求極高。這些改進(jìn)讓長(zhǎng)文檔分析幾乎實(shí)現(xiàn)即時(shí)響應(yīng)，并能從復(fù)雜數(shù)據(jù)中挖掘更深層洞察?！盉en Kus，Box 首席技術(shù)官

“在我們的內(nèi)部評(píng)估中，GPT-5.2 在復(fù)雜、真實(shí)世界數(shù)據(jù)分析方面達(dá)到了業(yè)界最優(yōu)表現(xiàn)，尤其在模糊語(yǔ)境下展現(xiàn)出卓越的推理能力。Hex 對(duì) 5.2 能夠通過(guò)復(fù)雜的工具使用來(lái)解決定義不清、模糊問(wèn)題的能力印象深刻?！盋aitlin Colgrove，Hex 首席技術(shù)官兼聯(lián)合創(chuàng)始人

“我們發(fā)現(xiàn) GPT-5.2 在多文檔、多表格的復(fù)雜推理任務(wù)中能力顯著增強(qiáng)。根據(jù)我們的 OfficeQA 基準(zhǔn)（專(zhuān)注評(píng)估此類(lèi)具有經(jīng)濟(jì)價(jià)值的真實(shí)推理任務(wù)），GPT-5.2 超越了許多現(xiàn)有模型，特別擅長(zhǎng)結(jié)構(gòu)化提取和文檔分析，能夠理解復(fù)雜表格并基于企業(yè)真實(shí)數(shù)據(jù)進(jìn)行精準(zhǔn)計(jì)算。這使其非常適用于我們的多種智能代理產(chǎn)品?！盤(pán)atrick Wendell，Databricks 副總裁兼聯(lián)合創(chuàng)始人

“GPT-5.2 將前沿推理與能力意識(shí)相結(jié)合——模型能更好地判斷何時(shí)推進(jìn)、何時(shí)擴(kuò)充上下文，以及何時(shí)引入人類(lèi)協(xié)作。在我們的評(píng)估中，GPT-5.2 在長(zhǎng)文本、文檔密集型任務(wù)（如草擬文檔）上表現(xiàn)出更強(qiáng)的防護(hù)機(jī)制與更佳成果?！盢iko Grupen，Harvey 應(yīng)用研究主管

“GPT-5.2 讓我們離‘值得信賴(lài)的 AI 代理’更近了一步，因?yàn)樗膱?zhí)行可靠性遠(yuǎn)高于以往模型。這一變化將重塑客戶(hù)服務(wù)場(chǎng)景，也改變了我們?cè)?AI 信任構(gòu)建上的方式。”Stefan Ostwald，Parloa 聯(lián)合創(chuàng)始人兼首席人工智能官

“我們很高興將 GPT-5.2 集成到 Moveworks AI Assistant 中。內(nèi)部評(píng)估顯示，它相比 5.1 擁有更強(qiáng)的自我感知能力、更高的可控性，以及更優(yōu)的工具調(diào)用表現(xiàn)——這些都是實(shí)現(xiàn)企業(yè)工作流自動(dòng)化的關(guān)鍵。”Bhavin Shah，Moveworks 首席執(zhí)行官

“與 GPT-5.1 相比，GPT-5.2 在較低推理層級(jí)下就能實(shí)現(xiàn)更高的指令遵循度與工具調(diào)用準(zhǔn)確性，輸出快速且穩(wěn)定，并能在需要時(shí)擴(kuò)展到深度分析?！盉en Lafferty，Shopify 高級(jí)工程師

2 ChatGPT 中的 GPT?5.2

在 ChatGPT 中，用戶(hù)會(huì)發(fā)現(xiàn) GPT?5.2 的日常使用體驗(yàn)更佳 — 結(jié)構(gòu)更清晰、更可靠，同時(shí)依然提供愉快的交流體驗(yàn)。

GPT?5.2 Instant是一款高效而強(qiáng)大的日常工作與學(xué)習(xí)“主力模型”，在信息查詢(xún)、操作指南、步驟講解、技術(shù)寫(xiě)作以及翻譯方面都有顯著提升，并延續(xù)了 GPT?5.1 Instant 更溫暖、更自然的對(duì)話(huà)風(fēng)格。早期測(cè)試者特別指出，其解釋更清晰，能夠在一開(kāi)始就呈現(xiàn)出關(guān)鍵信息。

GPT?5.2 Thinking專(zhuān)為更深入的工作而打造，幫助用戶(hù)以更高的完成度處理復(fù)雜任務(wù)，擅長(zhǎng)編碼、長(zhǎng)文檔總結(jié)、回答上傳文件相關(guān)問(wèn)題、逐步推導(dǎo)數(shù)學(xué)與邏輯問(wèn)題，以及通過(guò)更清晰的結(jié)構(gòu)和更有用的細(xì)節(jié)支持規(guī)劃與決策。

GPT?5.2 Pro是應(yīng)對(duì)高難度問(wèn)題時(shí)最智能、最可靠的選擇，在需要高質(zhì)量答案的場(chǎng)景中尤為適合。早期測(cè)試顯示，它的重大錯(cuò)誤更少，在編程等復(fù)雜領(lǐng)域的表現(xiàn)也更為出色。

3 安全

GPT?5.2 延續(xù)了我們隨 GPT?5 提出的安全補(bǔ)全?研究，讓模型在不越過(guò)安全界限的情況下，也能提供最有幫助的答案。

在此版本中，我們繼續(xù)推進(jìn)增強(qiáng)模型在敏感對(duì)話(huà)中的回應(yīng)能力?這項(xiàng)工作，讓它在面對(duì)自殺、自殘、心理困擾或?qū)δＰ彤a(chǎn)生情緒依賴(lài)等相關(guān)提示時(shí)，能夠做出更恰當(dāng)、更穩(wěn)妥的回應(yīng)。這些有針對(duì)性的改進(jìn)讓 GPT?5.2 Instant 和 GPT?5.2 Thinking 的不理想回復(fù)顯著減少，相較于 GPT?5.1 以及 GPT?5 Instant 和 Thinking 模型都有明顯提升。詳情請(qǐng)參閱系統(tǒng)卡?。

我們正在逐步上線(xiàn)年齡預(yù)測(cè)模型?，以便自動(dòng)為未滿(mǎn) 18 歲的用戶(hù)應(yīng)用內(nèi)容保護(hù)措施，從而限制其接觸敏感內(nèi)容。這項(xiàng)工作是我們現(xiàn)有的未成年人識(shí)別機(jī)制和家長(zhǎng)控制功能的延伸。

GPT?5.2 是持續(xù)改進(jìn)過(guò)程中的又一步，我們的工作遠(yuǎn)未結(jié)束。盡管這一版本在智能與效率方面實(shí)現(xiàn)大幅提升，我們深知用戶(hù)仍期待更多。我們正著手解決 ChatGPT 中的已知問(wèn)題，例如過(guò)度拒答，同時(shí)繼續(xù)全面提升其安全性與可靠性。這些改動(dòng)本身相當(dāng)復(fù)雜，我們正全力以赴，確保一切落實(shí)到位。

4 可用性與定價(jià)

在 ChatGPT 中，我們將從今天起陸續(xù)推出 GPT?5.2（Instant、Thinking 和 Pro），首先面向付費(fèi)套餐（Plus、Pro、Go、Business 和 Enterprise）用戶(hù)。為了確保 ChatGPT 的穩(wěn)定與流暢，我們會(huì)采取逐步上線(xiàn)的方式；如果你暫時(shí)還沒(méi)看到更新，請(qǐng)稍后再試。在 ChatGPT 中，GPT?5.1 仍會(huì)以傳統(tǒng)模型的形式向付費(fèi)用戶(hù)提供三個(gè)月，之后我們將正式停止支持 GPT?5.1。

ChatGPT 與 API 的模型命名方式
ChatGPTAPI

ChatGPT?5.2 Instant

GPT?5.2-chat-latest

ChatGPT?5.2 Thinking

GPT?5.2

ChatGPT?5.2 Pro

GPT?5.2 Pro

在我們的 API 平臺(tái)中，GPT?5.2 Thinking 已可通過(guò) Responses API 和 Chat Completions API 使用，名稱(chēng)為gpt-5.2。而 GPT?5.2 Instant 則以gpt-5.2-chat-latest提供。GPT?5.2 Pro 在 Responses API 中以gpt-5.2-pro提供。開(kāi)發(fā)者現(xiàn)在可以在 GPT?5.2 Pro 中設(shè)置推理參數(shù)；此外 GPT?5.2 Pro 和 GPT?5.2 Thinking 現(xiàn)在都支持全新的第五檔推理強(qiáng)度 xhigh，專(zhuān)為那些對(duì)質(zhì)量要求最高的任務(wù)而設(shè)計(jì)。

GPT?5.2 的價(jià)格為每百萬(wàn)輸入 Token 1.75 美元、每百萬(wàn)輸出 Token 14 美元，緩存輸入可享受 90% 的優(yōu)惠。在多項(xiàng)智能體評(píng)測(cè)中，我們發(fā)現(xiàn)，盡管 GPT?5.2 的單 Token 成本更高，但由于其更高的 Token 效率，達(dá)到同等質(zhì)量水平的整體成本反而更低。

雖然 ChatGPT 的訂閱價(jià)格保持不變，但在 API 中， GPT?5.2 的 Token 單價(jià)高于 GPT?5.1，因?yàn)樗哪芰Ω鼜?qiáng)。不過(guò)，它的價(jià)格仍低于其他前沿模型，讓大家依然能在日常工作和核心應(yīng)用中加以充分利用。

每百萬(wàn) Token 的價(jià)格
模型輸入緩存的輸入輸出gpt-5.2 / gpt-5.2-chat-latest

$1.75

$0.175

$14

gpt-5.2-pro

$21

$168

gpt-5.1 / gpt-5.1-chat-latest

$1.25

$0.125

$10

gpt-5-pro

$15

$120

目前尚無(wú)套餐在 API 中停用 GPT?5.1、GPT?5 或 GPT?4.1，如未來(lái)有相關(guān)安排，我們會(huì)提前充分通知開(kāi)發(fā)者。雖然 GPT?5.2 已能在 Codex 中直接運(yùn)行，我們預(yù)計(jì)將在未來(lái)數(shù)周推出專(zhuān)為 Codex 優(yōu)化的 GPT?5.2 版本。

5 合作伙伴

GPT?5.2 是我們與長(zhǎng)期合作伙伴 NVIDIA 和 Microsoft 共同打造的成果。Azure 數(shù)據(jù)中心與 NVIDIA 的 H100、H200、GB200-NVL72 等 GPU 構(gòu)成了 OpenAI 大規(guī)模訓(xùn)練的核心基礎(chǔ)設(shè)施，為模型智能帶來(lái)了顯著提升。正是這種合作，使我們能夠更有信心地?cái)U(kuò)展算力，并更快速地將新模型推向市場(chǎng)。

6 附錄詳細(xì)基準(zhǔn)

GPT?5.2 Thinking 的完整基準(zhǔn)測(cè)試結(jié)果，并同時(shí)提供一部分 GPT?5.2 Pro 的相關(guān)數(shù)據(jù)。

編碼

GPT-5.2 Thinking

GPT-5.2 Pro

GPT-5.1 Thinking

SWE-Bench Pro, Public

55.6%

50.8%

SWE-bench Verified

80.0%

76.3%

SWE-Lancer, IC Diamond*

74.6%

69.7%

編程嚴(yán)選網(wǎng)：http://www.javaedge.cn/ 專(zhuān)注分享AI時(shí)代下軟件開(kāi)發(fā)全場(chǎng)景最新最佳實(shí)踐~

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.