国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2 震撼發(fā)布:知識型工作超越人類專家的 AI 生產(chǎn)力革命!

0
分享至

點擊下方“JavaEdge”,選擇“設(shè)為星標(biāo)”

第一時間關(guān)注技術(shù)干貨!

本文已收錄在Github,關(guān)注我,緊跟本系列專欄文章,咱們下篇再續(xù)!

  • 魔都架構(gòu)師 | 全網(wǎng)30W技術(shù)追隨者

  • 大廠分布式系統(tǒng)/數(shù)據(jù)中臺實戰(zhàn)專家

  • 主導(dǎo)交易系統(tǒng)百萬級流量調(diào)優(yōu) & 車聯(lián)網(wǎng)平臺架構(gòu)

  • AIGC應(yīng)用開發(fā)先行者 | 區(qū)塊鏈落地實踐者

  • 以技術(shù)驅(qū)動創(chuàng)新,我們的征途是改變世界!

  • 實戰(zhàn)干貨:編程嚴(yán)選網(wǎng)

0 前言

GPT?5.2 在眾多基準(zhǔn)測試中都刷新了行業(yè)水平,包括 GDPval。在該評測中,它在涵蓋 44 個職業(yè)的明確知識型工作任務(wù)上超越了行業(yè)專家。


GPT?5.2 ThinkingGPT?5.1 Thinking

**GDPval(勝出或持平) **知識型工作任務(wù)

70.9%

38.8% (GPT?5)

SWE-Bench Pro(公開版)

軟件工程

55.6%

50.8%

**SWE-bench Verified **軟件工程

80.0%

76.3%

**GPQA Diamond(無工具) **科學(xué)問題

92.4%

88.1%

**CharXiv 推理(使用 Python) **科學(xué)圖表類問題

88.7%

80.3%

**HMMT(2025 年 2 月) **數(shù)學(xué)競賽

99.4%

96.3%

**FrontierMath(Tier 1–3) **高等數(shù)學(xué)

40.3%

31.0%

**ARC-AGI-1 (Verified) **抽象推理

86.2%

72.8%

**ARC-AGI-2 (Verified) **抽象推理

52.9%

17.6%


  • NotionBox、Shopify、HarveyZoom觀察到,GPT?5.2 展現(xiàn)出強大的長時推理和工具調(diào)用性能

  • Databricks、HexTriple Whale發(fā)現(xiàn),GPT?5.2 在智能體數(shù)據(jù)科學(xué)和文檔分析任務(wù)中表現(xiàn)出色

  • Cognition、WarpCharlie Labs、JetBrainsAugment Code表示,GPT?5.2 在智能體編碼方面達(dá)到了行業(yè)領(lǐng)先水平,并在交互式編程、代碼審查和缺陷定位等領(lǐng)域帶來可量化的提升

1 模型性能 1.1 具備經(jīng)濟(jì)效益的任務(wù)1.2 編碼

GPT?5.2 Thinking 在 SWE-bench Pro 測試取得了 55.6% 的新成績。SWE-bench Pro 是一項嚴(yán)格評估真實軟件工程能力的基準(zhǔn)測試。與只測試 Python 的 SWE-bench Verified 不同,SWE-bench Pro 涵蓋四種語言,旨在更具抗污染性、更具挑戰(zhàn)性、更具多樣性,也更貼近真實工業(yè)場景。

SWE-Bench Pro(公開版) 軟件工程

SWE-bench Pro???為模型提供一個代碼倉庫,要求其生成補丁以完成真實的軟件工程任務(wù)。

在 SWEvbench Verified 測試中(未繪制在圖表中),GPT?5.2 Thinking 取得了我們?nèi)碌淖罡叱煽儯?0%。

在日常專業(yè)應(yīng)用中,這意味著該模型能夠更可靠地調(diào)試生產(chǎn)環(huán)境代碼、實現(xiàn)功能需求、重構(gòu)大型代碼庫,并以更少的人工干預(yù)完成端到端的修復(fù)交付。

GPT?5.2 Thinking 在前端軟件工程方面也優(yōu)于 GPT?5.1 Thinking。早期測試者發(fā)現(xiàn),它在前端開發(fā)以及復(fù)雜或非傳統(tǒng)的 UI 工作上表現(xiàn)更強(尤其是涉及 3D 元素的場景),這讓它成為工程師在全棧工作中的強大日;锇。

編碼能力的反饋

早期測試者分享了他們對 GPT?5.2 編碼能力的反饋:


“GPT-5.2 代表了自 GPT-5 以來在智能體編碼上的最大飛躍,并且在同價位中是業(yè)界領(lǐng)先的編碼模型。版本號的提升甚至低估了它在智能水平上的跨越。我們很高興將它設(shè)為 Windsurf 以及多個核心 Devin 工作負(fù)載的默認(rèn)模型!盝eff Wang,Windsurf 首席執(zhí)行官
“結(jié)合 Warp 使用的 GPT-5.2 在代理式編程性能上達(dá)到行業(yè)領(lǐng)先水平,在 Terminal-Bench 2.0 上得分 61.14%。借助 GPT-5.2,Warp 的智能代理能更好地‘閉環(huán)’操作——驗證自身修改并完成長、多步驟的工作流,其可靠性前所未有。”Zach Lloyd,Warp 創(chuàng)始人兼首席執(zhí)行官
“當(dāng)我們用最嚴(yán)格的編碼評測測試 GPT-5.2 時,改進(jìn)是顯而易見的:任務(wù)解決率提高了最高 35%,長鏈任務(wù)中的級聯(lián)錯誤減少了 30–40%。模型在執(zhí)行指令時更一致,代碼結(jié)構(gòu)更整潔,這些提升開發(fā)者在日常使用中都能明顯感受到!盫ladislav Tankov,JetBrains 人工智能總監(jiān)
“GPT-5.2 擁有比以往任何模型都更強的深度代碼推理能力,因此它是唯一支撐 Augment Code Review 的模型。它能更高效地利用 Augment 的 Context Engine,讓系統(tǒng)在保持低誤報率的同時發(fā)現(xiàn)更多真實缺陷。開啟高推理模式后,Augment Code Review 在 Greptile 的 AI 代碼審查基準(zhǔn)上超越了所有其他模型!盙uy Gur-Ari,Augment 聯(lián)合創(chuàng)始人兼首席科學(xué)家
“我們對 GPT-5.2 的印象極佳——甚至常常忘了切換回我們平時使用的舊模型。它規(guī)劃更深入,執(zhí)行更出色,整體表現(xiàn)顯著優(yōu)于以往版本。研究結(jié)果更豐富、上下文更高效、焦點更明確;代碼修改更精確,范圍得當(dāng),幾乎無需人工干預(yù)。新生成的代碼結(jié)構(gòu)良好,并能自動遵循現(xiàn)有架構(gòu)模式。”Kevin Bond,Cline 創(chuàng)始工程師
“GPT-5.2 在我們的內(nèi)部評估中取得了歷史最高分。它在多輪、復(fù)雜代理任務(wù)中能精準(zhǔn)遵循指令,即使面對大量上下文,也能保持出色表現(xiàn)——讓 Charlie 成為我們技術(shù)客戶的更強大合作伙伴。”Riley Tomasek,Charlie Labs 創(chuàng)始人兼首席執(zhí)行官
“GPT-5.2 讓我非常驚艷。在測試中,我給它拋出了一個其他頂尖模型都無法解決的 bug。它主動要求我提供截圖以獲取更多上下文。當(dāng)我發(fā)送后,它立刻修復(fù)了問題。這展示了模型識別信息缺口并主動索取恰當(dāng)補充的能力。GPT-5.2 能始終專注任務(wù),生成的測試案例極為優(yōu)質(zhì),提交說明簡潔而精準(zhǔn)!盞evin van Dijk,Kilo 軟件工程師
“我們認(rèn)為 GPT-5.2 是迄今為止我們用過最強的模型。它改變了我們設(shè)計智能代理系統(tǒng)的方式,因為模型現(xiàn)在能在更長的任務(wù)鏈中獨立完成更多環(huán)節(jié),無需人類干預(yù)。GPT-5.2 將‘自主性’從一種錦上添花的特性,提升為核心能力——正在重新定義我們?nèi)绾螛?gòu)建高獨立性的智能代理系統(tǒng)。”Michael Carter,Azad 創(chuàng)始人

1.3 事實性

GPT?5.2 Thinking 的幻覺率低于 GPT?5.1 Thinking。在一組來自 ChatGPT、已去標(biāo)識化的查詢中,含有錯誤的回答 出現(xiàn)頻率相對減少了 38%。對專業(yè)人士,意味在研究、寫作、分析和決策支持等任務(wù)中,模型犯錯更少,從而在日常知識型工作中更可靠。


推理強度設(shè)置為可用的最高級別,并啟用了搜索工具。錯誤由其他模型檢測,但這些模型本身也可能出錯。由于多數(shù)回復(fù)包含多個論斷,論斷層面的錯誤率顯著低于回復(fù)層面的錯誤率。

像所有模型一樣,GPT?5.2 Thinking 并不完美。對于任何關(guān)鍵任務(wù),請務(wù)必再次核查它的回答。

1.4 長上下文

GPT?5.2 Thinking 在長上下文推理樹立新技術(shù)標(biāo)桿。OpenAI MRCRv2 是一項用于測試模型整合長文檔中分散信息能力的評估,GPT?5.2 Thinking 在該評估中表現(xiàn)領(lǐng)先。在真實任務(wù)中,如深度文檔分析(需跨數(shù)十萬 Token 關(guān)聯(lián)信息),GPT?5.2 Thinking 的準(zhǔn)確性顯著高于 GPT?5.1 Thinking。這是我們首次看到某模型在 4-needle MRCR 評測變體(最長可達(dá) 256k Token)中實現(xiàn)接近 100% 準(zhǔn)確率。

實際應(yīng)用,專業(yè)人士能用 GPT?5.2 處理長文檔,如報告、合同、研究論文、會議記錄和多文件項目,同時在數(shù)十萬 Token 的范圍內(nèi)保持連貫性和準(zhǔn)確性。因此,GPT?5.2 尤其適合深度分析、信息綜合以及復(fù)雜的多來源工作流程。



對那些需要在最大上下文窗口之外繼續(xù)推理的任務(wù),GPT?5.2 Thinking 可與我們?nèi)碌?Responses/compact端點配合使用,從而擴(kuò)展模型的有效上下文窗口。這使得 GPT?5.2 Thinking 能夠處理更多依賴工具的長時工作流程,而這些流程在過去會受到上下文長度的限制。參閱API 文檔。

1.5 展望

GPT?5.2 Thinking 是我們迄今最強大的視覺模型,在圖表推理和軟件界面理解方面將錯誤率大幅降低,約減少了一半。

在日常專業(yè)場景中,這意味著模型能夠更準(zhǔn)確地理解控制面板、產(chǎn)品截圖、技術(shù)圖示和可視化報告,從而支持金融、運營、工程、設(shè)計和客戶支持等以視覺信息為核心的工作流程。



ScreenSpot-Pro(在新窗口中打開)中,模型需要對來自各種專業(yè)場景的高分辨率圖形界面截圖進(jìn)行推理。 在該任務(wù)中,Python 工具被啟用,并將推理力度設(shè)為最高。若未啟用 Python 工具,得分會顯著降低。 因此,我們建議在此類視覺任務(wù)中啟用 Python 工具。

與以往模型相比,GPT?5.2 Thinking 對圖像中各元素的空間位置有更強的理解能力,這在需要依賴相對布局來解決問題的任務(wù)中尤為重要。在下面的示例中,我們讓模型識別圖像中的組件(這里是一塊主板),并返回帶有大致邊界框的標(biāo)簽。即使面對低質(zhì)量圖像,GPT?5.2 仍能識別主要區(qū)域,并將邊界框大致放在各組件的真實位置上;而 GPT?5.1 只能標(biāo)出少數(shù)部分,對空間關(guān)系的理解也明顯較弱。

GPT-5.1
GPT-5.21.6 工具調(diào)用

GPT?5.2 Thinking 在 Tau2 bench Telecom 測試中取得了 98.7% 的全新優(yōu)異成績,展示了它在長程、多輪任務(wù)中可靠使用工具的能力。

在對延遲敏感的場景中,GPT?5.2 Thinking 在 reasoning.effort='none' 模式下也有顯著提升,性能大幅領(lǐng)先 GPT?5.1 和 GPT?4.1。

Tau2-bench Telecom 客戶支持中的工具使用


Tau2-bench Retail 客戶支持中的工具使用


對于專業(yè)人士而言,這意味著端到端的工作流程將更加穩(wěn)健,如處理客戶支持案例、從多個系統(tǒng)提取數(shù)據(jù)、執(zhí)行分析以及生成最終結(jié)果,各步驟之間出現(xiàn)中斷的情況也更少。

如當(dāng)用戶提出一個需要多步驟解決的復(fù)雜客服問題時,模型能夠更有效地在多個代理之間協(xié)調(diào)完整的工作流程。在下面的案例中,一位旅客報告航班延誤、錯過轉(zhuǎn)機(jī)、在紐約過夜以及需要醫(yī)療座位安排。GPT?5.2 能夠處理整個任務(wù)鏈,包括改簽、座位安排的特殊協(xié)助和補償,最終結(jié)果比 GPT?5.1 更完整。

1.7 科學(xué)與數(shù)學(xué)

我們對人工智能的期望之一,是它能夠有效推進(jìn)科學(xué)研究,從而惠及全人類。為此,我們一直與科學(xué)家合作并聽取他們的意見,探索人工智能如何可提升他們的科研效率。上個月,我們在這里?分享了一些早期的合作實驗。

GPT?5.2 Pro 和 GPT?5.2 Thinking 是目前最能支持并加快科研進(jìn)展的模型。在研究生級防 Google 問答基準(zhǔn)測試 GPQA Diamond 中,GPT?5.2 Pro 取得了 93.2% 的成績,GPT?5.2 Thinking 緊隨其后,達(dá)到 92.4%。


在專家級數(shù)學(xué)評測 FrontierMath (Tier 1–3) 中,GPT?5.2 Thinking 樹立了新的技術(shù)標(biāo)桿,解決了 40.3% 的問題。

FrontierMath (Tier 1–3) 高等數(shù)學(xué)


我們已經(jīng)開始看到,人工智能模型在數(shù)學(xué)和科學(xué)領(lǐng)域以切實可見的方式有效推進(jìn)研究進(jìn)展。例如,在一項使用 GPT?5.2 Pro 的近期研究?中,研究人員探討了統(tǒng)計學(xué)習(xí)理論中的一個開放問題。在一個范圍明確、設(shè)定清晰的情境下,模型提出了一個證明,之后由作者核實并請外部專家審閱,說明前沿模型在嚴(yán)密的人類監(jiān)督下也能為數(shù)學(xué)研究提供幫助。

ARC-AGI 2

在 ARC-AGI-1 (Verified) 這一用于衡量通用推理能力的基準(zhǔn)測試中,GPT?5.2 成為首個突破 90% 閾值的模型,相較去年 o3?preview 的 87% 有明顯提升,同時將達(dá)到該性能的成本降低了約 390 倍。

在更高難度、更加側(cè)重流體推理能力的 ARC-AGI-2 (Verified) 中,GPT?5.2 Thinking 以 52.9% 的成績刷新了鏈?zhǔn)剿季S模型的最新紀(jì)錄;GPT?5.2 Pro 表現(xiàn)更進(jìn)一步,達(dá)到 54.2%,進(jìn)一步拓展了模型在處理全新抽象問題時的推理能力。

從這些評測結(jié)果的提升可以看出,GPT?5.2 在多步推理、數(shù)值準(zhǔn)確性和處理復(fù)雜技術(shù)問題的穩(wěn)定性上都有了更強的表現(xiàn)。

以下是早期測試者對 GPT?5.2 的反饋:

“GPT-5.2 為我們開啟了完整的架構(gòu)轉(zhuǎn)型。我們將一個脆弱的多智能體系統(tǒng)整合為一個擁有 20 多個工具的超級智能體。最棒的是,它就是這么好用。這款超級智能體速度更快、更聰明,維護(hù)起來容易 100 倍。我們觀察到延遲顯著降低,工具調(diào)用性能更強大,并且我們不再需要龐大的系統(tǒng)提示,因為 5.2 只需一行簡單的提示就能穩(wěn)定執(zhí)行。這感覺就像魔法! AJ Orbach,Triple Whale 首席執(zhí)行官

“GPT-5.2 在需要處理復(fù)雜、沖突信息的長程推理任務(wù)中表現(xiàn)突出——這種模糊性正是知識型工作的真實寫照。它的速度也非常快,并在我們評估體系的所有維度上都超越了 GPT-5.1。我們相信,注重品質(zhì)的客戶會把 GPT-5.2 作為他們新的日常主力模型!盇bhishek Modi,Notion 人工智能負(fù)責(zé)人
“GPT-5.2 在工具調(diào)用方面表現(xiàn)非常出色:Zoom AI Companion 的會議安排成功率提升了 10%,在我們內(nèi)部的多步問答基準(zhǔn)測試中表現(xiàn)提升了 3.5%。這些進(jìn)步讓 AI Companion 在安排會議和應(yīng)對復(fù)雜問題時更加可靠,并能在恰當(dāng)?shù)臅r機(jī)提供精準(zhǔn)洞見!盭.D. Huang,Zoom 首席技術(shù)官
“我們正進(jìn)入一個由人工智能驅(qū)動的新生產(chǎn)力階段,而 GPT-5.2 為 Box AI 企業(yè)套件帶來了重大提升。與以往模型相比,復(fù)雜文檔提取的延遲縮短了 31%,法律任務(wù)推理準(zhǔn)確率提升了 76%——而法律領(lǐng)域?qū)_度要求極高。這些改進(jìn)讓長文檔分析幾乎實現(xiàn)即時響應(yīng),并能從復(fù)雜數(shù)據(jù)中挖掘更深層洞察!盉en Kus,Box 首席技術(shù)官
“在我們的內(nèi)部評估中,GPT-5.2 在復(fù)雜、真實世界數(shù)據(jù)分析方面達(dá)到了業(yè)界最優(yōu)表現(xiàn),尤其在模糊語境下展現(xiàn)出卓越的推理能力。Hex 對 5.2 能夠通過復(fù)雜的工具使用來解決定義不清、模糊問題的能力印象深刻!盋aitlin Colgrove,Hex 首席技術(shù)官兼聯(lián)合創(chuàng)始人
“我們發(fā)現(xiàn) GPT-5.2 在多文檔、多表格的復(fù)雜推理任務(wù)中能力顯著增強。根據(jù)我們的 OfficeQA 基準(zhǔn)(專注評估此類具有經(jīng)濟(jì)價值的真實推理任務(wù)),GPT-5.2 超越了許多現(xiàn)有模型,特別擅長結(jié)構(gòu)化提取和文檔分析,能夠理解復(fù)雜表格并基于企業(yè)真實數(shù)據(jù)進(jìn)行精準(zhǔn)計算。這使其非常適用于我們的多種智能代理產(chǎn)品!盤atrick Wendell,Databricks 副總裁兼聯(lián)合創(chuàng)始人
“GPT-5.2 將前沿推理與能力意識相結(jié)合——模型能更好地判斷何時推進(jìn)、何時擴(kuò)充上下文,以及何時引入人類協(xié)作。在我們的評估中,GPT-5.2 在長文本、文檔密集型任務(wù)(如草擬文檔)上表現(xiàn)出更強的防護(hù)機(jī)制與更佳成果。”Niko Grupen,Harvey 應(yīng)用研究主管
“GPT-5.2 讓我們離‘值得信賴的 AI 代理’更近了一步,因為它的執(zhí)行可靠性遠(yuǎn)高于以往模型。這一變化將重塑客戶服務(wù)場景,也改變了我們在 AI 信任構(gòu)建上的方式。”Stefan Ostwald,Parloa 聯(lián)合創(chuàng)始人兼首席人工智能官
“我們很高興將 GPT-5.2 集成到 Moveworks AI Assistant 中。內(nèi)部評估顯示,它相比 5.1 擁有更強的自我感知能力、更高的可控性,以及更優(yōu)的工具調(diào)用表現(xiàn)——這些都是實現(xiàn)企業(yè)工作流自動化的關(guān)鍵。”Bhavin Shah,Moveworks 首席執(zhí)行官
“與 GPT-5.1 相比,GPT-5.2 在較低推理層級下就能實現(xiàn)更高的指令遵循度與工具調(diào)用準(zhǔn)確性,輸出快速且穩(wěn)定,并能在需要時擴(kuò)展到深度分析!盉en Lafferty,Shopify 高級工程師

2 ChatGPT 中的 GPT?5.2

在 ChatGPT 中,用戶會發(fā)現(xiàn) GPT?5.2 的日常使用體驗更佳 — 結(jié)構(gòu)更清晰、更可靠,同時依然提供愉快的交流體驗。

GPT?5.2 Instant是一款高效而強大的日常工作與學(xué)習(xí)“主力模型”,在信息查詢、操作指南、步驟講解、技術(shù)寫作以及翻譯方面都有顯著提升,并延續(xù)了 GPT?5.1 Instant 更溫暖、更自然的對話風(fēng)格。早期測試者特別指出,其解釋更清晰,能夠在一開始就呈現(xiàn)出關(guān)鍵信息。

GPT?5.2 Thinking專為更深入的工作而打造,幫助用戶以更高的完成度處理復(fù)雜任務(wù),擅長編碼、長文檔總結(jié)、回答上傳文件相關(guān)問題、逐步推導(dǎo)數(shù)學(xué)與邏輯問題,以及通過更清晰的結(jié)構(gòu)和更有用的細(xì)節(jié)支持規(guī)劃與決策。

GPT?5.2 Pro是應(yīng)對高難度問題時最智能、最可靠的選擇,在需要高質(zhì)量答案的場景中尤為適合。早期測試顯示,它的重大錯誤更少,在編程等復(fù)雜領(lǐng)域的表現(xiàn)也更為出色。

3 安全

GPT?5.2 延續(xù)了我們隨 GPT?5 提出的安全補全?研究,讓模型在不越過安全界限的情況下,也能提供最有幫助的答案。

在此版本中,我們繼續(xù)推進(jìn)增強模型在敏感對話中的回應(yīng)能力?這項工作,讓它在面對自殺、自殘、心理困擾或?qū)δP彤a(chǎn)生情緒依賴等相關(guān)提示時,能夠做出更恰當(dāng)、更穩(wěn)妥的回應(yīng)。這些有針對性的改進(jìn)讓 GPT?5.2 Instant 和 GPT?5.2 Thinking 的不理想回復(fù)顯著減少,相較于 GPT?5.1 以及 GPT?5 Instant 和 Thinking 模型都有明顯提升。詳情請參閱系統(tǒng)卡?。

我們正在逐步上線年齡預(yù)測模型?,以便自動為未滿 18 歲的用戶應(yīng)用內(nèi)容保護(hù)措施,從而限制其接觸敏感內(nèi)容。這項工作是我們現(xiàn)有的未成年人識別機(jī)制和家長控制功能的延伸。

GPT?5.2 是持續(xù)改進(jìn)過程中的又一步,我們的工作遠(yuǎn)未結(jié)束。盡管這一版本在智能與效率方面實現(xiàn)大幅提升,我們深知用戶仍期待更多。我們正著手解決 ChatGPT 中的已知問題,例如過度拒答,同時繼續(xù)全面提升其安全性與可靠性。這些改動本身相當(dāng)復(fù)雜,我們正全力以赴,確保一切落實到位。

4 可用性與定價

在 ChatGPT 中,我們將從今天起陸續(xù)推出 GPT?5.2(Instant、Thinking 和 Pro),首先面向付費套餐(Plus、Pro、Go、Business 和 Enterprise)用戶。為了確保 ChatGPT 的穩(wěn)定與流暢,我們會采取逐步上線的方式;如果你暫時還沒看到更新,請稍后再試。在 ChatGPT 中,GPT?5.1 仍會以傳統(tǒng)模型的形式向付費用戶提供三個月,之后我們將正式停止支持 GPT?5.1。

ChatGPT 與 API 的模型命名方式
ChatGPTAPI

ChatGPT?5.2 Instant

GPT?5.2-chat-latest

ChatGPT?5.2 Thinking

GPT?5.2

ChatGPT?5.2 Pro

GPT?5.2 Pro

在我們的 API 平臺中,GPT?5.2 Thinking 已可通過 Responses API 和 Chat Completions API 使用,名稱為gpt-5.2。而 GPT?5.2 Instant 則以gpt-5.2-chat-latest提供。GPT?5.2 Pro 在 Responses API 中以gpt-5.2-pro提供。開發(fā)者現(xiàn)在可以在 GPT?5.2 Pro 中設(shè)置推理參數(shù);此外 GPT?5.2 Pro 和 GPT?5.2 Thinking 現(xiàn)在都支持全新的第五檔推理強度 xhigh,專為那些對質(zhì)量要求最高的任務(wù)而設(shè)計。

GPT?5.2 的價格為每百萬輸入 Token 1.75 美元、每百萬輸出 Token 14 美元,緩存輸入可享受 90% 的優(yōu)惠。在多項智能體評測中,我們發(fā)現(xiàn),盡管 GPT?5.2 的單 Token 成本更高,但由于其更高的 Token 效率,達(dá)到同等質(zhì)量水平的整體成本反而更低。

雖然 ChatGPT 的訂閱價格保持不變,但在 API 中, GPT?5.2 的 Token 單價高于 GPT?5.1,因為它的能力更強。不過,它的價格仍低于其他前沿模型,讓大家依然能在日常工作和核心應(yīng)用中加以充分利用。

每百萬 Token 的價格
模型輸入緩存的輸入輸出gpt-5.2 / gpt-5.2-chat-latest

$1.75

$0.175

$14

gpt-5.2-pro

$21

$168

gpt-5.1 / gpt-5.1-chat-latest

$1.25

$0.125

$10

gpt-5-pro

$15

$120

目前尚無套餐在 API 中停用 GPT?5.1、GPT?5 或 GPT?4.1,如未來有相關(guān)安排,我們會提前充分通知開發(fā)者。雖然 GPT?5.2 已能在 Codex 中直接運行,我們預(yù)計將在未來數(shù)周推出專為 Codex 優(yōu)化的 GPT?5.2 版本。

5 合作伙伴

GPT?5.2 是我們與長期合作伙伴 NVIDIA 和 Microsoft 共同打造的成果。Azure 數(shù)據(jù)中心與 NVIDIA 的 H100、H200、GB200-NVL72 等 GPU 構(gòu)成了 OpenAI 大規(guī)模訓(xùn)練的核心基礎(chǔ)設(shè)施,為模型智能帶來了顯著提升。正是這種合作,使我們能夠更有信心地擴(kuò)展算力,并更快速地將新模型推向市場。

6 附錄 詳細(xì)基準(zhǔn)

GPT?5.2 Thinking 的完整基準(zhǔn)測試結(jié)果,并同時提供一部分 GPT?5.2 Pro 的相關(guān)數(shù)據(jù)。

編碼

GPT-5.2 Thinking

GPT-5.2 Pro

GPT-5.1 Thinking

SWE-Bench Pro, Public

55.6%

50.8%

SWE-bench Verified

80.0%

76.3%

SWE-Lancer, IC Diamond*

74.6%

69.7%

編程嚴(yán)選網(wǎng):http://www.javaedge.cn/ 專注分享AI時代下軟件開發(fā)全場景最新最佳實踐~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
偷雞不成蝕把米。以為能替閆學(xué)晶出口惡氣,不料自己先被扒底朝天

偷雞不成蝕把米。以為能替閆學(xué)晶出口惡氣,不料自己先被扒底朝天

林木體育解說
2026-01-10 22:03:52
官方通報“亞運冠軍遭索要獎金”調(diào)查結(jié)果

官方通報“亞運冠軍遭索要獎金”調(diào)查結(jié)果

南方都市報
2026-01-11 10:14:28
特朗普:美國要開始進(jìn)行“陸地打擊”

特朗普:美國要開始進(jìn)行“陸地打擊”

澎湃新聞
2026-01-11 00:21:24
央視主持人崗位完成調(diào)整,朱迅被下放,龍洋占據(jù)門面位置

央視主持人崗位完成調(diào)整,朱迅被下放,龍洋占據(jù)門面位置

豐譚筆錄
2026-01-05 10:59:09
出大事了,高市13天后要下臺,日本突然棄美投韓,兩國秘密結(jié)盟

出大事了,高市13天后要下臺,日本突然棄美投韓,兩國秘密結(jié)盟

阿器談史
2026-01-11 17:20:31
天呀,杜海濤竟然現(xiàn)成這樣了,沈夢辰對他是真愛啊

天呀,杜海濤竟然現(xiàn)成這樣了,沈夢辰對他是真愛啊

草莓解說體育
2026-01-07 01:43:18
8:1,超級慘案!1億先生獨造4球,拜仁毫不留情,11分領(lǐng)跑德甲

8:1,超級慘案!1億先生獨造4球,拜仁毫不留情,11分領(lǐng)跑德甲

阿超他的體育圈
2026-01-12 02:38:02
8勝2負(fù),從魚腩球隊,闖入爭冠行列!杜蘭特或許快后悔了

8勝2負(fù),從魚腩球隊,闖入爭冠行列!杜蘭特或許快后悔了

老梁體育漫談
2026-01-12 00:49:11
廣州一高層建筑工地發(fā)生火災(zāi) 消防通報情況

廣州一高層建筑工地發(fā)生火災(zāi) 消防通報情況

極目新聞
2026-01-11 19:42:23
網(wǎng)友冰島偶遇周也,和素人合影卻翻車,網(wǎng)友吐槽:顏值比不上素人

網(wǎng)友冰島偶遇周也,和素人合影卻翻車,網(wǎng)友吐槽:顏值比不上素人

小徐講八卦
2026-01-09 09:30:17
投資1416億!河南打造北方運河第一省

投資1416億!河南打造北方運河第一省

虔青
2026-01-12 02:05:16
日本開始反擊!高市早苗斷定:日本7大幫手到位后,中國自會退讓

日本開始反擊!高市早苗斷定:日本7大幫手到位后,中國自會退讓

三農(nóng)老歷
2026-01-12 00:37:22
賴清德想向大陸攤牌,國民黨表態(tài):直接放行!結(jié)果民進(jìn)黨立馬慫了

賴清德想向大陸攤牌,國民黨表態(tài):直接放行!結(jié)果民進(jìn)黨立馬慫了

傲傲講歷史
2026-01-11 09:53:45
演員閆學(xué)晶陷輿論爭議 兒子首發(fā)聲:網(wǎng)上所有的回應(yīng)都不實

演員閆學(xué)晶陷輿論爭議 兒子首發(fā)聲:網(wǎng)上所有的回應(yīng)都不實

紅星新聞
2026-01-06 20:18:24
離春節(jié)還剩30多天,提醒:6種年貨提前買,先存起來,不花冤枉錢

離春節(jié)還剩30多天,提醒:6種年貨提前買,先存起來,不花冤枉錢

阿龍美食記
2026-01-09 19:10:49
上海男籃功勛隊長,身高2米21娶1米53嬌妻,如今他換了身份回上海

上海男籃功勛隊長,身高2米21娶1米53嬌妻,如今他換了身份回上海

削桐作琴
2026-01-04 20:23:41
宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

雍親王府
2026-01-09 15:20:02
“龍利魚”鮮嫩無刺,老少皆宜,海鮮店老板:我絕不給家里人吃

“龍利魚”鮮嫩無刺,老少皆宜,海鮮店老板:我絕不給家里人吃

簡食記工作號
2026-01-09 00:14:00
女孩曬50歲媽媽精致日常,風(fēng)韻猶存火出圈,網(wǎng)友:身材比女兒還好

女孩曬50歲媽媽精致日常,風(fēng)韻猶存火出圈,網(wǎng)友:身材比女兒還好

youyou喜歡你
2026-01-10 23:21:29
中國被迫入局,不幫俄羅斯都不行?美國失算,中方走了一步妙棋

中國被迫入局,不幫俄羅斯都不行?美國失算,中方走了一步妙棋

小蔑談事
2025-12-29 11:20:11
2026-01-12 04:48:49
JavaEdge incentive-icons
JavaEdge
Java 技術(shù)
466文章數(shù) 457關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

體育要聞

U23國足形勢:末輪不負(fù)泰國即確保晉級

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

藝術(shù)
游戲
家居
手機(jī)
軍事航空

藝術(shù)要聞

25位世界名人告訴你,音樂是人一生能擁有最棒的事!

Epic喜加二/LPL、KPL春季賽開戰(zhàn)| 下周玩什么

家居要聞

木色留白 演繹現(xiàn)代自由

手機(jī)要聞

曝三星Galaxy S26 Ultra支持?eSIM,新機(jī)下月見

軍事要聞

俄大使:馬杜羅夫婦被控制時身邊沒人

無障礙瀏覽 進(jìn)入關(guān)懷版