国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2 發(fā)布|信息全整理

0
分享至

上周,

剛剛,GPT-5.2 來了,包含三個版本

  • ? GPT-5.2 Instant :日常對話,快

  • ? GPT-5.2 Thinking :深度任務(wù),代碼、長文檔、數(shù)學、規(guī)劃

  • ? GPT-5.2 Pro :最強,適合難題,愿意等

模型肯定是更強的,比如在AIME 2025 中取得滿分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相當)

今天開始向付費用戶推送,API 已上線,標準版比 GPT-5.1 貴 40%


GPT-5.2 核心評測

如下圖所示,是 GPT-5.2 的相關(guān)核心數(shù)據(jù)


GPT-5.2 Benchmark

注意:

  • ? AIME 2025 滿分(無工具)

  • ? GPT-5.2 Pro 在 ARC-AGI-1 上達到 90.5%,是第一個突破 90% 的模型

  • ? ARC-AGI-2 從 17.6% 到 52.9%,翻了三倍

處理真實工作

GDPval 是 OpenAI 新出的 benchmark

測的是 44 個職業(yè)的真實工作任務(wù):
做 PPT、做表格、寫分析報告

GPT-5.2 Thinking 在 70.9% 的任務(wù)上勝過或打平行業(yè)專家
GPT-5.2 Pro 更高,74.1%


GDPval 知識工作

速度是人類專家的 11 倍,成本不到 1%
一個評審員的評價:
「看起來像是一個有員工的專業(yè)公司做的,布局和建議都很專業(yè),雖然還有一些小錯誤需要修正」

在投行分析師的表格建模任務(wù)上
比如給 Fortune 500 公司做三表模型、做 LBO 模型
平均分從 59.1% 提升到 68.4%

官方放了幾個對比
GPT-5.2 做的表格和 PPT 比 GPT-5.1 精細很多


Workforce Planner 對比,左邊 GPT-5.1,右邊 GPT-5.2

要用這個功能,需要付費版(Plus、Pro、Business、Enterprise),選 GPT-5.2 Thinking 或 Pro

復雜任務(wù)可能要跑好幾分鐘

寫代碼

SWE-Bench Pro 是新的代碼 benchmark
比 SWE-bench Verified 更難

測四種語言,不只是 Python,更接近真實軟件工程
GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%


SWE-Bench Pro

前端能力也提升了,尤其是 3D 和復雜 UI
官方放了幾個 demo,單 prompt 生成的


海浪模擬,單 prompt 生成

對此,Windsurf 的 CEO 表示
「這是 GPT-5 以來 agentic coding 最大的躍升,版本號的小幅升級低估了智能的大幅提升。我們會把它設(shè)為 Windsurf 和 Devin 核心工作流的默認模型」

看圖

視覺能力提升明顯,錯誤率基本減半


CharXiv Reasoning

CharXiv Reasoning:科學論文圖表問答,88.7%,GPT-5.1 是 80.3%

ScreenSpot-Pro,GUI 截圖理解,86.3%,GPT-5.1 是 64.2%

此外,一個很明顯的區(qū)別是:空間位置理解更強了
官方放了個主板識別的對比:給一張低質(zhì)量的主板圖片,讓模型標注各個組件的位置

GPT-5.1 只能標幾個,位置也不太對


GPT-5.1 主板識別

GPT-5.2 能準確標注各個組件,位置基本對


GPT-5.2 主板識別 長文檔

OpenAI MRCRv2,測的是長文檔中多個信息點的整合能力
在文檔里插入多個相同的「針/needl」,然后問模型第 n 個針的內(nèi)容是什么

4 needle 變體,GPT-5.2 Thinking 在 256k token 長度接近 100%
GPT-5.1 在同樣長度只有 30% 左右

這是第一個在 4-needle 變體上達到接近 100%(256k)的模型


長上下文 4 needles

8 needle 更難,GPT-5.2 也有顯著提升


長上下文 8 needles

API 還支持新的 /compact 端點,可以擴展有效上下文窗口,適合工具多、跑得久的任務(wù)

工具調(diào)用

Tau2-bench 測的是多輪對話中的工具使用,模擬客服場景
Telecom 領(lǐng)域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%
Retail 領(lǐng)域,82.0%,GPT-5.1 是 77.9%


工具調(diào)用

官方舉了個例子
用戶說:我從巴黎飛紐約的航班延誤了,錯過了轉(zhuǎn)機去奧斯汀,行李也丟了,需要在紐約過夜,還有醫(yī)療原因需要前排座位

GPT-5.1 漏了好幾步


GPT-5.1 工具調(diào)用

GPT-5.2 一次性處理完:改簽、特殊座位、賠償,全部搞定


GPT-5.2 工具調(diào)用 數(shù)學和科學

AIME 2025 100%,滿分,無工具
HMMT 2025 年 2 月 99.4%,Pro 版 100%
GPQA Diamond 92.4%,Pro 版 93.2%
FrontierMath Tier 1-3 40.3%,Tier 4 14.6%
HLE(Humanity's Last Exam)34.5%(無工具),45.5%(有工具)


數(shù)學&科學

ARC-AGI 是測抽象推理的

ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一個突破 90%

ARC-AGI-2 更難,GPT-5.2 Thinking 52.9%,Pro 版 54.2%

GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%


ARC-AGI 幻覺

在 ChatGPT 真實用戶查詢上測試

有錯誤的回復比例從 8.8% 降到 6.2%,相對減少 30%


幻覺率 價格

漲了
GPT-5.2 比 GPT-5.1 貴 40%;GPT-5.2 Pro 的價格,一如既往的貴到離譜


每百萬 token 價格

官方解釋:雖然單價更高,但 token 效率更高,達到同樣效果的總成本反而更低

ChatGPT 訂閱價格不變

可用性

ChatGPT 今天開始向付費用戶推送:Plus、Pro、Go、Business、Enterprise
如果還沒看到,過幾天再試

GPT-5.1 在 ChatGPT 中還會保留三個月,之后下線
API 已經(jīng)上線:

  • ? gpt-5.2 :Thinking 版

  • ? gpt-5.2-chat-latest :Instant 版

  • ? gpt-5.2-pro :Pro 版

在 PlayGround 里面,可以看到這些模型

新增 xhigh reasoning effort,適合對質(zhì)量要求最高的任務(wù)
GPT-5.1、GPT-5、GPT-4.1 在 API 中暫時不會下線
Codex 優(yōu)化版即將推出

安全

延續(xù)了 GPT-5 的 safe completion 研究
在自殺、自殘、心理健康、情感依賴等敏感對話上的表現(xiàn)改進了


安全性評估

開始部署年齡預測模型,18 歲以下用戶自動限制敏感內(nèi)容
官方說過度拒絕的問題還在改進中

最后

總結(jié)下本次發(fā)布的內(nèi)容

  • ? Code Red 一周后,GPT-5.2 發(fā)布,三個版本

  • ? 性能更強,價格更貴

  • ? 今天開始向付費用戶推送,API 已上線


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

“牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

洲洲影視娛評
2025-12-08 19:52:00
特朗普樂壞了:intel太給力,半年幫美國賺回100多億美元

特朗普樂壞了:intel太給力,半年幫美國賺回100多億美元

互聯(lián)網(wǎng).亂侃秀
2026-01-11 13:19:52
【意甲】國際米蘭2比2那不勒斯 麥克托米奈梅開二度

【意甲】國際米蘭2比2那不勒斯 麥克托米奈梅開二度

體壇周報
2026-01-12 08:02:20
鄰居把排污管接我院子里,我不爭天天種菖蒲,2月后他主動賠6000

鄰居把排污管接我院子里,我不爭天天種菖蒲,2月后他主動賠6000

卡西莫多的故事
2025-12-16 10:29:36
這條荒唐新聞,引起公憤了!

這條荒唐新聞,引起公憤了!

胖胖說他不胖
2026-01-11 10:00:11
警察倒戈,革命衛(wèi)隊被繳械,伊朗神權(quán)精英們開始偷偷運黃金了

警察倒戈,革命衛(wèi)隊被繳械,伊朗神權(quán)精英們開始偷偷運黃金了

知兵
2026-01-10 14:19:56
朱雨玲擊敗陳幸同奪冠,林昀儒擊敗張禹珍,獲勝概率都很高

朱雨玲擊敗陳幸同奪冠,林昀儒擊敗張禹珍,獲勝概率都很高

子水體娛
2026-01-11 23:18:27
15分大勝!上海豪取9連勝高居第一!洛夫頓爆砍29+15大殺四方

15分大勝!上海豪取9連勝高居第一!洛夫頓爆砍29+15大殺四方

體壇小李
2026-01-11 21:50:14
10名干部違規(guī)聚餐,5人喝掉4瓶白酒,從中午十二點持續(xù)到下午兩點,1人死亡后組局者沒立即向組織匯報,反而試圖隱瞞真相

10名干部違規(guī)聚餐,5人喝掉4瓶白酒,從中午十二點持續(xù)到下午兩點,1人死亡后組局者沒立即向組織匯報,反而試圖隱瞞真相

揚子晚報
2026-01-12 07:20:30
山河四省,三億人的悲哀

山河四省,三億人的悲哀

銀河系漫游客
2025-12-30 14:04:48
拉菲尼亞:鑒于我們的打法,很多球隊都會擺大巴

拉菲尼亞:鑒于我們的打法,很多球隊都會擺大巴

懂球帝
2026-01-12 09:05:21
委內(nèi)瑞拉栽大了!買回去反隱身雷達鎖不住F-35,網(wǎng)友吐槽扎心了吧

委內(nèi)瑞拉栽大了!買回去反隱身雷達鎖不住F-35,網(wǎng)友吐槽扎心了吧

達文西看世界
2026-01-11 14:31:49
潘江:古德溫確實很匹配山西,但因種種原因離開我們確實沒辦法

潘江:古德溫確實很匹配山西,但因種種原因離開我們確實沒辦法

懂球帝
2026-01-11 22:54:27
曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

全球風情大揭秘
2026-01-11 23:10:48
太魔幻了!詐騙頭目陳志只是一只白手套,他背后的保護傘又是誰?

太魔幻了!詐騙頭目陳志只是一只白手套,他背后的保護傘又是誰?

公子麥少
2025-10-22 14:43:48
WTT冠軍賽:奧運亞軍出局后喊話樊振東:我要跟我的好朋友去爭冠

WTT冠軍賽:奧運亞軍出局后喊話樊振東:我要跟我的好朋友去爭冠

十點街球體育
2026-01-12 00:00:03
23歲女導演柬埔寨墜亡案新進展:逮捕2名好友,3人最后合影曝光!

23歲女導演柬埔寨墜亡案新進展:逮捕2名好友,3人最后合影曝光!

古希臘掌管松餅的神
2026-01-11 09:55:25
那些本子里的大雷女主角,其實都是作者照著自己畫的?

那些本子里的大雷女主角,其實都是作者照著自己畫的?

游戲動力ATK
2026-01-09 23:18:53
委內(nèi)瑞拉“變天”了,影響了20萬廣東“有錢人”

委內(nèi)瑞拉“變天”了,影響了20萬廣東“有錢人”

李云飛Afey
2026-01-11 22:47:23
二百多名軍官被槍斃、撤職、處分,長津湖戰(zhàn)役中失職的志愿軍88師

二百多名軍官被槍斃、撤職、處分,長津湖戰(zhàn)役中失職的志愿軍88師

丞丞故事匯
2025-12-28 00:13:54
2026-01-12 09:20:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
249文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

小米二手車價大跳水:SU7半年跌5萬元

頭條要聞

牛彈琴:新的戰(zhàn)爭一觸即發(fā) 美國和以色列可能弄巧成拙

頭條要聞

牛彈琴:新的戰(zhàn)爭一觸即發(fā) 美國和以色列可能弄巧成拙

體育要聞

U23國足形勢:末輪不負泰國即確保晉級

娛樂要聞

留幾手為閆學晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

揭秘“穩(wěn)賺不賠”的代工項目騙局

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

游戲
時尚
健康
手機
公開課

《三角洲》女玩家奔現(xiàn)被下藥 不圖色只圖游戲裝備

普通人就該照搬這些穿搭!衣服不用買太貴,自然耐看又舒適

這些新療法,讓化療不再那么痛苦

手機要聞

蘋果iPhone 18 Pro值得你等嗎?傳聞中的10項升級點匯總!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版