国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT5.2發(fā)布:屠榜?不,是OpenAI在補課

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

四個月前,GPT-5 發(fā)布時一堆人吐槽,跑分是高了,但聊天冷冰冰;一個月前,GPT-5.1 回應了這波差評,主打“更好聊、更好調(diào)”,算是把人味兒找回來了。

結(jié)果還沒暖熱乎,Google 的 Gemini 3 就殺了過來,直接把 LMArena 榜單屠了個遍。緊接著 Anthropic 的 Claude Opus 4.5 也上線,在編程榜單上把 OpenAI 按在地上摩擦。

于是就有了昨天凌晨的 GPT-5.2。

這次發(fā)布的背景很微妙,就在幾天前,有媒體爆出 Sam Altman 在內(nèi)部發(fā)了一封Code Red郵件,要求全公司集中資源改進 ChatGPT。雖然官方說 GPT?5.2 不是專門為 Gemini 3 趕出來的,但 Code Red 和發(fā)布時間點都說明:Gemini 3 至少加快了 OpenAI 把這版推向用戶的步伐。


這一次,OpenAI 雖然繼續(xù)強調(diào)跑分相對5.1點提升,但還在反復突出一個關(guān)鍵詞:專業(yè)知識工作。

換句話說,這次瞄準的不是“更好聊”,而是“更能干活”。

1

第一個在“真實工作”上打平人類專家的模型?

這次 OpenAI 主推的新基準測試叫 GDPval:讓 AI 去做 44 種職業(yè)的真實工作任務,比如做 PPT、做表格、寫分析報告。

成績是這樣的:



  • GPT-5.2 Thinking 在 70.9% 的任務上能打平或者贏過行業(yè)專家

  • 上一代 GPT-5 才 38.8%

  • Claude Opus 4.5 是 59.6%

  • Gemini 3 Pro 是 53.5%

更夸張的是效率:速度快 11 倍,成本不到 1%

當然,GDPval 是 OpenAI 自己搞的基準,還沒有被獨立驗證,所以這個打平人類專家的說法要打個問號。但即便打個折扣,從 38% 跳到 70%,這個提升幅度也很難忽視。

Anthropic 的 Claude 最近在這類任務上同樣進步明顯,但從 5.2 的發(fā)力方向來看,OpenAI 顯然想在"AI 替代知識工作"這條賽道上搶先卡位。

OpenAI官方也放了一些工作中的案例,比如,同樣是讓模型做一個勞動力規(guī)劃表格(包含員工人數(shù)、招聘計劃、流失率和預算影響),5.1 輸出的是一堆原始數(shù)據(jù)堆砌,5.2 則自動按部門分類、加上顏色標注和清晰的層級結(jié)構(gòu),看起來像是有人真的用心排過版。


1

Coding:前端又雙叒叕更強了

編程能力也是 5.2 的重點宣傳方向。

SWE-bench Pro:55.6%(5.1 是 50.8%,Gemini 3 Pro 是 43.3%,Claude Opus 4.5 是 52%)

SWE-bench Verified:80%(和 Claude Opus 4.5 的 80.9% 基本打平,這個榜已經(jīng)快刷到極限了)


OpenAI 這次重點宣傳的是 SWE-bench Pro 而不是 Verified,角度是:Pro 版本場景更多樣、污染更少,更能反映真實的軟件工程能力。

前端開發(fā)能力又上了一個臺階,特別是在 3D 場景渲染和復雜交互界面這塊。Cognition、Warp、JetBrains、Augment Code 這些合作伙伴都表示,5.2 在交互式編程、代碼審查和 bug 查找上都有可測量的提升。

最直觀的是這個波浪模擬案例的對比,

GPT-5.2 Thinking:

Gemini 3 Pro:

1

更像數(shù)學家了

數(shù)學能力是這次升級的另一個重頭戲。

幾個關(guān)鍵數(shù)字:

  • FrontierMath(Tier 1-3):40.3%,創(chuàng)下新的行業(yè)紀錄,上一代 5.1 是 31%

  • AIME 2025:100%,滿分。這是第一個在不使用工具的情況下刷滿這個競賽數(shù)學基準的模型

  • GPQA Diamond(博士級科學問答):Thinking 版 92.4%,Pro 版 93.2%

但最讓人印象深刻的,是 GPT-5.2 Pro 在一個真正的數(shù)學研究問題上的表現(xiàn)。

OpenAI 在博客里提到,研究人員用 GPT-5.2 Pro 探索了一個統(tǒng)計學習理論中的開放問題,這個問題最早是在 2019 年的一個數(shù)學會議上提出的。在一個特定的高斯設(shè)定下,模型提出了一個證明思路,隨后被人類研究者驗證并擴展。

這不是AI 從零發(fā)現(xiàn)物理定律那種科幻場景,但確實是一個 AI 在人類監(jiān)督下提供了非平凡的數(shù)學洞見,而且經(jīng)受住了專家審查。5.1 沒有被廣泛報道做到過這一點。

用一位測試者的話說:5.1 像一個很強的數(shù)學家教和助手,5.2 開始有點"初級合作者"的意思了——尤其是配合代碼工具使用的時候。

1

API 漲價:OpenAI 的小心思

5.2 的 API 漲價了。

輸入輸出的單價都上調(diào)了約 40%:$1.75/百萬輸入,$14/百萬輸出。Pro 版本更貴,分別是 $21 和 $168。


官方的解釋是:單價雖然漲了,但模型效率更高,完成同樣的任務消耗的 token 更少,所以"達到同等質(zhì)量水平的總成本可能反而更低"。

但如果花更少的 token 只能達到"同等質(zhì)量",那升級的意義在哪兒?要是真的又好又省,直接說"更好更便宜"不就完了?

說白了,模型確實變強了,但 OpenAI 選擇把效率提升的紅利收進自己口袋,而不是讓利給用戶。

1

幾個重點提升

除了上面這些亮點,5.2 還有幾個實打?qū)嵉奶嵘?/p>

錯誤率降低 30%

這一點其實很關(guān)鍵。很多人只盯著"智商"看,但實際用下來會發(fā)現(xiàn),國產(chǎn)模型和海外頭部模型之間,幻覺控制的差距往往比純智力差距更影響體驗。5.2 的 Thinking 版本比 5.1 的錯誤率降低了 30%,在日常決策、研究和寫作場景下會更靠譜。


長文能力提升

以前長上下文是個老大難問題,塞太多內(nèi)容進去模型就開始健忘。5.2 在 256k token 級別的測試中表現(xiàn)穩(wěn)定,基本能把關(guān)鍵信息都記住。像合同審核、文獻梳理這種需要反復引用上文的場景,體驗會好很多。Box 反饋說,5.2 從長文檔中提取信息的速度快了 40%,推理準確率也提升了 40%。


看圖能力

圖表理解、軟件界面識別這塊錯誤率砍了一半。在 CharXiv Reasoning(科學論文圖表理解基準)上,5.2 Thinking 達到了 88.7%,比 5.1 提升了 8 個百分點以上。


OpenAI 內(nèi)部測試里,有人給模型一張低分辨率的主板照片,它能準確識別出關(guān)鍵元器件。這意味著以后扔給 AI 一張模糊的業(yè)務報表截圖,它大概率能直接把里面的數(shù)據(jù)結(jié)構(gòu)化提取出來,這對做數(shù)據(jù)分析的人來說挺實用的,畢竟現(xiàn)在海外已經(jīng)有不少人把 AI 當成數(shù)據(jù)分析的主力工具了。


1

Code Red 下的補課之作

拉遠一點看,GPT-5.2 本質(zhì)上是一次“補課”。

從 8 月的 5.0 到 11 月的 5.1 再到 12 月的 5.2,四個月三個版本,這個節(jié)奏本身就說明問題:OpenAI 在被 Gemini 3 和 Claude Opus 4.5 逼著跑。結(jié)果就是PT?5.2 在 benchmark 上把很多榜單拉了回來,但真正有意義的是,它在長時知識工作、復雜編碼和 agent 工作流上的表現(xiàn)。

另外也有觀點認為,這種緊急動員 + 小步快跑的節(jié)奏可能會成為常態(tài),年底各家都可能還有新發(fā)布。好處是各家實驗室會被倒逼著把模型做得更快、更便宜、更能變現(xiàn);壞處是大家都盯著短期 benchmark 卷,真正需要長期投入的基礎(chǔ)性突破可能會被擠壓。

這次的社區(qū)的反饋也很多樣,做正事的用戶普遍覺得真香,長上下文、復雜推理確實更穩(wěn)了;但陪聊黨和角色扮演玩家吐槽“5.2 冷冰冰的,像從好朋友變成了 HR”,人味兒又被收回去了,還有人吐槽說好的成人模式也遙遙無期。

總結(jié)一下,如果你是 ChatGPT Pro 用戶,5.2 在需要深度分析、復雜推理的場景下值得一試——做 PPT、做表格、寫報告、啃長文檔,這些方面的進步是實打?qū)嵉摹?/p>

但如果你期待的是日常聊天體驗的質(zhì)變,可能要失望了。5.2 的真正價值,或許要等它接入 Codex 這類 agent 產(chǎn)品、開始真正替你跑腿干活的時候,才能完全釋放出來。

屠榜不重要,能干活才重要。這一點,OpenAI 這次算是想明白了。


點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
官媒發(fā)文,曝光王思聰與秦嵐真實關(guān)系,原來黃圣依一個字都沒說錯

官媒發(fā)文,曝光王思聰與秦嵐真實關(guān)系,原來黃圣依一個字都沒說錯

看盡落塵花q
2026-01-08 02:22:16
趕在美國奪島前,歐盟27國要聯(lián)華抗美?這一次,王毅接到特殊電話

趕在美國奪島前,歐盟27國要聯(lián)華抗美?這一次,王毅接到特殊電話

知法而形
2026-01-08 17:52:11
亞運冠軍舉報訓練基地負責人“索要獎金”續(xù):云南體育局稱“很快會有結(jié)論”

亞運冠軍舉報訓練基地負責人“索要獎金”續(xù):云南體育局稱“很快會有結(jié)論”

澎湃新聞
2026-01-08 16:04:29
成龍承認現(xiàn)在最怕的不是死,是手機不響,表示兒子3年沒有聯(lián)系

成龍承認現(xiàn)在最怕的不是死,是手機不響,表示兒子3年沒有聯(lián)系

暖心萌阿菇?jīng)?/span>
2026-01-09 01:40:44
Bonni Gee:38歲出道的英國性感人妻

Bonni Gee:38歲出道的英國性感人妻

吃瓜黨二號頭目
2026-01-09 09:58:39
不敢相信!中國游客的日本住宿預訂量,在春節(jié)期間同比增加六成!

不敢相信!中國游客的日本住宿預訂量,在春節(jié)期間同比增加六成!

古事尋蹤記
2026-01-06 07:05:53
豁出去了!自曝私密事的Coco,沒給89歲的謝賢留一點體面

豁出去了!自曝私密事的Coco,沒給89歲的謝賢留一點體面

聞識
2026-01-09 11:50:29
外交部:中方反對出于政治目的散布與中國有關(guān)的虛假信息

外交部:中方反對出于政治目的散布與中國有關(guān)的虛假信息

環(huán)球網(wǎng)資訊
2026-01-08 15:38:09
你見過的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬人的奇跡

你見過的最沉得住氣的人是怎樣?網(wǎng)?友:五分鐘連超10萬人的奇跡

夜深愛雜談
2026-01-04 23:05:06
牛市巨虧超11億!廣發(fā)基金百億基金經(jīng)理王明旭,被噴慘了

牛市巨虧超11億!廣發(fā)基金百億基金經(jīng)理王明旭,被噴慘了

南財社V
2026-01-08 19:19:41
臺灣最新民調(diào)出爐,蔣萬安碾壓,江啟臣大勝,侯友宜已成2026變數(shù)

臺灣最新民調(diào)出爐,蔣萬安碾壓,江啟臣大勝,侯友宜已成2026變數(shù)

顧史
2026-01-09 11:25:33
不可輕敵!武統(tǒng)臺灣的難度遠大于俄烏戰(zhàn)爭,畢竟我們比俄羅斯文明

不可輕敵!武統(tǒng)臺灣的難度遠大于俄烏戰(zhàn)爭,畢竟我們比俄羅斯文明

大道無形我有型
2025-09-01 15:02:03
18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽處決。

18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽處決。

環(huán)球趣聞分享
2026-01-07 13:30:09
被戴笠派往延安潛伏的沈之岳,在與毛主席接觸時遞上一支煙,這一細節(jié)讓毛主席迅速警覺,直言 “此人有問題”

被戴笠派往延安潛伏的沈之岳,在與毛主席接觸時遞上一支煙,這一細節(jié)讓毛主席迅速警覺,直言 “此人有問題”

史海孤雁
2026-01-01 23:25:09
唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

章眽八卦
2026-01-05 12:27:07
悲劇發(fā)生了!保定一女子用高壓鍋燉肉,小紅蓋掉下去后拉鍋蓋爆炸

悲劇發(fā)生了!保定一女子用高壓鍋燉肉,小紅蓋掉下去后拉鍋蓋爆炸

火山詩話
2026-01-08 06:37:25
特斯拉發(fā)了張照片,什么話都沒說,卻把企業(yè)文化展現(xiàn)得淋漓盡致

特斯拉發(fā)了張照片,什么話都沒說,卻把企業(yè)文化展現(xiàn)得淋漓盡致

李子櫥
2025-12-13 14:47:26
河南新蔡通報一名學生意外死亡:排除刑事案件

河南新蔡通報一名學生意外死亡:排除刑事案件

界面新聞
2026-01-09 13:37:08
三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現(xiàn)實

三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現(xiàn)實

墨蘭史書
2026-01-08 21:25:03
太魔幻了!詐騙頭目陳志只是一只白手套,他背后的保護傘又是誰?

太魔幻了!詐騙頭目陳志只是一只白手套,他背后的保護傘又是誰?

公子麥少
2025-10-22 14:43:48
2026-01-09 18:19:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
2779文章數(shù) 10425關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

10歲抗癌"小王子"病情加重:用藥都已無效 不能吃飯

頭條要聞

10歲抗癌"小王子"病情加重:用藥都已無效 不能吃飯

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風波越演越烈 上學經(jīng)歷被扒

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

英偉達的野心:做一套自動駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

親子
本地
游戲
手機
公開課

親子要聞

檢查結(jié)果出來松了口氣,帶著醫(yī)生處方去拿藥,沒想到又出新插曲?

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

每天白賺10塊錢!上KK官方對戰(zhàn)平臺免費玩DotA OMG4+2

手機要聞

消息稱奇鋐科技、安費諾供應蘋果折疊屏iPhone鉸鏈,兩家各占50%

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版