国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2果然反超谷歌Gemini 3 Pro!北大數(shù)院校友核心貢獻(xiàn)

0
分享至

紅色警報(bào)拉響,OpenAI是真急了:

30天,GPT-5.2系列緊接著GPT-5.1而來,這次還專門強(qiáng)化了打工能力。

這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對(duì)比:


雖然版本號(hào)只加了0.1,但是在多個(gè)實(shí)用領(lǐng)域都更強(qiáng)了:做表格、做PPT、寫代碼、理解長文檔、調(diào)用工具、處理復(fù)雜多步驟項(xiàng)目……

視覺理解能力也大幅提升,GPT-5.2能準(zhǔn)確標(biāo)記出更多主板上的元件。


這是GPT-5.2做的網(wǎng)頁版波浪模擬器:


如果你遇到航班延誤、又錯(cuò)過轉(zhuǎn)機(jī)、需要當(dāng)?shù)剡^夜以及需要特殊醫(yī)療座位,聽起來就很頭疼。

但GPT-5.2安排好了一切:重新訂機(jī)票、安排特殊座位和賠償。


ARC-AGI也在第一時(shí)間發(fā)布了測(cè)試結(jié)果。

一年前的o3 (High) 在ARC-AGI-1測(cè)試中得分88%,平均每項(xiàng)任務(wù)成本為4500美元。

今天的GPT-5.2 Pro (X-High) ,最新SOTA得分為90.5%,平均任務(wù)成本僅為11.64美元,在一年內(nèi)效率提高了約390倍。

同時(shí)超過了谷歌Gemini 3 Pro的對(duì)應(yīng)版本(綠色點(diǎn)),也算扳回一局。


GPT5.2發(fā)布的這一天,也是OpenAI成立十周年,官方還做了個(gè)小視頻來回顧10年來的進(jìn)展。


拆解GPT-5.2各項(xiàng)能力 高經(jīng)濟(jì)價(jià)值任務(wù)

在GDPval測(cè)試中,涵蓋美國GDP前九大產(chǎn)業(yè)中的44個(gè)職業(yè)領(lǐng)域,完成人類需要4-8小時(shí)才能完成的任務(wù)。

在人類評(píng)委打分下,GPT-5.2 Thinking與人類專家相比有71%的勝率,GPT-5.2 Pro還能更高一些。

而且速度是人類專家的11倍以上,成本不到人類專家的1%。


在投行分析師的電子表格建模任務(wù)上,GPT-5.2 Thinking平均每項(xiàng)任務(wù)得分相比GPT-5.1提升了9.3%,從59.1%上升到68.4%。這些任務(wù)包括為財(cái)富500強(qiáng)公司搭建三表聯(lián)動(dòng)模型、構(gòu)建杠桿收購模型等。


提示:您是一名投資銀行分析師,剛剛接到一項(xiàng)任務(wù),需要完成一份瀑布式分析,以了解創(chuàng)始人及現(xiàn)有投資者的所有權(quán)和回報(bào)情況。您的客戶是一家正在考慮 C 輪融資的初創(chuàng)公司。

請(qǐng)查收附件中的模板,您需要對(duì)其進(jìn)行修改。我在 G 列中添加了必要的假設(shè)。C 列的名稱在普通股部分重復(fù)出現(xiàn),以便于索引。假設(shè)包括退出時(shí)的股權(quán)、系列投資金額、基金所有權(quán)、認(rèn)股權(quán)證、清算優(yōu)先權(quán)、轉(zhuǎn)換價(jià)格、普通股稀釋后股份數(shù)和行權(quán)價(jià)格。假設(shè)種子輪、A 輪和 B 輪均為同等權(quán)益的非參與性優(yōu)先股(即,這些輪次的投資者享有同等待遇;對(duì)借款人的資產(chǎn)擁有同等的索償權(quán))

在審查一份特別優(yōu)秀的成果時(shí),一位GDPval評(píng)委表示:

在輸出質(zhì)量上令人興奮且顯著的飛躍……[它]看起來像是由一家專業(yè)公司的員工完成的,兩份交付成果的布局設(shè)計(jì)和建議都出人意料地出色,盡管其中一份仍存在一些小錯(cuò)誤需要糾正。

要在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或 Enterprise套餐,選擇GPT-5.2 Thinking或Pro版本 。生成復(fù)雜的內(nèi)容可能需要幾分鐘時(shí)間。

代碼能力

GPT-5.2代碼能力同樣刷新紀(jì)錄,在SWE-bench Verified上,得分達(dá)到80%。

在SWE-Bench Pro這個(gè)更難的軟件工程評(píng)測(cè)上,GPT-5.2 Thinking拿下55.6%的新高。

這個(gè)評(píng)測(cè)不止測(cè)Python,還包括JavaScript、TypeScript和Go,更貼近真實(shí)工業(yè)場(chǎng)景。

早期測(cè)試者特別提到,GPT-5.2在前端開發(fā)和復(fù)雜UI工作上明顯更強(qiáng),尤其是涉及3D元素的場(chǎng)景。


長上下文

長文檔處理是這次升級(jí)的重頭戲。

在OpenAI自制的大海撈針MRCRv2評(píng)測(cè)中,GPT-5.2 Thinking成為首個(gè)在256k 上下文長的4針版(4-needle variant)上達(dá)到接近100%準(zhǔn)確率的模型。


不過8針版性能還是會(huì)隨上下文長度明顯下降。


對(duì)于需要超越最大上下文窗口進(jìn)行思考的任務(wù),GPT-5.2 Thinking兼容簡潔回復(fù)模式,能夠處理更多工具密集型、長時(shí)間運(yùn)行的工作流。

視覺理解

視覺能力的提升同樣顯著。

在科學(xué)論文圖表理解上,GPT-5.2 Thinking的錯(cuò)誤率大約降低了一半。


更關(guān)鍵的是,它對(duì)圖像中元素的空間位置有了更強(qiáng)的把握。

在高分辨率圖形面屏幕截圖推理測(cè)試中,配合Python工具得分達(dá)到86.3%。


如果禁用Python工具得分會(huì)低很多,OpenAI建議在這樣的視覺任務(wù)中通通啟用工具。

工具調(diào)用

工具調(diào)用能力同樣達(dá)到新高度,在Tau2-bench Telecom多輪交互電話客服場(chǎng)景評(píng)測(cè)上,GPT-5.2 Thinking取得98.7%的成績。

Tau2-bench Retail零售場(chǎng)景也達(dá)到82%。


這些成績意味著更強(qiáng)大的端到端工作流程,例如解決客戶支持案例、從多個(gè)系統(tǒng)中提取數(shù)據(jù)、運(yùn)行分析以及生成最終輸出,且各步驟之間的故障更少。

科學(xué)能力

OpenAI一直希望AI能加速科學(xué)研究,這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學(xué)家的模型。

在GPQA Diamond研究生水平的問答評(píng)測(cè)上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking緊隨其后達(dá)到92.4%。


在專家級(jí)數(shù)學(xué)評(píng)測(cè)FrontierMath(Tier 1-3)上,GPT-5.2 Thinking以40.3%的解題率創(chuàng)下新紀(jì)錄。


官方還透露了一個(gè)實(shí)際案例:

研究人員使用GPT-5.2 Pro探索了統(tǒng)計(jì)學(xué)習(xí)理論中的一個(gè)開放問題,在一個(gè)狹窄、明確的設(shè)定下,模型提出了一個(gè)證明,隨后被作者驗(yàn)證并經(jīng)過同行評(píng)審。


事實(shí)準(zhǔn)確性方面,GPT-5.2 Thinking的幻覺問題相比GPT-5.1從8.8%減少到6.2%。

不過OpenAI也提示模型仍不完美,關(guān)鍵內(nèi)容還是需要人工復(fù)核。


One More Thing

自從Meta瘋狂挖人以來,OpenAI都很少在研究進(jìn)展文章后面附上貢獻(xiàn)者列表了,直接統(tǒng)一署名OpenAI了事。


不過從開發(fā)者相互祝賀的推文中,還是可以挖出GPT-5.2的幾位核心團(tuán)隊(duì)成員:多為2024年之后加入OpenAI的新面孔,而且多是數(shù)學(xué)專業(yè)出身。

Yu Bai:北大數(shù)院校友、斯坦福統(tǒng)計(jì)學(xué)博士,2024年5月加入OpenAI。


Yaodong Yu:UC伯克利博士畢業(yè),2024年9月加入OpenAI。


Yufeng Zhang:本科中科大數(shù)學(xué)系、西北大學(xué)博士、字節(jié)前研究員,2024年底加入OpenAI


梅松:北大數(shù)院校友、斯坦福計(jì)算與數(shù)學(xué)工程博士、UC伯克利助理教授,2025年5月暫離學(xué)校加入OpenAI。


Ofir Nachum:MIT CS碩士畢業(yè),前谷歌大腦研究員,2023年加入OpenAI。


每當(dāng)外界覺得OpenAI進(jìn)展不及預(yù)期的時(shí)候,總有新的人才帶來新的驚喜。

參考鏈接:
[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
湖南“孤膽姐姐”24年為弟追兇案被告人判處死緩,姐姐在弟弟埋葬地哭著念判決結(jié)果

湖南“孤膽姐姐”24年為弟追兇案被告人判處死緩,姐姐在弟弟埋葬地哭著念判決結(jié)果

瀟湘晨報(bào)
2025-12-23 21:49:53
香煙熱度榜!煙民貢獻(xiàn)萬億稅收,年度銷冠竟是這個(gè)品牌…

香煙熱度榜!煙民貢獻(xiàn)萬億稅收,年度銷冠竟是這個(gè)品牌…

慧翔百科
2025-12-24 09:14:14
約基奇29+14掘金丟絕殺遭獨(dú)行俠雙殺 弗拉格33+9+9濃眉31+9

約基奇29+14掘金丟絕殺遭獨(dú)行俠雙殺 弗拉格33+9+9濃眉31+9

醉臥浮生
2025-12-24 11:28:14
“劇終”!《亞洲周刊》發(fā)南博前院長徐湖平別墅照片,還配上兩字

“劇終”!《亞洲周刊》發(fā)南博前院長徐湖平別墅照片,還配上兩字

火山詩話
2025-12-24 06:31:34
泰軍突襲柬電詐園區(qū)!現(xiàn)場(chǎng)中文標(biāo)語曝光,字字扎心引眾怒

泰軍突襲柬電詐園區(qū)!現(xiàn)場(chǎng)中文標(biāo)語曝光,字字扎心引眾怒

胡嚴(yán)亂語
2025-12-23 19:13:59
到底得有多壞,才能做出這么喪盡天良的事!

到底得有多壞,才能做出這么喪盡天良的事!

高三倒計(jì)時(shí)
2025-12-23 15:53:37
轉(zhuǎn)戰(zhàn)職業(yè)釣魚!西蒙斯宣布暫停NBA生涯:沒到最佳狀態(tài)復(fù)出無意義

轉(zhuǎn)戰(zhàn)職業(yè)釣魚!西蒙斯宣布暫停NBA生涯:沒到最佳狀態(tài)復(fù)出無意義

羅說NBA
2025-12-24 05:49:38
明年1月1日起,向好友發(fā)淫穢信息,無論是公開微信群還是私人私聊均違法

明年1月1日起,向好友發(fā)淫穢信息,無論是公開微信群還是私人私聊均違法

觀威海
2025-12-23 09:18:13
徐湖平跑不了!收藏家顏明:江南春剛調(diào)撥出去,隔天就被陸挺買走

徐湖平跑不了!收藏家顏明:江南春剛調(diào)撥出去,隔天就被陸挺買走

知法而形
2025-12-23 17:56:52
關(guān)鍵三分終結(jié)連??!弗拉格19歲首戰(zhàn)33+9+9太猛 聯(lián)盟一哥又成背景

關(guān)鍵三分終結(jié)連敗!弗拉格19歲首戰(zhàn)33+9+9太猛 聯(lián)盟一哥又成背景

顏小白的籃球夢(mèng)
2025-12-24 11:33:42
大批醫(yī)院宣布退出醫(yī)保!國家醫(yī)保局:醫(yī)院主動(dòng)退保,要倒查1-2年

大批醫(yī)院宣布退出醫(yī)保!國家醫(yī)保局:醫(yī)院主動(dòng)退保,要倒查1-2年

陳博世財(cái)經(jīng)
2025-12-24 09:30:27
一個(gè)女嬰之死與一個(gè)系統(tǒng)的失靈

一個(gè)女嬰之死與一個(gè)系統(tǒng)的失靈

難得君
2025-12-23 00:16:47
黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

笑飲孤鴻非
2025-12-24 01:09:08
世道變壞,從老同志們愛上古董字畫開始

世道變壞,從老同志們愛上古董字畫開始

木蹊說
2025-12-23 18:08:20
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽
2025-12-23 18:33:38
重要知情人出現(xiàn)!《江南春》是97年陸挺花16萬買走,收據(jù)系偽造!

重要知情人出現(xiàn)!《江南春》是97年陸挺花16萬買走,收據(jù)系偽造!

一支破筆半支煙
2025-12-23 21:09:24
百萬銷量筑基,長安啟源A06以爆款之勢(shì)重塑新能源市場(chǎng)格局

百萬銷量筑基,長安啟源A06以爆款之勢(shì)重塑新能源市場(chǎng)格局

汽車商業(yè)評(píng)論
2025-12-24 11:31:41
中國和烏克蘭什么仇什么怨?澤連斯基為何如此提到中國?

中國和烏克蘭什么仇什么怨?澤連斯基為何如此提到中國?

新民周刊
2025-12-24 09:14:47
確認(rèn)了,今天起全面影響廣東!下班早點(diǎn)回家!

確認(rèn)了,今天起全面影響廣東!下班早點(diǎn)回家!

深圳晚報(bào)
2025-12-24 10:41:49
泰國總理:不僅要打掉黑窩點(diǎn),更要徹查背后金主到底是誰!

泰國總理:不僅要打掉黑窩點(diǎn),更要徹查背后金主到底是誰!

霹靂炮
2025-12-23 22:52:35
2025-12-24 13:20:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5276文章數(shù) 64598關(guān)注度
往期回顧 全部

科技要聞

黑產(chǎn)大軍壓境 快手"拔網(wǎng)線"為何慢了兩小時(shí)

頭條要聞

媒體:澤連斯基威脅制裁中國公民 中方的回應(yīng)算客氣了

頭條要聞

媒體:澤連斯基威脅制裁中國公民 中方的回應(yīng)算客氣了

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

健康
教育
時(shí)尚
本地
公開課

這些新療法,讓化療不再那么痛苦

教育要聞

廣東12月調(diào)研考結(jié)束,高三學(xué)生如何根據(jù)成績規(guī)劃多元升學(xué)?

歲月不敗美人,50歲銀發(fā)的她們也太會(huì)穿了

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版