国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2發(fā)布,真正的牛馬打工人專屬AI來了。

0
分享至

在各種小道消息,各種預(yù)測之后。

終于,在OpenAI十周年的這一天。



也就是今天的凌晨2點(diǎn),GPT-5.2終于跟大家見面了。



這是Gemini 3 Pro爆火,第一次讓OpenAI沒有領(lǐng)先優(yōu)勢,奧特曼在內(nèi)部官宣紅色警戒狀態(tài)之后,他們掏出的第一款模型。

也是OpenAI的十周年獻(xiàn)禮。

而這款模型的特點(diǎn)也非常有意思。

OpenAI的原話是:

We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.(我們正式發(fā)布 GPT-5.2,這是迄今為止在專業(yè)知識工作方面能力最強(qiáng)的一代模型系列。)

專業(yè)知識工作,記住這個關(guān)鍵詞,后面要考。

我們先從各種跑分上看,其實(shí)能看到,一些跑分其實(shí)沒有質(zhì)的飛躍,有一種數(shù)碼廠開始擠牙膏的感覺。。。



對比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。

在軟件工程(SWE-Bench Pro)、科學(xué)問題(GPQA Diamond)、數(shù)學(xué)競賽(AIME 2025)這些傳統(tǒng)評測集上。

GPT-5.2確實(shí)又強(qiáng)了一些,也回到了第一的位置,全面領(lǐng)先。

在前端審美還有3D元素上,表現(xiàn)的更牛逼了。



在視覺理解能力上也更強(qiáng)了。

比如要求模型識別圖像輸入中的組件,并返回帶有近似邊界框的標(biāo)簽。

即使在低質(zhì)量的圖像上,GPT-5.2也能識別主要區(qū)域并放置與每個組件真實(shí)位置大致匹配的框,而GPT-5.1只標(biāo)注了幾個部分,對它們的空間排列理解不是很好。



但是這些東西,說實(shí)話,確實(shí)也就那樣,大家很難體感上還覺得有多牛逼。

就像芯片廠子告訴你,我的手機(jī)芯片性能又提升了25%,你聽了以后,哦確實(shí)強(qiáng),但是完全不影響你繼續(xù)刷抖音和小紅書對吧。

不過有兩個評測集,是我覺得這次GPT-5.2最大的亮點(diǎn),且一定要單拎出來,跟大家單獨(dú)聊一下的。

一個是ARC-AGI-2,一個是GDPval。

這兩個,非常有意思。



先說ARC-AGI-2。

過去的AI評測,比如MMLU,考的主要是是知識。

比如它會問你“美國第一任總統(tǒng)是誰?”、“光合作用的化學(xué)方程式是什么?”。

這種評測呢,坦率的講,對于一個讀了半個互聯(lián)網(wǎng)的AI來說,有點(diǎn)像開卷考試,它有很大概率不是真的推理出來的,而是背出來的。

這就導(dǎo)致一個問題,在實(shí)際的評測中,我們分不清AI是真的聰明,還是只是記性好。

于是,F(xiàn)ran?ois Chollet,就是那位Keras(一個著名的機(jī)器學(xué)習(xí)框架)之父,2019年第一次在論文《On the Measure of Intelligence》里,提出了ARC這個變態(tài)測試。

而這個測試,跟知識儲備一毛錢關(guān)系都沒有。

全名叫,Abstraction and Reasoning Corpus,抽象與推理語料庫。

設(shè)計目標(biāo)就是測模型的通用智能的能力。

大概就是,不看你在某一道題上有多熟練,而是是看你在沒見過的新題上,能不能自己推理出規(guī)則、舉一反三。

目前正式版發(fā)展到了第二代,也就是ARC-AGI-2,我給大家放一下,ARC-AGI-2里面的一些典型的題目,大家就懂了。







這種能力,現(xiàn)在稱為流體智力

(Fluid Intelligence),意思就是指不依賴于已有的知識,在全新情境下進(jìn)行邏輯推理、識別模式和解決問題的能力。

悟性開竅的能力。

說白了,就是你的

這玩意兒對AI來說,難于登天。

因?yàn)樗诨ヂ?lián)網(wǎng)上找不到任何現(xiàn)成的答案,它必須當(dāng)場理解、當(dāng)場推理

在很長一段時間里,頂級AI的得分都低得可憐。

在ARC-AGI-2上,之前GPT-5.1的得分是17.6%,而GPT-5.2,直接飆到了52.9%。

直接翻了三倍。

這是一個很恐怖的數(shù)據(jù)。

GPT-5.2的模型,直接在排行榜上屠榜了。



而且,效率還很高。



基本都在同成本區(qū)間,能力做到了最高。

在真正的智力水平上,GPT-5.2確實(shí)達(dá)到了目前的最優(yōu)。

這就比較有意思了。

然后是第二個,也是我自己現(xiàn)在最關(guān)心、也是我認(rèn)為最重要的一個:

GDPval。

可能很多人沒聽說過這個評測集。

他是OpenAI自己在2個半月前新出的。



其實(shí)你看這個名字也能看出來一點(diǎn)端倪。

val,就是生產(chǎn)總值的那個GDP。

GDP

他們要用一個全新的標(biāo)準(zhǔn),來衡量AI在上的表現(xiàn)。

真實(shí)世界中、具有經(jīng)濟(jì)價值的任務(wù)

過去,我們說一個模型牛逼,是因?yàn)樗a寫得好,或者知識答得準(zhǔn),或者考試分?jǐn)?shù)高。

這當(dāng)然很重要,但就像我常說的,這個世界不只有程序員和科學(xué)家。

還有律師、設(shè)計師、市場經(jīng)理、護(hù)士、建筑師、銷售……

無數(shù)專業(yè)知識工作者。

他們工作的價值,其實(shí)很難用一張考卷來衡量。

于是,OpenAI他們在美國貢獻(xiàn)GDP最高的9個行業(yè)里,選取了44個核心職業(yè),然后,他們找到了在這些行業(yè)里平均有14年工作經(jīng)驗(yàn)的資深專家,讓他們出了1320道專業(yè)知識任務(wù),并且每一項(xiàng),都基于真實(shí)工作成果。



比如,給律師的任務(wù),可能就是一份真實(shí)的合同草案和客戶需求,讓他去審閱和修改。

給市場經(jīng)理的任務(wù),可能就是一堆產(chǎn)品資料和市場數(shù)據(jù),讓他寫一份營銷方案PPT。

給制造工程師的任務(wù),可能就是一張產(chǎn)品設(shè)計圖,讓他優(yōu)化生產(chǎn)流程。

這些任務(wù),不僅有文字,還可能包含PDF、Excel表格、圖片、PPT,是高度復(fù)雜的、多模態(tài)的、沒有標(biāo)準(zhǔn)答案的真實(shí)工作。

整套任務(wù)的平均用時,是人類專家要花 7 個小時才能做完,有些甚至是一兩周的活。

然后,模型和人類的成果,會被同領(lǐng)域的另一批專家進(jìn)行盲評。

他們也不知道誰是AI,誰是人類。

評委只需要回答一個問題:你更愿意把哪份交給客戶?是這份,還是這份?

結(jié)果,GPT-5.2 Thinking在這套 GDPval 上,贏或打平行業(yè)專家的比例,達(dá)到了70.9%,而GPT-5.2Pro 模型是74.1%。

注意,這里的參照系不是普通實(shí)習(xí)生,而是行業(yè)專家。

也就是說,在一個有著十幾年經(jīng)驗(yàn)的采購經(jīng)理、或者審計師面前,GPT-5.2干出來的活兒,有七成的時候,比專家干得好,或者至少一樣好。

而 GPT-5,只有 38.8%。



這個進(jìn)步的速度,還有有一點(diǎn)快的。

看一下官方放的case的對比,還是比較直觀的。





我們過去的模型,都花過于著重的筆墨在編程開發(fā)上了,我并不是說編程開發(fā)不重要,它很重要,很牛逼。

但,其他的領(lǐng)域的工作,我也覺得應(yīng)該被重視。

而GDPval,就是我認(rèn)為最重要的一個指標(biāo)。

而且這次GPT-5.2,在上下文上,也有大幅的加強(qiáng)。

用我們以前的大海撈針測試,在一個256K的巨型文檔里面埋四根針,讓AI來根據(jù)文檔內(nèi)容回答。



GPT-5.2干到了離譜的100%,這也是我印象中,唯一一個能干到100%的。

8根針的正確度會下降,但是這個衰減,已經(jīng)比GPT-5.1牛逼太多了。



而且,還有最新的知識庫截止日期:



牛逼的知識工作處理+最新的知識庫截止日期+更棒的智力+準(zhǔn)確性超高的上下文。

這簡直,就是真正的天選牛馬搭子,對打工人的加持,實(shí)在是太強(qiáng)了。

這是真正,奔著大眾、奔著實(shí)用去的。

目前今天會開放給ChatGPT付費(fèi)會員,明天會開放給免費(fèi)會員,會直接替代GPT-5.1,但是如果你是付費(fèi)會員的話,還會在老模型中存續(xù)3個月。

就是這。



可惜截止到我發(fā)文的凌晨6點(diǎn)這一刻,作為尊貴的200刀的ChatGPT Pro會員,我還是沒有拿到GPT-5.2的體驗(yàn)資格。



一些所謂的ChatGPT上的為GPT-5.2專用的文件精修,也只能等拿到實(shí)測以后,再出一篇GPT-5.2的打工合集了。

然后開發(fā)者的話,已經(jīng)可以通過API調(diào)用。



價格上,會比5.1貴一些。



整體上,GPT-5.2的所有消息差不多就這樣了。

而我自己一直期待的,成人模式。

還是沒有到來。

奧特曼自己這個龜兒子說的是12月上線。



也不知道能不能等到。

反正他說,下周還會再送一些小的圣誕禮物。



盲猜一手OpenAI家的生圖模型,或者成人模式。

對于一個創(chuàng)作者來說,這兩玩意,真的很需要。。。

最后總結(jié),GPT-5.2在我心中,是一個合格的迭代,并沒有跟很多模型一樣,專注于純粹的傳統(tǒng)刷分,而是聚焦在了廣大白領(lǐng)打工人身上,幫大家解決實(shí)際工作中的問題。

這個點(diǎn),我覺得就很酷,非常的剛需。

但是從路線上來說,感覺GPT-5.2還是被原生多模態(tài)的Gemini 3 Pro壓了一頭,12月大概率還是要發(fā)個生圖模型出來的,不知道對標(biāo)Banana,會不會有新的驚喜。

總之,還是保持期待。

反正每一個新模型的發(fā)布,只要是我覺得有意思的。

也一定會熬夜給大家?guī)淼谝粫r間的解讀。

我們以后。

還是,不見不散~

晚安。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新加坡大滿貫結(jié)束后,下屆奧運(yùn)女隊(duì)3人無懸念,男隊(duì)選人遇大挑戰(zhàn)

新加坡大滿貫結(jié)束后,下屆奧運(yùn)女隊(duì)3人無懸念,男隊(duì)選人遇大挑戰(zhàn)

籃球看比賽
2026-03-02 15:12:52
突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

證券時報e公司
2026-03-02 23:05:14
每月繳納12%的公積金,成了央國企正式員工最后的體面!

每月繳納12%的公積金,成了央國企正式員工最后的體面!

林子說事
2026-02-24 22:30:31
清華才子遠(yuǎn)赴美國,10年后鉈中毒離奇慘死,兇手身份出人意料

清華才子遠(yuǎn)赴美國,10年后鉈中毒離奇慘死,兇手身份出人意料

一更歷史
2024-03-03 21:15:46
金亨泰用AI畫明日香賀圖惹怒《尼爾》設(shè)計師:爛完了!

金亨泰用AI畫明日香賀圖惹怒《尼爾》設(shè)計師:爛完了!

游民星空
2026-02-28 14:35:19
炸彈沒炸死內(nèi)賈德,反而炸開他重返權(quán)力巔峰的血路,美以噩夢來了

炸彈沒炸死內(nèi)賈德,反而炸開他重返權(quán)力巔峰的血路,美以噩夢來了

蔡蔡說史
2026-03-03 02:41:29
真不能怪祖院長,就曾醫(yī)生這顏值、這才華和魅力,誰遭的?。?>
    </a>
        <h3>
      <a href=真不能怪祖院長,就曾醫(yī)生這顏值、這才華和魅力,誰遭的??? 吃瓜局
2025-11-11 16:23:49
伊朗戰(zhàn)事升級,對中國5大產(chǎn)業(yè)影響深遠(yuǎn),普通人別只看熱鬧

伊朗戰(zhàn)事升級,對中國5大產(chǎn)業(yè)影響深遠(yuǎn),普通人別只看熱鬧

曉踏就是我
2026-03-02 16:50:25
72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
為什么感覺美國在走向衰落?那是因?yàn)槟闶侵袊?>
    </a>
        <h3>
      <a href=扶蘇聊歷史
2025-12-19 10:02:54
俄羅斯沒想到,美國更沒想到,中國幾乎所有“關(guān)鍵”技術(shù)遙遙領(lǐng)先

俄羅斯沒想到,美國更沒想到,中國幾乎所有“關(guān)鍵”技術(shù)遙遙領(lǐng)先

流史歲月
2026-01-18 17:20:06
背影:一種無法自視的指引

背影:一種無法自視的指引

疾跑的小蝸牛
2026-03-02 21:16:22
正式官宣!洛杉磯奧運(yùn)參賽名單確定,國乒恐需一人身兼四項(xiàng)

正式官宣!洛杉磯奧運(yùn)參賽名單確定,國乒恐需一人身兼四項(xiàng)

最愛乒乓球
2026-03-03 00:05:36
安徽省政協(xié)原主席唐良智任全國政協(xié)教科衛(wèi)體委員會副主任

安徽省政協(xié)原主席唐良智任全國政協(xié)教科衛(wèi)體委員會副主任

澎湃新聞
2026-03-02 20:16:26
前盟友譴責(zé)特朗普對伊朗動武

前盟友譴責(zé)特朗普對伊朗動武

參考消息
2026-03-01 15:52:28
讓領(lǐng)導(dǎo)先走:當(dāng)戰(zhàn)爭可以“精準(zhǔn)”到一個人

讓領(lǐng)導(dǎo)先走:當(dāng)戰(zhàn)爭可以“精準(zhǔn)”到一個人

潮汐志
2026-03-01 19:47:21
歐豪春節(jié)回福建平潭宴客,住大平層寬敞簡潔,聚會全程拿核桃在盤

歐豪春節(jié)回福建平潭宴客,住大平層寬敞簡潔,聚會全程拿核桃在盤

可愛小菜
2026-03-01 15:42:48
2026暑假檔:周星馳和賈玲對轟,陳思誠手握王炸,3部動畫有爆相

2026暑假檔:周星馳和賈玲對轟,陳思誠手握王炸,3部動畫有爆相

丁丁鯉史紀(jì)
2026-02-28 18:06:56
現(xiàn)貨黃金失守5320美元/盎司

現(xiàn)貨黃金失守5320美元/盎司

每日經(jīng)濟(jì)新聞
2026-03-02 09:06:28
有報道稱“伊朗試圖恢復(fù)與華盛頓談判”,伊朗最高領(lǐng)袖顧問:伊朗不會與美國談判

有報道稱“伊朗試圖恢復(fù)與華盛頓談判”,伊朗最高領(lǐng)袖顧問:伊朗不會與美國談判

環(huán)球網(wǎng)資訊
2026-03-02 12:43:32
2026-03-03 04:56:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

房產(chǎn)
健康
數(shù)碼
親子
軍事航空

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

蘋果新款iPad Air發(fā)布:4799元起 搭載M4芯片

親子要聞

開學(xué)了!珠海香洲:筑牢安全防線,保障托育機(jī)構(gòu)順利開園復(fù)托

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版