国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2發(fā)布,能力超人類11倍!谷歌揭露一個(gè)致命弱點(diǎn),這才是普通人的活路

0
分享至

昨天,OpenAI憋了這么久,終于扔出新的重磅產(chǎn)品:GPT-5.2

在谷歌和其他競(jìng)爭(zhēng)對(duì)手的圍追堵截下,他們這次徹底盯上了打工人:

GPT-5.2官方文檔白紙黑字寫著:在涵蓋44個(gè)職業(yè)的專業(yè)知識(shí)工作測(cè)試中,GPT-5.2 Thinking完成任務(wù)的速度是人類專家的11倍以上,成本不到人類的1%。

更扎心的是:在這個(gè)名為GDPval的測(cè)試?yán)?,GPT-5.2 Thinking與頂級(jí)行業(yè)專家正面PK,70.9%的任務(wù)中,AI贏了或打平。

一位參與評(píng)測(cè)的評(píng)委看完AI的輸出后感嘆:"這像是一家有專業(yè)團(tuán)隊(duì)的公司做出來(lái)的……雖然還有些小錯(cuò)要改,但布局和建議都出奇地專業(yè)。"

紅色警報(bào),GPT5.2靠啥大幅改進(jìn)?

就在上個(gè)月,谷歌放出了Gemini 3,在多項(xiàng)基準(zhǔn)測(cè)試中全面領(lǐng)先,一度把OpenAI打得措手不及。

OpenAI的CEO山姆·奧特曼在內(nèi)部發(fā)了一封"Code Red"(紅色警報(bào))備忘錄,要求團(tuán)隊(duì)暫停其他項(xiàng)目,全力沖刺ChatGPT的下一次迭代。


GPT-5.2這個(gè)代號(hào)就能看出來(lái),OpenAI現(xiàn)在是提前亮劍。

這次發(fā)布的GPT-5.2有三個(gè)版本:

Instant:快、穩(wěn),適合日常查資料、寫郵件;

Thinking:深度推理,適合編程、數(shù)據(jù)分析、長(zhǎng)文檔處理;

Pro:頂配,追求極致準(zhǔn)確率,適合高風(fēng)險(xiǎn)決策。

在編程基準(zhǔn)測(cè)試SWE-bench Verified上,GPT-5.2 Thinking拿下80%的成績(jī)。在數(shù)學(xué)競(jìng)賽題AIME 2025上,得分100%

光看數(shù)字嚇人沒用,咱們得搞明白:這玩意兒到底是怎么突然變這么強(qiáng)的?

周四的前哨特訓(xùn)營(yíng)直播中,王煜全和大家分享了預(yù)訓(xùn)練放緩的真正原因,告訴大家底層芯片的算力和存儲(chǔ)沒有大更新的情況下,AI大模型接下來(lái)的進(jìn)步主要都會(huì)依靠后訓(xùn)練、強(qiáng)化學(xué)習(xí)和推理

知名的ARC測(cè)試中,領(lǐng)先模型主要都靠延長(zhǎng)推理提高成績(jī)


OpenAI這次發(fā)布驗(yàn)證了這個(gè)判斷。GPT-5.2官方文檔里有兩個(gè)關(guān)鍵點(diǎn):

第一,推理中糾錯(cuò)。 文檔中提到"通過(guò)訓(xùn)練,模型學(xué)會(huì)精煉自己的思考過(guò)程、嘗試不同策略、并識(shí)別自己的錯(cuò)誤。"

這背后大概率就是通過(guò)強(qiáng)化學(xué)習(xí),優(yōu)化了模型的推理過(guò)程,讓它學(xué)會(huì)了在內(nèi)部“打草稿”并在輸出前自我修正。

第二,通用推理反超垂直微調(diào)。 在模擬OpenAI內(nèi)部代碼工作的測(cè)試中,靠"思考"的通用版GPT-5.2,竟然擊敗了上一代專門針對(duì)代碼優(yōu)化的垂直模型(Codex Max)。

這證明了強(qiáng)化學(xué)習(xí)提升的邏輯推理能力,還能繼續(xù)提高模型在不同場(chǎng)景的泛用性,簡(jiǎn)單說(shuō)就是讓模型能像人類工程師一樣分析問題,而不是死記硬背代碼庫(kù)。

說(shuō)人話就是:GPT-5.2這一代,核心變成了用強(qiáng)化學(xué)習(xí)教AI怎么"想",這才是它能在專業(yè)任務(wù)上碾壓人類的底層原因。

死亡名單,哪些職業(yè)危險(xiǎn)了?

好了,技術(shù)講完了,咱們聊點(diǎn)更扎心的:哪些人的飯碗最危險(xiǎn)?

要回答這個(gè)問題,得先說(shuō)說(shuō)OpenAI發(fā)明的GDPval測(cè)試

GDPval,全稱是"GDP Validation",是OpenAI在2025年9月發(fā)布的一套評(píng)測(cè)體系。

它的核心思路很直接:不跟AI比考試分?jǐn)?shù),直接比"干活"。

OpenAI找來(lái)了一批真正的專業(yè)人士,平均從業(yè)經(jīng)驗(yàn)14年,覆蓋美國(guó)GDP貢獻(xiàn)最大的9個(gè)行業(yè)、44個(gè)職業(yè)

這些人出題,出的都是他們?nèi)粘9ぷ髦姓鎸?shí)會(huì)干的活兒:做銷售PPT、搭財(cái)務(wù)三表模型、排急診室值班表….

然后讓AI和人類專家各干一遍,再請(qǐng)專家盲評(píng):誰(shuí)做得更好?

結(jié)果就是我們開頭說(shuō)的:GPT-5.2 Thinking在70.9%的任務(wù)中,贏了或打平人類專家。

更恐怖的是:AI完成這些任務(wù)的速度是人類的11倍以上,成本不到人類的1%。


那么問題來(lái)了:哪些崗位最危險(xiǎn)?

從GDPval測(cè)試覆蓋的44個(gè)職業(yè)來(lái)看,知識(shí)密集型白領(lǐng)崗位首當(dāng)其沖。

投行分析師:OpenAI內(nèi)部測(cè)試顯示,GPT-5.2在投行初級(jí)分析師的建模任務(wù)上,平均得分比GPT-5.1高出9.3%。

客服和售后:AI在工具調(diào)用測(cè)試Tau2-bench中拿下98.7%的準(zhǔn)確率,能協(xié)調(diào)航班改簽、行李追蹤、特殊座位安排等復(fù)雜流程。

程序員:編程能力繼續(xù)飆升,Windsurf已經(jīng)把GPT-5.2當(dāng)成默認(rèn)底座。

你的新角色:從"執(zhí)行者"變成"審核員"

好在,AI雖然很厲害,但絕非萬(wàn)能。

這幾天谷歌DeepMind聯(lián)合Kaggle,正式發(fā)布了一個(gè)名為"FACTS Grounding"的測(cè)試榜單。

FACTS是什么?說(shuō)白了,就是專門測(cè)AI"有沒有在一本正經(jīng)地胡說(shuō)八道"。

測(cè)試方法很直接:給AI一份長(zhǎng)文檔(最長(zhǎng)32000個(gè)token),讓它基于文檔生成回答,然后檢查它說(shuō)的每一句話是不是都有據(jù)可查、沒有編造

結(jié)果呢?

目前市面上最強(qiáng)的AI模型,在這個(gè)測(cè)試?yán)铮瑴?zhǔn)確率普遍卡在70%上下。

包括谷歌自家的Gemini系列,OpenAI的GPT系列,沒有任何一個(gè)模型能保證100%的事實(shí)準(zhǔn)確性

這就好比,你招了一個(gè)效率極高的員工,干活速度是別人的十倍,工資只要?jiǎng)e人的零頭。

但果這個(gè)員工有30%的概率會(huì)"信口開河",合同金額寫錯(cuò)、法規(guī)條款引用錯(cuò)誤、客戶信息張冠李戴。

現(xiàn)在你敢讓他獨(dú)立負(fù)責(zé)重要項(xiàng)目嗎?

AI的缺陷,恰恰是普通人最大的機(jī)會(huì)。

OpenAI自己也說(shuō)了,GPT-5.2的定位是"在人類監(jiān)督下協(xié)助專業(yè)工作"(when paired with human oversight)。

以前的打工人是什么?執(zhí)行者。 老板說(shuō)寫個(gè)方案,你就寫;說(shuō)做個(gè)表,你就做。

以后的你必須成為AI的老板,要想清楚哪些事是有價(jià)值的,哪些事該安排給哪個(gè)AI干,干完如何判斷靠不靠譜、有沒有價(jià)值。

未來(lái)職場(chǎng),不會(huì)淘汰"用AI的人",一定會(huì)淘汰"試圖和AI競(jìng)爭(zhēng)的人"。

給家長(zhǎng)的話:與其焦慮,不如讓孩子提前準(zhǔn)備

我們這代人還在適應(yīng)AI,但下一代可以從小學(xué)會(huì)"和AI協(xié)作"

就像計(jì)算機(jī)、互聯(lián)網(wǎng)成為今天必不可少的職場(chǎng)工具,AI未來(lái)也會(huì)如此。

【前哨AI冬令營(yíng)】 專為8-16歲設(shè)計(jì),7天讓孩子親手做出自己的小游戲和微信小程序,邊玩邊學(xué),作品還能發(fā)給同學(xué)一起玩。

零基礎(chǔ)也能上手:從"玩游戲"到"做游戲"

抓住核心競(jìng)爭(zhēng)力:培養(yǎng)和AI協(xié)作的能力

收獲硬成果:可上線的作品,實(shí)打?qū)嵉姆e累

? 名額有限,先到先得,掃碼報(bào)名 ↓


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
窮可以讓一個(gè)女人卑微到什么程度?看網(wǎng)友的評(píng)論引起萬(wàn)千共鳴

窮可以讓一個(gè)女人卑微到什么程度?看網(wǎng)友的評(píng)論引起萬(wàn)千共鳴

夜深愛雜談
2026-03-01 21:28:54
“鵝廠門口免費(fèi)安裝”近千人排隊(duì),爆火的“龍蝦”究竟是什么?

“鵝廠門口免費(fèi)安裝”近千人排隊(duì),爆火的“龍蝦”究竟是什么?

澎湃新聞
2026-03-08 00:53:18
機(jī)關(guān)算盡太聰明,董璇被執(zhí)行4942萬(wàn)!靠閨女?dāng)控?cái),終究成為了笑話

機(jī)關(guān)算盡太聰明,董璇被執(zhí)行4942萬(wàn)!靠閨女?dāng)控?cái),終究成為了笑話

離離言幾許
2026-03-07 13:59:52
起風(fēng)了!表決結(jié)果出爐,22名綠委缺席!蔣萬(wàn)安、盧秀燕高下立判!

起風(fēng)了!表決結(jié)果出爐,22名綠委缺席!蔣萬(wàn)安、盧秀燕高下立判!

浪子阿邴聊體育
2026-03-08 04:13:40
特朗普再度妄稱希望參與伊朗下一任領(lǐng)導(dǎo)人選擇

特朗普再度妄稱希望參與伊朗下一任領(lǐng)導(dǎo)人選擇

界面新聞
2026-03-08 07:13:07
你是怎么發(fā)現(xiàn)親戚見不得你過(guò)得好的?網(wǎng)友:我混的好他暴跳如雷

你是怎么發(fā)現(xiàn)親戚見不得你過(guò)得好的?網(wǎng)友:我混的好他暴跳如雷

另子維愛讀史
2026-03-01 20:08:16
沒人敢明說(shuō)的真相:法拍拍不掉的房子,正在悄悄轉(zhuǎn)嫁成本

沒人敢明說(shuō)的真相:法拍拍不掉的房子,正在悄悄轉(zhuǎn)嫁成本

言叔財(cái)經(jīng)視角
2026-03-01 22:50:30
伊拉克方面證實(shí)美駐伊使館遭襲

伊拉克方面證實(shí)美駐伊使館遭襲

界面新聞
2026-03-08 07:05:36
3月7日,人社部發(fā)布重要消息,是否有2026年養(yǎng)老金調(diào)整最新消息?

3月7日,人社部發(fā)布重要消息,是否有2026年養(yǎng)老金調(diào)整最新消息?

另子維愛讀史
2026-03-07 17:33:05
扣押巨額資產(chǎn),帶走兩名烏克蘭戰(zhàn)俘:澤連斯基要把歐爾班拉下馬

扣押巨額資產(chǎn),帶走兩名烏克蘭戰(zhàn)俘:澤連斯基要把歐爾班拉下馬

鷹眼Defence
2026-03-07 18:14:39
淪為共享單車的女色虎

淪為共享單車的女色虎

深度報(bào)
2026-03-05 22:39:27
長(zhǎng)期佩戴骨傳導(dǎo)耳機(jī)會(huì)致聾?醫(yī)生:7天內(nèi)是黃金治療期

長(zhǎng)期佩戴骨傳導(dǎo)耳機(jī)會(huì)致聾?醫(yī)生:7天內(nèi)是黃金治療期

人民日?qǐng)?bào)健康客戶端
2026-03-06 10:50:07
伊朗:強(qiáng)力打擊造成美第五艦隊(duì)21人死亡,阿聯(lián)酋美軍基地200人死傷!特朗普:伊朗今天將遭“極其猛烈”打擊,考慮擴(kuò)大打擊范圍

伊朗:強(qiáng)力打擊造成美第五艦隊(duì)21人死亡,阿聯(lián)酋美軍基地200人死傷!特朗普:伊朗今天將遭“極其猛烈”打擊,考慮擴(kuò)大打擊范圍

每日經(jīng)濟(jì)新聞
2026-03-07 21:34:38
李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環(huán)境中成長(zhǎng)

李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環(huán)境中成長(zhǎng)

談古論今歷史有道
2026-03-07 10:20:03
天助穆帥:2-2,穆帥爭(zhēng)冠勁敵遭絕平,多賽一場(chǎng)僅領(lǐng)先本菲卡4分

天助穆帥:2-2,穆帥爭(zhēng)冠勁敵遭絕平,多賽一場(chǎng)僅領(lǐng)先本菲卡4分

側(cè)身凌空斬
2026-03-08 04:47:00
中俄通婚劇增,若不了解俄羅斯女性生理缺陷,婚后可能會(huì)很痛苦。

中俄通婚劇增,若不了解俄羅斯女性生理缺陷,婚后可能會(huì)很痛苦。

南權(quán)先生
2026-02-07 15:54:57
奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習(xí)慣!

奉勸男性:若不想被前列腺炎折磨下半生,盡早改掉這4大習(xí)慣!

全球軍事記
2026-03-02 10:13:18
特朗普:目前無(wú)計(jì)劃在伊朗部署地面部隊(duì)

特朗普:目前無(wú)計(jì)劃在伊朗部署地面部隊(duì)

界面新聞
2026-03-08 07:12:40
中美俄導(dǎo)彈射程差距對(duì)比:俄18000公里、美12500公里,中國(guó)呢?

中美俄導(dǎo)彈射程差距對(duì)比:俄18000公里、美12500公里,中國(guó)呢?

科學(xué)知識(shí)點(diǎn)秀
2026-02-14 08:00:17
兩名美軍飛行員拒絕執(zhí)行任務(wù)被捕:軍隊(duì)不是表達(dá)個(gè)人立場(chǎng)的地方

兩名美軍飛行員拒絕執(zhí)行任務(wù)被捕:軍隊(duì)不是表達(dá)個(gè)人立場(chǎng)的地方

沉光映雪
2026-03-07 15:24:16
2026-03-08 10:11:00
王煜全 incentive-icons
王煜全
王煜全帶你一起看創(chuàng)新
1044文章數(shù) 769關(guān)注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

媒體:伊朗問題要注意普京的動(dòng)向 其在向美以喊話

頭條要聞

媒體:伊朗問題要注意普京的動(dòng)向 其在向美以喊話

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

汪小菲曝親媽猛料,張?zhí)m公開財(cái)產(chǎn)分配

財(cái)經(jīng)要聞

油價(jià)要失控?

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

藝術(shù)
本地
時(shí)尚
公開課
軍事航空

藝術(shù)要聞

他是二王書法的化身?米芾的秘密揭曉!

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

2026春夏一定要擁有的6只包,好看又百搭

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美第三個(gè)航母打擊群據(jù)稱準(zhǔn)備部署至中東

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版