国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2發(fā)布,能力超人類11倍!谷歌揭露一個(gè)致命弱點(diǎn),這才是普通人的活路

0
分享至

昨天,OpenAI憋了這么久,終于扔出新的重磅產(chǎn)品:GPT-5.2

在谷歌和其他競(jìng)爭(zhēng)對(duì)手的圍追堵截下,他們這次徹底盯上了打工人:

GPT-5.2官方文檔白紙黑字寫著:在涵蓋44個(gè)職業(yè)的專業(yè)知識(shí)工作測(cè)試中,GPT-5.2 Thinking完成任務(wù)的速度是人類專家的11倍以上,成本不到人類的1%。

更扎心的是:在這個(gè)名為GDPval的測(cè)試?yán)?,GPT-5.2 Thinking與頂級(jí)行業(yè)專家正面PK,70.9%的任務(wù)中,AI贏了或打平。

一位參與評(píng)測(cè)的評(píng)委看完AI的輸出后感嘆:"這像是一家有專業(yè)團(tuán)隊(duì)的公司做出來的……雖然還有些小錯(cuò)要改,但布局和建議都出奇地專業(yè)。"

紅色警報(bào),GPT5.2靠啥大幅改進(jìn)?

就在上個(gè)月,谷歌放出了Gemini 3,在多項(xiàng)基準(zhǔn)測(cè)試中全面領(lǐng)先,一度把OpenAI打得措手不及。

OpenAI的CEO山姆·奧特曼在內(nèi)部發(fā)了一封"Code Red"(紅色警報(bào))備忘錄,要求團(tuán)隊(duì)暫停其他項(xiàng)目,全力沖刺ChatGPT的下一次迭代。


GPT-5.2這個(gè)代號(hào)就能看出來,OpenAI現(xiàn)在是提前亮劍。

這次發(fā)布的GPT-5.2有三個(gè)版本:

Instant:快、穩(wěn),適合日常查資料、寫郵件;

Thinking:深度推理,適合編程、數(shù)據(jù)分析、長(zhǎng)文檔處理;

Pro:頂配,追求極致準(zhǔn)確率,適合高風(fēng)險(xiǎn)決策。

在編程基準(zhǔn)測(cè)試SWE-bench Verified上,GPT-5.2 Thinking拿下80%的成績(jī)。在數(shù)學(xué)競(jìng)賽題AIME 2025上,得分100%

光看數(shù)字嚇人沒用,咱們得搞明白:這玩意兒到底是怎么突然變這么強(qiáng)的?

周四的前哨特訓(xùn)營直播中,王煜全和大家分享了預(yù)訓(xùn)練放緩的真正原因,告訴大家底層芯片的算力和存儲(chǔ)沒有大更新的情況下,AI大模型接下來的進(jìn)步主要都會(huì)依靠后訓(xùn)練、強(qiáng)化學(xué)習(xí)和推理

知名的ARC測(cè)試中,領(lǐng)先模型主要都靠延長(zhǎng)推理提高成績(jī)


OpenAI這次發(fā)布驗(yàn)證了這個(gè)判斷。GPT-5.2官方文檔里有兩個(gè)關(guān)鍵點(diǎn):

第一,推理中糾錯(cuò)。 文檔中提到"通過訓(xùn)練,模型學(xué)會(huì)精煉自己的思考過程、嘗試不同策略、并識(shí)別自己的錯(cuò)誤。"

這背后大概率就是通過強(qiáng)化學(xué)習(xí),優(yōu)化了模型的推理過程,讓它學(xué)會(huì)了在內(nèi)部“打草稿”并在輸出前自我修正。

第二,通用推理反超垂直微調(diào)。 在模擬OpenAI內(nèi)部代碼工作的測(cè)試中,靠"思考"的通用版GPT-5.2,竟然擊敗了上一代專門針對(duì)代碼優(yōu)化的垂直模型(Codex Max)。

這證明了強(qiáng)化學(xué)習(xí)提升的邏輯推理能力,還能繼續(xù)提高模型在不同場(chǎng)景的泛用性,簡(jiǎn)單說就是讓模型能像人類工程師一樣分析問題,而不是死記硬背代碼庫。

說人話就是:GPT-5.2這一代,核心變成了用強(qiáng)化學(xué)習(xí)教AI怎么"想",這才是它能在專業(yè)任務(wù)上碾壓人類的底層原因。

死亡名單,哪些職業(yè)危險(xiǎn)了?

好了,技術(shù)講完了,咱們聊點(diǎn)更扎心的:哪些人的飯碗最危險(xiǎn)?

要回答這個(gè)問題,得先說說OpenAI發(fā)明的GDPval測(cè)試。

GDPval,全稱是"GDP Validation",是OpenAI在2025年9月發(fā)布的一套評(píng)測(cè)體系。

它的核心思路很直接:不跟AI比考試分?jǐn)?shù),直接比"干活"。

OpenAI找來了一批真正的專業(yè)人士,平均從業(yè)經(jīng)驗(yàn)14年,覆蓋美國GDP貢獻(xiàn)最大的9個(gè)行業(yè)、44個(gè)職業(yè)。

這些人出題,出的都是他們?nèi)粘9ぷ髦姓鎸?shí)會(huì)干的活兒:做銷售PPT、搭財(cái)務(wù)三表模型、排急診室值班表….

然后讓AI和人類專家各干一遍,再請(qǐng)專家盲評(píng):誰做得更好?

結(jié)果就是我們開頭說的:GPT-5.2 Thinking在70.9%的任務(wù)中,贏了或打平人類專家。

更恐怖的是:AI完成這些任務(wù)的速度是人類的11倍以上,成本不到人類的1%。


那么問題來了:哪些崗位最危險(xiǎn)?

從GDPval測(cè)試覆蓋的44個(gè)職業(yè)來看,知識(shí)密集型白領(lǐng)崗位首當(dāng)其沖。

投行分析師:OpenAI內(nèi)部測(cè)試顯示,GPT-5.2在投行初級(jí)分析師的建模任務(wù)上,平均得分比GPT-5.1高出9.3%。

客服和售后:AI在工具調(diào)用測(cè)試Tau2-bench中拿下98.7%的準(zhǔn)確率,能協(xié)調(diào)航班改簽、行李追蹤、特殊座位安排等復(fù)雜流程。

程序員:編程能力繼續(xù)飆升,Windsurf已經(jīng)把GPT-5.2當(dāng)成默認(rèn)底座。

你的新角色:從"執(zhí)行者"變成"審核員"

好在,AI雖然很厲害,但絕非萬能。

這幾天谷歌DeepMind聯(lián)合Kaggle,正式發(fā)布了一個(gè)名為"FACTS Grounding"的測(cè)試榜單。

FACTS是什么?說白了,就是專門測(cè)AI"有沒有在一本正經(jīng)地胡說八道"。

測(cè)試方法很直接:給AI一份長(zhǎng)文檔(最長(zhǎng)32000個(gè)token),讓它基于文檔生成回答,然后檢查它說的每一句話是不是都有據(jù)可查、沒有編造

結(jié)果呢?

目前市面上最強(qiáng)的AI模型,在這個(gè)測(cè)試?yán)?,?zhǔn)確率普遍卡在70%上下。

包括谷歌自家的Gemini系列,OpenAI的GPT系列,沒有任何一個(gè)模型能保證100%的事實(shí)準(zhǔn)確性。

這就好比,你招了一個(gè)效率極高的員工,干活速度是別人的十倍,工資只要?jiǎng)e人的零頭。

但果這個(gè)員工有30%的概率會(huì)"信口開河",合同金額寫錯(cuò)、法規(guī)條款引用錯(cuò)誤、客戶信息張冠李戴。

現(xiàn)在你敢讓他獨(dú)立負(fù)責(zé)重要項(xiàng)目嗎?

AI的缺陷,恰恰是普通人最大的機(jī)會(huì)。

OpenAI自己也說了,GPT-5.2的定位是"在人類監(jiān)督下協(xié)助專業(yè)工作"(when paired with human oversight)。

以前的打工人是什么?執(zhí)行者。 老板說寫個(gè)方案,你就寫;說做個(gè)表,你就做。

以后的你必須成為AI的老板,要想清楚哪些事是有價(jià)值的,哪些事該安排給哪個(gè)AI干,干完如何判斷靠不靠譜、有沒有價(jià)值。

未來職場(chǎng),不會(huì)淘汰"用AI的人",一定會(huì)淘汰"試圖和AI競(jìng)爭(zhēng)的人"。

給家長(zhǎng)的話:與其焦慮,不如讓孩子提前準(zhǔn)備

我們這代人還在適應(yīng)AI,但下一代可以從小學(xué)會(huì)"和AI協(xié)作"。

就像計(jì)算機(jī)、互聯(lián)網(wǎng)成為今天必不可少的職場(chǎng)工具,AI未來也會(huì)如此。

【前哨AI冬令營】 專為8-16歲設(shè)計(jì),7天讓孩子親手做出自己的小游戲和微信小程序,邊玩邊學(xué),作品還能發(fā)給同學(xué)一起玩。

零基礎(chǔ)也能上手:從"玩游戲"到"做游戲"

抓住核心競(jìng)爭(zhēng)力:培養(yǎng)和AI協(xié)作的能力

收獲硬成果:可上線的作品,實(shí)打?qū)嵉姆e累

? 名額有限,先到先得,掃碼報(bào)名 ↓


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蔣孝嚴(yán)帶著兒子蔣萬安去給他的奶奶上墳,蔣萬安手里還拿著黃紙

蔣孝嚴(yán)帶著兒子蔣萬安去給他的奶奶上墳,蔣萬安手里還拿著黃紙

大江
2026-01-08 14:50:15
獨(dú)生女不愿接班,天津老板套現(xiàn)7.2億,把家族產(chǎn)業(yè)賣給了安徽國資

獨(dú)生女不愿接班,天津老板套現(xiàn)7.2億,把家族產(chǎn)業(yè)賣給了安徽國資

素衣讀史
2025-12-23 17:03:03
外交部:無論委內(nèi)瑞拉政局如何變化,中方深化兩國各領(lǐng)域務(wù)實(shí)合作意愿不會(huì)改變

外交部:無論委內(nèi)瑞拉政局如何變化,中方深化兩國各領(lǐng)域務(wù)實(shí)合作意愿不會(huì)改變

新京報(bào)政事兒
2026-01-09 15:32:35
降維打擊?芬蘭公司宣布固態(tài)電池進(jìn)入量產(chǎn),成本比普通鋰電池還低

降維打擊?芬蘭公司宣布固態(tài)電池進(jìn)入量產(chǎn),成本比普通鋰電池還低

小柱解說游戲
2026-01-07 02:12:43
縱覽原創(chuàng)|東莞市衛(wèi)健局回應(yīng)“男子稱被4家醫(yī)院誤診癌癥”:將進(jìn)行調(diào)查核實(shí);當(dāng)事男子回應(yīng)“不是博流量,愿接受任何公平公正的調(diào)查”

縱覽原創(chuàng)|東莞市衛(wèi)健局回應(yīng)“男子稱被4家醫(yī)院誤診癌癥”:將進(jìn)行調(diào)查核實(shí);當(dāng)事男子回應(yīng)“不是博流量,愿接受任何公平公正的調(diào)查”

縱覽新聞
2026-01-09 17:44:03
“北京最難約的自助,69元任吃!”

“北京最難約的自助,69元任吃!”

北京吃貨小分隊(duì)
2026-01-08 11:47:31
“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

洲洲影視娛評(píng)
2025-12-08 19:52:00
《家庭的覺醒》:一個(gè)家要往上走,最靠譜的20條建議

《家庭的覺醒》:一個(gè)家要往上走,最靠譜的20條建議

洞見
2026-01-08 21:27:06
天呢!燙碼?沒想到香煙買賣會(huì)壟斷到如此程度,難怪這么暴利…

天呢!燙碼?沒想到香煙買賣會(huì)壟斷到如此程度,難怪這么暴利…

慧翔百科
2026-01-07 09:07:26
梁靜茹微博突設(shè)不可見,身材發(fā)福成導(dǎo)火索,自我療愈能否重拾勇氣

梁靜茹微博突設(shè)不可見,身材發(fā)福成導(dǎo)火索,自我療愈能否重拾勇氣

明星爆料客
2026-01-09 17:18:19
劉曉慶擔(dān)心的事發(fā)生了!意外摔倒、分不清人,75歲不服老不行了?

劉曉慶擔(dān)心的事發(fā)生了!意外摔倒、分不清人,75歲不服老不行了?

楠楠自語
2025-12-03 15:57:03
亞運(yùn)冠軍舉報(bào)訓(xùn)練基地負(fù)責(zé)人“索要獎(jiǎng)金”續(xù):云南體育局稱“很快會(huì)有結(jié)論”

亞運(yùn)冠軍舉報(bào)訓(xùn)練基地負(fù)責(zé)人“索要獎(jiǎng)金”續(xù):云南體育局稱“很快會(huì)有結(jié)論”

澎湃新聞
2026-01-08 16:04:29
一光年有多遠(yuǎn)?為什么它會(huì)讓科學(xué)家絕望,答案出乎你的意料

一光年有多遠(yuǎn)?為什么它會(huì)讓科學(xué)家絕望,答案出乎你的意料

觀察宇宙
2026-01-08 20:10:26
脆弱的頭號(hào)種子:林詩棟險(xiǎn)勝,是懸崖邊的救贖還是光環(huán)下的裂痕?

脆弱的頭號(hào)種子:林詩棟險(xiǎn)勝,是懸崖邊的救贖還是光環(huán)下的裂痕?

曹老師評(píng)球
2026-01-09 17:24:09
海港官宣冬窗首簽!或連簽4內(nèi)援,劉祝潤回歸,官方:按計(jì)劃推進(jìn)

海港官宣冬窗首簽!或連簽4內(nèi)援,劉祝潤回歸,官方:按計(jì)劃推進(jìn)

奧拜爾
2026-01-09 17:23:05
不可輕敵!武統(tǒng)臺(tái)灣的難度遠(yuǎn)大于俄烏戰(zhàn)爭(zhēng),畢竟我們比俄羅斯文明

不可輕敵!武統(tǒng)臺(tái)灣的難度遠(yuǎn)大于俄烏戰(zhàn)爭(zhēng),畢竟我們比俄羅斯文明

大道無形我有型
2025-09-01 15:02:03
胡明軒要交易?現(xiàn)身基地,曝胡明軒爸爸幫搬行李,誰注意杜鋒表態(tài)

胡明軒要交易?現(xiàn)身基地,曝胡明軒爸爸幫搬行李,誰注意杜鋒表態(tài)

樂聊球
2026-01-09 13:32:22
王石和田樸珺都挺尷尬的

王石和田樸珺都挺尷尬的

江湖人稱艾掌門
2026-01-09 16:19:08
林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

林強(qiáng)涉案989億被抓!生活奢華超過中東富豪,超5萬百姓血本無歸

千言娛樂記
2025-12-27 20:07:06
山東一小學(xué)走標(biāo)線列隊(duì)入校,視頻曝光后,全網(wǎng)吵翻了!

山東一小學(xué)走標(biāo)線列隊(duì)入校,視頻曝光后,全網(wǎng)吵翻了!

眼光很亮
2026-01-09 01:11:52
2026-01-09 19:11:00
王煜全 incentive-icons
王煜全
王煜全帶你一起看創(chuàng)新
978文章數(shù) 751關(guān)注度
往期回顧 全部

科技要聞

市場(chǎng)偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

特朗普稱美必須"擁有"整個(gè)格陵蘭 英法德迅速統(tǒng)一戰(zhàn)線

頭條要聞

特朗普稱美必須"擁有"整個(gè)格陵蘭 英法德迅速統(tǒng)一戰(zhàn)線

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

本地
親子
旅游
健康
公開課

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

親子要聞

方媛家三姐妹溫馨畫面,一個(gè)畫畫,一個(gè)看書,一個(gè)嬰兒車?yán)锎蝽?/h3>

旅游要聞

青春不設(shè)限,臺(tái)兒莊古城有“飲”力!解鎖年輕人的旅行新玩法

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版