国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

實(shí)測GPT5.2打工人版的十種用法,我覺得Gemini 3 Pro要笑到肚子痛了

0
分享至

新鮮出爐的GPT5.2又一次成“最強(qiáng)”了,

這次居然沒有開發(fā)布會,浪費(fèi)了我二十分鐘,

現(xiàn)在應(yīng)該已經(jīng)全量上線到ChatGPT了,在OpenAI platform,Cursor,Codex,Perplexity上也能用到,這次API貴了40%,要好好看看值不值。

我第一時(shí)間就跟Gemini 3 Pro,做了個(gè)編程對比,還盤點(diǎn)了10種GPT5.2的玩法。直接打印機(jī)起手,

GPT5.2,

Gemini 3 Pro,

enmmm,有點(diǎn)不對,

再看看OpenAI自己放出來的主case呢,

一個(gè)電腦主板上面的元件和接口識別標(biāo)記的case,結(jié)果連Gemini 2.5 Pro都沒打贏




這批測試的超長提示語和代碼我都打包好了,公眾號后臺發(fā)我“gpt5.2”就行

難道是我報(bào)告看劈叉了,再翻翻還是很頂,

在AIME 2025(競賽數(shù)學(xué))拿滿分,在 ARC-AGI-2(視覺推理)上拿到了 52.9%(翻了三倍,和 Gemini3 相當(dāng)),在SWE-Bench Pro(軟件工程)、GPQA Diamond(科學(xué)問題)上也搶回第一了,

256K文檔的四針測試正確率離譜到100%,知識截止日期也更新到25年8月份了。

怪不得之前有人P圖GPT5.2全系第一。。。


重點(diǎn)在GDPval和ARC-AGI-2,


簡單來說,OpenAI想測試模型在真實(shí)世界對GDP的貢獻(xiàn),可以說是賺錢能力,

GDPval這數(shù)據(jù)集就是從銀行那調(diào)取的信息,選出對美國 GDP 貢獻(xiàn)最大的 9 個(gè)行業(yè)中選出的 44 種職業(yè),


1,320 個(gè)專業(yè)任務(wù),每個(gè)任務(wù)都由平均有 14 年以上領(lǐng)域經(jīng)驗(yàn)的專業(yè)人士設(shè)計(jì),任務(wù)本體包含了參考文件和背景信息,預(yù)期的輸出涵蓋文檔、ppt、圖表、電子表格和多媒體。


https://arxiv.org/pdf/2510.04374

測試的case長這樣,GPT 5.2 Thinking的平均得分比GPT 5.1 Thinking高9.3%,還是比較明顯能看到區(qū)別的。


我用Gemini 3 Pro搓了一個(gè)賊復(fù)雜的Excel提示語,直接搭一個(gè)完整的模型。

你要在 Excel 里從零構(gòu)建一個(gè)可運(yùn)營的商業(yè)預(yù)測模型,用于蜜雪冰城在12月內(nèi)的 定價(jià)、銷量、收入、成本、費(fèi)用、利潤、現(xiàn)金流 預(yù)測,并支持多情景對比與關(guān)鍵指標(biāo)儀表盤。

目標(biāo)讀者是業(yè)務(wù)負(fù)責(zé)人和財(cái)務(wù)負(fù)責(zé)人,要求模型結(jié)構(gòu)清晰、可審計(jì)、可擴(kuò)展,所有計(jì)算使用 Excel 原生公式完成(不依賴宏)。

(后面是每張表的詳細(xì)設(shè)定)

GPT 5.2 Thinking跑啊跑,跑了半小時(shí),

把我所有的要求都實(shí)現(xiàn)了,

以后出門在外自稱是Excel專家沒得問題了。

再試一個(gè)常見的視頻轉(zhuǎn)錄任務(wù),GPT 5.2 Thinking沒有內(nèi)置工具,所以它會聯(lián)網(wǎng)搜索一個(gè)免費(fèi)轉(zhuǎn)錄的工具,轉(zhuǎn)錄后再把結(jié)果整理好給我。

(視頻鏈接)總結(jié)這個(gè)視頻的記錄,并分享所有學(xué)到的知識

再來再來,

既然轉(zhuǎn)錄也能找到免費(fèi)了,說不定PDF排版也行。


將這份PDF轉(zhuǎn)換成可編輯的Word文檔。

GPT2.5的解法是將圖片和結(jié)構(gòu)圖等截圖放到word里面,我看下來就只有代碼部分會出現(xiàn)行號和文字排版多了換行,其他文字和格式都保留下來了。

我必須要額外吐槽一下instant,thinking和pro這個(gè)后綴,穿插在報(bào)告里面看到眼花。我愿稱之為AI界的中杯大杯超大杯


除了牛馬預(yù)備役的設(shè)定外,GPT 5.2在ARC-AGI-2的性能也很強(qiáng),用人話說,就是看看模型在完全沒見過的圖像推理題上表現(xiàn)怎么樣。

這有個(gè)術(shù)語,流體智力(Fluid Intelligence),不依賴于已有的知識,在全新情境下進(jìn)行邏輯推理、識別模式和解決問題的能力。


我記得第一代的時(shí)候我當(dāng)時(shí)找了一堆人,做10條只對了3條。GPT 5.2的得分到了52.9%,比GPT 5.1高35.3%,正確率過半了。

GPT 5.2有一個(gè)我印象比較深刻的case,

就是這個(gè)3D深海,這個(gè)光影我反手就是一個(gè)3A大作。

創(chuàng)建一個(gè)包含以下要求的單HTML文件單頁應(yīng)用:

名稱:海洋波浪模擬

目標(biāo):顯示逼真的動(dòng)態(tài)波浪效果。

功能:可調(diào)節(jié)風(fēng)速、浪高和光照效果。

界面需具有平靜感和真實(shí)感。

我一開始看那么簡單的提示語嘴都笑歪了,結(jié)果后面不只我一個(gè)人發(fā)現(xiàn)了thinking和pro會時(shí)不時(shí)降智。

@向陽喬木用的同一個(gè)手柄提示語,用instant,thinking和pro生成的三張圖,

SVG code for Xbox controller


所以我后面干脆改用GPT5.2(無后綴版)抽卡了,

還是可以抽出(抽了一晚上)相當(dāng)不錯(cuò)的效果的,

小球彈跳3D版,

以及模擬官方case的3D海浪,

@karminski-牙醫(yī)得到的結(jié)論也很一樣,下面兩個(gè)演示動(dòng)畫是我節(jié)選他跑的一部分效果,

我覺得可以基本實(shí)錘了。

測試中的GPT 5.2 thinking和pro差距并不大, 但價(jià)格差了11倍。大象牙膏測試,甚至不如 GPT5,粒子效果還不如國產(chǎn)開放權(quán)重模型,

鞭炮連鎖爆炸測試, 建模和光照, 粒子效果都非常好, 但追求畫質(zhì)的結(jié)果就是犧牲了性能,

總的來說,模型寫出來的代碼都挺好看,

但性能沒太大進(jìn)步。

最后,來測試看看GPT5.2的寫作能力吧,

既然都囊括了44種職業(yè)了,那文案是不是也要拉上來。我基本都是一個(gè)固定提示語測試,太短了看不出AI味,太多提示語限制的話看不出最低下限

寫一篇千字的中文科技小說篇章


盡力了,3k字壓成圖片傳上來還是有點(diǎn)糊的,

怎么說呢,GPT5.2的AI味還是重,

破折號雙引號冒號頓號,

固定的不是...而是的句式還是時(shí)不時(shí)會彈出來,

但是這個(gè)故事的本身設(shè)定我還是很喜歡的,

不再完美的AI零七和被算法討厭的噪音工程師林佑的聯(lián)手還蠻有看點(diǎn)的。

最后的最后,

GPT-5.1三個(gè)月后也會下線,

我們又一次告別了一個(gè)GPT開頭的模型,

GPT5.2發(fā)布當(dāng)天,OpenAI十周年這周,

奧特曼寫了一封公開信《Ten Years》,

他說,

再過十年,

我們幾乎肯定能造出超級智能。

實(shí)話說,我對OpenAI的感情是復(fù)雜的,

Gemini 3.0 Pro 獨(dú)一檔強(qiáng),

Claude基本不能用的情況下,

我是真心希望GPT5.2能支棱起來,

別真被徹底超過了,

多多優(yōu)化模型吧。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點(diǎn)贊|在看|轉(zhuǎn)發(fā)|評論

如果想要第一時(shí)間收到推送,不妨給我個(gè)星標(biāo)

更多的內(nèi)容正在不斷填坑中……


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1999年那筆血債,十年后終于有人去收了?美國特工橫死街頭,F(xiàn)BI連夜封鎖現(xiàn)場

1999年那筆血債,十年后終于有人去收了?美國特工橫死街頭,F(xiàn)BI連夜封鎖現(xiàn)場

史海孤雁
2026-01-08 19:35:10
“館長”被起訴,再嗆賴清德“敢不敢出庭”:要玩就玩大的

“館長”被起訴,再嗆賴清德“敢不敢出庭”:要玩就玩大的

海峽導(dǎo)報(bào)社
2026-01-10 08:32:06
一農(nóng)商行首任董事長離任8年后,突然被帶走

一農(nóng)商行首任董事長離任8年后,突然被帶走

湘財(cái)Plus
2026-01-09 15:56:29
金價(jià)一旦跌破這個(gè)數(shù),無數(shù)家庭將“一夜返貧”,希望你不在其中

金價(jià)一旦跌破這個(gè)數(shù),無數(shù)家庭將“一夜返貧”,希望你不在其中

王二哥老搞笑
2026-01-09 11:48:45
編程表現(xiàn)超越Claude和GPT?DeepSeek準(zhǔn)備第二次震驚全世界

編程表現(xiàn)超越Claude和GPT?DeepSeek準(zhǔn)備第二次震驚全世界

字母榜
2026-01-10 08:15:21
央視直播泰伊大戰(zhàn)!中國一旦輸袋鼠出線渺茫!中場絞肉機(jī)霸氣宣言

央視直播泰伊大戰(zhàn)!中國一旦輸袋鼠出線渺茫!中場絞肉機(jī)霸氣宣言

刀鋒體育
2026-01-10 09:40:15
雅萬高鐵通車兩年,印尼沒錢運(yùn)營了,問中國:那45億貸款能否緩緩

雅萬高鐵通車兩年,印尼沒錢運(yùn)營了,問中國:那45億貸款能否緩緩

芳芳?xì)v史燴
2026-01-08 15:40:33
于鳳至有多美?于鳳至的真實(shí)樣貌,都看看吧,好多照片第一次見!

于鳳至有多美?于鳳至的真實(shí)樣貌,都看看吧,好多照片第一次見!

王発吃吃喝喝
2026-01-04 15:21:34
知名女演員多個(gè)平臺賬號被禁止關(guān)注,此前曾直播“哭窮”

知名女演員多個(gè)平臺賬號被禁止關(guān)注,此前曾直播“哭窮”

深圳晚報(bào)
2026-01-10 09:31:31
馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

豐譚筆錄
2025-12-12 11:16:23
俄軍襲擊致基輔大面積停暖停水 政府呼吁市民赴郊區(qū)避難

俄軍襲擊致基輔大面積停暖停水 政府呼吁市民赴郊區(qū)避難

財(cái)聯(lián)社
2026-01-09 18:35:27
遼寧大勝送江蘇7連?。和鯈箥?3分追平加盟最高 莫蘭德14+21

遼寧大勝送江蘇7連?。和鯈箥?3分追平加盟最高 莫蘭德14+21

醉臥浮生
2026-01-09 21:21:01
景德鎮(zhèn)死緩案爆料!肇事者16歲混社會,80萬私了還威脅家屬

景德鎮(zhèn)死緩案爆料!肇事者16歲混社會,80萬私了還威脅家屬

趣味萌寵的日常
2026-01-10 08:56:35
閆學(xué)晶事件升級!官媒批評毫不留情,趙家班多人受牽連,麻煩大了

閆學(xué)晶事件升級!官媒批評毫不留情,趙家班多人受牽連,麻煩大了

李健政觀察
2026-01-10 09:25:10
拆除馬到成功雕塑,是縱容文字獄式輿情

拆除馬到成功雕塑,是縱容文字獄式輿情

不主流講話
2026-01-06 08:51:34
真服了,一個(gè)女子懷孕了八個(gè)月了,去飯店,又喝啤酒,又抽煙

真服了,一個(gè)女子懷孕了八個(gè)月了,去飯店,又喝啤酒,又抽煙

歲月有情1314
2026-01-09 09:15:38
三十億防空網(wǎng)七分鐘癱瘓,敗給的不只是美軍

三十億防空網(wǎng)七分鐘癱瘓,敗給的不只是美軍

寰宇文創(chuàng)
2026-01-09 05:39:17
最新視頻還原致命瞬間:明州ICE探員開槍前發(fā)生了什么?

最新視頻還原致命瞬間:明州ICE探員開槍前發(fā)生了什么?

華人生活網(wǎng)
2026-01-10 06:05:22
又傷了!獨(dú)行俠想送都送不走了,能換東契奇?網(wǎng)記:簡直是個(gè)笑話

又傷了!獨(dú)行俠想送都送不走了,能換東契奇?網(wǎng)記:簡直是個(gè)笑話

你的籃球頻道
2026-01-10 08:13:54
轟20只是幌子?真正的殺手锏來了!美媒看懵:這才是洲際打擊

轟20只是幌子?真正的殺手锏來了!美媒看懵:這才是洲際打擊

通鑒史智
2026-01-09 12:02:34
2026-01-10 10:15:00
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬人通過Al提高生產(chǎn)力
190文章數(shù) 66關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

牛彈琴:中方仗義執(zhí)言 委內(nèi)瑞拉三次公開感謝中國

頭條要聞

牛彈琴:中方仗義執(zhí)言 委內(nèi)瑞拉三次公開感謝中國

體育要聞

楊瀚森:上場時(shí)間要去爭取 而不是要求

娛樂要聞

火速認(rèn)錯(cuò)!孫怡駕駛法拉利跑車違規(guī)

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

時(shí)尚
健康
教育
親子
公開課

2026春夏八大流行趨勢

這些新療法,讓化療不再那么痛苦

教育要聞

好校長的“長、寬、高”

親子要聞

“國學(xué)馴化”從娃娃抓起?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版