實測 GPT-5.2 ：價格暴漲能力微漲，憑什么反擊 Gemini

2025-12-12 12:13:24　來源: AppSo

廣東舉報

分享至

上個月剛剛退訂掉 ChatGPT Plus，轉(zhuǎn)到 Gemini，這次需要因為 GPT-5.2 再回去嗎？

看完下面這些網(wǎng)友真實的體驗分享，還有 APPSO 的上手實測，或許能有個答案。

這次終于沒把表給畫錯了

GPT 5.2 這次其實是更新了 3 個模型，GPT-5.2 Instant、Thinking、以及 Pro 模型。如果你習慣了 Gemini 3.0 Pro 里，每次問答都會經(jīng)過思考；那么上手 GPT-5.2 Thinking/Pro 時，你會發(fā)現(xiàn) ChatGPT 思考速度的變慢了，比以往所花的時間要更長。

這也是目前大多數(shù)獲得提前體驗的用戶，在社交媒體上分享的心得。即 GPT-5.2 對比 5.1 在各個方面都有了提升，且 GPT-5.2 Pro 非常適合去做一些專業(yè)推理工作，需要長時間來完成的任務，但是，就等待結(jié)果的過程變得更漫長。

例如有用戶分享，輸入提示詞「幫我繪制一張 HLE 測試成績的圖表」，GPT-5.2 Pro 硬是花了 24 分鐘才得出這張表。

圖片來源：https://x.com/emollick/status/1999185755617300796/photo/1

但好在所有的信息都是準確的，即便圖表上最好的結(jié)果，顯示的還是 Gemini 3.0 Pro。

這也得益于GPT-5.2 的知識截止日期來到了 2025 年 8 月，要知道 GPT-5.1 的知識截止日期還是 2024 年 9 月，而上個月剛發(fā)布的 Gemini 3.0 截止在 2025.1。

當我們使用 GPT-5.2 Thinking，讓它生成一張 OpenAI 的模型發(fā)布歷史的圖表，倒沒有花太長的時間，信息也比較準確。如果是簡單的任務，用 Thinking 模型所花的時間，和用 Pro 模型，差別會非常大。

提示詞：generate a chart graph of OpenAI model release over time

憑借著「超高強度」的推理，以及最新的世界知識，結(jié)合圖像的多模態(tài)理解和推理能力，GPT 5.2 很快也在大模型競技場上飆升到第二名。GPT-5.2-High 在 WebDev（網(wǎng)頁開發(fā)）項目中排名第二，GPT-5.2 排名第六。作為對比，Gemini 3.0 Pro 排名第三，第一仍然是 Claude。

LMArena 官方也給出了一段實測視頻，他們使用 GPT-5.2 完成了一系列的 3D 建模工作，完成度非常高。但還是有網(wǎng)友在下面評論說，「現(xiàn)在是還在 2003 年嗎？」

視頻來源：https://x.com/arena/status/1999189215603753445

這種利用 three.js 實現(xiàn)的 3D 效果，非常需要模型的多模態(tài)理解和推理能力，以及在編程開發(fā)、程序設計上的優(yōu)化；GPT-5.2 也很對得起這 0.1 的升級。

目前網(wǎng)友分享大量測試，基本上都集中在構(gòu)建這些完整的 3D 引擎，GPT-5.2 表現(xiàn)的也都很不錯。像是也有用 GPT-5.2 Thinking 的高難度推理模式，同樣在單頁文件里，構(gòu)建了一個支持交互控制、還可以導出 4K 分辨率的 3D 雪天冰塊王國模型。

https://x.com/skirano/status/1999182295685644366

還有使用 GPT-5.2 Pro 實現(xiàn)的 3D 波濤洶涌哥特城市建筑。

提示詞：create a visually interesting shader that can run in twigl-dot-app make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves.｜來源：https://x.com/emollick/status/1999185085719887978?s=20

關于 3D 理解和推理能力，我們也用了 Ian Goodfellow 上次在 Gemini 3.0 Pro 發(fā)布之后使用的提示詞，即上傳一張圖片，然后告訴模型根據(jù)這張圖片，生成一個漂亮的體素藝術 Three.js 單頁程序場景。

由于 ChatGPT 沒有在畫布內(nèi)為我生成，所以復制它在對話框生成的代碼，在 HTML View 中打開，如右圖所示。

這個差別還是挺明顯，ChatGPT 雖然也讀取到了上傳圖片的內(nèi)容，一棵粉紅色的書，一塊綠地和灰色的下沉，還有白色的水流，但是它生成的 3D 動畫，對比 Gemini 3.0 Pro 是有些簡陋了。

我只能說，奧特曼發(fā)出這個「紅色警報」，說明了 Gemini 的真材實料。

檢驗編程能力的測試，必然少不了經(jīng)典的六邊形小球物理運動。有博主加大了小球運動的難度，全部使用閃著光的紅色 3D 小球。效果看著很酷炫，很多網(wǎng)友都在問這是如何做到的；但也有網(wǎng)友指出來，這些小球，好像并不受重力控制。

接著有網(wǎng)友回復說，這是在模擬太空。

視頻來源：https://x.com/flavioAd/status/1999183432203567339

還有 SVG 代碼測試，騎自行車的鵜鶘。

圖片來源：https://arena.jit.dev/

也有網(wǎng)友分享自己用 GPT-5.2 做了一個森林火災的模擬器，能夠調(diào)節(jié)速度、片區(qū)大小、和火焰燃燒范圍等等。

圖片來源：https://x.com/1littlecoder/status/1999191170581434557?s=20

我們做了一個星球信號的網(wǎng)頁，跟這個森林火情可視化的網(wǎng)頁，布局是如出一轍，大概就是左邊顯示的內(nèi)容，星星點點換成了太空星球。

提示詞：Create an interactive HTML, CSS, and JavaScript simulation of a satellite system that transmits signals to ground receivers. The simulation should show a satellite orbiting the Earth and periodically sending signals that are received by multiple

我們也用之前 Gemini 3 做的拍立得，來考驗一下 GPT-5.2。輸入同樣的提示詞，要它開發(fā)一個復古拍立得風格的網(wǎng)頁相機應用。

提示詞：開發(fā)一個具有復古擬物風格的單頁相機應用。頁面背景請設計為軟木板或深色木紋材質(zhì)，左下角固定一個純 CSS 或 SVG 繪制的擬物化拍立得相機模型，其鏡頭區(qū)域?qū)崟r顯示用戶攝像頭畫面；交互邏輯上，當用戶點擊快門按鈕時，播放快門音效，并讓一張帶有白色邊框的相紙從相機頂部緩慢吐出；請利用 CSS 濾鏡讓滑出的照片初始狀態(tài)為高模糊且黑白，在 5 秒內(nèi)平滑過渡到清晰全彩狀態(tài)；最后，所有顯影完成的照片必須支持自由拖拽，允許用戶將其隨意擺放在頁面任意位置，且照片要有隨機的微小旋轉(zhuǎn)角度和陰影，點擊某張照片時應將其置頂，從而形成一個逼真的自由照片拼貼墻。

有點意外，一次成型，ChatGPT 也能做拍立得了。

之前我們測試 Gemini 3.0 Pro 時，它最強大的能力一方面是編程，另一方面是不需要我們輸入太多的提示詞，只是把一個截屏或視頻丟給它，告訴它要復刻，Gemini 就能做到。

這次我們同樣丟給它一個視頻，要求它復刻這個古詩詞生成的網(wǎng)頁。

https://chatgpt.com/canvas/shared/693b6d1b8fa881919c6298a4aed05581

對比之前 GPT-5.1 完全不知道我上傳視頻的配色方案，這次它算是學到了。不過，由于 Gemini 生成的網(wǎng)頁可以直接添加 AI 功能，通過使用 Gemini 的 API 實現(xiàn)。但是 ChatGPT 還沒有把 AI 引入這些生成的網(wǎng)頁，所以這里的詩歌，同樣只能是已經(jīng)寫好的那幾首。

除了經(jīng)典的編程能力測試，和單純地做一個單頁的 HTML 文件，也有網(wǎng)友用它來編寫 Python 代碼。

網(wǎng)友輸入的提示詞是「write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.」（編寫一個 Python 代碼，模擬單行道交通燈的工作原理，并可視化隨機速率進入的車輛）。

他同時測試了 GPT 5.2 Extended Thinking 和 Claude Opus 4.5，結(jié)果顯而易見。只能說，經(jīng)常有讀者問我們最好的編程模型是哪個，Claude 能被這么多開發(fā)者青睞，并不是沒有原因。

下圖是 GPT-5.2，來源：https://x.com/diegocabezas01/status/1999228052379754508

而且，之前 Claude 模型最大的缺點，可能就是貴，Claude Opus 4.5 輸入每百萬 Token 是 5 美元，輸出是 25 美元。現(xiàn)在 GPT-5.2 的價格也跟上來了，對比 GPT-5.1 ，整體基本上貴了 40%，GPT-5.2 Pro 的輸入是 21 美元，輸出是 168 美元。

在官方的發(fā)布博客里面，OpenAI 提到 GPT-5.2 在圖像的能力也有了提升。

GPT-5.2 Thinking 是我們迄今為止最強大的視覺模型，在圖表推理和軟件界面理解方面的錯誤率降低了大約一半。

并且它給出了一個例子，是給一塊看起來很模糊的主板，用 AI 加上一些帶有方框的標記；對比 GPT-5.1，GPT-5.2 雖然也會犯錯，但是標記了更多的地方。

可是 Nano Banana Pro 呢，有網(wǎng)友用 Nano Banana Pro 去掉了圖片上的標注信息，然后重新要求它打上新的目標定位方框，你覺得哪個好。

從左到右依次為 GPT-5.1、GPT-5.2、Nano Banana Pro｜圖片來源：https://x.com/bcaine/status/1999212747213656072

我的感受是，ChatGPT 為什么要在別人擅長的領域上「自取其辱」，Nano Banana 做這些關于圖片的工作，現(xiàn)在完全可以說就是斷層第一，即便 GPT-5.2 標注的信息更多了，但很多檢測框定位都不準確。

編程、圖像對比前代 GPT-5.1 有了大幅提升，如果你一直以來都是 ChatGPT 的用戶，應該能直接感受升級后帶來的差別。但如果和其他模型對比，編程和圖像，體驗下來，仍然是沒有像 Nano Banana 推出時一樣，做到遙遙領先。

在關于審美的網(wǎng)頁設計上，也有網(wǎng)友分享了他用 GPT-5.2 做的一些前端網(wǎng)頁，大家可以看看這次，前端程序員是不是又要被拉出來「殺」一遍。

向左滑動查看更多內(nèi)容，圖片來源：https://x.com/secondfret/status/1999235822034547011

和之前爛大街的漸變紫，GPT-5.2 的設計水平確實上來了，但就像博主自己說的一樣，GPT-5.2 好像特別喜歡在屏幕上畫方框，到處都是層層疊疊的網(wǎng)格。

關于設計能力，也有一個專門的榜單，GPT-5.2 突飛猛進，從之前排在十名開外的 GPT-5.1，一躍來到了第三名，不過得分最高的還是 Gemini 3.0 Pro。

圖片來源：https://www.designarena.ai/leaderboard

我們也給 GPT-5.2 一些要求做出「高大上」的網(wǎng)頁，給一家 AI 公司做首頁。結(jié)果是，GPT-5.2 很喜歡用方框是真的；還有漸變紫怎么又給我碰上了。

提示詞：You are the top 0.1% designer and developer for the world's cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. - Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.

最后關于寫作，根據(jù)一些獲得超前體驗的用戶反饋，GPT-5.2 開始有能力，完成一些長篇幅小說的創(chuàng)作。

例如，當 ChatGPT 被要求生成 50 個情節(jié)創(chuàng)意時，它會全部完成，而不是像其他模型那樣只生成一部分。而被要求寫一本 200 頁的書時，ChatGPT 也沒有直接說做不到，而是真的嘗試了，不僅構(gòu)建了整本書的結(jié)構(gòu)，甚至還生成了 PDF 文件。

網(wǎng)友說，盡管書頁本身比較薄弱，篇幅也短……畢竟它目前不可能，一口氣寫出一本可以出版的小說，但能開始真的去做，給 50 個創(chuàng)意，寫 200 頁書，說明它有足夠的思維深度。

GPT-5.2 最引人注目的地方在于它能夠很好地遵循指令……不是基本的按照我說的做，而是真正完成我描述的整個任務。

現(xiàn)在 GPT-5.2 應該已經(jīng)逐步推送到所有用戶了，你的上手實測體驗怎么樣。

GPT-5.2 的升級，不足以讓我從 Gemini 轉(zhuǎn)過來。雖然看著又是刷新了很多榜單，無論是自己發(fā)布的榜單，公開的測試，都拿到了不錯的成績。但是具體的上手，在生成 3D 程序那部分，代碼報錯是常有的事，而整體的審美風格也沒能有大的突破，還這么貴。

網(wǎng)友銳評

Gemini 那邊也沒有停下來，繼續(xù)給奧特曼壓力。今天凌晨，雖然沒有發(fā)布新模型，但發(fā)布了重新設計的 Gemini Deep Research，并且可以通過 API 來訪問它，未來還將在 Gemini、Google 搜索、NotebookLM 中升級。

全新的 Gemini 深度研究 Agent 在人類最后的考試（HLE），用 46.4% 擊敗了剛剛發(fā)布的 45.5% 的 GPT-5.2 Thinking（最高是 GPT-5.2 Pro 50.0%），并且在 Google 自己推出的 DeepSearchQA 測試，和 BrowseComp 測試中取得了不錯的結(jié)果。

奧特曼的紅色警報，大概是還得再亮一陣子了。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產(chǎn)品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.