網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.2 翻車內(nèi)幕曝光：技術(shù)團(tuán)隊(duì)沒走「歪路」，但用戶成了大冤種

2025-12-19 17:37:38　來(lái)源: 愛范兒

廣東舉報(bào)

分享至

OpenAI 的十周歲生日，過(guò)得不太體面。

在當(dāng)天發(fā)布的 GPT-5.2 交出了一份完美答卷：它橫掃許多基準(zhǔn)測(cè)試的 SOTA，在數(shù)學(xué)和編程等競(jìng)賽場(chǎng)景中的表現(xiàn)堪稱亮眼，也被官方描述為 AI「超級(jí)大腦」。

可到了社交網(wǎng)絡(luò)，迎接它的不是掌聲，而是用戶的集體罵街。

在 X 和 Reddit 上，憤怒與失望幾乎寫在每一條評(píng)論里。人們又一次懷念起那個(gè)曾經(jīng)的「白月光」GPT-4o：有人說(shuō) GPT-5.2 變得平淡、乏味、像被磨平了棱角；也有人譏諷它成了「把成年人當(dāng)幼兒園小孩對(duì)待」的說(shuō)教。

當(dāng)輿論的炮火對(duì)準(zhǔn) OpenAI 及其 CEO Sam Altman（山姆·奧特曼），一個(gè)尖銳的問(wèn)題擺在面前：為什么模型更「聰明」了，用戶反而更不愛了？

更「聰明」的模型，為什么不討喜了

The Information 今天凌晨的最新報(bào)道，扒出了內(nèi)幕。

過(guò)去一年，OpenAI 內(nèi)部曾奉行一條鐵律：每一次模型的代際飛躍，都會(huì)伴隨著用戶量的爆發(fā)式增長(zhǎng)，因?yàn)椤缸兟斆鳌箮?lái)的體驗(yàn)升級(jí)是直觀的。但現(xiàn)在，這條鐵律失效了。

當(dāng)然，模型在智能與科研計(jì)算領(lǐng)域的提升依舊顯著。研究團(tuán)隊(duì)耗費(fèi)數(shù)月打磨推理能力，讓它能攻克更復(fù)雜的數(shù)學(xué)與科學(xué)難題，但對(duì)于大多數(shù)普通用戶而言，這種感知微乎其微。

▲ https://www.theinformation.com/articles/openais-organizational-problems-hurt-chatgpt?rc=qmzset

換句話說(shuō)，智能的提升，并不天然等同于體驗(yàn)的提升。

普通用戶很少需要一臺(tái)「競(jìng)賽級(jí)大腦」，他們更多需要一個(gè)「日常好用的助手」。OpenAI 對(duì) 150 萬(wàn)次對(duì)話的大規(guī)模分析佐證了這一判斷，用戶的核心需求極其接地氣：實(shí)用指導(dǎo)（29%）、信息查詢（24%）以及寫作（24%）等，而與編程任務(wù)相關(guān)的對(duì)話只有 4.2%。

于是矛盾就變得非常具體：當(dāng)技術(shù)團(tuán)隊(duì)在實(shí)驗(yàn)室里狂卷數(shù)理化、狂卷基準(zhǔn)測(cè)試時(shí)，用戶在聊天框里只想要一句話解決問(wèn)題——?jiǎng)e繞、別教、別拖。

戰(zhàn)線拉得過(guò)長(zhǎng)是一大槽點(diǎn)。

今年大部分時(shí)間里，奧特曼同時(shí)啟動(dòng)了多個(gè)新項(xiàng)目：視頻生成應(yīng)用 Sora、音樂 AI、瀏覽器、AI Agent、硬件設(shè)備、機(jī)器人……攤子越鋪越大，資源也被越分越碎。

這其實(shí)是科技巨頭最常見的經(jīng)典錯(cuò)誤：核心陣地還沒打穩(wěn)，就急著開辟第二、第三戰(zhàn)場(chǎng)。短期看是「全面開花」，長(zhǎng)期看，貪多嚼不爛，乃兵家大忌——每一條戰(zhàn)線都缺人、缺算力、缺產(chǎn)品打磨的耐心。

OpenAI 內(nèi)部「研究?jī)?yōu)先」和「產(chǎn)品增長(zhǎng)」之間的拉扯，在圖像生成上體現(xiàn)得尤為明顯：

即便 GPT-4o 的吉卜力風(fēng)格在三月還短暫帶動(dòng)過(guò) ChatGPT 的使用與用戶增長(zhǎng)，但 OpenAI 還是一度把圖像模型的開發(fā)優(yōu)先級(jí)往后放，等到 Nano Banana 口碑發(fā)酵后，OpenAI 又緊急回頭補(bǔ)課，內(nèi)部也因此爆發(fā)分歧——

奧特曼認(rèn)定圖像模型是用戶增長(zhǎng)的抓手，研究主管 Mark Chen 則更想把資源押在別的項(xiàng)目上。

另外，伴隨著 Scaling Laws 邊際效益遞減，為了突破大模型的瓶頸，OpenAI 過(guò)去一年里押注了推理模型，超過(guò) 1000 人的研究團(tuán)隊(duì)將資源傾斜于此，導(dǎo)致對(duì) ChatGPT 日常體驗(yàn)的優(yōu)化被邊緣化。

這種做法不僅分散了資源，甚至在年初的內(nèi)測(cè)中出現(xiàn)了性能倒退——為了適配「聊天」場(chǎng)景，反而削弱了推理模型的純粹性。雖然后來(lái)推出了「思考模式」和「深度研究」來(lái)分流、來(lái)補(bǔ)救，但用戶使用率卻很低，真正的日常對(duì)話體驗(yàn)并沒有因此變得更討喜。

除此之外，新舊模型之間也常出現(xiàn)兼容問(wèn)題。

例如在發(fā)布 GPT-5 前，研究人員發(fā)現(xiàn)模型在集成進(jìn) ChatGPT 后在部分編程任務(wù)上表現(xiàn)變差——因?yàn)橄到y(tǒng)根據(jù)用戶職業(yè)等個(gè)性化信息調(diào)整回答，結(jié)果反而干擾了模型理解，導(dǎo)致錯(cuò)誤答案。

誠(chéng)然，推理模型越來(lái)越強(qiáng)，但 ChatGPT 體驗(yàn)越來(lái)越拉胯。

當(dāng)技術(shù)進(jìn)步的方向和用戶需求的方向開始分叉，誰(shuí)會(huì)先妥協(xié)？答案顯而易見。

Gemini 3 Pro 的強(qiáng)勢(shì)發(fā)布，最終把 OpenAI 逼到了墻角，于是便有了奧特曼發(fā)布「紅色警報(bào)」的經(jīng)典名場(chǎng)面，要求 OpenAI 員工重新聚焦 ChatGPT，提高產(chǎn)品體驗(yàn)吸引力。

而在同一時(shí)間，OpenAI 應(yīng)用負(fù)責(zé)人 Fidji Simo 也在個(gè)人博客中闡述 ChatGPT 的愿景，那就是從主要以文本為主的對(duì)話系統(tǒng)，轉(zhuǎn)向能根據(jù)用戶意圖動(dòng)態(tài)生成界面的全生成式 UI。

只是 Simo 也曾承認(rèn)，公司本質(zhì)仍以研究為中心，「產(chǎn)品本身并不是最終目標(biāo)」。

從商業(yè)邏輯看，這句話其實(shí)很危險(xiǎn)。

不同于 Anthropic 更偏向主攻 API 市場(chǎng)，OpenAI 的大頭收入來(lái)自個(gè)人訂閱。在消費(fèi)市場(chǎng)，沒有人會(huì)為企業(yè)的「終極理想」買單，用戶只愿為當(dāng)下的體驗(yàn)付費(fèi)。這就好比餐廳大廚醉心于研發(fā)米其林料理，而大堂里的食客僅僅想要一碗熱氣騰騰的陽(yáng)春面。

不過(guò)，如果你因此就斷言 OpenAI 內(nèi)部已經(jīng)亂了陣腳，那可能低估了這家公司的韌性。

據(jù)彭博社援引 Mark Chen 的說(shuō)法，「紅色警報(bào)」并非新鮮事，而更像是一種戰(zhàn)時(shí)狀態(tài)的常態(tài)化管理工具。每當(dāng) OpenAI 需要集中火力攻克某一單一目標(biāo)，或要求團(tuán)隊(duì)放下低優(yōu)先級(jí)任務(wù)時(shí)，這種機(jī)制就會(huì)啟動(dòng)。

▲播客地址：https://x.com/Kantrowitz/status/2001790090641645940

奧特曼在最新的播客中，同樣否認(rèn)了拉響紅色警報(bào)帶來(lái)的過(guò)度焦慮。

「首先，所謂的『紅色警報(bào)』，在我們看來(lái)其實(shí)是一種低風(fēng)險(xiǎn)、但非常必要的應(yīng)對(duì)措施。」奧特曼坦言，「在潛在的競(jìng)爭(zhēng)威脅出現(xiàn)時(shí)，保持一點(diǎn)『偏執(zhí)』、并迅速做出反應(yīng)，是件好事?！?/p>

他甚至提到了今年年初 DeepSeek 的崛起，認(rèn)為那和現(xiàn)在的 Gemini 3 一樣，都是一種良性的外部刺激。

「Gemini 3 到目前為止，還沒帶來(lái)我們?cè)緭?dān)心的那種毀滅性沖擊。雖然它和 DeepSeek 一樣，精準(zhǔn)地刺痛了我們?cè)诋a(chǎn)品策略上的軟肋，但也倒逼我們做出了極其迅速的調(diào)整?！?/p>

在奧特曼看來(lái)，這種緊急狀態(tài)通常只會(huì)持續(xù)六到八周?！肝液芨吲d我們有這種快速反應(yīng)機(jī)制，我們不會(huì)在這個(gè)狀態(tài)里待太久?！?/p>

OpenAI 顯然也明白光喊口號(hào)不夠，他們今天也正式發(fā)布了 GPT-5.2-Codex。

作為專為解決復(fù)雜現(xiàn)實(shí)軟件工程問(wèn)題而生的智能體編程模型，GPT-5.2-Codex 在通用智能的基礎(chǔ)上，融合了 GPT-5.1-Codex-Max 的終端操作能力，更擅長(zhǎng)處理代碼重構(gòu)、遷移等長(zhǎng)程任務(wù)。

而同樣是在播客的尾聲，當(dāng)主持人詢問(wèn)「GPT-6 還要等多久？」時(shí)，奧特曼敞亮地表示：「我不知道我們什么時(shí)候會(huì)正式把某個(gè)模型命名為 GPT-6，但我預(yù)計(jì)在明年第一季度，會(huì)有比 5.2 有顯著提升的新模型發(fā)布。」

拉響「紅色警報(bào)」，到 GPT-5.2 系列的反擊，再到 GPT-6 的曖昧預(yù)告，OpenAI 試圖用新模型與新節(jié)奏重建信心，但決定長(zhǎng)期勝負(fù)的，仍是分發(fā)入口、生態(tài)協(xié)同與算力成本等硬門檻。

Google 的陽(yáng)謀，與奧特曼的 8300 億「空城計(jì)」

Google 的優(yōu)勢(shì)，從來(lái)不只在 Gemini 3 Pro 這一個(gè)模型上，更在于它幾乎無(wú)可匹敵的分發(fā)渠道。

搜索、Chrome、辦公套件。在 AI 賽道，護(hù)城河可能是所有科技產(chǎn)品中最淺的。用戶的遷移成本幾乎為零，當(dāng) Google 的 AI 產(chǎn)品如空氣般無(wú)處不在，這幾乎成了一場(chǎng)無(wú)解的陽(yáng)謀——你不需要「被說(shuō)服」，你只會(huì)「順手就用」。

更重要的是，在與 Google 的較量中，硬件層面的短板成了 OpenAI 最大的軟肋。

相比于 Google 十二年前就開始布局專用 AI 芯片（TPU）所建立的效率優(yōu)勢(shì)，OpenAI 每年仍需花費(fèi)數(shù)十億美元租用算力。即便試圖通過(guò)自建數(shù)據(jù)中心和芯片來(lái)「補(bǔ)課」，但體驗(yàn)在被追平、成本在被碾壓的現(xiàn)狀已是不爭(zhēng)的事實(shí)。

用網(wǎng)友的話來(lái)說(shuō)：

OpenAI 現(xiàn)在并不需要一個(gè)更強(qiáng)大的模型，它需要的是 AMD。如果 OpenAI 收購(gòu)了 AMD，這場(chǎng) AI 之戰(zhàn)就將宣告結(jié)束。Google 之所以不怕 OpenAI，是因?yàn)樗鼡碛凶约业?TPU。但它真正該擔(dān)心的，是 OpenAI 擁有 AMD。

OpenAI 總裁 Greg Brockman 在最近的視頻中也坦言，由于算力捉襟見肘，每當(dāng)新功能上線（如年初 GPT-4o 吉卜力風(fēng)格），就必須從研究部門「抽血」，把算力挪給產(chǎn)品部。這是一種飲鴆止渴的循環(huán)——為了維持今天的用戶體驗(yàn)，被迫推遲了明日的技術(shù)研發(fā)。

可算力這東西，歸根到底就是兩個(gè)字：燒錢。而且是海量地?zé)X。

為此，據(jù) WSJ 報(bào)道，OpenAI 已計(jì)劃發(fā)起 1000 億美元的巨額融資；若一切順利，這家超級(jí)獨(dú)角獸將在明年 Q1 之前，以 8300 億美元的估值，再次刷新資本市場(chǎng)的想象力。

而在今年早些時(shí)候，軟銀同意向 OpenAI 投資 300 億美元，并于上月出售所持的英偉達(dá)股份價(jià)值 58 億美元，為這筆投資籌資，并預(yù)計(jì)盡快完成剩余 225 億美元的出資。

但錢的問(wèn)題沒那么簡(jiǎn)單。預(yù)計(jì)到 2030 年，OpenAI 的現(xiàn)金消耗將超過(guò) 2000 億美元。相比之下，Google 財(cái)務(wù)穩(wěn)健，甚至能通過(guò) Oracle 等合作伙伴的股價(jià)波動(dòng)間接擠壓 OpenAI 的融資前景。

到處籌錢的 OpenAI，看起來(lái)更像是在和時(shí)間賽跑。于是便誕生了那個(gè)笑話：照奧特曼的融資能力，沒準(zhǔn)哪天連 Google 和英偉達(dá)都能「打包帶走」。

但玩笑歸玩笑，錢能買來(lái)時(shí)間，卻買不來(lái)口碑。

所以在 2025 年這個(gè)冬天，狂奔三年的 OpenAI 選擇先踩一腳剎車，其實(shí)是對(duì)的：收攏戰(zhàn)線、回撤資源，把方向重新對(duì)準(zhǔn) ChatGPT 的日常體驗(yàn)。

這是一次昂貴但必要的糾偏。

技術(shù)領(lǐng)先不等于產(chǎn)品好用，基準(zhǔn)測(cè)試第一不等于用戶滿意。更重要的是，你不能只在用戶懷念舊版本的時(shí)候，才想起來(lái)問(wèn)問(wèn)他們的感受。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.