国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI紅色警報(bào)下的反擊:發(fā)布GPT-5.2迎戰(zhàn)Gemini 3

0
分享至

當(dāng)谷歌的 Gemini 在各大 AI 排行榜上風(fēng)頭正勁時,OpenAI 終于打出了新的王牌。

周四,這家 AI 巨頭發(fā)布了 GPT-5.2,稱其是迄今為止“最強(qiáng)大的模型”,專為開發(fā)者和職場人士打造。


(來源:OpenAI)

這場發(fā)布會的時機(jī)頗為微妙。

一個月前,OpenAI CEO 山姆·奧特曼(Sam Altman)向內(nèi)部發(fā)出“紅色警報(bào)”,承認(rèn) ChatGPT 面臨巨大競爭壓力,正在輸?shù)粝M(fèi)市場份額。今天的 GPT-5.2 正是 OpenAI 試圖奪回領(lǐng)導(dǎo)地位的關(guān)鍵一步。

同時,今天也是 OpenAI 官宣成立十周年的日子。

GPT-5.2 模型家族包括三個不同版本:Instant、Thinking 和 Pro。

Instant 是速度優(yōu)化版本,專門處理日常查詢,比如信息檢索、寫作和翻譯這類常規(guī)任務(wù)。

Thinking 則擅長復(fù)雜的結(jié)構(gòu)化工作,在編程、分析長文檔、數(shù)學(xué)計(jì)算和項(xiàng)目規(guī)劃方面表現(xiàn)突出。

Pro 則是頂級版本,旨在為最棘手的問題提供最高精度和可靠性。它的運(yùn)行速度顯著慢于其他版本,且成本極其高昂,專為那些準(zhǔn)確性高于一切、成本退居其次的重要任務(wù)設(shè)計(jì)。

測試數(shù)據(jù)表明,Pro 版本是唯一在 ARC-AGI-1 推理基準(zhǔn)測試中突破 90% 大關(guān),并在 AIME 2025 數(shù)學(xué)競賽中不使用工具就達(dá)到 100% 滿分的模型。

在 ChatGPT 中,GPT-5.2 的三個版本已經(jīng)上線,首先面向付費(fèi)用戶開放。OpenAI 表示將在未來幾天逐步部署 GPT-5.2,以保持 ChatGPT 盡可能流暢和可靠。

“我們設(shè)計(jì) GPT-5.2 就是為了給人們創(chuàng)造更多經(jīng)濟(jì)價(jià)值?!監(jiān)penAI 應(yīng)用業(yè)務(wù) CEO 菲吉·西莫(Fidji Simo)在發(fā)布會上表示。她強(qiáng)調(diào),新模型在創(chuàng)建電子表格、制作演示文稿、編寫代碼、圖像識別、理解長文本、使用工具以及處理復(fù)雜多步驟項(xiàng)目方面都有顯著提升。


(來源:OpenAI)

據(jù)其介紹,ChatGPT 企業(yè)版的普通用戶表示“AI 每天為他們節(jié)省 40-60 分鐘”,而重度用戶每周節(jié)省時間“超過十小時”。GPT-5.2 的目標(biāo)就是進(jìn)一步擴(kuò)大這種價(jià)值。

OpenAI 表示,GPT-5.2 在多項(xiàng)行業(yè)基準(zhǔn)測試中創(chuàng)下新紀(jì)錄。


圖 | 多項(xiàng)基準(zhǔn)測試成績(來源:OpenAI)

在涵蓋 40 多種職業(yè)專業(yè)知識的 GDPval 測試中,GPT-5.2 Thinking 的表現(xiàn)達(dá)到了專家級水平。根據(jù)專業(yè)評審的判斷,在 70.9% 的情況下,GPT-5.2 Thinking 擊敗或打平了頂級行業(yè)專業(yè)人士。這些任務(wù)包括制作演示文稿、電子表格和其他各類工作成果。

更重要的是,GPT-5.2 完成這些任務(wù)的速度是專業(yè)人士的 11 倍以上,成本卻不到 1%,不過 OpenAI 并未公布模型 VS 人類的成本是如何計(jì)算的。


(來源:OpenAI)

在軟件工程領(lǐng)域,GPT-5.2 Thinking 在 SWE-Bench Pro 測試中達(dá)到了 55.6% 的新高分。這個成績也是超過了 Claude 4.5 Sonnet 和 Gemini 3 Pro。在更基礎(chǔ)的 SWE-bench Verified 測試中,GPT-5.2 的得分更是達(dá)到了 80%。


(來源:資料圖)

OpenAI 研究主管艾丹·克拉克(Aidan Clark)解釋說,更強(qiáng)的數(shù)學(xué)能力不僅僅是解方程那么簡單。數(shù)學(xué)推理能力是衡量模型能否遵循多步驟邏輯、保持?jǐn)?shù)字長期一致性、避免可能隨時間累積的細(xì)微錯誤的代理指標(biāo)。

在科學(xué)問題方面,GPT-5.2 Pro 在 GPQA Diamond 測試中取得了 93.2% 成績。GPT-5.2 Thinking 也有 92.4% 的高分。雙雙打破了 Gemini 3 Pro 保持的紀(jì)錄。




圖 | GPQA Diamond 榜單(來源:OpenAI)

克拉克在發(fā)布會上分享了一個案例:團(tuán)隊(duì)讓一位資深免疫學(xué)研究員使用 GPT-5.2 Pro,當(dāng)研究員要求模型生成關(guān)于免疫系統(tǒng)最重要的未解問題時,模型產(chǎn)生了“更敏銳的問題和更有力的解釋”,用于說明這些問題為何重要。該研究員認(rèn)為其表現(xiàn)超過了“所有其他前沿模型”。

在可靠性方面,GPT-5.2 也取得了重要進(jìn)展。OpenAI 后訓(xùn)練負(fù)責(zé)人馬克斯·施瓦策(Max Schwarzer)指出,在衡量對事實(shí)性問題回答的基準(zhǔn)測試中,GPT-5.2 Thinking 的幻覺出現(xiàn)率比 GPT-5.1 降低了 38%。


(來源:OpenAI)

長文本理解方面,GPT-5.2 Thinking 同樣創(chuàng)下了新紀(jì)錄。OpenAI 采用 MRCRv2 評估來衡量模型整合分散在長文檔中信息的能力。

處理需要跨越數(shù)十萬 token 相關(guān)信息的真實(shí)任務(wù)時,GPT-5.2 Thinking 的準(zhǔn)確性遠(yuǎn)超 GPT-5.1 Thinking。它是第一個在四針 MRCRv2 測試中(最多 256k token)實(shí)現(xiàn)接近 100% 準(zhǔn)確率的模型。


(來源:OpenAI)

這意味著專業(yè)人士可以更放心地使用 GPT-5.2 處理長文檔,如報(bào)告、合同、研究論文、記錄和多文件項(xiàng)目,同時在數(shù)十萬 token 范圍內(nèi)保持連貫性和準(zhǔn)確性。

在視覺能力方面,GPT-5.2 Thinking 在圖表推理和軟件界面理解方面的準(zhǔn)確率提升近 50%。這意味著模型可以更準(zhǔn)確地解讀儀表板、產(chǎn)品截圖、技術(shù)圖表和可視化報(bào)告,支持更加依賴視覺信息的工作流。

相比之前的模型,GPT-5.2 Thinking 對圖像中元素位置的把握更強(qiáng)。例如,在識別主板圖像中的組件并返回大致邊界框的任務(wù)中,即使在低質(zhì)量圖像上,GPT-5.2 也能識別主要區(qū)域并放置與每個組件真實(shí)位置有時匹配的框,而 GPT-5.1 只能標(biāo)記少數(shù)部分,對空間排列的理解要弱得多。


(來源:OpenAI)

值得一提的是,OpenAI 的新圖像生成工具仍然缺位。據(jù)報(bào)道,奧特曼曾在內(nèi)部紅色警報(bào)備忘錄中表示,圖像生成將是未來的重點(diǎn),特別是在谷歌的新版 Nano Banana 發(fā)布之后。

據(jù)報(bào)道,OpenAI 計(jì)劃在明年一月發(fā)布另一款新模型,具有更好的圖像效果、更快的速度和更好的個性,但尚未得到官方確認(rèn)。

最后在發(fā)布會上,OpenAI 承認(rèn)在某些方面還有改進(jìn)空間。比如在 ChatGPT 中,公司正在努力解決過度拒絕等已知問題,同時繼續(xù)提高回復(fù)的可靠性。此外,OpenAI 據(jù)傳正在考慮開放模型成人內(nèi)容限制。

對于 OpenAI 來說,GPT-5.2 能否幫助它重新奪回失去的領(lǐng)地,還需要時間來證明。

參考資料:

https://openai.com/index/introducing-gpt-5-2/

https://www.theverge.com/ai-artificial-intelligence/842529/openai-gpt-5-2-new-model-chatgpt

https://techcrunch.com/2025/12/11/openai-fires-back-at-google-with-gpt-5-2-after-code-red-memo/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為了美國綠卡我和69歲白人大媽結(jié)婚,誰知領(lǐng)證后大媽說:綠卡給你

為了美國綠卡我和69歲白人大媽結(jié)婚,誰知領(lǐng)證后大媽說:綠卡給你

雅俗共賞1
2026-01-08 16:56:42
大家做好準(zhǔn)備!明年起,六七十歲的老人或?qū)⒚媾R“三個現(xiàn)實(shí)問題”

大家做好準(zhǔn)備!明年起,六七十歲的老人或?qū)⒚媾R“三個現(xiàn)實(shí)問題”

云舟史策
2026-01-08 16:33:18
《家庭的覺醒》:一個家要往上走,最靠譜的20條建議

《家庭的覺醒》:一個家要往上走,最靠譜的20條建議

洞見
2026-01-08 21:27:06
爆笑經(jīng)典妹子糗事冷笑話,一天半夜我被敲門聲吵醒睡在旁邊的妹子踢我一腳說:快去看看是誰我一臉茫然!

爆笑經(jīng)典妹子糗事冷笑話,一天半夜我被敲門聲吵醒睡在旁邊的妹子踢我一腳說:快去看看是誰我一臉茫然!

天天明星
2026-01-08 12:27:21
馬丁內(nèi)利:我給布拉德利發(fā)信息道歉了,當(dāng)時不知道他嚴(yán)重受傷

馬丁內(nèi)利:我給布拉德利發(fā)信息道歉了,當(dāng)時不知道他嚴(yán)重受傷

懂球帝
2026-01-09 08:52:06
最近,美國連續(xù)扣押多艘中國商船,中國是如何反擊的?

最近,美國連續(xù)扣押多艘中國商船,中國是如何反擊的?

阿胡
2025-12-23 17:56:32
美國這次過了火,特朗普生怕夜長夢多,暗示中國訪華大事不能再拖

美國這次過了火,特朗普生怕夜長夢多,暗示中國訪華大事不能再拖

胡麒牧博士
2026-01-08 19:25:03
普京被騙了?特朗普突然變臉,美國緊急從俄撤僑,九國或向?yàn)跖杀?>
    </a>
        <h3>
      <a href=墨蘭史書
2026-01-08 19:35:02
隨著日本5-0,澳大利亞2-1,國足0-0,U23亞洲杯最新晉級形勢出爐

隨著日本5-0,澳大利亞2-1,國足0-0,U23亞洲杯最新晉級形勢出爐

侃球熊弟
2026-01-09 00:12:23
河北農(nóng)村老人,要怎么熬過這個寒冬呢?

河北農(nóng)村老人,要怎么熬過這個寒冬呢?

冰川思想庫
2026-01-07 11:53:56
A股:股民提前做好預(yù)期!A股關(guān)鍵時刻來臨,下周很可能這樣走

A股:股民提前做好預(yù)期!A股關(guān)鍵時刻來臨,下周很可能這樣走

財(cái)經(jīng)大拿
2026-01-09 13:46:08
家有這3生肖,2026鴻運(yùn)當(dāng)頭!即日起貴人不斷,財(cái)路四通八達(dá)

家有這3生肖,2026鴻運(yùn)當(dāng)頭!即日起貴人不斷,財(cái)路四通八達(dá)

毅談生肖
2026-01-09 11:05:17
一省級農(nóng)商行董事長擬提名市長候選人,曾為該行首任行長

一省級農(nóng)商行董事長擬提名市長候選人,曾為該行首任行長

湘財(cái)Plus
2026-01-08 18:03:07
美議員公然叫囂 “東大無法保護(hù)你們” 引發(fā)眾怒!

美議員公然叫囂 “東大無法保護(hù)你們” 引發(fā)眾怒!

磊子講史
2026-01-08 10:51:37
張雨綺穿吊帶看著骨架有點(diǎn)大哦!這大體格誰看了不喜歡?

張雨綺穿吊帶看著骨架有點(diǎn)大哦!這大體格誰看了不喜歡?

草莓解說體育
2025-12-21 00:52:27
她是國家一級演員,享正軍級待遇,離異后至今單身,67歲依然美麗

她是國家一級演員,享正軍級待遇,離異后至今單身,67歲依然美麗

老謝談史
2025-12-16 14:59:41
你是如何實(shí)現(xiàn)階層跨越的?網(wǎng)友: 撞了省領(lǐng)導(dǎo)的車

你是如何實(shí)現(xiàn)階層跨越的?網(wǎng)友: 撞了省領(lǐng)導(dǎo)的車

另子維愛讀史
2026-01-08 22:00:25
打爆火箭二隊(duì)!國王二隊(duì)后場老將打出了一場現(xiàn)象級的表現(xiàn)?

打爆火箭二隊(duì)!國王二隊(duì)后場老將打出了一場現(xiàn)象級的表現(xiàn)?

稻谷與小麥
2026-01-09 13:50:37
國運(yùn)來了,中國探測出10萬億寶藏戰(zhàn)略價(jià)值

國運(yùn)來了,中國探測出10萬億寶藏戰(zhàn)略價(jià)值

趣文說娛
2026-01-08 18:27:26
大局已定!2026年天津?qū)⑷姹l(fā)!1386萬天津人的身價(jià)將暴漲!

大局已定!2026年天津?qū)⑷姹l(fā)!1386萬天津人的身價(jià)將暴漲!

天津人
2026-01-08 21:02:35
2026-01-09 14:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16099文章數(shù) 514464關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

52票贊成47票反對 特朗普怒了:對委動武或遭限制

頭條要聞

52票贊成47票反對 特朗普怒了:對委動武或遭限制

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

更智能更豪華 樂道L90加配置會貴多少?

態(tài)度原創(chuàng)

游戲
本地
數(shù)碼
時尚
公開課

《FF7re》導(dǎo)演回應(yīng)小游戲 遵循原作保留原味?

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

數(shù)碼要聞

雙屏5090真的來了!聊聊我在CES 2026看到的那些PC圈“瘋子”產(chǎn)品

這一次,抖音美妝讓36萬用戶來定義美

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版