国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI發(fā)布GPT-5.2與谷歌Gemini 3爭(zhēng)奪AI模型霸主地位

0
分享至


OpenAI發(fā)布了GPT-5.2,聲稱與11月發(fā)布的GPT-5.1相比,新模型在完成現(xiàn)實(shí)世界商業(yè)任務(wù)的能力方面取得了"專家級(jí)"的重大提升。

新模型提供了Instant、Thinking和Pro三種性能等級(jí),公司表示在各項(xiàng)基準(zhǔn)測(cè)試中都有重大改進(jìn)。

使用OpenAI的GDPval基準(zhǔn)測(cè)試(該基準(zhǔn)測(cè)試將模型完成44項(xiàng)不同商業(yè)任務(wù)的能力與人類專家的標(biāo)準(zhǔn)進(jìn)行比較),GPT-5.2在70.9%的測(cè)試中達(dá)到或超過(guò)了人類用戶的水平,而GPT-5.1在Instant(基礎(chǔ)版)、Thinking(深度推理版)和Pro(研究級(jí))版本中的綜合表現(xiàn)僅為38.8%。

為了說(shuō)明這些進(jìn)步,OpenAI表示GPT-5.2 Thinking能夠完全格式化勞動(dòng)力規(guī)劃電子表格,而在GPT-5.1上,等效輸出能正確組裝相同的電子表格,但格式化程度更基礎(chǔ),缺少格式化功能。

OpenAI表示:"我們?cè)O(shè)計(jì)GPT-5.2是為了為用戶創(chuàng)造更多經(jīng)濟(jì)價(jià)值;它在創(chuàng)建電子表格、制作演示文稿、編寫(xiě)代碼、圖像識(shí)別、理解長(zhǎng)文本、使用工具以及處理復(fù)雜多步驟項(xiàng)目方面表現(xiàn)更佳。"

GPT-5.2還在其他重要基準(zhǔn)測(cè)試中表現(xiàn)出不同程度的提升,包括ARC-AGI-1/ARC-AGI-2(通用問(wèn)題解決)和SWE-Bench Pro/SWE-Bench Verified(現(xiàn)實(shí)世界軟件任務(wù))。

公司表示:"對(duì)于日常專業(yè)使用,這意味著該模型能夠更可靠地調(diào)試生產(chǎn)代碼,實(shí)施功能請(qǐng)求,重構(gòu)大型代碼庫(kù),并以較少的人工干預(yù)端到端地交付修復(fù)。"

GPT-5.2已開(kāi)始向ChatGPT用戶推出,首先面向付費(fèi)用戶。訂閱定價(jià)保持不變。對(duì)于API訪問(wèn),GPT-5.2的定價(jià)為每百萬(wàn)輸入Token 1.75美元,每百萬(wàn)輸出Token 14美元,緩存輸入享受90%折扣。盡管這比GPT-5.1更昂貴,但OpenAI聲稱該模型更高的效率意味著"由于GPT-5.2更高的Token效率,獲得特定質(zhì)量水平的成本實(shí)際上更便宜。"

對(duì)于OpenAI來(lái)說(shuō),新版本在上一版本之后如此快速的發(fā)布代表著其GPT-5模型開(kāi)發(fā)的重要加速。12月初,CEO山姆·阿爾特曼向OpenAI員工發(fā)送了"紅色警報(bào)"緊急備忘錄,警告如果不快速開(kāi)發(fā)GPT-5,公司有落后于谷歌日益強(qiáng)大的Gemini 3模型的風(fēng)險(xiǎn)。

此后,情況似乎已經(jīng)穩(wěn)定下來(lái),阿爾特曼本周對(duì)CNBC表示,Gemini的進(jìn)步?jīng)]有最初擔(dān)心的那么重大,紅色警報(bào)狀態(tài)將在1月結(jié)束。然而,網(wǎng)絡(luò)公告中一個(gè)明顯的遺漏是沒(méi)有對(duì)GPT-5.2的性能與Gemini 3進(jìn)行任何比較。據(jù)報(bào)道,單獨(dú)的新聞發(fā)布會(huì)僅提供了有限的比較。

西門子首席AI分析師Maria Sukhareva對(duì)OpenAI對(duì)基準(zhǔn)測(cè)試的使用提出了更普遍的質(zhì)疑。她指出:"它(GPT-5.2)聲稱擊敗了GDPVal,但這是OpenAI為OpenAI開(kāi)發(fā)的基準(zhǔn)測(cè)試。從技術(shù)上講,OpenAI沒(méi)有障礙可以針對(duì)這44個(gè)任務(wù)對(duì)其模型進(jìn)行微調(diào),而在其他方面完全失敗。"

她認(rèn)為:"本質(zhì)上,GPT-5.2報(bào)告的數(shù)字是毫無(wú)意義的,因?yàn)闊o(wú)法看到他們用什么數(shù)據(jù)訓(xùn)練模型。GPT-5.2受到與之前模型相同的所有問(wèn)題的困擾。"Sukhareva對(duì)GPT-5.2基準(zhǔn)測(cè)試的深入分析可以在她的Substack上找到。

電商平臺(tái)Sell The Trend的CEO Rachid 'Rush' Wehbi在現(xiàn)實(shí)世界條件下測(cè)試了GPT-5.2。他說(shuō):"GPT-5.2在保持思路連貫性方面做得更好,能夠持續(xù)更長(zhǎng)時(shí)間,當(dāng)你投入一些分層上下文時(shí)不會(huì)崩潰。對(duì)于公司來(lái)說(shuō),這比在一些可能無(wú)關(guān)緊要的基準(zhǔn)測(cè)試上取得微小改進(jìn)要重要得多。"

"基準(zhǔn)測(cè)試可以顯示你取得了某種進(jìn)步,但它們不能告訴你你的模型是否真的能在現(xiàn)實(shí)世界中站得住腳。GPT-5.2是一個(gè)進(jìn)步,但企業(yè)AI仍然在發(fā)展過(guò)程中。"

據(jù)AI素養(yǎng)公司Human Voice Media創(chuàng)始人Bob Hutchins表示,"到目前為止,企業(yè)對(duì)AI的大部分挫敗感來(lái)自最后20%——格式化、約束、交接。GPT-5.2在這方面顯示了進(jìn)步。"他對(duì)企業(yè)的建議是,"忽略發(fā)布噪音,進(jìn)行有紀(jì)律的試用。GPT-5.2是有意義的一步。它沒(méi)有縮小承諾與實(shí)踐之間的差距,而是縮小了差距。"

例如,智能體AI公司Vectara的幻覺(jué)評(píng)估模型的基準(zhǔn)測(cè)試發(fā)現(xiàn),雖然GPT-5.2在這方面有所改進(jìn),但仍然落后于一些競(jìng)爭(zhēng)對(duì)手。

Vectara開(kāi)發(fā)者關(guān)系負(fù)責(zé)人Ofer Mendelevitch評(píng)論說(shuō):"OpenAI在改善幻覺(jué)表現(xiàn)方面仍有一段路要走。GPT-5.2-low-thinking是迄今為止GPT系列中最好的,在我們的排行榜上排名第33位,幻覺(jué)率為8.4%。然而,ChatGPT 5.2明顯落后于DeepSeek V3.2,后者排名第23位,幻覺(jué)率為6.3%。作為比較,Gemini 3在我們測(cè)試中的基礎(chǔ)幻覺(jué)率為13.6%,Grok 4.1為17.8%。"

Q&A

Q1:GPT-5.2相比GPT-5.1有什么主要改進(jìn)?

A:GPT-5.2在完成現(xiàn)實(shí)世界商業(yè)任務(wù)方面取得重大提升,在GDPval基準(zhǔn)測(cè)試中70.9%的測(cè)試達(dá)到或超過(guò)人類專家水平,而GPT-5.1僅為38.8%。新模型在創(chuàng)建電子表格、制作演示文稿、編寫(xiě)代碼、圖像識(shí)別、理解長(zhǎng)文本等方面表現(xiàn)更佳。

Q2:GPT-5.2的定價(jià)如何,是否比GPT-5.1貴?

A:GPT-5.2 API訪問(wèn)定價(jià)為每百萬(wàn)輸入Token 1.75美元,每百萬(wàn)輸出Token 14美元,比GPT-5.1更昂貴。但OpenAI聲稱由于新模型更高的Token效率,獲得特定質(zhì)量水平的實(shí)際成本更便宜。ChatGPT訂閱價(jià)格保持不變。

Q3:業(yè)界專家如何評(píng)價(jià)GPT-5.2的實(shí)際表現(xiàn)?

A:專家意見(jiàn)不一。有人認(rèn)為GPT-5.2在保持思路連貫性和處理分層上下文方面有實(shí)質(zhì)改進(jìn),對(duì)企業(yè)更有價(jià)值。但也有專家質(zhì)疑基準(zhǔn)測(cè)試的有效性,認(rèn)為模型仍存在幻覺(jué)等問(wèn)題,企業(yè)AI仍在發(fā)展過(guò)程中。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
瓦良格號(hào)送到中國(guó)后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

瓦良格號(hào)送到中國(guó)后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

古書(shū)記史
2026-01-06 16:31:56
針對(duì)我國(guó)對(duì)日本斷供稀土等,日本輿論炸鍋,日本當(dāng)局回應(yīng)讓人氣憤

針對(duì)我國(guó)對(duì)日本斷供稀土等,日本輿論炸鍋,日本當(dāng)局回應(yīng)讓人氣憤

時(shí)時(shí)有聊
2026-01-07 09:58:43
中國(guó)研究人員發(fā)現(xiàn),清理霧霾的行動(dòng)或?qū)е掳拇罄麃啔夂蜃兊酶鼰岣稍?>
    </a>
        <h3>
      <a href=風(fēng)向觀察
2026-01-07 16:03:01
漲瘋了!一盒100根,價(jià)值400萬(wàn)元,堪比上海一套房,龍頭股狂飆

漲瘋了!一盒100根,價(jià)值400萬(wàn)元,堪比上海一套房,龍頭股狂飆

每日經(jīng)濟(jì)新聞
2026-01-07 13:59:07
1月7日俄烏最新:川普爆出的驚天大瓜

1月7日俄烏最新:川普爆出的驚天大瓜

西樓飲月
2026-01-07 20:12:35
日本芯片材料制造商寧背債務(wù)不漲售價(jià),總裁:漲價(jià)是對(duì)客戶的背叛

日本芯片材料制造商寧背債務(wù)不漲售價(jià),總裁:漲價(jià)是對(duì)客戶的背叛

風(fēng)向觀察
2026-01-07 13:37:16
專家臉被打腫!2025年油車銷量逆勢(shì)暴漲,車主:終于明白了!

專家臉被打腫!2025年油車銷量逆勢(shì)暴漲,車主:終于明白了!

老特有話說(shuō)
2026-01-07 00:30:03
美聯(lián)儲(chǔ),降息大消息!100個(gè)基點(diǎn)?

美聯(lián)儲(chǔ),降息大消息!100個(gè)基點(diǎn)?

魏家東
2026-01-07 14:25:47
18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽(yù)處決。

18歲伊斯蘭少女直播拒戴頭巾,被冷血父親榮譽(yù)處決。

環(huán)球趣聞分享
2026-01-07 13:30:09
格局打開(kāi)了!廣汽埃安承諾,向永州足球勝利的隊(duì)員一人提供一臺(tái)車

格局打開(kāi)了!廣汽埃安承諾,向永州足球勝利的隊(duì)員一人提供一臺(tái)車

火山詩(shī)話
2026-01-07 07:06:30
小米股價(jià)持續(xù)下跌,不少股民吐槽虧損嚴(yán)重

小米股價(jià)持續(xù)下跌,不少股民吐槽虧損嚴(yán)重

映射生活的身影
2026-01-07 16:47:32
宜家中國(guó)官宣關(guān)閉7家商場(chǎng):2月2日起停止運(yùn)營(yíng)上海寶山、廣州番禺等7家商場(chǎng)

宜家中國(guó)官宣關(guān)閉7家商場(chǎng):2月2日起停止運(yùn)營(yíng)上海寶山、廣州番禺等7家商場(chǎng)

環(huán)球網(wǎng)資訊
2026-01-07 12:33:15
男子聽(tīng)信“偏方”將5厘米的水蛭塞進(jìn)尿道,水蛭順著尿道向內(nèi)爬行“安家”膀胱,開(kāi)始瘋狂吸血釋放抗凝血物質(zhì)

男子聽(tīng)信“偏方”將5厘米的水蛭塞進(jìn)尿道,水蛭順著尿道向內(nèi)爬行“安家”膀胱,開(kāi)始瘋狂吸血釋放抗凝血物質(zhì)

觀威海
2026-01-07 09:22:09
韓國(guó)總統(tǒng)李在明稱“限韓令”問(wèn)題將有序、緩和地解決!

韓國(guó)總統(tǒng)李在明稱“限韓令”問(wèn)題將有序、緩和地解決!

奮斗在韓國(guó)
2026-01-07 19:42:09
5-0!U23亞洲杯首場(chǎng)慘案,日本以小打大仍狂勝,中國(guó)隊(duì)沖首個(gè)八強(qiáng)

5-0!U23亞洲杯首場(chǎng)慘案,日本以小打大仍狂勝,中國(guó)隊(duì)沖首個(gè)八強(qiáng)

侃球熊弟
2026-01-07 21:26:10
大陸出重拳,將清算賴清德心腹三人,打懵賴清德,民進(jìn)黨氣極了

大陸出重拳,將清算賴清德心腹三人,打懵賴清德,民進(jìn)黨氣極了

DS北風(fēng)
2026-01-07 13:22:14
中方發(fā)布2號(hào)公告,斷高市光刻膠后路,日媒:當(dāng)眾問(wèn)中國(guó)一個(gè)問(wèn)題

中方發(fā)布2號(hào)公告,斷高市光刻膠后路,日媒:當(dāng)眾問(wèn)中國(guó)一個(gè)問(wèn)題

知法而形
2026-01-07 16:52:08
伊朗安全部隊(duì)放下武器加入抗議,哈梅內(nèi)伊倒計(jì)時(shí)開(kāi)始

伊朗安全部隊(duì)放下武器加入抗議,哈梅內(nèi)伊倒計(jì)時(shí)開(kāi)始

移光幻影
2026-01-07 15:18:07
中方是否計(jì)劃采取行動(dòng)幫助馬杜羅夫婦獲釋?外交部回應(yīng)

中方是否計(jì)劃采取行動(dòng)幫助馬杜羅夫婦獲釋?外交部回應(yīng)

新京報(bào)政事兒
2026-01-07 15:41:25
存儲(chǔ)徹底爆了!閃迪,半年十倍!A股存儲(chǔ)概念圖都傳包漿了...

存儲(chǔ)徹底爆了!閃迪,半年十倍!A股存儲(chǔ)概念圖都傳包漿了...

金石隨筆
2026-01-07 00:09:20
2026-01-08 01:51:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
15316文章數(shù) 49683關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會(huì):揭秘新款大殺器

頭條要聞

美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

頭條要聞

美軍扣押俄潛艇護(hù)航的油輪 俄羅斯外交部回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德?tīng)?zhēng)英超金靴

娛樂(lè)要聞

《馬背搖籃》首播,革命的樂(lè)觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無(wú)需過(guò)度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

家居
數(shù)碼
旅游
房產(chǎn)
公開(kāi)課

家居要聞

寧?kù)o不單調(diào) 恰到好處的美

數(shù)碼要聞

技嘉Z890主板適配英特爾新處理器,還展示256GB內(nèi)存!

旅游要聞

嗨到凌晨3點(diǎn)!仙游一網(wǎng)紅夜市即將啟用!0成本即可當(dāng)老板...

房產(chǎn)要聞

最新!海口二手房,漲價(jià)房源突然猛增30%

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版