国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI最強(qiáng)編程模型登場(chǎng),實(shí)測(cè)竟又被Gemini 3 Flash按趴下

0
分享至


智東西
編譯 王欣逸
編輯 程茜

智東西12月19日消息,今日凌晨,OpenAI發(fā)布最新編程模型GPT-5.2-Codex,該模型基于GPT-5.2,對(duì)智能體編程能力進(jìn)行了深度優(yōu)化,具體包括:提升了長(zhǎng)程任務(wù)執(zhí)行、大規(guī)模代碼變更、兼容Windows環(huán)境以及網(wǎng)絡(luò)安全防御等能力。OpenAI在博客中稱這是他們迄今為止最強(qiáng)的編程模型。


據(jù)OpenAI官方博客,GPT?5.2-Codex不僅繼承了GPT?5.2?的優(yōu)勢(shì),還融合了GPT?5.1-Codex-Max?的前沿智能體編程與終端操作能力,專為復(fù)雜的現(xiàn)實(shí)軟件工程和網(wǎng)絡(luò)安全等專業(yè)領(lǐng)域設(shè)計(jì),

OpenAI已率先在Codex CLI、IDE擴(kuò)展、云端以及代碼審查中發(fā)布了GPT?5.2-Codex,今日起已向所有付費(fèi)ChatGPT用戶開(kāi)放,API訪問(wèn)也即將上線。

值得一提的是,GPT?5.2-Codex發(fā)布之前,谷歌剛宣布推出Gemini 3 Flash模型。有網(wǎng)友讓GPT?5.2-Codex的Gemini 3 Flash共同執(zhí)行任務(wù),結(jié)果,GPT?5.2-Codex敗下陣來(lái),在對(duì)50個(gè)文件進(jìn)行漏洞審查的任務(wù)中,Gemini 3 Flash用時(shí)1分2秒,發(fā)現(xiàn)了5個(gè)問(wèn)題,而GPT-5.2-Codex用時(shí)4分48秒,僅發(fā)現(xiàn)了2個(gè)Gemini 3 Flash已找到的問(wèn)題。


GPT?5.2-Codex的性能可能不及預(yù)期。有網(wǎng)友稱,GPT?5.2-Codex在SWE-Bench Pro上性能提升不到1%,還沒(méi)有發(fā)布SWE-Bench Verified結(jié)果,這不免讓人推測(cè)GPT?5.2-Codex并未達(dá)當(dāng)前最優(yōu)水平,在一些系統(tǒng)卡基準(zhǔn)測(cè)試中還出現(xiàn)了性能退步。


據(jù)OpenAI官方博客,從功能上看,GPT?5.2-Codex新增了原生上下文壓縮技術(shù),在長(zhǎng)上下文理解、工具調(diào)用、事實(shí)準(zhǔn)確性以及原生的上下文壓縮上表現(xiàn)提升,推理時(shí)Token使用效率提升,還能更精準(zhǔn)地理解在編碼過(guò)程中共享的截圖、技術(shù)圖表、數(shù)據(jù)圖以及用戶界面。在原生Windows環(huán)境中,GPT?5.2-Codex對(duì)GPT?5.1-Codex-Max的能力做了進(jìn)一步的升級(jí),智能體編程表現(xiàn)更加高效和可靠。

GPT?5.2-Codex在實(shí)際軟件工程任務(wù)中的表現(xiàn)有所提升,包括了代碼庫(kù)導(dǎo)航、重構(gòu)、Pull Request的創(chuàng)建與審查等方面。

從基準(zhǔn)測(cè)試來(lái)看,GPT?5.2-Codex在評(píng)估修復(fù)真實(shí)世界代碼問(wèn)題的SWE-Bench Pro基準(zhǔn)測(cè)試中得分為56.4%,超越GPT-5.2的55.6%得分以及GPT-5.1的50.8%得分;在衡量編譯和服務(wù)器配置等任務(wù)的Terminal-Bench 2.0基準(zhǔn)測(cè)試中,GPT?5.2-Codex得分為64.0%,顯著領(lǐng)先前代版本GPT?5.1-Codex-Max的58.1%,展示出了模型在使用命令行和終端解決代理任務(wù)的進(jìn)步。


據(jù)OpenAI官方博客,在網(wǎng)絡(luò)安全領(lǐng)域,GPT?5.2-Codex在奪旗挑戰(zhàn)(CTF)中創(chuàng)下所有模型的最佳紀(jì)錄。從折線軌跡來(lái)看,我們也能得出,就網(wǎng)絡(luò)安全評(píng)估,OpenAI的模型能力正在持續(xù)提升。OpenAI博客稱,他們正在全面升級(jí)網(wǎng)絡(luò)安全防護(hù),還引入可信訪問(wèn)機(jī)制來(lái)支持防御工作。


OpenAI首席執(zhí)行官薩姆·阿爾特曼(Sam Altman)稱,上周,一位安全研究人員利用GPT?5.1-Codex-Max發(fā)現(xiàn)并披露了React中的一個(gè)漏洞,該漏洞可能導(dǎo)致源代碼泄漏。這反映出了模型能力應(yīng)用于網(wǎng)絡(luò)安全帶來(lái)的實(shí)際價(jià)值。阿爾特曼還提到,這些模型還在不斷改進(jìn)中,最終會(huì)給網(wǎng)絡(luò)安全帶來(lái)益處。


結(jié)語(yǔ):AI編程工具競(jìng)爭(zhēng)加劇

GPT-5.2-Codex是OpenAI在編程模型上的又一次迭代,通過(guò)提升長(zhǎng)程任務(wù)處理、大規(guī)模代碼變更和特定環(huán)境表現(xiàn),它為復(fù)雜開(kāi)發(fā)與安全研究提供了更強(qiáng)大的支持,有望成為發(fā)現(xiàn)和修復(fù)漏洞的有力工具。

在OpenAI本次更新之前,谷歌同日也發(fā)布了低成本的Gemini 3 Flash模型,AI編程賽道競(jìng)爭(zhēng)持續(xù)激烈。就目前來(lái)看,號(hào)稱OpenAI最強(qiáng)編程模型的GPT-5.2-Codex在現(xiàn)實(shí)場(chǎng)景中的實(shí)際效能、與競(jìng)爭(zhēng)對(duì)手產(chǎn)品的比較表現(xiàn)或許不及預(yù)期,該模型的實(shí)際應(yīng)用效果和性能檢驗(yàn)或?qū)⒊蔀榻酉聛?lái)的焦點(diǎn)。

來(lái)源:OpenAI、X

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4300萬(wàn)粉絲網(wǎng)紅劉二狗賬號(hào)被封

4300萬(wàn)粉絲網(wǎng)紅劉二狗賬號(hào)被封

三言科技
2025-12-18 08:48:13
細(xì)思極恐!南京全城導(dǎo)航集體失靈,揭開(kāi)高德、百度地圖背后的真相

細(xì)思極恐!南京全城導(dǎo)航集體失靈,揭開(kāi)高德、百度地圖背后的真相

火山詩(shī)話
2025-12-19 06:18:20
海南封關(guān)首日太瘋狂!1.5噸馬來(lái)西亞榴蓮1小時(shí)搶空,價(jià)格直降一半

海南封關(guān)首日太瘋狂!1.5噸馬來(lái)西亞榴蓮1小時(shí)搶空,價(jià)格直降一半

娛樂(lè)的硬糖吖
2025-12-19 04:21:18
阿里媽媽發(fā)布MUSE:搞定十萬(wàn)級(jí)超長(zhǎng)行為序列,開(kāi)源Taobao-MM數(shù)據(jù)集

阿里媽媽發(fā)布MUSE:搞定十萬(wàn)級(jí)超長(zhǎng)行為序列,開(kāi)源Taobao-MM數(shù)據(jù)集

機(jī)器之心Pro
2025-12-16 13:07:56
海南封關(guān),新加坡的沉默震耳欲聾!

海南封關(guān),新加坡的沉默震耳欲聾!

環(huán)球策論
2025-12-18 22:39:23
中亞五國(guó)赴日會(huì)議,只有托卡耶夫現(xiàn)身,背后隱藏什么秘密?

中亞五國(guó)赴日會(huì)議,只有托卡耶夫現(xiàn)身,背后隱藏什么秘密?

時(shí)時(shí)有聊
2025-12-19 07:17:26
清朝垮臺(tái)時(shí),各地不許漢人進(jìn)入的滿城都是什么下場(chǎng)

清朝垮臺(tái)時(shí),各地不許漢人進(jìn)入的滿城都是什么下場(chǎng)

掠影后有感
2025-12-18 10:08:33
悶聲不響,卻殺成全國(guó)最狠?山東的實(shí)力,比你以為的可怕多了

悶聲不響,卻殺成全國(guó)最狠?山東的實(shí)力,比你以為的可怕多了

青眼財(cái)經(jīng)
2025-12-19 14:43:45
美術(shù)館回應(yīng)“4斤黃金鳳冠損毀”:張先生本人將卡槽式保護(hù)罩換成亞克力防塵罩;事件發(fā)生后“張凱毅”已掉粉超46萬(wàn)

美術(shù)館回應(yīng)“4斤黃金鳳冠損毀”:張先生本人將卡槽式保護(hù)罩換成亞克力防塵罩;事件發(fā)生后“張凱毅”已掉粉超46萬(wàn)

揚(yáng)子晚報(bào)
2025-12-19 12:21:59
社評(píng):中國(guó)科技進(jìn)步,路透社本不必焦慮

社評(píng):中國(guó)科技進(jìn)步,路透社本不必焦慮

環(huán)球網(wǎng)資訊
2025-12-19 00:45:05
輕松愉快,約基奇砍第136次20+得分三雙,超越威少升歷史第二

輕松愉快,約基奇砍第136次20+得分三雙,超越威少升歷史第二

懂球帝
2025-12-19 14:05:10
火箭爆冷遭鵜鶘25分加時(shí)逆轉(zhuǎn) 杜蘭特32+7+4帽申京28+11+8

火箭爆冷遭鵜鶘25分加時(shí)逆轉(zhuǎn) 杜蘭特32+7+4帽申京28+11+8

醉臥浮生
2025-12-19 11:51:23
塔吊距樓18米、安全出口減半……中央安全生產(chǎn)考核巡查組明察暗訪細(xì)節(jié)披露

塔吊距樓18米、安全出口減半……中央安全生產(chǎn)考核巡查組明察暗訪細(xì)節(jié)披露

環(huán)球網(wǎng)資訊
2025-12-15 14:55:13
鄭麗文宣戰(zhàn)賴清德,蔣萬(wàn)安果斷站隊(duì),朱立倫回應(yīng),藍(lán)營(yíng)一人跳反

鄭麗文宣戰(zhàn)賴清德,蔣萬(wàn)安果斷站隊(duì),朱立倫回應(yīng),藍(lán)營(yíng)一人跳反

博覽歷史
2025-12-18 18:21:05
54歲陳松伶減重27斤,皮松臉黑括號(hào)紋很深,和老公站一起像兩代人

54歲陳松伶減重27斤,皮松臉黑括號(hào)紋很深,和老公站一起像兩代人

娛圈小愚
2025-12-19 10:03:35
“日入過(guò)萬(wàn)”的16歲深圳燒雞少年壓力來(lái)了!稱每天到手只有1000多

“日入過(guò)萬(wàn)”的16歲深圳燒雞少年壓力來(lái)了!稱每天到手只有1000多

火山詩(shī)話
2025-12-19 11:47:47
女教師咒罵全班得甲流:身份曝光,有編制不怕,停職后報(bào)復(fù)舉報(bào)者

女教師咒罵全班得甲流:身份曝光,有編制不怕,停職后報(bào)復(fù)舉報(bào)者

何慕白
2025-12-18 15:23:30
“贗品”《江南春》,為何能被神秘“顧客”以6800元買走?

“贗品”《江南春》,為何能被神秘“顧客”以6800元買走?

木蹊說(shuō)
2025-12-19 14:07:19
下一代中國(guó)頂級(jí)企業(yè),誕生在數(shù)字文明大航海

下一代中國(guó)頂級(jí)企業(yè),誕生在數(shù)字文明大航海

巨潮WAVE
2025-12-18 13:54:22
8800萬(wàn)的“偽作”:虛齋“仇英《江南春》卷”事件時(shí)間線1953-2025及原院長(zhǎng)姚遷自殺始末

8800萬(wàn)的“偽作”:虛齋“仇英《江南春》卷”事件時(shí)間線1953-2025及原院長(zhǎng)姚遷自殺始末

瑪麗姬絲
2025-12-19 11:19:18
2025-12-19 15:52:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10939文章數(shù) 116929關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

剎車失靈時(shí)速115飆490公里司機(jī):下車后渾身抖無(wú)法說(shuō)話

頭條要聞

剎車失靈時(shí)速115飆490公里司機(jī):下車后渾身抖無(wú)法說(shuō)話

體育要聞

沒(méi)有塔圖姆,還有塔禿姆

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

游戲
本地
藝術(shù)
家居
公開(kāi)課

《噬血代碼2》PC配置需求公開(kāi) 推薦RTX 3080游玩

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

藝術(shù)要聞

諸樂(lè)三的寫意花鳥(niǎo)

家居要聞

高端私宅 理想隱居圣地

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版