国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 4.6和GPT 5.3 Codex同時(shí)更新,這波貪了,應(yīng)該留到春晚再看的

0
分享至

AI圈迎來(lái)了新年的第一個(gè)雙響炮啊,

Anthropic剛發(fā)了Claude Opus 4.6,OpenAI也發(fā)了GPT?5.3-Codex,在Codex app里已經(jīng)能用了。我這稿子寫一半直接重新寫啊。馬上來(lái)看看這兩模型的評(píng)分,它們強(qiáng)化了那些點(diǎn),以及除了模型本身,還帶來(lái)了什么更新。

先看跑分。

Anthropic是第一次給Opus系列模型上100萬(wàn)tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測(cè)試?yán)?,比Sonnet 4.5高了57個(gè)點(diǎn),我第一反應(yīng)就是我一定要在clawdbot體驗(yàn)一把Opus 4.6。

除了記憶好,Opus 4.6在GDPval-AA(44個(gè)不同崗位的知識(shí)工作任務(wù))上也超了GPT5.2 200多分,感覺(jué)Cowork又可以升級(jí)一波了。


隔壁的GPT?5.3-Codex定位是個(gè)編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業(yè)知識(shí),速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺(jué)桌面操作)上提升了快30個(gè)點(diǎn),

夯爆了。


我仔細(xì)對(duì)比了一下兩張官方表,發(fā)現(xiàn)它們重合的數(shù)據(jù)集只有一個(gè),Terminal-Bench 2.0,是在終端命令行里進(jìn)行編程的測(cè)試。光看這個(gè)評(píng)分,GPT-5.3-Codex可以說(shuō)是把Claude Opus 4.6給拉爆了,高了12個(gè)點(diǎn)。

其他展示出來(lái)的數(shù)據(jù)不能直接拿來(lái)硬比,

SWE-Bench(Agent編程)數(shù)據(jù)集人OpenAI用的是Pro版本,包含了四種語(yǔ)言。Claude Opus 4.6測(cè)評(píng)的SWE-Bench Verified只測(cè)試Python。

OpenAI測(cè)試OSWorld-Verified比Claude Opus 4.6測(cè)的OSWorld測(cè)評(píng)出來(lái)的分?jǐn)?shù)會(huì)更加可信,因?yàn)閂erified修復(fù)了300多個(gè)數(shù)據(jù)問(wèn)題。

還是來(lái)看看它們單個(gè)都更新了啥,

Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個(gè)點(diǎn),在多學(xué)科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態(tài)下,比GPT5.2Pro多了3個(gè)點(diǎn)。



GPT-5.3-Codex有個(gè)指標(biāo)高到離譜,

OSWorld-Verified(視覺(jué)桌面操作),

用人話說(shuō)就是讓AI看截圖換成各種電腦任務(wù),人類基準(zhǔn)是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

融合這個(gè)兩個(gè)模型的優(yōu)勢(shì)的GPT-5.3-Codex直接干到64.7%,跟這個(gè)比起來(lái),其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬(wàn)挑戰(zhàn))的5,6個(gè)點(diǎn)的提升都是常規(guī)操作了。


再來(lái)看看應(yīng)用案例。

Anthropic這次都沒(méi)有放出Claude Opus 4.6跑的case,而且選擇把自家產(chǎn)品線更新了,

Claude Code新功能agent teams(智能體團(tuán)隊(duì)),可以讓多個(gè)Agent并行工作,適合用在像大規(guī)模代碼檢查之類可以被拆成很多個(gè)獨(dú)立子任務(wù)的場(chǎng)景。

Claude in Excel也更新了,更新了規(guī)劃模式,還能給亂七八糟的非結(jié)構(gòu)化數(shù)據(jù),自動(dòng)做一個(gè)合適的表格結(jié)構(gòu)。

還給PPT新出了 research preview,Claude能識(shí)別公司品牌的ppt模版,保證布局,字體,顏色都不會(huì)變,能針對(duì)單張幻燈片簡(jiǎn)化文本和添加圖表,也可以一次性生成10張幻燈片再微調(diào)。


OpenAI把更多時(shí)間放在showcase上,

他們放了兩個(gè)用GPT-5.3-Codex構(gòu)建的新游戲,但沒(méi)有像GPT-5.2-Codex那樣把完整提示語(yǔ)放出來(lái)。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

兩個(gè)游戲我都完整打了一把,這個(gè)賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

潛水我也玩了,本來(lái)是想當(dāng)個(gè)超人,一口氣潛到最底的,但是潛到一半就體驗(yàn)到為什么神秘園會(huì)說(shuō),那些專業(yè)人士潛進(jìn)去就出不來(lái)了。。。

他們還放出來(lái)一個(gè)我覺(jué)得很蠢的網(wǎng)頁(yè)case,理由是GPT-5.3-Codex做這個(gè)價(jià)格頁(yè)面的時(shí)候,會(huì)把年費(fèi)展示成打個(gè)折的月費(fèi),而不是總金額。。。

奧特曼沒(méi)活了可以去咬個(gè)打火機(jī)

關(guān)于API和定價(jià),Anthropic這次給API加了Adaptive thinking(自適應(yīng)思考),由Claude 來(lái)判斷什么時(shí)候打開(kāi)thinking模式。

還有四檔Effort(努力程度)可選,默認(rèn)是high(高),還有l(wèi)ow(低),medium(中)和max(最大)。

還有一個(gè)beta功能,當(dāng)長(zhǎng)期對(duì)話或者Agent任務(wù)快到打到上下文上限的時(shí)候,會(huì)自動(dòng)把上下文壓縮成摘要,用摘要替換上下文。價(jià)格我做成表格了,


GPT-5.3-Codex還沒(méi)有API,不過(guò)在app,CLI,IDE插件and網(wǎng)頁(yè)版都能用了,上線就全量,這很不openai。

說(shuō)句題外話,api形式的gpt4o一周后就沒(méi)了,這波屬于是時(shí)代的眼淚了。


最后說(shuō)說(shuō)安全。

這次兩家都花了不小的篇幅來(lái)談安全問(wèn)題。我們還是用人話來(lái)解讀一下。


Anthropic上來(lái)先亮了個(gè)圖,說(shuō)這次升級(jí)沒(méi)有影響我們模型的安全性,這段時(shí)間我們做了兩件事。

第一件事,努力搞清楚模型腦子里到底在想什么。

他們?cè)谧鲆环N可解釋性的新方法,目標(biāo)是讓研究人員能看見(jiàn)模型為什么會(huì)在某些情況下給出某種回答。這樣做的好處是,很多問(wèn)題在標(biāo)準(zhǔn)測(cè)評(píng)里不一定暴露,但當(dāng)你能追到原因,就更容易提前發(fā)現(xiàn)風(fēng)險(xiǎn),比如模型在某些邊緣場(chǎng)景會(huì)突然變得很會(huì)誤導(dǎo)人。

第二件事,在模型擅長(zhǎng)的領(lǐng)域加了更嚴(yán)的防護(hù)。

他們發(fā)現(xiàn) Opus 4.6 在網(wǎng)絡(luò)安全上能力更強(qiáng),能修bug,也能拿去攻擊。所以他們做了六個(gè)新的網(wǎng)絡(luò)安全探針,用來(lái)檢測(cè)模型有沒(méi)有在輸出可能被濫用的內(nèi)容。

隔壁OpenAI在安全上也下了苦功夫,

他們現(xiàn)在給開(kāi)源項(xiàng)目免費(fèi)做體驗(yàn),把一些熟悉的壞套路整理成話術(shù)識(shí)別規(guī)則,當(dāng)我們給gpt發(fā)的問(wèn)題跟某個(gè)套路很像的時(shí)候,模型就會(huì)自動(dòng)降低問(wèn)答的詳細(xì)程度。

這次模型更新后,

明顯感覺(jué)我的預(yù)期值變高了,以前更新模型我通常還會(huì)去測(cè)一下文本,代碼,3D的表現(xiàn),

但現(xiàn)在隨著Claude Code,Cowork,Clawdbot三連擊,我對(duì)于模型的表現(xiàn)處于薛定諤的貓狀態(tài)。

太簡(jiǎn)單的測(cè)起來(lái)沒(méi)意思,

我們現(xiàn)在用Claude Code加一些模型,

也能夠做到這樣的上限。

太復(fù)雜的,我想以Agent的形式,

放到我們已有的工作流里長(zhǎng)時(shí)間來(lái)評(píng)估它的差異。

說(shuō)不定后面模型的更新會(huì)成為一種日常的迭代,

發(fā)布會(huì)也不開(kāi)了,

開(kāi)始卷Agent形態(tài)了,

我就一個(gè)愿望,

別光跟整理桌面較勁了,

我桌面都快沒(méi)文件了。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點(diǎn)贊|在看|轉(zhuǎn)發(fā)|評(píng)論

如果想要第一時(shí)間收到推送,不妨給我個(gè)星標(biāo)

如果你有更有趣的玩法,歡迎在評(píng)論區(qū)和我聊聊

更多的內(nèi)容正在不斷填坑中……


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
男籃逆轉(zhuǎn)日本后遭當(dāng)頭一棒?韓國(guó)隊(duì)爆冷輸球:中國(guó)隊(duì)別以為穩(wěn)了?

男籃逆轉(zhuǎn)日本后遭當(dāng)頭一棒?韓國(guó)隊(duì)爆冷輸球:中國(guó)隊(duì)別以為穩(wěn)了?

籃球快餐車
2026-02-27 00:22:31
發(fā)布比賽結(jié)果帖子中措辭不妥,F(xiàn)IBA國(guó)際籃聯(lián)致歉

發(fā)布比賽結(jié)果帖子中措辭不妥,F(xiàn)IBA國(guó)際籃聯(lián)致歉

環(huán)球網(wǎng)資訊
2026-02-27 18:26:51
曾經(jīng)人山人海的株洲火車站,如今春運(yùn)期間,廣場(chǎng)上都看不到幾個(gè)人

曾經(jīng)人山人海的株洲火車站,如今春運(yùn)期間,廣場(chǎng)上都看不到幾個(gè)人

苗苗情感說(shuō)
2026-02-27 04:53:21
洗滌公司要求員工每天工作19小時(shí),離職扣1個(gè)月工資?公司:收的貨多沒(méi)辦法;勞動(dòng)監(jiān)察:將核實(shí)

洗滌公司要求員工每天工作19小時(shí),離職扣1個(gè)月工資?公司:收的貨多沒(méi)辦法;勞動(dòng)監(jiān)察:將核實(shí)

大風(fēng)新聞
2026-02-27 11:54:03
新加坡大滿貫賽:女單大爆冷!世界第4被淘汰,陳幸同3:0日本名將

新加坡大滿貫賽:女單大爆冷!世界第4被淘汰,陳幸同3:0日本名將

國(guó)乒二三事
2026-02-27 10:14:54
南京市檔案館查到谷愛(ài)凌外婆馮國(guó)珍的珍貴歷史檔案,確定其為南京戶籍

南京市檔案館查到谷愛(ài)凌外婆馮國(guó)珍的珍貴歷史檔案,確定其為南京戶籍

極目新聞
2026-02-27 10:42:46
曾叫板董明珠,老牌空調(diào)巨頭倒在春節(jié)前

曾叫板董明珠,老牌空調(diào)巨頭倒在春節(jié)前

螺旋實(shí)驗(yàn)室
2026-02-25 18:38:13
教育部:學(xué)生每天體育2小時(shí)、課間15分鐘已在全國(guó)所有省份部署推開(kāi)

教育部:學(xué)生每天體育2小時(shí)、課間15分鐘已在全國(guó)所有省份部署推開(kāi)

財(cái)聯(lián)社
2026-02-25 18:55:14
7億成本,《鏢人》虧損2億,吳京不服氣,一口氣立項(xiàng)了7部武俠片

7億成本,《鏢人》虧損2億,吳京不服氣,一口氣立項(xiàng)了7部武俠片

電影票房預(yù)告片
2026-02-26 23:39:18
冤家!曼城皇馬連續(xù)五年歐冠淘汰賽相遇,將迎第16、17次交鋒

冤家!曼城皇馬連續(xù)五年歐冠淘汰賽相遇,將迎第16、17次交鋒

懂球帝
2026-02-27 19:20:47
不留遺產(chǎn),拒絕見(jiàn)面,沒(méi)有微信,這一次,向華強(qiáng)撕碎了向佑的體面

不留遺產(chǎn),拒絕見(jiàn)面,沒(méi)有微信,這一次,向華強(qiáng)撕碎了向佑的體面

叨嘮
2026-02-26 22:49:36
請(qǐng)假2小時(shí)被開(kāi)除后續(xù):店主真容曝光社死,黑歷史被扒,已找律師

請(qǐng)假2小時(shí)被開(kāi)除后續(xù):店主真容曝光社死,黑歷史被扒,已找律師

離離言幾許
2026-02-26 16:16:45
北京賣豆汁大爺爆火,小伙質(zhì)疑里面摻糞,現(xiàn)場(chǎng)直接舉報(bào),當(dāng)場(chǎng)帶走

北京賣豆汁大爺爆火,小伙質(zhì)疑里面摻糞,現(xiàn)場(chǎng)直接舉報(bào),當(dāng)場(chǎng)帶走

離離言幾許
2026-02-26 16:20:55
誰(shuí)搶走了訂單?外企扎堆越南后才明白,“世界工廠”只是一場(chǎng)美夢(mèng)

誰(shuí)搶走了訂單?外企扎堆越南后才明白,“世界工廠”只是一場(chǎng)美夢(mèng)

百科密碼
2026-02-25 15:17:32
俄羅斯“居住服役”法令頒布華人蜂擁回國(guó),機(jī)票暴漲200%

俄羅斯“居住服役”法令頒布華人蜂擁回國(guó),機(jī)票暴漲200%

史政先鋒
2026-02-27 14:48:38
重磅!美國(guó)啟動(dòng)取消中國(guó)永久正常貿(mào)易待遇調(diào)查,關(guān)稅或大幅上漲

重磅!美國(guó)啟動(dòng)取消中國(guó)永久正常貿(mào)易待遇調(diào)查,關(guān)稅或大幅上漲

壹航運(yùn)
2026-02-27 14:50:10
1男4女五胞胎名字已取好 爸爸稱心情像過(guò)山車

1男4女五胞胎名字已取好 爸爸稱心情像過(guò)山車

封面新聞
2026-02-27 15:01:02
新加坡大滿貫賽:大爆冷!國(guó)乒世界冠軍蒯曼2:3不敵日本,無(wú)緣8強(qiáng)

新加坡大滿貫賽:大爆冷!國(guó)乒世界冠軍蒯曼2:3不敵日本,無(wú)緣8強(qiáng)

國(guó)乒二三事
2026-02-27 15:29:22
女孩被打后續(xù):村民發(fā)聲,打人夫妻更多信息被扒,最高可判10年

女孩被打后續(xù):村民發(fā)聲,打人夫妻更多信息被扒,最高可判10年

天天熱點(diǎn)見(jiàn)聞
2026-02-27 07:01:26
哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

一口娛樂(lè)
2026-02-27 12:42:23
2026-02-27 19:39:00
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬(wàn)人通過(guò)Al提高生產(chǎn)力
221文章數(shù) 101關(guān)注度
往期回顧 全部

科技要聞

單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

頭條要聞

世界經(jīng)濟(jì)論壇總裁辭職 曾私信愛(ài)潑斯坦稱對(duì)方"天才"

頭條要聞

世界經(jīng)濟(jì)論壇總裁辭職 曾私信愛(ài)潑斯坦稱對(duì)方"天才"

體育要聞

一場(chǎng)必須要贏的比賽,男籃何止擊敗了裁判

娛樂(lè)要聞

繼網(wǎng)暴谷愛(ài)凌后 美國(guó)欲沒(méi)收其全部收入

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

游戲
健康
教育
親子
軍事航空

微軟立大功!Xbox商店曝光《紅色沙漠》發(fā)售時(shí)間

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

教育要聞

最高學(xué)費(fèi)26萬(wàn)!2026濟(jì)南、青島私立學(xué)費(fèi)匯總!

親子要聞

萌娃報(bào)警要逮捕媽媽?得知真相的警察反應(yīng)太逗了

軍事要聞

美國(guó)11架F-22隱形戰(zhàn)機(jī)抵達(dá)以色列

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版