国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 4.6和GPT 5.3 Codex同時更新,這波貪了,應(yīng)該留到春晚再看的

0
分享至

AI圈迎來了新年的第一個雙響炮啊,

Anthropic剛發(fā)了Claude Opus 4.6,OpenAI也發(fā)了GPT?5.3-Codex,在Codex app里已經(jīng)能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評分,它們強化了那些點,以及除了模型本身,還帶來了什么更新。

先看跑分。

Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測試里,比Sonnet 4.5高了57個點,我第一反應(yīng)就是我一定要在clawdbot體驗一把Opus 4.6。

除了記憶好,Opus 4.6在GDPval-AA(44個不同崗位的知識工作任務(wù))上也超了GPT5.2 200多分,感覺Cowork又可以升級一波了。


隔壁的GPT?5.3-Codex定位是個編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業(yè)知識,速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺桌面操作)上提升了快30個點,

夯爆了。


我仔細對比了一下兩張官方表,發(fā)現(xiàn)它們重合的數(shù)據(jù)集只有一個,Terminal-Bench 2.0,是在終端命令行里進行編程的測試。光看這個評分,GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了,高了12個點。

其他展示出來的數(shù)據(jù)不能直接拿來硬比,

SWE-Bench(Agent編程)數(shù)據(jù)集人OpenAI用的是Pro版本,包含了四種語言。Claude Opus 4.6測評的SWE-Bench Verified只測試Python。

OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評出來的分數(shù)會更加可信,因為Verified修復了300多個數(shù)據(jù)問題。

還是來看看它們單個都更新了啥,

Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個點,在多學科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態(tài)下,比GPT5.2Pro多了3個點。



GPT-5.3-Codex有個指標高到離譜,

OSWorld-Verified(視覺桌面操作),

用人話說就是讓AI看截圖換成各種電腦任務(wù),人類基準是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

融合這個兩個模型的優(yōu)勢的GPT-5.3-Codex直接干到64.7%,跟這個比起來,其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬挑戰(zhàn))的5,6個點的提升都是常規(guī)操作了。


再來看看應(yīng)用案例。

Anthropic這次都沒有放出Claude Opus 4.6跑的case,而且選擇把自家產(chǎn)品線更新了,

Claude Code新功能agent teams(智能體團隊),可以讓多個Agent并行工作,適合用在像大規(guī)模代碼檢查之類可以被拆成很多個獨立子任務(wù)的場景。

Claude in Excel也更新了,更新了規(guī)劃模式,還能給亂七八糟的非結(jié)構(gòu)化數(shù)據(jù),自動做一個合適的表格結(jié)構(gòu)。

還給PPT新出了 research preview,Claude能識別公司品牌的ppt模版,保證布局,字體,顏色都不會變,能針對單張幻燈片簡化文本和添加圖表,也可以一次性生成10張幻燈片再微調(diào)。


OpenAI把更多時間放在showcase上,

他們放了兩個用GPT-5.3-Codex構(gòu)建的新游戲,但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

兩個游戲我都完整打了一把,這個賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

潛水我也玩了,本來是想當個超人,一口氣潛到最底的,但是潛到一半就體驗到為什么神秘園會說,那些專業(yè)人士潛進去就出不來了。。。

他們還放出來一個我覺得很蠢的網(wǎng)頁case,理由是GPT-5.3-Codex做這個價格頁面的時候,會把年費展示成打個折的月費,而不是總金額。。。

奧特曼沒活了可以去咬個打火機

關(guān)于API和定價,Anthropic這次給API加了Adaptive thinking(自適應(yīng)思考),由Claude 來判斷什么時候打開thinking模式。

還有四檔Effort(努力程度)可選,默認是high(高),還有l(wèi)ow(低),medium(中)和max(最大)。

還有一個beta功能,當長期對話或者Agent任務(wù)快到打到上下文上限的時候,會自動把上下文壓縮成摘要,用摘要替換上下文。價格我做成表格了,


GPT-5.3-Codex還沒有API,不過在app,CLI,IDE插件and網(wǎng)頁版都能用了,上線就全量,這很不openai。

說句題外話,api形式的gpt4o一周后就沒了,這波屬于是時代的眼淚了。


最后說說安全。

這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。


Anthropic上來先亮了個圖,說這次升級沒有影響我們模型的安全性,這段時間我們做了兩件事。

第一件事,努力搞清楚模型腦子里到底在想什么。

他們在做一種可解釋性的新方法,目標是讓研究人員能看見模型為什么會在某些情況下給出某種回答。這樣做的好處是,很多問題在標準測評里不一定暴露,但當你能追到原因,就更容易提前發(fā)現(xiàn)風險,比如模型在某些邊緣場景會突然變得很會誤導人。

第二件事,在模型擅長的領(lǐng)域加了更嚴的防護。

他們發(fā)現(xiàn) Opus 4.6 在網(wǎng)絡(luò)安全上能力更強,能修bug,也能拿去攻擊。所以他們做了六個新的網(wǎng)絡(luò)安全探針,用來檢測模型有沒有在輸出可能被濫用的內(nèi)容。

隔壁OpenAI在安全上也下了苦功夫,

他們現(xiàn)在給開源項目免費做體驗,把一些熟悉的壞套路整理成話術(shù)識別規(guī)則,當我們給gpt發(fā)的問題跟某個套路很像的時候,模型就會自動降低問答的詳細程度。

這次模型更新后,

明顯感覺我的預期值變高了,以前更新模型我通常還會去測一下文本,代碼,3D的表現(xiàn),

但現(xiàn)在隨著Claude Code,Cowork,Clawdbot三連擊,我對于模型的表現(xiàn)處于薛定諤的貓狀態(tài)。

太簡單的測起來沒意思,

我們現(xiàn)在用Claude Code加一些模型,

也能夠做到這樣的上限。

太復雜的,我想以Agent的形式,

放到我們已有的工作流里長時間來評估它的差異。

說不定后面模型的更新會成為一種日常的迭代,

發(fā)布會也不開了,

開始卷Agent形態(tài)了,

我就一個愿望,

別光跟整理桌面較勁了,

我桌面都快沒文件了。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉(zhuǎn)發(fā)|評論

如果想要第一時間收到推送,不妨給我個星標

如果你有更有趣的玩法,歡迎在評論區(qū)和我聊聊

更多的內(nèi)容正在不斷填坑中……


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本又在歷史傷口上公然撒鹽

日本又在歷史傷口上公然撒鹽

烽火瞭望者
2026-04-20 11:26:11
泰晤士:若拜仁愿滿足7500萬鎊要價,紐卡愿出售安東尼-戈登

泰晤士:若拜仁愿滿足7500萬鎊要價,紐卡愿出售安東尼-戈登

懂球帝
2026-04-21 03:06:04
悲。V東一96年女生開會時心梗猝死,網(wǎng)友稱她為20000月薪太拼

悲!廣東一96年女生開會時心梗猝死,網(wǎng)友稱她為20000月薪太拼

火山詩話
2026-04-19 09:35:22
77枚金牌不是萬能,國家隊不再原諒王濛,狂妄自大只會被拋棄

77枚金牌不是萬能,國家隊不再原諒王濛,狂妄自大只會被拋棄

牛牛叨史
2024-07-09 16:59:07
匈牙利新總理上任,第一把火燒向中國,對華稱呼改變,目的藏不住

匈牙利新總理上任,第一把火燒向中國,對華稱呼改變,目的藏不住

記得那片海辛
2026-04-19 15:15:17
目標中國,美軍越打伊朗越慌,增兵抓緊反華,關(guān)鍵時刻又收新噩耗

目標中國,美軍越打伊朗越慌,增兵抓緊反華,關(guān)鍵時刻又收新噩耗

諦聽骨語本尊
2026-04-20 17:00:06
大的要來了!穆杰塔巴擼掉伊朗革命衛(wèi)隊總司令,換了個不怕死的

大的要來了!穆杰塔巴擼掉伊朗革命衛(wèi)隊總司令,換了個不怕死的

杰絲聊古今
2026-04-11 19:07:34
霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲!比特幣巨震,超16萬人爆倉!

霍爾木茲海峽,突傳大消息!特朗普,最新發(fā)聲!比特幣巨震,超16萬人爆倉!

證券時報e公司
2026-04-19 22:09:43
隨著波爾圖2-0,63歲穆帥率隊2-1,布拉加2-2,葡超最新積分榜出爐

隨著波爾圖2-0,63歲穆帥率隊2-1,布拉加2-2,葡超最新積分榜出爐

側(cè)身凌空斬
2026-04-20 08:54:40
長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

長沙火了!全球最大零食店開業(yè)3天就被擠停售,背后真相曝光

西昆侖Bruce
2026-04-19 19:52:58
4月21日收盤:美股小幅收跌,市場關(guān)注美伊局勢不確定性

4月21日收盤:美股小幅收跌,市場關(guān)注美伊局勢不確定性

新浪財經(jīng)
2026-04-21 04:10:47
給老人的忠告:永遠不要在子女面前,表現(xiàn)出以下3種行為

給老人的忠告:永遠不要在子女面前,表現(xiàn)出以下3種行為

游戲收藏指南
2026-04-21 00:46:16
中介曬出通話記錄,4年前業(yè)主沒110萬不賣,如今房子只值56萬

中介曬出通話記錄,4年前業(yè)主沒110萬不賣,如今房子只值56萬

映射生活的身影
2026-04-19 23:05:55
一日西甲動向:格列茲曼鼓勵自己人,巴薩續(xù)約主帥正在跟萊萬談

一日西甲動向:格列茲曼鼓勵自己人,巴薩續(xù)約主帥正在跟萊萬談

里芃芃體育
2026-04-21 05:00:03
很多微信群都變成了死群,因為人很難對沒有利益的事保持長久熱情

很多微信群都變成了死群,因為人很難對沒有利益的事保持長久熱情

大張的自留地
2026-04-20 13:10:12
泰國可疑行李箱滲液惡臭產(chǎn)生大量蛆蟲 引發(fā)周圍群眾恐慌 警方打開后發(fā)現(xiàn)幼犬尸體

泰國可疑行李箱滲液惡臭產(chǎn)生大量蛆蟲 引發(fā)周圍群眾恐慌 警方打開后發(fā)現(xiàn)幼犬尸體

曼谷陳大叔
2026-04-20 15:05:57
退休從北京搬到棗莊,一年后才看清:這哪是換城市,明明是換人生

退休從北京搬到棗莊,一年后才看清:這哪是換城市,明明是換人生

芭比衣櫥
2026-04-20 17:14:57
救市,救市,全在救市!

救市,救市,全在救市!

巢客HOME
2026-04-19 08:05:03
男人如果到了七十二,還對妻子有生理性喜歡,注定一輩子順遂

男人如果到了七十二,還對妻子有生理性喜歡,注定一輩子順遂

觀星賞月
2026-04-21 01:21:38
浙江一釣魚新手首次出海釣魚,竟釣上15斤重的石斑魚,請一桌人吃全魚宴,同行釣魚老手:我釣了10多年都沒釣過這么大的

浙江一釣魚新手首次出海釣魚,竟釣上15斤重的石斑魚,請一桌人吃全魚宴,同行釣魚老手:我釣了10多年都沒釣過這么大的

大象新聞
2026-04-20 21:47:05
2026-04-21 05:51:00
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學習體系,讓1萬人通過Al提高生產(chǎn)力
250文章數(shù) 126關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

時尚
本地
家居
房產(chǎn)
藝術(shù)

春天衣服不用準備太多!這幾大單品提前備好,百搭實用又不過時

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

家居要聞

自然慢調(diào) 慢享時光

房產(chǎn)要聞

大規(guī)模商改!海口西海岸,這波項目要贏麻了!

藝術(shù)要聞

春天最適合小住三五天的地方

無障礙瀏覽 進入關(guān)懷版