国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中門對(duì)狙!Claude Opus 4.6和GPT-5.3 Codex同時(shí)發(fā)布,這下真的AI春晚了。

0
分享至

  在全網(wǎng)翹首以盼的等了兩天之后,在凌晨2點(diǎn)。

  Anthropic的新模型Cluade Opus 4.6正式更新了。

  

  我說實(shí)話,我是真的最近因?yàn)锳I圈這些模型和產(chǎn)品,熬夜熬的有點(diǎn)扛不住了。

  但其實(shí)最顛最絕望的是,20分鐘之后,OpenAI也發(fā)了新模型。。。

  GPT 5.3 Codex也來了。

  這尼瑪,真的是中門對(duì)狙了。

  

  要了親命了。。。

  這兩模型都還是得看,因?yàn)橹癎PT和Claude幾乎就是我最常用的維二最主力的模型,GPT-5.2用來做各種各樣的搜索和事實(shí)核查還有研究還有編程改BUG,Opus 4.5做創(chuàng)作和主力編程。

  現(xiàn)在,兩個(gè)都來了。

  太刺激了。

  一個(gè)一個(gè)說吧。

  一. Claude Opus 4.6

  這次 Anthropic其實(shí)不止發(fā)了Claude Opus 4.6,還有一個(gè)很好玩的東西,Agent Teams,還有關(guān)于Excel和PPT插件的更新。

  先說Claude Opus 4.6。

  每次有新模型發(fā)布,大家第一反應(yīng)就是看跑分。

  

  這次Opus 4.6的跑分確實(shí)很漂亮,我挑幾個(gè)重點(diǎn)說說。

  首先是Terminal-Bench 2.0,這是一個(gè)測(cè)試AI在終端環(huán)境下編程能力的評(píng)估,Opus 4.6拿了65.4%,是所有模型里最高的(沒看到GPT-5.3 codex之前)。

  GPT-5.2是64.7%,Gemini 3 Pro是56.2%。

  讓我比較驚訝的是OSWorld這個(gè)評(píng)估,測(cè)的是AI操作電腦的能力,Opus 4.6拿了72.7%,比Opus 4.5的66.3%高了不少。

  這就意味著Claude越來越會(huì)用電腦了,它能更好地操作鼠標(biāo)、點(diǎn)擊按鈕、在不同應(yīng)用之間切換,在Coding能力提升的同時(shí),電腦操作的能力也有大幅提升,這是真的要奔著全面Agent化去了。

  還有一個(gè)BrowseComp,也是讓我意外的,測(cè)的是Agent在網(wǎng)上搜索信息的能力,Opus 4.6拿了84.0%,遠(yuǎn)超其他模型。

  第二名GPT-5.2 Pro是77.9%,差了6個(gè)多點(diǎn)。

  因?yàn)槲易约浩鋵?shí)一直把GPT-5.2 Pro當(dāng)作是我最牛逼的研究報(bào)告生成引擎去用的,他比DeepResearch還要強(qiáng),精準(zhǔn)度極高幻覺率極低,現(xiàn)在Opus 4.6比它還要搞6個(gè)點(diǎn),說實(shí)話有點(diǎn)離譜了。

  然后就是GDPval-AA這個(gè)評(píng)估,這個(gè)評(píng)估測(cè)的是AI在真實(shí)工作任務(wù)中的表現(xiàn),包括金融、法律等領(lǐng)域的知識(shí)工作。Opus 4.6拿了1606的Elo分,比GPT-5.2高了144分,比自己的前代Opus 4.5高了190分。

  144分的Elo差距還是挺大的,也就是說,在干活這件事上,Opus 4.6確實(shí)是目前最強(qiáng)的,Cluade是真的把自己的編程能力,開始逐漸泛化到其他的工作場(chǎng)景里面去了。

  

  然后最離譜的是這個(gè),ARC AGI 2,68.8%,吊打一切。。。

  我之前在GPT-5.2發(fā)布時(shí)候的文章里科普過這玩意,就是下面這種題。

  

  這種能力,現(xiàn)在稱為流體智力(Fluid Intelligence),意思就是指不依賴于已有的知識(shí),在全新情境下進(jìn)行邏輯推理、識(shí)別模式和解決問題的能力。

  說白了,就是你的悟性開竅的能力。

  之前在ARC-AGI-2上,GPT-5.1的得分是17.6%,而GPT-5.2 Pro,直接飆到了50%多。

  這一次,Claude Opus 4.6,直接干到了68.8%,是有點(diǎn)離譜的,差點(diǎn)摸到7字頭了。

  從上面這些跑分看,除了一些世界知識(shí)和問答上,Claude Opus 4.6還弱于GPT-5.2,其他的幾乎已經(jīng)全面領(lǐng)先。

  當(dāng)之無愧的SOTA。

  說實(shí)話,我對(duì)跑分一直有點(diǎn)復(fù)雜的感情。

  一方面,跑分確實(shí)能說明一些問題,但另一方面,跑分和實(shí)際使用體驗(yàn)之間,往往有一道很深的鴻溝。

  很多模型跑分很高,但用起來就是不順手,反過來,有些模型你看著整體跑分一般,但在某些場(chǎng)景下就是還挺好用的。

  所以我更關(guān)注的,是這次更新在產(chǎn)品層面做了什么。

  第一個(gè):1M token的上下文窗口。

  普天同慶?。?!Claude Opus系列,終于有1M上下文啦!?。?/p>

  Opus 4.6終于支持100萬token的上下文了?。?!

  真的,做Coding的朋友們都知道,上下文容量有多重要。。。

  之前只有200K的小窗口,這次整整翻了5倍!??!現(xiàn)在再也不用擔(dān)心這個(gè)問題了?。?!

  而且我要說一個(gè)很重要的點(diǎn),就是上下文窗口大,不等于模型能真正用好這么大的上下文。

  很多模型雖然支持很長(zhǎng)的上下文,但你真的塞進(jìn)去很多內(nèi)容之后,模型的表現(xiàn)會(huì)明顯下降,會(huì)變得很蠢。

  這個(gè)問題在業(yè)內(nèi)叫"context rot",上下文腐爛,也就是你用的越久,模型能力開始變得越差。

  而這次,Claude Opus 4.6,在MRCR v2的測(cè)試上做了實(shí)驗(yàn),這個(gè)測(cè)試是大海撈針類的,就是在一大堆文本里藏幾個(gè)關(guān)鍵信息,看模型能不能找到。

  在100萬token、藏8根針的測(cè)試?yán)铮琌pus 4.6直接拿了76%,而Sonnet 4.5只有18.5%,太牛逼了!

  

  而且上下文推理上,也傲視群雄。

  

  這對(duì)很多實(shí)際場(chǎng)景來說真的非常有用,也是我最最最喜歡的升級(jí)點(diǎn),不只是coding,其實(shí)比如你想讓Claude幫你審查一份幾百頁(yè)的法律文件,或者分析一個(gè)大公司的財(cái)報(bào),現(xiàn)在大概率也是可以一次性搞定了。

  第二個(gè):輸出上限提升到128K。

  以前Claude的輸出上限都是64K,這次直接翻倍了。

  

  也算是一個(gè)相當(dāng)不錯(cuò)的利好。

  這個(gè)改進(jìn)聽起來不起眼,但對(duì)于實(shí)際使用來說真的很重要。

  第三個(gè):Context Compaction,上下文壓縮。

  這個(gè)功能其實(shí)Claude Code已經(jīng)實(shí)現(xiàn)很久了,但我覺得還是很有必要說一下,因?yàn)樗鉀Q了一個(gè)很現(xiàn)實(shí)的問題。

  當(dāng)你跟AI聊了很久,或者讓AI執(zhí)行一個(gè)很長(zhǎng)的任務(wù),對(duì)話內(nèi)容會(huì)越來越多,最終會(huì)超過上下文窗口的限制。以前遇到這種情況,要么任務(wù)失敗,要么得手動(dòng)清理對(duì)話歷史。

  現(xiàn)在有了Context Compaction,Claude可以自動(dòng)把舊的對(duì)話內(nèi)容壓縮成摘要,騰出空間給新的內(nèi)容。

  這樣Claude就能執(zhí)行更長(zhǎng)時(shí)間的任務(wù),而不會(huì)因?yàn)樯舷挛囊绯龆袛唷?/p>

  這對(duì)于那些需要Claude長(zhǎng)時(shí)間自主工作的場(chǎng)景來說,是一個(gè)很實(shí)用的改進(jìn)。

  以前是在Claude Code里使用工程實(shí)現(xiàn)的,現(xiàn)在直接模型自帶了。

  第四個(gè):Adaptive Thinking和Effort控制

  以前Claude有一個(gè)"extended thinking"功能,就是讓它在回答之前先深度思考一會(huì)兒。

  這個(gè)功能開啟之后,Claude的回答質(zhì)量會(huì)提升,但速度會(huì)變慢,成本也會(huì)增加。

  問題是,以前這個(gè)功能是要么開要么關(guān),沒有中間狀態(tài)。有些簡(jiǎn)單問題,你開了深度思考,就有點(diǎn)殺雞用牛刀了。

  現(xiàn)在有了兩個(gè)新功能來解決這個(gè)問題。

  一個(gè)是Adaptive Thinking,自適應(yīng)思考。開啟之后,Claude會(huì)自己判斷這個(gè)問題需不需要深度思考。簡(jiǎn)單問題就快速回答,復(fù)雜問題就多想一會(huì)兒。

  

  另一個(gè)是Effort控制,讓你可以手動(dòng)設(shè)置Claude的思考程度。有四個(gè)檔位:low、medium、high、max,默認(rèn)是high。

  這兩個(gè)功能加起來,讓Claude的使用變得更靈活了。

  你可以根據(jù)實(shí)際需求,在速度、成本、質(zhì)量之間找到平衡點(diǎn)。

  然后還有一個(gè),是Claude Code里面很重要的更新,叫做Agent Teams。

  以前你用Claude Code,是一個(gè)Claude在干活,你給它一個(gè)任務(wù),它自己去做,做完了給你看結(jié)果。

  現(xiàn)在有了Agent Teams不一樣了,你可以讓一個(gè)會(huì)話充當(dāng)團(tuán)隊(duì)負(fù)責(zé)人,協(xié)調(diào)工作、分配任務(wù)并綜合結(jié)果。

  然后啟動(dòng)團(tuán)隊(duì)成員獨(dú)立工作,各自在自己的上下文窗口中,并彼此直接通信。

  比如假設(shè)你要做一個(gè)代碼審查,需要看前端代碼、后端代碼、還有數(shù)據(jù)庫(kù)相關(guān)的代碼。以前你可能要分三次讓Claude看,每次看一部分。

  現(xiàn)在你可以說"幫我審查這個(gè)代碼庫(kù)",然后Claude會(huì)自動(dòng)啟動(dòng)3個(gè)團(tuán)隊(duì)成員,一個(gè)看前端,一個(gè)看后端,一個(gè)看數(shù)據(jù)庫(kù),三個(gè)同時(shí)進(jìn)行,最后把結(jié)果匯總給你。

  而且這些團(tuán)隊(duì)成員不是完全獨(dú)立的,它們可以相互溝通。比如后端代理發(fā)現(xiàn)一個(gè)API的變更,它可以告訴前端代理,讓前端代理檢查一下調(diào)用這個(gè)API的地方有沒有問題,而且他們也可以互相質(zhì)疑、互相挑戰(zhàn)、互相發(fā)現(xiàn)。

  跟Claude Code里面之前subagents也就是子代理不同的點(diǎn)在于,子代理在單個(gè)會(huì)話中運(yùn)行,只能向主代理報(bào)告結(jié)果,而Agent Teams是一個(gè)團(tuán)隊(duì),團(tuán)隊(duì)成員可以直接與各個(gè)團(tuán)隊(duì)成員互動(dòng),無需通過負(fù)責(zé)人。

  他們自己也做了一個(gè)非常明確的圖表來進(jìn)行區(qū)分。

  

  當(dāng)你需要快速、專注的工作人員進(jìn)行反饋時(shí),使用子代理。當(dāng)團(tuán)隊(duì)成員需要共享發(fā)現(xiàn)、相互挑戰(zhàn)和自主協(xié)調(diào)時(shí),使用Agent Teams。

  然后就是兩個(gè)小的更新,一個(gè)是Claude in Excel這個(gè)插件將Claude Opus 4.6直接集成到了excel里面。

  現(xiàn)在還支持?jǐn)?shù)據(jù)透視表編輯、圖表修改、條件格式設(shè)置、排序和篩選、數(shù)據(jù)驗(yàn)證以及金融級(jí)格式設(shè)置。

  還添加了可用性改進(jìn),包括長(zhǎng)對(duì)話的自動(dòng)壓縮和拖放多文件支持等等。

  

  然后還發(fā)了一個(gè)Claude in PowerPoint。

  將Claude集成到了PowerPoint側(cè)邊欄中,讓它在創(chuàng)建新內(nèi)容之前讀取現(xiàn)有的布局、字體和母版。

  Claude也可以根據(jù)客戶模板構(gòu)建演示文稿、對(duì)現(xiàn)有幻燈片進(jìn)行針對(duì)性編輯。

  

  Anthropic真的憑借著Claude,在B端領(lǐng)域,真的開始大殺四方了。

  GPT說實(shí)話,現(xiàn)在整個(gè)B端和生產(chǎn)力端的體驗(yàn),稍微落后的有點(diǎn)多了。

  最后說一下價(jià)格。

  API價(jià)格保持不變,還是$5/$25每百萬token(輸入/輸出)。

  如果用超過20萬token的上下文,會(huì)有額外定價(jià),是$10/$37.50每百萬token。

  

  目前,Claude網(wǎng)頁(yè)版和Claude Code上,Claude Opus 4.6均以全面上線,已經(jīng)可以快樂的玩耍起來了。

  

  

  二. GPT-5.3 Codex

  終于聊完了Claude的東西,然后到了GPT這邊。

  說實(shí)話,我自己對(duì)GPT一直也是有自己的情感的,他依然是我現(xiàn)在在任何時(shí)候想到問題,第一個(gè)去問的模型,想要要驗(yàn)證某一個(gè)事的時(shí)候,第一個(gè)去問的模型。

  而且,雖然我不是一個(gè)專業(yè)的編程大佬,但是在我有限的Vibe Coding的經(jīng)驗(yàn)里,我覺得GPT-5.2 Codex在解決BUG和難點(diǎn)的問題上,是要強(qiáng)于Claude Opus 4.5的。

  特別是GPT-5.2 Codex+Codex的改BUG體驗(yàn),是要比Claude Opus 4.5+Claude Code要更強(qiáng)的。

  所以我自己經(jīng)常的工作流,經(jīng)常是用Claude code寫一個(gè)大的,然后用codex接手后續(xù)進(jìn)行調(diào)整。

  所以我剛好,還真是這兩玩意的用戶。。。

  所以GPT-5.3 Codex的更新,我自然也非常的開心。

  兩者中門對(duì)狙,開心的自然是我們用戶。

  這次GPT-5.3 Codex,其實(shí)最讓我驚訝的東西,不是跑分,是他們博客里的一句話:

  

  "GPT-5.3 Codex是我們第一個(gè)在創(chuàng)造自己的過程中發(fā)揮重要作用的模型。"

  OpenAI說,他們的Codex團(tuán)隊(duì)在開發(fā)GPT-5.3的過程中,用早期版本的模型來debug自己的訓(xùn)練過程、管理部署、診斷測(cè)試結(jié)果和評(píng)估。

  用人話說就是,AI參與了自己的開發(fā)。

  這個(gè)事情聽起來有點(diǎn)科幻,但其實(shí)邏輯上是通的。

  AI模型的開發(fā)過程,本質(zhì)上也是一堆代碼,訓(xùn)練腳本是代碼,部署流程是代碼,測(cè)試框架也是代碼。

  既然AI已經(jīng)coding能力已經(jīng)這么牛逼了,那讓AI來幫忙寫這些代碼,也是順理成章的事。

  但順理成章和真的做到了說實(shí)話,是兩碼事。

  OpenAI的團(tuán)隊(duì)說,他們被Codex能夠加速自身開發(fā)的程度震驚了。

  如果AI能夠越來越多地參與自己的開發(fā),那AI進(jìn)化的速度會(huì)不會(huì)變得更快?這個(gè)問題,可能比任何跑分都重要。

  這個(gè)世界,真的都在瘋狂的加速啊。

  然后老規(guī)矩,再看下跑分。

  GPT-5.3 Codex在幾個(gè)關(guān)鍵的編程評(píng)測(cè)上都拿到了最高分。

  

  這時(shí)候,你肯定會(huì)問了, GPT-5.3 Codex和Claude Opus 4.6,到底哪個(gè)跑分更牛逼一點(diǎn)???

  說實(shí)話,因?yàn)閮杉业脑u(píng)測(cè)基準(zhǔn),還是有很多細(xì)節(jié)差異,所以,完全沒法直接進(jìn)行對(duì)比。。。

  唯一一個(gè)對(duì)齊的基準(zhǔn)是Terminal-Bench 2.0,這是一個(gè)由89個(gè)復(fù)雜真實(shí)任務(wù)組成的基準(zhǔn),這些任務(wù)都在終端環(huán)境中執(zhí)行,每個(gè)任務(wù)運(yùn)行在獨(dú)立Docker容器內(nèi)。

  2.0版本于2025年11月7日發(fā)布。

  

  Claude Opus 4.6得分65.4%,GPT-5.3 Codex得分77.3%,OpenAI領(lǐng)先11.9個(gè)百分點(diǎn)。

  

  在這個(gè)唯一相同的基準(zhǔn)里,GPT更勝一籌,而且是大勝,符合我對(duì)Codex系列的認(rèn)知。

  然后是OSWorld,評(píng)估AI agent操作真實(shí)計(jì)算機(jī)的能力,人類基線為72.36%。

  關(guān)鍵區(qū)別在于,Claude Opus 4.6報(bào)告的是原版OSWorld(72.7%),而 GPT-5.3 Codex報(bào)告的是OSWorld-Verified(64.7%)。

  OSWorld-Verified于2025年7月28日發(fā)布,是一次全面重構(gòu),修復(fù)了原版中300+已識(shí)別問題,包括失效 URL、反爬 CAPTCHA、不穩(wěn)定 HTML 結(jié)構(gòu)、含糊指令,以及過嚴(yán)/過松的評(píng)測(cè)腳本。

  所以說,別看這個(gè)評(píng)測(cè)看著Claude更強(qiáng),但是兩個(gè)分?jǐn)?shù)衡量的并不是同一件事。

  OSWorld-Verified 提供了更嚴(yán)格、更可控的信號(hào),也一般被認(rèn)為更難,所以嚴(yán)格意義上來說, GPT-5.3 Codex的 64.7% 甚至是要強(qiáng)于 Claude Opus 4.6的 72.7%的。

  

  然后是GDPVal,這個(gè)事在美國(guó)GDP貢獻(xiàn)最大的9個(gè)行業(yè)中,覆蓋44種職業(yè)、1320個(gè)真實(shí)知識(shí)工作任務(wù)。

  任務(wù)要求產(chǎn)出真實(shí)職業(yè)交付物,如文檔、表格、演示、圖表,平均相當(dāng)于7小時(shí)專家工作量。

  可比性問題在這里最明顯。

  GPT-5.3 Codex的“GDPval wins or ties: 70.9%”,使用的是 OpenAI 自己的方法,由職業(yè)人類評(píng)審盲評(píng) AI 產(chǎn)出與人類專家產(chǎn)出,判斷 AI 版本是否“與人類一樣好或更好”,分母是固定的人類標(biāo)準(zhǔn)。

  Claude Opus 4.6的“GDPval-AA Elo: 1606”,這是獨(dú)立評(píng)測(cè)機(jī)構(gòu)Artificial Analysis的體系,使用其自有Stirrup agent框架(具備 shell 與網(wǎng)頁(yè)瀏覽能力)跑模型,再由Gemini 3 Pro做兩兩比較評(píng)判,最終用Bradley-Terry模型擬合Elo評(píng)分,并以GPT-5.1的1000 為錨點(diǎn)。

  所以這個(gè)是太難換算了,我也不太清楚兩邊哪個(gè)更牛逼。。。

  

  然后就是SWE-bench,SWE-bench測(cè)試AI是否能通過生成代碼補(bǔ)丁修復(fù)真實(shí) GitHub issue。

  SWE-bench Verified(Claude Opus 4.6使用,80.8%)是500題、人工驗(yàn)證、僅Python的子集,由OpenAI Preparedness團(tuán)隊(duì)在2024年8月發(fā)布。

  93位職業(yè)開發(fā)者驗(yàn)證了每道題都具備明確問題描述和公平單測(cè),頂級(jí)模型已超過70%,該基準(zhǔn)接近飽和。

  SWE-bench Pro Public(GPT-5.3 Codex 使用,56.8%)是731題、多語(yǔ)言基準(zhǔn),由Scale AI創(chuàng)建。它覆蓋Python、Go、JavaScript、TypeScript等,橫跨41個(gè)倉(cāng)庫(kù)。參考解平均107.4行、4.1個(gè)文件,明顯比 Verified常見的單文件補(bǔ)丁更復(fù)雜。

  它還納入copyleft與專有代碼庫(kù),專門降低數(shù)據(jù)污染風(fēng)險(xiǎn)。

  所以說,Claude Opus 4.6在Verified的80.8%與GPT-5.3 codex在Pro Public的56.8%不能直接比較。

  但說實(shí)話Pro明顯更難,發(fā)布時(shí)GPT-5和Claude Opus 4.1在Pro上都只有約23%,不到其Verified分?jǐn)?shù)的三分之一。

  

  所以說,其實(shí)整體跑分上,雖然看著GPT-5.3 Codex的得分好像都低一點(diǎn)。

  但是含金量更足,如果非要我說的話,結(jié)合著我過去的測(cè)試印象,單開發(fā)這一塊,可能會(huì)是GPT-5.3 Codex會(huì)更強(qiáng)更實(shí)用一點(diǎn)。

  當(dāng)然,還有一個(gè)最關(guān)鍵的一點(diǎn)是,GPT...他不封號(hào)呀= =

  然后跑分是一回事,能做什么是另一回事。

  OpenAI在博客里展示了兩個(gè)用GPT-5.3 Codex做的游戲,一個(gè)賽車游戲和一個(gè)潛水游戲。

  這兩個(gè)游戲都不只是那種我們隨處可見簡(jiǎn)單的demo,而是完整的、可玩的游戲。

  賽車游戲有不同的賽車、八張地圖、還有道具系統(tǒng)。

  潛水游戲有不同的珊瑚礁可以探索、有氧氣和壓力管理系統(tǒng)、還有危險(xiǎn)要素。

  關(guān)鍵是,這些游戲全都是GPT-5.3 Codex自己做的。

  OpenAI說,他們?cè)贑odex產(chǎn)品了里,用這個(gè)模型和一個(gè)叫develop web game的Skills,加上一些通用的跟進(jìn)提示(比如"修復(fù)這個(gè)bug"或者"改進(jìn)這個(gè)游戲"),讓GPT-5.3 Codex在幾天的時(shí)間里,自主迭代了數(shù)百萬個(gè)token,最終做出了這些游戲。

  說實(shí)話,有點(diǎn)牛逼的。

  而且這次有一個(gè)很棒的更新點(diǎn)。

  就是你可以在GPT-5.3 Codex工作的時(shí)候跟它互動(dòng),可以隨時(shí)介入,隨時(shí)調(diào)整方向了。。。

  終于不用先停止了,這個(gè)小能力還挺香的。

  目前已經(jīng)在Codex上上線,我已經(jīng)開始用起來了。

  

  而且直觀感受,在Codex上運(yùn)行GPT-5.3 codex真的快了非常非常多。

  在博客里沒有這塊數(shù)據(jù),不過奧特曼自己的X上寫出來了。

  

  “完成相同任務(wù)所需的令牌數(shù)不到 5.2-Codex 的一半,且單令牌速度快 25% 以上!”

  非常推薦大家下載個(gè)Codex試試,真的蠻好用的。

  這篇稿子又寫了個(gè)通宵,基本上把我對(duì)這兩個(gè)模型的理解都寫進(jìn)去了,應(yīng)該沒啥漏的了,應(yīng)該是最全的一篇了。

  至于實(shí)際測(cè)試,希望大家見諒,這么一點(diǎn)點(diǎn)時(shí)間實(shí)在測(cè)不出來,可能我得需要一整個(gè)周末的時(shí)候,正兒八經(jīng)的開發(fā)幾個(gè)產(chǎn)品,才能感受到明顯的差異。

  不過有一點(diǎn)就是,現(xiàn)在的模型幾乎都是奔著Coding和Agent去的,所以這塊的提升基本都很明顯,跟手機(jī)一樣,用新不用舊。

  直覺上我的工作流還是不太會(huì)變,Claude Opus 4.6 + Claude code打草稿,GPT-5.3 Codex + Codex進(jìn)行后續(xù)精準(zhǔn)開發(fā)。

  最后。

  今天真的是AI行業(yè)的大日子。

  Anthropic發(fā)了Opus 4.6,OpenAI發(fā)了GPT-5.3 Codex。

  兩家頭部AI公司在同一天放出大招,這在歷史上也是罕見的。

  Anthropic發(fā)了Opus 4.6,OpenAI發(fā)了GPT-5.3 Codex和Frontier。兩家頭部AI公司在同一天放出大招,這在歷史上也是罕見的。

  從模型能力上看,兩家都在快速進(jìn)步,差距在縮小。

  從產(chǎn)品形態(tài)上看,兩家都在押注Agent,但側(cè)重點(diǎn)有所不同。

  從行業(yè)影響上看,傳統(tǒng)SaaS公司開始感到壓力,軟件行業(yè)絕對(duì)正在經(jīng)歷一場(chǎng)從誕生以來最大的一次范式轉(zhuǎn)變。

  我不知道一年后這個(gè)行業(yè)會(huì)變成什么樣。

  但我知道,現(xiàn)在,絕對(duì)是一個(gè)需要密切關(guān)注、積極學(xué)習(xí)的時(shí)期。

  錯(cuò)過這一波,可能就真的錯(cuò)過了。

  如果你還沒用過Claude Code,沒用過Codex,現(xiàn)在是一個(gè)很好的開始時(shí)機(jī)。

  畢竟,未來已經(jīng)來了。

  只是,還沒均勻分布。

  以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。

  >/ 作者:卡茲克

  >/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美伊沖突再次升級(jí),全球股市失血,油價(jià)金價(jià)還能漲多久?|商業(yè)微史記

美伊沖突再次升級(jí),全球股市失血,油價(jià)金價(jià)還能漲多久?|商業(yè)微史記

界面新聞
2026-03-02 15:51:05
誰能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

誰能想到她已經(jīng)62了,說18都有人信,怎么做到這么好的狀態(tài)的

白宸侃片
2026-02-11 11:56:19
媒體人:不了解楊瀚森場(chǎng)下訓(xùn)練情況,但英語(yǔ)進(jìn)步速度讓人憂慮

媒體人:不了解楊瀚森場(chǎng)下訓(xùn)練情況,但英語(yǔ)進(jìn)步速度讓人憂慮

懂球帝
2026-03-02 13:29:16
2月車市,再給新能源汽車潑一大盆冷水,涼透了

2月車市,再給新能源汽車潑一大盆冷水,涼透了

互聯(lián)網(wǎng).亂侃秀
2026-03-02 10:06:29
醫(yī)生提醒:無論多壞的肺,只要常吃這5樣,肺一天比一天好

醫(yī)生提醒:無論多壞的肺,只要常吃這5樣,肺一天比一天好

路醫(yī)生健康科普
2026-02-28 23:20:03
一個(gè)美國(guó)人在網(wǎng)上發(fā)帖:為什么中國(guó)人覺得美國(guó)才是他們的家呢

一個(gè)美國(guó)人在網(wǎng)上發(fā)帖:為什么中國(guó)人覺得美國(guó)才是他們的家呢

賤議你讀史
2026-02-23 00:35:40
春節(jié)剛過完,茅臺(tái)價(jià)格又跌下來了

春節(jié)剛過完,茅臺(tái)價(jià)格又跌下來了

深水財(cái)經(jīng)社
2026-03-02 20:35:04
英國(guó)曾阻止美軍使用迪戈加西亞基地打擊伊朗,特朗普抱怨:斯塔默“花太長(zhǎng)時(shí)間”改變主意

英國(guó)曾阻止美軍使用迪戈加西亞基地打擊伊朗,特朗普抱怨:斯塔默“花太長(zhǎng)時(shí)間”改變主意

環(huán)球網(wǎng)資訊
2026-03-02 21:27:19
52中21!布朗尼真有本事!NBA最勵(lì)志的球二代

52中21!布朗尼真有本事!NBA最勵(lì)志的球二代

籃球?qū)崙?zhàn)寶典
2026-03-02 21:40:48
美軍用AI殺死了哈梅內(nèi)伊?很抱歉,大家都被營(yíng)銷號(hào)騙了

美軍用AI殺死了哈梅內(nèi)伊?很抱歉,大家都被營(yíng)銷號(hào)騙了

互聯(lián)網(wǎng)大觀
2026-03-01 19:29:49
美國(guó)十大領(lǐng)域全球領(lǐng)跑,差距還在拉大,正視實(shí)力才是真清醒!

美國(guó)十大領(lǐng)域全球領(lǐng)跑,差距還在拉大,正視實(shí)力才是真清醒!

保德全
2026-02-03 19:30:03
關(guān)窗!關(guān)窗!即將抵達(dá)江蘇

關(guān)窗!關(guān)窗!即將抵達(dá)江蘇

最江陰
2026-03-02 14:33:29
兩套房,我為何不賣房換大屋?一位婆婆的清醒賬本

兩套房,我為何不賣房換大屋?一位婆婆的清醒賬本

言言說
2026-03-01 20:46:04
中國(guó)藝人被困中東!黃渤驚險(xiǎn)逃離,玄子一家7000租車,周雨彤回京

中國(guó)藝人被困中東!黃渤驚險(xiǎn)逃離,玄子一家7000租車,周雨彤回京

潮鹿逐夢(mèng)
2026-03-02 22:48:22
2026年竟還有60Hz手機(jī)!iPhone 17e引爭(zhēng)議 網(wǎng)友吐槽:除了處理器一無是處

2026年竟還有60Hz手機(jī)!iPhone 17e引爭(zhēng)議 網(wǎng)友吐槽:除了處理器一無是處

快科技
2026-03-03 00:14:05
CCTV5直播!中國(guó)男籃VS日本時(shí)間敲定,3大猛將回歸,雙殺希望大了

CCTV5直播!中國(guó)男籃VS日本時(shí)間敲定,3大猛將回歸,雙殺希望大了

何老師呀
2026-03-02 23:50:09
欠中國(guó)的錢,委內(nèi)瑞拉不還了?美財(cái)長(zhǎng):中國(guó)已無法繼續(xù)獲得委石油

欠中國(guó)的錢,委內(nèi)瑞拉不還了?美財(cái)長(zhǎng):中國(guó)已無法繼續(xù)獲得委石油

萌城少年強(qiáng)
2026-01-22 12:47:40
把頂級(jí)外線大閘白送給了騎士,真不知道國(guó)王到底在想些什么?

把頂級(jí)外線大閘白送給了騎士,真不知道國(guó)王到底在想些什么?

稻谷與小麥
2026-03-02 22:40:20
糖尿病人出現(xiàn)這6種情況,必須馬上住院,否則生命可能有危險(xiǎn)

糖尿病人出現(xiàn)這6種情況,必須馬上住院,否則生命可能有危險(xiǎn)

健康之光
2026-03-02 19:40:03
明明手上沒權(quán),為什么內(nèi)賈德還非死不可?真相遠(yuǎn)非復(fù)仇那么簡(jiǎn)單

明明手上沒權(quán),為什么內(nèi)賈德還非死不可?真相遠(yuǎn)非復(fù)仇那么簡(jiǎn)單

李健政觀察
2026-03-02 11:51:27
2026-03-03 02:32:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

本地
親子
手機(jī)
房產(chǎn)
公開課

本地新聞

津南好·四時(shí)總相宜

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

手機(jī)要聞

iPhone 17e發(fā)布:4499元起,e系列首次搭載靈動(dòng)島

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版