上周,Google實(shí)在是太猛了,拳打OpenAI,腳踢Anthropic。Gemini 3 Pro模型在編程、數(shù)學(xué)、推理等能力上都達(dá)到了當(dāng)之無(wú)愧的SOTA級(jí)別。
![]()
被逼到墻角之后,就看誰(shuí)先有能力掀桌坐不住了。
于是,就在今天,Anthropic發(fā)布了Claude Opus 4.5。
![]()
Opus 4.5的核心還是聚焦在編程能力,可以說(shuō)很炸裂:SWE-bench Verified達(dá)到80.9%,首次突破80%,超越Gemini 3 Pro的76.2%。
![]()
以及,很少見(jiàn)的是,他們甚至降價(jià)了!價(jià)格從之前的貴得離譜的$15/$75直接降到$5/$25 per million tokens,直降66%?。?/strong>
Opus 4.5的發(fā)布,說(shuō)明Anthropic是真的急了——或者說(shuō),終于認(rèn)真了。
Opus 4.5到底有多強(qiáng)?
先說(shuō)benchmark數(shù)據(jù)。
SWE-bench Verified:80.9%
這是業(yè)界公認(rèn)的編程能力測(cè)試標(biāo)準(zhǔn)。Opus 4.5是第一個(gè)突破80%的模型。
對(duì)比一下:
- Gemini 3 Pro:76.2%
- Claude Sonnet 4.5:77.2%
- GPT-5.1:76.3%/77.9%
80.9%是什么概念?Anthropic內(nèi)部拿性能工程師的面試題測(cè)試,Opus 4.5的得分超過(guò)了所有人類(lèi)候選人。
![]()
Terminal-bench 2.0:59.3%
這個(gè)測(cè)試主要看模型在終端環(huán)境下的編程能力。Opus 4.5比Gemini 3 Pro高了5個(gè)百分點(diǎn)(54.2%),比自家的Sonnet 4.5高了近10個(gè)百分點(diǎn)(50.0%)。
這個(gè)差距說(shuō)明一個(gè)事實(shí):Claude在真實(shí)開(kāi)發(fā)環(huán)境下,就是比其他模型強(qiáng)。
GPQA Diamond:87.0%
這是研究生級(jí)別的推理測(cè)試,涵蓋物理、化學(xué)、生物。Opus 4.5在這個(gè)測(cè)試上落后于Gemini 3 Pro(91.9%),但87%的成績(jī)也不差。
總結(jié)一下:編程能力世界第一,推理能力也不弱。
價(jià)格策略的巨大轉(zhuǎn)變
Opus 4.5最讓人意外的,是在性能提升的同時(shí),價(jià)格還暴降了。
新定價(jià):
- 輸入:$5 / million tokens
- 輸出:$25 / million tokens
Anthropic的官方說(shuō)法是:"making Opus-level capabilities accessible to even more users, teams, and enterprises"(讓更多用戶(hù)、團(tuán)隊(duì)和企業(yè)能用上Opus級(jí)別的能力)。
邏輯很明顯:Anthropic需要更多人用Opus。
之前Opus的定位是"高端用戶(hù)",但高端市場(chǎng)就那么大?,F(xiàn)在降價(jià),是要搶占"中端市場(chǎng)"——那些之前用Sonnet,但其實(shí)需要更強(qiáng)能力的開(kāi)發(fā)者。
不到一周,正面交鋒
11月18日,Google發(fā)布Gemini 3 Pro。
11月24日,Anthropic發(fā)布Claude Opus 4.5。
不到一周,兩個(gè)頂級(jí)模型連續(xù)發(fā)布。
這不是巧合。
Gemini 3 Pro發(fā)布時(shí),各種benchmark數(shù)據(jù)都很炸裂,尤其是GPQA Diamond的91.9%,直接刷新了推理能力的記錄。當(dāng)時(shí)AI圈的共識(shí)是:Google這次真的起來(lái)了。
![]()
Anthropic當(dāng)然不會(huì)讓Google獨(dú)占風(fēng)頭。
Opus 4.5的發(fā)布時(shí)機(jī),明顯是沖著Gemini 3來(lái)的。而且,Anthropic選擇的戰(zhàn)場(chǎng)很聰明:不和你比推理,和你比編程。
Gemini 3 Pro在推理上確實(shí)強(qiáng)(91.9% vs 87.0%),但在編程上,Claude Opus 4.5領(lǐng)先了近5個(gè)百分點(diǎn)(80.9% vs 76.2%)。
更關(guān)鍵的是,編程能力是開(kāi)發(fā)者最關(guān)心的指標(biāo)。推理能力再?gòu)?qiáng),如果寫(xiě)不出好代碼,開(kāi)發(fā)者也不會(huì)買(mǎi)單。
這就是Anthropic的策略:在自己最擅長(zhǎng)的領(lǐng)域,做到絕對(duì)領(lǐng)先。
為什么Anthropic能在編程上這么強(qiáng)?
之前我在測(cè)試Claude Code時(shí),有個(gè)很深的感受:
Claude Code好用的邏輯,不是因?yàn)樗墙K端工具,而是因?yàn)锳nthropic有模型成本和模型認(rèn)知的優(yōu)勢(shì)。
他們可以更無(wú)所畏懼地投喂代碼上下文燒token,能知道如何擠壓模型Agentic的能力實(shí)現(xiàn)更長(zhǎng)步驟的推理,可以用agentic search而非RAG的方式處理上下文。
這些優(yōu)勢(shì),說(shuō)白了就一個(gè)原因:Anthropic從一開(kāi)始就是奔著編程和Agent去優(yōu)化模型的。
我之前評(píng)價(jià)Claude 4時(shí)說(shuō):最強(qiáng)編程模型 + 最強(qiáng)Agent基建。
Anthropic對(duì)模型的所有優(yōu)化,都是奔著To B做AI coding和讓開(kāi)發(fā)者建agent而去的。他們主要做了這幾個(gè)方面的優(yōu)化:
1. 擴(kuò)展思維與工具使用:允許模型在思考和使用工具之間來(lái)回切換,形成"思考-執(zhí)行-再思考"的循環(huán)
2. 改進(jìn)的記憶能力:可以創(chuàng)建和維護(hù)"記憶文件"來(lái)存儲(chǔ)關(guān)鍵信息,支持長(zhǎng)時(shí)間任務(wù)
3. 更強(qiáng)的指令遵循能力:可以處理超過(guò)10000個(gè)token的系統(tǒng)提示
4. 減少獎(jiǎng)勵(lì)黑客行為:模型為了達(dá)到目標(biāo)而走捷徑的傾向降低了80%以上
這些優(yōu)化,放在Opus 4.5上,效果更明顯了。
相比之下,Gemini 3的優(yōu)勢(shì)在于多模態(tài)。如果你的任務(wù)涉及視覺(jué)、圖片、視頻,Gemini 3會(huì)更強(qiáng)。但如果是純編程任務(wù),Claude Opus 4.5幾乎沒(méi)有對(duì)手。
產(chǎn)品層面的配合
Opus 4.5的發(fā)布,不是孤立的。
Anthropic同時(shí)推出了幾個(gè)重要的產(chǎn)品更新:
1. Claude Code進(jìn)入桌面端:支持并行運(yùn)行多個(gè)本地和遠(yuǎn)程會(huì)話,長(zhǎng)對(duì)話自動(dòng)總結(jié)早期上下文
2. Claude for Chrome:擴(kuò)展至所有Max用戶(hù)
3. Claude for Excel:面向所有Max、Team和Enterprise用戶(hù)正式發(fā)布
這些產(chǎn)品更新,都是在強(qiáng)化一個(gè)信號(hào):Claude不只是一個(gè)聊天模型,它是一個(gè)生產(chǎn)力工具。
尤其是Claude Code。
我之前說(shuō)過(guò),從工具層面來(lái)說(shuō),從Cursor這種IDE圖形界面退回到Claude Code這種終端命令行工具,其實(shí)是個(gè)挺大的退步。但Claude Code之所以還是比Cursor好用,就是因?yàn)樗澈蟮哪P湍芰μ珡?qiáng)了。
現(xiàn)在Opus 4.5出來(lái)了,Claude Code的優(yōu)勢(shì)會(huì)更明顯。
而且,Anthropic還宣布了和Microsoft、NVIDIA的戰(zhàn)略合作:Claude擴(kuò)展至Azure平臺(tái),由NVIDIA提供算力支持。這意味著,Claude的To B布局在快速推進(jìn)。
開(kāi)發(fā)者該怎么選?
最后說(shuō)點(diǎn)實(shí)際的:如果你是開(kāi)發(fā)者,該選Claude還是Gemini?
我的建議是:
選Claude Opus 4.5,如果你的任務(wù)主要是:
純代碼編寫(xiě)和調(diào)試
后端邏輯和復(fù)雜推理
長(zhǎng)時(shí)間的編程任務(wù)(需要記憶和上下文管理)
選Gemini 3 Pro,如果你的任務(wù)主要是:
多模態(tài)任務(wù)(涉及圖片、視頻、視覺(jué))
前端、UI設(shè)計(jì)
需要超強(qiáng)推理能力的研究級(jí)任務(wù) 如果預(yù)算夠,最好的辦法是:兩個(gè)都用。
Claude處理編程,Gemini處理多模態(tài)。各取所長(zhǎng)。
我前兩天剛剛同時(shí)用Claude Code+Gemini 3 Pro,開(kāi)發(fā)了一個(gè)有儀式感地記錄日常生活和靈感碎片的app「小票筆記 - Thermal」,在開(kāi)發(fā)這款app時(shí),我的工作步驟和體驗(yàn)是:
1)Gemini 3在生成和復(fù)刻前端效果上明顯表現(xiàn)更優(yōu)
2)實(shí)際的開(kāi)發(fā)和解決bug的過(guò)程,Claude Code還是比Cursor + Gemini 3 Pro,或者使用Antigravity的體驗(yàn),因?yàn)殚L(zhǎng)程的編程能力還需要工具更好的工程化能力,以及模型更底層的編程能力。
![]()
![]()
![]()
最后
Opus 4.5的發(fā)布,不是孤立事件。
它是Anthropic在編程和Agent這條路上的又一次發(fā)力,是對(duì)Gemini 3的正面回應(yīng),也是對(duì)自己商業(yè)化策略的調(diào)整。
Anthropic這么跳,說(shuō)明AI大模型的競(jìng)爭(zhēng)進(jìn)入白熱化了。
對(duì)開(kāi)發(fā)者來(lái)說(shuō),這是好事。模型越來(lái)越強(qiáng),價(jià)格越來(lái)越低,工具越來(lái)越好用。
接下來(lái),看OpenAI怎么接招。
當(dāng)然,如果你因?yàn)橛嗛喕蛘呔W(wǎng)絡(luò)問(wèn)題不方便使用原版Claude Code的話,也歡迎試試我前段時(shí)間開(kāi)發(fā)的GLM Code:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.