国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic發(fā)布Claude Sonnet 4.5:編程能力再登頂,新產(chǎn)品試圖顛覆Windows操作系統(tǒng)

0
分享至


今天凌晨,Anthropic毫無征兆地突然發(fā)布了Claude Sonnet 4.5,從版本號、發(fā)布的文章以及隨之而來的產(chǎn)品功能更新看,這是個相當(dāng)大的值得關(guān)注的版本。

核心要點

  • Claude Sonnet 4.5在SWE-bench Verified基準(zhǔn)測試中達(dá)到行業(yè)最高水平,可持續(xù)專注超30小時處理復(fù)雜任務(wù),定價維持不變($3/$15每百萬tokens)

  • 計算機(jī)使用能力大幅提升,OSWorld基準(zhǔn)從4個月前的42.2%躍升至61.4%

  • Anthropic首次開放Claude Agent SDK,將支撐Claude Code的基礎(chǔ)設(shè)施向開發(fā)者開放

  • 推出"Imagine with Claude"研究預(yù)覽,展示實時軟件生成能力(非常有趣,文章中有實測案例)


模型性能又又又突破了

根據(jù)官方披露的數(shù)據(jù),Claude Sonnet 4.5模型在多項關(guān)鍵指標(biāo)上實現(xiàn)顯著提升。


當(dāng)然,我們最最關(guān)心的還是編程能力。Claude Sonnet 4.5在SWE-bench Verified評估中繼續(xù)突破自己,超越了死貴死貴的Claude Opus 4.1達(dá)到當(dāng)前最高水平(而價格則是維持和Claude Sonnet 4一樣的水平)。SWE-bench Verified算是衡量AI模型解決真實世界軟件編程問題的最重要的能力指標(biāo)。Anthropic表示,在實際應(yīng)用中觀察到該模型能夠在復(fù)雜多步驟任務(wù)上保持超過30小時的持續(xù)專注。聽起來有點針對OpenAI CodeX的7小時了。


計算機(jī)使用能力方面的進(jìn)步尤為明顯。在測試AI模型執(zhí)行真實計算機(jī)任務(wù)的OSWorld基準(zhǔn)測試中,Sonnet 4.5取得61.4%的成績,相比四個月前Sonnet 4的42.2%提升約45%。

Claude 官方用來展示的例子是他們做的瀏覽器插件——Claude for Chrome,演示的這個例子涉及表格、郵件、數(shù)字計算等,任務(wù)還算挺復(fù)雜的,效果看起來不錯。

前幾天,我發(fā)過一個用Claude Code+Chrome Devtools MCP當(dāng)我的B站/油管運營實習(xí)生,自動給評論區(qū)回復(fù)內(nèi)容的嘗試,看起來這套組合所擁有的潛力還能繼續(xù)挖掘。

除編程能力外,該模型在推理和數(shù)學(xué)相關(guān)的多項評估中也顯示出改進(jìn)。來自金融、法律、醫(yī)學(xué)和STEM領(lǐng)域的專家評估顯示,Sonnet 4.5在特定領(lǐng)域的知識深度和推理能力上相比早期模型(包括Opus 4.1)有顯著提升。


注:STEM是四個學(xué)科領(lǐng)域英文首字母的縮寫:

-Science(科學(xué))

-Technology(技術(shù))

-Engineering(工程)

-Mathematics(數(shù)學(xué))

對齊與安全性改進(jìn)

Anthropic強(qiáng)調(diào),Claude Sonnet 4.5是該公司迄今為止"對齊度最高的前沿模型"。在自動化行為審計測試中,該模型在多個維度上的不良行為得分顯著降低,包括奉承、欺騙、權(quán)力尋求以及鼓勵妄想性思維等傾向。

針對AI代理和計算機(jī)使用場景中最嚴(yán)重的風(fēng)險之一——提示注入攻擊,Anthropic表示已取得重大進(jìn)展。根據(jù)其發(fā)布的系統(tǒng)卡(system card):https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf,該模型的安全評估首次納入了機(jī)械可解釋性(mechanistic interpretability)技術(shù)。

該模型按照Anthropic的AI安全等級3(ASL-3)框架發(fā)布,配備了專門的分類器用于檢測潛在危險的輸入和輸出,特別是涉及化學(xué)、生物、放射性和核武器(CBRN)相關(guān)內(nèi)容。Anthropic表示,自該系統(tǒng)首次描述以來,誤報率已降低十倍,自5月Claude Opus 4發(fā)布以來降低了一半。



Claude Agent SDK開放

深入用過Claude Code的人應(yīng)該都會認(rèn)同,盡管有很多產(chǎn)品都在稱自己是通用型AI Agent,但真正在能力上做到又強(qiáng)又通用的,還真就是Claude Code。而在這次的發(fā)布里,Claude把他們用來構(gòu)建Claude Code的所有基建,都作為Agent SDK開放了。

該SDK解決了構(gòu)建AI代理過程中的幾個核心難題:長時間運行任務(wù)中的內(nèi)存管理、平衡自主性與用戶控制的權(quán)限系統(tǒng)、以及協(xié)調(diào)多個子代理朝向共同目標(biāo)工作的機(jī)制。

Anthropic表示,雖然該SDK是為Claude Code開發(fā)的,但其適用范圍遠(yuǎn)超編程領(lǐng)域。從今日起,開發(fā)者可以使用這一SDK構(gòu)建自己的AI代理應(yīng)用。

產(chǎn)品生態(tài)系統(tǒng)更新

配合模型發(fā)布,Anthropic同步推出了多項產(chǎn)品功能更新:

Claude Code獲得了用戶呼聲最高的"檢查點"(checkpoints)功能,允許保存進(jìn)度并即時回滾到之前狀態(tài)。終端界面經(jīng)過重新設(shè)計,并推出了原生VS Code擴(kuò)展。


哈哈哈,“推出了原生VS Code擴(kuò)展”這一點很有趣,說明Claude的AI編程產(chǎn)品形態(tài)不止于CLI,而是要開始進(jìn)入IDE形態(tài)了。其實也很像我前段時間所吐槽的那樣

Claude Code推出后,國內(nèi)大廠也一窩蜂去做CLI形態(tài)的AI編程產(chǎn)品,但是Claude Code強(qiáng)并不代表CLI形態(tài)的天然正確。拋棄圖形界面增加了用戶使用門檻,但并沒有真正絕對的先進(jìn)性,這不,Claude 也要開始重新覆蓋具備圖形界面的IDE插件這種產(chǎn)品形態(tài),我估計離Claude原生AI IDE也不遠(yuǎn)了。

ClaudeAPI新增了上下文編輯功能和內(nèi)存工具,使代理能夠運行更長時間并處理更高復(fù)雜度的任務(wù)。

Claude應(yīng)用中直接集成了代碼執(zhí)行和文件創(chuàng)建能力,支持電子表格、幻燈片和文檔的生成。

Claude for Chrome擴(kuò)展向上月加入等候名單的Max用戶開放。該擴(kuò)展利用了模型升級后的計算機(jī)使用能力,可以直接在瀏覽器中導(dǎo)航網(wǎng)站、填寫表格并完成任務(wù)。

"Imagine with Claude"研究預(yù)覽

"Imagine with Claude",Anthropic稱之為臨時研究預(yù)覽,用來展示實時軟件生成能力。我覺得算是這次發(fā)布里最有趣也最有野心的一個產(chǎn)品了。該實驗中的功能并非預(yù)先確定,代碼也非預(yù)先編寫,而是由Claude實時創(chuàng)建,根據(jù)用戶交互進(jìn)行響應(yīng)和適應(yīng)。

它提供了一個類似帶輸入框的桌面界面,你可以通過自然語言去生成各類應(yīng)用。

比如我試了天氣預(yù)報、計算器、游戲、足球比賽實時比分看板等,很特別的是所有功能和界面都是流式生成,在你面前實時展現(xiàn)的。

而且,很多界面展示還沒功能,會在你點擊操作后,Claude會預(yù)測你下一步需要的功能和界面,再做后續(xù)的內(nèi)容/功能生成。我看到了Anthropic有種想再建一個AI native的操作系統(tǒng)的想法。

這是個很有趣的開始。

功能鏈接在此,需要Max會員才能用:https://claude.ai/imagine/

雖然Anthropic這家公司,以及他們的CEO在對華政策上有各種愚蠢的問題。但不得不承認(rèn)他們的模型在Coding、Agent上的領(lǐng)先性,這次的更新又將會是對AI編程產(chǎn)品和Agent產(chǎn)品不小的洗牌。

誰對Claude Sonnet 4.5模型的能力有最強(qiáng)的認(rèn)知,誰能用工程能力把這個模型的能力壓榨透,誰又能在這個新智能的基礎(chǔ)上構(gòu)建出新形態(tài)的產(chǎn)品,還真是無比值得期待。

而像“Imagine with Claude”這個功能實在是個初級得不能再初級的初代產(chǎn)品,但是它背后又隱藏著顛覆Windows的可能性,我覺得這會是個被重新開拓的新戰(zhàn)場,很高興身處在一個這么有趣的變化時代。

如果你覺得內(nèi)容對你有幫助,歡迎點贊、收藏、轉(zhuǎn)發(fā),這都是我最大的支持~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
被這張圖片驚出一身冷汗!

被這張圖片驚出一身冷汗!

中國民航人
2026-03-03 14:34:18
迪拜機(jī)場公司宣布:迪拜國際機(jī)場和阿勒馬克圖姆國際機(jī)場將有限度地恢復(fù)航班起降

迪拜機(jī)場公司宣布:迪拜國際機(jī)場和阿勒馬克圖姆國際機(jī)場將有限度地恢復(fù)航班起降

閃電新聞
2026-03-03 10:16:15
為何說美國打伊朗實際針對的是中國?我們會不會出手取決一個條件

為何說美國打伊朗實際針對的是中國?我們會不會出手取決一個條件

阿胡
2026-03-02 11:53:54
國家動真格了!不到48小時,4大名人禁言被封,沒有一個值得同情

國家動真格了!不到48小時,4大名人禁言被封,沒有一個值得同情

社會日日鮮
2026-03-03 05:19:50
塔吉特盤前股價擴(kuò)大漲幅,一度漲5.2%

塔吉特盤前股價擴(kuò)大漲幅,一度漲5.2%

每日經(jīng)濟(jì)新聞
2026-03-03 19:49:05
央視元宵晚會節(jié)目單來了!

央視元宵晚會節(jié)目單來了!

華商網(wǎng)
2026-03-03 14:49:32
一場戰(zhàn)爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

一場戰(zhàn)爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

達(dá)文西看世界
2026-03-02 14:25:12
街頭已大量出現(xiàn),不要踩!不要踩!

街頭已大量出現(xiàn),不要踩!不要踩!

南國今報
2026-03-01 20:00:00
剛剛,臺灣發(fā)生4.5級地震!福建網(wǎng)友:有震感!

剛剛,臺灣發(fā)生4.5級地震!福建網(wǎng)友:有震感!

海峽網(wǎng)
2026-03-03 20:29:01
痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

離離言幾許
2026-02-25 10:43:45
中科院研究員:都不相信中國能突破EUV,但我們已開始換道超車

中科院研究員:都不相信中國能突破EUV,但我們已開始換道超車

Thurman在昆明
2026-03-03 19:43:16
伊朗宣示不會與美國談判,拉里賈尼:他們不可能打了伊朗就一走了之

伊朗宣示不會與美國談判,拉里賈尼:他們不可能打了伊朗就一走了之

環(huán)球網(wǎng)資訊
2026-03-03 07:00:20
美國終于明白,當(dāng)年他們“誤炸”中國大使館,中國為什么不反擊

美國終于明白,當(dāng)年他們“誤炸”中國大使館,中國為什么不反擊

蜉蝣說
2025-10-07 16:08:53
A股:緊急提醒2.5億股民!從今天周二起,歷史或許總是驚人的相似!

A股:緊急提醒2.5億股民!從今天周二起,歷史或許總是驚人的相似!

股市皆大事
2026-03-03 09:10:04
不再執(zhí)教廣東男籃?杜鋒發(fā)聲,正式任命,新職務(wù)曝光,朱芳雨祝福

不再執(zhí)教廣東男籃?杜鋒發(fā)聲,正式任命,新職務(wù)曝光,朱芳雨祝福

萌蘭聊個球
2026-03-03 11:16:15
終于反噬!網(wǎng)約車大量低價單沒人接,司機(jī):報應(yīng)來了。

終于反噬!網(wǎng)約車大量低價單沒人接,司機(jī):報應(yīng)來了。

我不叫阿哏
2026-03-02 17:00:41
向太不再隱瞞!坦言劉德華和朱麗倩的真實狀況,原來我們都被騙了

向太不再隱瞞!坦言劉德華和朱麗倩的真實狀況,原來我們都被騙了

春風(fēng)笑語
2026-02-26 22:52:44
美媒:衛(wèi)星圖像顯示,疑似伊朗最大軍艦之一“莫克蘭”號在軍港起火冒出濃煙

美媒:衛(wèi)星圖像顯示,疑似伊朗最大軍艦之一“莫克蘭”號在軍港起火冒出濃煙

環(huán)球網(wǎng)資訊
2026-03-03 11:25:54
三大人民幣匯率報價全線大幅升值!

三大人民幣匯率報價全線大幅升值!

北京商報
2026-03-03 10:09:59
萊納德23分8籃板快船逆轉(zhuǎn)戰(zhàn)勝勇士,加蘭上演首秀12分2助攻

萊納德23分8籃板快船逆轉(zhuǎn)戰(zhàn)勝勇士,加蘭上演首秀12分2助攻

湖人崛起
2026-03-03 13:36:23
2026-03-03 23:36:49
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費榜第一的小貓補(bǔ)光燈app開發(fā)者
149文章數(shù) 66關(guān)注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

頭條要聞

阿聯(lián)酋總統(tǒng)現(xiàn)身迪拜購物中心喝咖啡 與小女孩合影

頭條要聞

阿聯(lián)酋總統(tǒng)現(xiàn)身迪拜購物中心喝咖啡 與小女孩合影

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車要聞

第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
健康
教育
家居

藝術(shù)要聞

Nihad Aghazada:當(dāng)代阿塞拜疆畫家

房產(chǎn)要聞

狂銷13億!近百位三亞頂豪買家,都在All in超級地中?!倫偅?/h3>

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

這樣學(xué)才像樣嘛!??!

家居要聞

萬物互聯(lián) 享科技福祉

無障礙瀏覽 進(jìn)入關(guān)懷版