国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Sonnet 4.5 上手:一個(gè)未來(lái) Agent 的雛形出現(xiàn)了

0
分享至

作者 | 董道力
郵箱 | dongdaoli@pingwest.com

9月30日,Anthropic 發(fā)布了新的編程模型 Claude Sonnet 4.5,在新聞稿的第一句就寫(xiě)到:Claude Sonnet 4.5 is the best coding model in the world.

換做別的公司我們可能會(huì)吐槽“又瘋一個(gè)”,但 Anthropic 在 AI 編程上的能力大家有目共睹,無(wú)論是大家搶著用的 Claude Sonnet 4 還是引領(lǐng)編程 Agent 的 Claude Code,換句話說(shuō) AI 編程的上限全靠 Anthropic 來(lái)突破。

那 Claude Sonnet 4.5 到底更新了什么東西,值不值得best coding model的稱(chēng)號(hào)?

提高跑分不是最大的變化

在最新的基準(zhǔn)測(cè)試中,Claude Sonnet 4.5 展現(xiàn)了全面領(lǐng)先的實(shí)力。

具體來(lái)看,Claude Sonnet 4.5 在 OSWorld 電腦使用測(cè)試中拿下 61.4%,成為最會(huì)“用電腦”的 AI。在工具調(diào)用上,Claude Sonnet 4.5 的表現(xiàn)尤為突出,它能真正調(diào)動(dòng)系統(tǒng)與工具,智能體能力更進(jìn)一步。它在金融、法律、醫(yī)學(xué)和STEM等專(zhuān)業(yè)領(lǐng)域的知識(shí)與推理上,遠(yuǎn)超此前的 Opus 4.1。

然而,相比前一代,它最大的變化不在于跑分,而是功能上的全面升級(jí)。

開(kāi)發(fā)體驗(yàn)上,Claude Code 增加了檢查點(diǎn)功能,支持隨時(shí)保存和回滾,降低出錯(cuò)成本;同時(shí)推出原生 VS Code 插件和全新終端界面,把模型能力直接嵌入工程師最常用的環(huán)境。在長(zhǎng)任務(wù)處理上,它引入上下文編輯和記憶工具,能保持長(zhǎng)時(shí)間連貫思路,據(jù)稱(chēng)可穩(wěn)定執(zhí)行超過(guò) 30 小時(shí)的復(fù)雜任務(wù)。

辦公應(yīng)用上,它通過(guò) Chrome 插件完成網(wǎng)頁(yè)導(dǎo)航、表格填寫(xiě)和文檔處理,并在 Claude 應(yīng)用中直接運(yùn)行代碼、生成表格、幻燈片和文檔,讓對(duì)話真正成為工作的入口。而對(duì)開(kāi)發(fā)者來(lái)說(shuō),最重磅的更新是Claude Agent SDK,Anthropic 首次開(kāi)放自家底層基礎(chǔ)設(shè)施,讓外部開(kāi)發(fā)者也能基于 Claude 構(gòu)建屬于自己的 Agent。

實(shí)測(cè)Claude Sonnet 4.5 編程能力,新特征想要 AI IDE 的命?

Devin 團(tuán)隊(duì)在測(cè)試 Claude Sonnet 4.5 時(shí),概括了三個(gè)明顯變化:一是更快更穩(wěn),運(yùn)行速度提升約兩倍,“初級(jí)開(kāi)發(fā)者評(píng)估”得分提高 12%。二是出現(xiàn)了外化記憶的傾向,模型會(huì)主動(dòng)生成總結(jié)或筆記文件來(lái)維持長(zhǎng)任務(wù)的連貫性;三是更積極地自我驗(yàn)證,會(huì)寫(xiě)小腳本或抓取頁(yè)面 HTML 來(lái)測(cè)試和修正方案。

不過(guò),冷靜來(lái)看,這些特征其實(shí)在許多 AI IDE 中早已有跡可循:Cursor、Windsurf、Replit Ghostwriter 早就能幫用戶(hù)生成文檔、維護(hù)項(xiàng)目記憶,甚至在改動(dòng)后自動(dòng)運(yùn)行測(cè)試。

差別在于,IDE 的功能是工程師預(yù)設(shè)的“外掛模塊”,而在 Claude Sonnet 4.5 身上,這些行為更像是模型自發(fā)形成的工作習(xí)慣,它會(huì)主動(dòng)寫(xiě) SUMMARY.md 給自己留后路,也會(huì)在必要時(shí)自動(dòng)生成小腳本來(lái)驗(yàn)證結(jié)果。換句話說(shuō),區(qū)別不在“有沒(méi)有”,而在于是外掛功能,還是模型的內(nèi)驅(qū)習(xí)慣。

從長(zhǎng)遠(yuǎn)來(lái)看,這種差別可能會(huì)決定未來(lái)開(kāi)發(fā)體驗(yàn)的走向:是繼續(xù)依賴(lài) IDE 提供的功能拼裝,還是讓大模型 Agent 自己演化出工作風(fēng)格。如果后者不斷成熟,Cursor 等 AI IDE 的優(yōu)勢(shì),或許真的會(huì)逐漸被大模型侵蝕。

我們讓 Claude Sonnet 4.5 寫(xiě)個(gè)小游戲項(xiàng)目。

prompts:基于Three.js制作一個(gè)3d賽車(chē)游戲

最直觀的感受就是快,生成網(wǎng)頁(yè)游戲時(shí)間不超過(guò)1分鐘。其次,Claude 不僅能聽(tīng)懂非常粗糙的指令,在第一輪對(duì)話中就生成一個(gè)可以直接運(yùn)行的游戲原型。后續(xù)的修改也非常順暢,只需一句簡(jiǎn)單的提示,比如調(diào)整速度、賽道寬度或添加箭頭標(biāo)識(shí),它都能迅速完成。而同樣的提示詞放在 Codex 中,初始階段并沒(méi)有直接生成完整的游戲框架。

首先是第一輪對(duì)話,Claude 輸出了一個(gè)基礎(chǔ)版本:玩家可以操控賽車(chē)前進(jìn)、后退和轉(zhuǎn)向,但車(chē)輛很容易沖出畫(huà)面。

經(jīng)過(guò)幾輪微調(diào)如控制轉(zhuǎn)彎幅度等,我進(jìn)一步要求 Claude 參考 F1 賽車(chē)的風(fēng)格,讓賽道更復(fù)雜。這是一個(gè)比較大幅度的修改,而 Claude 不僅增加了彎道,還在指示牌上進(jìn)行了美化,并且之前修改的內(nèi)容都沒(méi)有崩。

最后,為了提升可玩性,我提出希望在賽道上增加箭頭指示方向。Claude 起初生成的箭頭方向有些混亂,但只經(jīng)過(guò)一輪對(duì)話,它就完成了修正,使箭頭方向與跑道完美貼合。

Claude Sonnet 4.5 項(xiàng)目預(yù)覽:https://claude.ai/public/artifacts/037aac3a-c790-4dfa-bf69-baf3825d97d7

從這次小游戲?qū)嶒?yàn)可以看出,Claude Sonnet 4.5 的強(qiáng)大并不只體現(xiàn)在基準(zhǔn)測(cè)試的分?jǐn)?shù)上,而在于它能把自然語(yǔ)言轉(zhuǎn)換成可運(yùn)行項(xiàng)目的過(guò)程變得前所未有的流暢。

在以往,提示詞生成游戲代碼通常意味著大量返工:模型給出一個(gè)半成品,用戶(hù)要反復(fù)調(diào)試,甚至需要具備相當(dāng)?shù)木幊袒A(chǔ)。但在 Claude Sonnet 4.5 這里,非常流暢。

然而,上面的實(shí)測(cè)案例只是一個(gè)小玩具,真正的生產(chǎn)力還是要看具體的生產(chǎn)環(huán)境。

在 Reddit 上,一位開(kāi)發(fā)者用同樣的復(fù)雜前端 Bug 并排測(cè)試 Claude Sonnet 4.5 與 Codex,結(jié)果顯示:Codex 更善于定位根因,而 Claude Sonnet 4.5 經(jīng)常跑偏,甚至修復(fù)“已經(jīng)好的部分”。

評(píng)論區(qū)觀點(diǎn)分化,有人認(rèn)同 Claude Sonnet 4.5 在復(fù)雜調(diào)試?yán)锶菀酌月罚](méi)有宣傳的那么好。也有人強(qiáng)調(diào)它在前端問(wèn)題上比 Codex 更快。還有人認(rèn)為 Codex 更深度,但代價(jià)是更慢、更貴。

唯一的共識(shí)是:把 Claude 當(dāng)高產(chǎn)起草者,把 Codex 當(dāng)審校者,再配合日志和可觀測(cè)性工具,才是當(dāng)前更穩(wěn)妥的用法。

除了編程能力,Claude Sonnet 4.5 在 OSWorld 電腦使用測(cè)試中拿下 61.4%,這一點(diǎn)對(duì)于普通用戶(hù)來(lái)說(shuō),比編程能力更加有吸引力。

打開(kāi)桌面端 Claude(Mac),可以看到它有非常多的功能,控制谷歌瀏覽器、讀取記事本、操作Mac、Figma、PDF、Spotify等。

我們先用 Claude 來(lái)操控一下瀏覽器。

prompts:在chrome中打開(kāi)谷歌主頁(yè),搜索china daily,采集9月30日的最新新聞

Claude Sonnet 4.5 在控制 Chrome 時(shí),并非直接“跳到答案”,而是像用戶(hù)一樣逐步操作、并調(diào)用工具完成鏈路:先用 Open URL 打開(kāi) Google 首頁(yè),再用 Execute JavaScript 在搜索框輸入“china daily”并進(jìn)入官網(wǎng);隨后調(diào)用 Get Page Content 提取頁(yè)面內(nèi)容,若遇到報(bào)錯(cuò)則切換至官網(wǎng) Latest News 作為容錯(cuò)路徑,確保數(shù)據(jù)可得;最后通過(guò)內(nèi)部整理流程做時(shí)間過(guò)濾(僅保留 9 月 30 日)與版塊分類(lèi)(政治/經(jīng)濟(jì)/社會(huì)/國(guó)際)。

在詳情頁(yè)中可以看到,Claude Sonnet 4.5 為 Chrome 提供了一整套工具:既能打開(kāi)或關(guān)閉網(wǎng)頁(yè),也能刷新、后退、前進(jìn);還可以執(zhí)行 JavaScript 代碼來(lái)完成點(diǎn)擊、滑動(dòng)等操作,并直接提取網(wǎng)頁(yè)內(nèi)容。

我們?cè)賮?lái)實(shí)踐一個(gè)與電腦文件交互的案例。

prompts:在桌面搜索名字里帶Claude的文件夾,看看里面有哪些png文件,并把他們的文件名列出來(lái)

在配置好權(quán)限和路徑后,和控制 Chrome 一樣,Claude Sonnet 4.5 會(huì)調(diào)用擁有的文件處理工具,像人類(lèi)一樣思考一步一步完成上述的任務(wù)。

Claude 先從桌面路徑 /Users/ddlpc/Desktop 開(kāi)始,搜索所有名字里包含Claude的文件夾,一共找到四個(gè)。隨后逐一檢查這些文件夾的內(nèi)容。

從詳情頁(yè)中可以看到,該工具既能讀取單個(gè)或多個(gè)文件內(nèi)容,也能新建、編輯和寫(xiě)入文件,還可以創(chuàng)建目錄、列出目錄、查看目錄樹(shù)結(jié)構(gòu),甚至移動(dòng)文件、搜索文件、獲取文件信息,并管理可訪問(wèn)的目錄范圍。

而這樣的工具,Claude 還有很多。

Claude Sonnet 4.5 的出現(xiàn),不只是跑分上的勝利。它正在模糊一條界限:大模型到底是一個(gè)生成器,還是一個(gè)能動(dòng)的智能體?檢查點(diǎn)、長(zhǎng)程記憶、Agent SDK、對(duì) Chrome 的直接操控,這些都讓它越來(lái)越像一個(gè)能自己處理任務(wù)的數(shù)字同事。

當(dāng)然,它依舊不完美:調(diào)試會(huì)迷路,執(zhí)行會(huì)跑偏。但這恰恰說(shuō)明,它不是一把無(wú)所不能的工具,而是一個(gè)需要協(xié)作、需要工程化約束的伙伴。而且過(guò)幾個(gè)月,Anthropic 會(huì)不會(huì)偷偷砍 Claude Sonnet 4.5 一刀,強(qiáng)行降智,誰(shuí)也不知道。

但有一點(diǎn)可以肯定,這可能是我們最后一次用這些曾經(jīng)難以想象但今天正變得“小兒科”的測(cè)試案例來(lái)評(píng)測(cè)Claude以及緊追它其后的各種模型。這就是今天AI Coding從模型到產(chǎn)品的狂奔速度,接下來(lái)只會(huì)更瘋狂。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4月車(chē)市暴跌真相:消費(fèi)者為什么不買(mǎi)車(chē)了?

4月車(chē)市暴跌真相:消費(fèi)者為什么不買(mǎi)車(chē)了?

小李子體育
2026-04-22 12:39:36
爭(zhēng)議拉滿!亞馬爾直接表態(tài):姆巴佩維尼修斯,不是世界最佳

爭(zhēng)議拉滿!亞馬爾直接表態(tài):姆巴佩維尼修斯,不是世界最佳

體育閑話說(shuō)
2026-04-21 21:26:06
剖析項(xiàng)英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個(gè)私心

剖析項(xiàng)英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個(gè)私心

阿胡
2025-04-20 11:05:46
TVB女星周末澳門(mén)開(kāi)唱感緊張,自爆彩排前發(fā)生食物中毒

TVB女星周末澳門(mén)開(kāi)唱感緊張,自爆彩排前發(fā)生食物中毒

TVB劇評(píng)社
2026-04-22 23:54:07
性侵崔麗麗主管2年前已卸任公司負(fù)責(zé)人

性侵崔麗麗主管2年前已卸任公司負(fù)責(zé)人

雷達(dá)財(cái)經(jīng)
2026-04-22 10:27:08
失業(yè)后在小縣城的兩年發(fā)現(xiàn),打麻將和性生活才是普通人底色!

失業(yè)后在小縣城的兩年發(fā)現(xiàn),打麻將和性生活才是普通人底色!

黯泉
2026-04-01 17:44:20
驚天揭秘!中南醫(yī)院女醫(yī)護(hù)與權(quán)色交易的背后真相!

驚天揭秘!中南醫(yī)院女醫(yī)護(hù)與權(quán)色交易的背后真相!

人生錄
2026-04-22 11:49:14
女教師賣(mài)自拍淫穢視頻獲利24萬(wàn),將自己裸體視頻與和他人的性愛(ài)視頻通過(guò)發(fā)送鏈接,出售給他人觀看

女教師賣(mài)自拍淫穢視頻獲利24萬(wàn),將自己裸體視頻與和他人的性愛(ài)視頻通過(guò)發(fā)送鏈接,出售給他人觀看

觀威海
2026-03-22 07:59:02
香港豪門(mén)“壞女孩”去世:襲警、毆打父母,她的一生比電影還離譜

香港豪門(mén)“壞女孩”去世:襲警、毆打父母,她的一生比電影還離譜

云舟史策
2026-03-12 12:40:43
這才是真正的高人(非常經(jīng)典)

這才是真正的高人(非常經(jīng)典)

尚曦讀史
2026-04-13 08:30:06
破案了!馬寧被驅(qū)逐真相出爐,沙特媒體造謠實(shí)錘!

破案了!馬寧被驅(qū)逐真相出爐,沙特媒體造謠實(shí)錘!

綠茵舞著
2026-04-22 10:40:23
毛主席雖活了83歲,保健醫(yī)生卻說(shuō):其實(shí)毛主席不具備長(zhǎng)壽條件

毛主席雖活了83歲,保健醫(yī)生卻說(shuō):其實(shí)毛主席不具備長(zhǎng)壽條件

冰語(yǔ)歷史
2026-03-07 00:46:39
日本自衛(wèi)隊(duì)坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

日本自衛(wèi)隊(duì)坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

之乎者也小魚(yú)兒
2026-04-21 15:25:57
全AI生成電影引熱議,出品方九紫源:演員的臉是否已授權(quán)還不能透露

全AI生成電影引熱議,出品方九紫源:演員的臉是否已授權(quán)還不能透露

新京報(bào)
2026-04-22 15:02:09
15 分鐘破萬(wàn)單!問(wèn)界M6上市,25.98萬(wàn)起!

15 分鐘破萬(wàn)單!問(wèn)界M6上市,25.98萬(wàn)起!

小南看車(chē)
2026-04-22 23:11:03
羅曼太空望遠(yuǎn)鏡提前完工,NASA計(jì)劃9月發(fā)射

羅曼太空望遠(yuǎn)鏡提前完工,NASA計(jì)劃9月發(fā)射

NASA愛(ài)好者
2026-04-23 01:28:03
配合走私車(chē)輛出境?理想汽車(chē)法務(wù)部回應(yīng)

配合走私車(chē)輛出境?理想汽車(chē)法務(wù)部回應(yīng)

第一財(cái)經(jīng)資訊
2026-04-22 22:48:43
伊朗軍艦軍演返航時(shí)遭美軍擊沉致87死,幸存船員講述細(xì)節(jié):那里并非戰(zhàn)區(qū),事先沒(méi)有收到任何警告,他們的目標(biāo)是殺人

伊朗軍艦軍演返航時(shí)遭美軍擊沉致87死,幸存船員講述細(xì)節(jié):那里并非戰(zhàn)區(qū),事先沒(méi)有收到任何警告,他們的目標(biāo)是殺人

每日經(jīng)濟(jì)新聞
2026-04-22 00:08:27
健身房罵人后續(xù):大媽追到大廳繼續(xù)罵,正面曝光已社死,老底被扒

健身房罵人后續(xù):大媽追到大廳繼續(xù)罵,正面曝光已社死,老底被扒

荷蘭豆愛(ài)健康
2026-04-21 15:48:45
采訪了100個(gè)娶了小三的男人,他們幾乎都說(shuō)了同一句話,讓人恍然

采訪了100個(gè)娶了小三的男人,他們幾乎都說(shuō)了同一句話,讓人恍然

千秋文化
2026-04-15 20:18:32
2026-04-23 02:39:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
272文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

伊朗:特朗普“又說(shuō)謊了”

頭條要聞

伊朗:特朗普“又說(shuō)謊了”

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

蜜雪冰城泰國(guó)代言人 被扒出辱華黑歷史

財(cái)經(jīng)要聞

醫(yī)院專(zhuān)家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車(chē)要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

旅游
時(shí)尚
教育
手機(jī)
健康

旅游要聞

“運(yùn)上行”周五首航

用了8年還心動(dòng),這筆錢(qián)是花得真值啊

教育要聞

3分鐘學(xué)會(huì)一個(gè)雅思7分句/段(第340期)

手機(jī)要聞

消息稱(chēng)部分廠商停更Ultra級(jí)別旗艦手機(jī),Pro Max機(jī)型成重頭戲

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版