国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

30小時(shí),1.1萬行代碼,Claude Sonnet 4.5 做了什么?

0
分享至

全文 2,000字 | 閱讀約 6 分鐘


Anthropic CPO:談Sonnet 4.5的設(shè)計(jì)核心“品味”)

2025 年 9 月 29 日,Anthropic 發(fā)布新一代前沿模型:Claude Sonnet 4.5。這款模型的最大亮點(diǎn),不是性能跑分,而是持續(xù)運(yùn)行能力和任務(wù)完整度。


在一次真實(shí)測(cè)試中,Claude Sonnet 4.5 自主運(yùn)行 30 小時(shí),完成了一個(gè)類似釘釘、飛書的企業(yè)聊天應(yīng)用開發(fā)。 核心突破:

AI 不是生成原型,而是真的獨(dú)自交付產(chǎn)品。

這意味著什么?

AI 第一次完整跑通了一個(gè)工程流程,從代碼到部署,真正實(shí)現(xiàn)了生產(chǎn)級(jí)應(yīng)用的自主開發(fā)。

在 AI 編程大戰(zhàn)中,風(fēng)向正在轉(zhuǎn)變。GPT-5 推理能力剛剛引發(fā)熱議,Anthropic 就憑借 Claude 奪下了“最強(qiáng)編程模型”的寶座。同時(shí)發(fā)布的還包括 Agent SDK(智能代理開發(fā)工具包)、升級(jí)版 Claude Code 插件、VS Code 環(huán)境集成、長任務(wù)恢復(fù)系統(tǒng)等一整套工程自動(dòng)化基礎(chǔ)設(shè)施。

這一次,Claude 不是來輔助你,而是告訴你:

AI,可以獨(dú)立承擔(dān)完整的開發(fā)任務(wù)了。

第一節(jié)|30小時(shí)能做什么?

(Claude Sonnet 4.5:30小時(shí)自主開發(fā)完整應(yīng)用)

“30 小時(shí)能干什么?”

在企業(yè)場景里,這不是一個(gè)驚艷的數(shù)字。但對(duì)于 AI 模型來說,能連續(xù)自主運(yùn)行 30 小時(shí)并完成完整項(xiàng)目,是一道從未被跨過的門檻。

Anthropic 沒有發(fā) PPT,也沒做演示。他們直接公布了 Claude Sonnet 4.5 的實(shí)測(cè)表現(xiàn):生成超 1.1 萬行代碼,自動(dòng)構(gòu)建一個(gè)完整的企業(yè)聊天應(yīng)用,直到任務(wù)完成才主動(dòng)停下。

這中間,它做了這些事:

  • 創(chuàng)建數(shù)據(jù)庫并完成配置

  • 注冊(cè)域名、設(shè)置托管

  • 通過 SOC 2 審計(jì)流程,確保數(shù)據(jù)合規(guī)

  • 交付可運(yùn)行、可部署、可測(cè)試的完整工程

這一能力,在業(yè)內(nèi)被稱為“生產(chǎn)級(jí)別”開發(fā),之前從未有模型做到。

? 穩(wěn)定性:從“會(huì)寫”到“能做”

Anthropic 研究員 David Hershey 在采訪中表示:

“在早期測(cè)試中,Claude 4.5 能連續(xù)處理多個(gè)相互關(guān)聯(lián)的復(fù)雜任務(wù),不僅不出錯(cuò),還能自己識(shí)別進(jìn)度、保持節(jié)奏?!?/p>

Cursor CEO Michael Truell 說:

“這是我見過在長周期任務(wù)里表現(xiàn)最穩(wěn)定的編程模型?!?/p>

Windsurf CEO Jeff Wang 看到了更深層的意義:

“Claude Sonnet 4.5 不是升級(jí),是換代。它標(biāo)志著新一代 AI 編程模型的起點(diǎn)?!?/p>

三位行業(yè)領(lǐng)袖的共識(shí):長周期任務(wù)的穩(wěn)定性,才是真正的突破。

評(píng)測(cè)驗(yàn)證:能不能干正事

Anthropic 提供了一組權(quán)威數(shù)據(jù):


(Claude Sonnet 4.5 在 SWE-bench Verified 評(píng)估中名列前茅)


(Claude Sonnet 4.5 是Anthropic 迄今為止最強(qiáng)大的模型)

在 SWE-bench Verified(真實(shí)代碼修改任務(wù))中,Claude Sonnet 4.5 排名第一,領(lǐng)先 GPT-4 和 Gemini;在 OSWorld(模擬實(shí)際電腦操作)中,得分從上一代的 42.2% 躍升至 61.4%,提升近 50%。

這些評(píng)測(cè)不看模型能生成多少字、答對(duì)幾道題,而是看它能不能把復(fù)雜任務(wù)做完做對(duì)

? 實(shí)戰(zhàn)反饋:工程師怎么說

Canva 工程團(tuán)隊(duì)已經(jīng)在用 Claude Sonnet 4.5,他們的反饋很真實(shí):

“讓它處理代碼庫工程任務(wù),或生成產(chǎn)品研究模塊,它都能做得很完整?!?/p>

Anthropic 產(chǎn)品負(fù)責(zé)人 Dianne Penn 接受采訪時(shí)坦言,她自己都被驚到了:

“從 GitHub 和 Cursor 那邊收到的真實(shí)反饋顯示,Sonnet 4.5 在瀏覽器導(dǎo)航、系統(tǒng)操作上的熟練度,比上一代提升了三倍以上?!?/p>

這不只是"能理解",而是真能動(dòng)手干活。

重點(diǎn)突破:可交付

關(guān)鍵不在于模型能跑多久,而在于它真正具備了"完成一件事"的能力。在開發(fā)流程中,這有個(gè)專業(yè)術(shù)語:交付。

GPT-5 強(qiáng)調(diào)推理能力的提升,Claude Sonnet 4.5 則在回答另一個(gè)問題:AI 能不能真的撐起一個(gè)完整的工程環(huán)節(jié)?

答案是:能了。

第二節(jié)|從工具到平臺(tái):Agent SDK 帶來了什么?

AI 能不能真正落地,靠的從來不只是模型本身。

Anthropic 這次沒有只發(fā)布 Claude Sonnet 4.5,而是連同一整套基礎(chǔ)設(shè)施一起上線,名為:Claude Agent SDK。

它不是寫給研究員的,是寫給開發(fā)者的。這是一套讓你能“組裝專屬 AI 助手”的完整工具包。

?SDK 能做什么?

用它可以:

  • 給 AI 設(shè)定明確目標(biāo):“幫我把客戶信息處理好再導(dǎo)出表格”

  • 管理 AI 的記憶:讓它知道上一階段做了什么,現(xiàn)在該繼續(xù)什么

  • 分配操作權(quán)限:哪些能自主完成,哪些必須等你確認(rèn)

  • 協(xié)調(diào)多個(gè) AI:讓它們配合完成更復(fù)雜的任務(wù)

這些看似復(fù)雜,其實(shí)都是工程里的基礎(chǔ)能力,只是以前沒人讓 AI 來做。

這套工具包原本是 Anthropic 內(nèi)部使用的,支撐著 Claude Code 的運(yùn)行?,F(xiàn)在他們決定開放給所有開發(fā)者:

“我們把支撐 Claude Code 的構(gòu)建模塊打包成 SDK,開發(fā)者可以用同一套機(jī)制,構(gòu)建屬于自己的 AI 代理。”

通俗點(diǎn)說:你不用從零開發(fā),可以直接基于這套框架,快速搭建適合業(yè)務(wù)需求的 AI 助手。無論是項(xiàng)目執(zhí)行器、數(shù)據(jù)處理工具,還是客戶服務(wù)機(jī)器人,都能實(shí)現(xiàn)。

? 為什么這一步關(guān)鍵?

這代表一個(gè)重要轉(zhuǎn)向:從使用工具,到定制助手。

就像過去你用 Excel 處理數(shù)據(jù),現(xiàn)在你可以用 Excel 的組件搭建一個(gè)專門處理財(cái)務(wù)的智能工具。

Anthropic 產(chǎn)品負(fù)責(zé)人 Dianne Penn 直接分享了她的實(shí)踐:

“我招人時(shí),讓 Claude 做深度網(wǎng)絡(luò)搜索,篩選 LinkedIn 個(gè)人資料,生成表格方便我聯(lián)系。這個(gè)流程現(xiàn)在可以打包成一個(gè) Agent,每次打開就能自動(dòng)運(yùn)行。”

她還補(bǔ)充道:

“我們過去半年更新 Claude Code 時(shí)遇到的工程難題,比如權(quán)限管理、記憶存儲(chǔ)、錯(cuò)誤回滾,都整理進(jìn)了 SDK。”

有了這套完整工具,Claude Sonnet 4.5 的意義就不一樣了:AI 不再只是調(diào)用接口的“產(chǎn)品”,而是能嵌入業(yè)務(wù)流程、真正干活的“角色”。

能力變強(qiáng)是起點(diǎn),能落地才是終點(diǎn)。

第三節(jié)|閉環(huán)能力的核心:AI 如何“做完一件事”

很多人對(duì)“AI 寫代碼”的理解,還停留在補(bǔ)全函數(shù)、修改 bug。

但 Claude Sonnet 4.5 展示的,是另一個(gè)維度的能力:完整跑通一個(gè)任務(wù)

?什么是“閉環(huán)”?

在工程領(lǐng)域,“閉環(huán)”指的是:從接到需求,到交付成果,整個(gè)過程不需要外部干預(yù)。

具體到 AI 編程,閉環(huán)意味著:

  • 理解任務(wù)目標(biāo)

  • 規(guī)劃執(zhí)行步驟

  • 處理中間異常

  • 驗(yàn)證最終結(jié)果

  • 自主判斷何時(shí)結(jié)束

這不是寫得快,而是“做得完”。

1、從"會(huì)做"到"做完"的跨越

Anthropic 研究員 David Hershey 在采訪中強(qiáng)調(diào):

“我們關(guān)注的不是 Claude 能不能生成某個(gè)模塊,而是它能不能自己安排順序、處理中斷、補(bǔ)全遺漏。”

這正是閉環(huán)能力的核心:過程管理。

Canva 測(cè)試團(tuán)隊(duì)的反饋也印證了這點(diǎn):

“Claude 處理我們代碼庫任務(wù)時(shí),不光能跟上邏輯,還能理解產(chǎn)品里的復(fù)雜規(guī)則,在不同功能模塊間靈活切換。”

2、從靜態(tài)到動(dòng)態(tài)的進(jìn)化

Dianne Penn 在采訪中提到了一個(gè)對(duì)比:

“去年 10 月,Claude 還只能處理靜態(tài)頁面;現(xiàn)在它能完成整套瀏覽器操作,查日程、整理會(huì)議紀(jì)要、輸出日?qǐng)?bào)?!?/p>

產(chǎn)品負(fù)責(zé)人 Scott White 的比喻更直觀:

“Claude 的工作方式,接近一個(gè)助理。你要開會(huì),它能查出所有人的空檔時(shí)間,看數(shù)據(jù)儀表板,總結(jié)成狀態(tài)更新。”

關(guān)鍵轉(zhuǎn)變?cè)谟冢簭膯未雾憫?yīng)到持續(xù)協(xié)作。

? 實(shí)現(xiàn)閉環(huán)的三個(gè)支柱

Claude 的閉環(huán)能力,依靠三項(xiàng)底層機(jī)制:

1. 上下文管理
通過 Agent SDK 的內(nèi)存系統(tǒng),記住整個(gè)任務(wù)的歷史狀態(tài),避免重復(fù)或遺漏。

2. 權(quán)限機(jī)制
在需要人工確認(rèn)的環(huán)節(jié)主動(dòng)暫停,在可自主完成的部分自動(dòng)推進(jìn)。

3. 檢查點(diǎn)系統(tǒng)
自動(dòng)保存進(jìn)度,出錯(cuò)時(shí)能回滾到最近的穩(wěn)定狀態(tài),而不是從頭開始。

這三項(xiàng)機(jī)制,讓 AI 從“工具”變成了“執(zhí)行者”。

真正的問題不是能力,是信任

當(dāng) AI 真的能完整跑完任務(wù),決策權(quán)就轉(zhuǎn)移了:不是我要不要用 AI, 而是我要不要讓 AI 獨(dú)立完成這件事。

這不是技術(shù)問題,是協(xié)作模式的重構(gòu)。

結(jié)語|真正的轉(zhuǎn)折點(diǎn)

Claude Sonnet 4.5 的意義,不在參數(shù)升級(jí),不在跑分領(lǐng)先。

而在于:AI 第一次能把完整的工作做完。

不是生成幾行代碼,而是接住任務(wù)、自主推進(jìn)、交付結(jié)果。

過去,AI 是輔助工具,人帶著它一起做事?,F(xiàn)在,Claude 開始回答另一個(gè)問題:AI 能不能獨(dú)立完成一段工作?

這一次,能了。

這次更新真正的信號(hào)是:模型競爭的標(biāo)準(zhǔn)變了。不再比誰更聰明,而是比誰更可靠、誰能閉環(huán)。

這是 AI 落地的分水嶺。

現(xiàn)在的問題不是它能不能做到,而是:你準(zhǔn)備好把完整任務(wù)交給它了嗎?

本文由AI深度研究院出品,內(nèi)容整理自Anthropic 官方博客、TechCrunch、The Verge。未經(jīng)授權(quán),禁止轉(zhuǎn)載。

星標(biāo)公眾號(hào), 點(diǎn)這里 1. 點(diǎn)擊右上角 2. 點(diǎn)擊"設(shè)為星標(biāo)" ← AI深度研究員 ? ← 設(shè)為星標(biāo)

參考資料:

https://www.anthropic.com/news/claude-sonnet-4-5

https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy

https://techcrunch.com/2025/09/29/anthropic-launches-claude-sonnet-4-5-its-best-ai-model-for-coding/?utm_campaign=social&utm_source=X&utm_medium=organic

https://www.youtube.com/watch?v=dGiqrsv530Y

https://x.com/tbpn/status/1972750991742349731

來源:官方媒體/網(wǎng)絡(luò)新聞

排版:Atlas

編輯:深思

主編: 圖靈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
讓二追三失敗,吳易昺2-3不敵斯皮齊里,中國男單軍團(tuán)全軍覆沒

讓二追三失敗,吳易昺2-3不敵斯皮齊里,中國男單軍團(tuán)全軍覆沒

懂球帝
2026-01-22 15:50:20
“投資銅條”火爆銷售!有金屬加工廠稱“通宵加工,一晚出貨幾噸”,專家直言娛樂意義更大

“投資銅條”火爆銷售!有金屬加工廠稱“通宵加工,一晚出貨幾噸”,專家直言娛樂意義更大

每日經(jīng)濟(jì)新聞
2026-01-22 00:21:05
“性商第一網(wǎng)紅”周媛爆火!一夜收割2400萬

“性商第一網(wǎng)紅”周媛爆火!一夜收割2400萬

廣告案例精選
2026-01-22 09:08:49
普京:愿意向“和平委員會(huì)”提供10億美元

普京:愿意向“和平委員會(huì)”提供10億美元

新京報(bào)政事兒
2026-01-22 07:12:22
勇士經(jīng)理銳評(píng)庫明加交易申請(qǐng):得有別的隊(duì)要你才能申請(qǐng)交易啊

勇士經(jīng)理銳評(píng)庫明加交易申請(qǐng):得有別的隊(duì)要你才能申請(qǐng)交易啊

懂球帝
2026-01-22 14:33:14
中方重申:日本根本沒有資格要求“入?!?>
    </a>
        <h3>
      <a href=中方重申:日本根本沒有資格要求“入?!?/a> 海外網(wǎng)
2026-01-22 07:06:04
1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

南權(quán)先生
2026-01-20 15:49:53
突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導(dǎo)致,兒子才兩歲

突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導(dǎo)致,兒子才兩歲

裕豐娛間說
2026-01-22 08:56:07
確認(rèn)!中國隊(duì)進(jìn)決賽僅1天,球隊(duì)不會(huì)解散再留9個(gè)月,足協(xié)決定曝光

確認(rèn)!中國隊(duì)進(jìn)決賽僅1天,球隊(duì)不會(huì)解散再留9個(gè)月,足協(xié)決定曝光

侃球熊弟
2026-01-22 00:08:46
歐洲發(fā)生嚴(yán)重高鐵事故,西方輿論罕見沉默,如果列車是中國制造?

歐洲發(fā)生嚴(yán)重高鐵事故,西方輿論罕見沉默,如果列車是中國制造?

紀(jì)中百大事
2026-01-21 22:10:58
浴血山河:烏軍計(jì)劃每月殲敵5萬人,俄占領(lǐng)區(qū)強(qiáng)征引發(fā)兵變

浴血山河:烏軍計(jì)劃每月殲敵5萬人,俄占領(lǐng)區(qū)強(qiáng)征引發(fā)兵變

史政先鋒
2026-01-21 21:05:49
女子違停豎中指挑釁被撞:正臉被扒已社死,內(nèi)情流出,司機(jī)疑發(fā)聲

女子違停豎中指挑釁被撞:正臉被扒已社死,內(nèi)情流出,司機(jī)疑發(fā)聲

社會(huì)日日鮮
2026-01-22 00:48:44
浙江有人領(lǐng)走88888888馬年紀(jì)念鈔,銀行工作人員:號(hào)碼隨機(jī)分配,全憑運(yùn)氣

浙江有人領(lǐng)走88888888馬年紀(jì)念鈔,銀行工作人員:號(hào)碼隨機(jī)分配,全憑運(yùn)氣

環(huán)球網(wǎng)資訊
2026-01-22 14:44:45
問政江蘇|鎮(zhèn)江丹徒一處3600平違建存續(xù)8年?屬地政府:違建人患病,不能強(qiáng)拆

問政江蘇|鎮(zhèn)江丹徒一處3600平違建存續(xù)8年?屬地政府:違建人患病,不能強(qiáng)拆

揚(yáng)子晚報(bào)
2026-01-22 14:32:57
事做太絕了!徐帆回應(yīng)離婚5個(gè)月近況曝光,體面被馮小剛徹底撕碎

事做太絕了!徐帆回應(yīng)離婚5個(gè)月近況曝光,體面被馮小剛徹底撕碎

李橑在北漂
2026-01-21 22:26:50
“原來走讀更容易學(xué)壞”,家長曬叛逆女兒,網(wǎng)友:可能已經(jīng)懷孕了

“原來走讀更容易學(xué)壞”,家長曬叛逆女兒,網(wǎng)友:可能已經(jīng)懷孕了

妍妍教育日記
2026-01-21 18:16:13
大規(guī)??棺h爆發(fā), 針對(duì)華人! 本地人在海邊用中文橫幅抵制! 小紅書帖子竟成鐵證

大規(guī)??棺h爆發(fā), 針對(duì)華人! 本地人在海邊用中文橫幅抵制! 小紅書帖子竟成鐵證

澳微Daily
2026-01-21 15:09:57
當(dāng)江青還不叫江青時(shí),她是這樣的

當(dāng)江青還不叫江青時(shí),她是這樣的

深度報(bào)
2026-01-21 22:36:36
亞足聯(lián)確認(rèn)!中國隊(duì)vs日本隊(duì),3大主力累積2黃卻不停賽,原因曝光

亞足聯(lián)確認(rèn)!中國隊(duì)vs日本隊(duì),3大主力累積2黃卻不停賽,原因曝光

侃球熊弟
2026-01-22 12:14:31
跑再快也沒用!43歲跑友鐘長運(yùn)去世!死因曝光 距全馬終點(diǎn)僅200米

跑再快也沒用!43歲跑友鐘長運(yùn)去世!死因曝光 距全馬終點(diǎn)僅200米

凡知
2026-01-22 06:04:44
2026-01-22 16:23:00
AI深度研究員 incentive-icons
AI深度研究員
AI時(shí)代剛剛到來,一切才剛開始,我們正當(dāng)其時(shí)!
366文章數(shù) 158關(guān)注度
往期回顧 全部

科技要聞

幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

頭條要聞

特朗普邀請(qǐng)普京加入和平委員會(huì):他辦實(shí)事 影響力巨大

頭條要聞

特朗普邀請(qǐng)普京加入和平委員會(huì):他辦實(shí)事 影響力巨大

體育要聞

珍妮回應(yīng)爆料:湖人不感激詹姆斯付出絕非事實(shí)

娛樂要聞

鐘麗緹土耳其高空落淚 與張倫碩擁吻

財(cái)經(jīng)要聞

申通快遞創(chuàng)始人被前夫索要股份

汽車要聞

今年集中上市 旅行車的春天可能真要來了

態(tài)度原創(chuàng)

藝術(shù)
教育
手機(jī)
房產(chǎn)
公開課

藝術(shù)要聞

一場雪,飄進(jìn)了唐詩

教育要聞

無數(shù)家長踩坑:你的反復(fù)"提醒",正在摧毀孩子自信和動(dòng)力...

手機(jī)要聞

小米澎湃OS 3 Beta第二期招募開啟:小米17系列等8款機(jī)型搶先適配

房產(chǎn)要聞

那個(gè)砸下400億的綠地,又要?dú)⒒睾D狭耍?/h3>

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版