国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic再發(fā)Agent神文:像人類工程師一樣思考,解決「長程任務(wù)」難題

0
分享至


↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時間接收到更新

Anthropic再發(fā)Agent工程實(shí)踐神文:Effective harnesses for long-running agents(適用于長期運(yùn)行Agents的有效工具),強(qiáng)烈建議大家圍觀閱讀

之前我介紹過Anthropic Agent文章合集這里:

隨著AI Agent能力的提升,開發(fā)者開始要求它們承擔(dān)跨越數(shù)小時甚至數(shù)天的復(fù)雜任務(wù)。然而,如何讓Agent在多個上下文窗口之間保持一致的進(jìn)度,仍然是一個未解難題

長程Agent面臨的核心挑戰(zhàn)在于,它們必須分“會話”(Session)工作,而每個新會話開始時都像是一個沒有過往記憶的新工程師接班。由于上下文窗口有限,且復(fù)雜項(xiàng)目無法在單一窗口內(nèi)完成,Agent需要一種機(jī)制來彌合編碼會話之間的鴻溝

Anthropic工程團(tuán)隊(duì)通過觀察人類工程師的工作方式,為Claude Agent SDK開發(fā)了一套包含兩個部分的解決方案:初始化Agent(Initializer Agent)和編碼Agent(Coding Agent)

核心挑戰(zhàn):上下文壓縮還不夠

Claude Agent SDK是一個通用的Agent框架,具備上下文管理功能(如壓縮),理論上應(yīng)能讓Agent無限期工作

但在實(shí)際測試中(例如要求最新的Opus 4.5構(gòu)建一個claude.ai的克隆版),僅靠上下文壓縮是不夠的。Claude主要表現(xiàn)出兩種失敗模式:

1.試圖一次性完成所有工作:Agent傾向于在一次會話中做太多事,導(dǎo)致中途耗盡上下文,留下的功能只完成了一半且缺乏文檔。下一個會話的Agent必須猜測之前發(fā)生了什么,浪費(fèi)大量時間修復(fù)基礎(chǔ)應(yīng)用

2.過早宣布完工: 在項(xiàng)目后期,新的Agent實(shí)例看到已經(jīng)有一些功能,就誤以為整個工作已完成

解決方案:雙Agent架構(gòu)

Anthropic將問題分解,提出了雙重解決方案:

初始化Agent:第一個會話使用專用提示詞,負(fù)責(zé)搭建環(huán)境。包括生成init.sh腳本、記錄進(jìn)度的claude-progress.txt文件,以及展示文件添加情況的初始Git提交

編碼Agent:后續(xù)的每一個會話都致力于取得增量進(jìn)展,并留下結(jié)構(gòu)化的更新

這一方案的關(guān)鍵在于讓Agent在開啟新窗口時能迅速理解工作狀態(tài)——這主要通過claude-progress.txt文件和Git歷史記錄來實(shí)現(xiàn)

環(huán)境管理的三大支柱

為了支持這種工作流,環(huán)境設(shè)置包含以下關(guān)鍵組件:

1. 功能列表(Feature List)

為了防止Agent一次性蠻干或過早結(jié)束,初始化Agent被要求編寫一個包含所有功能需求的詳細(xì)文件。在claude.ai克隆案例中,這包含超過200個功能點(diǎn)。

這些功能最初都被標(biāo)記為“failing”(未通過),為后續(xù)Agent提供了清晰的工作全景圖

JSON文件示例:

{
"category": "functional",
"description": "New chat button creates a fresh conversation",
"steps": [
"Navigate to main interface",
"Click the 'New Chat' button",
"Verify a new conversation is created",
"Check that chat area shows welcome state",
"Verify conversation appears in sidebar"
],
"passes": false
}

實(shí)驗(yàn)發(fā)現(xiàn),使用JSON格式優(yōu)于Markdown,因?yàn)槟P筒惶菀族e誤地更改或覆蓋JSON文件。同時,提示詞需包含強(qiáng)硬指令,禁止刪除或編輯測試,只允許更改passes字段的狀態(tài)

2. 增量進(jìn)展(Incremental Progress)

有了初始腳手架后,編碼Agent被要求一次只做一個功能

為了保持環(huán)境整潔,Agent需要在每次代碼變更后:

通過Git提交代碼,并附帶描述性信息;

在進(jìn)度文件中撰寫摘要

這使得模型可以利用Git回滾錯誤代碼,恢復(fù)到工作狀態(tài),避免了后續(xù)Agent需要猜測前任做了什么的情況。

3. 端到端測試

Claude的另一個主要失敗模式是:在沒有適當(dāng)測試的情況下標(biāo)記功能為完成。它往往只做單元測試或簡單的curl命令,卻忽略了端到端的驗(yàn)證。

解決方案是明確提示Claude使用瀏覽器自動化工具(如Puppeteer MCP server),像人類用戶一樣進(jìn)行測試。通過讓Claude看到屏幕截圖,它能識別并修復(fù)代碼中不明顯的Bug

快速上手流程(Getting up to speed)

基于上述架構(gòu),每個編碼Agent在會話開始時都會被提示執(zhí)行一系列標(biāo)準(zhǔn)步驟:

  1. 1. 運(yùn)行pwd查看當(dāng)前工作目錄。

  2. 2. 閱讀Git日志和進(jìn)度文件,了解最近完成了什么。

  3. 3. 閱讀功能列表文件,選擇一個未完成的最高優(yōu)先級功能。

  4. 4. 運(yùn)行init.sh啟動開發(fā)服務(wù)器。

  5. 5. 在實(shí)現(xiàn)新功能前,先運(yùn)行基本的端到端測試,確保應(yīng)用未處于損壞狀態(tài)。

典型會話流程示例:

[Assistant] 我先了解一下項(xiàng)目當(dāng)前狀態(tài)。 [Tool Use] [Tool Use] [Tool Use] [Assistant] 檢查Git日志... [Tool Use] [Assistant] 檢查是否有啟動腳本并重啟服務(wù)器... [Assistant] 現(xiàn)在驗(yàn)證基本功能是否正常... [Assistant] 驗(yàn)證通過?,F(xiàn)在我查看 tests.json 決定下一步做什么。
常見故障模式與修復(fù)方案總結(jié)

問題

初始化Agent行為

編碼Agent行為

Claude過早宣布項(xiàng)目全部完成

根據(jù)輸入規(guī)格,建立包含詳細(xì)功能描述的結(jié)構(gòu)化JSON文件。

會話開始時讀取功能列表,只選擇一個功能開始工作。

環(huán)境遺留Bug或無文檔記錄

建立初始Git倉庫和進(jìn)度筆記文件。

開始時讀取進(jìn)度文件和Git日志;運(yùn)行基礎(chǔ)測試發(fā)現(xiàn)潛在Bug;結(jié)束時提交Git和進(jìn)度更新。

過早標(biāo)記功能為“完成”

建立功能列表文件。

自我驗(yàn)證所有功能。僅在仔細(xì)測試后標(biāo)記功能為“通過”。

浪費(fèi)時間研究如何運(yùn)行App

編寫能運(yùn)行開發(fā)服務(wù)器的init.sh腳本。

會話開始時直接讀取并運(yùn)行init.sh。

這項(xiàng)研究展示了長程Agent框架的一種可行方案,但仍有未解決的問題:

單Agent vs 多Agent:目前尚不清楚是通用的編碼Agent表現(xiàn)最好,還是采用多Agent架構(gòu)(如專門的測試Agent、QA Agent、代碼清理Agent)更優(yōu)

領(lǐng)域泛化:本演示針對全棧Web開發(fā)。未來方向是將這些經(jīng)驗(yàn)推廣到科學(xué)研究或金融建模等其他長程任務(wù)領(lǐng)域

參考:

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

--end--

最后記得??我,這對我非常重要,每天都在更新:

歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評論,別忘了關(guān)注我

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國企最大的弊端就是一些溜須拍馬的人,在提拔另一些溜須怕馬的人

國企最大的弊端就是一些溜須拍馬的人,在提拔另一些溜須怕馬的人

細(xì)說職場
2026-01-05 16:58:04
小里弗斯:狄龍是球隊(duì)文化締造者,灰熊火箭太陽都因他而變好

小里弗斯:狄龍是球隊(duì)文化締造者,灰熊火箭太陽都因他而變好

懂球帝
2026-01-07 13:26:07
新年翻車!小米“投敵”24小時

新年翻車!小米“投敵”24小時

智識漂流
2026-01-07 11:21:20
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
7 點(diǎn)被告知項(xiàng)目被搶走,我7點(diǎn)12分就提交離職報告,拉黑所有同事

7 點(diǎn)被告知項(xiàng)目被搶走,我7點(diǎn)12分就提交離職報告,拉黑所有同事

今天說故事
2026-01-03 23:56:51
劉世芳、鄭英耀是誰?“臺獨(dú)”頑固分子、打手幫兇最新清單

劉世芳、鄭英耀是誰?“臺獨(dú)”頑固分子、打手幫兇最新清單

環(huán)球網(wǎng)資訊
2026-01-07 13:36:11
想不到,用命守衛(wèi)馬杜羅到最后的,不是俄,也不是委,而是他們

想不到,用命守衛(wèi)馬杜羅到最后的,不是俄,也不是委,而是他們

策略述
2026-01-06 12:21:49
盧比奧一語道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

盧比奧一語道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

老馬拉車莫少裝
2026-01-05 21:46:08
又是全球銷冠!特斯拉Model Y:他們都不看好你,可你偏偏最爭氣

又是全球銷冠!特斯拉Model Y:他們都不看好你,可你偏偏最爭氣

鄰章
2026-01-05 10:32:05
你以為你看懂了?差遠(yuǎn)著呢!盤點(diǎn)斷句錯誤惹出的笑死人的誤會笑話

你以為你看懂了?差遠(yuǎn)著呢!盤點(diǎn)斷句錯誤惹出的笑死人的誤會笑話

另子維愛讀史
2026-01-06 21:26:59
海南一老人為救孫砍傷醉漢服刑8月:認(rèn)定“正當(dāng)防衛(wèi)”后申請國賠,法院決定賠償17萬元

海南一老人為救孫砍傷醉漢服刑8月:認(rèn)定“正當(dāng)防衛(wèi)”后申請國賠,法院決定賠償17萬元

封面新聞
2026-01-06 22:33:02
笑了!東部魚腩打爆雷霆!NBA或?qū)⒂惺吩娂壗灰?>
    </a>
        <h3>
      <a href=籃球?qū)崙?zhàn)寶典
2026-01-06 23:58:08
湖人進(jìn)入最佳形態(tài)!東詹擋拆成殺器,艾頓態(tài)度回暖,還有2將輔助

湖人進(jìn)入最佳形態(tài)!東詹擋拆成殺器,艾頓態(tài)度回暖,還有2將輔助

籃球資訊達(dá)人
2026-01-07 12:46:53
C羅與金姐的"臀"緣:當(dāng)足球之王遇見翹臀女王

C羅與金姐的"臀"緣:當(dāng)足球之王遇見翹臀女王

羅氏八卦
2026-01-07 08:21:53
上海vs青島前瞻:洛夫頓PK韋瑟斯龐引外援大戰(zhàn) 盧偉率隊(duì)沖8連勝

上海vs青島前瞻:洛夫頓PK韋瑟斯龐引外援大戰(zhàn) 盧偉率隊(duì)沖8連勝

狼叔評論
2026-01-07 11:51:16
欺辱舒淇,害死古龍,罵哭周星馳,明明是影壇惡霸,轉(zhuǎn)身奪得影帝

欺辱舒淇,害死古龍,罵哭周星馳,明明是影壇惡霸,轉(zhuǎn)身奪得影帝

老范談史
2026-01-07 12:55:37
淚流滿面!網(wǎng)傳昆山一家20多年外企撤場,N+1額外贈送一張購物卡

淚流滿面!網(wǎng)傳昆山一家20多年外企撤場,N+1額外贈送一張購物卡

火山詩話
2026-01-06 09:22:19
我65歲,退休金6千,回鄉(xiāng)下養(yǎng)老不到半年,卻要被親哥哥給逼瘋了

我65歲,退休金6千,回鄉(xiāng)下養(yǎng)老不到半年,卻要被親哥哥給逼瘋了

人間百態(tài)大全
2026-01-07 06:35:03
1952年,浙江嘉興有個老秀才快餓死了,硬著頭皮給北京寫了封信,信封上赫然寫著四個大字,主席看后只批了一句話,這人的命運(yùn)一夜逆轉(zhuǎn)!

1952年,浙江嘉興有個老秀才快餓死了,硬著頭皮給北京寫了封信,信封上赫然寫著四個大字,主席看后只批了一句話,這人的命運(yùn)一夜逆轉(zhuǎn)!

源溯歷史
2026-01-06 20:22:14
1967年,羅舜初叮囑到國防科委上班的李敏:千萬不要被人利用

1967年,羅舜初叮囑到國防科委上班的李敏:千萬不要被人利用

大運(yùn)河時空
2026-01-06 10:40:03
2026-01-07 14:24:49
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1025文章數(shù) 393關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

頭條要聞

外媒披露美國在委內(nèi)瑞拉下個目標(biāo):系馬杜羅關(guān)鍵盟友

頭條要聞

外媒披露美國在委內(nèi)瑞拉下個目標(biāo):系馬杜羅關(guān)鍵盟友

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

50萬億存款"洪流"將至 四大去向引關(guān)注

汽車要聞

蔚來2025百萬臺收官 一場遲到的自我修復(fù)

態(tài)度原創(chuàng)

旅游
健康
家居
教育
親子

旅游要聞

黃山雪霽現(xiàn)霧凇云海奇觀

這些新療法,讓化療不再那么痛苦

家居要聞

寧靜不單調(diào) 恰到好處的美

教育要聞

三年級培優(yōu)題:求A、B、C分別是多少

親子要聞

趕快轉(zhuǎn)給另一半

無障礙瀏覽 進(jìn)入關(guān)懷版