AI編程智能體工作原理及使用注意事項(xiàng)

2025-12-25 21:14:46　來源: 至頂頭條

北京舉報

分享至

AI編程智能體現(xiàn)在可以連續(xù)工作數(shù)小時處理軟件項(xiàng)目，編寫完整應(yīng)用程序、運(yùn)行測試、修復(fù)漏洞，但需要人工監(jiān)督。這些工具并非萬能，有時可能會讓軟件項(xiàng)目變得更復(fù)雜而非簡化。了解其底層工作原理有助于開發(fā)者判斷何時使用這些工具，同時避免常見陷阱。

基礎(chǔ)技術(shù)原理

每個AI編程智能體的核心都是大語言模型技術(shù)，這是一種在大量文本數(shù)據(jù)（包括大量編程代碼）上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。它本質(zhì)上是一個模式匹配機(jī)器，使用提示詞來"提取"訓(xùn)練期間看到的數(shù)據(jù)的壓縮統(tǒng)計表示，并提供該模式的合理延續(xù)作為輸出。在這種提取過程中，大語言模型可以跨領(lǐng)域和概念進(jìn)行插值，當(dāng)執(zhí)行得當(dāng)時會產(chǎn)生有用的邏輯推理，執(zhí)行不當(dāng)時則會產(chǎn)生錯誤。

這些基礎(chǔ)模型隨后通過精調(diào)技術(shù)進(jìn)一步改進(jìn)，如在精選示例上進(jìn)行微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)，這些技術(shù)使模型能夠遵循指令、使用工具并產(chǎn)生更有用的輸出。

近年來，AI研究人員一直在探索大語言模型的缺陷并尋找解決方法。其中一項(xiàng)創(chuàng)新是模擬推理模型，它以推理風(fēng)格文本的形式生成上下文（擴(kuò)展提示詞），幫助大語言模型鎖定更準(zhǔn)確的輸出。另一項(xiàng)創(chuàng)新是被稱為"智能體"的應(yīng)用程序，它將多個大語言模型連接起來同時執(zhí)行任務(wù)并評估輸出。

編程智能體的架構(gòu)設(shè)計

從這個意義上說，每個AI編程智能體都是與多個大語言模型協(xié)作的程序包裝器。通常有一個"監(jiān)督"大語言模型來解釋來自用戶的任務(wù)（提示詞），然后將這些任務(wù)分配給能夠使用軟件工具執(zhí)行指令的并行大語言模型。監(jiān)督智能體可以中斷下級任務(wù)并評估子任務(wù)結(jié)果來了解項(xiàng)目進(jìn)展。Anthropic的工程文檔將這種模式描述為"收集上下文、采取行動、驗(yàn)證工作、重復(fù)"。

如果通過命令行界面在本地運(yùn)行，用戶需要有條件地授權(quán)智能體在本地機(jī)器上寫入文件（代碼或其他需要的內(nèi)容）、運(yùn)行探索性命令（如"ls"列出目錄中的文件）、獲取網(wǎng)站內(nèi)容（通常使用"curl"）、下載軟件或上傳文件到遠(yuǎn)程服務(wù)器。這種方法有很多可能性（和潛在危險），因此需要謹(jǐn)慎使用。

相比之下，當(dāng)用戶在基于網(wǎng)絡(luò)的智能體中啟動任務(wù)時，如Codex和Claude Code的網(wǎng)絡(luò)版本，系統(tǒng)會配置一個預(yù)加載了用戶代碼庫的沙盒化云容器，Codex可以在其中讀取和編輯文件、運(yùn)行命令（包括測試工具和代碼檢查器）、在隔離環(huán)境中執(zhí)行代碼。Anthropic的Claude Code使用操作系統(tǒng)級別的功能來創(chuàng)建文件系統(tǒng)和網(wǎng)絡(luò)邊界，智能體可以在這些邊界內(nèi)更自由地工作。

上下文限制問題

每個大語言模型都有所謂的短期記憶，這限制了它在"忘記"正在做什么之前能夠處理的數(shù)據(jù)量。這被稱為"上下文"。每次向監(jiān)督智能體提交響應(yīng)時，實(shí)際上是在修改一個包含迄今為止整個對話歷史（以及生成的所有代碼，加上模型用來"思考"問題的模擬推理Token）的巨型提示詞。AI模型然后評估這個提示詞并產(chǎn)生輸出。這是一個計算成本極高的過程，因?yàn)榇笳Z言模型需要處理提示詞中每個Token（數(shù)據(jù)塊）與其他所有Token的關(guān)系，成本隨提示詞大小呈二次方增長。

Anthropic的工程團(tuán)隊(duì)將上下文描述為一種收益遞減的有限資源。研究揭示了研究人員所稱的"上下文退化"：隨著上下文窗口中Token數(shù)量的增加，模型準(zhǔn)確回憶信息的能力會下降。每個新Token都會消耗文檔所稱的"注意力預(yù)算"。

這種上下文限制自然地限制了大語言模型一次能夠處理的代碼庫大小，如果向AI模型輸入大量巨型代碼文件（每次發(fā)送另一個響應(yīng)時都必須重新評估），很快就會耗盡Token或使用限制。

實(shí)用技巧

為了解決這些限制，編程智能體的創(chuàng)建者使用了幾種技巧。例如，AI模型經(jīng)過微調(diào)，能夠編寫代碼將活動外包給其他軟件工具。它們可能會編寫Python腳本從圖像或文件中提取數(shù)據(jù)，而不是將整個文件通過大語言模型處理，這樣可以節(jié)省Token并避免不準(zhǔn)確的結(jié)果。

Anthropic的文檔指出，Claude Code也使用這種方法對大型數(shù)據(jù)庫執(zhí)行復(fù)雜數(shù)據(jù)分析，編寫針對性查詢并使用"head"和"tail"等Bash命令分析大量數(shù)據(jù)，而無需將完整數(shù)據(jù)對象加載到上下文中。

智能體的另一個重大突破來自動態(tài)上下文管理。雖然專有編程模型的具體實(shí)現(xiàn)方式?jīng)]有完全公開，但我們知道它們使用的最重要技術(shù)：上下文壓縮。

當(dāng)編程大語言模型接近其上下文限制時，這種技術(shù)通過總結(jié)來壓縮上下文歷史，在此過程中會丟失細(xì)節(jié)但將歷史縮短為關(guān)鍵要點(diǎn)。Anthropic的文檔將這種"壓縮"描述為以高保真方式提煉上下文內(nèi)容，保留架構(gòu)決策和未解決錯誤等關(guān)鍵細(xì)節(jié)，同時丟棄冗余的工具輸出。

這意味著每次進(jìn)行壓縮時，AI編程智能體會定期"忘記"它們正在做的很大一部分工作，但與較舊的基于大語言模型的系統(tǒng)不同，它們對發(fā)生的事情并不完全無知，可以通過閱讀現(xiàn)有代碼、文件中留下的書面注釋、更改日志等快速重新定位。

Anthropic的文檔建議使用CLAUDE.md文件來記錄常用bash命令、核心文件、實(shí)用函數(shù)、代碼風(fēng)格指南和測試說明。AGENTS.md現(xiàn)在是一個多公司標(biāo)準(zhǔn)，是在上下文刷新之間指導(dǎo)智能體行動的另一種有用方式。這些文件充當(dāng)外部注釋，讓智能體在復(fù)雜任務(wù)中跟蹤進(jìn)度，同時保持原本會丟失的關(guān)鍵上下文。

對于需要長期工作的任務(wù)，兩家公司都采用多智能體架構(gòu)。根據(jù)Anthropic的研究文檔，其系統(tǒng)使用"編排器-工作器模式"，其中一個主智能體協(xié)調(diào)流程，同時委托給并行操作的專門子智能體。當(dāng)用戶提交查詢時，主智能體分析查詢、制定策略，并生成子智能體同時探索不同方面。子智能體充當(dāng)智能過濾器，只向主智能體返回相關(guān)信息而不是完整上下文。

多智能體方法會快速消耗Token。Anthropic的文檔指出，智能體通常比聊天機(jī)器人交互使用約四倍的Token，而多智能體系統(tǒng)比聊天使用約15倍的Token。為了經(jīng)濟(jì)可行性，這些系統(tǒng)需要價值足夠高以證明增加成本合理的任務(wù)。

人類使用的最佳實(shí)踐

雖然在某些編程圈子中使用這些智能體是有爭議的，但如果要使用它來編碼項(xiàng)目，了解良好的軟件開發(fā)實(shí)踐有助于避免未來問題。例如，了解版本控制、進(jìn)行增量備份、一次實(shí)現(xiàn)一個功能并在繼續(xù)之前進(jìn)行測試是很好的做法。

人們所說的"氛圍編程"——在不理解AI生成代碼的情況下創(chuàng)建代碼——對于生產(chǎn)工作顯然是危險的。在生產(chǎn)環(huán)境中發(fā)布自己沒有編寫的代碼是有風(fēng)險的，因?yàn)樗赡芤氚踩珕栴}或其他錯誤，或開始積累可能隨時間滾雪球的技術(shù)債務(wù)。

獨(dú)立AI研究員Simon Willison最近論證說，使用編程智能體的開發(fā)者仍然有責(zé)任證明他們的代碼有效。Willison寫道："幾乎任何人都可以提示大語言模型生成千行補(bǔ)丁并提交代碼審查。這不再有價值。有價值的是貢獻(xiàn)經(jīng)過驗(yàn)證有效的代碼。"

實(shí)際上，人類規(guī)劃是關(guān)鍵。Claude Code的最佳實(shí)踐文檔為復(fù)雜問題推薦特定的工作流程：首先，要求智能體閱讀相關(guān)文件并明確告訴它還不要編寫任何代碼，然后要求它制定計劃。文檔警告說，如果沒有這些研究和規(guī)劃步驟，Claude的輸出往往會直接跳到編碼解決方案。

沒有規(guī)劃，大語言模型有時會尋求快速解決方案來滿足瞬時目標(biāo)，但如果項(xiàng)目擴(kuò)展，這些解決方案可能會失效。因此，對什么是可以隨時間擴(kuò)展的模塊化程序的良好架構(gòu)有一定了解，可以幫助引導(dǎo)大語言模型制作更持久的東西。

如前所述，這些智能體并不完美，有些人寧愿完全不使用它們。非營利研究組織METR在2025年7月發(fā)表的一項(xiàng)隨機(jī)對照試驗(yàn)發(fā)現(xiàn)，經(jīng)驗(yàn)豐富的開源開發(fā)者在使用AI工具時實(shí)際上花費(fèi)了19%更長的時間來完成任務(wù)，盡管他們認(rèn)為自己工作得更快。研究作者指出了幾個注意事項(xiàng)：開發(fā)者對其代碼庫非常有經(jīng)驗(yàn)（平均五年和1500次提交），存儲庫龐大且成熟，使用的模型（主要是通過Cursor的Claude 3.5和3.7 Sonnet）已被更有能力的版本取代。

較新的模型是否會產(chǎn)生不同的結(jié)果仍然是一個開放的問題，但研究表明AI編程工具可能不總是提供普遍的速度提升，特別是對于已經(jīng)非常了解其代碼庫的開發(fā)者。

考慮到這些潛在危險，編程概念驗(yàn)證演示和內(nèi)部工具可能是目前編程智能體的理想用途。由于AI模型沒有真正的自主性（盡管被稱為智能體）并且不是可以為錯誤承擔(dān)責(zé)任的人，人類監(jiān)督至關(guān)重要。

Q&A

Q1：AI編程智能體的核心技術(shù)是什么？它如何工作？

A：AI編程智能體的核心是大語言模型技術(shù)，這是一種在大量文本數(shù)據(jù)（包括編程代碼）上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。它是一個模式匹配機(jī)器，使用提示詞提取訓(xùn)練數(shù)據(jù)的統(tǒng)計表示，并輸出合理的延續(xù)。這些基礎(chǔ)模型通過精調(diào)和強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化，能夠遵循指令、使用工具并產(chǎn)生更有用的輸出。

Q2：什么是上下文限制問題？為什么會影響編程智能體的性能？

A：上下文限制是指大語言模型的短期記憶限制，限制了它在"忘記"任務(wù)之前能處理的數(shù)據(jù)量。每次提交響應(yīng)都會修改包含整個對話歷史的巨型提示詞，處理成本隨提示詞大小呈二次方增長。隨著Token數(shù)量增加會出現(xiàn)"上下文退化"，模型準(zhǔn)確回憶信息的能力下降，這直接限制了可處理的代碼庫大小。

Q3：使用AI編程智能體時需要注意哪些風(fēng)險和最佳實(shí)踐？

A：主要風(fēng)險包括"氛圍編程"（不理解AI生成的代碼就使用）可能引入安全問題或技術(shù)債務(wù)。最佳實(shí)踐包括：了解版本控制、進(jìn)行增量備份、一次實(shí)現(xiàn)一個功能并測試；讓智能體先閱讀文件并制定計劃再編碼；開發(fā)者仍需承擔(dān)證明代碼有效的責(zé)任。研究顯示經(jīng)驗(yàn)豐富的開發(fā)者使用AI工具可能反而花費(fèi)更長時間，因此人類監(jiān)督至關(guān)重要。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.