一個被低估的AI Agent核心競爭力

2026-03-11 17:03:30　來源: 深思圈

北京舉報

分享至

所有人都在追逐更強(qiáng)大的模型，但幾乎沒人談?wù)撃_手架。這是我最近觀察到的一個奇怪現(xiàn)象。每當(dāng)有新模型發(fā)布，科技圈就會沸騰，大家討論參數(shù)量、基準(zhǔn)測試分?jǐn)?shù)、上下文長度。但當(dāng)我深入研究那些真正成功的 AI agent 產(chǎn)品時，我發(fā)現(xiàn)了一個被嚴(yán)重忽視的真相：決定 AI agent 性能的，不是你用哪個模型，而是你如何使用這個模型。同一個模型，在不同的系統(tǒng)架構(gòu)下，性能可以相差一倍。Claude Opus 4.5 在一個腳手架下得分 42%，換另一個腳手架后得分 78%。這不是模型的問題，而是圍繞模型構(gòu)建的系統(tǒng)的問題。

最近我讀到三位開發(fā)者——Himanshu、Viv 和 Tony Kipkemboi——分別從不同角度深入分析了 agent harness 這個概念。他們的觀點相互補(bǔ)充，讓我對 AI agent 的構(gòu)建有了全新的理解。Himanshu 通過分析頂尖公司的實踐證明了 harness 比模型更重要；Viv 從第一性原理出發(fā)，解釋了為什么我們需要 harness 以及它應(yīng)該包含什么；Tony 則清晰區(qū)分了 harness 和 framework 的概念，幫助我們理解它們各自的適用場景。這三個視角結(jié)合起來，構(gòu)成了一幅關(guān)于 AI agent 構(gòu)建的完整圖景。

Harness 到底是什么

在深入討論之前，我們需要先搞清楚 harness 這個概念。Tony Kipkemboi 曾在 CrewAI（一個 agent framework）工作，他對這個概念有很清晰的定義。他把 agent 開發(fā)比作一個光譜：最左邊是原始代碼，你直接調(diào)用 API，自己管理狀態(tài)，從零開始構(gòu)建一切。中間是 agent framework（代理框架），給你提供結(jié)構(gòu)和抽象，但你仍然需要做很多決定。最右邊是 agent harness（代理腳手架），這是最有觀點的方案，一切都已經(jīng)內(nèi)置好了。

Viv 則從更技術(shù)的角度給出了定義：Agent = Model + Harness。如果不是模型本身，那就是 harness。換句話說，harness 是所有不屬于模型的代碼、配置和執(zhí)行邏輯。一個原始模型不是 agent，但當(dāng) harness 給它提供狀態(tài)、工具執(zhí)行、反饋循環(huán)和可執(zhí)行約束時，它就變成了 agent。我很認(rèn)同這個定義，因為它迫使我們從系統(tǒng)的角度思考，而不僅僅是從模型的角度。

具體來說，harness 包括系統(tǒng)提示、工具和技能及其描述、捆綁的基礎(chǔ)設(shè)施（文件系統(tǒng)、沙盒、瀏覽器）、編排邏輯（子 agent 生成、交接、模型路由）、以及用于確定性執(zhí)行的鉤子和中間件（壓縮、續(xù)傳、語法檢查）。這個列表乍看之下很技術(shù)化，但每一項都對應(yīng)著 agent 在實際工作中會遇到的具體問題。

Framework vs Harness：關(guān)鍵區(qū)別

Tony 對 framework 和 harness 的區(qū)分讓我豁然開朗。Framework 給你提供構(gòu)建 agent 的抽象。你定義角色、任務(wù)、工具。你指定 agent 如何協(xié)作，是順序工作還是層次化工作。Framework 處理管道工作——調(diào)用 LLM、路由工具輸出、管理執(zhí)行循環(huán)。但你仍在做架構(gòu)決策。

Framework 對構(gòu)建塊的樣子有觀點，它有內(nèi)存抽象、工具接口、任務(wù)結(jié)構(gòu)。但這些部分是可交換的。如果你不喜歡默認(rèn)的內(nèi)存實現(xiàn)，可以插入自己的。如果想使用不同的 LLM 提供商，可以配置它。Framework 給你標(biāo)準(zhǔn)接口，但你仍在組裝系統(tǒng)。這種模塊化正是重點。Framework 是為想要構(gòu)建 agent 的人設(shè)計的，不僅僅是使用它們。你需要理解各部分如何組合，因為你是決定使用哪些部分的人。

相比之下，harness 不給你構(gòu)建塊，它給你一個完整的系統(tǒng)。Tony 舉的例子是 OpenClaw，幾周前在網(wǎng)上很火。這是一個 harness。你下載它，添加 API 密鑰，突然就有了一個可以在 WhatsApp、Telegram 和其他平臺上聊天的 agent。內(nèi)存已處理。上下文管理已處理。Agent 循環(huán)已處理。工具調(diào)用、權(quán)限、狀態(tài)持久化，全都內(nèi)置了。

你不是在配置內(nèi)存系統(tǒng)，不是在決定工具如何注冊或 agent 如何從錯誤中恢復(fù)。這些決定已經(jīng)由構(gòu)建 harness 的人做出。你的工作是把它指向一個任務(wù)并讓它運行。這就是權(quán)衡：你得到了立即可用的東西，但不能改變它內(nèi)部的工作方式。Harness 對一切都有觀點，使用它時你就是在接受這些觀點。

我的理解是，這個區(qū)別很像買家具和買宜家家具的區(qū)別。定制家具（framework）讓你選擇材料、尺寸、風(fēng)格，但你需要花時間設(shè)計和等待制作。宜家家具（harness）已經(jīng)設(shè)計好了，你買回家按說明書組裝就能用，但你不能改變它的基本設(shè)計。兩者都有價值，取決于你的需求和能力。

從模型的視角理解：為什么需要 Harness

Viv 的文章有一個很有意思的角度：從模型的視角出發(fā)，推導(dǎo)出我們?yōu)槭裁葱枰?harness。這種自底向上的思考方式讓我對 harness 的必要性有了更深的理解。

模型本身能做什么？它們接收文本、圖像、音頻、視頻等數(shù)據(jù)，輸出文本。就這樣。開箱即用，它們無法維持跨交互的持久狀態(tài)，無法執(zhí)行代碼，無法訪問實時知識，無法設(shè)置環(huán)境和安裝包來完成工作。這些都是 harness 層面的功能。LLM 的結(jié)構(gòu)決定了需要某種機(jī)制來包裝它們，才能做有用的工作。

舉個例子，要實現(xiàn)"聊天"這樣的產(chǎn)品體驗，我們需要把模型包裝在一個 while 循環(huán)中，跟蹤之前的消息并添加新的用戶消息。讀這篇文章的每個人都已經(jīng)使用過這種 harness。關(guān)鍵思想是，我們想把期望的 agent 行為轉(zhuǎn)化為 harness 中的實際功能。這個觀點讓我意識到，harness 工程本質(zhì)上是在彌合"模型能力"和"實際需求"之間的鴻溝。

Harness 的核心組件

基于 Viv 的分析，我總結(jié)了 harness 必須包含的幾個核心組件，以及每個組件存在的理由。

文件系統(tǒng)是最基礎(chǔ)的 harness 原語。我們希望 agent 有持久存儲來處理真實數(shù)據(jù)、卸載上下文窗口裝不下的信息、并在會話間持久化工作。模型只能直接操作上下文窗口內(nèi)的知識。在有文件系統(tǒng)之前，用戶必須復(fù)制粘貼內(nèi)容給模型，這體驗很糟糕，而且對自主 agent 不起作用。世界已經(jīng)在使用文件系統(tǒng)工作，所以模型自然在數(shù)十億個 token 上訓(xùn)練了如何使用它們。自然的解決方案是：harness 配備文件系統(tǒng)抽象和文件操作工具。

文件系統(tǒng)的重要性怎么強(qiáng)調(diào)都不為過。它讓 agent 有了工作空間來讀取數(shù)據(jù)、代碼和文檔。工作可以增量添加和卸載，而不是把所有東西都放在上下文中。Agent 可以存儲中間輸出并維護(hù)超越單個會話的狀態(tài)。文件系統(tǒng)還是自然的協(xié)作界面，多個 agent 和人類可以通過共享文件協(xié)調(diào)。Git 為文件系統(tǒng)添加版本控制，這樣 agent 可以跟蹤工作、回滾錯誤、分支實驗。

Bash 和代碼執(zhí)行則是通用工具。我們希望 agent 自主解決問題，而不需要人類預(yù)先設(shè)計每個工具。今天主流的 agent 執(zhí)行模式是 ReAct 循環(huán)，模型推理、通過工具調(diào)用采取行動、觀察結(jié)果、在 while 循環(huán)中重復(fù)。但 harness 只能執(zhí)行它有邏輯的工具。與其強(qiáng)迫用戶為每個可能的動作構(gòu)建工具，更好的解決方案是給 agent 一個通用工具，比如 bash。

Bash 加代碼執(zhí)行是朝著"給模型一臺計算機(jī)，讓它自己搞定其余部分"邁出的一大步。模型可以通過代碼即時設(shè)計自己的工具，而不是被限制在固定的預(yù)配置工具集中。Harness 仍然配備其他工具，但代碼執(zhí)行已經(jīng)成為自主問題解決的默認(rèn)通用策略。我認(rèn)為這是一個重要的設(shè)計哲學(xué)轉(zhuǎn)變：從"提供足夠的工具"轉(zhuǎn)向"提供創(chuàng)建工具的能力"。

沙盒和執(zhí)行環(huán)境也必不可少。Agent 需要一個有正確默認(rèn)設(shè)置的環(huán)境，這樣它們可以安全行動、觀察結(jié)果并取得進(jìn)展。我們已經(jīng)給了模型存儲和執(zhí)行代碼的能力，但這一切都需要在某個地方發(fā)生。在本地運行 agent 生成的代碼有風(fēng)險，而且單個本地環(huán)境無法擴(kuò)展到大量 agent 工作負(fù)載。

沙盒給 agent 提供安全的操作環(huán)境。Harness 可以連接到沙盒來運行代碼、檢查文件、安裝依賴并完成任務(wù)，而不是在本地執(zhí)行。這創(chuàng)造了代碼的安全隔離執(zhí)行。為了更高安全性，harness 可以白名單命令并強(qiáng)制網(wǎng)絡(luò)隔離。沙盒還能實現(xiàn)規(guī)?；?，因為環(huán)境可以按需創(chuàng)建、分散到多個任務(wù)，工作完成后銷毀。

好的環(huán)境配備好的默認(rèn)工具。Harness 負(fù)責(zé)配置工具，這樣 agent 可以做有用的工作。這包括預(yù)安裝語言運行時和包、用于 git 和測試的 CLI、用于網(wǎng)頁交互和驗證的瀏覽器。瀏覽器、日志、截圖和測試運行器等工具給 agent 提供了觀察和分析工作的方法。這幫助它們創(chuàng)建自我驗證循環(huán)，在那里它們可以編寫應(yīng)用代碼、運行測試、檢查日志并修復(fù)錯誤。

內(nèi)存和搜索用于持續(xù)學(xué)習(xí)。Agent 應(yīng)該記住它們見過的東西，并訪問訓(xùn)練時不存在的信息。模型除了權(quán)重和當(dāng)前上下文中的內(nèi)容外，沒有額外知識。在無法編輯模型權(quán)重的情況下，"添加知識"的唯一方法是通過上下文注入。

對于內(nèi)存，文件系統(tǒng)再次成為核心原語。Harness 支持像 AGENTS.md 這樣的內(nèi)存文件標(biāo)準(zhǔn)，在 agent 啟動時注入上下文。隨著 agent 添加和編輯此文件，harness 將更新后的文件加載到上下文中。這是一種持續(xù)學(xué)習(xí)形式，agent 從一個會話持久存儲知識，并將該知識注入未來會話。

知識截止日期意味著模型無法直接訪問新數(shù)據(jù)，比如更新的庫版本，除非用戶直接提供。對于最新知識，Web Search 和像 Context7 這樣的 MCP 工具幫助 agent 訪問超出知識截止日期的信息，比如新庫版本或訓(xùn)練停止時不存在的當(dāng)前數(shù)據(jù)。

對抗上下文腐爛也是關(guān)鍵挑戰(zhàn)。Agent 性能不應(yīng)該在工作過程中降低。上下文腐爛描述的是模型在上下文窗口填滿時推理和完成任務(wù)的能力變差的現(xiàn)象。上下文是寶貴而稀缺的資源，所以 harness 需要策略來管理它。今天的 harness 在很大程度上是良好上下文工程的交付機(jī)制。

壓縮解決的是當(dāng)上下文窗口接近填滿時該怎么辦。沒有壓縮，當(dāng)對話超過上下文窗口會發(fā)生什么？一個選項是 API 報錯，這不好。Harness 必須為這種情況使用某種策略。所以壓縮智能地卸載和總結(jié)現(xiàn)有上下文窗口，這樣 agent 可以繼續(xù)工作。

工具調(diào)用卸載幫助減少大型工具輸出的影響，這些輸出可能會嘈雜地堆滿上下文窗口而不提供有用信息。Harness 保留超過閾值 token 數(shù)的工具輸出的頭部和尾部 token，并將完整輸出卸載到文件系統(tǒng)，這樣模型可以在需要時訪問它。

數(shù)據(jù)說話：為什么 Harness 比模型更重要

說到這里，我想回到 Himanshu 提供的那些令人震撼的數(shù)據(jù)。這些數(shù)字最有說服力地證明了 harness 的重要性。

CORE-Bench 的測試結(jié)果非常直接。Claude Opus 4.5 在一個腳手架下得分 42%，換另一個腳手架后得分 78%。同樣的模型，性能幾乎翻倍。Sonnet 4 的表現(xiàn)是 33% vs 47%。Sonnet 4.5 是 44% vs 62%。這不是小幅改進(jìn)，這是質(zhì)的飛躍。唯一的變量是 harness，模型完全相同，基準(zhǔn)測試完全相同。

Cursor 的懶工具加載將 token 使用量削減了 46.9%。這是一個具有統(tǒng)計顯著性的數(shù)字。同樣的任務(wù)，同樣的模型，只是改變了工具的加載方式，就能節(jié)省近一半的 token。考慮到 token 成本和處理速度，這種優(yōu)化的商業(yè)價值是巨大的。

更極端的案例來自 Vercel。他們刪除了 agent 80% 的工具，結(jié)果 agent 從失敗任務(wù)變成了完成任務(wù)。這個案例特別有意思，因為它挑戰(zhàn)了我們的直覺。我們通常認(rèn)為給 agent 更多工具會讓它更強(qiáng)大，但事實證明，工具太多反而會降低性能。Token 從 145463 降到 67483，步驟從 100 降到 19，延遲從 724 秒降到 141 秒。這是全方位的改進(jìn)，而改變的只是 harness 設(shè)計。

LangChain 的 deepagents-cli 在 TerminalBench 2.0 上的表現(xiàn)也很說明問題。僅通過改變 harness，分?jǐn)?shù)從 52.8% 提升到 66.5%，提高了 13.7 個百分點。我反復(fù)強(qiáng)調(diào)這一點：模型完全沒變，只是改變了圍繞模型的腳手架。

這些數(shù)據(jù)讓我重新思考了 AI 行業(yè)的投資方向。我們看到無數(shù)公司花費數(shù)百萬甚至數(shù)十億美元訓(xùn)練更大更強(qiáng)的模型，但可能只需要花一小部分精力優(yōu)化 harness，就能獲得同等甚至更好的性能提升。這不是說模型不重要，而是說我們嚴(yán)重低估了 harness 的價值。

頂尖公司的 Harness 實踐

Himanshu 詳細(xì)分析了幾家頂尖公司的 harness 實現(xiàn)，每家都有獨特的設(shè)計哲學(xué)。

Claude Code 采用"模型控制循環(huán)"的理念。它是一個簡單的 while(tool_call) 循環(huán)，沒有復(fù)雜的 DAG 編排，沒有競爭的 agent 角色。模型接收消息和工具，返回文本結(jié)束循環(huán)，返回工具調(diào)用繼續(xù)循環(huán)。Anthropic 明確稱之為"模型控制循環(huán)"而不是"代碼控制模型"。這個微妙的措辭差異體現(xiàn)了設(shè)計哲學(xué)：給模型更大的自主權(quán)。

Claude Code 只提供約 18 個原始工具，分四類：命令行發(fā)現(xiàn)、文件交互、網(wǎng)頁訪問和編排。設(shè)計哲學(xué)是原始工具優(yōu)于集成。更有意思的是，Anthropic 選擇正則表達(dá)式（ripgrep）而不是向量數(shù)據(jù)庫進(jìn)行代碼搜索，理由是 Claude 的代碼理解能力足夠強(qiáng)，可以構(gòu)建復(fù)雜正則表達(dá)式而不需要搜索索引。

Claude Code 還有一個巧妙設(shè)計：TodoWrite 工具。從功能上講它什么都不做，純粹是 harness 層面的技巧——一個無操作工具，強(qiáng)制 agent 明確表達(dá)和跟蹤計劃，讓它在長時間運行中保持正軌。這種設(shè)計讓我想到，有時候最有效的工具不是執(zhí)行復(fù)雜操作的，而是幫助 agent 保持清晰思路的簡單機(jī)制。

Cursor 的核心決策是"文件作為基本原語"。為什么？因為文件支持強(qiáng)大搜索、可自然分組、可版本化。他們針對每個前沿模型專門調(diào)優(yōu) harness。不同模型得到不同工具名稱、提示指令和行為指導(dǎo)。這種精細(xì)化調(diào)優(yōu)讓我意識到，通用方案往往不是最優(yōu)方案。

Cursor 的自定義語義搜索特別值得一提。他們的嵌入模型使用 agent 會話軌跡作為訓(xùn)練數(shù)據(jù)。當(dāng) agent 完成任務(wù)時，Cursor 分析哪些文件本應(yīng)更早被檢索，然后訓(xùn)練嵌入模型匹配這些模式。結(jié)果是搜索準(zhǔn)確率平均提高 12.5%，在大型代碼庫上的代碼保留率提高 2.6%。這種從實際使用中學(xué)習(xí)的方法比任何理論優(yōu)化都更有效。

Manus 則走了另一個極端，從推出以來已經(jīng)重寫了五次框架。他們最獨特的做法是使用 logit masking 而不是動態(tài)移除工具。任何對上下文前端工具定義的更改都會使所有后續(xù) token 的 KV-cache 失效。所以所有約 29 個工具永久加載，每步可用性通過約束輸出 token 概率控制。

Manus 團(tuán)隊得出的最大教訓(xùn)是：最大性能提升來自刪除東西。復(fù)雜工具定義被 shell 執(zhí)行替代，"管理 agent"被簡單交接替代。如果你的 agent harness 在模型變好的同時變復(fù)雜，那就出問題了。這個觀點讓我深有感觸，真正的進(jìn)步往往來自簡化和精簡。

Progressive Disclosure：關(guān)鍵但被忽視的模式

Himanshu 特別強(qiáng)調(diào)了 progressive disclosure（漸進(jìn)式披露）這個概念，我認(rèn)為這是整個 harness 設(shè)計中最被低估的模式。

Progressive disclosure 借鑒自 UI/UX 設(shè)計，1980 年代起源于 IBM Research 的 John Carroll，1990 年代由 Jakob Nielsen 推廣。核心原則：只顯示現(xiàn)在需要的內(nèi)容，按需揭示復(fù)雜性。這直接映射到 agent 設(shè)計。就像可折疊菜單減少人類認(rèn)知負(fù)荷，分層上下文加載減少 LLM 注意力分散。

數(shù)據(jù)非常有說服力。Claude-Mem 文檔顯示，靜態(tài)加載注入 25000 個 token，效率只有 0.8%。Progressive disclosure 只需 955 個 token，效率 100%。這是約 26 倍改進(jìn)。Cursor 的懶加載實現(xiàn) 46.9% token 削減。Vercel 刪除 80% 工具后，token 從 145463 降到 67483，步驟從 100 降到 19，延遲從 724 秒降到 141 秒，agent 從失敗變成功。

各家公司實現(xiàn)方式不同但思路一致。Claude Code 的 SKILL.md 模式：技能存儲為 .claude/skills/ 文件，不預(yù)加載到每次對話。與每次加載的 CLAUDE.md 不同，技能只在 Claude 檢測到相關(guān)性時加載。當(dāng)項目有幾十個技能時，這防止上下文膨脹。

為什么 progressive disclosure 如此重要？Liu 等人在 TACL 2024 的論文證明，LLM 性能遵循 U 型曲線——相關(guān)信息在輸入開頭或結(jié)尾時性能最高，在中間時下降。即使長上下文模型也是如此。這就是為什么 harness 重要：progressive disclosure 保持輸入較小，并將新檢索信息放在末尾。

我的理解是，這從根本上挑戰(zhàn)了"給模型更多上下文總是更好"的假設(shè)。上下文組織方式比數(shù)量更重要。這也解釋了為什么同一模型在不同 harness 下性能差異如此巨大。

Framework 與 Harness 的模糊邊界

Tony 指出，framework 和 harness 的界限并不總是清晰的，而且我認(rèn)為它也不應(yīng)該清晰。

一些 framework 正在添加類似 harness 的功能。LangChain 是個好例子。他們發(fā)布了 Deep Agents，明確稱之為"agent harness"，位于框架之上。它配備內(nèi)置規(guī)劃工具、用于上下文管理的文件系統(tǒng)訪問、子 agent 生成和內(nèi)存持久化。你仍在底層使用 LangChain，但 Deep Agents 給你開箱即用的默認(rèn)設(shè)置，這樣你不必自己把所有東西連接起來。

LangChain 實際上在自己的技術(shù)棧中區(qū)分了三層。LangChain（原始庫）是 framework。LangGraph 是他們稱為"agent runtime"（代理運行時）的東西，處理執(zhí)行、狀態(tài)管理和持久性。Deep Agents 是位于兩者之上的 harness。這是一家公司跨越整個光譜。用于組合 agent 的 framework，用于可靠執(zhí)行的 runtime，用于開箱即用的 harness。

這是一家 framework 公司向光譜右側(cè)移動。Deep Agents 仍然是模塊化的。你可以交換后端、配置工具、調(diào)整提示。但它給你一個工作系統(tǒng)，不需要你組裝每一塊。

另一方面，harness 也沒有聽起來那么鎖定。拿 OpenClaw 來說，開箱即用時最有觀點，但如果你下載源代碼，可以交換實現(xiàn)。你可以改變內(nèi)存工作方式、調(diào)整 agent 循環(huán)、修改工具處理。只是大多數(shù)人不會這樣做，因為默認(rèn)已經(jīng)工作了。

區(qū)別在于開始時已經(jīng)決定了什么。Harness 配備內(nèi)置決策。Framework 暴露選項。如果使用 harness，你接受大多數(shù)決策并在邊緣配置。如果使用 framework，你自己做決策并組裝系統(tǒng)。

長時程自主執(zhí)行的挑戰(zhàn)

Viv 特別強(qiáng)調(diào)了長時程自主執(zhí)行的重要性和挑戰(zhàn)。自主軟件創(chuàng)建是編碼 agent 的圣杯，但今天的模型存在早期停止、復(fù)雜問題分解困難、以及工作跨越多個上下文窗口時的不連貫問題。好的 harness 必須圍繞所有這些設(shè)計。

這正是早期 harness 原語開始復(fù)合的地方。長時程工作需要持久狀態(tài)、規(guī)劃、觀察和驗證，以在多個上下文窗口間持續(xù)工作。文件系統(tǒng)和 git 用于跨會話跟蹤工作。Agent 在長任務(wù)中產(chǎn)生數(shù)百萬 token，文件系統(tǒng)持久捕獲工作以隨時間跟蹤進(jìn)展。添加 git 允許新 agent 快速了解最新工作和項目歷史。對于多個 agent 協(xié)作，文件系統(tǒng)也充當(dāng)共享工作賬本。

Ralph Loop 是一個有意思的 harness 模式，用于繼續(xù)工作。它通過鉤子攔截模型的退出嘗試，在干凈的上下文窗口中重新注入原始提示，強(qiáng)制 agent 針對完成目標(biāo)繼續(xù)工作。文件系統(tǒng)使這成為可能，因為每次迭代從新上下文開始但從上一次迭代讀取狀態(tài)。

規(guī)劃和自我驗證讓 agent 保持正軌。規(guī)劃是模型將目標(biāo)分解為一系列步驟。Harness 通過良好提示和注入如何使用文件系統(tǒng)中計劃文件的提醒來支持這一點。完成每一步后，agent 從通過自我驗證檢查工作正確性中受益。Harness 中的鉤子可以運行預(yù)定義測試套件，在失敗時循環(huán)回模型并帶上錯誤消息，或者可以提示模型獨立自我評估代碼。驗證將解決方案建立在測試上，并為自我改進(jìn)創(chuàng)建反饋信號。

Harness 的未來

三位作者都對 harness 的未來有自己的看法，我覺得他們的觀點很有啟發(fā)性。

Himanshu 注意到模型訓(xùn)練和 harness 設(shè)計的耦合。今天的 agent 產(chǎn)品如 Claude Code 和 Codex 在模型后訓(xùn)練時將 harness 納入循環(huán)。這幫助模型在 harness 設(shè)計者認(rèn)為它們應(yīng)該原生擅長的動作上改進(jìn)，如文件系統(tǒng)操作、bash 執(zhí)行、規(guī)劃或與子 agent 并行工作。

這創(chuàng)造了一個反饋循環(huán)。有用的原語被發(fā)現(xiàn)、添加到 harness，然后在訓(xùn)練下一代模型時使用。隨著這個循環(huán)重復(fù)，模型在訓(xùn)練時所在的 harness 中變得更有能力。但這種共同演化對泛化有有趣的副作用。它以改變工具邏輯導(dǎo)致模型性能下降的方式表現(xiàn)出來。一個真正智能的模型應(yīng)該不難在補(bǔ)丁方法間切換，但在循環(huán)中訓(xùn)練會創(chuàng)造這種過擬合。

但這并不意味著對你任務(wù)最好的 harness 就是模型后訓(xùn)練時用的那個。Terminal Bench 2.0 排行榜是個好例子。Opus 4.6 在 Claude Code 中的得分遠(yuǎn)低于在其他 harness 中的 Opus 4.6。通過只改變 harness 可以榨取很多價值。

Viv 認(rèn)為隨著模型變得更有能力，今天存在于 harness 中的一些東西會被吸收到模型中。模型會在規(guī)劃、自我驗證和長時程連貫性上原生變好，因此需要更少的上下文注入。這表明 harness 隨時間會變得不那么重要。但就像提示工程今天繼續(xù)有價值一樣，harness 工程可能會繼續(xù)對構(gòu)建好的 agent 有用。

Harness 今天確實在修補(bǔ)模型缺陷，但它們也圍繞模型智能構(gòu)建系統(tǒng)以使其更有效。配置良好的環(huán)境、正確的工具、持久狀態(tài)和驗證循環(huán)讓任何模型更高效，無論其基礎(chǔ)智能如何。

Viv 提到 harness 工程是 LangChain 用來改進(jìn)其 harness 構(gòu)建庫 deepagents 的一個非?；钴S的研究領(lǐng)域。一些開放和有趣的問題包括：編排數(shù)百個 agent 在共享代碼庫上并行工作；分析自己軌跡以識別和修復(fù) harness 級別失敗模式的 agent；根據(jù)給定任務(wù)即時動態(tài)組裝正確工具和上下文而不是預(yù)配置的 harness。

我對 Harness 未來的思考

讀完這三位作者的分析后,我有一些自己的深度思考。

我認(rèn)為 harness 工程正在成為一門獨立的學(xué)科。就像軟件工程從計算機(jī)科學(xué)中分離出來,成為一個有自己方法論、最佳實踐和工具鏈的領(lǐng)域一樣,harness 工程也在經(jīng)歷類似的過程。我們已經(jīng)看到了一些早期信號:專門的 harness 構(gòu)建庫(如 LangChain 的 Deep Agents)、harness 設(shè)計模式的總結(jié)(如 12 Factor Agents)、以及用于評估 harness 質(zhì)量的基準(zhǔn)測試(如 CORE-Bench、Terminal Bench)。

這種專業(yè)化很重要,因為它降低了構(gòu)建高質(zhì)量 AI agent 的門檻。當(dāng) harness 工程成為一門成熟的學(xué)科時,開發(fā)者不需要從零開始摸索,可以借鑒已驗證的模式和最佳實踐。這會加速整個行業(yè)的創(chuàng)新速度。

我也注意到一個有趣的悖論:雖然模型在變得更強(qiáng)大,但對 harness 的需求不會消失,只是會轉(zhuǎn)變形式。早期的 harness 主要是在彌補(bǔ)模型的不足,比如給模型添加文件系統(tǒng)訪問、代碼執(zhí)行能力等基礎(chǔ)功能。但隨著這些能力逐漸被模型原生支持,harness 的角色會從"能力補(bǔ)充"轉(zhuǎn)向"性能優(yōu)化"和"可靠性保證"。

就像現(xiàn)代編程語言已經(jīng)有了垃圾回收、類型系統(tǒng)等高級特性,但我們?nèi)匀恍枰蚣芎蛶靵順?gòu)建復(fù)雜應(yīng)用一樣,未來即使模型本身變得非常強(qiáng)大,我們?nèi)匀恍枰?harness 來優(yōu)化性能、管理復(fù)雜性、確?？煽啃浴rogressive disclosure、上下文管理、錯誤恢復(fù)這些問題不會因為模型變強(qiáng)而消失。

從商業(yè)角度看,我認(rèn)為 harness 工程能力將成為 AI 公司的核心競爭力之一。模型本身正在快速商品化,任何公司都可以通過 API 訪問最先進(jìn)的模型。但如何有效利用這些模型、如何設(shè)計出讓模型發(fā)揮最大效能的系統(tǒng),這才是真正的護(hù)城河。這就像云計算時代,底層基礎(chǔ)設(shè)施(AWS、Azure、GCP)是商品,但在這些基礎(chǔ)設(shè)施上構(gòu)建的應(yīng)用和平臺才是真正的價值所在。

我還思考了 harness 設(shè)計的一個哲學(xué)問題:應(yīng)該給模型多大的自主權(quán)?Claude Code 的"模型控制循環(huán)"代表了一個極端,給模型最大的自由度。而更傳統(tǒng)的方法則傾向于用代碼嚴(yán)格控制 agent 的每一步。我認(rèn)為最佳平衡點會隨著模型能力的提升而移動。當(dāng)模型還比較弱時,需要更多的 harness 級別控制和約束。但隨著模型變強(qiáng),給它們更多自主權(quán)會帶來更好的結(jié)果。這個平衡點的把握,需要深刻理解模型的能力邊界和任務(wù)的復(fù)雜度。

Tony 提出的"你解決什么問題決定你需要 framework 還是 harness"這個觀點讓我想到,也許我們需要一個更細(xì)粒度的分類。在 framework 和 harness 之間,可能還有很多中間狀態(tài)。比如"可配置的 harness"、"模塊化的 harness"、"領(lǐng)域特定的 harness"等等。未來可能會出現(xiàn)更多這樣的中間形態(tài),讓開發(fā)者可以根據(jù)具體需求選擇合適的抽象層次。

最后,我想強(qiáng)調(diào) Himanshu 提到的一個關(guān)鍵洞察:最好的團(tuán)隊一直在簡化。Manus 五次重寫,每次都刪除東西。Anthropic 設(shè)計 Claude Code 是為了隨模型改進(jìn)而縮小。這個趨勢告訴我們,harness 工程的終極目標(biāo)不是構(gòu)建一個功能齊全、無所不包的系統(tǒng),而是找到最小必要集——那些真正不可或缺、無法被模型原生能力替代的部分。這需要持續(xù)的迭代、測試和勇于刪除的決心。

Agent = Model + Harness。這個簡單的等式背后,是關(guān)于如何構(gòu)建真正有用的 AI 系統(tǒng)的深刻洞察。模型提供智能,harness 讓智能有用。在追逐更強(qiáng)大模型的同時,我們不應(yīng)該忽視 harness 工程的價值。因為最終,沒有人購買引擎,大家購買的是完整的汽車。

結(jié)尾

也歡迎大家留言討論，分享你的觀點！

覺得內(nèi)容不錯的朋友能夠幫忙右下角點個贊，分享一下。您的每次分享，都是在激勵我不斷產(chǎn)出更好的內(nèi)容。

歡迎關(guān)注深思圈，一起探索更大的世界。

- END -

兩個“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向，你知道嗎

速度將成為AI時代唯一的護(hù)城河

a16z重磅預(yù)測：Vibe coding贏者通吃？錯了，垂直專業(yè)化才是未來

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.