国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一個被低估的AI Agent核心競爭力

0
分享至


所有人都在追逐更強(qiáng)大的模型,但幾乎沒人談?wù)撃_手架。這是我最近觀察到的一個奇怪現(xiàn)象。每當(dāng)有新模型發(fā)布,科技圈就會沸騰,大家討論參數(shù)量、基準(zhǔn)測試分?jǐn)?shù)、上下文長度。但當(dāng)我深入研究那些真正成功的 AI agent 產(chǎn)品時,我發(fā)現(xiàn)了一個被嚴(yán)重忽視的真相:決定 AI agent 性能的,不是你用哪個模型,而是你如何使用這個模型。同一個模型,在不同的系統(tǒng)架構(gòu)下,性能可以相差一倍。Claude Opus 4.5 在一個腳手架下得分 42%,換另一個腳手架后得分 78%。這不是模型的問題,而是圍繞模型構(gòu)建的系統(tǒng)的問題。

最近我讀到三位開發(fā)者——Himanshu、Viv 和 Tony Kipkemboi——分別從不同角度深入分析了 agent harness 這個概念。他們的觀點相互補(bǔ)充,讓我對 AI agent 的構(gòu)建有了全新的理解。Himanshu 通過分析頂尖公司的實踐證明了 harness 比模型更重要;Viv 從第一性原理出發(fā),解釋了為什么我們需要 harness 以及它應(yīng)該包含什么;Tony 則清晰區(qū)分了 harness 和 framework 的概念,幫助我們理解它們各自的適用場景。這三個視角結(jié)合起來,構(gòu)成了一幅關(guān)于 AI agent 構(gòu)建的完整圖景。


Harness 到底是什么

在深入討論之前,我們需要先搞清楚 harness 這個概念。Tony Kipkemboi 曾在 CrewAI(一個 agent framework)工作,他對這個概念有很清晰的定義。他把 agent 開發(fā)比作一個光譜:最左邊是原始代碼,你直接調(diào)用 API,自己管理狀態(tài),從零開始構(gòu)建一切。中間是 agent framework(代理框架),給你提供結(jié)構(gòu)和抽象,但你仍然需要做很多決定。最右邊是 agent harness(代理腳手架),這是最有觀點的方案,一切都已經(jīng)內(nèi)置好了。

Viv 則從更技術(shù)的角度給出了定義:Agent = Model + Harness。如果不是模型本身,那就是 harness。換句話說,harness 是所有不屬于模型的代碼、配置和執(zhí)行邏輯。一個原始模型不是 agent,但當(dāng) harness 給它提供狀態(tài)、工具執(zhí)行、反饋循環(huán)和可執(zhí)行約束時,它就變成了 agent。我很認(rèn)同這個定義,因為它迫使我們從系統(tǒng)的角度思考,而不僅僅是從模型的角度。

具體來說,harness 包括系統(tǒng)提示、工具和技能及其描述、捆綁的基礎(chǔ)設(shè)施(文件系統(tǒng)、沙盒、瀏覽器)、編排邏輯(子 agent 生成、交接、模型路由)、以及用于確定性執(zhí)行的鉤子和中間件(壓縮、續(xù)傳、語法檢查)。這個列表乍看之下很技術(shù)化,但每一項都對應(yīng)著 agent 在實際工作中會遇到的具體問題。


Framework vs Harness:關(guān)鍵區(qū)別

Tony 對 framework 和 harness 的區(qū)分讓我豁然開朗。Framework 給你提供構(gòu)建 agent 的抽象。你定義角色、任務(wù)、工具。你指定 agent 如何協(xié)作,是順序工作還是層次化工作。Framework 處理管道工作——調(diào)用 LLM、路由工具輸出、管理執(zhí)行循環(huán)。但你仍在做架構(gòu)決策。

Framework 對構(gòu)建塊的樣子有觀點,它有內(nèi)存抽象、工具接口、任務(wù)結(jié)構(gòu)。但這些部分是可交換的。如果你不喜歡默認(rèn)的內(nèi)存實現(xiàn),可以插入自己的。如果想使用不同的 LLM 提供商,可以配置它。Framework 給你標(biāo)準(zhǔn)接口,但你仍在組裝系統(tǒng)。這種模塊化正是重點。Framework 是為想要構(gòu)建 agent 的人設(shè)計的,不僅僅是使用它們。你需要理解各部分如何組合,因為你是決定使用哪些部分的人。

相比之下,harness 不給你構(gòu)建塊,它給你一個完整的系統(tǒng)。Tony 舉的例子是 OpenClaw,幾周前在網(wǎng)上很火。這是一個 harness。你下載它,添加 API 密鑰,突然就有了一個可以在 WhatsApp、Telegram 和其他平臺上聊天的 agent。內(nèi)存已處理。上下文管理已處理。Agent 循環(huán)已處理。工具調(diào)用、權(quán)限、狀態(tài)持久化,全都內(nèi)置了。

你不是在配置內(nèi)存系統(tǒng),不是在決定工具如何注冊或 agent 如何從錯誤中恢復(fù)。這些決定已經(jīng)由構(gòu)建 harness 的人做出。你的工作是把它指向一個任務(wù)并讓它運行。這就是權(quán)衡:你得到了立即可用的東西,但不能改變它內(nèi)部的工作方式。Harness 對一切都有觀點,使用它時你就是在接受這些觀點。

我的理解是,這個區(qū)別很像買家具和買宜家家具的區(qū)別。定制家具(framework)讓你選擇材料、尺寸、風(fēng)格,但你需要花時間設(shè)計和等待制作。宜家家具(harness)已經(jīng)設(shè)計好了,你買回家按說明書組裝就能用,但你不能改變它的基本設(shè)計。兩者都有價值,取決于你的需求和能力。


從模型的視角理解:為什么需要 Harness

Viv 的文章有一個很有意思的角度:從模型的視角出發(fā),推導(dǎo)出我們?yōu)槭裁葱枰?harness。這種自底向上的思考方式讓我對 harness 的必要性有了更深的理解。

模型本身能做什么?它們接收文本、圖像、音頻、視頻等數(shù)據(jù),輸出文本。就這樣。開箱即用,它們無法維持跨交互的持久狀態(tài),無法執(zhí)行代碼,無法訪問實時知識,無法設(shè)置環(huán)境和安裝包來完成工作。這些都是 harness 層面的功能。LLM 的結(jié)構(gòu)決定了需要某種機(jī)制來包裝它們,才能做有用的工作。

舉個例子,要實現(xiàn)"聊天"這樣的產(chǎn)品體驗,我們需要把模型包裝在一個 while 循環(huán)中,跟蹤之前的消息并添加新的用戶消息。讀這篇文章的每個人都已經(jīng)使用過這種 harness。關(guān)鍵思想是,我們想把期望的 agent 行為轉(zhuǎn)化為 harness 中的實際功能。這個觀點讓我意識到,harness 工程本質(zhì)上是在彌合"模型能力"和"實際需求"之間的鴻溝。

Harness 的核心組件

基于 Viv 的分析,我總結(jié)了 harness 必須包含的幾個核心組件,以及每個組件存在的理由。

文件系統(tǒng)是最基礎(chǔ)的 harness 原語。我們希望 agent 有持久存儲來處理真實數(shù)據(jù)、卸載上下文窗口裝不下的信息、并在會話間持久化工作。模型只能直接操作上下文窗口內(nèi)的知識。在有文件系統(tǒng)之前,用戶必須復(fù)制粘貼內(nèi)容給模型,這體驗很糟糕,而且對自主 agent 不起作用。世界已經(jīng)在使用文件系統(tǒng)工作,所以模型自然在數(shù)十億個 token 上訓(xùn)練了如何使用它們。自然的解決方案是:harness 配備文件系統(tǒng)抽象和文件操作工具。

文件系統(tǒng)的重要性怎么強(qiáng)調(diào)都不為過。它讓 agent 有了工作空間來讀取數(shù)據(jù)、代碼和文檔。工作可以增量添加和卸載,而不是把所有東西都放在上下文中。Agent 可以存儲中間輸出并維護(hù)超越單個會話的狀態(tài)。文件系統(tǒng)還是自然的協(xié)作界面,多個 agent 和人類可以通過共享文件協(xié)調(diào)。Git 為文件系統(tǒng)添加版本控制,這樣 agent 可以跟蹤工作、回滾錯誤、分支實驗。

Bash 和代碼執(zhí)行則是通用工具。我們希望 agent 自主解決問題,而不需要人類預(yù)先設(shè)計每個工具。今天主流的 agent 執(zhí)行模式是 ReAct 循環(huán),模型推理、通過工具調(diào)用采取行動、觀察結(jié)果、在 while 循環(huán)中重復(fù)。但 harness 只能執(zhí)行它有邏輯的工具。與其強(qiáng)迫用戶為每個可能的動作構(gòu)建工具,更好的解決方案是給 agent 一個通用工具,比如 bash。

Bash 加代碼執(zhí)行是朝著"給模型一臺計算機(jī),讓它自己搞定其余部分"邁出的一大步。模型可以通過代碼即時設(shè)計自己的工具,而不是被限制在固定的預(yù)配置工具集中。Harness 仍然配備其他工具,但代碼執(zhí)行已經(jīng)成為自主問題解決的默認(rèn)通用策略。我認(rèn)為這是一個重要的設(shè)計哲學(xué)轉(zhuǎn)變:從"提供足夠的工具"轉(zhuǎn)向"提供創(chuàng)建工具的能力"。

沙盒和執(zhí)行環(huán)境也必不可少。Agent 需要一個有正確默認(rèn)設(shè)置的環(huán)境,這樣它們可以安全行動、觀察結(jié)果并取得進(jìn)展。我們已經(jīng)給了模型存儲和執(zhí)行代碼的能力,但這一切都需要在某個地方發(fā)生。在本地運行 agent 生成的代碼有風(fēng)險,而且單個本地環(huán)境無法擴(kuò)展到大量 agent 工作負(fù)載。

沙盒給 agent 提供安全的操作環(huán)境。Harness 可以連接到沙盒來運行代碼、檢查文件、安裝依賴并完成任務(wù),而不是在本地執(zhí)行。這創(chuàng)造了代碼的安全隔離執(zhí)行。為了更高安全性,harness 可以白名單命令并強(qiáng)制網(wǎng)絡(luò)隔離。沙盒還能實現(xiàn)規(guī)?;?,因為環(huán)境可以按需創(chuàng)建、分散到多個任務(wù),工作完成后銷毀。

好的環(huán)境配備好的默認(rèn)工具。Harness 負(fù)責(zé)配置工具,這樣 agent 可以做有用的工作。這包括預(yù)安裝語言運行時和包、用于 git 和測試的 CLI、用于網(wǎng)頁交互和驗證的瀏覽器。瀏覽器、日志、截圖和測試運行器等工具給 agent 提供了觀察和分析工作的方法。這幫助它們創(chuàng)建自我驗證循環(huán),在那里它們可以編寫應(yīng)用代碼、運行測試、檢查日志并修復(fù)錯誤。

內(nèi)存和搜索用于持續(xù)學(xué)習(xí)。Agent 應(yīng)該記住它們見過的東西,并訪問訓(xùn)練時不存在的信息。模型除了權(quán)重和當(dāng)前上下文中的內(nèi)容外,沒有額外知識。在無法編輯模型權(quán)重的情況下,"添加知識"的唯一方法是通過上下文注入。

對于內(nèi)存,文件系統(tǒng)再次成為核心原語。Harness 支持像 AGENTS.md 這樣的內(nèi)存文件標(biāo)準(zhǔn),在 agent 啟動時注入上下文。隨著 agent 添加和編輯此文件,harness 將更新后的文件加載到上下文中。這是一種持續(xù)學(xué)習(xí)形式,agent 從一個會話持久存儲知識,并將該知識注入未來會話。

知識截止日期意味著模型無法直接訪問新數(shù)據(jù),比如更新的庫版本,除非用戶直接提供。對于最新知識,Web Search 和像 Context7 這樣的 MCP 工具幫助 agent 訪問超出知識截止日期的信息,比如新庫版本或訓(xùn)練停止時不存在的當(dāng)前數(shù)據(jù)。

對抗上下文腐爛也是關(guān)鍵挑戰(zhàn)。Agent 性能不應(yīng)該在工作過程中降低。上下文腐爛描述的是模型在上下文窗口填滿時推理和完成任務(wù)的能力變差的現(xiàn)象。上下文是寶貴而稀缺的資源,所以 harness 需要策略來管理它。今天的 harness 在很大程度上是良好上下文工程的交付機(jī)制。

壓縮解決的是當(dāng)上下文窗口接近填滿時該怎么辦。沒有壓縮,當(dāng)對話超過上下文窗口會發(fā)生什么?一個選項是 API 報錯,這不好。Harness 必須為這種情況使用某種策略。所以壓縮智能地卸載和總結(jié)現(xiàn)有上下文窗口,這樣 agent 可以繼續(xù)工作。

工具調(diào)用卸載幫助減少大型工具輸出的影響,這些輸出可能會嘈雜地堆滿上下文窗口而不提供有用信息。Harness 保留超過閾值 token 數(shù)的工具輸出的頭部和尾部 token,并將完整輸出卸載到文件系統(tǒng),這樣模型可以在需要時訪問它。


數(shù)據(jù)說話:為什么 Harness 比模型更重要

說到這里,我想回到 Himanshu 提供的那些令人震撼的數(shù)據(jù)。這些數(shù)字最有說服力地證明了 harness 的重要性。

CORE-Bench 的測試結(jié)果非常直接。Claude Opus 4.5 在一個腳手架下得分 42%,換另一個腳手架后得分 78%。同樣的模型,性能幾乎翻倍。Sonnet 4 的表現(xiàn)是 33% vs 47%。Sonnet 4.5 是 44% vs 62%。這不是小幅改進(jìn),這是質(zhì)的飛躍。唯一的變量是 harness,模型完全相同,基準(zhǔn)測試完全相同。

Cursor 的懶工具加載將 token 使用量削減了 46.9%。這是一個具有統(tǒng)計顯著性的數(shù)字。同樣的任務(wù),同樣的模型,只是改變了工具的加載方式,就能節(jié)省近一半的 token。考慮到 token 成本和處理速度,這種優(yōu)化的商業(yè)價值是巨大的。

更極端的案例來自 Vercel。他們刪除了 agent 80% 的工具,結(jié)果 agent 從失敗任務(wù)變成了完成任務(wù)。這個案例特別有意思,因為它挑戰(zhàn)了我們的直覺。我們通常認(rèn)為給 agent 更多工具會讓它更強(qiáng)大,但事實證明,工具太多反而會降低性能。Token 從 145463 降到 67483,步驟從 100 降到 19,延遲從 724 秒降到 141 秒。這是全方位的改進(jìn),而改變的只是 harness 設(shè)計。

LangChain 的 deepagents-cli 在 TerminalBench 2.0 上的表現(xiàn)也很說明問題。僅通過改變 harness,分?jǐn)?shù)從 52.8% 提升到 66.5%,提高了 13.7 個百分點。我反復(fù)強(qiáng)調(diào)這一點:模型完全沒變,只是改變了圍繞模型的腳手架。

這些數(shù)據(jù)讓我重新思考了 AI 行業(yè)的投資方向。我們看到無數(shù)公司花費數(shù)百萬甚至數(shù)十億美元訓(xùn)練更大更強(qiáng)的模型,但可能只需要花一小部分精力優(yōu)化 harness,就能獲得同等甚至更好的性能提升。這不是說模型不重要,而是說我們嚴(yán)重低估了 harness 的價值。

頂尖公司的 Harness 實踐

Himanshu 詳細(xì)分析了幾家頂尖公司的 harness 實現(xiàn),每家都有獨特的設(shè)計哲學(xué)。

Claude Code 采用"模型控制循環(huán)"的理念。它是一個簡單的 while(tool_call) 循環(huán),沒有復(fù)雜的 DAG 編排,沒有競爭的 agent 角色。模型接收消息和工具,返回文本結(jié)束循環(huán),返回工具調(diào)用繼續(xù)循環(huán)。Anthropic 明確稱之為"模型控制循環(huán)"而不是"代碼控制模型"。這個微妙的措辭差異體現(xiàn)了設(shè)計哲學(xué):給模型更大的自主權(quán)。

Claude Code 只提供約 18 個原始工具,分四類:命令行發(fā)現(xiàn)、文件交互、網(wǎng)頁訪問和編排。設(shè)計哲學(xué)是原始工具優(yōu)于集成。更有意思的是,Anthropic 選擇正則表達(dá)式(ripgrep)而不是向量數(shù)據(jù)庫進(jìn)行代碼搜索,理由是 Claude 的代碼理解能力足夠強(qiáng),可以構(gòu)建復(fù)雜正則表達(dá)式而不需要搜索索引。

Claude Code 還有一個巧妙設(shè)計:TodoWrite 工具。從功能上講它什么都不做,純粹是 harness 層面的技巧——一個無操作工具,強(qiáng)制 agent 明確表達(dá)和跟蹤計劃,讓它在長時間運行中保持正軌。這種設(shè)計讓我想到,有時候最有效的工具不是執(zhí)行復(fù)雜操作的,而是幫助 agent 保持清晰思路的簡單機(jī)制。

Cursor 的核心決策是"文件作為基本原語"。為什么?因為文件支持強(qiáng)大搜索、可自然分組、可版本化。他們針對每個前沿模型專門調(diào)優(yōu) harness。不同模型得到不同工具名稱、提示指令和行為指導(dǎo)。這種精細(xì)化調(diào)優(yōu)讓我意識到,通用方案往往不是最優(yōu)方案。

Cursor 的自定義語義搜索特別值得一提。他們的嵌入模型使用 agent 會話軌跡作為訓(xùn)練數(shù)據(jù)。當(dāng) agent 完成任務(wù)時,Cursor 分析哪些文件本應(yīng)更早被檢索,然后訓(xùn)練嵌入模型匹配這些模式。結(jié)果是搜索準(zhǔn)確率平均提高 12.5%,在大型代碼庫上的代碼保留率提高 2.6%。這種從實際使用中學(xué)習(xí)的方法比任何理論優(yōu)化都更有效。

Manus 則走了另一個極端,從推出以來已經(jīng)重寫了五次框架。他們最獨特的做法是使用 logit masking 而不是動態(tài)移除工具。任何對上下文前端工具定義的更改都會使所有后續(xù) token 的 KV-cache 失效。所以所有約 29 個工具永久加載,每步可用性通過約束輸出 token 概率控制。

Manus 團(tuán)隊得出的最大教訓(xùn)是:最大性能提升來自刪除東西。復(fù)雜工具定義被 shell 執(zhí)行替代,"管理 agent"被簡單交接替代。如果你的 agent harness 在模型變好的同時變復(fù)雜,那就出問題了。這個觀點讓我深有感觸,真正的進(jìn)步往往來自簡化和精簡。


Progressive Disclosure:關(guān)鍵但被忽視的模式

Himanshu 特別強(qiáng)調(diào)了 progressive disclosure(漸進(jìn)式披露)這個概念,我認(rèn)為這是整個 harness 設(shè)計中最被低估的模式。

Progressive disclosure 借鑒自 UI/UX 設(shè)計,1980 年代起源于 IBM Research 的 John Carroll,1990 年代由 Jakob Nielsen 推廣。核心原則:只顯示現(xiàn)在需要的內(nèi)容,按需揭示復(fù)雜性。這直接映射到 agent 設(shè)計。就像可折疊菜單減少人類認(rèn)知負(fù)荷,分層上下文加載減少 LLM 注意力分散。

數(shù)據(jù)非常有說服力。Claude-Mem 文檔顯示,靜態(tài)加載注入 25000 個 token,效率只有 0.8%。Progressive disclosure 只需 955 個 token,效率 100%。這是約 26 倍改進(jìn)。Cursor 的懶加載實現(xiàn) 46.9% token 削減。Vercel 刪除 80% 工具后,token 從 145463 降到 67483,步驟從 100 降到 19,延遲從 724 秒降到 141 秒,agent 從失敗變成功。

各家公司實現(xiàn)方式不同但思路一致。Claude Code 的 SKILL.md 模式:技能存儲為 .claude/skills/ 文件,不預(yù)加載到每次對話。與每次加載的 CLAUDE.md 不同,技能只在 Claude 檢測到相關(guān)性時加載。當(dāng)項目有幾十個技能時,這防止上下文膨脹。

為什么 progressive disclosure 如此重要?Liu 等人在 TACL 2024 的論文證明,LLM 性能遵循 U 型曲線——相關(guān)信息在輸入開頭或結(jié)尾時性能最高,在中間時下降。即使長上下文模型也是如此。這就是為什么 harness 重要:progressive disclosure 保持輸入較小,并將新檢索信息放在末尾。

我的理解是,這從根本上挑戰(zhàn)了"給模型更多上下文總是更好"的假設(shè)。上下文組織方式比數(shù)量更重要。這也解釋了為什么同一模型在不同 harness 下性能差異如此巨大。

Framework 與 Harness 的模糊邊界

Tony 指出,framework 和 harness 的界限并不總是清晰的,而且我認(rèn)為它也不應(yīng)該清晰。

一些 framework 正在添加類似 harness 的功能。LangChain 是個好例子。他們發(fā)布了 Deep Agents,明確稱之為"agent harness",位于框架之上。它配備內(nèi)置規(guī)劃工具、用于上下文管理的文件系統(tǒng)訪問、子 agent 生成和內(nèi)存持久化。你仍在底層使用 LangChain,但 Deep Agents 給你開箱即用的默認(rèn)設(shè)置,這樣你不必自己把所有東西連接起來。

LangChain 實際上在自己的技術(shù)棧中區(qū)分了三層。LangChain(原始庫)是 framework。LangGraph 是他們稱為"agent runtime"(代理運行時)的東西,處理執(zhí)行、狀態(tài)管理和持久性。Deep Agents 是位于兩者之上的 harness。這是一家公司跨越整個光譜。用于組合 agent 的 framework,用于可靠執(zhí)行的 runtime,用于開箱即用的 harness。

這是一家 framework 公司向光譜右側(cè)移動。Deep Agents 仍然是模塊化的。你可以交換后端、配置工具、調(diào)整提示。但它給你一個工作系統(tǒng),不需要你組裝每一塊。

另一方面,harness 也沒有聽起來那么鎖定。拿 OpenClaw 來說,開箱即用時最有觀點,但如果你下載源代碼,可以交換實現(xiàn)。你可以改變內(nèi)存工作方式、調(diào)整 agent 循環(huán)、修改工具處理。只是大多數(shù)人不會這樣做,因為默認(rèn)已經(jīng)工作了。

區(qū)別在于開始時已經(jīng)決定了什么。Harness 配備內(nèi)置決策。Framework 暴露選項。如果使用 harness,你接受大多數(shù)決策并在邊緣配置。如果使用 framework,你自己做決策并組裝系統(tǒng)。


長時程自主執(zhí)行的挑戰(zhàn)

Viv 特別強(qiáng)調(diào)了長時程自主執(zhí)行的重要性和挑戰(zhàn)。自主軟件創(chuàng)建是編碼 agent 的圣杯,但今天的模型存在早期停止、復(fù)雜問題分解困難、以及工作跨越多個上下文窗口時的不連貫問題。好的 harness 必須圍繞所有這些設(shè)計。

這正是早期 harness 原語開始復(fù)合的地方。長時程工作需要持久狀態(tài)、規(guī)劃、觀察和驗證,以在多個上下文窗口間持續(xù)工作。文件系統(tǒng)和 git 用于跨會話跟蹤工作。Agent 在長任務(wù)中產(chǎn)生數(shù)百萬 token,文件系統(tǒng)持久捕獲工作以隨時間跟蹤進(jìn)展。添加 git 允許新 agent 快速了解最新工作和項目歷史。對于多個 agent 協(xié)作,文件系統(tǒng)也充當(dāng)共享工作賬本。

Ralph Loop 是一個有意思的 harness 模式,用于繼續(xù)工作。它通過鉤子攔截模型的退出嘗試,在干凈的上下文窗口中重新注入原始提示,強(qiáng)制 agent 針對完成目標(biāo)繼續(xù)工作。文件系統(tǒng)使這成為可能,因為每次迭代從新上下文開始但從上一次迭代讀取狀態(tài)。

規(guī)劃和自我驗證讓 agent 保持正軌。規(guī)劃是模型將目標(biāo)分解為一系列步驟。Harness 通過良好提示和注入如何使用文件系統(tǒng)中計劃文件的提醒來支持這一點。完成每一步后,agent 從通過自我驗證檢查工作正確性中受益。Harness 中的鉤子可以運行預(yù)定義測試套件,在失敗時循環(huán)回模型并帶上錯誤消息,或者可以提示模型獨立自我評估代碼。驗證將解決方案建立在測試上,并為自我改進(jìn)創(chuàng)建反饋信號。

Harness 的未來

三位作者都對 harness 的未來有自己的看法,我覺得他們的觀點很有啟發(fā)性。

Himanshu 注意到模型訓(xùn)練和 harness 設(shè)計的耦合。今天的 agent 產(chǎn)品如 Claude Code 和 Codex 在模型后訓(xùn)練時將 harness 納入循環(huán)。這幫助模型在 harness 設(shè)計者認(rèn)為它們應(yīng)該原生擅長的動作上改進(jìn),如文件系統(tǒng)操作、bash 執(zhí)行、規(guī)劃或與子 agent 并行工作。

這創(chuàng)造了一個反饋循環(huán)。有用的原語被發(fā)現(xiàn)、添加到 harness,然后在訓(xùn)練下一代模型時使用。隨著這個循環(huán)重復(fù),模型在訓(xùn)練時所在的 harness 中變得更有能力。但這種共同演化對泛化有有趣的副作用。它以改變工具邏輯導(dǎo)致模型性能下降的方式表現(xiàn)出來。一個真正智能的模型應(yīng)該不難在補(bǔ)丁方法間切換,但在循環(huán)中訓(xùn)練會創(chuàng)造這種過擬合。

但這并不意味著對你任務(wù)最好的 harness 就是模型后訓(xùn)練時用的那個。Terminal Bench 2.0 排行榜是個好例子。Opus 4.6 在 Claude Code 中的得分遠(yuǎn)低于在其他 harness 中的 Opus 4.6。通過只改變 harness 可以榨取很多價值。

Viv 認(rèn)為隨著模型變得更有能力,今天存在于 harness 中的一些東西會被吸收到模型中。模型會在規(guī)劃、自我驗證和長時程連貫性上原生變好,因此需要更少的上下文注入。這表明 harness 隨時間會變得不那么重要。但就像提示工程今天繼續(xù)有價值一樣,harness 工程可能會繼續(xù)對構(gòu)建好的 agent 有用。

Harness 今天確實在修補(bǔ)模型缺陷,但它們也圍繞模型智能構(gòu)建系統(tǒng)以使其更有效。配置良好的環(huán)境、正確的工具、持久狀態(tài)和驗證循環(huán)讓任何模型更高效,無論其基礎(chǔ)智能如何。

Viv 提到 harness 工程是 LangChain 用來改進(jìn)其 harness 構(gòu)建庫 deepagents 的一個非?;钴S的研究領(lǐng)域。一些開放和有趣的問題包括:編排數(shù)百個 agent 在共享代碼庫上并行工作;分析自己軌跡以識別和修復(fù) harness 級別失敗模式的 agent;根據(jù)給定任務(wù)即時動態(tài)組裝正確工具和上下文而不是預(yù)配置的 harness。

我對 Harness 未來的思考

讀完這三位作者的分析后,我有一些自己的深度思考。

我認(rèn)為 harness 工程正在成為一門獨立的學(xué)科。就像軟件工程從計算機(jī)科學(xué)中分離出來,成為一個有自己方法論、最佳實踐和工具鏈的領(lǐng)域一樣,harness 工程也在經(jīng)歷類似的過程。我們已經(jīng)看到了一些早期信號:專門的 harness 構(gòu)建庫(如 LangChain 的 Deep Agents)、harness 設(shè)計模式的總結(jié)(如 12 Factor Agents)、以及用于評估 harness 質(zhì)量的基準(zhǔn)測試(如 CORE-Bench、Terminal Bench)。

這種專業(yè)化很重要,因為它降低了構(gòu)建高質(zhì)量 AI agent 的門檻。當(dāng) harness 工程成為一門成熟的學(xué)科時,開發(fā)者不需要從零開始摸索,可以借鑒已驗證的模式和最佳實踐。這會加速整個行業(yè)的創(chuàng)新速度。

我也注意到一個有趣的悖論:雖然模型在變得更強(qiáng)大,但對 harness 的需求不會消失,只是會轉(zhuǎn)變形式。早期的 harness 主要是在彌補(bǔ)模型的不足,比如給模型添加文件系統(tǒng)訪問、代碼執(zhí)行能力等基礎(chǔ)功能。但隨著這些能力逐漸被模型原生支持,harness 的角色會從"能力補(bǔ)充"轉(zhuǎn)向"性能優(yōu)化"和"可靠性保證"。

就像現(xiàn)代編程語言已經(jīng)有了垃圾回收、類型系統(tǒng)等高級特性,但我們?nèi)匀恍枰蚣芎蛶靵順?gòu)建復(fù)雜應(yīng)用一樣,未來即使模型本身變得非常強(qiáng)大,我們?nèi)匀恍枰?harness 來優(yōu)化性能、管理復(fù)雜性、確??煽啃浴rogressive disclosure、上下文管理、錯誤恢復(fù)這些問題不會因為模型變強(qiáng)而消失。

從商業(yè)角度看,我認(rèn)為 harness 工程能力將成為 AI 公司的核心競爭力之一。模型本身正在快速商品化,任何公司都可以通過 API 訪問最先進(jìn)的模型。但如何有效利用這些模型、如何設(shè)計出讓模型發(fā)揮最大效能的系統(tǒng),這才是真正的護(hù)城河。這就像云計算時代,底層基礎(chǔ)設(shè)施(AWS、Azure、GCP)是商品,但在這些基礎(chǔ)設(shè)施上構(gòu)建的應(yīng)用和平臺才是真正的價值所在。

我還思考了 harness 設(shè)計的一個哲學(xué)問題:應(yīng)該給模型多大的自主權(quán)?Claude Code 的"模型控制循環(huán)"代表了一個極端,給模型最大的自由度。而更傳統(tǒng)的方法則傾向于用代碼嚴(yán)格控制 agent 的每一步。我認(rèn)為最佳平衡點會隨著模型能力的提升而移動。當(dāng)模型還比較弱時,需要更多的 harness 級別控制和約束。但隨著模型變強(qiáng),給它們更多自主權(quán)會帶來更好的結(jié)果。這個平衡點的把握,需要深刻理解模型的能力邊界和任務(wù)的復(fù)雜度。

Tony 提出的"你解決什么問題決定你需要 framework 還是 harness"這個觀點讓我想到,也許我們需要一個更細(xì)粒度的分類。在 framework 和 harness 之間,可能還有很多中間狀態(tài)。比如"可配置的 harness"、"模塊化的 harness"、"領(lǐng)域特定的 harness"等等。未來可能會出現(xiàn)更多這樣的中間形態(tài),讓開發(fā)者可以根據(jù)具體需求選擇合適的抽象層次。

最后,我想強(qiáng)調(diào) Himanshu 提到的一個關(guān)鍵洞察:最好的團(tuán)隊一直在簡化。Manus 五次重寫,每次都刪除東西。Anthropic 設(shè)計 Claude Code 是為了隨模型改進(jìn)而縮小。這個趨勢告訴我們,harness 工程的終極目標(biāo)不是構(gòu)建一個功能齊全、無所不包的系統(tǒng),而是找到最小必要集——那些真正不可或缺、無法被模型原生能力替代的部分。這需要持續(xù)的迭代、測試和勇于刪除的決心。

Agent = Model + Harness。這個簡單的等式背后,是關(guān)于如何構(gòu)建真正有用的 AI 系統(tǒng)的深刻洞察。模型提供智能,harness 讓智能有用。在追逐更強(qiáng)大模型的同時,我們不應(yīng)該忽視 harness 工程的價值。因為最終,沒有人購買引擎,大家購買的是完整的汽車。

結(jié)尾

也歡迎大家留言討論,分享你的觀點!

覺得內(nèi)容不錯的朋友能夠幫忙右下角點個贊,分享一下。您的每次分享,都是在激勵我不斷產(chǎn)出更好的內(nèi)容。

歡迎關(guān)注深思圈,一起探索更大的世界。

- END -

兩個“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向,你知道嗎


速度將成為AI時代唯一的護(hù)城河


a16z重磅預(yù)測:Vibe coding贏者通吃?錯了,垂直專業(yè)化才是未來


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
楊瀚森前隊友生涯之夜!轟33+三雙創(chuàng)8新高:21歲拿雙向合同搏命

楊瀚森前隊友生涯之夜!轟33+三雙創(chuàng)8新高:21歲拿雙向合同搏命

顏小白的籃球夢
2026-04-06 07:42:37
高210米,砸13億!廈門“礦泉水瓶大樓”即將建成!

高210米,砸13億!廈門“礦泉水瓶大樓”即將建成!

GA環(huán)球建筑
2026-04-05 23:51:33
日本摩圈集體破防!張雪奪冠后日媒評價撕開“中國制造”百年偏見

日本摩圈集體破防!張雪奪冠后日媒評價撕開“中國制造”百年偏見

行者聊官
2026-04-04 16:05:43
黃曉明就“帶9歲娃騎行”發(fā)文道歉:為自己的疏忽鄭重道歉,已去交警部門接受處罰;相關(guān)騎行照片已刪除

黃曉明就“帶9歲娃騎行”發(fā)文道歉:為自己的疏忽鄭重道歉,已去交警部門接受處罰;相關(guān)騎行照片已刪除

極目新聞
2026-04-05 18:19:57
拯救大兵——到伊朗腹地建個基地

拯救大兵——到伊朗腹地建個基地

熊飛白
2026-04-05 21:30:55
“麻豆傳媒·關(guān)?!保狐S色產(chǎn)業(yè),居然也有寒冬???

“麻豆傳媒·關(guān)?!保狐S色產(chǎn)業(yè),居然也有寒冬???

辰星雜談
2026-04-04 13:38:22
真撤了!大批日企悄悄離開中國,中日制造格局,正在徹底改寫

真撤了!大批日企悄悄離開中國,中日制造格局,正在徹底改寫

別人都叫我阿腈
2026-04-05 17:06:55
別讓腰痛毀掉你的下半生!每天10分鐘,腰板直得像20歲

別讓腰痛毀掉你的下半生!每天10分鐘,腰板直得像20歲

徐孟醫(yī)生說疼痛
2026-04-03 07:00:15
身材炸裂!NBA 場邊的 “人間尤物”,個個顏值能打還不是花瓶

身材炸裂!NBA 場邊的 “人間尤物”,個個顏值能打還不是花瓶

橙星文娛
2026-04-05 10:34:51
3簽1裁達(dá)成!湖人雙核賽季報銷,1800萬緊急補(bǔ)陣備戰(zhàn)季后賽

3簽1裁達(dá)成!湖人雙核賽季報銷,1800萬緊急補(bǔ)陣備戰(zhàn)季后賽

林子說事
2026-04-06 02:29:50
38萬投北方稀土12年,北京地鐵司機(jī),守得 “工業(yè)黃金” 狂賺70萬

38萬投北方稀土12年,北京地鐵司機(jī),守得 “工業(yè)黃金” 狂賺70萬

真實人物采訪
2026-04-05 06:10:03
阿斯:皇馬內(nèi)部對輸馬略卡極度失望,同時不再信任西班牙裁判

阿斯:皇馬內(nèi)部對輸馬略卡極度失望,同時不再信任西班牙裁判

懂球帝
2026-04-06 06:22:05
這種動物理論上永遠(yuǎn)不會死,因為它可以在“老年”和“青年”間來回切換

這種動物理論上永遠(yuǎn)不會死,因為它可以在“老年”和“青年”間來回切換

萬物雜志
2026-04-05 06:40:52
為何好多小國都莫名其妙反華?馬斯克一語道破本質(zhì)

為何好多小國都莫名其妙反華?馬斯克一語道破本質(zhì)

秋巷雨瀟瀟
2026-04-05 18:53:20
文章和女兒假期聚餐,17歲文君竹化淡妝好甜美,越長越像馬伊琍

文章和女兒假期聚餐,17歲文君竹化淡妝好甜美,越長越像馬伊琍

日落于西
2026-04-05 07:15:18
太可怕了!郭麒麟被聚會朋友偷拍發(fā)上網(wǎng),網(wǎng)友:誰還敢交朋友?

太可怕了!郭麒麟被聚會朋友偷拍發(fā)上網(wǎng),網(wǎng)友:誰還敢交朋友?

子芫伴你成長
2026-04-05 22:43:24
李亞鵬直播笑著回應(yīng)助手否認(rèn)收標(biāo)哥豪車或捐款:這種鬼話你也信?

李亞鵬直播笑著回應(yīng)助手否認(rèn)收標(biāo)哥豪車或捐款:這種鬼話你也信?

南方健哥
2026-04-05 10:43:49
史上最愚蠢營救行動,造成大量人員傷亡,事后拒不道歉……

史上最愚蠢營救行動,造成大量人員傷亡,事后拒不道歉……

極品小牛肉
2024-08-24 19:35:51
日本網(wǎng)民:日本聲優(yōu)林鼓子被中國宅男施壓,丟掉了工作機(jī)會

日本網(wǎng)民:日本聲優(yōu)林鼓子被中國宅男施壓,丟掉了工作機(jī)會

阿廢冷眼觀察所
2026-04-05 04:30:59
津門虎4輪不勝!-9分墊底,6戰(zhàn)申花不勝,延續(xù)3大魔咒

津門虎4輪不勝!-9分墊底,6戰(zhàn)申花不勝,延續(xù)3大魔咒

奧拜爾
2026-04-05 21:39:10
2026-04-06 07:56:49
深思圈
深思圈
挖掘和深度分析海外最新AI產(chǎn)品,分享實用出海戰(zhàn)略
212文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

花200薅5千算力,Claude冷血斷供“龍蝦”

頭條要聞

伊朗媒體:多名美士兵在營救行動中身亡 美軍試圖摧毀遺體

頭條要聞

伊朗媒體:多名美士兵在營救行動中身亡 美軍試圖摧毀遺體

體育要聞

CBA最老球員,身價7500萬美元

娛樂要聞

王燦兮否認(rèn)婆媳不和 曬與杜淳媽合影

財經(jīng)要聞

誰造出了優(yōu)思益這頭“怪物”?

汽車要聞

家用SUV沒駕駛樂趣?極氪8X第一個不同意

態(tài)度原創(chuàng)

時尚
數(shù)碼
游戲
教育
藝術(shù)

伊姐清明熱推:電視劇《暴鋒雨》;電影《我,許可》......

數(shù)碼要聞

大膽復(fù)古美學(xué),海盜船推出原子紫配色K65 PLUS WIRELESS機(jī)械鍵盤

三天鼠標(biāo)干壞兩個,你這還是自走棋嘛?

教育要聞

成都七中,不愧是成都人眼中的愛馬仕

藝術(shù)要聞

絕了!東西方兩幅神畫,一眼就上癮

無障礙瀏覽 進(jìn)入關(guān)懷版