網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Meta-Harness讓Haiku性能狂飆，甚至追平Opus！

2026-04-04 20:02:38　來源: 新智元

北京舉報

分享至

新智元報道

編輯：傾傾

【新智元導(dǎo)讀】如果未來的某天，AI智能體可以給自己調(diào)參數(shù)，修bug，會發(fā)生什么？

就在這兩天，斯坦福IRIS Lab的博士生Yoonho Lee聯(lián)合MIT、威斯康星大學(xué)的研究者放出一篇新論文，把AI智能體優(yōu)化的邏輯翻了個個兒。

作者陣容十分豪華。導(dǎo)師是機器人學(xué)習(xí)明星學(xué)者Chelsea Finn，合作者里還有DSPy框架作者Omar Khattab。

曾經(jīng)，大家卷模型本身的參數(shù)量、訓(xùn)練數(shù)據(jù)、RLHF。但Meta-Harness另辟蹊徑：支撐模型運行的那層「腳手架」同樣決定生死。

這些東西以前全靠人工調(diào)?，F(xiàn)在，Meta-Harness讓AI自己來干這活。

結(jié)果十分完美：Claude Haiku 4.5的成功率達到37.6%，登頂所有Haiku智能體榜首；Claude Opus 4.6更是達到76.4%，僅次于榜一ForgeCode。

模型是商品，Harness決定成敗

harness指的是一整套基礎(chǔ)設(shè)施：系統(tǒng)提示詞、工具定義、重試邏輯、上下文管理、子代理協(xié)調(diào)、生命周期鉤子。

模型本身只是個大腦，harness才是讓這個大腦能干活的身體。

這個概念在2026年突然爆火，業(yè)界終于意識到，同一個模型，換個harness，性能差距可以大到離譜。

2月，工程師Can B?lük做了個實驗。

他只改編輯格式，不動模型，15個LLM的編碼性能提升了5到14個百分點，輸出token還減少了約20%。

更夸張的是，GPT-4 Turbo僅僅換了一種編輯格式，準確率就從26%飆升到59%。

同樣的模型，性能差了一倍多，唯一變量是harness。

Agent = Model + Harness，成了最熱門的趨勢

模型提供智能，harness讓智能變得有用。

Claude Code、Codex在做同一件事：精心設(shè)計harness來彌補模型的短板。

那么問題來了，harness工程目前高度依賴人工。

工程師得手動寫提示詞、調(diào)工具接口、設(shè)計重試策略，然后跑測試、看日志、猜哪里出了問題、改代碼、再跑測試。

這個循環(huán)費時費力，而且很多失敗模式根本不是人能輕易診斷的。

Meta-Harness想做的，就是把這個循環(huán)自動化。

400倍信息量：AI自己「復(fù)盤+迭代」

Meta-Harness嘗試著給優(yōu)化器看更多東西。聽起來簡單，但這恰恰是過去所有方法的瓶頸。

論文這張對比表，列出了主流文本每一步能看到多少上下文：

Meta-Harness 與主流優(yōu)化方法的上下文觀察量對比。

Self-Refine只看最近一次輸出加自我批評，大約1000 token；

OPRO看過去幾輪的方案和分數(shù)，大約2000 token；

TextGrad、AlphaEvolve、GEPA這些更先進的方法，也就在8000到26000 token之間。

Meta-Harness呢？最高1000萬token，差距是400倍。

為什么需要這么多？因為harness工程產(chǎn)生的失敗模式，往往藏在執(zhí)行軌跡的細節(jié)里。

一個任務(wù)跑失敗了，原因可能是十步之前的某個工具調(diào)用返回了截斷的輸出，導(dǎo)致后續(xù)推理全歪。

如果優(yōu)化器只能看到一個「失敗」的標量分數(shù)，或者一段壓縮過的摘要，它根本沒法定位問題。

Meta-Harness的做法，是給proposer一個完整的文件系統(tǒng)。

這個文件系統(tǒng)里裝著所有歷史候選harness的源代碼、每一輪的執(zhí)行軌跡、命令日志、錯誤信息、超時行為、評分結(jié)果。

Proposer可以用grep、cat這些標準工具自己去翻，想看哪個文件就看哪個，想搜哪個關(guān)鍵詞就搜哪個。

優(yōu)化器不再是在固定prompt上做推理，而是一個會檢索信息、瀏覽歷史、編輯代碼的代理。

proposer用的是Claude Code，它不需要被喂壓縮過的信息，它有能力自己決定看什么、怎么看。

整個搜索循環(huán)很直白：

Proposer讀取文件系統(tǒng)里的歷史記錄
分析哪些任務(wù)失敗了、失敗原因是什么
針對性地重寫harness代碼
新harness跑測試，結(jié)果寫回文件系統(tǒng)
循環(huán)繼續(xù)

Meta-Harness 核心優(yōu)化閉環(huán)示意圖。Proposer 從“包含全部歷史經(jīng)驗”的文件系統(tǒng)讀取完整軌跡（①），提出新的 Harness 代碼 → 結(jié)合 LLM 執(zhí)行任務(wù)并評估（②）→ 將 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系統(tǒng)（③），實現(xiàn)自我迭代。

論文展示了一個19任務(wù)子集上的搜索過程。

從Terminus-KIRA基線的28.5%起步，到第7輪迭代就漲到了46.5%。

Meta-Harness 在 19 任務(wù)子集上的迭代優(yōu)化過程。從 Terminus-KIRA 基線 28.5% 的成功率起步，第 7 輪迭代達到 46.5%，展示了通過完整執(zhí)行軌跡診斷實現(xiàn)的高效 harness 優(yōu)化。

每一輪都基于具體的執(zhí)行軌跡做「反事實診斷」——如果我當時這樣處理，結(jié)果會不會不一樣？

舉個例子，第7輪的改進是在第一次LLM調(diào)用之前先跑一條shell命令，把環(huán)境依賴信息注入到初始prompt里。

加一條命令，省掉無謂的試錯。這種程度的診斷精度，靠壓縮摘要是做不到的。

89個任務(wù)，小模型登頂

Meta-Harness分了三個場景做了測試：文本分類、數(shù)學(xué)推理、代碼代理。

代碼代理用的基準是TerminalBench-2，它包含89個Docker化任務(wù)，覆蓋代碼翻譯、分布式機器學(xué)習(xí)配置、系統(tǒng)編程、生物信息學(xué)、密碼分析等領(lǐng)域。

每個任務(wù)都是二元評分，跑5次取平均，難度相當高。

因為它們需要長程自主執(zhí)行、處理復(fù)雜依賴、應(yīng)對截斷的終端輸出，還得有相當?shù)念I(lǐng)域知識。

這個基準被幾乎所有主流前沿實驗室用來衡量代碼代理的實際能力，是繼SWE-bench之后又一個被廣泛認可的「真實工作」測試集。

Meta-Harness的做法是優(yōu)化完整的編碼harness，包括系統(tǒng)提示詞、工具定義、完成檢測邏輯、上下文管理，全部都在優(yōu)化范圍內(nèi)。

Proposer會讀取每個任務(wù)的執(zhí)行軌跡，診斷失敗模式，然后提出針對性修復(fù)。

結(jié)果，Claude Haiku 4.5的成功率達到37.6%，在所有Haiku 4.5代理中排名第一，超過第二名Goose的35.5%

Claude Opus 4.6的成功率高達76.4%，在所有Opus 4.6代理中排名第二，僅次于ForgeCode的81.8%

需要強調(diào)的是，Haiku是Claude系列里最輕量的版本，參數(shù)量遠小于Opus。

傳統(tǒng)思路下，小模型就是不如大模型，性能天花板是硬傷。

但Meta-Harness證明，通過優(yōu)化harness，小模型的天花板可以被顯著抬高。

Meta-Harness 端到端優(yōu)化結(jié)果總結(jié)。（左）在文本分類任務(wù)上，Meta-Harness 以極少的評估次數(shù)就超越了 ACE、OpenEvolve 等先前方法；（右）在 TerminalBench-2 基準上，Meta-Harness 優(yōu)化的 Claude Haiku 4.5 harness 達到 37.6% 通過率，超越所有已報道的 Haiku 4.5 harness（包括 Goose 35.5% 和 Terminus-KIRA 33.7%），實現(xiàn)小模型登頂。

不止代碼：文本分類和數(shù)學(xué)推理同樣有效

Meta-Harness不只在代碼任務(wù)上管用。

在文本分類場景下，研究者用了三個數(shù)據(jù)集：LawBench（215個類別）、Symptom2Disease（22個類別）、USPTO-50k（180個類別），模型是GPT-OSS-120B。

跑了20輪進化迭代，每輪2個候選，總共產(chǎn)出40個候選harness。

最佳發(fā)現(xiàn)的harness在測試集上達到48.6%準確率，比之前的SOTA方法ACE高出7.7個百分點。

甚至它的成本更低——Meta-Harness只用了45.5K上下文token，而ACE用了203K。

Meta-Harness 在文本分類任務(wù)上的表現(xiàn)。

研究者還做了直接對比實驗，把Meta-Harness和兩個代表性的程序搜索方法放在一起，給同樣的proposer和評估預(yù)算。

結(jié)果是，Meta-Harness用十分之一的評估次數(shù)就追平了它們的最終準確率，而最終準確率還比它們高出10個百分點以上。

Harness Optimizer 搜索進度對比。Meta-Harness（紅色曲線）在極少的 Harness Evaluations 下快速達到最高性能，顯著優(yōu)于 OpenEvolve、TTTDiscover、ACE 等方法，展現(xiàn)了完整執(zhí)行軌跡帶來的效率優(yōu)勢。

原因就是OpenEvolve和PUCT都把歷史壓縮成固定的prompt格式，丟掉了執(zhí)行軌跡。Meta-Harness保留了一切。

在數(shù)學(xué)推理場景下，Meta-Harness搜索的是檢索增強的推理策略。

語料庫里有超過50萬道題，來自8個開源數(shù)據(jù)集。

研究者在250道題的搜索集上進化出一個檢索harness，然后在200道IMO級別的題目上測試，還額外用了5個搜索時從未見過的模型。

單一發(fā)現(xiàn)的檢索harness在5個新模型上平均提升了4.7個百分點（從34.1%到38.8%），而且是在模型不變的情況下。

Meta-Harness 檢索策略的跨模型遷移能力。

這說明Meta-Harness發(fā)現(xiàn)的策略是可遷移的，不是只對特定模型有效的過擬合技巧。

模型能力的競爭正在進入一個新階段。

過去幾年，前沿實驗室比的是誰的模型更強、參數(shù)更多、訓(xùn)練數(shù)據(jù)更大、benchmark分數(shù)更高。

但現(xiàn)在，GPT-5、Claude 4、Gemini 3在很多任務(wù)上已經(jīng)拉不開太大差距。

真正的差距在哪里？在harness。

同一個模型，配上不同的harness，性能可以差一倍。

而harness工程目前還高度依賴人工經(jīng)驗，沒有系統(tǒng)化的方法論，也沒有自動化的工具。

模型是智能的來源，harness是智能的放大器，而現(xiàn)在，優(yōu)化harness本身也可以交給AI來做。

這可能是LLM應(yīng)用開發(fā)進入下一階段的標志。

參考資料：

https://x.com/yoonholeee/status/2038640635482456118

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.