国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Meta-Harness讓Haiku性能狂飆,甚至追平Opus!

0
分享至


新智元報道

編輯:傾傾

【新智元導(dǎo)讀】如果未來的某天,AI智能體可以給自己調(diào)參數(shù),修bug,會發(fā)生什么?

就在這兩天,斯坦福IRIS Lab的博士生Yoonho Lee聯(lián)合MIT、威斯康星大學(xué)的研究者放出一篇新論文,把AI智能體優(yōu)化的邏輯翻了個個兒。

作者陣容十分豪華。導(dǎo)師是機器人學(xué)習(xí)明星學(xué)者Chelsea Finn,合作者里還有DSPy框架作者Omar Khattab。

曾經(jīng),大家卷模型本身的參數(shù)量、訓(xùn)練數(shù)據(jù)、RLHF。但Meta-Harness另辟蹊徑:支撐模型運行的那層「腳手架」同樣決定生死。

這些東西以前全靠人工調(diào)?,F(xiàn)在,Meta-Harness讓AI自己來干這活。


結(jié)果十分完美:Claude Haiku 4.5的成功率達到37.6%,登頂所有Haiku智能體榜首;Claude Opus 4.6更是達到76.4%,僅次于榜一ForgeCode。

模型是商品,Harness決定成敗

harness指的是一整套基礎(chǔ)設(shè)施:系統(tǒng)提示詞、工具定義、重試邏輯、上下文管理、子代理協(xié)調(diào)、生命周期鉤子。

模型本身只是個大腦,harness才是讓這個大腦能干活的身體。

這個概念在2026年突然爆火,業(yè)界終于意識到,同一個模型,換個harness,性能差距可以大到離譜。

2月,工程師Can B?lük做了個實驗。

他只改編輯格式,不動模型,15個LLM的編碼性能提升了5到14個百分點,輸出token還減少了約20%。


更夸張的是,GPT-4 Turbo僅僅換了一種編輯格式,準確率就從26%飆升到59%。

同樣的模型,性能差了一倍多,唯一變量是harness。

Agent = Model + Harness,成了最熱門的趨勢

模型提供智能,harness讓智能變得有用。

Claude Code、Codex在做同一件事:精心設(shè)計harness來彌補模型的短板。

那么問題來了,harness工程目前高度依賴人工。

工程師得手動寫提示詞、調(diào)工具接口、設(shè)計重試策略,然后跑測試、看日志、猜哪里出了問題、改代碼、再跑測試。

這個循環(huán)費時費力,而且很多失敗模式根本不是人能輕易診斷的。

Meta-Harness想做的,就是把這個循環(huán)自動化。

400倍信息量:AI自己「復(fù)盤+迭代」

Meta-Harness嘗試著給優(yōu)化器看更多東西。聽起來簡單,但這恰恰是過去所有方法的瓶頸。

論文這張對比表,列出了主流文本每一步能看到多少上下文:


Meta-Harness 與主流優(yōu)化方法的上下文觀察量對比。

Self-Refine只看最近一次輸出加自我批評,大約1000 token;

OPRO看過去幾輪的方案和分數(shù),大約2000 token;

TextGrad、AlphaEvolve、GEPA這些更先進的方法,也就在8000到26000 token之間。

Meta-Harness呢?最高1000萬token,差距是400倍。

為什么需要這么多?因為harness工程產(chǎn)生的失敗模式,往往藏在執(zhí)行軌跡的細節(jié)里。

一個任務(wù)跑失敗了,原因可能是十步之前的某個工具調(diào)用返回了截斷的輸出,導(dǎo)致后續(xù)推理全歪。

如果優(yōu)化器只能看到一個「失敗」的標量分數(shù),或者一段壓縮過的摘要,它根本沒法定位問題。

Meta-Harness的做法,是給proposer一個完整的文件系統(tǒng)。

這個文件系統(tǒng)里裝著所有歷史候選harness的源代碼、每一輪的執(zhí)行軌跡、命令日志、錯誤信息、超時行為、評分結(jié)果。

Proposer可以用grep、cat這些標準工具自己去翻,想看哪個文件就看哪個,想搜哪個關(guān)鍵詞就搜哪個。

優(yōu)化器不再是在固定prompt上做推理,而是一個會檢索信息、瀏覽歷史、編輯代碼的代理。

proposer用的是Claude Code,它不需要被喂壓縮過的信息,它有能力自己決定看什么、怎么看。

整個搜索循環(huán)很直白:

  1. Proposer讀取文件系統(tǒng)里的歷史記錄

  2. 分析哪些任務(wù)失敗了、失敗原因是什么

  3. 針對性地重寫harness代碼

  4. 新harness跑測試,結(jié)果寫回文件系統(tǒng)

  5. 循環(huán)繼續(xù)


Meta-Harness 核心優(yōu)化閉環(huán)示意圖。Proposer 從“包含全部歷史經(jīng)驗”的文件系統(tǒng)讀取完整軌跡(①),提出新的 Harness 代碼 → 結(jié)合 LLM 執(zhí)行任務(wù)并評估(②)→ 將 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系統(tǒng)(③),實現(xiàn)自我迭代。

論文展示了一個19任務(wù)子集上的搜索過程。

從Terminus-KIRA基線的28.5%起步,到第7輪迭代就漲到了46.5%。


Meta-Harness 在 19 任務(wù)子集上的迭代優(yōu)化過程。從 Terminus-KIRA 基線 28.5% 的成功率起步,第 7 輪迭代達到 46.5%,展示了通過完整執(zhí)行軌跡診斷實現(xiàn)的高效 harness 優(yōu)化。

每一輪都基于具體的執(zhí)行軌跡做「反事實診斷」——如果我當時這樣處理,結(jié)果會不會不一樣?

舉個例子,第7輪的改進是在第一次LLM調(diào)用之前先跑一條shell命令,把環(huán)境依賴信息注入到初始prompt里。

加一條命令,省掉無謂的試錯。 這種程度的診斷精度,靠壓縮摘要是做不到的。

89個任務(wù),小模型登頂

Meta-Harness分了三個場景做了測試:文本分類、數(shù)學(xué)推理、代碼代理。

代碼代理用的基準是TerminalBench-2,它包含89個Docker化任務(wù),覆蓋代碼翻譯、分布式機器學(xué)習(xí)配置、系統(tǒng)編程、生物信息學(xué)、密碼分析等領(lǐng)域。

每個任務(wù)都是二元評分,跑5次取平均,難度相當高。

因為它們需要長程自主執(zhí)行、處理復(fù)雜依賴、應(yīng)對截斷的終端輸出,還得有相當?shù)念I(lǐng)域知識。

這個基準被幾乎所有主流前沿實驗室用來衡量代碼代理的實際能力,是繼SWE-bench之后又一個被廣泛認可的「真實工作」測試集。

Meta-Harness的做法是優(yōu)化完整的編碼harness,包括系統(tǒng)提示詞、工具定義、完成檢測邏輯、上下文管理,全部都在優(yōu)化范圍內(nèi)。

Proposer會讀取每個任務(wù)的執(zhí)行軌跡,診斷失敗模式,然后提出針對性修復(fù)。

結(jié)果,Claude Haiku 4.5的成功率達到37.6%,在所有Haiku 4.5代理中排名第一,超過第二名Goose的35.5%

Claude Opus 4.6的成功率高達76.4%,在所有Opus 4.6代理中排名第二,僅次于ForgeCode的81.8%

需要強調(diào)的是,Haiku是Claude系列里最輕量的版本,參數(shù)量遠小于Opus。

傳統(tǒng)思路下,小模型就是不如大模型,性能天花板是硬傷。

但Meta-Harness證明,通過優(yōu)化harness,小模型的天花板可以被顯著抬高。


Meta-Harness 端到端優(yōu)化結(jié)果總結(jié)。(左)在文本分類任務(wù)上,Meta-Harness 以極少的評估次數(shù)就超越了 ACE、OpenEvolve 等先前方法;(右)在 TerminalBench-2 基準上,Meta-Harness 優(yōu)化的 Claude Haiku 4.5 harness 達到 37.6% 通過率,超越所有已報道的 Haiku 4.5 harness(包括 Goose 35.5% 和 Terminus-KIRA 33.7%),實現(xiàn)小模型登頂。

不止代碼:文本分類和數(shù)學(xué)推理同樣有效

Meta-Harness不只在代碼任務(wù)上管用。

在文本分類場景下,研究者用了三個數(shù)據(jù)集:LawBench(215個類別)、Symptom2Disease(22個類別)、USPTO-50k(180個類別),模型是GPT-OSS-120B。

跑了20輪進化迭代,每輪2個候選,總共產(chǎn)出40個候選harness。

最佳發(fā)現(xiàn)的harness在測試集上達到48.6%準確率,比之前的SOTA方法ACE高出7.7個百分點。

甚至它的成本更低——Meta-Harness只用了45.5K上下文token,而ACE用了203K。


Meta-Harness 在文本分類任務(wù)上的表現(xiàn)。

研究者還做了直接對比實驗,把Meta-Harness和兩個代表性的程序搜索方法放在一起,給同樣的proposer和評估預(yù)算。

結(jié)果是,Meta-Harness用十分之一的評估次數(shù)就追平了它們的最終準確率,而最終準確率還比它們高出10個百分點以上。


Harness Optimizer 搜索進度對比。Meta-Harness(紅色曲線)在極少的 Harness Evaluations 下快速達到最高性能,顯著優(yōu)于 OpenEvolve、TTTDiscover、ACE 等方法,展現(xiàn)了完整執(zhí)行軌跡帶來的效率優(yōu)勢。

原因就是OpenEvolve和PUCT都把歷史壓縮成固定的prompt格式,丟掉了執(zhí)行軌跡。Meta-Harness保留了一切。

在數(shù)學(xué)推理場景下,Meta-Harness搜索的是檢索增強的推理策略。

語料庫里有超過50萬道題,來自8個開源數(shù)據(jù)集。

研究者在250道題的搜索集上進化出一個檢索harness,然后在200道IMO級別的題目上測試,還額外用了5個搜索時從未見過的模型。

單一發(fā)現(xiàn)的檢索harness在5個新模型上平均提升了4.7個百分點(從34.1%到38.8%),而且是在模型不變的情況下。


Meta-Harness 檢索策略的跨模型遷移能力。

這說明Meta-Harness發(fā)現(xiàn)的策略是可遷移的,不是只對特定模型有效的過擬合技巧。

模型能力的競爭正在進入一個新階段。

過去幾年,前沿實驗室比的是誰的模型更強、參數(shù)更多、訓(xùn)練數(shù)據(jù)更大、benchmark分數(shù)更高。

但現(xiàn)在,GPT-5、Claude 4、Gemini 3在很多任務(wù)上已經(jīng)拉不開太大差距。

真正的差距在哪里?在harness。

同一個模型,配上不同的harness,性能可以差一倍。

而harness工程目前還高度依賴人工經(jīng)驗,沒有系統(tǒng)化的方法論,也沒有自動化的工具。

模型是智能的來源,harness是智能的放大器,而現(xiàn)在,優(yōu)化harness本身也可以交給AI來做。

這可能是LLM應(yīng)用開發(fā)進入下一階段的標志。

參考資料:

https://x.com/yoonholeee/status/2038640635482456118

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本消防員未經(jīng)許可在風(fēng)俗店兼職!3年賺270萬,多次舉報后下場曝光

日本消防員未經(jīng)許可在風(fēng)俗店兼職!3年賺270萬,多次舉報后下場曝光

日本物語
2026-04-03 20:42:20
黃金,拋售潮來了

黃金,拋售潮來了

博聞財經(jīng)
2026-04-04 20:19:45
嚴屹寬談張凌赫“粉底液將軍”爭議:演員對妝造的決策權(quán)有限,有質(zhì)疑說明受到了關(guān)注,要用虛心的心態(tài)接受質(zhì)疑

嚴屹寬談張凌赫“粉底液將軍”爭議:演員對妝造的決策權(quán)有限,有質(zhì)疑說明受到了關(guān)注,要用虛心的心態(tài)接受質(zhì)疑

極目新聞
2026-04-02 14:29:35
俄北方艦隊混合航空兵司令奧特羅申科中將在飛機墜毀中喪生

俄北方艦隊混合航空兵司令奧特羅申科中將在飛機墜毀中喪生

山河路口
2026-04-02 23:58:20
索尼把亮度飆到4000尼特,OLED陣營集體失眠了

索尼把亮度飆到4000尼特,OLED陣營集體失眠了

摸魚算法
2026-04-04 01:07:18
男人的生理需求能有多難忍?網(wǎng)友:我對我老公只有動物本能

男人的生理需求能有多難忍?網(wǎng)友:我對我老公只有動物本能

番外行
2026-04-02 08:37:13
張雪與凱越老總私下會面,對方主動祝賀,張雪順勢澄清辭職原因

張雪與凱越老總私下會面,對方主動祝賀,張雪順勢澄清辭職原因

潮鹿逐夢
2026-04-04 23:43:09
讓手機涼涼!OPPO這招太絕了

讓手機涼涼!OPPO這招太絕了

雷科技
2026-04-03 22:24:19
官媒下場,音著協(xié)徹查!年少輕狂的單依純,到了付出代價的時候

官媒下場,音著協(xié)徹查!年少輕狂的單依純,到了付出代價的時候

生命之泉的奧秘
2026-04-04 02:15:28
離婚4年,大衣哥前兒媳陳亞男再婚要求離譜,難怪不給朱小偉生子

離婚4年,大衣哥前兒媳陳亞男再婚要求離譜,難怪不給朱小偉生子

阿斚田侃故事
2026-04-05 06:16:11
丈夫長征途中犧牲后,她掙扎許久才愿嫁給元帥,沒想到丈夫卻沒死

丈夫長征途中犧牲后,她掙扎許久才愿嫁給元帥,沒想到丈夫卻沒死

柳絮憶史
2026-04-02 09:39:10
他把冠軍車定價4萬,進口品牌集體失眠了

他把冠軍車定價4萬,進口品牌集體失眠了

固件更新中
2026-04-02 14:48:45
張水華第四個代言官宣!50天狂簽4家,收入登頂跑圈,公司已注冊!

張水華第四個代言官宣!50天狂簽4家,收入登頂跑圈,公司已注冊!

馬拉松跑步健身
2026-04-02 22:10:07
難得中美默契一回!中國對美出口暴跌12.8%,美禁止進口中國商品

難得中美默契一回!中國對美出口暴跌12.8%,美禁止進口中國商品

生活新鮮市
2026-04-04 20:21:17
遼寧謎之操作把球迷看懵了!居然裁掉布羅金頓,攻守兼?zhèn)潼c被放棄

遼寧謎之操作把球迷看懵了!居然裁掉布羅金頓,攻守兼?zhèn)潼c被放棄

籃球資訊達人
2026-04-04 23:06:32
美媒稱伊朗用多光譜攝像機識別美以戰(zhàn)機

美媒稱伊朗用多光譜攝像機識別美以戰(zhàn)機

財聯(lián)社
2026-04-05 00:35:05
“富鉀”的8種天然食材,建議中老年人常吃,精神充沛身體更健康

“富鉀”的8種天然食材,建議中老年人常吃,精神充沛身體更健康

美食店主
2026-04-05 07:08:40
馬英九被曝患老年癡呆!臺律師:大陸已注意到,擔大任者另有其人

馬英九被曝患老年癡呆!臺律師:大陸已注意到,擔大任者另有其人

朝子亥
2026-04-04 14:05:03
中方雪中送炭,26萬桶柴油到貨,不到24小時,中國給馬科斯提個醒

中方雪中送炭,26萬桶柴油到貨,不到24小時,中國給馬科斯提個醒

戰(zhàn)旗紅
2026-04-04 17:30:32
觀點:王燊超絕殺讓隊魂具象化,崇明一期仍是冠軍基石,“啃老” 打誰的臉?

觀點:王燊超絕殺讓隊魂具象化,崇明一期仍是冠軍基石,“啃老” 打誰的臉?

上觀新聞
2026-04-05 04:40:10
2026-04-05 07:44:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14893文章數(shù) 66749關(guān)注度
往期回顧 全部

科技要聞

內(nèi)存一年漲四倍!國產(chǎn)手機廠商集體漲價

頭條要聞

爆火雞煲店老板喊話網(wǎng)友"別來了" 連"少東家"也被召回

頭條要聞

爆火雞煲店老板喊話網(wǎng)友"別來了" 連"少東家"也被召回

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

Q女士反擊,否認逼宋寧峰張婉婷離婚

財經(jīng)要聞

中微董事長,給半導(dǎo)體潑點冷水

汽車要聞

17萬級海豹07EV 不僅續(xù)航長還有9分鐘滿電的快樂

態(tài)度原創(chuàng)

教育
游戲
時尚
數(shù)碼
房產(chǎn)

教育要聞

八年級數(shù)學(xué),全軍覆沒

好玩還上頭!創(chuàng)新與傳統(tǒng)并存的戰(zhàn)棋黑馬《永鈴回響》值不值得玩?

別再穿大一碼了!遮肉根本不是靠寬松

數(shù)碼要聞

REDMI K90 Pro Max漲價倒計時!多位米粉緊急下單:不等618了

房產(chǎn)要聞

小陽春全面啟動!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

無障礙瀏覽 進入關(guān)懷版