国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Meta-Harness讓Haiku性能狂飆,甚至追平Opus!

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】如果未來(lái)的某天,AI智能體可以給自己調(diào)參數(shù),修bug,會(huì)發(fā)生什么?

就在這兩天,斯坦福IRIS Lab的博士生Yoonho Lee聯(lián)合MIT、威斯康星大學(xué)的研究者放出一篇新論文,把AI智能體優(yōu)化的邏輯翻了個(gè)個(gè)兒。

作者陣容十分豪華。導(dǎo)師是機(jī)器人學(xué)習(xí)明星學(xué)者Chelsea Finn,合作者里還有DSPy框架作者Omar Khattab。

曾經(jīng),大家卷模型本身的參數(shù)量、訓(xùn)練數(shù)據(jù)、RLHF。但Meta-Harness另辟蹊徑:支撐模型運(yùn)行的那層「腳手架」同樣決定生死。

這些東西以前全靠人工調(diào)?,F(xiàn)在,Meta-Harness讓AI自己來(lái)干這活。


結(jié)果十分完美:Claude Haiku 4.5的成功率達(dá)到37.6%,登頂所有Haiku智能體榜首;Claude Opus 4.6更是達(dá)到76.4%,僅次于榜一ForgeCode。

模型是商品,Harness決定成敗

harness指的是一整套基礎(chǔ)設(shè)施:系統(tǒng)提示詞、工具定義、重試邏輯、上下文管理、子代理協(xié)調(diào)、生命周期鉤子。

模型本身只是個(gè)大腦,harness才是讓這個(gè)大腦能干活的身體。

這個(gè)概念在2026年突然爆火,業(yè)界終于意識(shí)到,同一個(gè)模型,換個(gè)harness,性能差距可以大到離譜。

2月,工程師Can B?lük做了個(gè)實(shí)驗(yàn)。

他只改編輯格式,不動(dòng)模型,15個(gè)LLM的編碼性能提升了5到14個(gè)百分點(diǎn),輸出token還減少了約20%。


更夸張的是,GPT-4 Turbo僅僅換了一種編輯格式,準(zhǔn)確率就從26%飆升到59%。

同樣的模型,性能差了一倍多,唯一變量是harness。

Agent = Model + Harness,成了最熱門(mén)的趨勢(shì)

模型提供智能,harness讓智能變得有用。

Claude Code、Codex在做同一件事:精心設(shè)計(jì)harness來(lái)彌補(bǔ)模型的短板。

那么問(wèn)題來(lái)了,harness工程目前高度依賴人工。

工程師得手動(dòng)寫(xiě)提示詞、調(diào)工具接口、設(shè)計(jì)重試策略,然后跑測(cè)試、看日志、猜哪里出了問(wèn)題、改代碼、再跑測(cè)試。

這個(gè)循環(huán)費(fèi)時(shí)費(fèi)力,而且很多失敗模式根本不是人能輕易診斷的。

Meta-Harness想做的,就是把這個(gè)循環(huán)自動(dòng)化。

400倍信息量:AI自己「復(fù)盤(pán)+迭代」

Meta-Harness嘗試著給優(yōu)化器看更多東西。聽(tīng)起來(lái)簡(jiǎn)單,但這恰恰是過(guò)去所有方法的瓶頸。

論文這張對(duì)比表,列出了主流文本每一步能看到多少上下文:


Meta-Harness 與主流優(yōu)化方法的上下文觀察量對(duì)比。

Self-Refine只看最近一次輸出加自我批評(píng),大約1000 token;

OPRO看過(guò)去幾輪的方案和分?jǐn)?shù),大約2000 token;

TextGrad、AlphaEvolve、GEPA這些更先進(jìn)的方法,也就在8000到26000 token之間。

Meta-Harness呢?最高1000萬(wàn)token,差距是400倍。

為什么需要這么多?因?yàn)閔arness工程產(chǎn)生的失敗模式,往往藏在執(zhí)行軌跡的細(xì)節(jié)里。

一個(gè)任務(wù)跑失敗了,原因可能是十步之前的某個(gè)工具調(diào)用返回了截?cái)嗟妮敵?,?dǎo)致后續(xù)推理全歪。

如果優(yōu)化器只能看到一個(gè)「失敗」的標(biāo)量分?jǐn)?shù),或者一段壓縮過(guò)的摘要,它根本沒(méi)法定位問(wèn)題。

Meta-Harness的做法,是給proposer一個(gè)完整的文件系統(tǒng)。

這個(gè)文件系統(tǒng)里裝著所有歷史候選harness的源代碼、每一輪的執(zhí)行軌跡、命令日志、錯(cuò)誤信息、超時(shí)行為、評(píng)分結(jié)果。

Proposer可以用grep、cat這些標(biāo)準(zhǔn)工具自己去翻,想看哪個(gè)文件就看哪個(gè),想搜哪個(gè)關(guān)鍵詞就搜哪個(gè)。

優(yōu)化器不再是在固定prompt上做推理,而是一個(gè)會(huì)檢索信息、瀏覽歷史、編輯代碼的代理。

proposer用的是Claude Code,它不需要被喂壓縮過(guò)的信息,它有能力自己決定看什么、怎么看。

整個(gè)搜索循環(huán)很直白:

  1. Proposer讀取文件系統(tǒng)里的歷史記錄

  2. 分析哪些任務(wù)失敗了、失敗原因是什么

  3. 針對(duì)性地重寫(xiě)harness代碼

  4. 新harness跑測(cè)試,結(jié)果寫(xiě)回文件系統(tǒng)

  5. 循環(huán)繼續(xù)


Meta-Harness 核心優(yōu)化閉環(huán)示意圖。Proposer 從“包含全部歷史經(jīng)驗(yàn)”的文件系統(tǒng)讀取完整軌跡(①),提出新的 Harness 代碼 → 結(jié)合 LLM 執(zhí)行任務(wù)并評(píng)估(②)→ 將 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系統(tǒng)(③),實(shí)現(xiàn)自我迭代。

論文展示了一個(gè)19任務(wù)子集上的搜索過(guò)程。

從Terminus-KIRA基線的28.5%起步,到第7輪迭代就漲到了46.5%。


Meta-Harness 在 19 任務(wù)子集上的迭代優(yōu)化過(guò)程。從 Terminus-KIRA 基線 28.5% 的成功率起步,第 7 輪迭代達(dá)到 46.5%,展示了通過(guò)完整執(zhí)行軌跡診斷實(shí)現(xiàn)的高效 harness 優(yōu)化。

每一輪都基于具體的執(zhí)行軌跡做「反事實(shí)診斷」——如果我當(dāng)時(shí)這樣處理,結(jié)果會(huì)不會(huì)不一樣?

舉個(gè)例子,第7輪的改進(jìn)是在第一次LLM調(diào)用之前先跑一條shell命令,把環(huán)境依賴信息注入到初始prompt里。

加一條命令,省掉無(wú)謂的試錯(cuò)。 這種程度的診斷精度,靠壓縮摘要是做不到的。

89個(gè)任務(wù),小模型登頂

Meta-Harness分了三個(gè)場(chǎng)景做了測(cè)試:文本分類、數(shù)學(xué)推理、代碼代理。

代碼代理用的基準(zhǔn)是TerminalBench-2,它包含89個(gè)Docker化任務(wù),覆蓋代碼翻譯、分布式機(jī)器學(xué)習(xí)配置、系統(tǒng)編程、生物信息學(xué)、密碼分析等領(lǐng)域。

每個(gè)任務(wù)都是二元評(píng)分,跑5次取平均,難度相當(dāng)高。

因?yàn)樗鼈冃枰L(zhǎng)程自主執(zhí)行、處理復(fù)雜依賴、應(yīng)對(duì)截?cái)嗟慕K端輸出,還得有相當(dāng)?shù)念I(lǐng)域知識(shí)。

這個(gè)基準(zhǔn)被幾乎所有主流前沿實(shí)驗(yàn)室用來(lái)衡量代碼代理的實(shí)際能力,是繼SWE-bench之后又一個(gè)被廣泛認(rèn)可的「真實(shí)工作」測(cè)試集。

Meta-Harness的做法是優(yōu)化完整的編碼harness,包括系統(tǒng)提示詞、工具定義、完成檢測(cè)邏輯、上下文管理,全部都在優(yōu)化范圍內(nèi)。

Proposer會(huì)讀取每個(gè)任務(wù)的執(zhí)行軌跡,診斷失敗模式,然后提出針對(duì)性修復(fù)。

結(jié)果,Claude Haiku 4.5的成功率達(dá)到37.6%,在所有Haiku 4.5代理中排名第一,超過(guò)第二名Goose的35.5%

Claude Opus 4.6的成功率高達(dá)76.4%,在所有Opus 4.6代理中排名第二,僅次于ForgeCode的81.8%

需要強(qiáng)調(diào)的是,Haiku是Claude系列里最輕量的版本,參數(shù)量遠(yuǎn)小于Opus。

傳統(tǒng)思路下,小模型就是不如大模型,性能天花板是硬傷。

但Meta-Harness證明,通過(guò)優(yōu)化harness,小模型的天花板可以被顯著抬高。


Meta-Harness 端到端優(yōu)化結(jié)果總結(jié)。(左)在文本分類任務(wù)上,Meta-Harness 以極少的評(píng)估次數(shù)就超越了 ACE、OpenEvolve 等先前方法;(右)在 TerminalBench-2 基準(zhǔn)上,Meta-Harness 優(yōu)化的 Claude Haiku 4.5 harness 達(dá)到 37.6% 通過(guò)率,超越所有已報(bào)道的 Haiku 4.5 harness(包括 Goose 35.5% 和 Terminus-KIRA 33.7%),實(shí)現(xiàn)小模型登頂。

不止代碼:文本分類和數(shù)學(xué)推理同樣有效

Meta-Harness不只在代碼任務(wù)上管用。

在文本分類場(chǎng)景下,研究者用了三個(gè)數(shù)據(jù)集:LawBench(215個(gè)類別)、Symptom2Disease(22個(gè)類別)、USPTO-50k(180個(gè)類別),模型是GPT-OSS-120B。

跑了20輪進(jìn)化迭代,每輪2個(gè)候選,總共產(chǎn)出40個(gè)候選harness。

最佳發(fā)現(xiàn)的harness在測(cè)試集上達(dá)到48.6%準(zhǔn)確率,比之前的SOTA方法ACE高出7.7個(gè)百分點(diǎn)。

甚至它的成本更低——Meta-Harness只用了45.5K上下文token,而ACE用了203K。


Meta-Harness 在文本分類任務(wù)上的表現(xiàn)。

研究者還做了直接對(duì)比實(shí)驗(yàn),把Meta-Harness和兩個(gè)代表性的程序搜索方法放在一起,給同樣的proposer和評(píng)估預(yù)算。

結(jié)果是,Meta-Harness用十分之一的評(píng)估次數(shù)就追平了它們的最終準(zhǔn)確率,而最終準(zhǔn)確率還比它們高出10個(gè)百分點(diǎn)以上。


Harness Optimizer 搜索進(jìn)度對(duì)比。Meta-Harness(紅色曲線)在極少的 Harness Evaluations 下快速達(dá)到最高性能,顯著優(yōu)于 OpenEvolve、TTTDiscover、ACE 等方法,展現(xiàn)了完整執(zhí)行軌跡帶來(lái)的效率優(yōu)勢(shì)。

原因就是OpenEvolve和PUCT都把歷史壓縮成固定的prompt格式,丟掉了執(zhí)行軌跡。Meta-Harness保留了一切。

在數(shù)學(xué)推理場(chǎng)景下,Meta-Harness搜索的是檢索增強(qiáng)的推理策略。

語(yǔ)料庫(kù)里有超過(guò)50萬(wàn)道題,來(lái)自8個(gè)開(kāi)源數(shù)據(jù)集。

研究者在250道題的搜索集上進(jìn)化出一個(gè)檢索harness,然后在200道IMO級(jí)別的題目上測(cè)試,還額外用了5個(gè)搜索時(shí)從未見(jiàn)過(guò)的模型。

單一發(fā)現(xiàn)的檢索harness在5個(gè)新模型上平均提升了4.7個(gè)百分點(diǎn)(從34.1%到38.8%),而且是在模型不變的情況下。


Meta-Harness 檢索策略的跨模型遷移能力。

這說(shuō)明Meta-Harness發(fā)現(xiàn)的策略是可遷移的,不是只對(duì)特定模型有效的過(guò)擬合技巧。

模型能力的競(jìng)爭(zhēng)正在進(jìn)入一個(gè)新階段。

過(guò)去幾年,前沿實(shí)驗(yàn)室比的是誰(shuí)的模型更強(qiáng)、參數(shù)更多、訓(xùn)練數(shù)據(jù)更大、benchmark分?jǐn)?shù)更高。

但現(xiàn)在,GPT-5、Claude 4、Gemini 3在很多任務(wù)上已經(jīng)拉不開(kāi)太大差距。

真正的差距在哪里?在harness。

同一個(gè)模型,配上不同的harness,性能可以差一倍。

而harness工程目前還高度依賴人工經(jīng)驗(yàn),沒(méi)有系統(tǒng)化的方法論,也沒(méi)有自動(dòng)化的工具。

模型是智能的來(lái)源,harness是智能的放大器,而現(xiàn)在,優(yōu)化harness本身也可以交給AI來(lái)做。

這可能是LLM應(yīng)用開(kāi)發(fā)進(jìn)入下一階段的標(biāo)志。

參考資料:

https://x.com/yoonholeee/status/2038640635482456118

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我在國(guó)安退休后在村口下棋,年輕人觀棋時(shí),他的手勢(shì)竟是特工暗號(hào)

我在國(guó)安退休后在村口下棋,年輕人觀棋時(shí),他的手勢(shì)竟是特工暗號(hào)

千秋文化
2026-03-03 20:17:48
A股突發(fā)!涉嫌嚴(yán)重違紀(jì)違法,程亮被查

A股突發(fā)!涉嫌嚴(yán)重違紀(jì)違法,程亮被查

中國(guó)基金報(bào)
2026-04-12 19:49:35
4月12日俄烏最新:轉(zhuǎn)折時(shí)刻

4月12日俄烏最新:轉(zhuǎn)折時(shí)刻

西樓飲月
2026-04-12 16:18:11
現(xiàn)役巨星60分次數(shù):杜蘭特0次,庫(kù)里2次,哈登4次,還有一人更狠

現(xiàn)役巨星60分次數(shù):杜蘭特0次,庫(kù)里2次,哈登4次,還有一人更狠

大西體育
2026-04-12 22:58:59
空乘人員和鄭麗文同框出鏡,真是太美了!

空乘人員和鄭麗文同框出鏡,真是太美了!

達(dá)文西看世界
2026-04-12 09:39:42
建國(guó)前夕,解放軍清除中南海淤泥16萬(wàn)噸,水底都挖出了什么

建國(guó)前夕,解放軍清除中南海淤泥16萬(wàn)噸,水底都挖出了什么

掠影后有感
2026-04-12 10:08:51
北京飛絮的楊柳樹(shù)能不能都砍了?官方回應(yīng):不能一砍了之 而是科學(xué)施策

北京飛絮的楊柳樹(shù)能不能都砍了?官方回應(yīng):不能一砍了之 而是科學(xué)施策

閃電新聞
2026-04-12 17:25:25
現(xiàn)役第一!王哲林總分超越劉煒完成傳承 升CBA歷史第五

現(xiàn)役第一!王哲林總分超越劉煒完成傳承 升CBA歷史第五

醉臥浮生
2026-04-12 20:44:18
怒火再旺也沒(méi)用,以色列絕不敢動(dòng)巴基斯坦!

怒火再旺也沒(méi)用,以色列絕不敢動(dòng)巴基斯坦!

安安說(shuō)
2026-04-12 10:41:07
“我心里好難過(guò)!”遠(yuǎn)嫁女子在浙江一派出所哭著請(qǐng)求陌生輔警擁抱,一抱就是24分鐘!網(wǎng)友:勝過(guò)千言萬(wàn)語(yǔ)

“我心里好難過(guò)!”遠(yuǎn)嫁女子在浙江一派出所哭著請(qǐng)求陌生輔警擁抱,一抱就是24分鐘!網(wǎng)友:勝過(guò)千言萬(wàn)語(yǔ)

臺(tái)州交通廣播
2026-04-11 22:43:47
“談崩”了!直線跳水,超10萬(wàn)人爆倉(cāng)

“談崩”了!直線跳水,超10萬(wàn)人爆倉(cāng)

日照日?qǐng)?bào)
2026-04-12 14:21:03
為這場(chǎng)和談,巴基斯坦押上國(guó)運(yùn)!萬(wàn)人封城不給以色列任何可乘之機(jī)

為這場(chǎng)和談,巴基斯坦押上國(guó)運(yùn)!萬(wàn)人封城不給以色列任何可乘之機(jī)

青青子衿
2026-04-11 02:19:32
曾志偉追債20多年終獲勝!討回5700萬(wàn),還債人居然是她,令人意外

曾志偉追債20多年終獲勝!討回5700萬(wàn),還債人居然是她,令人意外

一盅情懷
2026-04-11 17:12:15
4月13日精選熱點(diǎn):液冷大會(huì)即將舉行,這三大核心龍頭要起爆

4月13日精選熱點(diǎn):液冷大會(huì)即將舉行,這三大核心龍頭要起爆

元芳說(shuō)投資
2026-04-12 20:24:42
“談崩”了!剛剛,直線跳水!超10萬(wàn)人爆倉(cāng)

“談崩”了!剛剛,直線跳水!超10萬(wàn)人爆倉(cāng)

中國(guó)基金報(bào)
2026-04-12 11:23:11
470億遺產(chǎn)爭(zhēng)奪戰(zhàn)打響,遲重瑞被陳麗華子女踢出局?

470億遺產(chǎn)爭(zhēng)奪戰(zhàn)打響,遲重瑞被陳麗華子女踢出局?

小哆說(shuō)體育
2026-04-09 16:57:42
潮汕那么多富豪,為何還是發(fā)展不起來(lái)?到底輸在了哪里?

潮汕那么多富豪,為何還是發(fā)展不起來(lái)?到底輸在了哪里?

賤議你讀史
2026-04-10 12:20:10
8分鐘入兩球杜月徵染紅,重慶銅梁龍2:1武漢三鎮(zhèn)暫時(shí)登頂中超榜首

8分鐘入兩球杜月徵染紅,重慶銅梁龍2:1武漢三鎮(zhèn)暫時(shí)登頂中超榜首

上游新聞
2026-04-11 21:23:04
上海5分險(xiǎn)勝北京!廣東險(xiǎn)勝?gòu)V廈6分,誰(shuí)注意杜鋒表情,積分榜大變

上海5分險(xiǎn)勝北京!廣東險(xiǎn)勝?gòu)V廈6分,誰(shuí)注意杜鋒表情,積分榜大變

老吳說(shuō)體育
2026-04-12 21:38:57
補(bǔ)時(shí)絕殺!成都蓉城2:1逆轉(zhuǎn)國(guó)安,裁判爭(zhēng)議不斷:韋世豪逃紅成MVP

補(bǔ)時(shí)絕殺!成都蓉城2:1逆轉(zhuǎn)國(guó)安,裁判爭(zhēng)議不斷:韋世豪逃紅成MVP

話體壇
2026-04-12 22:14:28
2026-04-12 23:31:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂(lè)要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

教育
數(shù)碼
家居
公開(kāi)課
軍事航空

教育要聞

高中地理必會(huì)知識(shí)點(diǎn)115條全梳理

數(shù)碼要聞

2026年最新AMD/Intel桌面CPU排名:多線程、單線程、游戲性能誰(shuí)才是第一

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國(guó)副總統(tǒng)萬(wàn)斯:美伊談判未能達(dá)成協(xié)議

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版