国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

模型不是壁壘,Harness 也不是

0
分享至


文:王智遠(yuǎn) | ID:Z201440

先說明下,這篇文章有點(diǎn)費(fèi)腦。

適合對(duì)AI趨勢(shì)感興趣、想搞懂2026年開發(fā)者圈在吵什么的人,得稍微跟著動(dòng)動(dòng)腦筋。

咱們從一個(gè)大家都有過的感受說起:用過 AI 寫代碼的人,多半經(jīng)歷過同一條情緒曲線:第一天覺得這玩意兒要革命,第三天開始罵街。

它會(huì)跑偏、反復(fù)犯同一個(gè)錯(cuò)、忘了你三分鐘前說的要求,甚至項(xiàng)目做到一半,就突然跟你說「大功告成」。

大部分人的第一反應(yīng):這模型不行,換一個(gè)更強(qiáng)的;但 2026 年初,海外開發(fā)者社區(qū)突然認(rèn)為,也許問題在模型外面那一圈東西。

他們給這圈東西起了個(gè)名字,叫 Harness。

01

Harness本意是馬具,就是韁繩、馬鞍、嚼子、馬蹄鐵那一套,用來駕馭馬匹的裝備。用在 AI 這兒,意思也差不多。比如:管理大模型的運(yùn)行環(huán)境、工具接口、驗(yàn)證機(jī)制、反饋回路、約束規(guī)則等等。

這個(gè)詞的走紅,有一條很清晰的時(shí)間線:

2026年2月5日,HashiCorp聯(lián)合創(chuàng)始人Mitchell Hashimoto發(fā)了一篇博客。這人很厲害,做過Terraform,全球開發(fā)者都在用的基礎(chǔ)設(shè)施工具,在基礎(chǔ)設(shè)施圈子里算是教父級(jí)人物。

他在博客里分享了自己用AI編程的經(jīng)歷,寫到第五步時(shí)說了一句話,大意是:Agent每次犯錯(cuò),別在提示詞里加一句「請(qǐng)你下次注意」,沒用。

不如去改環(huán)境,寫一條規(guī)則、加一個(gè)腳本,讓它從結(jié)構(gòu)上就沒法再犯同樣的錯(cuò);他管這叫Engineer the Harness(去設(shè)計(jì)那套駕馭系統(tǒng))。

六天后,OpenAI跟進(jìn)了。2月11日,他們發(fā)了一篇實(shí)驗(yàn)報(bào)告,標(biāo)題直接用了Harness Engineering。

報(bào)告里說,三個(gè)工程師從空倉(cāng)庫(kù)開始,五個(gè)月沒寫一行手動(dòng)代碼,全靠OpenAI的編程Agent(Codex Agent生成),最后倉(cāng)庫(kù)里攢了約一百萬行代碼,合并了1500個(gè)代碼合并請(qǐng)求,產(chǎn)品還有真實(shí)的日活用戶。

這三個(gè)人五個(gè)月里沒干啥別的,就是設(shè)計(jì)讓Agent寫代碼的環(huán)境。

之后,Martin Fowler站臺(tái)、LangChain(做AI應(yīng)用開發(fā)框架的公司)跟進(jìn),一個(gè)月之內(nèi),這個(gè)詞就從一篇個(gè)人博客,變成了開發(fā)者圈的黑話。

那Harness具體能干嘛?最直觀的理解就是:讓Agent干不了壞事、記得住東西、做完有檢查、搞砸能回滾。

比如:約束這件事,OpenAI的實(shí)驗(yàn)里,工程師要求代碼必須遵守分層架構(gòu),每個(gè)模塊只能引用相鄰層。注意,這不是在提示詞里寫一句「請(qǐng)遵守分層架構(gòu)」,那沒用,Agent下一秒就忘。

他們把這條規(guī)則寫成了CI流水線里的自動(dòng)化代碼檢查,Agent敢違反,代碼合并請(qǐng)求直接過不了。一條程序化的規(guī)則,比提示詞里一萬句叮囑都管用。

再比如記憶,大模型天生只有一種記憶,就是上下文窗口,滿了前面的內(nèi)容就被擠掉。OpenAI的做法是在倉(cāng)庫(kù)里維護(hù)一套結(jié)構(gòu)化文檔,設(shè)計(jì)規(guī)范、架構(gòu)決策、執(zhí)行計(jì)劃全放里面,Agent隨時(shí)能查。

說白了,別指望金魚能記住事兒,你得在魚缸外面貼滿便簽。

最有意思的是驗(yàn)證。Agent做完一件事,你問它「做得怎么樣」,它幾乎永遠(yuǎn)會(huì)說「我做得很好」,這不是Anthropic的段子,是真的。

Agent評(píng)估自己的產(chǎn)出,總是盲目自信,哪怕在人看來質(zhì)量很一般。怎么辦?

Anthropic的解法有點(diǎn)像生成對(duì)抗網(wǎng)絡(luò)(一種讓兩個(gè)AI互相博弈的技術(shù)):做事的和評(píng)判的分開,一個(gè)Agent寫,另一個(gè)專門挑毛病,選手和裁判不能是同一個(gè)人。

還有糾錯(cuò)。Anthropic在做長(zhǎng)時(shí)間運(yùn)行的Agent時(shí)發(fā)現(xiàn),Agent跑一半掉進(jìn)死胡同是常事,硬做只會(huì)越錯(cuò)越遠(yuǎn)。他們的做法簡(jiǎn)單粗暴但有效:

每次改動(dòng)都走Git,卡住了就用Git回滾到上一個(gè)干凈狀態(tài),然后直接換一個(gè)新Agent接手,只給它一張交接單,寫清楚前面做了什么、接下來該做什么。

不指望金魚能自我修復(fù),直接換一條新的,再塞給它一張紙條,這些加起來,就是Harness。

聽起來好像也沒什么了不起,無非是規(guī)則、文檔、測(cè)試、回滾,都是軟件工程里早就有的東西。

但看一個(gè)數(shù)字你就懂了:LangChain用同一個(gè)模型,提示詞一個(gè)字沒改,只調(diào)整了外面那一圈,換了工具定義、改了上下文管理、加了錯(cuò)誤恢復(fù)循環(huán)。

結(jié)果,在主流的編程能力基準(zhǔn)測(cè)試TerminalBench 2.0里,得分從52.8%漲到66.5%,排名從30名開外沖進(jìn)前5。馬沒換,就換了套馬具,這個(gè)數(shù)字比任何解釋都有說服力。

02

概念火了之后,開發(fā)者社區(qū)迅速分成兩派,吵得挺兇的。

一派覺得 Harness 被吹過頭了。好玩的是,這派最猛的代言人,來自 Anthropic 自己家。

Boris Cherny,Claude Code 的創(chuàng)造者,就是那個(gè)目前市面上最火的 AI 編程工具,他做的,他在AI 工程圈很有影響力的播客社區(qū)的討論里,說了一段讓對(duì)面很不舒服的話,大意是:

Claude Code 的所有秘訣都在模型本身,它是模型上最薄的一層包裝,我們不可能做得比這更精簡(jiǎn)了。

你品品,一幫人在喊「Harness就是一切」,結(jié)果做出最成功的Agent產(chǎn)品之一的人告訴你,他的產(chǎn)品基本沒有Harness,這多少有點(diǎn)打臉。

OpenAI的Noam Brown更直接,他說在推理模型上搭腳手架,很多時(shí)候都是添亂;模型的推理能力一直在飛速進(jìn)步,你今天費(fèi)半天勁搭的編排邏輯,過幾個(gè)月新模型出來,就成了絆腳石。

獨(dú)立測(cè)試也在幫這派說話:

專門做AI能力評(píng)估的機(jī)構(gòu)METR做了嚴(yán)格對(duì)比,結(jié)論是Claude Code和Codex,并沒有顯著贏過一個(gè)基礎(chǔ)腳手架。

Scale AI的SWE-Atlas測(cè)試結(jié)論更扎心,你換哪個(gè)Harness框架,差距基本在誤差范圍內(nèi),說白了,折騰半天跟沒折騰一樣。

聽到這,你可能會(huì)想,得,Harness就是個(gè)營(yíng)銷概念吧?

別急,還有更離譜的實(shí)驗(yàn)。安全研究員Can Boluk做了個(gè)叫Hashline的實(shí)驗(yàn),他沒碰模型、沒改提示詞,就改了一件事,Agent編輯代碼的格式。

怎么改的?他給每行代碼加了2到3個(gè)字符的哈希標(biāo)識(shí),Agent改代碼時(shí)不用復(fù)述整行,只需要說「把2:f1那行換成這個(gè)」就行。

就這一個(gè)小改動(dòng),一個(gè)模型的編程得分從6.7%漲到了68.3%,模型權(quán)重一個(gè)字節(jié)沒動(dòng)過。你說Harness有沒有用?

另一家做AI應(yīng)用框架的公司LlamaIndex,創(chuàng)始人直接喊口號(hào):模型的駕馭系統(tǒng)就是一切。他說自己一個(gè)下午優(yōu)化Harness,15個(gè)大模型的編碼能力全漲了。

這派還有一張最硬的商業(yè)牌,Cursor。

這家公司沒有自己的基礎(chǔ)模型,底層用Anthropic和OpenAI的能力,相當(dāng)于用別人的馬,但它靠模型上面那一層Harness,2025年底估值到了293億美元,2026年3月在談500億,年化收入突破20億美元,超過半數(shù)財(cái)富500強(qiáng)都在用來。

它的護(hù)城河在哪?在馬具。

所以到底誰對(duì)?我覺得他們?cè)谡f不同層面的東西,你把兩邊的論據(jù)攤開看,會(huì)發(fā)現(xiàn)一個(gè)很有意思的事情。

Boris Cherny 說 Claude Code 是「最薄的包裝」,這確實(shí)沒撒謊。Claude Code 的產(chǎn)品架構(gòu)就是簡(jiǎn)單,沒有什么花哨的多步編排邏輯。

但你去看Boris Cherny自己怎么用Claude Code,就不一樣了:他日常同時(shí)開10到15個(gè)Claude Code會(huì)話,5個(gè)在終端里跑,5到10個(gè)在瀏覽器里,還有幾個(gè)在手機(jī)上。

他用自動(dòng)化鉤子,每次保存代碼后自動(dòng)格式化;用規(guī)劃模式,強(qiáng)制Agent先出方案再動(dòng)手,方案沒批準(zhǔn)就不能寫一行代碼;甚至用子Agent做代碼審查,讓Agent檢查Agent的活;還把Agent接上瀏覽器自動(dòng)化工具,讓它自己打開瀏覽器跑測(cè)試,看看寫的東西能不能用。

他自己都說:給模型一種驗(yàn)證自身工作的方式,質(zhì)量能提升兩到三倍。你說這不是Harness?

說白了,Boris Cherny說的「薄」,是產(chǎn)品架構(gòu)層面的。欢鴮(duì)面說的「厚」,是工程實(shí)踐層面的厚。

產(chǎn)品可以很薄,實(shí)際用時(shí),必須在模型周圍建立規(guī)則、驗(yàn)證、反饋循環(huán),它才能在真實(shí)項(xiàng)目里不翻車,這兩件事一點(diǎn)都不矛盾。

就像賽車手說「我的車底盤結(jié)構(gòu)很簡(jiǎn)單」,但每次上賽道前,都要花三個(gè)小時(shí)調(diào)懸掛、調(diào)胎壓、調(diào)剎車平衡。

其實(shí)爭(zhēng)論「模型重要還是Harness重要」,本身就有點(diǎn)無聊,就像爭(zhēng)論發(fā)動(dòng)機(jī)重要還是底盤重要一樣,開過車的人都不會(huì)問這種問題。

03

但是,等一下,如果 Harness 真有那么重要,有一件事就說不通了:為什么做得最好的那些團(tuán)隊(duì),反而一直在拆掉自己搭的 Harness?

Manus 你應(yīng)該聽過。

他們半年重寫了五次Harness,每次都是砍功能,用通用的Shell執(zhí)行,替換掉復(fù)雜的工具定義;用結(jié)構(gòu)化的交接文件,替換掉管理型Agent,越做越簡(jiǎn)單。

Next.js背后的公司,在他們的v0產(chǎn)品里刪掉了80%的Agent工具,效果反而更好;Anthropic自己也在干這事,Boris Cherny說Claude Code的代碼每三到四周就重寫一次。

為什么要重寫?

因?yàn)樾掳姹灸P统鰜砗,上一版Harness里的很多邏輯,已經(jīng)被模型內(nèi)化了,那些代碼就成了多余的,不切掉反而礙事。

這就和前面說的「Harness就是一切」矛盾了。如果它是壁壘,為什么大家都在拆?因?yàn)镠arness本身,根本不是壁壘。

Anthropic的研究員Nicholas Carlini,用Claude的上一代旗艦?zāi)P蚈pus 4.5時(shí),做出了一個(gè)能用的編譯器;后來換成Opus 4.6,同樣的任務(wù),產(chǎn)出能編譯Linux內(nèi)核了。

關(guān)鍵是,每升一級(jí)模型,他都得重新設(shè)計(jì)Harness。

因?yàn)槟P妥儚?qiáng)了,舊Harness里那些「保護(hù)性」的邏輯,就變成了約束,限制了新模型本來能自主完成的事。他反復(fù)強(qiáng)調(diào):設(shè)計(jì)Harness時(shí),得站在Claude的角度想。

這揭示了一個(gè)不太舒服的真相:

今天精心設(shè)計(jì)的Harness,大概率會(huì)被下一代模型「吃掉」;今天你需要規(guī)則防止Agent搞亂架構(gòu),明天新模型可能天生就知道不該這么做;今天你得用專門的評(píng)審Agent檢查質(zhì)量,后天模型自己的自我評(píng)估可能就靠譜了。

反過來也成立。

LangChain在調(diào)Harness的過程中,積累了大量執(zhí)行軌跡數(shù)據(jù):哪些路徑成功、哪些模式失敗、工具調(diào)用的序列是什么、Agent卡在哪一步、為什么卡。

這些數(shù)據(jù)很有價(jià)值,能反饋回模型訓(xùn)練,讓下一代模型更適配這個(gè)工作環(huán)境;LangChain自己也說:模型和Harness,正在共同進(jìn)化。

所以真正的情況是:

模型在吃Harness,Harness也在喂模型,它們像一條咬住自己尾巴的蛇,誰也停不下來。

真正壁壘在于蛇轉(zhuǎn)動(dòng)的速度,誰能更快發(fā)現(xiàn)Agent的失敗模式,把它編碼進(jìn)環(huán)境,再用環(huán)境跑出來的數(shù)據(jù)喂給下一代模型,讓這個(gè)飛輪再轉(zhuǎn)一圈,誰就贏了。

Cursor 值那么多錢,因?yàn)閹装偃f開發(fā)者每天在上面寫代碼,每一次使用都在給這個(gè)飛輪加燃料,它積累的不是 Harness,是飛輪的轉(zhuǎn)速。

說到底,所有人都在爭(zhēng)「馬重要還是馬具重要」,但真正跑在前面的人,早就不關(guān)心這個(gè)了;他們關(guān)心,換馬具的速度有多快,以及換下來的舊馬具里攢下的經(jīng)驗(yàn),能不能讓馬跑得更快。

這條蛇還在轉(zhuǎn),而且越轉(zhuǎn)越快。嗯,整個(gè)事情就是這樣;就在我寫完這篇文章的時(shí)候,Anthropic 昨天把 Harness 做成產(chǎn)品發(fā)布了出來。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
趙心童沒讓眾星徹底嘆服!希金斯:他可能達(dá)到小特高度但無法更高

趙心童沒讓眾星徹底嘆服!希金斯:他可能達(dá)到小特高度但無法更高

楊華評(píng)論
2026-04-18 18:39:32
左小青這狀態(tài),鯊瘋了!明媚動(dòng)人,若隱若現(xiàn)

左小青這狀態(tài),鯊瘋了!明媚動(dòng)人,若隱若現(xiàn)

只要高興就好
2025-12-10 19:09:26
世錦賽戰(zhàn)報(bào):16強(qiáng)決出2席,六連鞭大逆轉(zhuǎn),中國(guó)1勝1負(fù)2領(lǐng)先1落后

世錦賽戰(zhàn)報(bào):16強(qiáng)決出2席,六連鞭大逆轉(zhuǎn),中國(guó)1勝1負(fù)2領(lǐng)先1落后

求球不落諦
2026-04-19 20:26:23
山東發(fā)現(xiàn)5000年前超級(jí)大墓四人合葬、三聯(lián)棺現(xiàn)身改寫史前文明認(rèn)知

山東發(fā)現(xiàn)5000年前超級(jí)大墓四人合葬、三聯(lián)棺現(xiàn)身改寫史前文明認(rèn)知

落水的焱燚
2026-04-19 07:30:03
《隊(duì)長(zhǎng)別虐了,嫂子把你移出了戶口本》溫然陸邵霆溫然陸邵霆:

《隊(duì)長(zhǎng)別虐了,嫂子把你移出了戶口本》溫然陸邵霆溫然陸邵霆:

山河無恙既壽永昌
2026-04-12 11:21:57
孩子賭氣吞體溫計(jì)水銀,媽媽狂灌雞蛋清,被醫(yī)生趕回家:不用治!

孩子賭氣吞體溫計(jì)水銀,媽媽狂灌雞蛋清,被醫(yī)生趕回家:不用治!

菁媽育兒
2026-04-17 22:26:07
第一批學(xué)AI的大學(xué)生,已經(jīng)笑不出來了。

第一批學(xué)AI的大學(xué)生,已經(jīng)笑不出來了。

差評(píng)XPIN
2026-04-19 00:11:00
嫁富二代明星后,40歲再懷三胎,豪宅豪車生活

嫁富二代明星后,40歲再懷三胎,豪宅豪車生活

陶尋愛說
2026-04-12 21:58:52
張雪回應(yīng):820RR爆缸是發(fā)動(dòng)機(jī)問題,換新車還是退錢,車主選!

張雪回應(yīng):820RR爆缸是發(fā)動(dòng)機(jī)問題,換新車還是退錢,車主選!

哄動(dòng)一時(shí)啊
2026-04-18 19:39:31
眉毛冒出一根很長(zhǎng)的毛?不要大意!俗話說“眉生長(zhǎng)毛,必有一遭”

眉毛冒出一根很長(zhǎng)的毛?不要大意!俗話說“眉生長(zhǎng)毛,必有一遭”

一根香煙的少婦
2026-03-17 17:54:13
國(guó)民黨22個(gè)兵團(tuán),僅剩6個(gè)兵團(tuán)撤到臺(tái)灣,這6個(gè)兵團(tuán)分別是誰統(tǒng)領(lǐng)?

國(guó)民黨22個(gè)兵團(tuán),僅剩6個(gè)兵團(tuán)撤到臺(tái)灣,這6個(gè)兵團(tuán)分別是誰統(tǒng)領(lǐng)?

云霄紀(jì)史觀
2026-04-13 17:12:55
此地?zé)o銀?索馬里議員奧馬爾將資產(chǎn)從3000萬變成9.5萬美元

此地?zé)o銀?索馬里議員奧馬爾將資產(chǎn)從3000萬變成9.5萬美元

大洛杉磯LA
2026-04-19 03:34:13
第10艘船出事,美軍全面封鎖,嚴(yán)禁中伊原油交易,中方打出反制牌

第10艘船出事,美軍全面封鎖,嚴(yán)禁中伊原油交易,中方打出反制牌

漫步獨(dú)行俠
2026-04-19 11:37:13
幕后黑手現(xiàn)身,賴德清還想強(qiáng)行離島!老將出馬,北京迎來了大幫手

幕后黑手現(xiàn)身,賴德清還想強(qiáng)行離島!老將出馬,北京迎來了大幫手

愛下廚的阿釃
2026-04-20 03:23:17
一張網(wǎng)上瘋傳的“三人合影”,其實(shí)誰也沒見過,也沒人拿得出原件

一張網(wǎng)上瘋傳的“三人合影”,其實(shí)誰也沒見過,也沒人拿得出原件

小椰的奶奶
2026-04-13 14:10:17
美媒:中國(guó)殲50,美國(guó)F47仿制品,倒反天罡,中國(guó)時(shí)間更早?

美媒:中國(guó)殲50,美國(guó)F47仿制品,倒反天罡,中國(guó)時(shí)間更早?

聞識(shí)
2026-04-20 02:13:31
創(chuàng)新藥板塊集體暴漲!首款“液體偉哥”獲批,百億ED市場(chǎng)迎變局

創(chuàng)新藥板塊集體暴漲!首款“液體偉哥”獲批,百億ED市場(chǎng)迎變局

風(fēng)風(fēng)順
2026-04-19 19:33:08
大的要來了!穆杰塔巴擼掉伊朗革命衛(wèi)隊(duì)總司令,換了個(gè)不怕死的

大的要來了!穆杰塔巴擼掉伊朗革命衛(wèi)隊(duì)總司令,換了個(gè)不怕死的

杰絲聊古今
2026-04-11 19:07:34
這就是公開辱華的后果!取消冠軍頭銜只是開始,職業(yè)生涯也全毀了

這就是公開辱華的后果!取消冠軍頭銜只是開始,職業(yè)生涯也全毀了

阿鳧愛吐槽
2025-12-17 17:24:39
汪文斌與妻子罕見同框,汪夫人氣質(zhì)優(yōu)雅迷人,端莊溫婉嬌艷欲滴!

汪文斌與妻子罕見同框,汪夫人氣質(zhì)優(yōu)雅迷人,端莊溫婉嬌艷欲滴!

鄉(xiāng)野小珥
2026-04-20 03:04:04
2026-04-20 05:16:49
智遠(yuǎn)同學(xué) incentive-icons
智遠(yuǎn)同學(xué)
暢銷書《復(fù)利思維》作者;精神生活與商業(yè)探索,關(guān)注科技人文、消費(fèi)電商、品牌營(yíng)銷、商業(yè)認(rèn)知思維等方面。
677文章數(shù) 146關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

健康
親子
手機(jī)
旅游
時(shí)尚

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

親子要聞

孩子總打噴嚏、起疹子,時(shí)過敏嗎?

手機(jī)要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

旅游要聞

北京投入2.2億元建成和田“三館一院”

裝修“精神角落”,就是這么上癮

無障礙瀏覽 進(jìn)入關(guān)懷版