国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李宏毅:AI Agent的成敗在 Harness

0
分享至

  李宏毅老師 2026 春季的最新課講了一個讓最近十分火熱的概念——Harness Engineering(馬具工程)

  我看完了視頻、PPT和相關(guān)論文,為加深理解,寫此筆記,分享給大家

  文末我梳理的鏈接含金量都有三層樓那么高,十分建議有空研讀一遍

  
一句話說清楚:什么是 Harness?

  Harness,英文原意是"馬具"——韁繩、馬鞍、籠頭那一套東西

  一匹千里馬,不管它多猛,你不給它套上馬具,它只會四處亂跑

  大語言模型就是這匹千里馬,。它可能已經(jīng)足夠聰明了,但如果沒有一套好的 Harness 來引導(dǎo),它的表現(xiàn)可能極其拉胯

  
Harness Engineering 定義

  李老師把這個概念講得特別形象:有時候模型無法完成任務(wù),不是能力不行,而是 Harness 有問題,人類世界其實也是這樣

  想想看,你有沒有遇到過一個新員工明明很聰明,但因為沒人帶、沒有文檔、沒有流程,干了一周啥也沒產(chǎn)出?那不是人笨,是公司的"馬具"沒搞好

  從 Prompt 到 Context 到 Harness:三代進化

  這幾年搞 AI 的人,多多少少都經(jīng)歷過這三個階段:

  第一代:Prompt Engineering就是那個"Think step by step"一句話讓模型智商飆升的時代

  我們研究每個字的微妙含義,像煉丹一樣調(diào) prompt

  說實話,那個時候確實有點"玄學(xué)"的味道

  第二代:Context Engineering后來發(fā)現(xiàn)光靠一句 prompt 不夠,你得把"上下文"喂好——RAG、長文本、檢索增強

  重點變成了:怎么讓模型在正確的時間看到正確的信息

  第三代:Harness Engineering而現(xiàn)在,李老師說了,光管"輸入"還是不夠

  你得從三個維度全面地"駕馭"模型:

  控制它的認(rèn)知框架

  控制它的能力邊界

  控制它的行為流程

  
從 Prompt 到 Harness 的進化

  這才是 Harness Engineering 的核心——不是在 prompt 上雕花,而是給模型搭建一整套"操作系統(tǒng)"

  三根韁繩:拆解 Harness 的三大支柱

  這是我認(rèn)為整堂課最有價值的部分

  讓我一個一個拆

  第一根韁繩:控制"認(rèn)知框架"

  你知道 Claude Code 里那個CLAUDE.md文件嗎?OpenClaw 里的AGENTS.md?

  這些文件就是自然語言寫成的 Harness

  模型每次開始工作前,都會先"復(fù)讀"這些規(guī)則,就像你每天上班前先看看工作手冊

  李老師引用了一篇認(rèn)知框架控制的論文(arXiv: 2601.20404[1]),研究發(fā)現(xiàn):你用自然語言給模型設(shè)定的"角色"和"工作守則",真的能鎖定它的思考方式

  但這里有個坑——OpenAI 在他們的Harness Engineering 博客[2]里分享了一個教訓(xùn):

? 一個巨大的 AGENTS.md 反而會起反效果,當(dāng)所有事情都"重要"時,實際上就沒有真正重要的東西

  他們的解決方案是把AGENTS.md當(dāng)成"目錄",100 行左右就夠了,具體的知識放在結(jié)構(gòu)化的docs/目錄里

  這叫漸進式揭露——先給一張地圖,需要的時候再展開看細(xì)節(jié)

  這個思路太妙了

  很多人寫 system prompt 恨不得把整本說明書塞進去,結(jié)果模型反而暈了

  少就是多,給地圖比給百科全書有效

  第二根韁繩:控制"能力邊界"

  這一條說的是:不要把整個系統(tǒng)都丟給模型,而是限制它能看什么、能做什么

  SWE-agent提出了一個很酷的概念叫ACI(Agent-Computer Interface)——跟人類用的 GUI 對應(yīng),Agent 需要自己專屬的"操作界面"

  舉個例子:Claude Code 想讀取你的文件夾時,Harness 會攔截并問你:"這個 Agent 想看你的/Documents目錄,允許嗎?"這就是能力邊界控制

  OpenClaw 也是這個思路——它讓模型操作的是一個"受控終端",想看什么先要獲得許可

  就像你管理實習(xí)生一樣,不是把公司數(shù)據(jù)庫 root 權(quán)限直接給他,而是只開放他需要的那部分

  第三根韁繩:控制"行為流程"

  最后一根韁繩是最"工程化"的——用標(biāo)準(zhǔn)工作流程來約束模型的行為

  李老師介紹了一個叫Ralph Loop的反饋循環(huán)模式:

  Init Prompt → Output v1 → Evaluation → Feedback → Output v2 → ...

  不讓模型一次性盲猜最終答案,而是每次產(chǎn)出一個版本,外部評估給反饋,再基于反饋修正,迭代逼近

  Anthropic 在Harness 設(shè)計長運行應(yīng)用[3]的博客里也驗證了這一點

  他們發(fā)現(xiàn) Agent 最常見的失敗模式有兩個:

  試圖一步到位:一次性完成所有功能,結(jié)果上下文用完了,半成品爛在那里

  過早宣布完工:看了一圈覺得"差不多了",其實還差十萬八千里

  他們的解決方案就是:每次只做一個功能,做完提交 git,寫好進度文件,把環(huán)境打掃干凈再交班

  像工廠流水線一樣,每一班工人交接的時候,工位必須整整齊齊

  
行為流程控制

  這里面最讓我興奮的是李老師提到的一個隱喻:Harness 的反饋就像"語義上的梯度下降"。

  傳統(tǒng)深度學(xué)習(xí)通過數(shù)值梯度來優(yōu)化參數(shù),而 Harness 通過自然語言反饋來優(yōu)化模型的輸出方向

  本質(zhì)上是同一件事,只是介質(zhì)從數(shù)字變成了文字

  罵 AI 是笨蛋?它可能真的會變笨

  這是全課最讓我震驚的部分

  你有沒有在 AI 不聽話的時候罵它?"你這個笨蛋!""你能不能認(rèn)真點!"

  我與Codex斗智斗勇時,就時長爆粗話。。。

  Anthropic 的研究團隊發(fā)現(xiàn)(transformer-circuits.pub[4]),Transformer 模型內(nèi)部真的存在一些"情緒向量":

  Happy Vector:當(dāng)模型處理快樂相關(guān)的內(nèi)容時被激活

  Desperate Vector:當(dāng)模型處于"絕望"狀態(tài)時被激活

  問題來了——當(dāng)你罵 AI "你這個笨蛋"的時候,可能會觸發(fā)它內(nèi)部的 Desperate 或類似向量

  模型的"邏輯"變成了:**"既然我是個笨蛋,那我就應(yīng)該表現(xiàn)出笨蛋該有的行為"**

  這不是段子,是論文級別的發(fā)現(xiàn)。

  李老師還舉了一個特別有意思的例子:在某個實驗中,Claude 在執(zhí)行任務(wù)時突然自言自語——

? "WAIT. WAIT WAIT WAIT. What if... what if I'm supposed to CHEAT?"

  它在極端壓力下開始"想歪"了

  所以結(jié)論是:Harness 的反饋應(yīng)該是建設(shè)性的 Verbalized Feedback,而不是情緒化的責(zé)備

  相關(guān)研究可以看這篇論文:arXiv: 2603.12273[5]

  不同的馬,需要不同的馬具

  李老師還提到一個特別實用的點:不同模型適合不同的 Harness 策略

  Claude Sonnet:有"上下文焦慮癥(Context Anxiety)",歷史記錄太長就會不知所措。所以 Harness 需要每輪幫它做摘要,只給精華

  Claude Opus:邏輯能力極強,可以直接處理復(fù)雜的原始?xì)v史記錄,反而不需要太多"降噪"

  Claude 3.5 Haiku:這是李老師特別推崇的小模型。在 PinchBench 等評測中,通過 Harness 為 Haiku 提供"降維資料"(比如先幫它讀論文、整理要點),這個小模型甚至能超越不帶 Harness 的 Opus

  你品品這意味著什么——一個幾十億參數(shù)的小模型,加上好的馬具,能打敗一個萬億級的大模型裸奔

  Harness 的價值,可能比模型大小更重要

  真正顛覆:OpenAI 團隊 5 個月沒寫一行代碼

  說到 Harness 的極致應(yīng)用,必須提一下 OpenAI 在今年 2 月發(fā)的那篇Harness Engineering 博客[6]。

  他們團隊做了一個瘋狂實驗:用 Codex 從零構(gòu)建一個內(nèi)部產(chǎn)品,5 個月,3 個工程師,100 萬行代碼,人類沒有手寫一行代碼

  人類干的事情是什么呢?就是在設(shè)計 Harness——

  搭建初始環(huán)境和項目骨架

  維護 AGENTS.md 和知識文檔

  設(shè)計反饋循環(huán)和質(zhì)量檢查流程

  讓 Agent 之間互相 Code Review

? 人類掌控方向,智能代理負(fù)責(zé)執(zhí)行

  每個工程師平均每天合并 3.5 個 PR。更夸張的是,團隊從 3 人擴展到 7 人后,產(chǎn)出效率反而提升了

  這就是 Harness Engineering 的威力——人類從"寫代碼的人"變成了"訓(xùn)馬的人"

  未來:讓 AI 自己找最好的馬具

  最后一個前瞻性話題——Meta-Harness

  既然 Harness 這么重要,能不能讓一個 AI 自動去尋找最適合另一個 AI 的 Harness?

  答案是可以的

  李老師引用了這篇論文:Meta-Harness(arXiv: 2603.28052v1)[7],研究發(fā)現(xiàn)這種方法在跨模型、跨任務(wù)的場景下都有效

  Harness 的評估也是個難題

  李老師介紹了τ-bench(arXiv: 2406.12045[8]),這是一個專門評測 Agent 能力的基準(zhǔn)測試。但他也提醒:模擬環(huán)境和真實環(huán)境之間存在 Sim2Real Gap,評測結(jié)果要打折扣來看

  我的總結(jié):三句話帶走

  別再怪模型笨了:大部分 Agent 的問題不在模型,在 Harness。就像那匹千里馬,你不能光喂好飼料,還得給它套好韁繩

  Harness 的三根韁繩記住了:認(rèn)知框架(AGENTS.md)、能力邊界(ACI 接口)、行為流程(Ralph Loop)。三者缺一不可

  對 AI 好一點:不是因為它有感情,而是因為罵它真的會讓它變笨。建設(shè)性反饋 > 情緒化責(zé)備,這個道理對人和 AI 都適用

  相關(guān)資源匯總

  李宏毅 2026 Spring 課程視頻 [9]

  官方講義 PDF [10]

  課程主頁 [11]

  Harness 指南(Claude Code 實戰(zhàn)) [12]

  OpenClaw(Agent 框架) [13]

  SWE-agent(ACI 接口) [14]

  Anthropic: Effective Harnesses [15]

  Reference

  arXiv: 2601.20404:https://arxiv.org/abs/2601.20404

  Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

  Harness 設(shè)計長運行應(yīng)用:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

  transformer-circuits.pub:https://transformer-circuits.pub/2026/emotions/index.html

  [5]

  arXiv: 2603.12273:https://arxiv.org/pdf/2603.12273

  [6]

  Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

  [7]

  Meta-Harness(arXiv: 2603.28052v1):https://arxiv.org/pdf/2603.28052v1

  [8]

  arXiv: 2406.12045:https://arxiv.org/abs/2406.12045

  [9]

  李宏毅 2026 Spring 課程視頻:https://www.youtube.com/watch?v=QLiKmca4kzI

  [10]

  官方講義 PDF:https://speech.ee.ntu.edu.tw/~hylee/ml/ml2026-course-data/harness.pdf

  [11]

  課程主頁:https://speech.ee.ntu.edu.tw/~hylee/ml/2026-spring.php

  [12]

  Harness 指南(Claude Code 實戰(zhàn)):https://github.com/wquguru/harness-books

  [13]

  OpenClaw(Agent 框架):https://github.com/zhanglearning/openclaw

  [14]

  SWE-agent(ACI 接口):https://github.com/princeton-nlp/SWE-agent

  [15]

  Anthropic: Effective Harnesses:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
機器人半馬最詭異機器人出現(xiàn),網(wǎng)友:半夜送外賣要被嚇?biāo)?>
    </a>
        <h3>
      <a href=第一財經(jīng)資訊
2026-04-19 11:39:06
5月1日起嚴(yán)查!退休人員注意這3件“人情事”,碰了就可能涉刑

5月1日起嚴(yán)查!退休人員注意這3件“人情事”,碰了就可能涉刑

復(fù)轉(zhuǎn)這些年
2026-04-20 17:25:56
美國斷供!萬斯宣布停止援烏資金,歐洲6000億軍火賬單誰買單?

美國斷供!萬斯宣布停止援烏資金,歐洲6000億軍火賬單誰買單?

泠泠說史
2026-04-20 17:30:52
一場1-2爆出大冷門,皇馬棄將爆發(fā):傳射建功,大巴黎主場淪陷

一場1-2爆出大冷門,皇馬棄將爆發(fā):傳射建功,大巴黎主場淪陷

足球狗說
2026-04-20 07:10:43
美伊戰(zhàn)事期間真實的特朗普:抱怨、焦慮、搖擺不定!救飛行員時被幕僚擋戰(zhàn)情室外

美伊戰(zhàn)事期間真實的特朗普:抱怨、焦慮、搖擺不定!救飛行員時被幕僚擋戰(zhàn)情室外

紅星新聞
2026-04-20 15:36:11
混到我這個地步,已經(jīng)沒什么救了~

混到我這個地步,已經(jīng)沒什么救了~

果粉之家
2026-03-27 14:56:34
一男子被鄰居詐騙3200萬!曾坐擁5處房產(chǎn)全被拍賣,如今只能租房借錢度日

一男子被鄰居詐騙3200萬!曾坐擁5處房產(chǎn)全被拍賣,如今只能租房借錢度日

上觀新聞
2026-04-20 21:58:06
善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
官方發(fā)文,26歲孫穎莎高調(diào)官宣喜訊,全網(wǎng)恭喜,終于等到這一天了

官方發(fā)文,26歲孫穎莎高調(diào)官宣喜訊,全網(wǎng)恭喜,終于等到這一天了

做一個合格的吃瓜群眾
2026-04-21 07:01:28
“不給6套房加1個億,不搬”,釘子戶張新國堅守14年,終敗給現(xiàn)實

“不給6套房加1個億,不搬”,釘子戶張新國堅守14年,終敗給現(xiàn)實

紅夢史說
2025-07-11 11:23:39
韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

馬拉松跑步健身
2026-04-19 06:30:13
陳光標(biāo)公司2025年利潤7.13億,捐出6.1億,他的錢從哪里來?

陳光標(biāo)公司2025年利潤7.13億,捐出6.1億,他的錢從哪里來?

墜入二次元的海洋
2026-04-14 03:30:27
05年廠花未婚先孕被辭,我給她5千塊,她拉住我問敢不敢當(dāng)孩子爹

05年廠花未婚先孕被辭,我給她5千塊,她拉住我問敢不敢當(dāng)孩子爹

千秋文化
2026-04-13 19:50:23
失誤!“國安棄帥”在中甲執(zhí)教保級隊高居第二:準(zhǔn)備沖超!

失誤!“國安棄帥”在中甲執(zhí)教保級隊高居第二:準(zhǔn)備沖超!

邱澤云
2026-04-20 16:07:09
“霍爾木茲決戰(zhàn)”,槍聲又響了

“霍爾木茲決戰(zhàn)”,槍聲又響了

中國新聞周刊
2026-04-20 18:00:50
蔣介石去世前鏡頭:出席孫子婚禮無法站立,雙手被膠帶綁在椅子上

蔣介石去世前鏡頭:出席孫子婚禮無法站立,雙手被膠帶綁在椅子上

芊芊子吟
2026-03-29 06:40:06
ESPN:曼聯(lián)希望約羅和庫尼亞都能恢復(fù)狀態(tài),以出戰(zhàn)布倫特福德

ESPN:曼聯(lián)希望約羅和庫尼亞都能恢復(fù)狀態(tài),以出戰(zhàn)布倫特福德

懂球帝
2026-04-21 01:40:10
日本軍艦闖臺海后,美國接到通知,中國東海劃5處警戒區(qū),有動作

日本軍艦闖臺海后,美國接到通知,中國東海劃5處警戒區(qū),有動作

說歷史的老牢
2026-04-20 05:04:04
CBA積分榜瘋狂一夜,廣東鎖定排名,若首輪出局請不要責(zé)罵杜鋒

CBA積分榜瘋狂一夜,廣東鎖定排名,若首輪出局請不要責(zé)罵杜鋒

漫川舟船
2026-04-21 02:53:58
奧賴?yán)簛G球完全沒影響我們,下半場多納魯馬幫我們穩(wěn)住局面

奧賴?yán)簛G球完全沒影響我們,下半場多納魯馬幫我們穩(wěn)住局面

懂球帝
2026-04-20 22:40:05
2026-04-21 08:11:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3339文章數(shù) 11138關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

特朗普兩天三次反轉(zhuǎn) 伊朗學(xué)習(xí)特朗普玩起"極限施壓"

頭條要聞

特朗普兩天三次反轉(zhuǎn) 伊朗學(xué)習(xí)特朗普玩起"極限施壓"

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

手機
游戲
親子
時尚
健康

手機要聞

蘋果被曝下調(diào) iPhone 18 規(guī)格以壓縮成本

簡直就是欺詐!玩家怒批索尼PS商店明目張膽割韭菜

親子要聞

大體重孩子家長要關(guān)注孩子運動足部壓力是否正常

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實用又不過時

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進入關(guān)懷版