網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

LangChain 創(chuàng)始人警告：2026 成為“Agent 工程”分水嶺，傳統(tǒng)軟件公司的生存考驗(yàn)開始了

2026-01-31 13:33:31　來源: AI前線

北京舉報(bào)

分享至

　　編譯 | Tina

　　過去幾十年，軟件工程有一個(gè)穩(wěn)定不變的前提：系統(tǒng)的行為寫在代碼里。工程師讀代碼，就能推斷系統(tǒng)在大多數(shù)場(chǎng)景下會(huì)怎么運(yùn)行；測(cè)試、調(diào)試、上線，也都圍繞“確定性”展開。但 Agent 的出現(xiàn)正在動(dòng)搖這個(gè)前提：在 Agent 應(yīng)用里，決定行為的不再只是代碼，還有模型本身——一個(gè)在代碼之外運(yùn)行、帶著非確定性的黑箱。你無法只靠讀代碼理解它，只能讓它跑起來、看它在真實(shí)輸入下做了什么，才知道系統(tǒng)“到底在干什么”。

　　在播客中，LangChain 創(chuàng)始人 Harrison Chase 還把最近一波“能連續(xù)跑起來”的編程 Agent、Deep Research 等現(xiàn)象視為拐點(diǎn)，并判斷這類“長(zhǎng)任務(wù) Agent”的落地會(huì)在 2025 年末到 2026 年進(jìn)一步加速。

　　這也把問題推到了臺(tái)前：2026 被很多人視為“長(zhǎng)任務(wù) Agent 元年”，現(xiàn)有的軟件公司還能不能熬過去？就像當(dāng)年從 on-prem 走向云，并不是所有軟件公司都成功轉(zhuǎn)型一樣，工程范式一旦變化，就會(huì)重新篩選參與者。長(zhǎng)任務(wù) Agent 更像“數(shù)字員工”——它不是多回合聊天那么簡(jiǎn)單，而是能在更長(zhǎng)時(shí)間里持續(xù)執(zhí)行、反復(fù)試錯(cuò)、不斷自我修正。

　　在這期與紅杉資本的對(duì)話中，Harrison 拋出了一個(gè)判斷：構(gòu)建 Agent，已經(jīng)不只是把軟件開發(fā)“加一層 AI”，而是工程范式本身在變。為什么他說“光讀代碼不夠了”？為什么 tracing、評(píng)估、記憶這些原本偏“輔助”的東西，突然變成主角？他在對(duì)話里給出了非常具體的解釋。

　　而更現(xiàn)實(shí)的問題是：如果范式真的在變，那些靠數(shù)據(jù)、流程、產(chǎn)品形態(tài)建立壁壘的傳統(tǒng)軟件公司，優(yōu)勢(shì)還能不能延續(xù)？它們手里握著的數(shù)據(jù)與 API 可能依然是王牌，但能否把這些資產(chǎn)變成 Agent 時(shí)代的生產(chǎn)力，取決于一套全新的工程打法。Harrison 的觀察與判斷，都在下面的完整對(duì)話里：

　　主持人：AI 領(lǐng)域的變化速度快得驚人。當(dāng)前最受關(guān)注的話題，我覺得沒有人比你更合適來聊。我們會(huì)先談長(zhǎng)任務(wù) Agent（Long Horizon Agents）和 Agent Harness（智能體運(yùn)行框架）。

　　*** 接著，我們會(huì)討論：構(gòu)建長(zhǎng)任務(wù) Agent 與構(gòu)建傳統(tǒng)軟件到底有什么不同，以及你如何看待 LangChain 在整個(gè)生態(tài)系統(tǒng)中的角色。最后，我想和你聊聊未來。你怎么看紅杉資本這篇關(guān)于 Long Horizon Agents 的文章？哪些觀點(diǎn)你認(rèn)同，哪些地方你不太同意？

　　來源：https://sequoiacap.com/article/2026-this-is-agi/

“在去年的一篇文章中，我們?cè)岢觯和评砟Ｐ停╮easoning models）是 AI 領(lǐng)域最重要的新前沿。而“長(zhǎng)任務(wù) Agent”（long-horizon agents）則在這一范式之上更進(jìn)一步——它們不只是思考，還能夠采取行動(dòng)，并在時(shí)間維度上不斷迭代?！?/blockquote>
　　Harrison Chase：你們這個(gè)概念命名得非常好，那篇文章也寫得很棒。我整體上是認(rèn)同的——長(zhǎng)任務(wù) Agent 終于開始真正“跑起來”了。
　　一開始對(duì) Agent 的設(shè)想，本來就是讓一個(gè) LLM 運(yùn)行在一個(gè)循環(huán)里，自主決定接下來該做什么。
　　AutoGPT 本質(zhì)上就是這個(gè)想法，這也是它當(dāng)初能迅速走紅、抓住那么多人想象力的原因：一個(gè) LLM 在循環(huán)中運(yùn)行，完全自主地決定行動(dòng)。但當(dāng)時(shí)的問題在于：模型還不夠好，圍繞模型的 scaffolding（支架）和 harness（框架）也不夠成熟。
　　這幾年，模型本身變得更強(qiáng)了；與此同時(shí)，我們也逐漸搞清楚了，什么樣的 harness 才是“好”的。于是現(xiàn)在，這套東西開始真正奏效了。最明顯的例子是在編程領(lǐng)域，Agent 的突破首先發(fā)生在那里。之后，這種能力正在向其他領(lǐng)域擴(kuò)散。
　　當(dāng)然，你仍然需要告訴 Agent 你想讓它做什么，它也需要配備合適的工具。但現(xiàn)在，它確實(shí)可以持續(xù)運(yùn)行更長(zhǎng)的時(shí)間，而且表現(xiàn)越來越穩(wěn)定。所以，用“長(zhǎng)時(shí)序”來描述這一類 Agent，我覺得非常貼切。
　　主持人：你最喜歡的長(zhǎng)任務(wù) Agent 案例有哪些？你覺得它們正在呈現(xiàn)出哪些形態(tài)？
　　Harrison Chase：目前最成熟、我自己用得最多的，還是編程 Agent。
　　再往外延一點(diǎn)，我覺得非常優(yōu)秀的一類是 AI SRE。比如 Traversal（我記得它是一家紅杉投資的公司），他們的 AI SRE 可以在更長(zhǎng)的時(shí)間跨度內(nèi)運(yùn)行。再往抽象一點(diǎn)，其實(shí)這類 AI SRE 本質(zhì)上屬于“研究型 Agent”。比如：給它一個(gè)事故，它會(huì)去翻日志、分析上下文、追溯原因。研究任務(wù)本身非常適合 Agent，因?yàn)樗鼈冏罱K產(chǎn)出的往往是一個(gè)“初稿”。
　　Agent 的問題在于：它們還達(dá)不到 99% 的可靠性，但它們可以在較長(zhǎng)時(shí)間內(nèi)完成大量工作。所以，只要你能把任務(wù)框定為：讓 Agent 長(zhǎng)時(shí)間運(yùn)行，產(chǎn)出一個(gè)初步版本，由人來審閱，這在我看來就是目前長(zhǎng)任務(wù) Agent 最“殺手級(jí)”的應(yīng)用形態(tài)。
　　編程就是一個(gè)例子：你通常是提交 PR，而不是直接推到生產(chǎn)環(huán)境（當(dāng)然，vibe coding 現(xiàn)在也在不斷進(jìn)步）。AI SRE 也是一樣：結(jié)果會(huì)交給人來 review。報(bào)告生成也是如此：你不會(huì)直接發(fā)給所有用戶，而是先看一遍、改一改。我們?cè)诮鹑陬I(lǐng)域也看到了大量這樣的用法，這是一個(gè)非常大的研究機(jī)會(huì)。客服領(lǐng)域同樣如此。最早的客服 Agent 主要是做“第一響應(yīng)”：用戶一發(fā)消息，馬上給出回復(fù)，這類用法現(xiàn)在也做得很好。
　　但現(xiàn)在開始出現(xiàn)新的形態(tài)，比如 Klarna 這個(gè)產(chǎn)品：人類和 AI 協(xié)同工作。當(dāng)?shù)谝粚幼詣?dòng)回復(fù)失敗后，不是簡(jiǎn)單地轉(zhuǎn)交給人工，而是讓一個(gè)長(zhǎng)任務(wù) Agent 在后臺(tái)運(yùn)行，生成一份完整的事件報(bào)告，然后再交給人工客服處理。
　　這里“agent”這個(gè)詞在客服語境下會(huì)變得有點(diǎn)混亂，但核心邏輯是一致的?？偨Y(jié)來說，這些應(yīng)用的共同點(diǎn)是：先由 Agent 生成一個(gè)“初稿”，再由人類接管。
　　主持人：那么，“為什么是現(xiàn)在”？你覺得主要是因?yàn)槟Ｐ捅旧碜兊米銐驈?qiáng)，還是因?yàn)槿藗冊(cè)?harness 側(cè)做了非常聰明的工程設(shè)計(jì)？在回答這個(gè)問題之前，能不能先幫聽眾梳理一下：在一個(gè) Agent 系統(tǒng)中，模型、框架和 harness 各自扮演什么角色？
　　Harrison Chase：當(dāng)然可以。我也順便把“框架”這個(gè)概念一起帶進(jìn)來。一開始，我們把 LangChain 描述為一個(gè)Agent Framework，現(xiàn)在我們又推出了Deep Agents，我更愿意稱它為一個(gè)Agent Harness。
　　很多人都會(huì)問，這兩者有什么區(qū)別。模型很簡(jiǎn)單，就是 LLM：輸入 token、輸出 token。框架（Framework）是圍繞模型的一層抽象，讓你更容易切換模型，封裝工具、向量數(shù)據(jù)庫、記憶等組件，本身比較“無偏好”，強(qiáng)調(diào)靈活性，更像是基礎(chǔ)設(shè)施。Harness則更“有主張”。以 Deep Agents 為例：我們默認(rèn)就提供一個(gè)規(guī)劃工具（Planning Tool）；這個(gè)工具是直接內(nèi)建在 harness 里的，帶有明確的設(shè)計(jì)立場(chǎng)：我們認(rèn)為這是“正確”的做法。
　　我們還做了上下文壓縮（Compaction）。長(zhǎng)任務(wù) Agent 會(huì)運(yùn)行很久，哪怕上下文窗口已經(jīng)很大，也終究是有限的，總會(huì)有需要壓縮的時(shí)候。怎么壓縮？壓縮什么？這是一個(gè)正在被大量研究的問題。
　　此外，幾乎所有 Agent Harness 都會(huì)提供文件系統(tǒng)交互能力，不管是直接操作，還是通過 bash。這一點(diǎn)其實(shí)很難和模型本身完全分開，因?yàn)槟Ｐ陀?xùn)練數(shù)據(jù)里已經(jīng)大量包含了這類操作。
　　如果回到兩年前，我不確定我們是否能預(yù)見到：基于文件系統(tǒng)的 harness 會(huì)成為最優(yōu)解之一。那時(shí)模型還沒被充分訓(xùn)練過這些模式，而現(xiàn)在模型和 harness 是在一起“共同進(jìn)化”的。
　　所以總結(jié)來說，這是一個(gè)組合效應(yīng)：模型本身確實(shí)在變強(qiáng)，推理模型帶來了巨大提升。同時(shí)，我們也逐漸摸索出了 compaction、planning、文件系統(tǒng)工具等一整套關(guān)鍵原語。這兩者缺一不可。
　　設(shè)計(jì)范式的演進(jìn)
　　主持人：我記得在我們第一次對(duì)談時(shí)，你把 LangGraph 描述為 Agent 的“認(rèn)知架構(gòu)”?，F(xiàn)在來看，這是不是也可以理解為 harness 的一種形態(tài)？
　　Harrison Chase：是的，這個(gè)理解是對(duì)的。我們現(xiàn)在的 Deep Agents 是構(gòu)建在 LangGraph 之上的?？梢园阉醋魇且粋€(gè)非常具體、非常有主張的 LangGraph 實(shí)例，更偏向通用目的。
　　早期我們討論過“通用架構(gòu)”和“專用架構(gòu)”的區(qū)別?，F(xiàn)在我們觀察到一個(gè)很有意思的變化：過去需要寫進(jìn)架構(gòu)里的任務(wù)特異性，正在轉(zhuǎn)移到工具和指令里。
　　復(fù)雜性并沒有消失，只是從結(jié)構(gòu)化代碼，轉(zhuǎn)移到了自然語言中。因此，prompt 的設(shè)計(jì)、修改，甚至自動(dòng)更新，正在成為系統(tǒng)的一部分；而 harness 本身，反而變得更加穩(wěn)定。
　　主持人：在你看來，harness 工程中最難做對(duì)的是什么？你覺得單個(gè)公司是否真的有可能在這一層形成顯著優(yōu)勢(shì)？有沒有你特別佩服的團(tuán)隊(duì)？
　　Harrison Chase：說實(shí)話，目前在 harness 工程上做得最好的，基本都是編程類公司。Claude Code 就是一個(gè)非常典型的例子。我認(rèn)為它能如此受歡迎，很大程度上是因?yàn)樗?harness。
　　主持人：這是否意味著：harness 更適合由模型公司來做，而不是第三方創(chuàng)業(yè)公司？
　　Harrison Chase：我不確定。比如 Factory、AMP 這些編程公司，也都做出了非常強(qiáng)的 harness。
　　確實(shí)存在一個(gè)現(xiàn)實(shí)：harness 往往和模型家族綁定得比較緊密。不一定是某一個(gè)具體模型，而是一整個(gè)模型體系。Anthropic 的模型會(huì)針對(duì)某些工具進(jìn)行微調(diào)，OpenAI 則針對(duì)另外一些。這和 prompt 類似：不同模型，需要不同的 prompt；同樣，不同模型家族，也需要稍微不同的 harness。當(dāng)然，它們也有很多共性，比如幾乎都會(huì)使用文件系統(tǒng)。
　　我自己也沒有一個(gè)確定答案。但一個(gè)很明顯的現(xiàn)象是：幾乎所有做編程 Agent 的公司，現(xiàn)在都在自研自己的 harness。你去看 Terminal Bench 2 這樣的榜單，會(huì)發(fā)現(xiàn)他們不僅展示模型，還展示 harness。Claude Code 并不總是在榜首。這說明：性能差異并不完全來自模型，而來自對(duì)“模型如何在 harness 中工作”的理解。
　　主持人：你覺得，排行榜上表現(xiàn)最好的 harness，究竟在哪些地方做得特別好？
　　Harrison Chase：首先是對(duì)模型訓(xùn)練偏好的理解。比如 OpenAI 的模型對(duì) Bash 非常熟悉；Anthropic 提供了顯式的文件編輯工具。順著模型的“母語”來設(shè)計(jì) harness，本身就能帶來性能收益。
　　其次是上下文壓縮（Compaction）。隨著任務(wù)時(shí)間跨度變長(zhǎng)，如何處理上下文窗口溢出，已經(jīng)成為一個(gè)核心問題。這顯然也是 harness 的一部分。
　　此外，還有skills、子 Agent、MCP等機(jī)制。目前這些能力還沒有被系統(tǒng)性地訓(xùn)練進(jìn)模型中，仍然屬于比較新的探索方向。
　　在我們的 harness 中，一個(gè)典型挑戰(zhàn)是：主 Agent 如何與子 Agent 高效通信。主模型需要把所有必要信息傳遞給子 Agent，同時(shí)還要明確告訴它：最終只需要返回一個(gè)“最終結(jié)果”。
　　我們見過一些失敗案例：子 Agent 做了大量工作，最后卻返回一句“請(qǐng)查看我上面的分析”，而主 Agent 根本看不到那些內(nèi)容，于是完全不知道它在說什么。
　　所以，如何通過 prompt 設(shè)計(jì)讓這些組件協(xié)同工作，是 harness 工程中非常重要的一部分。
　　如果你去看一些公開的 harness prompt，它們往往有幾百行之長(zhǎng)。
　　主持人：我想從演進(jìn)角度問一個(gè)問題。你一直站在模型“如何落地”的最前沿。如果用一種簡(jiǎn)化視角來看過去五年的幾個(gè)關(guān)鍵拐點(diǎn)：ChatGPT 帶來了預(yù)訓(xùn)練的拐點(diǎn)；o1 帶來了推理能力的拐點(diǎn)；最近，Claude Code + Opus 4.5 帶來了長(zhǎng)任務(wù) Agent 的拐點(diǎn)。但從你這個(gè)“圍繞模型做設(shè)計(jì)”的世界來看，拐點(diǎn)會(huì)不會(huì)是另一套劃分？從認(rèn)知架構(gòu)到框架、再到 harness，這中間經(jīng)歷了哪些真正的躍遷？
　　Harrison Chase：我大概會(huì)把它分成三個(gè)階段。
　　第一階段：最早期。那時(shí) LangChain 剛剛出現(xiàn)，模型還是“純文本輸入、純文本輸出”，甚至還不是 chat 模型。沒有工具調(diào)用，沒有 reasoning，沒有結(jié)構(gòu)化輸出。人們主要做的是單一 prompt 或簡(jiǎn)單 chain。
　　第二階段：工具與規(guī)劃開始進(jìn)入模型。模型開始支持 tool calling，也嘗試學(xué)會(huì)“思考”和“規(guī)劃”。雖然還不夠強(qiáng)，但已經(jīng)能做出基本決策。這時(shí)，人們大量使用自定義的認(rèn)知架構(gòu)，通過顯式提問來引導(dǎo)模型行動(dòng)，但整體仍然依賴大量外部 scaffolding。
　　第三階段：長(zhǎng)任務(wù) Agent 的真正起飛。大概是在今年 6～7 月，我們看到 Claude Code、Deep Research、Manus 等產(chǎn)品同時(shí)爆發(fā)。它們?cè)诘讓邮褂玫氖?strong>同一個(gè)核心算法：讓 LLM 在循環(huán)中運(yùn)行。
　　真正的突破來自于上下文工程：壓縮、子 Agent、技能、記憶——所有這些，都是圍繞上下文展開的。這正是我們開始做 Deep Agents 的時(shí)間點(diǎn)。
　　對(duì)于很多程序員來說，Opus 4.5 可能是一個(gè)心理上的分水嶺。也可能只是碰巧遇上假期，大家回家開始大量使用 Claude Code，突然意識(shí)到：它真的很好用。無論是 2025 年初還是 2025 年末，總之在某個(gè)時(shí)間點(diǎn)，模型“剛好強(qiáng)到足以支撐這種形態(tài)”，于是我們從 scaffolding 邁向了 harness。
　　Coding Agent 是
　　通用 AI 的終局形態(tài)嗎
　　主持人：接下來會(huì)發(fā)生什么？
　　Harrison Chase：我也希望我知道答案。這個(gè)“讓 LLM 在循環(huán)中運(yùn)行、讓它自己決定要拉什么上下文進(jìn)來”的算法，本身極其簡(jiǎn)單、也極其通用。這正是 Agent 從一開始的核心設(shè)想，而我們現(xiàn)在終于走到了“它真的能工作”的階段。
　　接下來，可能會(huì)有大量圍繞上下文工程的技巧出現(xiàn)：有些手動(dòng)設(shè)計(jì)的部分可能會(huì)消失；比如壓縮類的，現(xiàn)在仍然高度依賴 harness 作者的決策。Anthropic 已經(jīng)在嘗試讓模型自己決定何時(shí)壓縮上下文，雖然目前用得還不多。
　　另一個(gè)我們非常關(guān)注的方向是記憶（Memory）。從本質(zhì)上說，記憶也是一種上下文工程，只不過是跨更長(zhǎng)時(shí)間尺度的上下文。核心算法本身已經(jīng)非常清晰：運(yùn)行 LLM 循環(huán)。未來的進(jìn)步，很可能來自更聰明的上下文工程方式，或者讓模型自己參與上下文管理。模型當(dāng)然也會(huì)繼續(xù)變強(qiáng)，越來越擅長(zhǎng)長(zhǎng)時(shí)序任務(wù)。
　　我目前思考最多的一個(gè)問題是：我們看到的大多數(shù) harness 都是高度偏向編程任務(wù)的。這是長(zhǎng)任務(wù) Agent 最先爆發(fā)的領(lǐng)域。但即便是在非編程任務(wù)中，你也可以認(rèn)為：寫代碼本身是一種非常強(qiáng)的、通用的工具。
　　主持人：我本來想問你：編程智能體（coding agents）到底算不算一個(gè)子類別？還是說編程智能體就是智能體本身？換句話說，智能體的工作，本質(zhì)上是想辦法讓計(jì)算機(jī)去做一些有用的事情，而“寫代碼”本來就是讓計(jì)算機(jī)做有用事情的一種很好的方式。
　　Harrison Chase：我也不確定。但有一點(diǎn)我非常非常堅(jiān)信：現(xiàn)階段只要你在做長(zhǎng)時(shí)序智能體，你就必須給它文件系統(tǒng)的訪問能力。因?yàn)槲募到y(tǒng)在“上下文管理”方面能做的事情太多了。比如我們說 compaction（上下文壓縮），一種策略是把內(nèi)容總結(jié)掉，但把完整的消息都放進(jìn)文件系統(tǒng)里，這樣如果智能體后續(xù)需要回查，它還能查到。
　　另一種策略是，當(dāng)你遇到很大的工具調(diào)用結(jié)果時(shí)，不要把全部?jī)?nèi)容都塞回模型上下文里；你可以把結(jié)果放進(jìn)文件系統(tǒng)，然后讓智能體需要的時(shí)候再去查。
　　而這些操作，其實(shí)不一定需要真實(shí)的文件系統(tǒng)，也不一定要讓它真的去寫代碼。我們有一個(gè)概念叫“虛擬文件系統(tǒng)”：它底層可能只是 Postgres 之類的存儲(chǔ)，擴(kuò)展性更強(qiáng)。當(dāng)然，“真實(shí)代碼”能做的事情，虛擬文件系統(tǒng)做不了。比如你沒法在虛擬文件系統(tǒng)里直接運(yùn)行代碼。所以寫腳本在很多場(chǎng)景下確實(shí)非常有用。
　　我也認(rèn)為編程智能體有潛力成為通用智能體，但我不確定這是否意味著“今天的編程智能體”就是通用智能體——如果你能理解我這句話。因?yàn)槲矣X得現(xiàn)在很多編程智能體還是為編程任務(wù)做了大量?jī)?yōu)化的。
　　所以“一個(gè)通用智能體可能長(zhǎng)得像編程智能體”，但反過來，“今天的編程智能體就是通用智能體”，這件事我并不確定。
　　傳統(tǒng)軟件面臨的挑戰(zhàn)
　　主持人：那我們能不能轉(zhuǎn)到另一個(gè)話題：構(gòu)建長(zhǎng)時(shí)序智能體和構(gòu)建傳統(tǒng)軟件之間的差異？你能不能先描述一下“1.0 時(shí)代”的軟件開發(fā)棧是什么樣的，然后說說現(xiàn)在到底哪里不一樣？我記得你在 X 上寫過一篇很不錯(cuò)的文章，也許你可以總結(jié)一下核心結(jié)論。
　　
　　來源：https://x.com/hwchase17/status/2010044779225329688
　　Harrison Chase：我這段時(shí)間一直在反復(fù)想這個(gè)問題：我們經(jīng)常說“做智能體和做軟件是不同的”，而且很多人也同意。但問題是：到底哪里不同？
　　我覺得很容易、也很偷懶地說“不同”，但“具體不同在哪里”才是關(guān)鍵。下面這些可能聽起來很顯然，但也許顯然是好事，希望它們不太有爭(zhēng)議。
　　當(dāng)你在做傳統(tǒng)軟件時(shí)，所有邏輯都寫在代碼里，你能直接在軟件代碼中看到它。但當(dāng)你在做智能體時(shí)，你的應(yīng)用如何工作的“邏輯”，并不全部在代碼里，其中很大一部分來自模型本身。
　　這意味著：你不能只看代碼，就判斷智能體在某個(gè)具體場(chǎng)景下會(huì)做什么。你必須真的把它跑起來。而我認(rèn)為，這就是最大的不同：我們引入了這種非確定性系統(tǒng)，它是一個(gè)黑箱，它在代碼之外。我覺得這就是核心差異。
　　一個(gè)直接后果是：為了弄清楚應(yīng)用到底在做什么，你不能看代碼，你必須看它在真實(shí)運(yùn)行中做了什么。這也是為什么我們做的產(chǎn)品里，最受歡迎的之一是LangSmith。LangSmith 的一個(gè)核心能力是tracing（追蹤 / 執(zhí)行軌跡）。為什么 trace 這么受歡迎？因?yàn)樗馨阎悄荏w每一步內(nèi)部發(fā)生的事情都清清楚楚地展示出來。
　　而這跟傳統(tǒng)軟件里的 trace 又不一樣。傳統(tǒng)軟件里，你的系統(tǒng)在那邊跑，它會(huì)吐出很多日志和事件；你通常是在出現(xiàn)錯(cuò)誤時(shí)才去看，而且你不需要“每一步的全部細(xì)節(jié)”。而且本地開發(fā)時(shí)，你可能直接打個(gè)斷點(diǎn)就夠了；很多時(shí)候日志追蹤是上線到生產(chǎn)環(huán)境后才會(huì)更重度開啟。但在智能體里，人們從一開始就會(huì)用 trace 來理解“底層到底在發(fā)生什么”。
　　而且它在智能體里的影響力，遠(yuǎn)大于在單一 LLM 應(yīng)用里的影響力。因?yàn)樵趩我?LLM 應(yīng)用里，如果模型回答得不好，你知道你的 prompt 是什么，也知道輸入上下文是什么（由代碼決定），然后你得到一個(gè)輸出。
　　但在智能體里，它在循環(huán)中運(yùn)行、不斷重復(fù)。你并不知道第 14 步時(shí)上下文里到底有什么，因?yàn)榍懊?13 步可能會(huì)把任意東西拉進(jìn)上下文。所以，“上下文工程（Context Engineering）”真的是一個(gè)非常好的詞。我真希望這是我發(fā)明的。它幾乎完美描述了我們?cè)?LangChain 做的一切——只是當(dāng)時(shí)我們并不知道這個(gè)術(shù)語已經(jīng)存在。
　　trace 的價(jià)值就在于：它能直接告訴你此時(shí)此刻上下文里到底有什么，這太重要了。那這又意味著什么？這意味著：對(duì)傳統(tǒng)軟件來說，“真相的來源（source of truth）”在代碼里。但對(duì)智能體來說，真相來源變成了代碼與 trace 的組合——而 trace 是你能看到真相的一部分地方。
　　從技術(shù)上說，真相當(dāng)然也“存在于模型的數(shù)百萬參數(shù)里”，但你基本沒法直接對(duì)參數(shù)做什么。所以現(xiàn)實(shí)上，trace 就成了你可以抓住的“事實(shí)載體”。
　　因此，trace 也會(huì)成為你開始思考測(cè)試的地方。你仍然可以對(duì) harness 的某些部分做單元測(cè)試，也可以離線做一些 unit test，但要獲得真正的測(cè)試用例，你很可能需要用 trace 來構(gòu)建。而且在智能體里，在線測(cè)試（online testing）可能比傳統(tǒng)軟件更重要，因?yàn)樾袨椴粫?huì)在離線環(huán)境里完整顯現(xiàn)出來，只有在真實(shí)世界輸入驅(qū)動(dòng)下、系統(tǒng)被真正使用時(shí)，行為才會(huì)“涌現(xiàn)”。
　　我們也看到 trace 正在成為團(tuán)隊(duì)協(xié)作的中心：如果出了問題，不再是“去 GitHub 看代碼”，而是“去看那條 trace”。我們?cè)陂_源項(xiàng)目里也一樣。有人說：“Deep Agents 這里跑偏了，發(fā)生了什么？”我們的第一反應(yīng)是：“把 LangSmith trace 發(fā)給我們?！比绻麤]有 trace，我們基本沒法幫你 debug。過去大家會(huì)說“把代碼給我看看”，但現(xiàn)在已經(jīng)轉(zhuǎn)變了。
　　這就是我寫在 X 上那篇文章的核心內(nèi)容，反饋很好。我也還在琢磨怎么把它表達(dá)得更精確，但我覺得這一點(diǎn)很關(guān)鍵。
　　另外一個(gè)點(diǎn)我也還在繼續(xù)想：我覺得構(gòu)建智能體是一個(gè)更偏迭代式的過程。
　　我們過去也會(huì)這么說，但我以前會(huì)有點(diǎn)翻白眼，因?yàn)檐浖_發(fā)本來也是迭代式的：你發(fā)布、收反饋、不斷迭代，這就是軟件開發(fā)的常態(tài)。但我覺得差別在于：在傳統(tǒng)軟件里，你的迭代是圍繞“你希望軟件做什么”來進(jìn)行的。你有一個(gè)想法，你發(fā)布，你收反饋。比如“這個(gè)按鈕讓人困惑”，或者“用戶其實(shí)想做 X 而不是 Y”。但你在發(fā)布之前，其實(shí)你是知道軟件會(huì)怎么運(yùn)行的。
　　但在智能體里，你在發(fā)布之前并不知道它到底會(huì)怎么做。你當(dāng)然有一個(gè)預(yù)期，但你并不能在發(fā)布前真正確定它會(huì)做什么。因此，為了讓它更準(zhǔn)確、讓它更“對(duì)”、讓它能通過某種“概念上的單元測(cè)試”，你需要更多輪次的迭代。
　　在這個(gè)基礎(chǔ)上，我也認(rèn)為記憶（memory）非常重要。因?yàn)橛洃浘褪窃趶倪@些交互中學(xué)習(xí)。如果你的開發(fā)過程變得更迭代、更難，那么作為開發(fā)者，我為了讓系統(tǒng)表現(xiàn)正確，可能需要反復(fù)改系統(tǒng) prompt——這種頻率甚至可能比我改代碼還高。
　　這就是記憶進(jìn)入的地方：如果系統(tǒng)能夠以某種方式自己學(xué)習(xí)，那就能減少開發(fā)者必須進(jìn)行的迭代次數(shù)，讓構(gòu)建這類智能體變得更容易。
　　所以，這是我認(rèn)為“構(gòu)建智能體確實(shí)不同于構(gòu)建軟件”的另一個(gè)角度。我也承認(rèn)，這么說有點(diǎn)老套，所以我一直在逼自己想清楚“到底不同在哪里”，目前我總結(jié)出來的就是這兩點(diǎn)。
　　主持人：我也很想追問這一點(diǎn)。現(xiàn)在公開市場(chǎng)上有一個(gè)很大的爭(zhēng)論：現(xiàn)有的軟件公司還能不能熬過去？如果類比當(dāng)年從本地部署軟件（on-prem）轉(zhuǎn)向云（cloud），實(shí)際上真正成功轉(zhuǎn)型的公司并不多，因?yàn)槭聦?shí)證明，“做云軟件”和“做本地軟件”確實(shí)差異很大。你現(xiàn)在處在“人們?nèi)绾斡?AI 構(gòu)建產(chǎn)品”的核心地帶。你怎么看這件事？
　　*** 我不是要問公開市場(chǎng)的投資問題，而是想問：這個(gè)變化到底有多大？你有沒有看到很多人：過去很擅長(zhǎng)“舊方法做軟件”，現(xiàn)在也能很擅長(zhǎng)“新方法做軟件”？還是說更像是：你要么在“新方法”里長(zhǎng)大，要么就很難真正理解它？你覺得人能跨越這個(gè)鴻溝嗎？
　　Harrison Chase：我注意到現(xiàn)在有很多年輕創(chuàng)始人，這讓我覺得，也許年輕人因?yàn)闆]有太多對(duì)“舊軟件開發(fā)方式”的先入之見，反而可以更快把這些東西學(xué)起來、用起來。而且我們確實(shí)一再聽到一個(gè)現(xiàn)象：很多在做 agent engineering 的團(tuán)隊(duì)成員，反而是更初級(jí)的開發(fā)者、更初級(jí)的構(gòu)建者——他們確實(shí)沒有那些先入之見。我們內(nèi)部的應(yīng)用 AI 團(tuán)隊(duì)，確實(shí)整體更偏年輕一些。我覺得這里面既有“人的因素”，也有“公司的因素”。
　　先說公司層面：數(shù)據(jù)依然非常非常非常有價(jià)值。如果你從 harness 的角度去看——順便說一句，我其實(shí)不認(rèn)為長(zhǎng)期來看大多數(shù)人都會(huì)自己去寫 harness，因?yàn)樗茸?framework 難太多了。所以我覺得大家最終會(huì)用我們提供的 harness，或者用別人的。
　　那一個(gè) harness 里面有什么？主要就是：prompt、指令，以及它連接的工具。而現(xiàn)有公司在這方面最大的資產(chǎn)之一，是他們已經(jīng)擁有數(shù)據(jù)和 API。如果你過去在這塊做得不錯(cuò)，那么把這些東西接入到 agent 上，其實(shí)會(huì)非常容易產(chǎn)生真實(shí)價(jià)值。
　　我們前陣子和金融行業(yè)的人聊，他們就說：數(shù)據(jù)的價(jià)值只會(huì)越來越高、越來越高、越來越高。所以如果你是一個(gè)傳統(tǒng)軟件廠商，你手上有這些高價(jià)值數(shù)據(jù)，你應(yīng)該能夠把它暴露給智能體，讓智能體去用，從中拿到很大的收益。
　　不過這里還有另一部分：關(guān)于“如何使用這些數(shù)據(jù)”的指令（instructions），這一塊可能更偏“新增”。
　　你作為軟件廠商也許一直對(duì)“怎么用這些數(shù)據(jù)”有一些想法，但你并沒有把這些想法系統(tǒng)化、固化成可執(zhí)行的“操作說明”，因?yàn)檫^去這件事更多是由人來完成的——很多智能體現(xiàn)在在做的事情，本來就是人類會(huì)做的事情。
　　你當(dāng)然會(huì)給人配工具，但你以前不會(huì)、或者也很難成功地把它完全自動(dòng)化。而到了“智能體”這一代，這部分才真正變得可行。所以我覺得這塊是新的。
　　我們也看到大量需求來自“垂直領(lǐng)域創(chuàng)業(yè)公司”。Rogo 就是一個(gè)很好的例子：他們團(tuán)隊(duì)有人有金融行業(yè)經(jīng)驗(yàn)，把這種行業(yè)知識(shí)帶進(jìn)了智能體系統(tǒng)里，而這之所以有效，是因?yàn)楹芏嘀悄荏w的驅(qū)動(dòng)力來自“知識(shí)”——但不是那種通用世界知識(shí)，而是如何執(zhí)行特定流程、特定模式的知識(shí)。
　　所以問題就變成：做傳統(tǒng)軟件的人是不是做智能體的合適人選？我覺得我們確實(shí)看到很多非常資深的開發(fā)者在采用 agentic coding，所以某種程度上這更像是“心態(tài)問題”。但確實(shí)也可能會(huì)呈現(xiàn)出一種“年輕化傾向”。而公司層面，則很大程度取決于它手上的數(shù)據(jù)資產(chǎn)。
　　主持人：所以看起來，你認(rèn)為 trace 是這個(gè)新世界里 agent 開發(fā)的核心“產(chǎn)物”，LangSmith 在這方面幫助很大。那你覺得還有哪些核心的“產(chǎn)物”——或者說，可能“產(chǎn)物”這個(gè)詞不對(duì)，應(yīng)該說組件（components）？
　　Harrison Chase：對(duì)，組件。我覺得構(gòu)建軟件與構(gòu)建智能體之間另一個(gè)差異是：評(píng)估軟件時(shí)，你可以相當(dāng)可靠地依賴程序化測(cè)試和斷言。但智能體做的很多事情，本質(zhì)上是“人類會(huì)做的事情”。因此要評(píng)估它，你必須把人的判斷引入進(jìn)來。
　　這也是我們?cè)?LangSmith 里努力解決的問題之一：你已經(jīng)有了這些 traces，那么你怎么把人類判斷帶到 traces 上？最直接的方法當(dāng)然就是：把人引進(jìn)來。所以我們也看到數(shù)據(jù)標(biāo)注類創(chuàng)業(yè)公司做得很好。我們?cè)?LangSmith 里有一個(gè)概念叫 annotation queues（標(biāo)注隊(duì)列），就是把人帶進(jìn)來參與。因此，實(shí)際的、真實(shí)的人類判斷，是其中非常重要的一部分。
　　主持人：這里的“人工標(biāo)注”的 trace，比如，智能體做了這些步驟，這是好還是不好。
　　Harrison Chase：有時(shí)候，人會(huì)給自然語言反饋：這很好、這很差、這里應(yīng)該怎么做。有時(shí)候，人會(huì)直接“糾正它”：把正確步驟完整地寫出來。這具體怎么做取決于用例，而且對(duì)做 RL 的模型公司，和對(duì)做 agent 應(yīng)用的公司來說，也可能不一樣。但核心就是：把人類判斷帶進(jìn)來。
　　同時(shí)，我們也看到另一條路：嘗試為這種人類判斷建立一些“代理指標(biāo)”（proxy）。這就是 LLM-as-a-Judge 這類方法的來源：你可以跑一個(gè) LLM 或其他模型，讓它承擔(dān)某種“類似人類判斷”的角色，去給那些本來需要人類判斷的東西打分。
　　我們一直在思考的一件事是：怎么讓“構(gòu)建 judge”這件事變得容易。因?yàn)?judge 的關(guān)鍵很大一部分在于：它必須和你的人的判斷、人類偏好保持一致。如果做不到，那你的 grader（評(píng)分器）就很糟糕。
　　所以我們?cè)?LangSmith 里做了一個(gè)概念叫align evals：人類先去標(biāo)注一些 traces，然后基于這些標(biāo)注，構(gòu)建一個(gè) LLM judge，使它在這些樣本上被校準(zhǔn)（calibrated）。
　　因?yàn)殛P(guān)鍵就在于：你要把人類判斷引入進(jìn)來；如果你要用 proxy 來替代它，那就必須確保這個(gè) proxy 校準(zhǔn)得足夠好。
　　主持人：有意思。我記得我們最開始和你做業(yè)務(wù)合作的時(shí)候，還在郵件里討論過：LLM-as-a-Judge 到底是否可行。看起來它已經(jīng)進(jìn)步很多了。
　　Harrison Chase：是的。LM-as-a-Judge 其實(shí)有幾個(gè)不同層面的用法。
　　最常見的一種，是用于 eval：拿一條 trace，直接給它一個(gè)分?jǐn)?shù)，比如 1 到 0，或者 0 到 10。這個(gè)我認(rèn)為是可行的，而且很多人確實(shí)在做。他們會(huì)離線做，也會(huì)在線做，因?yàn)橛行┡袛嗖⒉恍枰?ground truth（標(biāo)準(zhǔn)答案）。
　　但我覺得另外一個(gè)更重要的場(chǎng)景，是你在 coding agents 里也能看到的：coding agent 往往會(huì)先工作到某一步，然后遇到錯(cuò)誤，觸發(fā)糾錯(cuò)。它實(shí)際上是在“評(píng)判自己剛才做的工作”。我們也在 memory 上看到同樣的模式：記憶很大一部分就是反思 traces，然后更新某些東西。所以問題是：LLM 能不能去反思 traces——無論是它自己的 trace、以前 session 的 trace，還是別人的 trace？我覺得完全可以。我們?cè)?eval、糾錯(cuò)、記憶里到處都能看到這種模式，本質(zhì)上其實(shí)是一回事。
　　Eval 是 RL 的獎(jiǎng)勵(lì)信號(hào)，
　　還是工程反饋機(jī)制？
　　主持人：我明白了。那接下來就很自然會(huì)問：你有了所有 traces，也有了 eval。那么這些 eval 到底是什么？它是強(qiáng)化學(xué)習(xí)的 reward signal？還是一種反饋機(jī)制，讓工程師去改進(jìn) harness、讓 agent 工程師去優(yōu)化 harness？
　　Harrison Chase：因?yàn)楝F(xiàn)在大家都不再手動(dòng)寫太多代碼了，大家都在用這些 agent 工具。我們觀察到一個(gè)很重要的模式：我們有一個(gè) LangSmith MCP，也有 LangSmith fetch（一個(gè) CLI）。因?yàn)?coding agents 特別擅長(zhǎng)用 CLI。你把這些給智能體，它就能把 traces 拉下來，診斷哪里出了問題，然后把這些 traces 帶進(jìn)代碼庫里，從而修復(fù)它。這是我們正在看到的真實(shí)模式，而且我們非常非常非常想支持這種模式。
　　所以在這一點(diǎn)上，相比“用 eval 做強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)信號(hào)”，我對(duì)“把 eval 當(dāng)作工程反饋、用于改 harness”的路徑更樂觀——至少對(duì)今天做 agent 應(yīng)用的公司來說是這樣。
　　主持人：這聽起來像是遞歸自我改進(jìn)啊。
　　Harrison Chase：我覺得是，但還是有一個(gè)人類在環(huán)。
　　回到前面那個(gè)點(diǎn)：當(dāng)它產(chǎn)出“初稿”時(shí)效果最好——它改 prompt，然后人類 review，這能讓系統(tǒng)保持不跑偏。但我們確實(shí)……我們最近發(fā)布了 LangSmith Agent Builder，這是一個(gè) no-code 的 agent 構(gòu)建方式。其中一個(gè)很酷的功能就是 memory。
　　現(xiàn)在 memory 的工作方式是這樣的：當(dāng)你和 agent 交互時(shí)（注意它還不是后臺(tái)自動(dòng)跑的那種；它不會(huì)自己拉 traces），如果你對(duì)它說：“你不該做 X，你應(yīng)該做 Y”，它就會(huì)去改自己的指令——這些指令本質(zhì)上就是文件——然后直接編輯這些文件。這樣未來它就會(huì)按新的方式表現(xiàn)。
　　這也是一種“自我改進(jìn)”的形式。我們確實(shí)還想加入另一種機(jī)制：比如每天晚上跑一次任務(wù)，查看當(dāng)天所有 traces，更新自己的指令。
　　主持人：就是那種“做夢(mèng)”的機(jī)制。
　　Harrison Chase：對(duì)，“睡眠時(shí)間算力（sleep-time compute）”。
　　記憶與自我改進(jìn)會(huì)成為護(hù)城河嗎？
　　主持人：我們?cè)俣嗔牧奈磥怼Ｄ悻F(xiàn)在最興奮的是什么？聽起來你聊了很多 memory。
　　Harrison Chase：我很看好 memory。我覺得讓智能體去改善自己，這非?？?，而且在很多場(chǎng)景下也很有用。
　　但也不是所有場(chǎng)景都用得上。比如 ChatGPT 加了 memory 功能，我其實(shí)用得不多，我也不覺得它顯著增加了我對(duì)產(chǎn)品的粘性。我覺得原因之一是：我去 ChatGPT 時(shí)，大多數(shù)問題都是一次性的。我不太會(huì)反復(fù)做同一件事：我可能問軟件，也可能問吃的、旅行……都很零散。
　　但在 agent builder 里，你通常是為特定任務(wù)構(gòu)建特定工作流。比如我有一個(gè) email agent。而且我其實(shí)……它已經(jīng)給我發(fā)郵件兩年了。我之前在 agent builder 之外就有一個(gè) email agent，它帶有 memory。后來我們做了 agent builder，我想把它遷移進(jìn)去，但它沒有我之前的那些 memories。即便它的起始 prompt 一樣、工具也一樣，但因?yàn)槿绷擞洃?，它現(xiàn)在的體驗(yàn)就明顯差很多。我到現(xiàn)在都還沒完全切過去，因?yàn)樗F(xiàn)在確實(shí)不如之前那個(gè)好用——說白了，它現(xiàn)在“有點(diǎn)爛”。
　　當(dāng)然，如果我持續(xù)和它交互，它會(huì)變好，它會(huì)不那么爛。但這也恰恰說明：memory 可能會(huì)成為真正的護(hù)城河（moat）。而且我絕對(duì)相信，我們已經(jīng)到了一個(gè)階段：LLM 可以看 traces，然后改變自己代碼里的某些東西。問題在于：怎么把這件事做得安全、并且在用戶層面可接受。但我認(rèn)為，在一些特定場(chǎng)景里（不是所有場(chǎng)景），我們會(huì)越來越多看到這種能力。至于 ChatGPT 這種通用聊天產(chǎn)品，我仍然不確定這種形態(tài)的 memory 是否有用，至少目前我不確定。
　　主持人：你覺得和長(zhǎng)時(shí)序智能體一起工作的 UI 會(huì)如何演化？
　　Harrison Chase：我覺得大概率需要同步模式（sync）和異步模式（async）。
　　長(zhǎng)時(shí)序智能體運(yùn)行時(shí)間可能很長(zhǎng)，默認(rèn)應(yīng)該是異步管理：如果它要跑一天，你不會(huì)一直坐在那里等它結(jié)束。你很可能會(huì)啟動(dòng)一個(gè)、再啟動(dòng)一個(gè)、同時(shí)跑很多個(gè)。所以這里會(huì)涉及到異步管理：我覺得像 Linear、Jira、看板，甚至 email，都可以作為 UI 設(shè)計(jì)的參考——如何去管理一堆異步運(yùn)行的 agent。
　　但與此同時(shí)，很多時(shí)候你又會(huì)想切換到同步交流。因?yàn)?agent 最后給你返回一份研究報(bào)告，你可能需要立刻指出：它這里寫錯(cuò)了，你要給反饋。聊天界面在這方面其實(shí)已經(jīng)挺不錯(cuò)的。
　　我唯一想補(bǔ)充的是：現(xiàn)在很多 agent 不僅是在“對(duì)話”，它還會(huì)去修改文件系統(tǒng)里的文件。所以你必須有一種方式去查看“狀態(tài)”（state）——也就是它改了什么。
　　這在編程領(lǐng)域尤其明顯：IDE 依然被使用，是因?yàn)楫?dāng)你想手動(dòng)改代碼時(shí)，你需要看見那個(gè)“當(dāng)前狀態(tài)”。即便我啟動(dòng) Claude Code，它跑完后，我有時(shí)也會(huì)打開來看它到底寫了什么代碼。所以“能看到狀態(tài)”這件事很重要。
　　Anthropic 在 Claude “co-work”（這里指那類協(xié)作式工作流）里做了一個(gè)很酷的設(shè)計(jì)：你設(shè)置它時(shí)要選擇一個(gè)目錄，等于你在告訴它：“這就是你的環(huán)境。”
　　這在編程里當(dāng)然也是常態(tài)：你打開 IDE 到某個(gè)目錄。但我覺得把它明確成一個(gè)心智模型很有幫助：這就是你的 workspace（工作區(qū)）。
　　這個(gè) workspace 也不一定非得是本地目錄：它可以是 Google Drive、Notion 頁面，或者任何能存儲(chǔ)狀態(tài)的地方。你和 agent 就是在這個(gè)狀態(tài)上協(xié)作：你啟動(dòng)它，讓多個(gè)任務(wù)異步跑；然后切到同步模式，在 chat 里和它討論，但同時(shí)你還能看到它正在協(xié)作的“狀態(tài)”。這就是我目前看到的形態(tài)。
　　主持人：所以這也就是你說的“agent inbox”的想法：為了進(jìn)入 sync 模式，agent 需要能聯(lián)系到你。
　　Harrison Chase：對(duì)，沒錯(cuò)。我們大概一年前發(fā)布過 agent inbox，理念是“ambient agents”：它們?cè)诤笈_(tái)跑，必要時(shí)來 ping 你。但第一版其實(shí)沒有 sync 模式：它 ping 你，你回一句，然后你就等它下一次再 ping 你。
　　但很多時(shí)候，我切到郵件去回復(fù)它時(shí)，我其實(shí)只回很短的話，而且我不想再切出去然后干等——我（對(duì)方）很重要，所以我更想直接進(jìn)入一種“同步對(duì)話”的模式，跟 agent 把這個(gè)問題當(dāng)場(chǎng)聊完。所以我們后來做了一個(gè)關(guān)鍵改動(dòng)：當(dāng)你打開 inbox 時(shí)，會(huì)直接進(jìn)入 chat，而 chat 是非常同步的。這是一個(gè)很大的 unlock（突破點(diǎn)）。
　　我現(xiàn)在認(rèn)為：只有 async 模式，目前還不太夠。也許未來如果 agent 強(qiáng)到你幾乎不用糾正它，那么純異步會(huì)更可行。但至少現(xiàn)在，我們看到人們?cè)?async 和 sync 之間來回切換。
　　主持人：你怎么看 code sandboxes（代碼沙箱）？是不是每個(gè) agent 最終都會(huì)配一個(gè) sandbox？也包括“能用電腦”、能上網(wǎng)用瀏覽器這種能力？
　　Harrison Chase：這是個(gè)特別好的問題，我們也一直在想。就目前的經(jīng)驗(yàn)來看，“寫代碼 / 跑代碼”這條路明顯比“直接操作瀏覽器”更成熟、更好用。
　　所以短期內(nèi)，如果要在這些能力里挑一個(gè)最可能成為標(biāo)配的，我更看好的是代碼執(zhí)行（code execution）——也就是給 agent 一個(gè)能安全運(yùn)行腳本、驗(yàn)證結(jié)果的環(huán)境。
　　另外，文件系統(tǒng)（file system）我?guī)缀跏恰皥?jiān)定派”：不管是本地目錄、還是背后用數(shù)據(jù)庫實(shí)現(xiàn)的“虛擬文件系統(tǒng)”，agent 總得有個(gè)地方能存狀態(tài)、存中間結(jié)果、隨時(shí)回查，這對(duì)上下文管理太關(guān)鍵了。比如：
　　做 compaction（上下文壓縮）時(shí)，把完整內(nèi)容丟到文件里，需要再查就去讀；
　　工具調(diào)用返回特別長(zhǎng)時(shí)，不塞進(jìn)上下文，改成寫文件、讓 agent 自己按需讀取。
　　至于“coding”（讓 agent 真正去寫代碼），我沒那么絕對(duì)，但我大概 90% 站在“需要”這一邊。因?yàn)楹芏嚅L(zhǎng)尾任務(wù)里，寫腳本依然是最通用、最強(qiáng)的手段——你很難找到同等級(jí)的替代品。
　　當(dāng)然也可能出現(xiàn)另一類場(chǎng)景：如果你做的是高度重復(fù)、流程固定的事情，未必每次都要寫很多代碼；但即使這樣，文件系統(tǒng)仍然重要，因?yàn)橹貜?fù)流程會(huì)不斷產(chǎn)生上下文和狀態(tài)，你還是要做上下文工程。
　　再說瀏覽器使用（browser use）：從我們目前看到的效果來說，模型還不夠穩(wěn)定。也許可以讓 coding agent 通過 CLI 的方式“間接”完成一些瀏覽器相關(guān)任務(wù)（算是一種近似解），我確實(shí)見過一些挺酷的實(shí)現(xiàn)。
　　而所謂 computer use（直接操作電腦界面）則更像是介于兩者之間的混合形態(tài)，目前還有不少不確定性。
　　所以總結(jié)一下：我非常喜歡 code sandboxes，我覺得它會(huì)成為 agent 能力棧里很關(guān)鍵的一塊。
　　主持人：太棒了。Harrison，真的非常感謝你今天來參加節(jié)目。你一直都能在 agent 這條路上看到未來，能和你聊“上下文工程如何演化到今天的 harness 與長(zhǎng)時(shí)序智能體”，真的特別過癮。感謝你推動(dòng)這個(gè)未來，也感謝你一直愿意和我們聊這些。
　　Harrison Chase：謝謝邀請(qǐng)。我希望未來還能再來一次，然后證明我今天說的全部都是錯(cuò)的。因?yàn)轭A(yù)測(cè)未來真的很難。
　　https://www.youtube.com/watch?v=vtugjs2chdA&t=1s
　　聲明：本文為 AI 前線整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.