国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LangChain 創(chuàng)始人警告:2026 成為“Agent 工程”分水嶺,傳統(tǒng)軟件公司的生存考驗(yàn)開始了

0
分享至

  

  編譯 | Tina

  過去幾十年,軟件工程有一個(gè)穩(wěn)定不變的前提:系統(tǒng)的行為寫在代碼里。工程師讀代碼,就能推斷系統(tǒng)在大多數(shù)場(chǎng)景下會(huì)怎么運(yùn)行;測(cè)試、調(diào)試、上線,也都圍繞“確定性”展開。但 Agent 的出現(xiàn)正在動(dòng)搖這個(gè)前提:在 Agent 應(yīng)用里,決定行為的不再只是代碼,還有模型本身——一個(gè)在代碼之外運(yùn)行、帶著非確定性的黑箱。你無法只靠讀代碼理解它,只能讓它跑起來、看它在真實(shí)輸入下做了什么,才知道系統(tǒng)“到底在干什么”。

  在播客中,LangChain 創(chuàng)始人 Harrison Chase 還把最近一波“能連續(xù)跑起來”的編程 Agent、Deep Research 等現(xiàn)象視為拐點(diǎn),并判斷這類“長(zhǎng)任務(wù) Agent”的落地會(huì)在 2025 年末到 2026 年進(jìn)一步加速。

  這也把問題推到了臺(tái)前:2026 被很多人視為“長(zhǎng)任務(wù) Agent 元年”,現(xiàn)有的軟件公司還能不能熬過去?就像當(dāng)年從 on-prem 走向云,并不是所有軟件公司都成功轉(zhuǎn)型一樣,工程范式一旦變化,就會(huì)重新篩選參與者。長(zhǎng)任務(wù) Agent 更像“數(shù)字員工”——它不是多回合聊天那么簡(jiǎn)單,而是能在更長(zhǎng)時(shí)間里持續(xù)執(zhí)行、反復(fù)試錯(cuò)、不斷自我修正。

  在這期與紅杉資本的對(duì)話中,Harrison 拋出了一個(gè)判斷:構(gòu)建 Agent,已經(jīng)不只是把軟件開發(fā)“加一層 AI”,而是工程范式本身在變。為什么他說“光讀代碼不夠了”?為什么 tracing、評(píng)估、記憶這些原本偏“輔助”的東西,突然變成主角?他在對(duì)話里給出了非常具體的解釋。

  而更現(xiàn)實(shí)的問題是:如果范式真的在變,那些靠數(shù)據(jù)、流程、產(chǎn)品形態(tài)建立壁壘的傳統(tǒng)軟件公司,優(yōu)勢(shì)還能不能延續(xù)?它們手里握著的數(shù)據(jù)與 API 可能依然是王牌,但能否把這些資產(chǎn)變成 Agent 時(shí)代的生產(chǎn)力,取決于一套全新的工程打法。Harrison 的觀察與判斷,都在下面的完整對(duì)話里:

  主持人:AI 領(lǐng)域的變化速度快得驚人。當(dāng)前最受關(guān)注的話題,我覺得沒有人比你更合適來聊。我們會(huì)先談 長(zhǎng)任務(wù) Agent(Long Horizon Agents) 和 Agent Harness(智能體運(yùn)行框架)。

  *** 接著,我們會(huì)討論:構(gòu)建長(zhǎng)任務(wù) Agent 與構(gòu)建傳統(tǒng)軟件到底有什么不同,以及你如何看待 LangChain 在整個(gè)生態(tài)系統(tǒng)中的角色。最后,我想和你聊聊未來。你怎么看紅杉資本這篇關(guān)于 Long Horizon Agents 的文章?哪些觀點(diǎn)你認(rèn)同,哪些地方你不太同意?

  

  來源:https://sequoiacap.com/article/2026-this-is-agi/

“在去年的一篇文章中,我們?cè)岢觯和评砟P停╮easoning models)是 AI 領(lǐng)域最重要的新前沿。而“長(zhǎng)任務(wù) Agent”(long-horizon agents)則在這一范式之上更進(jìn)一步——它們不只是思考,還能夠采取行動(dòng),并在時(shí)間維度上不斷迭代?!?/blockquote>

  Harrison Chase:你們這個(gè)概念命名得非常好,那篇文章也寫得很棒。我整體上是認(rèn)同的——長(zhǎng)任務(wù) Agent 終于開始真正“跑起來”了。

  一開始對(duì) Agent 的設(shè)想,本來就是讓一個(gè) LLM 運(yùn)行在一個(gè)循環(huán)里,自主決定接下來該做什么。

  AutoGPT 本質(zhì)上就是這個(gè)想法,這也是它當(dāng)初能迅速走紅、抓住那么多人想象力的原因:一個(gè) LLM 在循環(huán)中運(yùn)行,完全自主地決定行動(dòng)。但當(dāng)時(shí)的問題在于:模型還不夠好,圍繞模型的 scaffolding(支架)和 harness(框架)也不夠成熟

  這幾年,模型本身變得更強(qiáng)了;與此同時(shí),我們也逐漸搞清楚了,什么樣的 harness 才是“好”的。于是現(xiàn)在,這套東西開始真正奏效了。最明顯的例子是在編程領(lǐng)域,Agent 的突破首先發(fā)生在那里。之后,這種能力正在向其他領(lǐng)域擴(kuò)散。

  當(dāng)然,你仍然需要告訴 Agent 你想讓它做什么,它也需要配備合適的工具。但現(xiàn)在,它確實(shí)可以持續(xù)運(yùn)行更長(zhǎng)的時(shí)間,而且表現(xiàn)越來越穩(wěn)定。所以,用“長(zhǎng)時(shí)序”來描述這一類 Agent,我覺得非常貼切。

  主持人:你最喜歡的長(zhǎng)任務(wù) Agent 案例有哪些?你覺得它們正在呈現(xiàn)出哪些形態(tài)?

  Harrison Chase:目前最成熟、我自己用得最多的,還是編程 Agent。

  再往外延一點(diǎn),我覺得非常優(yōu)秀的一類是 AI SRE。比如 Traversal(我記得它是一家紅杉投資的公司),他們的 AI SRE 可以在更長(zhǎng)的時(shí)間跨度內(nèi)運(yùn)行。再往抽象一點(diǎn),其實(shí)這類 AI SRE 本質(zhì)上屬于“研究型 Agent”。比如:給它一個(gè)事故,它會(huì)去翻日志、分析上下文、追溯原因。研究任務(wù)本身非常適合 Agent,因?yàn)樗鼈冏罱K產(chǎn)出的往往是一個(gè)“初稿”。

  Agent 的問題在于:它們還達(dá)不到 99% 的可靠性,但它們可以在較長(zhǎng)時(shí)間內(nèi)完成大量工作。所以,只要你能把任務(wù)框定為:讓 Agent 長(zhǎng)時(shí)間運(yùn)行,產(chǎn)出一個(gè)初步版本,由人來審閱,這在我看來就是目前長(zhǎng)任務(wù) Agent 最“殺手級(jí)”的應(yīng)用形態(tài)。

  編程就是一個(gè)例子:你通常是提交 PR,而不是直接推到生產(chǎn)環(huán)境(當(dāng)然,vibe coding 現(xiàn)在也在不斷進(jìn)步)。AI SRE 也是一樣:結(jié)果會(huì)交給人來 review。報(bào)告生成也是如此:你不會(huì)直接發(fā)給所有用戶,而是先看一遍、改一改。我們?cè)诮鹑陬I(lǐng)域也看到了大量這樣的用法,這是一個(gè)非常大的研究機(jī)會(huì)。客服領(lǐng)域同樣如此。最早的客服 Agent 主要是做“第一響應(yīng)”:用戶一發(fā)消息,馬上給出回復(fù),這類用法現(xiàn)在也做得很好。

  但現(xiàn)在開始出現(xiàn)新的形態(tài),比如 Klarna 這個(gè)產(chǎn)品:人類和 AI 協(xié)同工作。當(dāng)?shù)谝粚幼詣?dòng)回復(fù)失敗后,不是簡(jiǎn)單地轉(zhuǎn)交給人工,而是讓一個(gè)長(zhǎng)任務(wù) Agent 在后臺(tái)運(yùn)行,生成一份完整的事件報(bào)告,然后再交給人工客服處理。

  這里“agent”這個(gè)詞在客服語境下會(huì)變得有點(diǎn)混亂,但核心邏輯是一致的??偨Y(jié)來說,這些應(yīng)用的共同點(diǎn)是:先由 Agent 生成一個(gè)“初稿”,再由人類接管。

  主持人:那么,“為什么是現(xiàn)在”?你覺得主要是因?yàn)槟P捅旧碜兊米銐驈?qiáng),還是因?yàn)槿藗冊(cè)?harness 側(cè)做了非常聰明的工程設(shè)計(jì)?在回答這個(gè)問題之前,能不能先幫聽眾梳理一下:在一個(gè) Agent 系統(tǒng)中,模型、框架和 harness 各自扮演什么角色?

  Harrison Chase:當(dāng)然可以。我也順便把“框架”這個(gè)概念一起帶進(jìn)來。一開始,我們把 LangChain 描述為一個(gè)Agent Framework,現(xiàn)在我們又推出了Deep Agents,我更愿意稱它為一個(gè)Agent Harness

  很多人都會(huì)問,這兩者有什么區(qū)別。模型很簡(jiǎn)單,就是 LLM:輸入 token、輸出 token。框架(Framework)是圍繞模型的一層抽象,讓你更容易切換模型,封裝工具、向量數(shù)據(jù)庫、記憶等組件,本身比較“無偏好”,強(qiáng)調(diào)靈活性,更像是基礎(chǔ)設(shè)施。Harness則更“有主張”。以 Deep Agents 為例:我們默認(rèn)就提供一個(gè)規(guī)劃工具(Planning Tool);這個(gè)工具是直接內(nèi)建在 harness 里的,帶有明確的設(shè)計(jì)立場(chǎng):我們認(rèn)為這是“正確”的做法。

  我們還做了上下文壓縮(Compaction)。長(zhǎng)任務(wù) Agent 會(huì)運(yùn)行很久,哪怕上下文窗口已經(jīng)很大,也終究是有限的,總會(huì)有需要壓縮的時(shí)候。怎么壓縮?壓縮什么?這是一個(gè)正在被大量研究的問題。

  此外,幾乎所有 Agent Harness 都會(huì)提供文件系統(tǒng)交互能力,不管是直接操作,還是通過 bash。這一點(diǎn)其實(shí)很難和模型本身完全分開,因?yàn)槟P陀?xùn)練數(shù)據(jù)里已經(jīng)大量包含了這類操作。

  如果回到兩年前,我不確定我們是否能預(yù)見到:基于文件系統(tǒng)的 harness 會(huì)成為最優(yōu)解之一。那時(shí)模型還沒被充分訓(xùn)練過這些模式,而現(xiàn)在模型和 harness 是在一起“共同進(jìn)化”的。

  所以總結(jié)來說,這是一個(gè)組合效應(yīng):模型本身確實(shí)在變強(qiáng),推理模型帶來了巨大提升。同時(shí),我們也逐漸摸索出了 compaction、planning、文件系統(tǒng)工具等一整套關(guān)鍵原語。這兩者缺一不可。

  設(shè)計(jì)范式的演進(jìn)

  主持人:我記得在我們第一次對(duì)談時(shí),你把 LangGraph 描述為 Agent 的“認(rèn)知架構(gòu)”?,F(xiàn)在來看,這是不是也可以理解為 harness 的一種形態(tài)?

  Harrison Chase:是的,這個(gè)理解是對(duì)的。我們現(xiàn)在的 Deep Agents 是構(gòu)建在 LangGraph 之上的??梢园阉醋魇且粋€(gè)非常具體、非常有主張的 LangGraph 實(shí)例,更偏向通用目的。

  早期我們討論過“通用架構(gòu)”和“專用架構(gòu)”的區(qū)別?,F(xiàn)在我們觀察到一個(gè)很有意思的變化:過去需要寫進(jìn)架構(gòu)里的任務(wù)特異性,正在轉(zhuǎn)移到工具和指令里。

  復(fù)雜性并沒有消失,只是從結(jié)構(gòu)化代碼,轉(zhuǎn)移到了自然語言中。因此,prompt 的設(shè)計(jì)、修改,甚至自動(dòng)更新,正在成為系統(tǒng)的一部分;而 harness 本身,反而變得更加穩(wěn)定。

  主持人:在你看來,harness 工程中最難做對(duì)的是什么?你覺得單個(gè)公司是否真的有可能在這一層形成顯著優(yōu)勢(shì)?有沒有你特別佩服的團(tuán)隊(duì)?

  Harrison Chase:說實(shí)話,目前在 harness 工程上做得最好的,基本都是編程類公司。Claude Code 就是一個(gè)非常典型的例子。我認(rèn)為它能如此受歡迎,很大程度上是因?yàn)樗?harness。

  主持人:這是否意味著:harness 更適合由模型公司來做,而不是第三方創(chuàng)業(yè)公司?

  Harrison Chase:我不確定。比如 Factory、AMP 這些編程公司,也都做出了非常強(qiáng)的 harness。

  確實(shí)存在一個(gè)現(xiàn)實(shí):harness 往往和模型家族綁定得比較緊密。不一定是某一個(gè)具體模型,而是一整個(gè)模型體系。Anthropic 的模型會(huì)針對(duì)某些工具進(jìn)行微調(diào),OpenAI 則針對(duì)另外一些。這和 prompt 類似:不同模型,需要不同的 prompt;同樣,不同模型家族,也需要稍微不同的 harness。當(dāng)然,它們也有很多共性,比如幾乎都會(huì)使用文件系統(tǒng)。

  我自己也沒有一個(gè)確定答案。但一個(gè)很明顯的現(xiàn)象是:幾乎所有做編程 Agent 的公司,現(xiàn)在都在自研自己的 harness。你去看 Terminal Bench 2 這樣的榜單,會(huì)發(fā)現(xiàn)他們不僅展示模型,還展示 harness。Claude Code 并不總是在榜首。這說明:性能差異并不完全來自模型,而來自對(duì)“模型如何在 harness 中工作”的理解。

  主持人:你覺得,排行榜上表現(xiàn)最好的 harness,究竟在哪些地方做得特別好?

  Harrison Chase:首先是對(duì)模型訓(xùn)練偏好的理解。比如 OpenAI 的模型對(duì) Bash 非常熟悉;Anthropic 提供了顯式的文件編輯工具。順著模型的“母語”來設(shè)計(jì) harness,本身就能帶來性能收益。

  其次是上下文壓縮(Compaction)。隨著任務(wù)時(shí)間跨度變長(zhǎng),如何處理上下文窗口溢出,已經(jīng)成為一個(gè)核心問題。這顯然也是 harness 的一部分。

  此外,還有skills、子 Agent、MCP等機(jī)制。目前這些能力還沒有被系統(tǒng)性地訓(xùn)練進(jìn)模型中,仍然屬于比較新的探索方向。

  在我們的 harness 中,一個(gè)典型挑戰(zhàn)是:主 Agent 如何與子 Agent 高效通信。主模型需要把所有必要信息傳遞給子 Agent,同時(shí)還要明確告訴它:最終只需要返回一個(gè)“最終結(jié)果”。

  我們見過一些失敗案例:子 Agent 做了大量工作,最后卻返回一句“請(qǐng)查看我上面的分析”,而主 Agent 根本看不到那些內(nèi)容,于是完全不知道它在說什么。

  所以,如何通過 prompt 設(shè)計(jì)讓這些組件協(xié)同工作,是 harness 工程中非常重要的一部分。

  如果你去看一些公開的 harness prompt,它們往往有幾百行之長(zhǎng)。

  主持人:我想從演進(jìn)角度問一個(gè)問題。你一直站在模型“如何落地”的最前沿。如果用一種簡(jiǎn)化視角來看過去五年的幾個(gè)關(guān)鍵拐點(diǎn):ChatGPT 帶來了預(yù)訓(xùn)練的拐點(diǎn);o1 帶來了推理能力的拐點(diǎn); 最近,Claude Code + Opus 4.5 帶來了長(zhǎng)任務(wù) Agent 的拐點(diǎn)。但從你這個(gè)“圍繞模型做設(shè)計(jì)”的世界來看,拐點(diǎn)會(huì)不會(huì)是另一套劃分?從認(rèn)知架構(gòu)到框架、再到 harness,這中間經(jīng)歷了哪些真正的躍遷?

  Harrison Chase:我大概會(huì)把它分成三個(gè)階段。

  第一階段:最早期。那時(shí) LangChain 剛剛出現(xiàn),模型還是“純文本輸入、純文本輸出”,甚至還不是 chat 模型。沒有工具調(diào)用,沒有 reasoning,沒有結(jié)構(gòu)化輸出。人們主要做的是單一 prompt 或簡(jiǎn)單 chain。

  第二階段:工具與規(guī)劃開始進(jìn)入模型。模型開始支持 tool calling,也嘗試學(xué)會(huì)“思考”和“規(guī)劃”。雖然還不夠強(qiáng),但已經(jīng)能做出基本決策。這時(shí),人們大量使用自定義的認(rèn)知架構(gòu),通過顯式提問來引導(dǎo)模型行動(dòng),但整體仍然依賴大量外部 scaffolding。

  第三階段:長(zhǎng)任務(wù) Agent 的真正起飛。大概是在今年 6~7 月,我們看到 Claude Code、Deep Research、Manus 等產(chǎn)品同時(shí)爆發(fā)。它們?cè)诘讓邮褂玫氖?strong>同一個(gè)核心算法:讓 LLM 在循環(huán)中運(yùn)行。

  真正的突破來自于上下文工程:壓縮、子 Agent、技能、記憶——所有這些,都是圍繞上下文展開的。這正是我們開始做 Deep Agents 的時(shí)間點(diǎn)。

  對(duì)于很多程序員來說,Opus 4.5 可能是一個(gè)心理上的分水嶺。也可能只是碰巧遇上假期,大家回家開始大量使用 Claude Code,突然意識(shí)到:它真的很好用。無論是 2025 年初還是 2025 年末,總之在某個(gè)時(shí)間點(diǎn),模型“剛好強(qiáng)到足以支撐這種形態(tài)”,于是我們從 scaffolding 邁向了 harness。

  Coding Agent 是

  通用 AI 的終局形態(tài)嗎

  主持人:接下來會(huì)發(fā)生什么?

  Harrison Chase:我也希望我知道答案。這個(gè)“讓 LLM 在循環(huán)中運(yùn)行、讓它自己決定要拉什么上下文進(jìn)來”的算法,本身極其簡(jiǎn)單、也極其通用。這正是 Agent 從一開始的核心設(shè)想,而我們現(xiàn)在終于走到了“它真的能工作”的階段。

  接下來,可能會(huì)有大量圍繞上下文工程的技巧出現(xiàn):有些手動(dòng)設(shè)計(jì)的部分可能會(huì)消失;比如壓縮類的,現(xiàn)在仍然高度依賴 harness 作者的決策。Anthropic 已經(jīng)在嘗試讓模型自己決定何時(shí)壓縮上下文,雖然目前用得還不多。

  另一個(gè)我們非常關(guān)注的方向是記憶(Memory)。從本質(zhì)上說,記憶也是一種上下文工程,只不過是跨更長(zhǎng)時(shí)間尺度的上下文。核心算法本身已經(jīng)非常清晰:運(yùn)行 LLM 循環(huán)。未來的進(jìn)步,很可能來自更聰明的上下文工程方式,或者讓模型自己參與上下文管理。模型當(dāng)然也會(huì)繼續(xù)變強(qiáng),越來越擅長(zhǎng)長(zhǎng)時(shí)序任務(wù)。

  我目前思考最多的一個(gè)問題是:我們看到的大多數(shù) harness 都是高度偏向編程任務(wù)的。這是長(zhǎng)任務(wù) Agent 最先爆發(fā)的領(lǐng)域。但即便是在非編程任務(wù)中,你也可以認(rèn)為:寫代碼本身是一種非常強(qiáng)的、通用的工具。

  主持人:我本來想問你:編程智能體(coding agents)到底算不算一個(gè)子類別?還是說編程智能體就是智能體本身?換句話說,智能體的工作,本質(zhì)上是想辦法讓計(jì)算機(jī)去做一些有用的事情,而“寫代碼”本來就是讓計(jì)算機(jī)做有用事情的一種很好的方式。

  Harrison Chase:我也不確定。但有一點(diǎn)我非常非常堅(jiān)信:現(xiàn)階段只要你在做長(zhǎng)時(shí)序智能體,你就必須給它文件系統(tǒng)的訪問能力。因?yàn)槲募到y(tǒng)在“上下文管理”方面能做的事情太多了。比如我們說 compaction(上下文壓縮),一種策略是把內(nèi)容總結(jié)掉,但把完整的消息都放進(jìn)文件系統(tǒng)里,這樣如果智能體后續(xù)需要回查,它還能查到。

  另一種策略是,當(dāng)你遇到很大的工具調(diào)用結(jié)果時(shí),不要把全部?jī)?nèi)容都塞回模型上下文里;你可以把結(jié)果放進(jìn)文件系統(tǒng),然后讓智能體需要的時(shí)候再去查。

  而這些操作,其實(shí)不一定需要真實(shí)的文件系統(tǒng),也不一定要讓它真的去寫代碼。我們有一個(gè)概念叫“虛擬文件系統(tǒng)”:它底層可能只是 Postgres 之類的存儲(chǔ),擴(kuò)展性更強(qiáng)。當(dāng)然,“真實(shí)代碼”能做的事情,虛擬文件系統(tǒng)做不了。比如你沒法在虛擬文件系統(tǒng)里直接運(yùn)行代碼。所以寫腳本在很多場(chǎng)景下確實(shí)非常有用。

  我也認(rèn)為編程智能體有潛力成為通用智能體,但我不確定這是否意味著“今天的編程智能體”就是通用智能體——如果你能理解我這句話。因?yàn)槲矣X得現(xiàn)在很多編程智能體還是為編程任務(wù)做了大量?jī)?yōu)化的。

  所以“一個(gè)通用智能體可能長(zhǎng)得像編程智能體”,但反過來,“今天的編程智能體就是通用智能體”,這件事我并不確定。

  傳統(tǒng)軟件面臨的挑戰(zhàn)

  主持人:那我們能不能轉(zhuǎn)到另一個(gè)話題:構(gòu)建長(zhǎng)時(shí)序智能體和構(gòu)建傳統(tǒng)軟件之間的差異?你能不能先描述一下“1.0 時(shí)代”的軟件開發(fā)棧是什么樣的,然后說說現(xiàn)在到底哪里不一樣?我記得你在 X 上寫過一篇很不錯(cuò)的文章,也許你可以總結(jié)一下核心結(jié)論。

  

  來源:https://x.com/hwchase17/status/2010044779225329688

  Harrison Chase:我這段時(shí)間一直在反復(fù)想這個(gè)問題:我們經(jīng)常說“做智能體和做軟件是不同的”,而且很多人也同意。但問題是:到底哪里不同?

  我覺得很容易、也很偷懶地說“不同”,但“具體不同在哪里”才是關(guān)鍵。下面這些可能聽起來很顯然,但也許顯然是好事,希望它們不太有爭(zhēng)議。

  當(dāng)你在做傳統(tǒng)軟件時(shí),所有邏輯都寫在代碼里,你能直接在軟件代碼中看到它。但當(dāng)你在做智能體時(shí),你的應(yīng)用如何工作的“邏輯”,并不全部在代碼里,其中很大一部分來自模型本身。

  這意味著:你不能只看代碼,就判斷智能體在某個(gè)具體場(chǎng)景下會(huì)做什么。你必須真的把它跑起來。而我認(rèn)為,這就是最大的不同:我們引入了這種非確定性系統(tǒng),它是一個(gè)黑箱,它在代碼之外。我覺得這就是核心差異。

  一個(gè)直接后果是:為了弄清楚應(yīng)用到底在做什么,你不能看代碼,你必須看它在真實(shí)運(yùn)行中做了什么。這也是為什么我們做的產(chǎn)品里,最受歡迎的之一是LangSmith。LangSmith 的一個(gè)核心能力是tracing(追蹤 / 執(zhí)行軌跡)。為什么 trace 這么受歡迎?因?yàn)樗馨阎悄荏w每一步內(nèi)部發(fā)生的事情都清清楚楚地展示出來。

  而這跟傳統(tǒng)軟件里的 trace 又不一樣。傳統(tǒng)軟件里,你的系統(tǒng)在那邊跑,它會(huì)吐出很多日志和事件;你通常是在出現(xiàn)錯(cuò)誤時(shí)才去看,而且你不需要“每一步的全部細(xì)節(jié)”。而且本地開發(fā)時(shí),你可能直接打個(gè)斷點(diǎn)就夠了;很多時(shí)候日志追蹤是上線到生產(chǎn)環(huán)境后才會(huì)更重度開啟。但在智能體里,人們從一開始就會(huì)用 trace 來理解“底層到底在發(fā)生什么”。

  而且它在智能體里的影響力,遠(yuǎn)大于在單一 LLM 應(yīng)用里的影響力。因?yàn)樵趩我?LLM 應(yīng)用里,如果模型回答得不好,你知道你的 prompt 是什么,也知道輸入上下文是什么(由代碼決定),然后你得到一個(gè)輸出。

  但在智能體里,它在循環(huán)中運(yùn)行、不斷重復(fù)。你并不知道第 14 步時(shí)上下文里到底有什么,因?yàn)榍懊?13 步可能會(huì)把任意東西拉進(jìn)上下文。所以,“上下文工程(Context Engineering)”真的是一個(gè)非常好的詞。我真希望這是我發(fā)明的。它幾乎完美描述了我們?cè)?LangChain 做的一切——只是當(dāng)時(shí)我們并不知道這個(gè)術(shù)語已經(jīng)存在。

  trace 的價(jià)值就在于:它能直接告訴你此時(shí)此刻上下文里到底有什么,這太重要了。那這又意味著什么?這意味著:對(duì)傳統(tǒng)軟件來說,“真相的來源(source of truth)”在代碼里。但對(duì)智能體來說,真相來源變成了代碼與 trace 的組合——而 trace 是你能看到真相的一部分地方。

  從技術(shù)上說,真相當(dāng)然也“存在于模型的數(shù)百萬參數(shù)里”,但你基本沒法直接對(duì)參數(shù)做什么。所以現(xiàn)實(shí)上,trace 就成了你可以抓住的“事實(shí)載體”。

  因此,trace 也會(huì)成為你開始思考測(cè)試的地方。你仍然可以對(duì) harness 的某些部分做單元測(cè)試,也可以離線做一些 unit test,但要獲得真正的測(cè)試用例,你很可能需要用 trace 來構(gòu)建。而且在智能體里,在線測(cè)試(online testing)可能比傳統(tǒng)軟件更重要,因?yàn)樾袨椴粫?huì)在離線環(huán)境里完整顯現(xiàn)出來,只有在真實(shí)世界輸入驅(qū)動(dòng)下、系統(tǒng)被真正使用時(shí),行為才會(huì)“涌現(xiàn)”。

  我們也看到 trace 正在成為團(tuán)隊(duì)協(xié)作的中心:如果出了問題,不再是“去 GitHub 看代碼”,而是“去看那條 trace”。我們?cè)陂_源項(xiàng)目里也一樣。有人說:“Deep Agents 這里跑偏了,發(fā)生了什么?”我們的第一反應(yīng)是:“把 LangSmith trace 發(fā)給我們?!比绻麤]有 trace,我們基本沒法幫你 debug。過去大家會(huì)說“把代碼給我看看”,但現(xiàn)在已經(jīng)轉(zhuǎn)變了。

  這就是我寫在 X 上那篇文章的核心內(nèi)容,反饋很好。我也還在琢磨怎么把它表達(dá)得更精確,但我覺得這一點(diǎn)很關(guān)鍵。

  另外一個(gè)點(diǎn)我也還在繼續(xù)想:我覺得構(gòu)建智能體是一個(gè)更偏迭代式的過程。

  我們過去也會(huì)這么說,但我以前會(huì)有點(diǎn)翻白眼,因?yàn)檐浖_發(fā)本來也是迭代式的:你發(fā)布、收反饋、不斷迭代,這就是軟件開發(fā)的常態(tài)。但我覺得差別在于:在傳統(tǒng)軟件里,你的迭代是圍繞“你希望軟件做什么”來進(jìn)行的。你有一個(gè)想法,你發(fā)布,你收反饋。比如“這個(gè)按鈕讓人困惑”,或者“用戶其實(shí)想做 X 而不是 Y”。但你在發(fā)布之前,其實(shí)你是知道軟件會(huì)怎么運(yùn)行的。

  但在智能體里,你在發(fā)布之前并不知道它到底會(huì)怎么做。你當(dāng)然有一個(gè)預(yù)期,但你并不能在發(fā)布前真正確定它會(huì)做什么。因此,為了讓它更準(zhǔn)確、讓它更“對(duì)”、讓它能通過某種“概念上的單元測(cè)試”,你需要更多輪次的迭代。

  在這個(gè)基礎(chǔ)上,我也認(rèn)為記憶(memory)非常重要。因?yàn)橛洃浘褪窃趶倪@些交互中學(xué)習(xí)。如果你的開發(fā)過程變得更迭代、更難,那么作為開發(fā)者,我為了讓系統(tǒng)表現(xiàn)正確,可能需要反復(fù)改系統(tǒng) prompt——這種頻率甚至可能比我改代碼還高。

  這就是記憶進(jìn)入的地方:如果系統(tǒng)能夠以某種方式自己學(xué)習(xí),那就能減少開發(fā)者必須進(jìn)行的迭代次數(shù),讓構(gòu)建這類智能體變得更容易。

  所以,這是我認(rèn)為“構(gòu)建智能體確實(shí)不同于構(gòu)建軟件”的另一個(gè)角度。我也承認(rèn),這么說有點(diǎn)老套,所以我一直在逼自己想清楚“到底不同在哪里”,目前我總結(jié)出來的就是這兩點(diǎn)。

  主持人:我也很想追問這一點(diǎn)。現(xiàn)在公開市場(chǎng)上有一個(gè)很大的爭(zhēng)論:現(xiàn)有的軟件公司還能不能熬過去?如果類比當(dāng)年從本地部署軟件(on-prem)轉(zhuǎn)向云(cloud),實(shí)際上真正成功轉(zhuǎn)型的公司并不多,因?yàn)槭聦?shí)證明,“做云軟件”和“做本地軟件”確實(shí)差異很大。你現(xiàn)在處在“人們?nèi)绾斡?AI 構(gòu)建產(chǎn)品”的核心地帶。你怎么看這件事?

  *** 我不是要問公開市場(chǎng)的投資問題,而是想問:這個(gè)變化到底有多大?你有沒有看到很多人:過去很擅長(zhǎng)“舊方法做軟件”,現(xiàn)在也能很擅長(zhǎng)“新方法做軟件”?還是說更像是:你要么在“新方法”里長(zhǎng)大,要么就很難真正理解它?你覺得人能跨越這個(gè)鴻溝嗎?

  Harrison Chase:我注意到現(xiàn)在有很多年輕創(chuàng)始人,這讓我覺得,也許年輕人因?yàn)闆]有太多對(duì)“舊軟件開發(fā)方式”的先入之見,反而可以更快把這些東西學(xué)起來、用起來。而且我們確實(shí)一再聽到一個(gè)現(xiàn)象:很多在做 agent engineering 的團(tuán)隊(duì)成員,反而是更初級(jí)的開發(fā)者、更初級(jí)的構(gòu)建者——他們確實(shí)沒有那些先入之見。我們內(nèi)部的應(yīng)用 AI 團(tuán)隊(duì),確實(shí)整體更偏年輕一些。我覺得這里面既有“人的因素”,也有“公司的因素”。

  先說公司層面:數(shù)據(jù)依然非常非常非常有價(jià)值。如果你從 harness 的角度去看——順便說一句,我其實(shí)不認(rèn)為長(zhǎng)期來看大多數(shù)人都會(huì)自己去寫 harness,因?yàn)樗茸?framework 難太多了。所以我覺得大家最終會(huì)用我們提供的 harness,或者用別人的。

  那一個(gè) harness 里面有什么?主要就是:prompt、指令,以及它連接的工具。而現(xiàn)有公司在這方面最大的資產(chǎn)之一,是他們已經(jīng)擁有數(shù)據(jù)和 API。如果你過去在這塊做得不錯(cuò),那么把這些東西接入到 agent 上,其實(shí)會(huì)非常容易產(chǎn)生真實(shí)價(jià)值。

  我們前陣子和金融行業(yè)的人聊,他們就說:數(shù)據(jù)的價(jià)值只會(huì)越來越高、越來越高、越來越高。所以如果你是一個(gè)傳統(tǒng)軟件廠商,你手上有這些高價(jià)值數(shù)據(jù),你應(yīng)該能夠把它暴露給智能體,讓智能體去用,從中拿到很大的收益。

  不過這里還有另一部分:關(guān)于“如何使用這些數(shù)據(jù)”的指令(instructions),這一塊可能更偏“新增”。

  你作為軟件廠商也許一直對(duì)“怎么用這些數(shù)據(jù)”有一些想法,但你并沒有把這些想法系統(tǒng)化、固化成可執(zhí)行的“操作說明”,因?yàn)檫^去這件事更多是由人來完成的——很多智能體現(xiàn)在在做的事情,本來就是人類會(huì)做的事情。

  你當(dāng)然會(huì)給人配工具,但你以前不會(huì)、或者也很難成功地把它完全自動(dòng)化。而到了“智能體”這一代,這部分才真正變得可行。所以我覺得這塊是新的。

  我們也看到大量需求來自“垂直領(lǐng)域創(chuàng)業(yè)公司”。Rogo 就是一個(gè)很好的例子:他們團(tuán)隊(duì)有人有金融行業(yè)經(jīng)驗(yàn),把這種行業(yè)知識(shí)帶進(jìn)了智能體系統(tǒng)里,而這之所以有效,是因?yàn)楹芏嘀悄荏w的驅(qū)動(dòng)力來自“知識(shí)”——但不是那種通用世界知識(shí),而是如何執(zhí)行特定流程、特定模式的知識(shí)。

  所以問題就變成:做傳統(tǒng)軟件的人是不是做智能體的合適人選?我覺得我們確實(shí)看到很多非常資深的開發(fā)者在采用 agentic coding,所以某種程度上這更像是“心態(tài)問題”。但確實(shí)也可能會(huì)呈現(xiàn)出一種“年輕化傾向”。而公司層面,則很大程度取決于它手上的數(shù)據(jù)資產(chǎn)。

  主持人:所以看起來,你認(rèn)為 trace 是這個(gè)新世界里 agent 開發(fā)的核心“產(chǎn)物”,LangSmith 在這方面幫助很大。那你覺得還有哪些核心的“產(chǎn)物”——或者說,可能“產(chǎn)物”這個(gè)詞不對(duì),應(yīng)該說組件(components)?

  Harrison Chase:對(duì),組件。我覺得構(gòu)建軟件與構(gòu)建智能體之間另一個(gè)差異是:評(píng)估軟件時(shí),你可以相當(dāng)可靠地依賴程序化測(cè)試和斷言。但智能體做的很多事情,本質(zhì)上是“人類會(huì)做的事情”。因此要評(píng)估它,你必須把人的判斷引入進(jìn)來。

  這也是我們?cè)?LangSmith 里努力解決的問題之一:你已經(jīng)有了這些 traces,那么你怎么把人類判斷帶到 traces 上?最直接的方法當(dāng)然就是:把人引進(jìn)來。所以我們也看到數(shù)據(jù)標(biāo)注類創(chuàng)業(yè)公司做得很好。我們?cè)?LangSmith 里有一個(gè)概念叫 annotation queues(標(biāo)注隊(duì)列),就是把人帶進(jìn)來參與。因此,實(shí)際的、真實(shí)的人類判斷,是其中非常重要的一部分。

  主持人:這里的“人工標(biāo)注”的 trace,比如,智能體做了這些步驟,這是好還是不好。

  Harrison Chase:有時(shí)候,人會(huì)給自然語言反饋:這很好、這很差、這里應(yīng)該怎么做。有時(shí)候,人會(huì)直接“糾正它”:把正確步驟完整地寫出來。這具體怎么做取決于用例,而且對(duì)做 RL 的模型公司,和對(duì)做 agent 應(yīng)用的公司來說,也可能不一樣。但核心就是:把人類判斷帶進(jìn)來。

  同時(shí),我們也看到另一條路:嘗試為這種人類判斷建立一些“代理指標(biāo)”(proxy)。這就是 LLM-as-a-Judge 這類方法的來源:你可以跑一個(gè) LLM 或其他模型,讓它承擔(dān)某種“類似人類判斷”的角色,去給那些本來需要人類判斷的東西打分。

  我們一直在思考的一件事是:怎么讓“構(gòu)建 judge”這件事變得容易。因?yàn)?judge 的關(guān)鍵很大一部分在于:它必須和你的人的判斷、人類偏好保持一致。如果做不到,那你的 grader(評(píng)分器)就很糟糕。

  所以我們?cè)?LangSmith 里做了一個(gè)概念叫align evals:人類先去標(biāo)注一些 traces,然后基于這些標(biāo)注,構(gòu)建一個(gè) LLM judge,使它在這些樣本上被校準(zhǔn)(calibrated)。

  因?yàn)殛P(guān)鍵就在于:你要把人類判斷引入進(jìn)來;如果你要用 proxy 來替代它,那就必須確保這個(gè) proxy 校準(zhǔn)得足夠好。

  主持人:有意思。我記得我們最開始和你做業(yè)務(wù)合作的時(shí)候,還在郵件里討論過:LLM-as-a-Judge 到底是否可行。看起來它已經(jīng)進(jìn)步很多了。

  Harrison Chase:是的。LM-as-a-Judge 其實(shí)有幾個(gè)不同層面的用法。

  最常見的一種,是用于 eval:拿一條 trace,直接給它一個(gè)分?jǐn)?shù),比如 1 到 0,或者 0 到 10。這個(gè)我認(rèn)為是可行的,而且很多人確實(shí)在做。他們會(huì)離線做,也會(huì)在線做,因?yàn)橛行┡袛嗖⒉恍枰?ground truth(標(biāo)準(zhǔn)答案)。

  但我覺得另外一個(gè)更重要的場(chǎng)景,是你在 coding agents 里也能看到的:coding agent 往往會(huì)先工作到某一步,然后遇到錯(cuò)誤,觸發(fā)糾錯(cuò)。它實(shí)際上是在“評(píng)判自己剛才做的工作”。我們也在 memory 上看到同樣的模式:記憶很大一部分就是反思 traces,然后更新某些東西。所以問題是:LLM 能不能去反思 traces——無論是它自己的 trace、以前 session 的 trace,還是別人的 trace?我覺得完全可以。我們?cè)?eval、糾錯(cuò)、記憶里到處都能看到這種模式,本質(zhì)上其實(shí)是一回事。

  Eval 是 RL 的獎(jiǎng)勵(lì)信號(hào),

  還是工程反饋機(jī)制?

  主持人:我明白了。那接下來就很自然會(huì)問:你有了所有 traces,也有了 eval。那么這些 eval 到底是什么?它是強(qiáng)化學(xué)習(xí)的 reward signal?還是一種反饋機(jī)制,讓工程師去改進(jìn) harness、讓 agent 工程師去優(yōu)化 harness?

  Harrison Chase:因?yàn)楝F(xiàn)在大家都不再手動(dòng)寫太多代碼了,大家都在用這些 agent 工具。我們觀察到一個(gè)很重要的模式:我們有一個(gè) LangSmith MCP,也有 LangSmith fetch(一個(gè) CLI)。因?yàn)?coding agents 特別擅長(zhǎng)用 CLI。你把這些給智能體,它就能把 traces 拉下來,診斷哪里出了問題,然后把這些 traces 帶進(jìn)代碼庫里,從而修復(fù)它。這是我們正在看到的真實(shí)模式,而且我們非常非常非常想支持這種模式。

  所以在這一點(diǎn)上,相比“用 eval 做強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)信號(hào)”,我對(duì)“把 eval 當(dāng)作工程反饋、用于改 harness”的路徑更樂觀——至少對(duì)今天做 agent 應(yīng)用的公司來說是這樣。

  主持人:這聽起來像是遞歸自我改進(jìn)啊。

  Harrison Chase:我覺得是,但還是有一個(gè)人類在環(huán)。

  回到前面那個(gè)點(diǎn):當(dāng)它產(chǎn)出“初稿”時(shí)效果最好——它改 prompt,然后人類 review,這能讓系統(tǒng)保持不跑偏。但我們確實(shí)……我們最近發(fā)布了 LangSmith Agent Builder,這是一個(gè) no-code 的 agent 構(gòu)建方式。其中一個(gè)很酷的功能就是 memory。

  現(xiàn)在 memory 的工作方式是這樣的:當(dāng)你和 agent 交互時(shí)(注意它還不是后臺(tái)自動(dòng)跑的那種;它不會(huì)自己拉 traces),如果你對(duì)它說:“你不該做 X,你應(yīng)該做 Y”,它就會(huì)去改自己的指令——這些指令本質(zhì)上就是文件——然后直接編輯這些文件。這樣未來它就會(huì)按新的方式表現(xiàn)。

  這也是一種“自我改進(jìn)”的形式。我們確實(shí)還想加入另一種機(jī)制:比如每天晚上跑一次任務(wù),查看當(dāng)天所有 traces,更新自己的指令。

  主持人:就是那種“做夢(mèng)”的機(jī)制。

  Harrison Chase:對(duì),“睡眠時(shí)間算力(sleep-time compute)”。

  記憶與自我改進(jìn)會(huì)成為護(hù)城河嗎?

  主持人:我們?cè)俣嗔牧奈磥怼D悻F(xiàn)在最興奮的是什么?聽起來你聊了很多 memory。

  Harrison Chase:我很看好 memory。我覺得讓智能體去改善自己,這非???,而且在很多場(chǎng)景下也很有用。

  但也不是所有場(chǎng)景都用得上。比如 ChatGPT 加了 memory 功能,我其實(shí)用得不多,我也不覺得它顯著增加了我對(duì)產(chǎn)品的粘性。我覺得原因之一是:我去 ChatGPT 時(shí),大多數(shù)問題都是一次性的。我不太會(huì)反復(fù)做同一件事:我可能問軟件,也可能問吃的、旅行……都很零散。

  但在 agent builder 里,你通常是為特定任務(wù)構(gòu)建特定工作流。比如我有一個(gè) email agent。而且我其實(shí)……它已經(jīng)給我發(fā)郵件兩年了。我之前在 agent builder 之外就有一個(gè) email agent,它帶有 memory。后來我們做了 agent builder,我想把它遷移進(jìn)去,但它沒有我之前的那些 memories。即便它的起始 prompt 一樣、工具也一樣,但因?yàn)槿绷擞洃?,它現(xiàn)在的體驗(yàn)就明顯差很多。我到現(xiàn)在都還沒完全切過去,因?yàn)樗F(xiàn)在確實(shí)不如之前那個(gè)好用——說白了,它現(xiàn)在“有點(diǎn)爛”。

  當(dāng)然,如果我持續(xù)和它交互,它會(huì)變好,它會(huì)不那么爛。但這也恰恰說明:memory 可能會(huì)成為真正的護(hù)城河(moat)。而且我絕對(duì)相信,我們已經(jīng)到了一個(gè)階段:LLM 可以看 traces,然后改變自己代碼里的某些東西。問題在于:怎么把這件事做得安全、并且在用戶層面可接受。但我認(rèn)為,在一些特定場(chǎng)景里(不是所有場(chǎng)景),我們會(huì)越來越多看到這種能力。至于 ChatGPT 這種通用聊天產(chǎn)品,我仍然不確定這種形態(tài)的 memory 是否有用,至少目前我不確定。

  主持人:你覺得和長(zhǎng)時(shí)序智能體一起工作的 UI 會(huì)如何演化?

  Harrison Chase:我覺得大概率需要同步模式(sync)和異步模式(async)。

  長(zhǎng)時(shí)序智能體運(yùn)行時(shí)間可能很長(zhǎng),默認(rèn)應(yīng)該是異步管理:如果它要跑一天,你不會(huì)一直坐在那里等它結(jié)束。你很可能會(huì)啟動(dòng)一個(gè)、再啟動(dòng)一個(gè)、同時(shí)跑很多個(gè)。所以這里會(huì)涉及到異步管理:我覺得像 Linear、Jira、看板,甚至 email,都可以作為 UI 設(shè)計(jì)的參考——如何去管理一堆異步運(yùn)行的 agent。

  但與此同時(shí),很多時(shí)候你又會(huì)想切換到同步交流。因?yàn)?agent 最后給你返回一份研究報(bào)告,你可能需要立刻指出:它這里寫錯(cuò)了,你要給反饋。聊天界面在這方面其實(shí)已經(jīng)挺不錯(cuò)的。

  我唯一想補(bǔ)充的是:現(xiàn)在很多 agent 不僅是在“對(duì)話”,它還會(huì)去修改文件系統(tǒng)里的文件。所以你必須有一種方式去查看“狀態(tài)”(state)——也就是它改了什么。

  這在編程領(lǐng)域尤其明顯:IDE 依然被使用,是因?yàn)楫?dāng)你想手動(dòng)改代碼時(shí),你需要看見那個(gè)“當(dāng)前狀態(tài)”。即便我啟動(dòng) Claude Code,它跑完后,我有時(shí)也會(huì)打開來看它到底寫了什么代碼。所以“能看到狀態(tài)”這件事很重要。

  Anthropic 在 Claude “co-work”(這里指那類協(xié)作式工作流)里做了一個(gè)很酷的設(shè)計(jì):你設(shè)置它時(shí)要選擇一個(gè)目錄,等于你在告訴它:“這就是你的環(huán)境。”

  這在編程里當(dāng)然也是常態(tài):你打開 IDE 到某個(gè)目錄。但我覺得把它明確成一個(gè)心智模型很有幫助:這就是你的 workspace(工作區(qū))。

  這個(gè) workspace 也不一定非得是本地目錄:它可以是 Google Drive、Notion 頁面,或者任何能存儲(chǔ)狀態(tài)的地方。你和 agent 就是在這個(gè)狀態(tài)上協(xié)作:你啟動(dòng)它,讓多個(gè)任務(wù)異步跑;然后切到同步模式,在 chat 里和它討論,但同時(shí)你還能看到它正在協(xié)作的“狀態(tài)”。這就是我目前看到的形態(tài)。

  主持人:所以這也就是你說的“agent inbox”的想法:為了進(jìn)入 sync 模式,agent 需要能聯(lián)系到你。

  Harrison Chase:對(duì),沒錯(cuò)。我們大概一年前發(fā)布過 agent inbox,理念是“ambient agents”:它們?cè)诤笈_(tái)跑,必要時(shí)來 ping 你。但第一版其實(shí)沒有 sync 模式:它 ping 你,你回一句,然后你就等它下一次再 ping 你。

  但很多時(shí)候,我切到郵件去回復(fù)它時(shí),我其實(shí)只回很短的話,而且我不想再切出去然后干等——我(對(duì)方)很重要,所以我更想直接進(jìn)入一種“同步對(duì)話”的模式,跟 agent 把這個(gè)問題當(dāng)場(chǎng)聊完。所以我們后來做了一個(gè)關(guān)鍵改動(dòng):當(dāng)你打開 inbox 時(shí),會(huì)直接進(jìn)入 chat,而 chat 是非常同步的。這是一個(gè)很大的 unlock(突破點(diǎn))。

  我現(xiàn)在認(rèn)為:只有 async 模式,目前還不太夠。也許未來如果 agent 強(qiáng)到你幾乎不用糾正它,那么純異步會(huì)更可行。但至少現(xiàn)在,我們看到人們?cè)?async 和 sync 之間來回切換。

  主持人: 你怎么看 code sandboxes(代碼沙箱)?是不是每個(gè) agent 最終都會(huì)配一個(gè) sandbox?也包括“能用電腦”、能上網(wǎng)用瀏覽器這種能力?

  Harrison Chase:這是個(gè)特別好的問題,我們也一直在想。就目前的經(jīng)驗(yàn)來看,“寫代碼 / 跑代碼”這條路明顯比“直接操作瀏覽器”更成熟、更好用。

  所以短期內(nèi),如果要在這些能力里挑一個(gè)最可能成為標(biāo)配的,我更看好的是代碼執(zhí)行(code execution)——也就是給 agent 一個(gè)能安全運(yùn)行腳本、驗(yàn)證結(jié)果的環(huán)境。

  另外,文件系統(tǒng)(file system)我?guī)缀跏恰皥?jiān)定派”:不管是本地目錄、還是背后用數(shù)據(jù)庫實(shí)現(xiàn)的“虛擬文件系統(tǒng)”,agent 總得有個(gè)地方能存狀態(tài)、存中間結(jié)果、隨時(shí)回查,這對(duì)上下文管理太關(guān)鍵了。比如:

  做 compaction(上下文壓縮)時(shí),把完整內(nèi)容丟到文件里,需要再查就去讀;

  工具調(diào)用返回特別長(zhǎng)時(shí),不塞進(jìn)上下文,改成寫文件、讓 agent 自己按需讀取。

  至于“coding”(讓 agent 真正去寫代碼),我沒那么絕對(duì),但我大概 90% 站在“需要”這一邊。因?yàn)楹芏嚅L(zhǎng)尾任務(wù)里,寫腳本依然是最通用、最強(qiáng)的手段——你很難找到同等級(jí)的替代品。

  當(dāng)然也可能出現(xiàn)另一類場(chǎng)景:如果你做的是高度重復(fù)、流程固定的事情,未必每次都要寫很多代碼;但即使這樣,文件系統(tǒng)仍然重要,因?yàn)橹貜?fù)流程會(huì)不斷產(chǎn)生上下文和狀態(tài),你還是要做上下文工程。

  再說瀏覽器使用(browser use):從我們目前看到的效果來說,模型還不夠穩(wěn)定。也許可以讓 coding agent 通過 CLI 的方式“間接”完成一些瀏覽器相關(guān)任務(wù)(算是一種近似解),我確實(shí)見過一些挺酷的實(shí)現(xiàn)。

  而所謂 computer use(直接操作電腦界面)則更像是介于兩者之間的混合形態(tài),目前還有不少不確定性。

  所以總結(jié)一下:我非常喜歡 code sandboxes,我覺得它會(huì)成為 agent 能力棧里很關(guān)鍵的一塊。

  主持人:太棒了。Harrison,真的非常感謝你今天來參加節(jié)目。你一直都能在 agent 這條路上看到未來,能和你聊“上下文工程如何演化到今天的 harness 與長(zhǎng)時(shí)序智能體”,真的特別過癮。感謝你推動(dòng)這個(gè)未來,也感謝你一直愿意和我們聊這些。

  Harrison Chase:謝謝邀請(qǐng)。我希望未來還能再來一次,然后證明我今天說的全部都是錯(cuò)的。因?yàn)轭A(yù)測(cè)未來真的很難。

  https://www.youtube.com/watch?v=vtugjs2chdA&t=1s

  聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
烏克蘭嘗試成為美國盟友,俄羅斯向伊朗提供情報(bào)

烏克蘭嘗試成為美國盟友,俄羅斯向伊朗提供情報(bào)

一種觀點(diǎn)
2026-03-07 11:53:21
重要信息只說了60%?比亞迪閃充的殺傷力,這次比華為大

重要信息只說了60%?比亞迪閃充的殺傷力,這次比華為大

路咖汽車
2026-03-06 10:15:12
美伊打了足足6天,朝鮮突然發(fā)射巡航導(dǎo)彈,特朗普收到一封挑戰(zhàn)書

美伊打了足足6天,朝鮮突然發(fā)射巡航導(dǎo)彈,特朗普收到一封挑戰(zhàn)書

軍機(jī)Talk
2026-03-05 18:22:21
魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

靜若梨花
2026-03-06 00:05:09
樂道月銷量不到3000臺(tái),L90怎么也熄火了?

樂道月銷量不到3000臺(tái),L90怎么也熄火了?

《新車新技術(shù)》
2026-03-06 14:02:15
央視緊急揭露:全是假貨!別再往家里搬了,很多人天天在用!

央視緊急揭露:全是假貨!別再往家里搬了,很多人天天在用!

古事尋蹤記
2026-03-07 07:07:35
撿漏時(shí)刻!蘋果15款產(chǎn)品停產(chǎn),第三方平臺(tái)已大幅降價(jià)

撿漏時(shí)刻!蘋果15款產(chǎn)品停產(chǎn),第三方平臺(tái)已大幅降價(jià)

環(huán)球網(wǎng)資訊
2026-03-07 11:23:32
激戰(zhàn)7天伊朗殺紅了眼,神秘軍隊(duì)攜帶中國武器入場(chǎng),特朗普失算了

激戰(zhàn)7天伊朗殺紅了眼,神秘軍隊(duì)攜帶中國武器入場(chǎng),特朗普失算了

起喜電影
2026-03-06 17:21:47
俄國向伊朗提供美軍坐標(biāo)!戰(zhàn)略信號(hào)還是象征性支援?

俄國向伊朗提供美軍坐標(biāo)!戰(zhàn)略信號(hào)還是象征性支援?

咣當(dāng)?shù)厍?/span>
2026-03-07 11:55:08
陳昌浩回國后默默無聞,前妻任副部長(zhǎng),兒子卻是萬人敬仰的大人物

陳昌浩回國后默默無聞,前妻任副部長(zhǎng),兒子卻是萬人敬仰的大人物

比利
2026-03-04 10:59:11
我想要老板娘不打碼的圖片,我該怎么說?

我想要老板娘不打碼的圖片,我該怎么說?

太急張三瘋
2026-03-07 10:26:24
中國貨船通過霍爾木茲海峽,伊朗:僅針對(duì)美以歐…

中國貨船通過霍爾木茲海峽,伊朗:僅針對(duì)美以歐…

觀察者網(wǎng)
2026-03-05 18:05:08
賭徒的結(jié)局真的是一無所有嗎 網(wǎng)友講述百億老板到騙他300萬過程

賭徒的結(jié)局真的是一無所有嗎 網(wǎng)友講述百億老板到騙他300萬過程

侃神評(píng)故事
2026-03-07 07:15:03
F1澳大利亞三練:拉塞爾最快,安東內(nèi)利嚴(yán)重碰撞,比賽兩度紅旗

F1澳大利亞三練:拉塞爾最快,安東內(nèi)利嚴(yán)重碰撞,比賽兩度紅旗

懂球帝
2026-03-07 11:03:08
新娘臨時(shí)要10萬下車費(fèi),新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

新娘臨時(shí)要10萬下車費(fèi),新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

千秋歷史
2026-02-02 20:23:42
看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

米果說識(shí)
2026-03-06 22:02:30
隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

側(cè)身凌空斬
2026-03-07 06:34:39
伊朗導(dǎo)彈千里獵殺,美驅(qū)逐艦燃起大火?特朗普一句話震動(dòng)全球

伊朗導(dǎo)彈千里獵殺,美驅(qū)逐艦燃起大火?特朗普一句話震動(dòng)全球

東極妙嚴(yán)
2026-03-06 15:09:57
中美國運(yùn)終局:這不是美伊戰(zhàn)爭(zhēng),是大國終極對(duì)決!

中美國運(yùn)終局:這不是美伊戰(zhàn)爭(zhēng),是大國終極對(duì)決!

音樂時(shí)光的娛樂
2026-03-06 19:21:13
馬筱梅的計(jì)劃落空,多失望啊,這潑天的流量被自己弄丟了!

馬筱梅的計(jì)劃落空,多失望啊,這潑天的流量被自己弄丟了!

小娛樂悠悠
2026-03-07 10:02:49
2026-03-07 12:32:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1345文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

中東局勢(shì)動(dòng)蕩 歐盟"女外長(zhǎng)"污蔑:中國趁機(jī)拿捏歐洲

頭條要聞

中東局勢(shì)動(dòng)蕩 歐盟"女外長(zhǎng)"污蔑:中國趁機(jī)拿捏歐洲

體育要聞

塔圖姆歸來:凱爾特人的春之綠

娛樂要聞

周杰倫田馥甄20年地下情 被扒得底朝天

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

時(shí)尚
旅游
藝術(shù)
親子
健康

這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡(jiǎn)單舒適

旅游要聞

別急著登機(jī)!在青島機(jī)場(chǎng),享受麥香與花香的春日微醺之旅

藝術(shù)要聞

Mark Grantham | 城市街景

親子要聞

全國政協(xié)委員厲彥虎:太早學(xué)不該學(xué)的反而害了孩子

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版