網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

告別“語義黑盒”：當(dāng) Agent 走進(jìn)生產(chǎn)環(huán)境，我們?nèi)绾务Z服它的“不可預(yù)測”？

2026-03-30 16:03:47　來源: InfoQ

北京舉報(bào)

分享至

作者 | QCon 全球軟件開發(fā)大會(huì)

策劃 | Kitty

編輯 | 宇琪

隨著大模型 Agent 從實(shí)驗(yàn)原型邁向核心業(yè)務(wù)生產(chǎn)，工程化的重心正經(jīng)歷從“驗(yàn)證可行性”向“追求確定性”的本質(zhì)躍遷。Agent 的本質(zhì)是“自主”、“涌現(xiàn)”、“不可預(yù)測”——這些詞本身就和“確定性”對(duì)著干。但企業(yè)要的是什么？是可用、是可靠、是出了事能找到原因、是敢把核心業(yè)務(wù)交給它。那么，一個(gè)本質(zhì)上不確定的系統(tǒng)，我們能把它變得足夠“確定”嗎？如果能，靠什么？可觀測性在這個(gè)命題里，扮演的是什么角色？

近日 InfoQ《極客有約》X QCon 直播欄目特別邀請(qǐng)小紅書技術(shù)風(fēng)險(xiǎn)負(fù)責(zé)人孫佳林擔(dān)任主持人，和亞馬遜云科技 Agent 架構(gòu)師章平、階躍星辰安全研發(fā)專家李昌昊、騰訊 SRE 資深工程師陳自欣一起，在2026 年QCon全球軟件開發(fā)大會(huì)（北京站）即將召開之際，共同探討如何構(gòu)建面向 Agent 的全鏈路語義觀測體系。

部分精彩觀點(diǎn)如下：

Agent 的確定性工程，本質(zhì)是追求運(yùn)行過程中的可觀測、可診斷、可干預(yù)與可演進(jìn)。
通過 MCP、日志聚類、Function call 等機(jī)制，可以減少 Context Window 壓力，并提升處理效率。同時(shí)，通過將 Skill、Memory 等能力模塊化組合，構(gòu)建面向具體場景的 Agent，從而限制其行為范圍，降低不確定性。
Agent 系統(tǒng)鏈路復(fù)雜，問題可能來自模型、工具或運(yùn)行環(huán)境，因此需要全鏈路可觀測能力來定位問題?？捎^測性的核心價(jià)值并非追責(zé)，而是定位問題與優(yōu)化系統(tǒng)，從而提高整體可靠性與效率。
如果未來 token 成本大幅下降，使中小企業(yè)甚至個(gè)人都能承擔(dān)，那么可觀測與評(píng)估體系將被更廣泛采用，從而推動(dòng)整個(gè)生態(tài)的發(fā)展。

在 4 月 16-18 日將于北京舉辦的 QCon 全球軟件開發(fā)大會(huì) 上，我們特別設(shè)置了【Agent 可觀測性與評(píng)估工程】專題。該專題將深度拆解生產(chǎn)實(shí)踐案例，幫助構(gòu)建可驗(yàn)證、可演進(jìn)的 Agent 工程體系，推動(dòng) Agent 成為真正可靠的生產(chǎn)系統(tǒng)。查看大會(huì)日程解鎖更多精彩內(nèi)容：https://qcon.infoq.cn/2026/beijing/schedule

以下內(nèi)容基于直播速記整理（經(jīng) InfoQ 不改變?cè)獾那闆r下刪減）。

完整直播回放可查看：https://www.infoq.cn/video/jzSzcszN0dLwv57hvaxk

Agent 的不確定性

孫佳林：請(qǐng)三位老師，各自用一句話，定義一下你們理解的“確定性工程”——它要解決的核心問題是什么？

章平：不確定性本身是客觀存在的，但在業(yè)務(wù)中需要將其轉(zhuǎn)化為可控的確定性。本質(zhì)上，就是對(duì)不確定因素進(jìn)行量化，并通過機(jī)制加以控制，在問題出現(xiàn)后及時(shí)修復(fù)。例如，可以通過概率方法，從模型層面判斷其行為是否符合預(yù)期；若不符合，則借助監(jiān)測手段定位問題，再進(jìn)行修復(fù)，這實(shí)際上是一整套從不確定性中尋找確定性的機(jī)制。

李昌昊：安全從業(yè)者通常面對(duì)大量偽裝進(jìn)程或攻擊行為，有一個(gè)基本原則：不看進(jìn)程的自我聲明，而是觀察其實(shí)際行為進(jìn)行判斷。對(duì) Agent 也不能只看其“說了什么”，而應(yīng)從確定性的角度判斷其實(shí)際行為。例如，當(dāng) Agent 聲稱執(zhí)行成功時(shí)，需要查看其退出碼、返回內(nèi)容是否報(bào)錯(cuò)、資源消耗是否合理等。這些來自內(nèi)核的數(shù)據(jù)是確定的，基于這些確定性基礎(chǔ)，可以緩解 Agent 的不確定性問題。

陳自欣：我認(rèn)為這是一個(gè)具有“矛盾統(tǒng)一”特征的問題，甚至可以上升到哲學(xué)層面。我們希望 Agent 具備高智能，但高智能必然帶來不確定性。企業(yè)中最不確定的因素其實(shí)是人，但企業(yè)仍然需要人或 Agent 來運(yùn)營，核心在于“像管理公司一樣管理 Agent”。首先要做的是觀察 Agent 的行為，這類似于企業(yè)中的早會(huì)、日?qǐng)?bào)、周報(bào)等機(jī)制，用于防止其偏離方向。確定性工程的第一步，是先確認(rèn)其當(dāng)前狀態(tài)，即“先觀測”。

孫佳林：我們追求的確定性，并不是將 Agent 變成簡單的 if-else 程序，也不是要求其永不出錯(cuò)，而是要在其出錯(cuò)或性能下降時(shí)能夠被及時(shí)發(fā)現(xiàn)，并在上線前有依據(jù)地評(píng)估風(fēng)險(xiǎn)。同時(shí)，需要從內(nèi)核層、LLM 調(diào)用層、工具調(diào)用層及效果層進(jìn)行監(jiān)控，在問題出現(xiàn)后快速修復(fù)并持續(xù)迭代優(yōu)化。抽象來看，Agent 確定性工程的本質(zhì)是追求可觀測、可診斷、可干預(yù)與可演進(jìn)。

孫佳林：要讓 Agent 變得“可管理”，我們首先得搞清楚，它的“不確定”到底來自哪里？傳統(tǒng)軟件的不確定性，主要來自代碼 Bug、網(wǎng)絡(luò)抖動(dòng)、硬件故障等。但 Agent 帶來了新的不確定性源頭，三位老師能不能從各自的領(lǐng)域出發(fā)，給我們分享一下“Agent 不確定性”來源于哪些因素？

陳自欣：Agent 的運(yùn)行天然具有不確定性。從底層原理看，調(diào)用大模型時(shí)通常需要設(shè)置 temperature 參數(shù)，該參數(shù)決定模型輸出的隨機(jī)性。如果完全確定，模型將變得僵化，無法完成復(fù)雜決策，因此不確定性首先來源于模型本身。

其次，不確定性還來自模型運(yùn)行過程。例如“模型降智”這一現(xiàn)象，在 LLM 普及之前并不常見，但現(xiàn)在可能由于算力、推理框架缺陷或 API 供應(yīng)商問題導(dǎo)致模型性能下降。此外，模型供應(yīng)商的不穩(wěn)定性也會(huì)帶來影響，例如服務(wù)連接失敗等情況頻繁出現(xiàn)。

第四類不確定性來自長任務(wù)執(zhí)行過程中的偏移，例如上下文引導(dǎo)不足，導(dǎo)致模型逐漸偏離目標(biāo)；以及環(huán)境、工具（Skills）等因素也會(huì)引入不確定性。

李昌昊：我從運(yùn)行與運(yùn)維角度補(bǔ)充幾點(diǎn)。首先，運(yùn)行時(shí)環(huán)境具有不確定性。與傳統(tǒng)軟件運(yùn)行在固定鏡像不同，Agent 常在沙箱中執(zhí)行，環(huán)境可能每次不同；其工具選擇也不固定，甚至?xí)?dòng)態(tài)安裝依賴，從而引入額外不確定性。此外，沙箱狀態(tài)可能受之前任務(wù)影響，導(dǎo)致同一命令在不同環(huán)境中結(jié)果不同，這是 Agent 特有的問題。

其次，可觀測性存在斷層。Agent 與運(yùn)行時(shí)之間缺乏統(tǒng)一鏈路，導(dǎo)致難以將 Agent 行為與運(yùn)行結(jié)果關(guān)聯(lián)，這在傳統(tǒng)軟件中較少見。

第三，可觀測能力本身存在限制。例如 Agent 與大模型之間通常采用 HTTPS 加密，APM 或防火墻難以攔截；沙箱執(zhí)行過程也被隔離，難以從底層監(jiān)控其行為。這些都會(huì)成為不確定性的來源。

章平：在工具使用方面存在不確定性。例如某旅游客戶在修改提示詞后，工具調(diào)用率顯著下降，雖然對(duì)話表面正常，但 Agent 選擇了通用搜索工具而非合適工具，導(dǎo)致體驗(yàn)下降。此外，在評(píng)估中使用“LLM as judge”方法，即用模型評(píng)估模型，本身也是用不確定性評(píng)估不確定性，會(huì)進(jìn)一步放大問題，這類似于測量對(duì)系統(tǒng)本身的影響。

孫佳林：Agent 的不確定性不僅來自模型，還來自推理過程、上下文漂移、外部工具依賴及運(yùn)行時(shí)環(huán)境等。此外，一個(gè)容易被忽視的問題是效果評(píng)估體系的缺失，以及“語義黑盒”的存在。那么將黑盒轉(zhuǎn)為可觀測的白盒，是要解決的關(guān)鍵問題。

可觀測如何構(gòu)建確定性

孫佳林：章平老師，在 AWS 的大規(guī)模實(shí)踐中，你們觀測 Agent，最核心的幾類數(shù)據(jù)是什么？是傳統(tǒng)的 QPS、延遲、錯(cuò)誤率，還是需要一些“ Agent 特有”的指標(biāo)？

章平：在 Agent 體系中，除傳統(tǒng) QPS 等指標(biāo)外，更關(guān)注多層級(jí)指標(biāo)。第一層是行為指標(biāo)，例如工具調(diào)用是否正確、參數(shù)設(shè)置是否合理，這直接影響執(zhí)行準(zhǔn)確性。

第二層是質(zhì)量評(píng)估，即任務(wù)完成后是否真正幫助用戶，包括響應(yīng)的有用性、正確性、相關(guān)性及情感因素等。這些指標(biāo)雖帶有主觀性，但與業(yè)務(wù)緊密相關(guān)，需結(jié)合實(shí)際場景設(shè)定。

此外，還包括 session 級(jí)指標(biāo)、多輪對(duì)話整體表現(xiàn)。單輪可能表現(xiàn)良好，但多輪下可能下降，需從多輪維度評(píng)估整體效果。

孫佳林：假設(shè)我們發(fā)現(xiàn)“任務(wù)完成率”突然下跌，接下來怎么做？可觀測數(shù)據(jù)怎么幫我們一步步下鉆，找到是模型問題、 Prompt 問題，還是外部依賴問題？

章平：在評(píng)估體系中，首先會(huì)設(shè)置觀測與告警機(jī)制。例如，當(dāng)工具調(diào)用率低于某一閾值時(shí)觸發(fā)告警后，會(huì)通過評(píng)估體系定位問題原因。我們會(huì)將完整執(zhí)行過程輸入大模型進(jìn)行分析，不僅獲得評(píng)分，還能得到錯(cuò)誤原因提示。再結(jié)合發(fā)布日志逐步回溯，判斷是否由提示詞或模型變更導(dǎo)致問題。最終，在定位原因后進(jìn)行修復(fù)，并通過后續(xù)指標(biāo)驗(yàn)證修復(fù)效果，從而形成“觀測—定位—修復(fù)—驗(yàn)證”的閉環(huán)。

孫佳林：你們主要依賴 LLM 來評(píng)估與診斷，而非傳統(tǒng)規(guī)則方法，對(duì)嗎？

章平：是的，同時(shí)也會(huì)結(jié)合成本與效率進(jìn)行權(quán)衡。

孫佳林：昌昊老師，Agent 跟 LLM 的對(duì)話是加密的，沙箱里的執(zhí)行是隔離的，兩層黑盒疊在一起。我們?cè)趺丛?無侵入"的前提下，同時(shí)打開這兩層黑盒，讓排查的人能看到"Agent 當(dāng)時(shí)到底做了什么？

李昌昊：我們目前主要面向訓(xùn)練或業(yè)務(wù)場景，設(shè)計(jì)方案時(shí)強(qiáng)調(diào)“零侵入”。由于用戶可能使用不同的 Agent 框架（如 LangChain 等），且沙箱環(huán)境多樣、生命周期短，難以通過傳統(tǒng)埋點(diǎn)方式采集數(shù)據(jù)，因此零侵入成為關(guān)鍵要求。

此外，我們采用 eBPF 技術(shù)對(duì)加密流量進(jìn)行解密，通過掛載 TLS 庫函數(shù)，在內(nèi)存中獲取明文數(shù)據(jù)，從而提取模型請(qǐng)求信息，如模型名稱、Prompt、用量及延遲等。

在運(yùn)行時(shí)層面，通過 Tracepoint 等技術(shù)采集進(jìn)程創(chuàng)建、命令執(zhí)行及結(jié)果數(shù)據(jù)，實(shí)現(xiàn)對(duì)沙箱內(nèi)行為的全面記錄，這使我們能夠從運(yùn)行時(shí)角度還原 Agent 的真實(shí)行為。

孫佳林：推理軌跡是一堆數(shù)據(jù)，工具調(diào)用是另一堆數(shù)據(jù)，API 返回又是第三堆。怎么把它們串成一條完整的、有時(shí)間線的故事，讓排查的人一目了然？

李昌昊：數(shù)據(jù)采集雖有成熟方案，但數(shù)據(jù)源彼此割裂，需要構(gòu)建完整的鏈路（trace）。例如，對(duì)話數(shù)據(jù)來自平臺(tái)層，審計(jì)數(shù)據(jù)來自應(yīng)用日志，需進(jìn)行統(tǒng)一關(guān)聯(lián)。

我們通過 eBPF 捕獲網(wǎng)絡(luò)請(qǐng)求，并借助透明代理注入 trace header，實(shí)現(xiàn) Agent 與大模型之間的鏈路關(guān)聯(lián)。同時(shí)，在沙箱層通過日志與進(jìn)程事件匹配，結(jié)合時(shí)間窗口、身份標(biāo)識(shí)及命令一致性，實(shí)現(xiàn)跨層關(guān)聯(lián)。最終，通過網(wǎng)絡(luò)解密與運(yùn)行時(shí)觀測，實(shí)現(xiàn)從對(duì)話到工具調(diào)用的全鏈路追蹤，從而在評(píng)估中獲得完整數(shù)據(jù)。

孫佳林：自欣老師，很多公司的 SRE 體系已經(jīng)很成熟了。Agent 來了之后，是另起一套，還是想辦法融入？藍(lán)鯨平臺(tái)是怎么把 Agent 的觀測能力和傳統(tǒng)的日志、監(jiān)控、追蹤打通的？

陳自欣：這個(gè)問題可以拆分為兩個(gè)方面：一是現(xiàn)有 SRE 體系如何適應(yīng) Agent 場景，二是在新場景中如何發(fā)揮更大作用。

對(duì)于第一點(diǎn)，Agent 時(shí)代并非需要重建體系，而是對(duì)現(xiàn)有平臺(tái)進(jìn)行演進(jìn)?？捎^測平臺(tái)在 Agent 與微服務(wù)時(shí)代都至關(guān)重要，但 Agent 產(chǎn)生的數(shù)據(jù)更復(fù)雜，對(duì)存儲(chǔ)與處理提出更高要求。例如，以前日志可通過聚類壓縮，而 Agent 輸出高度多樣，聚類失效，帶來新的挑戰(zhàn)。

第二點(diǎn)是數(shù)據(jù)打通。關(guān)鍵在于將代碼、運(yùn)行時(shí)及可觀測數(shù)據(jù)統(tǒng)一關(guān)聯(lián)，從而快速定位問題。由于大模型擅長分析代碼，這種統(tǒng)一數(shù)據(jù)模型將極大提升問題診斷效率。

孫佳林：自欣老師，你的 QCon 大會(huì)演講主題里提到“AI 提效實(shí)踐”?，F(xiàn)在 Agent 產(chǎn)生的數(shù)據(jù)量巨大，靠人看不過來。你們是否有用 AI 技術(shù)來分析 Agent 行為、預(yù)測風(fēng)險(xiǎn)、甚至自動(dòng)修復(fù)？

陳自欣：以騰訊游戲場景為例，多樣化業(yè)務(wù)帶來復(fù)雜觀測需求。當(dāng)前重點(diǎn)是為 Agent 提供上下文，使其輔助用戶定位問題。

通過 MCP、日志聚類、function call 等機(jī)制，可以減少 context window 壓力，并提升處理效率。同時(shí)，通過將 skill、memory 等能力模塊化組合，構(gòu)建面向具體場景的 Agent，從而限制其行為范圍，降低不確定性。

未來，還需要將運(yùn)維經(jīng)驗(yàn)進(jìn)一步沉淀并賦能 Agent，使其能夠更精準(zhǔn)地定位問題核心，從而提升整體系統(tǒng)理解與處理能力。

可觀測的“邊界和代價(jià)”

孫佳林：構(gòu)建一個(gè)完整的 Agent 可觀測體系，需要投入多少成本？算力、存儲(chǔ)、人力……小團(tuán)隊(duì)玩得起嗎？有沒有“乞丐版可觀測”方案？

陳自欣：從技術(shù)上看，Agent 的可觀測性仍然遵循類似 OpenTelemetry 的規(guī)范，即圍繞 metrics、log 和 trace 三類數(shù)據(jù)展開。但問題在于，傳統(tǒng)可觀測方案中的成本優(yōu)化手段在 Agent 場景下逐漸失效。例如，過去可以通過 trace 采樣降低成本，日志也具有穩(wěn)定模式，便于壓縮與刪除。然而，在 Agent 場景中，這些前提不再成立。

可以考慮采用分層策略：一方面用傳統(tǒng)方式監(jiān)控平臺(tái)與運(yùn)行層的性能指標(biāo)；另一方面，將高成本、非結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)在如 S3 等低成本存儲(chǔ)中，用于離線分析。這些數(shù)據(jù)不必實(shí)時(shí)處理，而是用于評(píng)估與業(yè)務(wù)優(yōu)化。

從商業(yè)角度看，雖然成本上升，但記錄 Agent 的運(yùn)行日志、Prompt 與 response，有助于持續(xù)提升模型能力與任務(wù)完成率。Agent 可觀測性雖成本較高，但對(duì)業(yè)務(wù)具有長期價(jià)值，甚至是必要投入。

李昌昊：可觀測性的最大成本并非建設(shè)本身，而是“不做可觀測”。如果僅讓 Agent“能跑即可”，在后續(xù)優(yōu)化時(shí)往往會(huì)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量差、成本不可控。例如，大量 token 消耗中哪些是有效計(jì)算、哪些是無效嘗試，無法區(qū)分；出現(xiàn)問題時(shí)也難以復(fù)現(xiàn)，因?yàn)槿狈︽溌酚涗洝?/p>

從技術(shù)角度看，可以通過低成本方式逐步建設(shè)可觀測體系。第一層是記錄工具調(diào)用與基礎(chǔ)行為數(shù)據(jù)，這是成本最低且最直接的手段；第二層是追蹤大模型調(diào)用成本，例如 token 使用量、延遲、模型類型等，并按會(huì)話或任務(wù)進(jìn)行聚合分析，從而明確成本分布與效率問題；第三層是構(gòu)建全鏈路追蹤，將各類數(shù)據(jù)串聯(lián)起來，實(shí)現(xiàn)問題定位。這一層投入較高，但價(jià)值最大。整體來看，可以基于現(xiàn)有平臺(tái)能力逐步構(gòu)建基礎(chǔ)可觀測體系。

章平：我認(rèn)同可觀測性不僅是成本，更是業(yè)務(wù)投資。以實(shí)際測算為例，若每天有 10 萬次 Agent 調(diào)用，每次消耗約 1000 至 4000 token，按照當(dāng)前主流模型價(jià)格計(jì)算，若全部由大模型完成評(píng)估，每月成本約為 6 萬至 15 萬美元。但實(shí)際中無需全部依賴大模型評(píng)估?？梢詫⒋_定性任務(wù)交由規(guī)則或 ground truth 判斷，將主觀評(píng)估交由大模型處理，并結(jié)合采樣機(jī)制。例如按 70% 規(guī)則與 30% 模型分配，再疊加 10% 采樣率，最終成本可降至每月約 1000 至 3000 美元, 這種“組合式”策略可以在成本與效果之間取得平衡。

陳自欣：此外，可將數(shù)據(jù)存儲(chǔ)后使用更經(jīng)濟(jì)的模型進(jìn)行離線處理，這同樣具有實(shí)際意義。

孫佳林：可觀測性確實(shí)有成本，但與不可觀測導(dǎo)致的隱性資源浪費(fèi)相比，其投入更具價(jià)值。因此，應(yīng)優(yōu)先解決最關(guān)鍵的業(yè)務(wù)問題，通過采樣與指標(biāo)篩選實(shí)現(xiàn) ROI 最大化，并結(jié)合開源協(xié)議與低成本存儲(chǔ)方案，將整體成本控制在合理范圍內(nèi)。

孫佳林：可觀測不是萬能的。在三位老師看來，目前的可觀測技術(shù)邊界在哪里？什么場景下，Agent 的行為是“觀測不到”或者“觀測了也沒用”的？”

陳自欣：從更宏觀角度看，可觀測性與控制論密切相關(guān)：無法觀測就無法控制。因此，無論形式如何變化，可觀測性在 AI 時(shí)代只會(huì)更加重要。

例如在 AI 編程場景中，開發(fā)者往往將錯(cuò)誤日志反饋給模型，再由模型進(jìn)行修復(fù)；一些工具甚至引入調(diào)試模式，自動(dòng)收集日志并參與迭代，這一過程在本地環(huán)境中已較為成熟。若將這一閉環(huán)擴(kuò)展至生產(chǎn)環(huán)境，其價(jià)值將進(jìn)一步放大。在 Vibe Coding 或自動(dòng)生成代碼日益普及的背景下，開發(fā)者難以完全掌控代碼質(zhì)量，因此可觀測性將成為關(guān)鍵的兜底能力。

李昌昊：可觀測性的邊界類似于現(xiàn)實(shí)世界中的測量問題。例如在量子力學(xué)中，觀測存在極限，無法完全獲取系統(tǒng)狀態(tài)。同樣，在 Agent 場景中，過度依賴某些指標(biāo)可能導(dǎo)致指標(biāo)失效，甚至被系統(tǒng)“規(guī)避”。

因此，可觀測范圍應(yīng)與 ROI 匹配。例如，不可能記錄所有網(wǎng)絡(luò)請(qǐng)求或完整輸入輸出數(shù)據(jù)，因?yàn)槌杀具^高；同時(shí)，對(duì)于模型內(nèi)部語義狀態(tài)，由于其概率生成機(jī)制，也難以完全追溯。這些都構(gòu)成可觀測性的邊界。

章平：我補(bǔ)充幾個(gè)案例說明邊界問題。首先，評(píng)估需要多維度。例如某旅游 Agent 在提示詞變更后未調(diào)用專業(yè)工具，而使用通用搜索，雖然完成了任務(wù)，但結(jié)果質(zhì)量下降。僅從結(jié)果判斷是不夠的，還需結(jié)合過程指標(biāo)。

其次，評(píng)估標(biāo)準(zhǔn)本身也會(huì)變化。例如模型升級(jí)或環(huán)境變化可能導(dǎo)致原有標(biāo)準(zhǔn)失效，需要定期校準(zhǔn)，例如通過固定測試集重新定義評(píng)估基準(zhǔn)。

第三，Agent 的能力存在邊界。例如在數(shù)據(jù) ETL 場景中，若數(shù)據(jù)錯(cuò)誤源于上游處理，Agent 無法定位根因，只能基于輸入輸出做判斷。需要明確哪些問題應(yīng)由 Agent 處理，哪些應(yīng)由傳統(tǒng)系統(tǒng)解決。

孫佳林：可觀測性的技術(shù)邊界取決于業(yè)務(wù)問題，但基礎(chǔ)設(shè)施能力（如 log、trace、metric、profiling 等）必須構(gòu)建，在此基礎(chǔ)上結(jié)合具體業(yè)務(wù)場景和需求，看應(yīng)用范圍與邊界，最終還是要回歸到解決業(yè)務(wù)問題上。

評(píng)估中的“人和流程”

孫佳林：評(píng)估是工具，但用不好也會(huì)出問題。三位有沒有遇到過“為了指標(biāo)好看，反而把 Agent 帶偏”的情況？

章平：在實(shí)際使用中，常見問題是 Agent“表面完成任務(wù)但實(shí)質(zhì)偏離目標(biāo)”。例如在 AI 編程中，模型可能通過取巧方式快速返回結(jié)果，而非真正調(diào)用大模型完成任務(wù)，甚至通過 fallback 邏輯規(guī)避失敗。此時(shí)，從流程或結(jié)果看似正常，但未滿足真實(shí)需求。因此，評(píng)估不能僅依賴任務(wù)完成度，還需引入代碼質(zhì)量、安全性、規(guī)范性等多維指標(biāo)，從而全面衡量效果。

李昌昊：單一指標(biāo)容易失效，這與經(jīng)典的“指標(biāo)異化”現(xiàn)象一致。應(yīng)采用多維指標(biāo)，并盡量使用獨(dú)立數(shù)據(jù)源進(jìn)行評(píng)估，例如運(yùn)行時(shí)數(shù)據(jù)或業(yè)務(wù)數(shù)據(jù)，而非完全依賴 Agent 自身輸出。同時(shí)，也可以通過多 Agent 交叉驗(yàn)證提高可靠性。

孫佳林：整體思路是采用多維、多階段評(píng)估，包括過程追蹤、節(jié)點(diǎn)分析及結(jié)果指標(biāo)，避免僅以單一結(jié)果衡量整體效果。

孫佳林：Agent 出問題了，是算法團(tuán)隊(duì)的事，還是 SRE 團(tuán)隊(duì)的事？如果是因?yàn)槟Ｐ突糜X，算法說“這是概率問題”；如果是因?yàn)?API 超時(shí)，SRE 說“這是外部依賴”——最后誰給業(yè)務(wù)方一個(gè)交代？”

陳自欣：關(guān)于責(zé)任歸屬問題，目前階段更適合以探索為主，而非嚴(yán)格定責(zé)。Agent 仍處于發(fā)展階段，依賴復(fù)雜、穩(wěn)定性有限，應(yīng)允許一定試錯(cuò)空間。

孫佳林：這類似于“無責(zé)文化”（blameless culture），強(qiáng)調(diào)問題解決導(dǎo)向而非過多討論責(zé)任歸屬問題。

李昌昊：本質(zhì)上，“誰負(fù)責(zé)”取決于是否有證據(jù)鏈。Agent 系統(tǒng)鏈路復(fù)雜，問題可能來自模型、工具或運(yùn)行環(huán)境，因此需要全鏈路可觀測能力來定位問題?？捎^測性的核心價(jià)值并非追責(zé)，而是定位問題與優(yōu)化系統(tǒng)，從而提高整體可靠性與效率。

孫佳林：現(xiàn)在的評(píng)估還有很多人工環(huán)節(jié)（寫用例、判結(jié)果、分析原因）。未來，評(píng)估會(huì)被 AI 自動(dòng)化嗎？比如讓一個(gè)“評(píng)估 Agent ”來評(píng)估“業(yè)務(wù) Agent”？

章平：目前很多實(shí)踐本質(zhì)上是“用 AI 評(píng)估 AI”，但人仍然發(fā)揮著關(guān)鍵作用。首先，在評(píng)估體系中，ground truth 與大模型評(píng)估的劃分需要人為設(shè)定規(guī)則，即哪些內(nèi)容由程序基于確定性規(guī)則判斷，這一部分依賴人事先定義清晰標(biāo)準(zhǔn)。

其次，對(duì)于“好”與“不好”的判定，雖然可以交由大模型執(zhí)行，但其評(píng)估標(biāo)準(zhǔn)本身必須由人基于具體業(yè)務(wù)設(shè)定，包括輸入、輸出以及過程中的推理路徑等。這些業(yè)務(wù)知識(shí)需要由人進(jìn)行抽象并注入模型，使評(píng)估結(jié)果真正符合業(yè)務(wù)需求。人在其中的核心作用是將企業(yè)知識(shí)體系結(jié)構(gòu)化并融入評(píng)估過程。至于 AI 是否會(huì)完全取代人，理論上大部分工作可能被替代，但最終責(zé)任仍需由人承擔(dān)。

孫佳林：AI 應(yīng)當(dāng)具備“監(jiān)護(hù)人”機(jī)制，無論是 skill 的生產(chǎn)方還是 Agent 的運(yùn)維方，都需要對(duì)其行為負(fù)責(zé)，包括控制其影響范圍與風(fēng)險(xiǎn)邊界。因此，人作為“監(jiān)護(hù)人”的角色是不可替代的，這也是確定性工程的重要體現(xiàn)，通過工程化手段約束 AI 行為。

李昌昊：從另一個(gè)角度看，可觀測數(shù)據(jù)本身既是分析依據(jù)，也是訓(xùn)練素材。如果完全由 AI 自動(dòng)評(píng)估，會(huì)產(chǎn)生遞歸問題，即“誰來評(píng)估評(píng)估者”。因此，在較長時(shí)間內(nèi)，“human in the loop”仍然是必要模式，由人進(jìn)行最終判斷，AI 評(píng)估更多作為輔助。

陳自欣：我認(rèn)為評(píng)測是 AI 落地過程中最關(guān)鍵的環(huán)節(jié)之一，其前提是具備完善的可觀測能力，能夠采集完整數(shù)據(jù)。在很多業(yè)務(wù)場景中，例如旅行助手這類 workflow 型應(yīng)用，可以通過較為固定的流程配合小模型執(zhí)行，再由大模型進(jìn)行評(píng)估，這在成本與效果之間是可行的方案。這一模式類似傳統(tǒng)客服系統(tǒng)：通話會(huì)被錄音，但并非全部人工審核，而是結(jié)合用戶評(píng)分與抽檢機(jī)制進(jìn)行評(píng)估，從而平衡成本與質(zhì)量。

此外，評(píng)估不能僅停留在技術(shù)層面，還需從業(yè)務(wù)角度出發(fā)，例如用戶留存率、滿意度或凈推薦值等指標(biāo)。這一點(diǎn)在競爭激烈的市場環(huán)境下尤為重要，因?yàn)閱渭兘档统杀径鴵p害用戶體驗(yàn)，最終會(huì)導(dǎo)致用戶流失。

展望未來

孫佳林：在 Agentic 時(shí)代，確定性工程會(huì)往哪走？可觀測性能不能推動(dòng) Agent 工程，從“被動(dòng)”走向“主動(dòng)”，甚至“自動(dòng)駕駛”？請(qǐng)三位老師每人給一個(gè)預(yù)言。

陳自欣：在 Agentic 時(shí)代，可觀測性將成為確定性工程的核心支柱，同時(shí)也會(huì)對(duì)基礎(chǔ)設(shè)施帶來新的挑戰(zhàn)。例如，傳統(tǒng)指標(biāo)難以衡量 Agent 的表現(xiàn)，因此 log 與 trace 的重要性進(jìn)一步提升。

未來可能需要圍繞 Agent 構(gòu)建新的基礎(chǔ)設(shè)施體系，例如將運(yùn)行時(shí)（runtime）與可觀測能力深度結(jié)合，在無需異常時(shí)減少日志記錄，在出現(xiàn)問題時(shí)再動(dòng)態(tài)補(bǔ)充上下文信息，從而降低成本并提升智能化水平。

此外，存儲(chǔ)能力與數(shù)據(jù)處理能力也將成為關(guān)鍵瓶頸。當(dāng)這些基礎(chǔ)能力完善后，可觀測體系將從被動(dòng)監(jiān)控轉(zhuǎn)向主動(dòng)診斷甚至預(yù)測。

章平：我也參考了一些 AI 的預(yù)測，普遍認(rèn)為可觀測性將從事后檢測發(fā)展為實(shí)時(shí)監(jiān)控甚至“免疫系統(tǒng)”。我認(rèn)同這一趨勢，但更關(guān)鍵的問題在于成本。目前許多企業(yè)尚未重視這一領(lǐng)域，很大程度上是因?yàn)?token 成本過高。如果未來 token 成本大幅下降，使中小企業(yè)甚至個(gè)人都能承擔(dān)，那么可觀測與評(píng)估體系將被更廣泛采用，從而推動(dòng)整個(gè)生態(tài)的發(fā)展。

李昌昊：從技術(shù)趨勢看，可觀測性可能進(jìn)一步深入模型內(nèi)部，例如追蹤 token 的生成來源，從訓(xùn)練數(shù)據(jù)層面提升可解釋性。同時(shí)，可觀測數(shù)據(jù)也將成為模型訓(xùn)練閉環(huán)的重要組成部分，用于持續(xù)優(yōu)化 Agent 與模型能力。

孫佳林：未來還可能通過將多輪交互操作轉(zhuǎn)化為確定性操作（如 CLI 或標(biāo)準(zhǔn)化流程），降低不確定性，并結(jié)合多 Agent 協(xié)作與云環(huán)境，實(shí)現(xiàn)更復(fù)雜的自動(dòng)化系統(tǒng)。這一方向仍有較大發(fā)展空間。

孫佳林：如果現(xiàn)在只能做一件事，來讓自己的 Agent 變得更“可觀測、可評(píng)估、可信任”，你會(huì)建議他們做什么？

李昌昊：從安全角度看，應(yīng)將 Agent 視為“不可信進(jìn)程”。由于其行為難以完全預(yù)測，需要建立獨(dú)立于 Agent 本身的審計(jì)體系，不僅依賴其輸出，還需從外部視角驗(yàn)證其行為。

章平：在企業(yè)場景中，安全問題尤為關(guān)鍵。一個(gè)可行思路是通過統(tǒng)一網(wǎng)關(guān)管理 Agent 對(duì)內(nèi)部系統(tǒng)（如數(shù)倉、ERP）的訪問，將所有調(diào)用集中到網(wǎng)關(guān)層，并在網(wǎng)關(guān)中配置安全策略。例如，可通過策略控制 Agent 能訪問哪些系統(tǒng)，從而避免在 Agent 內(nèi)部逐一實(shí)現(xiàn)安全控制。

陳自欣：從架構(gòu)角度看，Agent 應(yīng)依托企業(yè)級(jí) AI 網(wǎng)關(guān)或升級(jí)版 SOA 總線運(yùn)行，并配套完整的權(quán)限體系與安全策略。這些在傳統(tǒng)系統(tǒng)中成熟的機(jī)制，在 AI 時(shí)代依然適用。

孫佳林：這一體系類似于微服務(wù)時(shí)代的 Mesh 架構(gòu)，在 Agent 時(shí)代可能演變?yōu)榻y(tǒng)一的 AI 網(wǎng)關(guān)，用于統(tǒng)一執(zhí)行策略控制、行為約束與風(fēng)險(xiǎn)管理，是實(shí)現(xiàn)“護(hù)欄機(jī)制”的關(guān)鍵基礎(chǔ)設(shè)施。

觀眾：在企業(yè)里面龍蝦的實(shí)際使用實(shí)踐有嗎？比如安全、可觀測、自動(dòng)部署。

陳自欣：龍蝦本質(zhì)上是一個(gè)高度靈活的系統(tǒng)，其中安全是最核心的挑戰(zhàn)之一。在企業(yè)中部署時(shí)，必須將其運(yùn)行在網(wǎng)絡(luò)受控的沙箱環(huán)境中，這是基本前提。在該環(huán)境內(nèi)，需要對(duì)網(wǎng)絡(luò)策略進(jìn)行嚴(yán)格管控，例如禁止在同一 IP 段內(nèi)進(jìn)行橫向掃描，實(shí)現(xiàn)基礎(chǔ)的網(wǎng)絡(luò)隔離，這在實(shí)踐中通常通過類似 Docker 的容器化技術(shù)來完成。同時(shí)，龍蝦的調(diào)用中心（call hub）必須指向企業(yè)內(nèi)部受控且安全的地址，并結(jié)合 API 網(wǎng)關(guān)或 MCP 網(wǎng)關(guān)，對(duì)路由與權(quán)限進(jìn)行統(tǒng)一管控。

觀眾：請(qǐng)問使用現(xiàn)有的 Agent，還是自己搭建 Agent 更合適？

章平：我早年在集成商從事投標(biāo)工作，當(dāng)時(shí)流程較為繁重。在 Agent 時(shí)代，不同企業(yè)的業(yè)務(wù)流程差異較大，例如招標(biāo)流程往往各不相同。更合理的方式是將企業(yè)內(nèi)部已有流程抽象為標(biāo)準(zhǔn)操作流程（SOP），再封裝為對(duì)應(yīng)的 skill，集成到個(gè)人或企業(yè)的 Agent 系統(tǒng)中。這相當(dāng)于構(gòu)建一個(gè)定制化的 Agent，可以顯著提升實(shí)際工作效率。相比之下，通用 Agent 雖然可以提供基礎(chǔ)信息檢索能力，但其輸出往往較為泛化，難以滿足具體業(yè)務(wù)的專業(yè)需求。

觀眾：MCP 與 skills 的本質(zhì)區(qū)別是什么？

孫佳林：MCP 是連接 AI 與外部世界的“協(xié)議”，而 skills 是 AI 能夠調(diào)用的具體“能力”。MCP server 是能力發(fā)布方，核心職責(zé)是向 AI 客戶端聲明自己擁有哪些能力，它定義了“能干什么”。Skills 是能力的實(shí)現(xiàn)方，是具體的業(yè)務(wù)邏輯和執(zhí)行代碼，它定義了“如何做”。

觀眾：可觀測是否等同于對(duì)云平臺(tái)的監(jiān)控？

陳自欣：可觀測的范圍遠(yuǎn)不止云平臺(tái)。早期主要集中在基礎(chǔ)設(shè)施層（Infra），隨后擴(kuò)展到應(yīng)用性能監(jiān)控（APM），再到業(yè)務(wù)層觀測，如今已經(jīng)延伸到 Agent 層面。本質(zhì)上，可觀測是由 metrics、logs 和 trace 等多種數(shù)據(jù)形式構(gòu)成的綜合能力，通過被觀測對(duì)象主動(dòng)輸出數(shù)據(jù)，從而支持多維度分析與問題定位，因此它是一個(gè)多層級(jí)、組合式的體系。

孫佳林：可以簡單理解為，監(jiān)控回答的是“哪里出了問題”，而可觀測不僅回答“為什么出問題”，還可以進(jìn)一步支持分析“應(yīng)該如何解決”，其能力更加全面多維。

觀眾：博物館等文化單位部署 AI 或 Agent 時(shí)，是否可以在保證數(shù)據(jù)安全的前提下離線部署？

陳自欣：對(duì)于這類機(jī)構(gòu)，由于其對(duì)信息安全要求較高，部署方案需要更加謹(jǐn)慎，建議優(yōu)先咨詢相關(guān)主管部門或參照安全規(guī)范，以確保合規(guī)性，避免潛在風(fēng)險(xiǎn)。

觀眾：OpenClaw 安裝在空機(jī)器上，并對(duì)存儲(chǔ)路徑做權(quán)限控制后，Agent 是否還能正常工作？

陳自欣：從實(shí)踐來看，如果希望 OpenClaw 發(fā)揮較好效果，通常需要賦予較高權(quán)限，“開放越多，能力越強(qiáng)”。如果需要更細(xì)粒度的控制，可以結(jié)合操作系統(tǒng)層面的目錄權(quán)限進(jìn)行限制，或者查看 OpenClaw 本身是否提供更精細(xì)的權(quán)限管理機(jī)制。不過在實(shí)際使用中，很多人會(huì)選擇直接開放全部權(quán)限以簡化使用。

孫佳林：我個(gè)人也是開放較多權(quán)限，但這確實(shí)存在風(fēng)險(xiǎn)。

陳自欣：確實(shí)如此，因此使用時(shí)必須清楚自身操作帶來的影響，這一點(diǎn)往往也是最難做到的。

孫佳林：建議在非工作電腦或沙箱環(huán)境中運(yùn)行。

陳自欣：實(shí)踐中我通常會(huì)采用“實(shí)驗(yàn)環(huán)境 + 生產(chǎn)環(huán)境”的方式，先在隔離環(huán)境中驗(yàn)證，再逐步遷移到正式環(huán)境。

觀眾：未來 Agent 是否會(huì)具備較強(qiáng)的通用性，例如少量 Agent 覆蓋大部分業(yè)務(wù)場景？

李昌昊：我認(rèn)為這是一個(gè)必然趨勢。當(dāng)前無論是通用 Agent 還是代碼類 Agent，其通用能力都在持續(xù)增強(qiáng)，通過疊加不同 Skill，理論上可以覆蓋絕大多數(shù)業(yè)務(wù)場景。

孫佳林：從企業(yè)實(shí)踐來看，通用化和生產(chǎn)化仍面臨安全、資源利用率以及分布式記憶等挑戰(zhàn)，但整體趨勢確實(shí)是朝著通用化和生產(chǎn)化發(fā)展。

陳自欣：目前 MCP 尚未具備漸進(jìn)式披露的能力，在加載后導(dǎo)致上下文臃腫的情況，消耗大量的 token 。未來 MCP 可能有兩個(gè)走向，第一是重要性下降，只在留在部分場景的使用，而不是唯一的選擇，二是協(xié)議本身進(jìn)行重構(gòu)，但未來的走勢仍需觀察。

章平：在實(shí)際應(yīng)用中，企業(yè)通常會(huì)同時(shí)使用 MCP 和 Skill：前者用于通用能力，例如數(shù)據(jù)接口；后者用于業(yè)務(wù)定制，實(shí)現(xiàn)更垂直的功能。

陳自欣：可以進(jìn)一步理解為，MCP 更適用于探索階段，用于靈活調(diào)用與試錯(cuò)；而當(dāng)流程穩(wěn)定后，則會(huì)將其固化為 Skill，通過 API 或代碼直接調(diào)用執(zhí)行?？梢詫?MCP 視為“探索工具”，Skill 視為“執(zhí)行工具”，兩者在不同階段各有價(jià)值。

會(huì)議推薦

QCon 全球軟件開發(fā)大會(huì)·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會(huì)以“Agentic AI 時(shí)代的軟件工程重塑”為主題，聚焦 100+ 重磅議題，匯聚來自阿里、騰訊、字節(jié)跳動(dòng)、小米、百度等一線科技企業(yè)與創(chuàng)新團(tuán)隊(duì)的技術(shù)專家，圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進(jìn)展開深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進(jìn)行咨詢。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.