網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

20個(gè)企業(yè)級(jí)案例揭示Agent落地真相：閉源模型吃掉85%，手搓代碼替代LangChain

2025-12-10 19:46:32　來源: 硅基觀察Pro

北京舉報(bào)

分享至

加州大學(xué)伯克利分校（UC Berkeley）剛剛發(fā)布了一份重磅論文：《Measuring Agents in Production》。

論文地址：https://arxiv.org/pdf/2512.04123

這份論文，基于來自全球的真實(shí)請(qǐng)求：306名從業(yè)者深度調(diào)研，20個(gè)企業(yè)級(jí)部署案例，覆蓋 26 個(gè)行業(yè)。

這是AI Agent 領(lǐng)域，迄今最大規(guī)模的實(shí)證研究。

最核心的三個(gè)信息：

生產(chǎn)力提升是Agent 落地的第一推動(dòng)力；

閉源模型、人工Prompt 和受控流程是當(dāng)前的“通行公式”；

可靠性是最大的攔路虎，人工審核依然不可或缺；

這份報(bào)告信息非常多，容我慢慢道來。

73%為生產(chǎn)力買單，金融成Agent 第一戰(zhàn)場(chǎng)

先說一個(gè)數(shù)字：

73%的從業(yè)者表示，部署Agent的首要目的是“提高生產(chǎn)力”。

其他的動(dòng)機(jī)也非常務(wù)實(shí)：63.6%是為了減少人工工時(shí)，50% 是為了自動(dòng)化常規(guī)勞動(dòng)。

形成對(duì)比的是，那些難以量化的質(zhì)性收益，如“風(fēng)險(xiǎn)規(guī)避”(12.1%)和“加速故障響應(yīng)”(18.2%)，排名則相對(duì)靠后。

也就是說，Agent 的落地，優(yōu)先于那些能帶來直接、可量化回報(bào)的場(chǎng)景，那些價(jià)值難以估量的質(zhì)性改進(jìn)，目前還得往后稍稍。

從應(yīng)用場(chǎng)景看，Agent早已走出寫代碼或聊天機(jī)器人，深入到了更嚴(yán)肅的商業(yè)流程中。

其中，金融與銀行業(yè)是第一大戰(zhàn)場(chǎng)，占比39.1% 其次是科技（24.6%）和企業(yè)服務(wù)（23.2%）。

除了這些，Agent 還在很多意想不到的地方落地：

保險(xiǎn)理賠流程自動(dòng)化：代理人負(fù)責(zé)處理從保單查詢到風(fēng)險(xiǎn)識(shí)別的序列排序流程。

生物醫(yī)學(xué)工作流自動(dòng)化：在科學(xué)發(fā)現(xiàn)領(lǐng)域，Agent 用于自動(dòng)化執(zhí)行復(fù)雜的實(shí)驗(yàn)和數(shù)據(jù)分析流程。

企業(yè)內(nèi)部運(yùn)營(yíng)支持：涵蓋人力資源信息搜索、站點(diǎn)故障事件診斷等多個(gè)方面。

這些跨行業(yè)的成功案例證明，AI Agent已經(jīng)具備解決真實(shí)世界復(fù)雜問題的能力，并正在創(chuàng)造切實(shí)的商業(yè)價(jià)值。

在實(shí)際業(yè)務(wù)場(chǎng)景里，Agent 目前的角色，更像是人類的“超級(jí)實(shí)習(xí)生”。

92.5%的Agent 直接服務(wù)于人類用戶，其中52.2%是服務(wù)于企業(yè)內(nèi)部員工。

為什么大部分是內(nèi)部員工在用？因?yàn)樵诮M織內(nèi)部，錯(cuò)誤后果可控，而且隨時(shí)有人盯著。只有7.5%的Agent 是服務(wù)于其他軟件系統(tǒng)的，Agent 之間的全自動(dòng)交互還很遙遠(yuǎn)。

與很多想象的不一樣，Agent的響應(yīng)速度并不是客戶最先考慮的問題。在生產(chǎn)環(huán)境中，66%的系統(tǒng)允許分鐘級(jí)甚至更長(zhǎng)的響應(yīng)時(shí)間。

原因很簡(jiǎn)單：相比于人類完成任務(wù)需要的數(shù)小時(shí)或數(shù)天，Agent 花幾分鐘仍然是巨大的效率提升。這意味著，開發(fā)團(tuán)隊(duì)可以將重心放在提升輸出的質(zhì)量和可靠性上，而不是犧牲能力去追求極限的低延遲。

生產(chǎn)級(jí)Agent 的“極簡(jiǎn)主義”：拒絕微調(diào)，死磕 Prompt

與學(xué)術(shù)界對(duì)復(fù)雜自主Agent的探索形成對(duì)比，生產(chǎn)級(jí)AI Agent的構(gòu)建哲學(xué)是“大道至簡(jiǎn)”。

從業(yè)者優(yōu)先選擇簡(jiǎn)單、可控、可維護(hù)的技術(shù)路徑，以最大程度地系統(tǒng)的可靠性。這種務(wù)實(shí)的工程選擇貫穿于模型選型、技術(shù)實(shí)現(xiàn)、核心架構(gòu)和框架使用的方方面面。

在模型選擇上，閉源是絕對(duì)主流。

在20個(gè)深度案例中，85%（17個(gè)）使用了閉源模型 Anthropic 的 Claude 系列和 OpenAI 的 GPT 系列是首選。

選擇閉源的核心邏輯是效率。對(duì)于輔助專家（如醫(yī)生、高級(jí)工程師）的Agent來說，推理成本相比人力成本幾乎可以忽略不計(jì)，因此團(tuán)隊(duì)傾向于選擇最強(qiáng)的模型。

開源模型更多被認(rèn)為是特定場(chǎng)景下的補(bǔ)充。只要在滿足嚴(yán)格約束條件時(shí)，團(tuán)隊(duì)才會(huì)選擇開源模型，一般來說兩種情況比較常見：

成本效益：對(duì)于需要大規(guī)模、高推理的場(chǎng)景，自托管開源模型的成本優(yōu)勢(shì)凸顯。

數(shù)據(jù)隱私：受法規(guī)或企業(yè)政策限制，當(dāng)敏感數(shù)據(jù)無法突破外接環(huán)境時(shí)，開源模型成為唯一選擇。

與模型選擇一樣，從業(yè)者在技術(shù)路徑上也傾向于更簡(jiǎn)單、迭代更快的方法：拒絕微調(diào)，死磕Prompt。

學(xué)術(shù)界熱衷的微調(diào)（Fine-tuning）和強(qiáng)化學(xué)習(xí)（RL），在實(shí)際應(yīng)用場(chǎng)景里極少使用。其中70%的案例直接使用現(xiàn)成模型，完全不進(jìn)行權(quán)重微調(diào)。

大家的精力都花哪了？花在寫Prompt 上。

78%的系統(tǒng)采用全手動(dòng)或手動(dòng)+AI 輔助的方式構(gòu)建 Prompt 生產(chǎn)環(huán)境的。Prompt 可能會(huì)非常長(zhǎng)，12%的Prompt超過了10,000個(gè)Token。

這也說明，從業(yè)者更相信自己手寫的規(guī)則，而不是自動(dòng)優(yōu)化工具（如DSPy）。

為了降低Agent的不可控性，生產(chǎn)級(jí)Agent的自主性被嚴(yán)格限制在可控范圍內(nèi)。

68%的系統(tǒng)在需要人工干預(yù)前，執(zhí)行步驟不超過10步，甚至有47%的系統(tǒng)少于5步。

為什么要限制？主要有三個(gè)原因：

保證可靠性：步數(shù)越多，錯(cuò)誤越容易累積；

控制成本：API 調(diào)用不是免費(fèi)的；

控制延遲：每多一步，用戶就得多等一會(huì)；

所以，80%的案例采用了預(yù)定義的靜態(tài)工作流比如一個(gè)保險(xiǎn)Agent，它的流程是固定的：查詢保障 -> 審查必要性 -> 識(shí)別風(fēng)險(xiǎn)。 Agent只能在已有的流程里做決定，不能自己發(fā)明新的步驟。

另一個(gè)比較有意思的現(xiàn)象是，在問卷調(diào)查里，60%的人說愿意用第三方框架（LangChain 等），但在實(shí)際案例里，85%的團(tuán)隊(duì)選擇完全自研，直接調(diào)模型API。

為什么？為了減少依賴臃腫（dependency bloat），為了獲得對(duì)系統(tǒng)的完全控制權(quán)。

這種對(duì)定制化解決方案的強(qiáng)烈偏好揭示了企業(yè)級(jí)Agent系統(tǒng)的一個(gè)關(guān)鍵成熟度指標(biāo)：從通用框架向深度集成、定制定制的編排引擎演進(jìn)，使得這些系統(tǒng)正成為關(guān)鍵任務(wù)基礎(chǔ)，需要現(xiàn)有工具無法提供的控制水平。

學(xué)術(shù)榜單“失靈”，75% 的團(tuán)隊(duì)放棄基準(zhǔn)測(cè)試

基準(zhǔn)測(cè)試幾乎沒有任何參考價(jià)值。

其中，75%的團(tuán)隊(duì)完全不使用基準(zhǔn)測(cè)試。因?yàn)槊總€(gè)企業(yè)的業(yè)務(wù)都太特殊了，公開的學(xué)術(shù)榜單毫無參考價(jià)值。

剩下25%的團(tuán)隊(duì)，選擇從零開始構(gòu)建自己的自定義基準(zhǔn)。

在這種情況下，人工循環(huán)驗(yàn)證（Human-in-the-loop）是主導(dǎo)的評(píng)估方法，被74.2%的從業(yè)者采用。

在開發(fā)階段，領(lǐng)域?qū)＜抑苯訉彶楹万?yàn)證系統(tǒng)輸出的正確性、安全性和可靠性。比如，醫(yī)療專家逐一驗(yàn)證醫(yī)療保健代理生成的診斷建議，是否符合臨床標(biāo)準(zhǔn)。

在運(yùn)行階段，人類作為最終決策者，基于Agent提供的建議和分析采取的行動(dòng)，充當(dāng)最后一個(gè)安全護(hù)欄。比如，站點(diǎn)修復(fù)工程師根據(jù)代理生成的故障分析報(bào)告，最終決定執(zhí)行哪些修復(fù)操作。

還有另一種評(píng)估方法：自動(dòng)化評(píng)估（LLM-as-a-Judge）。其典型工作流程如下：

1. Agent生成一個(gè)輸出。

2.一個(gè)“裁判”LLM對(duì)輸出進(jìn)行評(píng)估，并給出一個(gè)置信度分?jǐn)?shù)。

3.高分輸出被自動(dòng)接受，低分輸出則被路由給人類專家進(jìn)行審查。

4.同時(shí)，專家會(huì)定期進(jìn)行饑餓檢查那些被自動(dòng)接受的高分輸出，以監(jiān)控“裁判”LLM的表現(xiàn)，形成一個(gè)人類持續(xù)布局的閉環(huán)反饋。

雖然這種方法也有很多人在用，但沒人敢完全信任它。

51.6%的團(tuán)隊(duì)使用了LLM 當(dāng)裁判，但所有這些團(tuán)隊(duì)都結(jié)合了人工驗(yàn)證。一個(gè)典型的做法是：LLM 給個(gè)分，高分的自動(dòng)通過，低分的轉(zhuǎn)人工；同時(shí)人工還會(huì)定期抽查高分樣本。

/ 04 /

核心挑戰(zhàn)：可靠性，可靠性，還是可靠性

可靠性是頭號(hào)大敵37.9% 的人把“核心技術(shù)問題”（可靠性、魯棒性）列為頭號(hào)挑戰(zhàn)，遠(yuǎn)超合規(guī)性（17.2%）和治理問題（3.4%）。

為什么這么難？

基準(zhǔn)難建：數(shù)據(jù)稀缺、成本高昂、高度定制化；

測(cè)試難做：Agent 的非確定性讓傳統(tǒng)的單元測(cè)試失效了；

反饋太慢：很多時(shí)候，你不知道Agent 錯(cuò)了，結(jié)果直到幾個(gè)月后才出現(xiàn)；

與可靠性相比，安全與合規(guī)性問題被認(rèn)為是次要問題。原因是，它們通?？梢酝ㄟ^“約束設(shè)計(jì)”解決。常見的“約束設(shè)計(jì)”有以下四種：

1.復(fù)雜修改操作：嚴(yán)格限制Agent只能讀取數(shù)據(jù)，界面允許其生產(chǎn)環(huán)境的狀態(tài)。例如，一個(gè)站點(diǎn)可靠性（SRE）Agent可以分析日志并生成報(bào)告，但最終的修復(fù)操作必須由人類工程師執(zhí)行。

2.沙盒環(huán)境：將Agent部署在與生產(chǎn)系統(tǒng)隔離的沙盒環(huán)境中。Agent在沙盒內(nèi)生成并測(cè)試代碼或配置變更，只有在通過所有驗(yàn)證后，結(jié)果才會(huì)被同步到生產(chǎn)系統(tǒng)。

3.限制抽象層：在Agent和生產(chǎn)工具之間構(gòu)建一個(gè)API封裝層。這個(gè)抽象層只公開必要的功能，并隱藏了內(nèi)部實(shí)現(xiàn)的細(xì)節(jié)，了Agent的潛在破壞范圍。

4.控制：嘗試讓Agent繼承發(fā)起請(qǐng)求的用戶的訪問權(quán)限。然而，實(shí)踐表明這仍然是一個(gè)挑戰(zhàn)，因?yàn)锳gent在調(diào)用工具時(shí)可能會(huì)繞過或遇到與用戶權(quán)限不一致的細(xì)粒度控制。

/ 04 /

總結(jié)：約束性部署的勝利

這份報(bào)告揭示了一個(gè)核心悖論：

可靠性明明是最大挑戰(zhàn)，為什么這些系統(tǒng)還能上線？

答案是：“約束性部署”（Constrained Deployment）。實(shí)現(xiàn)“約束性部署”的具體模式包括：

環(huán)境約束：將Agent部署于復(fù)雜模式、內(nèi)部網(wǎng)絡(luò)或與生產(chǎn)隔離的沙盒環(huán)境中，從源頭上杜絕了Agent對(duì)關(guān)鍵系統(tǒng)的直接破壞風(fēng)險(xiǎn)。

自主性約束：將Agent的行為限定在少于10個(gè)步驟的構(gòu)成、預(yù)定義工作流程內(nèi)，避免了因長(zhǎng)期自主探索而導(dǎo)致的不可預(yù)測(cè)行為和錯(cuò)誤累積。

人工：監(jiān)督將專家安置決策回路的關(guān)鍵節(jié)點(diǎn)，設(shè)置成為代理輸出的最終驗(yàn)證者和執(zhí)行者，構(gòu)成了最后一個(gè)、也是人類最加固的一個(gè)安全防線。

另一個(gè)重要的啟示是，僅利用現(xiàn)有的前沿大模型和相對(duì)簡(jiǎn)單的提示工程技術(shù)，就足以在超過26個(gè)不同行業(yè)中創(chuàng)造出可觀的、可量化的商業(yè)價(jià)值。

這意味著，企業(yè)不用等AGI，就能通過實(shí)際將現(xiàn)有技術(shù)確定明確的、提升范圍可控的業(yè)務(wù)問題，就能夠獲得顯著的生產(chǎn)力。

文/林白

PS：如果你對(duì)AI大模型領(lǐng)域有獨(dú)特的看法，歡迎掃碼加入我們的大模型交流群。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.