国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

20個(gè)企業(yè)級(jí)案例揭示Agent落地真相:閉源模型吃掉85%,手搓代碼替代LangChain

0
分享至


加州大學(xué)伯克利分校(UC Berkeley)剛剛發(fā)布了一份重磅論文:《Measuring Agents in Production》。

論文地址:https://arxiv.org/pdf/2512.04123

這份論文,基于來自全球的真實(shí)請(qǐng)求:306名從業(yè)者深度調(diào)研,20個(gè)企業(yè)級(jí)部署案例,覆蓋 26 個(gè)行業(yè)。

這是AI Agent 領(lǐng)域,迄今最大規(guī)模的實(shí)證研究。

最核心的三個(gè)信息:


生產(chǎn)力提升是Agent 落地的第一推動(dòng)力;

閉源模型、人工Prompt 和受控流程是當(dāng)前的“通行公式”;

可靠性是最大的攔路虎,人工審核依然不可或缺;

這份報(bào)告信息非常多,容我慢慢道來。

73%為生產(chǎn)力買單,金融成Agent 第一戰(zhàn)場(chǎng)

先說一個(gè)數(shù)字:

73%的從業(yè)者表示,部署Agent的首要目的是“提高生產(chǎn)力”。


其他的動(dòng)機(jī)也非常務(wù)實(shí):63.6%是為了減少人工工時(shí),50% 是為了自動(dòng)化常規(guī)勞動(dòng)。

形成對(duì)比的是,那些難以量化的質(zhì)性收益,如“風(fēng)險(xiǎn)規(guī)避”(12.1%)和“加速故障響應(yīng)”(18.2%),排名則相對(duì)靠后。

也就是說,Agent 的落地,優(yōu)先于那些能帶來直接、可量化回報(bào)的場(chǎng)景,那些價(jià)值難以估量的質(zhì)性改進(jìn),目前還得往后稍稍。

從應(yīng)用場(chǎng)景看,Agent早已走出寫代碼或聊天機(jī)器人,深入到了更嚴(yán)肅的商業(yè)流程中。


其中,金融與銀行業(yè)是第一大戰(zhàn)場(chǎng),占比39.1% 其次是科技(24.6%)和企業(yè)服務(wù)(23.2%) 。

除了這些,Agent 還在很多意想不到的地方落地:


保險(xiǎn)理賠流程自動(dòng)化:代理人負(fù)責(zé)處理從保單查詢到風(fēng)險(xiǎn)識(shí)別的序列排序流程。

生物醫(yī)學(xué)工作流自動(dòng)化:在科學(xué)發(fā)現(xiàn)領(lǐng)域,Agent 用于自動(dòng)化執(zhí)行復(fù)雜的實(shí)驗(yàn)和數(shù)據(jù)分析流程。

企業(yè)內(nèi)部運(yùn)營(yíng)支持:涵蓋人力資源信息搜索、站點(diǎn)故障事件診斷等多個(gè)方面。

這些跨行業(yè)的成功案例證明,AI Agent已經(jīng)具備解決真實(shí)世界復(fù)雜問題的能力,并正在創(chuàng)造切實(shí)的商業(yè)價(jià)值。

在實(shí)際業(yè)務(wù)場(chǎng)景里,Agent 目前的角色,更像是人類的“超級(jí)實(shí)習(xí)生”。


92.5%的Agent 直接服務(wù)于人類用戶,其中52.2%是服務(wù)于企業(yè)內(nèi)部員工 。

為什么大部分是內(nèi)部員工在用?因?yàn)樵诮M織內(nèi)部,錯(cuò)誤后果可控,而且隨時(shí)有人盯著。只有7.5%的Agent 是服務(wù)于其他軟件系統(tǒng)的,Agent 之間的全自動(dòng)交互還很遙遠(yuǎn)。

與很多想象的不一樣,Agent的響應(yīng)速度并不是客戶最先考慮的問題。在生產(chǎn)環(huán)境中,66%的系統(tǒng)允許分鐘級(jí)甚至更長(zhǎng)的響應(yīng)時(shí)間。

原因很簡(jiǎn)單:相比于人類完成任務(wù)需要的數(shù)小時(shí)或數(shù)天,Agent 花幾分鐘仍然是巨大的效率提升。這意味著,開發(fā)團(tuán)隊(duì)可以將重心放在提升輸出的質(zhì)量和可靠性上,而不是犧牲能力去追求極限的低延遲。

生產(chǎn)級(jí)Agent 的“極簡(jiǎn)主義”:拒絕微調(diào),死磕 Prompt

與學(xué)術(shù)界對(duì)復(fù)雜自主Agent的探索形成對(duì)比,生產(chǎn)級(jí)AI Agent的構(gòu)建哲學(xué)是“大道至簡(jiǎn)”。

從業(yè)者優(yōu)先選擇簡(jiǎn)單、可控、可維護(hù)的技術(shù)路徑,以最大程度地系統(tǒng)的可靠性。這種務(wù)實(shí)的工程選擇貫穿于模型選型、技術(shù)實(shí)現(xiàn)、核心架構(gòu)和框架使用的方方面面。

在模型選擇上,閉源是絕對(duì)主流


在20個(gè)深度案例中,85%(17個(gè))使用了閉源模型 Anthropic 的 Claude 系列和 OpenAI 的 GPT 系列是首選。

選擇閉源的核心邏輯是效率。對(duì)于輔助專家(如醫(yī)生、高級(jí)工程師)的Agent來說,推理成本相比人力成本幾乎可以忽略不計(jì),因此團(tuán)隊(duì)傾向于選擇最強(qiáng)的模型。

開源模型更多被認(rèn)為是特定場(chǎng)景下的補(bǔ)充。只要在滿足嚴(yán)格約束條件時(shí),團(tuán)隊(duì)才會(huì)選擇開源模型,一般來說兩種情況比較常見:


成本效益:對(duì)于需要大規(guī)模、高推理的場(chǎng)景,自托管開源模型的成本優(yōu)勢(shì)凸顯。

數(shù)據(jù)隱私:受法規(guī)或企業(yè)政策限制,當(dāng)敏感數(shù)據(jù)無法突破外接環(huán)境時(shí),開源模型成為唯一選擇。

與模型選擇一樣,從業(yè)者在技術(shù)路徑上也傾向于更簡(jiǎn)單、迭代更快的方法:拒絕微調(diào),死磕Prompt

學(xué)術(shù)界熱衷的微調(diào)(Fine-tuning)和強(qiáng)化學(xué)習(xí)(RL),在實(shí)際應(yīng)用場(chǎng)景里極少使用。其中70%的案例直接使用現(xiàn)成模型,完全不進(jìn)行權(quán)重微調(diào)。

大家的精力都花哪了?花在寫Prompt 上。


78%的系統(tǒng)采用全手動(dòng)或手動(dòng)+AI 輔助的方式構(gòu)建 Prompt 生產(chǎn)環(huán)境的。Prompt 可能會(huì)非常長(zhǎng),12%的Prompt超過了10,000個(gè)Token。

這也說明,從業(yè)者更相信自己手寫的規(guī)則,而不是自動(dòng)優(yōu)化工具(如DSPy)。

為了降低Agent的不可控性,生產(chǎn)級(jí)Agent的自主性被嚴(yán)格限制在可控范圍內(nèi)。


68%的系統(tǒng)在需要人工干預(yù)前,執(zhí)行步驟不超過10步,甚至有47%的系統(tǒng)少于5步。

為什么要限制?主要有三個(gè)原因:


保證可靠性:步數(shù)越多,錯(cuò)誤越容易累積;

控制成本:API 調(diào)用不是免費(fèi)的;

控制延遲:每多一步,用戶就得多等一會(huì);

所以,80%的案例采用了預(yù)定義的靜態(tài)工作流 比如一個(gè)保險(xiǎn)Agent,它的流程是固定的:查詢保障 -> 審查必要性 -> 識(shí)別風(fēng)險(xiǎn)。 Agent只能在已有的流程里做決定,不能自己發(fā)明新的步驟。

另一個(gè)比較有意思的現(xiàn)象是,在問卷調(diào)查里,60%的人說愿意用第三方框架(LangChain 等),但在實(shí)際案例里,85%的團(tuán)隊(duì)選擇完全自研,直接調(diào)模型API。

為什么?為了減少依賴臃腫(dependency bloat),為了獲得對(duì)系統(tǒng)的完全控制權(quán)。

這種對(duì)定制化解決方案的強(qiáng)烈偏好揭示了企業(yè)級(jí)Agent系統(tǒng)的一個(gè)關(guān)鍵成熟度指標(biāo):從通用框架向深度集成、定制定制的編排引擎演進(jìn),使得這些系統(tǒng)正成為關(guān)鍵任務(wù)基礎(chǔ),需要現(xiàn)有工具無法提供的控制水平。

學(xué)術(shù)榜單“失靈”,75% 的團(tuán)隊(duì)放棄基準(zhǔn)測(cè)試

基準(zhǔn)測(cè)試幾乎沒有任何參考價(jià)值。

其中,75%的團(tuán)隊(duì)完全不使用基準(zhǔn)測(cè)試。因?yàn)槊總€(gè)企業(yè)的業(yè)務(wù)都太特殊了,公開的學(xué)術(shù)榜單毫無參考價(jià)值。

剩下25%的團(tuán)隊(duì),選擇從零開始構(gòu)建自己的自定義基準(zhǔn)。

在這種情況下,人工循環(huán)驗(yàn)證(Human-in-the-loop)是主導(dǎo)的評(píng)估方法,被74.2%的從業(yè)者采用。


在開發(fā)階段,領(lǐng)域?qū)<抑苯訉彶楹万?yàn)證系統(tǒng)輸出的正確性、安全性和可靠性。比如,醫(yī)療專家逐一驗(yàn)證醫(yī)療保健代理生成的診斷建議,是否符合臨床標(biāo)準(zhǔn)。

在運(yùn)行階段,人類作為最終決策者,基于Agent提供的建議和分析采取的行動(dòng),充當(dāng)最后一個(gè)安全護(hù)欄。比如,站點(diǎn)修復(fù)工程師根據(jù)代理生成的故障分析報(bào)告,最終決定執(zhí)行哪些修復(fù)操作。

還有另一種評(píng)估方法:自動(dòng)化評(píng)估(LLM-as-a-Judge)。其典型工作流程如下:


1. Agent生成一個(gè)輸出。

2.一個(gè)“裁判”LLM對(duì)輸出進(jìn)行評(píng)估,并給出一個(gè)置信度分?jǐn)?shù)。

3.高分輸出被自動(dòng)接受,低分輸出則被路由給人類專家進(jìn)行審查。

4.同時(shí),專家會(huì)定期進(jìn)行饑餓檢查那些被自動(dòng)接受的高分輸出,以監(jiān)控“裁判”LLM的表現(xiàn),形成一個(gè)人類持續(xù)布局的閉環(huán)反饋。

雖然這種方法也有很多人在用,但沒人敢完全信任它。

51.6%的團(tuán)隊(duì)使用了LLM 當(dāng)裁判,但所有這些團(tuán)隊(duì)都結(jié)合了人工驗(yàn)證。一個(gè)典型的做法是:LLM 給個(gè)分,高分的自動(dòng)通過,低分的轉(zhuǎn)人工;同時(shí)人工還會(huì)定期抽查高分樣本。

/ 04 /

核心挑戰(zhàn):可靠性,可靠性,還是可靠性

可靠性是頭號(hào)大敵37.9% 的人把“核心技術(shù)問題”(可靠性、魯棒性)列為頭號(hào)挑戰(zhàn),遠(yuǎn)超合規(guī)性(17.2%)和治理問題(3.4%)。

為什么這么難?


基準(zhǔn)難建:數(shù)據(jù)稀缺、成本高昂、高度定制化;

測(cè)試難做:Agent 的非確定性讓傳統(tǒng)的單元測(cè)試失效了;

反饋太慢:很多時(shí)候,你不知道Agent 錯(cuò)了,結(jié)果直到幾個(gè)月后才出現(xiàn);

與可靠性相比,安全與合規(guī)性問題被認(rèn)為是次要問題。原因是,它們通??梢酝ㄟ^“約束設(shè)計(jì)”解決。常見的“約束設(shè)計(jì)”有以下四種:

1.復(fù)雜修改操作:嚴(yán)格限制Agent只能讀取數(shù)據(jù),界面允許其生產(chǎn)環(huán)境的狀態(tài)。例如,一個(gè)站點(diǎn)可靠性(SRE)Agent可以分析日志并生成報(bào)告,但最終的修復(fù)操作必須由人類工程師執(zhí)行。

2.沙盒環(huán)境:將Agent部署在與生產(chǎn)系統(tǒng)隔離的沙盒環(huán)境中。Agent在沙盒內(nèi)生成并測(cè)試代碼或配置變更,只有在通過所有驗(yàn)證后,結(jié)果才會(huì)被同步到生產(chǎn)系統(tǒng)。

3.限制抽象層:在Agent和生產(chǎn)工具之間構(gòu)建一個(gè)API封裝層。這個(gè)抽象層只公開必要的功能,并隱藏了內(nèi)部實(shí)現(xiàn)的細(xì)節(jié),了Agent的潛在破壞范圍。

4.控制:嘗試讓Agent繼承發(fā)起請(qǐng)求的用戶的訪問權(quán)限。然而,實(shí)踐表明這仍然是一個(gè)挑戰(zhàn),因?yàn)锳gent在調(diào)用工具時(shí)可能會(huì)繞過或遇到與用戶權(quán)限不一致的細(xì)粒度控制。

/ 04 /

總結(jié):約束性部署的勝利

這份報(bào)告揭示了一個(gè)核心悖論:

可靠性明明是最大挑戰(zhàn),為什么這些系統(tǒng)還能上線?

答案是:“約束性部署”(Constrained Deployment)。實(shí)現(xiàn)“約束性部署”的具體模式包括:

環(huán)境約束:將Agent部署于復(fù)雜模式、內(nèi)部網(wǎng)絡(luò)或與生產(chǎn)隔離的沙盒環(huán)境中,從源頭上杜絕了Agent對(duì)關(guān)鍵系統(tǒng)的直接破壞風(fēng)險(xiǎn)。

自主性約束:將Agent的行為限定在少于10個(gè)步驟的構(gòu)成、預(yù)定義工作流程內(nèi),避免了因長(zhǎng)期自主探索而導(dǎo)致的不可預(yù)測(cè)行為和錯(cuò)誤累積。

人工:監(jiān)督將專家安置決策回路的關(guān)鍵節(jié)點(diǎn),設(shè)置成為代理輸出的最終驗(yàn)證者和執(zhí)行者,構(gòu)成了最后一個(gè)、也是人類最加固的一個(gè)安全防線。

另一個(gè)重要的啟示是,僅利用現(xiàn)有的前沿大模型和相對(duì)簡(jiǎn)單的提示工程技術(shù),就足以在超過26個(gè)不同行業(yè)中創(chuàng)造出可觀的、可量化的商業(yè)價(jià)值。

這意味著,企業(yè)不用等AGI,就能通過實(shí)際將現(xiàn)有技術(shù)確定明確的、提升范圍可控的業(yè)務(wù)問題,就能夠獲得顯著的生產(chǎn)力。

文/林白

PS:如果你對(duì)AI大模型領(lǐng)域有獨(dú)特的看法,歡迎掃碼加入我們的大模型交流群。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
13歲女孩冰窟救男童 中央政法委通報(bào)表揚(yáng)

13歲女孩冰窟救男童 中央政法委通報(bào)表揚(yáng)

環(huán)球網(wǎng)資訊
2026-01-12 17:27:23
內(nèi)蒙古自治區(qū)黨委組織部部長(zhǎng)調(diào)整

內(nèi)蒙古自治區(qū)黨委組織部部長(zhǎng)調(diào)整

上觀新聞
2026-01-12 17:34:12
高市斗不過中國(guó),邀6國(guó)反華,馬克龍打退堂鼓,得罪中方代價(jià)太重

高市斗不過中國(guó),邀6國(guó)反華,馬克龍打退堂鼓,得罪中方代價(jià)太重

基斯默默
2026-01-12 14:07:46
新華社快訊:伊朗外長(zhǎng)說伊朗安全部隊(duì)已控制全國(guó)局勢(shì)

新華社快訊:伊朗外長(zhǎng)說伊朗安全部隊(duì)已控制全國(guó)局勢(shì)

新華社
2026-01-12 15:33:03
特朗普發(fā)圖自稱委內(nèi)瑞拉代總統(tǒng)

特朗普發(fā)圖自稱委內(nèi)瑞拉代總統(tǒng)

界面新聞
2026-01-12 11:13:10
上海寶山宜家等突然宣布閉店,現(xiàn)場(chǎng)排起長(zhǎng)隊(duì),網(wǎng)友:勸大家不要去了

上海寶山宜家等突然宣布閉店,現(xiàn)場(chǎng)排起長(zhǎng)隊(duì),網(wǎng)友:勸大家不要去了

河南交通廣播1041
2026-01-12 14:01:47
庫里31+5勇士不敵老鷹結(jié)束連勝,巴特勒30+7+6約翰遜23+11

庫里31+5勇士不敵老鷹結(jié)束連勝,巴特勒30+7+6約翰遜23+11

湖人崛起
2026-01-12 11:58:38
對(duì)話印奇:抓住“想做、能做、可做”的閃現(xiàn)時(shí)刻,決勝智駕淘汰賽

對(duì)話印奇:抓住“想做、能做、可做”的閃現(xiàn)時(shí)刻,決勝智駕淘汰賽

晚點(diǎn)LatePost
2026-01-10 16:02:36
開盤20分鐘兩市成交額突破1萬億 預(yù)計(jì)全天成交超3.8萬億

開盤20分鐘兩市成交額突破1萬億 預(yù)計(jì)全天成交超3.8萬億

財(cái)聯(lián)社
2026-01-12 09:52:29
以色列最新涉華表態(tài)

以色列最新涉華表態(tài)

第一財(cái)經(jīng)資訊
2026-01-11 18:39:00
美聯(lián)儲(chǔ)主席鮑威爾回應(yīng)遭刑事調(diào)查:大樓翻修工程只是借口,本質(zhì)是關(guān)于利率政策制定

美聯(lián)儲(chǔ)主席鮑威爾回應(yīng)遭刑事調(diào)查:大樓翻修工程只是借口,本質(zhì)是關(guān)于利率政策制定

澎湃新聞
2026-01-12 09:24:26
上千網(wǎng)友到合川幫女孩殺豬,車子從村頭停到了村尾,主廚:這么多張嘴掛身上,壓力太大了

上千網(wǎng)友到合川幫女孩殺豬,車子從村頭停到了村尾,主廚:這么多張嘴掛身上,壓力太大了

極目新聞
2026-01-12 13:44:34
一路向南,告別Z99次列車!

一路向南,告別Z99次列車!

新民晚報(bào)
2026-01-12 13:23:24
內(nèi)外交困:哈梅內(nèi)伊為什么不驚慌?

內(nèi)外交困:哈梅內(nèi)伊為什么不驚慌?

十柱
2026-01-11 22:23:36
暴風(fēng)驟雨!伊朗抗議者死亡增至2000人,教士集團(tuán)稱24小時(shí)造出核彈

暴風(fēng)驟雨!伊朗抗議者死亡增至2000人,教士集團(tuán)稱24小時(shí)造出核彈

史政先鋒
2026-01-12 14:37:19
韓空難致179人死,失事前75秒黑匣子錄音首次公布,調(diào)查稱若飛機(jī)沒有撞墻全員可生還

韓空難致179人死,失事前75秒黑匣子錄音首次公布,調(diào)查稱若飛機(jī)沒有撞墻全員可生還

紅星新聞
2026-01-12 14:05:18
2026有線電視殺回來了!免費(fèi)換4K+無套路收費(fèi),全家都滿意

2026有線電視殺回來了!免費(fèi)換4K+無套路收費(fèi),全家都滿意

李博世財(cái)經(jīng)
2026-01-12 14:09:58
網(wǎng)傳某“降糖”中藥摻入西藥二甲雙胍,央視20年前就曝過類似案例

網(wǎng)傳某“降糖”中藥摻入西藥二甲雙胍,央視20年前就曝過類似案例

爆角追蹤
2026-01-12 11:00:49
加拿大總理卡尼將訪華

加拿大總理卡尼將訪華

界面新聞
2026-01-12 15:13:30
反轉(zhuǎn)了!居然全是演的!視頻已清空

反轉(zhuǎn)了!居然全是演的!視頻已清空

洪觀新聞
2026-01-12 11:16:01
2026-01-12 18:32:49
硅基觀察Pro incentive-icons
硅基觀察Pro
人工智能新時(shí)代的商業(yè)智庫和價(jià)值燈塔
787文章數(shù) 57關(guān)注度
往期回顧 全部

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國(guó)正面接招

頭條要聞

女子不會(huì)殺豬上千網(wǎng)友去幫忙 村干部:宰5頭豬吃流水席

頭條要聞

女子不會(huì)殺豬上千網(wǎng)友去幫忙 村干部:宰5頭豬吃流水席

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

閆學(xué)晶:脫離群眾太久 忘了自己的根

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

本地
數(shù)碼
藝術(shù)
公開課
軍事航空

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

數(shù)碼要聞

EPOMAKER預(yù)覽RT98鍵盤:小鍵盤模塊支持右置或左置

藝術(shù)要聞

畫完這組畫,他抑郁了,后來自殺了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

官方確認(rèn):殲10CE在空戰(zhàn)中擊落多架戰(zhàn)機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版