国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic:大模型 benchmark 打分不適用 AI agent 評測

0
分享至

最近,Anthropic 發(fā)了一篇不太像“技術(shù)博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評測的迷霧)》,基本可視為一份“Agent 時代的產(chǎn)品生存指南”。


這篇文章背后隱含的一個判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來評估它,那基本就是在扯淡。

Agent 的問題,不是模型準(zhǔn)不準(zhǔn),而是它會不會在真實世界里,把事情搞砸。

Anthropic 在文中反復(fù)強(qiáng)調(diào)一個現(xiàn)實:隨著 AI 從“一次性回答問題”,走向“長時間自主行動”,系統(tǒng)的失敗方式已經(jīng)發(fā)生了根本變化。

錯誤不再是“答錯一道題”,而是一步小錯、持續(xù)放大,最終造成不可逆后果。

比如一個研究型 Agent,早期一次資料篩選偏差,后面所有推理都會建立在錯誤前提上;

又比如一個自動化 Agent,在工具調(diào)用上出現(xiàn)微小誤判,卻在長鏈條任務(wù)中不斷復(fù)制這種錯誤。

這些問題,用傳統(tǒng)的評測方式幾乎是測不出來的。

Anthropic 直接點破了一個行業(yè)誤區(qū):我們過去評估 AI,更像是在給“考試機(jī)器”打分;但 Agent 更像一個“實習(xí)生”,你真正關(guān)心的是——它在真實任務(wù)里能不能被信任。

所以,Anthropic提出,其核心不是“怎么跑 評測”,而是評測到底應(yīng)該服務(wù)什么目標(biāo)。

他們給出的第一個關(guān)鍵轉(zhuǎn)向是,從靜態(tài)結(jié)果評測,轉(zhuǎn)向過程與行為評測。

在 Agent 系統(tǒng)中,最終結(jié)果是否正確固然重要,但遠(yuǎn)遠(yuǎn)不夠。更關(guān)鍵的是:


  • 它是否遵循了預(yù)期的決策路徑

  • 是否在不確定時主動求證

  • 是否在失敗后調(diào)整策略

  • 是否在高風(fēng)險節(jié)點表現(xiàn)得足夠保守

換句話說,評測不只是“對不對”,而是“像不像一個你敢用的 Agent”。


第二個非?,F(xiàn)實的判斷是:Agent 的 評測永遠(yuǎn)不可能一次性完成。

Anthropic 明確指出,Agent 的評估是一個“持續(xù)對抗”的過程。

你修復(fù)了一個失敗模式,很可能立刻引入一個新的失敗方式。

這點對所有做產(chǎn)品的人都很殘酷,也很真實:Agent 并不存在“評測通過 → 可以放心上線”的時刻,只有“暫時可控”。

因此,Anthropic建議,把評測變成和訓(xùn)練、部署同等重要的基礎(chǔ)設(shè)施,而不是發(fā)布前的一個檢查項。

第三個被反復(fù)強(qiáng)調(diào)的觀點是:不要迷信自動化評測。

在 Agent 場景下,純自動評測往往會遺漏最危險的問題。

很多真正致命的錯誤,只能通過人工設(shè)計的 adversarial 測試、失敗案例復(fù)盤、極端場景模擬才能發(fā)現(xiàn)。

Anthropic 的態(tài)度非常清醒:評測不是為了證明系統(tǒng)“很強(qiáng)”,而是為了盡可能早地發(fā)現(xiàn)“它會怎么翻車”。

這和當(dāng)前行業(yè)大量“Agent Demo 導(dǎo)向”的做法,形成了非常鮮明的對比。

Anthropic幾乎是為整個 AI 應(yīng)用層敲了警鐘:當(dāng) AI 開始替人“做事”,而不是“回答問題”,評估體系本身就變成了安全邊界的一部分。

這也是為什么 Anthropic 會把評測提到如此高的戰(zhàn)略位置——不是工程細(xì)節(jié),而是產(chǎn)品能不能活下去的問題。

對創(chuàng)業(yè)者來說,可以反思的是,未來 AI Agent 的競爭,不只是在模型、算力或功能完整度上,而是在誰更早建立起一套可靠的“可控性與信任機(jī)制”。

而評測,正是這套機(jī)制的第一道防線。

原文鏈接(Anthropic 官方):

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張本美和奪冠后!采訪哭著給父親慶生,提到哥哥,未來規(guī)劃不簡單

張本美和奪冠后!采訪哭著給父親慶生,提到哥哥,未來規(guī)劃不簡單

生活新鮮市
2026-01-27 09:42:03
1996年,姚文元出獄后,向中央提兩個請求,第二個被一口回絕

1996年,姚文元出獄后,向中央提兩個請求,第二個被一口回絕

雍親王府
2025-11-15 21:50:03
馬化騰罕見批評豆包手機(jī),豆包瑟瑟發(fā)抖地回應(yīng)了

馬化騰罕見批評豆包手機(jī),豆包瑟瑟發(fā)抖地回應(yīng)了

開柒
2026-01-27 10:59:50
最早本周開打?美國計劃對懲處抗議者的伊朗要員進(jìn)行定點清除

最早本周開打?美國計劃對懲處抗議者的伊朗要員進(jìn)行定點清除

項鵬飛
2026-01-27 18:29:43
又一輪雨雪天氣來了?山東多地局部將迎小雨雪 | 冬季天氣行車安全指南

又一輪雨雪天氣來了?山東多地局部將迎小雨雪 | 冬季天氣行車安全指南

齊魯壹點
2026-01-27 16:52:31
佛山路邊停車收費出“奇招”,被稱“吃相難看”

佛山路邊停車收費出“奇招”,被稱“吃相難看”

中國新聞周刊
2026-01-26 16:47:50
柬埔寨外交部回應(yīng)陳志被遣返中國:合法合規(guī),彰顯持續(xù)加強(qiáng)合作打擊跨國犯罪

柬埔寨外交部回應(yīng)陳志被遣返中國:合法合規(guī),彰顯持續(xù)加強(qiáng)合作打擊跨國犯罪

界面新聞
2026-01-27 14:48:21
這位興化籍干部在南京被查!

這位興化籍干部在南京被查!

興化論壇
2026-01-27 16:25:11
12歲玥兒穿價值7000元外套,很貴氣!越長越像大S

12歲玥兒穿價值7000元外套,很貴氣!越長越像大S

大眼妹妹
2026-01-27 08:40:10
@遼寧人,又要下雪了!范圍很大↘

@遼寧人,又要下雪了!范圍很大↘

沈陽生活圈i
2026-01-27 15:51:17
專家提醒:不要買!不要吃!里面含有硼砂,危害健康,別害了自己

專家提醒:不要買!不要吃!里面含有硼砂,危害健康,別害了自己

蜉蝣說
2025-10-31 10:56:39
1956年,江青赴蘇聯(lián)治病,向接診的醫(yī)生坦言:我和毛澤東同志是政治夫妻

1956年,江青赴蘇聯(lián)治病,向接診的醫(yī)生坦言:我和毛澤東同志是政治夫妻

寄史言志
2026-01-27 10:57:11
紀(jì)實:蘿莉島驚人丑聞!愛潑斯坦員工透露細(xì)節(jié),無名氏36號竟是他

紀(jì)實:蘿莉島驚人丑聞!愛潑斯坦員工透露細(xì)節(jié),無名氏36號竟是他

談史論天地
2026-01-26 18:15:03
14歲陳佳銘已昏迷超30天,上海專家會診后,確認(rèn)無生還希望

14歲陳佳銘已昏迷超30天,上海專家會診后,確認(rèn)無生還希望

法老不說教
2026-01-27 17:15:33
夠硬!CBA聯(lián)盟犯規(guī)第一球隊,近12戰(zhàn)11勝,晉京廈3強(qiáng),全贏了個遍

夠硬!CBA聯(lián)盟犯規(guī)第一球隊,近12戰(zhàn)11勝,晉京廈3強(qiáng),全贏了個遍

金山話體育
2026-01-27 17:39:10
孟鶴堂用半年商演的全部收入,買了件38萬的蟒袍送給郭德綱。

孟鶴堂用半年商演的全部收入,買了件38萬的蟒袍送給郭德綱。

荊楚寰宇文樞
2026-01-25 23:08:14
孫濤崩潰大哭發(fā)聲不到24小時,荒唐的一幕出現(xiàn),閆學(xué)晶把他害慘了

孫濤崩潰大哭發(fā)聲不到24小時,荒唐的一幕出現(xiàn),閆學(xué)晶把他害慘了

往史過眼云煙
2026-01-27 19:55:55
尼克松訪華的國宴上,毛澤東特意加了三道菜,周恩來則用茅臺敬酒

尼克松訪華的國宴上,毛澤東特意加了三道菜,周恩來則用茅臺敬酒

春秋硯
2026-01-27 16:30:03
五代十國傻傻的分不清?帶你理清五代皇帝,搞懂54年的五代歷史

五代十國傻傻的分不清?帶你理清五代皇帝,搞懂54年的五代歷史

長風(fēng)文史
2025-12-25 10:40:12
1949年蔣介石率部退守臺灣,當(dāng)時他手里到底還剩多少兵力?答案簡直讓人難以置信

1949年蔣介石率部退守臺灣,當(dāng)時他手里到底還剩多少兵力?答案簡直讓人難以置信

史海孤雁
2026-01-26 15:10:17
2026-01-27 21:00:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評測
421文章數(shù) 40關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

回?fù)籼乩势?印度與歐盟達(dá)成"史上最大規(guī)模協(xié)議"

頭條要聞

回?fù)籼乩势?印度與歐盟達(dá)成"史上最大規(guī)模協(xié)議"

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

時尚
本地
數(shù)碼
旅游
健康

跟著這些古早變美綜藝,真的能學(xué)到東西啊

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

數(shù)碼要聞

Sharkoon旋剛247元推出入門級SKILLER SGB15鍵鼠套裝

旅游要聞

香港將舉辦新春國際匯演之夜活動

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

無障礙瀏覽 進(jìn)入關(guān)懷版