国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic:大模型 benchmark 打分不適用 AI agent 評(píng)測(cè)

0
分享至

最近,Anthropic 發(fā)了一篇不太像“技術(shù)博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評(píng)測(cè)的迷霧)》,基本可視為一份“Agent 時(shí)代的產(chǎn)品生存指南”。


這篇文章背后隱含的一個(gè)判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來評(píng)估它,那基本就是在扯淡。

Agent 的問題,不是模型準(zhǔn)不準(zhǔn),而是它會(huì)不會(huì)在真實(shí)世界里,把事情搞砸。

Anthropic 在文中反復(fù)強(qiáng)調(diào)一個(gè)現(xiàn)實(shí):隨著 AI 從“一次性回答問題”,走向“長(zhǎng)時(shí)間自主行動(dòng)”,系統(tǒng)的失敗方式已經(jīng)發(fā)生了根本變化。

錯(cuò)誤不再是“答錯(cuò)一道題”,而是一步小錯(cuò)、持續(xù)放大,最終造成不可逆后果。

比如一個(gè)研究型 Agent,早期一次資料篩選偏差,后面所有推理都會(huì)建立在錯(cuò)誤前提上;

又比如一個(gè)自動(dòng)化 Agent,在工具調(diào)用上出現(xiàn)微小誤判,卻在長(zhǎng)鏈條任務(wù)中不斷復(fù)制這種錯(cuò)誤。

這些問題,用傳統(tǒng)的評(píng)測(cè)方式幾乎是測(cè)不出來的。

Anthropic 直接點(diǎn)破了一個(gè)行業(yè)誤區(qū):我們過去評(píng)估 AI,更像是在給“考試機(jī)器”打分;但 Agent 更像一個(gè)“實(shí)習(xí)生”,你真正關(guān)心的是——它在真實(shí)任務(wù)里能不能被信任。

所以,Anthropic提出,其核心不是“怎么跑 評(píng)測(cè)”,而是評(píng)測(cè)到底應(yīng)該服務(wù)什么目標(biāo)。

他們給出的第一個(gè)關(guān)鍵轉(zhuǎn)向是,從靜態(tài)結(jié)果評(píng)測(cè),轉(zhuǎn)向過程與行為評(píng)測(cè)。

在 Agent 系統(tǒng)中,最終結(jié)果是否正確固然重要,但遠(yuǎn)遠(yuǎn)不夠。更關(guān)鍵的是:


  • 它是否遵循了預(yù)期的決策路徑

  • 是否在不確定時(shí)主動(dòng)求證

  • 是否在失敗后調(diào)整策略

  • 是否在高風(fēng)險(xiǎn)節(jié)點(diǎn)表現(xiàn)得足夠保守

換句話說,評(píng)測(cè)不只是“對(duì)不對(duì)”,而是“像不像一個(gè)你敢用的 Agent”。


第二個(gè)非?,F(xiàn)實(shí)的判斷是:Agent 的 評(píng)測(cè)永遠(yuǎn)不可能一次性完成。

Anthropic 明確指出,Agent 的評(píng)估是一個(gè)“持續(xù)對(duì)抗”的過程。

你修復(fù)了一個(gè)失敗模式,很可能立刻引入一個(gè)新的失敗方式。

這點(diǎn)對(duì)所有做產(chǎn)品的人都很殘酷,也很真實(shí):Agent 并不存在“評(píng)測(cè)通過 → 可以放心上線”的時(shí)刻,只有“暫時(shí)可控”。

因此,Anthropic建議,把評(píng)測(cè)變成和訓(xùn)練、部署同等重要的基礎(chǔ)設(shè)施,而不是發(fā)布前的一個(gè)檢查項(xiàng)。

第三個(gè)被反復(fù)強(qiáng)調(diào)的觀點(diǎn)是:不要迷信自動(dòng)化評(píng)測(cè)。

在 Agent 場(chǎng)景下,純自動(dòng)評(píng)測(cè)往往會(huì)遺漏最危險(xiǎn)的問題。

很多真正致命的錯(cuò)誤,只能通過人工設(shè)計(jì)的 adversarial 測(cè)試、失敗案例復(fù)盤、極端場(chǎng)景模擬才能發(fā)現(xiàn)。

Anthropic 的態(tài)度非常清醒:評(píng)測(cè)不是為了證明系統(tǒng)“很強(qiáng)”,而是為了盡可能早地發(fā)現(xiàn)“它會(huì)怎么翻車”。

這和當(dāng)前行業(yè)大量“Agent Demo 導(dǎo)向”的做法,形成了非常鮮明的對(duì)比。

Anthropic幾乎是為整個(gè) AI 應(yīng)用層敲了警鐘:當(dāng) AI 開始替人“做事”,而不是“回答問題”,評(píng)估體系本身就變成了安全邊界的一部分。

這也是為什么 Anthropic 會(huì)把評(píng)測(cè)提到如此高的戰(zhàn)略位置——不是工程細(xì)節(jié),而是產(chǎn)品能不能活下去的問題。

對(duì)創(chuàng)業(yè)者來說,可以反思的是,未來 AI Agent 的競(jìng)爭(zhēng),不只是在模型、算力或功能完整度上,而是在誰更早建立起一套可靠的“可控性與信任機(jī)制”。

而評(píng)測(cè),正是這套機(jī)制的第一道防線。

原文鏈接(Anthropic 官方):

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
遺憾!3次活命機(jī)會(huì)都沒抓?。堁┓迦ナ狼?,倒地30分鐘才被發(fā)現(xiàn)

遺憾!3次活命機(jī)會(huì)都沒抓??!張雪峰去世前,倒地30分鐘才被發(fā)現(xiàn)

奇思妙想草葉君
2026-03-26 02:36:58
蘇敏旅游6年后完全認(rèn)不出,連面相都變了,網(wǎng)友:這16萬花得值!

蘇敏旅游6年后完全認(rèn)不出,連面相都變了,網(wǎng)友:這16萬花得值!

一盅情懷
2026-03-27 16:43:32
向隊(duì)傷無大礙!三大主力怒贊朝鮮節(jié)奏快 蓉城新星太強(qiáng) 木塔快廢了

向隊(duì)傷無大礙!三大主力怒贊朝鮮節(jié)奏快 蓉城新星太強(qiáng) 木塔快廢了

刀鋒體育
2026-03-29 10:38:44
不結(jié)婚怎么解決生理需求?33歲的女頂流楊紫,用六個(gè)字道破真相!

不結(jié)婚怎么解決生理需求?33歲的女頂流楊紫,用六個(gè)字道破真相!

丁丁鯉史紀(jì)
2026-03-08 16:53:30
2026年了,是誰還在花冤枉錢,買這些即將被淘汰的電器!

2026年了,是誰還在花冤枉錢,買這些即將被淘汰的電器!

家居設(shè)計(jì)師宅哥
2026-03-28 22:46:11
日本敢開第一槍?47噸底牌曝光!美航母后撤,解放軍導(dǎo)彈覆蓋全島

日本敢開第一槍?47噸底牌曝光!美航母后撤,解放軍導(dǎo)彈覆蓋全島

林子說事
2026-03-26 14:22:49
離婚7年,39歲楊冪高調(diào)宣布喜訊,和前夫劉愷威已經(jīng)拉開距離

離婚7年,39歲楊冪高調(diào)宣布喜訊,和前夫劉愷威已經(jīng)拉開距離

不似少年游
2026-02-27 17:13:26
到底誰在說阿嬌漂亮女神?高瘦白一樣都不占,本人個(gè)子很矮很幻滅

到底誰在說阿嬌漂亮女神?高瘦白一樣都不占,本人個(gè)子很矮很幻滅

無處遁形
2026-03-19 22:09:03
人體缺什么維生素會(huì)長(zhǎng)白頭發(fā)呢?怎么防止白發(fā)出現(xiàn)?看完就明白了

人體缺什么維生素會(huì)長(zhǎng)白頭發(fā)呢?怎么防止白發(fā)出現(xiàn)?看完就明白了

健康之光
2026-03-22 22:35:08
再年輕也沒用!湖南34歲滕志強(qiáng)去世,死因曝光,曾多次為國(guó)征戰(zhàn)!

再年輕也沒用!湖南34歲滕志強(qiáng)去世,死因曝光,曾多次為國(guó)征戰(zhàn)!

霽寒飄雪
2026-03-07 09:40:07
蕭敬騰與林有慧巴塞羅那街頭被偶遇,素顏狀態(tài)真實(shí),年齡差藏不住

蕭敬騰與林有慧巴塞羅那街頭被偶遇,素顏狀態(tài)真實(shí),年齡差藏不住

暖心萌阿菇?jīng)?/span>
2026-03-29 09:13:41
百度和高德地圖對(duì)比怎樣?網(wǎng)友的評(píng)論真是讓我有了選擇

百度和高德地圖對(duì)比怎樣?網(wǎng)友的評(píng)論真是讓我有了選擇

侃神評(píng)故事
2026-02-22 11:45:03
別被“某音”前凸后翹的網(wǎng)紅騙了

別被“某音”前凸后翹的網(wǎng)紅騙了

健身S叔
2026-03-22 11:12:04
吳千語真的嫁對(duì)了人,至少老公不用人到中年還在舞臺(tái)擦邊丟人現(xiàn)眼

吳千語真的嫁對(duì)了人,至少老公不用人到中年還在舞臺(tái)擦邊丟人現(xiàn)眼

可樂談情感
2026-03-28 16:53:28
張雪峰追悼會(huì)市民排長(zhǎng)隊(duì)送別,網(wǎng)友:這場(chǎng)面還能說百姓仇富嗎?

張雪峰追悼會(huì)市民排長(zhǎng)隊(duì)送別,網(wǎng)友:這場(chǎng)面還能說百姓仇富嗎?

映射生活的身影
2026-03-28 17:07:39
太壕了!有人把黿頭渚包了!

太壕了!有人把黿頭渚包了!

無錫eTV全媒體
2026-03-29 11:38:43
不再沉默!抵抗之弧集體覺醒,以色列的噩夢(mèng)開始了

不再沉默!抵抗之弧集體覺醒,以色列的噩夢(mèng)開始了

步論天下事
2026-03-28 16:21:38
“沉睡”的10萬億元公積金

“沉睡”的10萬億元公積金

吳曉波頻道
2026-03-28 08:33:28
善惡有報(bào)!逼人民日?qǐng)?bào)怒批、暗諷張雪峰,1300萬網(wǎng)紅終為荒唐買單

善惡有報(bào)!逼人民日?qǐng)?bào)怒批、暗諷張雪峰,1300萬網(wǎng)紅終為荒唐買單

蔡蔡說史
2026-03-28 16:50:54
日本警視廳對(duì)強(qiáng)闖我駐日使館不法之徒所屬部隊(duì)駐地等展開搜查

日本警視廳對(duì)強(qiáng)闖我駐日使館不法之徒所屬部隊(duì)駐地等展開搜查

環(huán)球網(wǎng)資訊
2026-03-29 07:52:04
2026-03-29 13:36:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測(cè)
466文章數(shù) 69關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

頭條要聞

網(wǎng)約車司機(jī)被騙網(wǎng)貸后車內(nèi)輕生:我不想死 但扛不住了

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

張凌赫事件持續(xù)升級(jí)!官方點(diǎn)名怒批

財(cái)經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

健康
數(shù)碼
親子
游戲
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

數(shù)碼要聞

曝華為多品類紫色新品將陸續(xù)推出 “幻影紫”平板已開售

親子要聞

睡著的兩個(gè)姐妹,不安分的小樣,媽媽在旁邊心被萌化!

《428~被封鎖的澀谷~》主創(chuàng)新作眾籌5400萬日元 被平臺(tái)扣下一半

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版