国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

你的模型評測搭子上線:Evaluation Agent懂你更懂AI

0
分享至



本文作者來自于上海人工智能實驗室與新加坡南洋理工大學(xué),分別是張凡、田淑琳、黃子琪,指導(dǎo)老師是喬宇老師與劉子緯老師。

怎么快速判斷一個生成模型好不好?

最直接的辦法當(dāng)然是 —— 去問一位做圖像生成、視頻生成、或者專門做評測的朋友。他們懂技術(shù)、有經(jīng)驗、眼光毒辣,能告訴你模型到底強(qiáng)在哪、弱在哪,適不適合你的需求。

但問題是:

  • 朋友太忙,沒法一條條幫你看;
  • 你問題太多,不只是想知道「好不好」,還想知道「哪里不好」「為啥好」「適不適合我」。

你需要一位專業(yè)、耐心、隨叫隨到的評估顧問。

于是,來自上海人工智能實驗室 & 南洋理工大學(xué) S-Lab 的研究者合作研發(fā)了一個AI 版本的「懂行朋友」——Evaluation Agent。

它不僅評測,還能聽你提問、為你定制測試、寫出人類專家一樣的分析報告。

  • 你問「它拍古風(fēng)視頻怎么樣?」,它就給你規(guī)劃方案;
  • 你問「懂光圈焦距嗎?」,它就設(shè)計針對測試;
  • 你想知道適不適合你,它還真能給出解釋。

這就是視覺生成模型評估的新范式:

Evaluation Agent 入選 ACL 2025 主會 Oral 論文。



  • 論文:https://arxiv.org/abs/2412.09645
  • 代碼:https://github.com/Vchitect/Evaluation-Agent
  • 網(wǎng)頁:https://vchitect.github.io/Evaluation-Agent-project/
  • 論文標(biāo)題:Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

為什么選擇 Evaluation Agent?

1. 可定制:你說關(guān)注點(diǎn),它來定方案。

不同人對生成模型有不同期待 —— 風(fēng)格?多樣性?一致性?

只需用自然語言說出你的關(guān)注點(diǎn),Evaluation Agent 就能:

  • 自動規(guī)劃合適的評估流程
  • 根據(jù)中間結(jié)果靈活調(diào)整評估方向
  • 針對性地深入分析你關(guān)心的能力維度

真正實現(xiàn)「按需評估」,服務(wù)你的具體任務(wù)。

2. 高效率:更少樣本,評得更快

傳統(tǒng)評估動輒需要幾千張樣本,Evaluation Agent 通過多輪交互式評估與智能采樣策略,大幅減少樣本數(shù)量。整體評估過程的耗時可以壓縮到傳統(tǒng)方法的 10% 左右,尤其適合在迭代開發(fā)中快速反饋。

3. 可解釋:讓評估結(jié)果說人話

結(jié)果不僅是表格和數(shù)字,Evaluation Agent 會以自然語言生成分析報告,不僅涵蓋模型能力的全面總結(jié),還能指出模型的局限性和改進(jìn)方向。

4. 可擴(kuò)展:支持不同任務(wù)、工具、指標(biāo)的集成

Evaluation Agent 是一個開放框架,支持集成新評估工具和指標(biāo),適用于不同的視覺生成任務(wù)(如圖片生成和視頻生成)。

框架工作原理



Evaluation Agent 框架主要由兩個階段組成:

1. 提案階段(Proposal Stage)

  • Plan Agent:分析用戶需求,動態(tài)規(guī)劃評估路徑。
  • PromptGen Agent:為每個子任務(wù)生成專屬的評估提示(prompt)。

這一階段的目標(biāo)是:根據(jù)你的關(guān)注點(diǎn),量身定制評估方案。

2. 執(zhí)行階段(Execution Stage)

框架利用視覺生成模型生成內(nèi)容,并通過相應(yīng)評估工具進(jìn)行質(zhì)量分析。

  • 視覺生成模型:根據(jù)上階段設(shè)計的 prompt 生成樣本
  • 評估工具包:根據(jù)提案階段的規(guī)劃選用合適的工具對采樣內(nèi)容進(jìn)行評估

3. 動態(tài)多輪交互

評估不是一次性完成的。Execution 階段的每一輪評估結(jié)果,都會反饋給 Proposal 階段,用于優(yōu)化后續(xù) prompt 和任務(wù)設(shè)置。通過這種多輪協(xié)同,Evaluation Agent 實現(xiàn)了對模型能力的動態(tài)、深入評估。

結(jié)果展示

1. 對比傳統(tǒng)評測框架



視頻生成模型評測效率上與 VBench 評測框架的對比



圖片生成模型評測效率上與 T2I-CompBench 評測框架的對比

研究團(tuán)隊在圖片生成任務(wù)(T2I)和視頻生成任務(wù)(T2V)上對 Evaluation Agent 進(jìn)行了全面驗證。結(jié)果表明,其評估效率顯著高于現(xiàn)有基準(zhǔn)框架(如 VBench、T2I-CompBench),相較于傳統(tǒng)的評測框架節(jié)省了 90% 以上的時間,且評估結(jié)果具有較高一致性。

2. 用戶開放式評估場景



對用戶開放問題評估的部分樣例

Evaluation Agent 不僅能夠高效評估模型的表現(xiàn),還能靈活處理用戶提出的個性化評估需求,例如:

  • 模型能否生成特定歷史場景的高質(zhì)量視頻?
  • 模型是否理解并能應(yīng)用焦距、光圈、ISO 等攝影概念?

在處理用戶的開放式查詢時,Evaluation Agent 展現(xiàn)了卓越的靈活性和深度。它能夠根據(jù)用戶的定制需求,系統(tǒng)地探索模型在特定領(lǐng)域的能力,從基本問題開始,逐步動態(tài)深入,最終通過自然語言詳細(xì)分析和總結(jié)評估結(jié)果。

例如,對于問題「模型是否能夠在保持原始風(fēng)格的同時生成現(xiàn)有藝術(shù)作品的變體?」,下面展示了完整的評估過程。

在 Evaluation Agent 工作中,開放式用戶評估問題數(shù)據(jù)集(Open-Ended User Query Dataset) 是檢驗框架開放式評估能力的重要組成部分。該數(shù)據(jù)集為系統(tǒng)提供了多樣化的評估場景,特別是在面臨復(fù)雜的、用戶特定的評估需求時,能夠展現(xiàn)出系統(tǒng)的靈活性和動態(tài)評估能力。

開放式用戶評估問題數(shù)據(jù)集首先通過用戶調(diào)研收集了來自用戶的一系列針對模型能力的開放問題。隨后,經(jīng)過數(shù)據(jù)清洗、過濾、擴(kuò)展以及標(biāo)簽打標(biāo)等處理,最終完成了數(shù)據(jù)集的構(gòu)建。該數(shù)據(jù)集涵蓋了廣泛的評估維度,能夠全面評估模型的各項能力。下圖展示了該數(shù)據(jù)集在不同類別下的統(tǒng)計分布。



開放式用戶評估問題數(shù)據(jù)集統(tǒng)計分布

前景與進(jìn)一步計劃

Evaluation Agent 的初步研究已經(jīng)證明其在視覺生成模型評估中的高效性和靈活性。未來,該方向可能在以下領(lǐng)域進(jìn)一步拓展和深入研究:

1. 擴(kuò)展評估能力,涵蓋更多視覺任務(wù)

  • 目前 Evaluation Agent 已適用于圖像和視頻生成模型,未來將擴(kuò)展到3D 內(nèi)容生成、AIGC 視頻編輯等更復(fù)雜的生成任務(wù)。
  • 增加對多模態(tài) AI(如結(jié)合文本、音頻、視頻的生成模型)的評估能力,探索不同 AI 模型在跨模態(tài)任務(wù)中的表現(xiàn)。

2. 優(yōu)化開放式評估機(jī)制

  • 進(jìn)一步完善開放式用戶評估問題數(shù)據(jù)集,提升 Evaluation Agent 對復(fù)雜、抽象概念(如風(fēng)格遷移、藝術(shù)融合、情感表達(dá)等)的理解和評估能力。
  • 引入強(qiáng)化學(xué)習(xí)機(jī)制,使 Evaluation Agent 能夠利用基于用戶反饋的數(shù)據(jù)實現(xiàn)自我優(yōu)化,提高評估的精準(zhǔn)性和適應(yīng)性。

3. 從自動評測邁向智能推薦

  • 未來,該框架可拓展用于視覺生成模型的個性化推薦,依據(jù)用戶的具體需求自動匹配最合適的生成模型,并生成詳盡的評估報告。
  • 研究如何利用眾包數(shù)據(jù),收集不同領(lǐng)域的專業(yè)人士(如設(shè)計師、攝影師、影視制片人)對 AI 生成內(nèi)容的反饋,以提升評估框架在多領(lǐng)域場景下的適應(yīng)性和泛化能力。

總結(jié)

Evaluation Agent 提出了一種高效、靈活、可解釋的視覺生成模型評估新范式。它突破了傳統(tǒng)評估方式的限制,能夠根據(jù)用戶需求動態(tài)分析模型表現(xiàn),為生成式 AI 的理解與優(yōu)化提供支持。無論關(guān)注的是準(zhǔn)確性、多樣性,還是風(fēng)格與創(chuàng)意,這一框架都能給出清晰、有針對性的評估結(jié)果。

研究團(tuán)隊希望這一方法能為視覺生成模型的評估帶來新的思路,推動更智能、更靈活的評估體系發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

小熊侃史
2025-12-20 10:56:45
北京市紀(jì)委副書記張鐵軍已任中央紀(jì)委國家監(jiān)委駐住建部紀(jì)檢監(jiān)察組組長

北京市紀(jì)委副書記張鐵軍已任中央紀(jì)委國家監(jiān)委駐住建部紀(jì)檢監(jiān)察組組長

上觀新聞
2025-12-26 06:32:10
祝賀馬龍!恭喜劉詩雯!國乒兩人通過專業(yè)級評審:事關(guān)教練組競聘

祝賀馬龍!恭喜劉詩雯!國乒兩人通過專業(yè)級評審:事關(guān)教練組競聘

好乒乓
2025-12-25 12:26:15
董力阿諾上海定居,餐桌窄小、緊挨屋門,6口人住100平房子很擁擠

董力阿諾上海定居,餐桌窄小、緊挨屋門,6口人住100平房子很擁擠

瘋說時尚
2025-12-26 13:56:10
中國工程院院士,正式被官網(wǎng)除名!

中國工程院院士,正式被官網(wǎng)除名!

高分子科學(xué)前沿
2025-12-26 14:05:36
這四個生肖的人,注定命苦一生,一輩子忙忙碌碌卻無所成

這四個生肖的人,注定命苦一生,一輩子忙忙碌碌卻無所成

屏兒愛讀書
2025-02-18 09:11:18
今起全國大部陸續(xù)大回暖 氣溫將回歸常年同期偏高水平

今起全國大部陸續(xù)大回暖 氣溫將回歸常年同期偏高水平

財聯(lián)社
2025-12-26 08:49:05
烤雞少年"底褲被扒光",肉寶王只是冰山一角,李維剛也坐不住了

烤雞少年"底褲被扒光",肉寶王只是冰山一角,李維剛也坐不住了

鋭娛之樂
2025-12-25 08:33:43
李宗仁歸國之后,希望能出任人大副委員長一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

李宗仁歸國之后,希望能出任人大副委員長一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

史海孤雁
2025-12-25 16:48:16
CBA又殺出一黑馬!反超廣東升至第3,遼寧輸32分,送衛(wèi)冕冠軍登頂

CBA又殺出一黑馬!反超廣東升至第3,遼寧輸32分,送衛(wèi)冕冠軍登頂

侃球熊弟
2025-12-25 22:47:29
美媒終于回過味:中國這哪是買石油,分明是在給俄進(jìn)行“大換血”

美媒終于回過味:中國這哪是買石油,分明是在給俄進(jìn)行“大換血”

老范談史
2025-12-25 21:00:17
照顧母親3年后我才明白:贍養(yǎng)老人最順心的辦法,是多出錢少出力

照顧母親3年后我才明白:贍養(yǎng)老人最順心的辦法,是多出錢少出力

小馬達(dá)情感故事
2025-12-25 12:55:03
庫里1048場常規(guī)賽拿到26000分,后衛(wèi)中僅次于喬丹、大O和科比

庫里1048場常規(guī)賽拿到26000分,后衛(wèi)中僅次于喬丹、大O和科比

懂球帝
2025-12-26 08:47:05
日本人妻,全員不倫?

日本人妻,全員不倫?

記錄生活日常阿蜴
2025-12-25 00:51:21
9.4分,今年韓劇的尺度越來越生猛了!

9.4分,今年韓劇的尺度越來越生猛了!

君君電影院
2025-12-11 00:20:49
她真正值錢的不是那幾棟房子,而是北京地圖上那幾個

她真正值錢的不是那幾棟房子,而是北京地圖上那幾個

小光侃娛樂
2025-12-25 04:50:03
誰最坑?本賽季至今14位5000萬先生得分情況

誰最坑?本賽季至今14位5000萬先生得分情況

大眼瞄世界
2025-12-25 20:58:37
何家弘:關(guān)于28案的反思

何家弘:關(guān)于28案的反思

叮當(dāng)當(dāng)科技
2025-12-25 14:15:16
徐湖平父子只是沾光的小卒,真正害怕的幕后“大人物”是他

徐湖平父子只是沾光的小卒,真正害怕的幕后“大人物”是他

夕落秋山
2025-12-26 10:35:33
哈工大解剖200名乳腺癌死者,驚訝發(fā)現(xiàn)患乳腺癌的人,有5大特點(diǎn)

哈工大解剖200名乳腺癌死者,驚訝發(fā)現(xiàn)患乳腺癌的人,有5大特點(diǎn)

王曉愛體彩
2025-12-26 07:52:49
2025-12-26 14:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12000文章數(shù) 142519關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

男子住院5天點(diǎn)48頓VIP餐續(xù)保被拒 一家三口想換換不了

頭條要聞

男子住院5天點(diǎn)48頓VIP餐續(xù)保被拒 一家三口想換換不了

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天深夜道歉,只字未提五月天阿信

財經(jīng)要聞

資管江湖的人事“寒冬”

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

藝術(shù)
時尚
家居
數(shù)碼
房產(chǎn)

藝術(shù)要聞

William Dyce:19世紀(jì)蘇格蘭重要的畫家

長外套+短靴,正流行

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

數(shù)碼要聞

不僅僅是續(xù)航升級 小米Watch 5全面評測:隔空操控開啟腕上交互新紀(jì)元

房產(chǎn)要聞

太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

無障礙瀏覽 進(jìn)入關(guān)懷版