国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

agno v2.3.21版本發(fā)布詳解:AgentOS全面支持Agent As Judge評測與多項(xiàng)穩(wěn)定性增強(qiáng)

0
分享至




2025年12月23日,agno 官方發(fā)布了 v2.3.21 版本。本次更新在保持高性能和私有化架構(gòu)優(yōu)勢的基礎(chǔ)上,重點(diǎn)增強(qiáng)了 AgentOS 對評測體系的支持,同時修復(fù)了多個在實(shí)際生產(chǎn)和評測場景中可能遇到的問題,并補(bǔ)充了新的 Cookbook 示例。下面將基于本次發(fā)布內(nèi)容,對 v2.3.21 的核心更新進(jìn)行系統(tǒng)梳理。

一、核心新特性:AgentOS全面集成Agent-as-Judge評估

本次更新最核心的增強(qiáng)在于對“Agent as Judge”(智能體作為評判者)評估功能的全面支持,并將其深度集成到了AgentOS控制平面中。

1. 功能概述
“Agent as Judge”是一種先進(jìn)的評估范式,它使用一個專門的智能體(Judge Agent)來評估另一個智能體(或團(tuán)隊(duì))在給定任務(wù)上的輸出質(zhì)量。這通常用于衡量響應(yīng)的準(zhǔn)確性、相關(guān)性、完整性等主觀性較強(qiáng)的指標(biāo)。與傳統(tǒng)的基于規(guī)則或簡單字符串匹配的評估方式相比,Agent as Judge能夠利用大語言模型的理解能力,進(jìn)行更接近人類判斷的評估。

2. 集成詳情
在v2.3.21之前,開發(fā)者可能已經(jīng)能夠在Agno框架內(nèi)創(chuàng)建Agent as Judge評估邏輯,但管理和運(yùn)行這些評估可能不夠便捷。本次更新后,這一功能在AgentOS中獲得了完整的官方支持:

  • ? 配置與觸發(fā) :用戶現(xiàn)在可以直接在AgentOS的Evals(評估)頁面中,配置新的Agent as Judge評估任務(wù)并觸發(fā)其運(yùn)行。這為評估工作流提供了統(tǒng)一的圖形化界面。

  • ? 統(tǒng)一管理 :Agent as Judge評估的運(yùn)行記錄將與現(xiàn)有的準(zhǔn)確性、性能、可靠性等評估結(jié)果一同,集中展示在Evals頁面中。這實(shí)現(xiàn)了對所有類型評估的集中監(jiān)控和管理,極大地提升了操作效率。

  • ? API端點(diǎn)增強(qiáng) :對應(yīng)的GET API端點(diǎn)也已更新,現(xiàn)在可以返回Agent as Judge評估的相關(guān)數(shù)據(jù),確保了控制平面與后端服務(wù)的數(shù)據(jù)一致性。

3. 開發(fā)者價值
這一集成意味著團(tuán)隊(duì)可以更系統(tǒng)化地對智能體的輸出質(zhì)量進(jìn)行監(jiān)控和迭代。例如,在產(chǎn)品上線后,可以定期用Agent as Judge評估客服智能體的回答是否恰當(dāng),或者審核內(nèi)容生成智能體的輸出是否符合安全規(guī)范。所有評估歷史和結(jié)果都可在AgentOS中追溯,為模型優(yōu)化和提示詞工程提供了數(shù)據(jù)基礎(chǔ)。

二、關(guān)鍵問題修復(fù)

v2.3.21版本修復(fù)了兩個可能影響開發(fā)體驗(yàn)和生產(chǎn)穩(wěn)定性的問題。

1. RunInput對象持久化修復(fù)

  • ? 問題描述 :當(dāng)開發(fā)者將 RunInput 對象的 input_content 屬性設(shè)置為一個 Message 對象的列表時,框架在嘗試持久化(例如存入數(shù)據(jù)庫)該對象時會發(fā)生錯誤。 RunInput 用于封裝單次智能體運(yùn)行的輸入信息,而 Message 是構(gòu)成對話歷史的基本單元。這個問題會導(dǎo)致包含復(fù)雜對話歷史的運(yùn)行記錄無法正確保存。

  • ? 修復(fù)內(nèi)容 :開發(fā)團(tuán)隊(duì)修復(fù)了 RunInput (及其對應(yīng)的 TeamRunInput )的 to_dict()input_content_string() 方法中的序列化邏輯?,F(xiàn)在,當(dāng) input_content 是一個混合了 Message 對象、字典或其他基礎(chǔ)類型的列表時,框架能夠正確地將所有元素遞歸地轉(zhuǎn)換為可JSON序列化的字典結(jié)構(gòu)。修復(fù)確保了無論輸入內(nèi)容多么復(fù)雜,都能被無歧義地轉(zhuǎn)換為字符串或字典格式,從而順利地進(jìn)行網(wǎng)絡(luò)傳輸或數(shù)據(jù)庫存儲。

  • ? 影響 :這個修復(fù)對于依賴會話歷史、實(shí)現(xiàn)復(fù)雜對話邏輯或進(jìn)行運(yùn)行審計(jì)的應(yīng)用至關(guān)重要。它保證了數(shù)據(jù)管道的可靠性。

2. MistralEmbedder類超時設(shè)置修復(fù)

  • ? 問題描述MistralEmbedder 類用于調(diào)用Mistral AI的嵌入模型,將文本轉(zhuǎn)換為向量。在之前的版本中,其 timeout 參數(shù)(用于設(shè)置HTTP請求超時時間)的傳遞方式存在錯誤,導(dǎo)致設(shè)置可能未生效或格式不正確。

  • ? 修復(fù)內(nèi)容 :修復(fù)了初始化Mistral客戶端時的參數(shù)映射?,F(xiàn)在, timeout 參數(shù)會被正確地轉(zhuǎn)換并傳遞給底層的客戶端庫( timeout 秒被轉(zhuǎn)換為 timeout_ms 毫秒)。這保證了開發(fā)者可以有效地控制嵌入過程的等待時間,避免因網(wǎng)絡(luò)問題或服務(wù)延遲導(dǎo)致進(jìn)程無限期掛起。

  • ? 影響 :該修復(fù)提升了使用Mistral嵌入模型進(jìn)行知識庫構(gòu)建(RAG)時的穩(wěn)定性和可預(yù)測性。特別是在處理大量文檔或網(wǎng)絡(luò)環(huán)境不穩(wěn)定時,合理的超時設(shè)置可以防止整個工作流阻塞。

三、新增實(shí)用示例:語音轉(zhuǎn)文本工作流

本次更新在cookbook中添加了一個全新的、名為“Speech to Text”的示例目錄,展示了如何利用Agno構(gòu)建一個端到端的語音轉(zhuǎn)文本應(yīng)用。

1. 示例結(jié)構(gòu)
該示例包含了多個獨(dú)立的腳本和一個完整的工作流,演示了不同的實(shí)現(xiàn)方式和集成深度:

  • ? 基礎(chǔ)單智能體轉(zhuǎn)錄

    • ? stt_openai_agent_simple.py :使用OpenAI的語音模型(gpt-audio)進(jìn)行簡單轉(zhuǎn)錄,返回純文本。

    • ? stt_openai_agent.py :同樣使用OpenAI模型,但通過 parser_model (如gpt-5-mini)將轉(zhuǎn)錄結(jié)果解析為結(jié)構(gòu)化的Pydantic模型輸出(包含說話人、每句話文本等字段)。

    • ? stt_gemini_agent.py :使用Google Gemini模型進(jìn)行結(jié)構(gòu)化轉(zhuǎn)錄,展示了模型無關(guān)的特性。

  • ? 高級工作流stt_workflow.py :演示了如何構(gòu)建一個Agno Workflow,將音頻URL獲取、音頻格式轉(zhuǎn)換(如MP3轉(zhuǎn)WAV)、智能體轉(zhuǎn)錄、結(jié)構(gòu)化輸出生成等多個步驟編排成一個自動化流程。該工作流可部署到AgentOS,提供一個完整的服務(wù)端點(diǎn)。

2. 技術(shù)亮點(diǎn)

  • ? 多模態(tài)支持 :示例核心利用了Agno智能體原生的多模態(tài)處理能力。通過 agno.media.Audio 類,可以直接將音頻字節(jié)數(shù)據(jù)或文件傳遞給智能體。

  • ? 結(jié)構(gòu)化輸出 :展示了如何通過定義Pydantic output_schema ,讓智能體返回高度結(jié)構(gòu)化的轉(zhuǎn)錄結(jié)果,而非雜亂文本,便于下游系統(tǒng)處理。

  • ? 工作流編排stt_workflow.py 是Agno Workflow能力的典型展示。它將不同的處理單元(函數(shù)、智能體)連接成有向無環(huán)圖,管理狀態(tài)傳遞和錯誤處理,適用于生產(chǎn)級復(fù)雜任務(wù)。

  • ? 模型無關(guān)性 :示例同時使用了OpenAI和Gemini的模型,強(qiáng)調(diào)了Agno可以輕松切換底層AI提供商。

3. 開發(fā)者價值
這個示例為開發(fā)者處理音頻輸入場景提供了即用的模板。無論是構(gòu)建會議記錄工具、客服錄音分析系統(tǒng),還是任何需要將語音轉(zhuǎn)換為可分析文本的應(yīng)用,都可以以此為起點(diǎn)快速開發(fā)。

四、其他重要變更與文檔更新

除了上述核心內(nèi)容,v2.3.21版本還包含了一系列細(xì)微但重要的調(diào)整。

1. 數(shù)據(jù)庫集成調(diào)整
agent_as_judge_basic.py示例中,數(shù)據(jù)庫從SQLite切換為了PostgreSQL,并提供了標(biāo)準(zhǔn)的連接字符串示例。這引導(dǎo)開發(fā)者從開發(fā)環(huán)境(SQLite)更平滑地過渡到生產(chǎn)環(huán)境(PostgreSQL)。

2. 評估邏輯優(yōu)化
在Agent as Judge評估運(yùn)行后,將評估結(jié)果記錄到數(shù)據(jù)庫時,現(xiàn)在正確地將“評判者智能體”所使用的模型信息(model_id, model_provider)與“被評估智能體”的模型信息區(qū)分開來并分別存儲。這使得評估元數(shù)據(jù)更加清晰,便于分析不同評判者模型對評估結(jié)果的影響。

3. README與文檔優(yōu)化
項(xiàng)目的主README.md文件以及Cookbook的說明文檔cookbook/README.md都進(jìn)行了大幅重寫,風(fēng)格更加簡潔、指向性更強(qiáng)。

  • ? 快速定位 :新文檔更明確地根據(jù)用戶目標(biāo)(“我想構(gòu)建單個智能體”、“我想讓智能體協(xié)作”、“我想部署和管理”)來引導(dǎo)讀者前往相應(yīng)的示例目錄。

  • ? 特性強(qiáng)調(diào) :更突出地強(qiáng)調(diào)了Agno“私有化部署”、“性能極致”、“生產(chǎn)就緒”的核心優(yōu)勢。

  • ? 入門引導(dǎo) :將“入門指南”和“完整演示”作為最優(yōu)先的路徑,降低新用戶的學(xué)習(xí)曲線。

4. 依賴項(xiàng)更新

  • ? 將核心 agno 包版本升級至 2.3.21

  • ? 更新了 fastapi 、 fastapi-cliyfinance 等關(guān)鍵依賴的版本,以獲取最新的功能和安全補(bǔ)丁。

五、總結(jié)與展望

Agno v2.3.21版本是一次扎實(shí)的迭代,它沒有引入顛覆性的變更,而是在現(xiàn)有強(qiáng)大的基礎(chǔ)上進(jìn)行打磨和增強(qiáng)。

  • ? 對于評估與監(jiān)控 :通過將Agent as Judge深度集成到AgentOS,它為團(tuán)隊(duì)提供了企業(yè)級的智能體性能評估工具,使得基于LLM的定性評估變得可配置、可觸發(fā)、可追溯。

  • ? 對于框架穩(wěn)定性 :對RunInput序列化和MistralEmbedder超時的修復(fù),解決了特定場景下的潛在bug,提升了框架在處理復(fù)雜數(shù)據(jù)和外部服務(wù)調(diào)用時的魯棒性。

  • ? 對于開發(fā)者生態(tài) :新增的語音轉(zhuǎn)文本示例是一個高質(zhì)量、可直接復(fù)用的“菜譜”(Cookbook),豐富了Agno的應(yīng)用場景庫,展示了其在多模態(tài)和復(fù)雜工作流方面的強(qiáng)大能力。

拓展視野:擁抱AI浪潮,關(guān)注行業(yè)前沿

在鉆研Agno這類前沿多智能體技術(shù)的同時,了解更廣闊的AI行業(yè)動態(tài)同樣重要。如今,AI正以前所未有的深度重塑工作和創(chuàng)造力。

在此為大家推薦一個高質(zhì)量的行業(yè)信息源——由脈脈平臺推出的 【脈向AI】 直播欄目。這個欄目專注于:

核心價值:

  • ? 提供最新的AI工具、模型趨勢和行業(yè)深度解析

  • ? 邀請AI領(lǐng)域 頭部創(chuàng)作者、行業(yè)專家 分享一線經(jīng)驗(yàn)和未來洞見

  • ? 探討AI在內(nèi)容創(chuàng)作、效率提升、產(chǎn)品創(chuàng)新等場景的實(shí)際應(yīng)用

  • ? 提供 實(shí)時互動 機(jī)會,可直接向嘉賓提問并獲得解答

? 對開發(fā)者的意義:
這不僅是了解行業(yè)趨勢的窗口,更是拓展技術(shù)視野、連接行業(yè)人脈、把握職業(yè)新機(jī)遇的平臺。在脈脈這個覆蓋超2億職場用戶的生態(tài)中,你能接觸到最真實(shí)的行業(yè)聲音和機(jī)會。

參與方式:
歡迎關(guān)注脈脈APP內(nèi)的 「脈向AI」 欄目,預(yù)約最新直播,與AI前沿保持同步。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)友好奇:網(wǎng)暴全紅嬋的群主是誰?群內(nèi)真有現(xiàn)役運(yùn)動員嗎?

網(wǎng)友好奇:網(wǎng)暴全紅嬋的群主是誰?群內(nèi)真有現(xiàn)役運(yùn)動員嗎?

羅納爾說個球
2026-04-08 23:08:09
四小時摧毀伊朗,法國提前動手,中方罕見表態(tài),伊朗:美國中計(jì)了

四小時摧毀伊朗,法國提前動手,中方罕見表態(tài),伊朗:美國中計(jì)了

萬物知識圈
2026-04-09 07:48:18
一場136-119讓火箭如愿以償!掘金值得欽佩,湖人主場優(yōu)勢不保了

一場136-119讓火箭如愿以償!掘金值得欽佩,湖人主場優(yōu)勢不保了

小徐講八卦
2026-04-09 11:46:09
炸了!出海越南中企集體翻車,40% 虧損撤資?為啥水土不服?

炸了!出海越南中企集體翻車,40% 虧損撤資?為啥水土不服?

小嵩
2026-04-08 19:40:40
為了鄭麗文專機(jī)能順利落地,解放軍果斷亮出底牌,痛擊臺獨(dú)要害

為了鄭麗文專機(jī)能順利落地,解放軍果斷亮出底牌,痛擊臺獨(dú)要害

標(biāo)體
2026-04-07 16:23:59
王平河系列:高人出手(5/11)

王平河系列:高人出手(5/11)

金昔說故事
2026-04-09 13:35:08
鄭麗文真是一個狠人!竟公開承認(rèn)自己身世之謎!宋楚瑜題字火出圈

鄭麗文真是一個狠人!竟公開承認(rèn)自己身世之謎!宋楚瑜題字火出圈

素衣讀史
2026-02-03 11:49:44
湘軍打下城池,基本都是屠城、屠村,殺光,燒光,搶光。

湘軍打下城池,基本都是屠城、屠村,殺光,燒光,搶光。

歷史按察使司
2026-03-30 23:05:07
張雪再次飆淚 封王12天后終捧世界冠軍獎杯 將“無人區(qū)”搬上蛋糕

張雪再次飆淚 封王12天后終捧世界冠軍獎杯 將“無人區(qū)”搬上蛋糕

風(fēng)過鄉(xiāng)
2026-04-09 07:43:15
迎回老大!哈登踢到鐵板了!西部季后賽兩組對決確定!

迎回老大!哈登踢到鐵板了!西部季后賽兩組對決確定!

格斗聯(lián)盟有話說
2026-04-09 13:03:55
上海阿婆崩潰,買近30年的保險全被退!警方:若繼續(xù)持有價值百萬

上海阿婆崩潰,買近30年的保險全被退!警方:若繼續(xù)持有價值百萬

青梅侃史啊
2026-04-08 22:23:53
央視3次怒批電動車解限速,電動車限速25km/h,不如給電摩上綠牌

央視3次怒批電動車解限速,電動車限速25km/h,不如給電摩上綠牌

電動車的那些事兒
2026-04-09 07:50:14
拉亞4分鐘連撲2單刀,阿森納門將位被"二房東"整活了

拉亞4分鐘連撲2單刀,阿森納門將位被"二房東"整活了

熱血體育社
2026-04-09 14:17:16
湖人球星東契奇,為什么對莎拉波娃的豪宅“情有獨(dú)鐘”?

湖人球星東契奇,為什么對莎拉波娃的豪宅“情有獨(dú)鐘”?

老吳教育課堂
2026-04-09 13:22:43
佛系超巨!約基奇8次出手便拿下三雙,掘金豪取生涯首次10連勝!

佛系超巨!約基奇8次出手便拿下三雙,掘金豪取生涯首次10連勝!

田先生籃球
2026-04-09 13:27:44
WTT太原常規(guī)賽:接連“大屠殺”!國乒新星爆發(fā),溫瑞博大戰(zhàn)兇神

WTT太原常規(guī)賽:接連“大屠殺”!國乒新星爆發(fā),溫瑞博大戰(zhàn)兇神

生活新鮮市
2026-04-09 13:04:11
別再被主力洗傻!回調(diào)和下跌的核心區(qū)別,記住1條鐵律就夠了

別再被主力洗傻!回調(diào)和下跌的核心區(qū)別,記住1條鐵律就夠了

一方聊市
2026-04-09 00:07:06
04年,父親把雙胞胎女兒送人,20年后瘋狂尋找,只想知道過得如何

04年,父親把雙胞胎女兒送人,20年后瘋狂尋找,只想知道過得如何

哄動一時啊
2026-04-07 17:29:34
女生長的太漂亮是什么體驗(yàn)?網(wǎng)友:母以子貴,父以女榮

女生長的太漂亮是什么體驗(yàn)?網(wǎng)友:母以子貴,父以女榮

另子維愛讀史
2026-03-10 22:56:08
太火爆!大學(xué)生一天猛賺1800多元,提前一周就約滿

太火爆!大學(xué)生一天猛賺1800多元,提前一周就約滿

深圳晚報
2026-04-08 21:02:17
2026-04-09 14:36:49
moonfdd incentive-icons
moonfdd
福大大架構(gòu)師每日一題
1172文章數(shù) 63關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

達(dá)賴深度卷入愛潑斯坦權(quán)色網(wǎng) 印媒再披露驚人新證據(jù)

頭條要聞

達(dá)賴深度卷入愛潑斯坦權(quán)色網(wǎng) 印媒再披露驚人新證據(jù)

體育要聞

8萬人面前心臟驟停 現(xiàn)在他還站在球場上

娛樂要聞

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

財(cái)經(jīng)要聞

談判基礎(chǔ)已被破壞!霍爾木茲海峽關(guān)閉

汽車要聞

8155芯片+L2智駕 瑞虎5運(yùn)動版上市 置換補(bǔ)貼價6.79萬元起

態(tài)度原創(chuàng)

數(shù)碼
本地
藝術(shù)
家居
公開課

數(shù)碼要聞

OPPO Enco Clip2耳夾耳機(jī)規(guī)格公布,蘋果適配語音指令

本地新聞

建水Color Walk | 古城慢調(diào),掉進(jìn)春天的調(diào)色盤里

藝術(shù)要聞

龐茂琨 2026油畫寫生新作

家居要聞

清新自然 復(fù)古風(fēng)尚

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版