国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

UCSD 推出 AIBuildAI 智能體,斬獲OpenAI MLE-Bench榜單第一

0
分享至



近日,加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)開發(fā)了 AIBuildAI 智能體,可以全自動(dòng)構(gòu)建 AI 模型(包括模型設(shè)計(jì),代碼實(shí)現(xiàn),模型訓(xùn)練,調(diào)參,性能評(píng)估,迭代優(yōu)化)。團(tuán)隊(duì)成員包括博士生 Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及該校副教授 Pengtao Xie。



視頻地址:https://mp.weixin.qq.com/s/8sb5CpBLb3PEQ7IGY6A5ug?click_id=35

開發(fā)一個(gè)高性能 AI 模型非常耗時(shí)費(fèi)力,工程師需要反復(fù)設(shè)計(jì)模型、寫代碼實(shí)現(xiàn)模型、構(gòu)建訓(xùn)練流水線、執(zhí)行超參數(shù)搜索,并根據(jù)實(shí)驗(yàn)結(jié)果對模型進(jìn)行迭代優(yōu)化。這一過程對專業(yè)知識(shí)的依賴程度極高,人力成本也居高不下,非常耗費(fèi)時(shí)間。為了解決這一問題,UCSD 的研究團(tuán)隊(duì)開發(fā)了 AIBuildAI 智能體,充當(dāng)虛擬的 AI 工程師或 AI 科學(xué)家,全自動(dòng)構(gòu)建 AI 模型。用戶無需編程,只需要用自然語言對任務(wù)進(jìn)行描述,AIBuildAI 自動(dòng)設(shè)計(jì)模型,寫代碼實(shí)現(xiàn)模型,訓(xùn)練模型,調(diào)節(jié)超參數(shù),評(píng)估模型性能,并根據(jù)實(shí)驗(yàn)結(jié)果對模型進(jìn)行迭代優(yōu)化。

AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測試的 75 個(gè)任務(wù)上以 63.1% 的獲獎(jiǎng)率位居榜首(截至 2026 年 3 月 6 日),其表現(xiàn)可媲美經(jīng)驗(yàn)豐富的 AI 工程師,實(shí)現(xiàn)了從任務(wù)描述到可部署模型的端到端自動(dòng)化。







  • 論文標(biāo)題:AIBuildAI:An AI agent that automatically builds AI models
  • 項(xiàng)目地址:https://github.com/aibuildai/AI-Build-AI
  • 論文鏈接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
  • OpenAI MLE-Bench 測評(píng)結(jié)果:https://github.com/openai/mle-bench/pull/126

AIBuildAI 的設(shè)計(jì)靈感來源于真實(shí)的 AI 研究團(tuán)隊(duì)的工作流程。在典型的 AI 項(xiàng)目中,技術(shù)負(fù)責(zé)人統(tǒng)籌多條并行探索路線,研究員提出建模策略,工程師實(shí)現(xiàn)訓(xùn)練流水線,負(fù)責(zé)人定期評(píng)審結(jié)果、分配資源。AIBuildAI 將這一工作流抽象為一個(gè)多智能體搜索過程:將整個(gè)開發(fā)周期分解為多個(gè)專職智能體協(xié)作執(zhí)行,并通過集中化的管理器進(jìn)行統(tǒng)一調(diào)度。



技術(shù)核心

管理智能體(Manager Agent)

扮演項(xiàng)目運(yùn)行負(fù)責(zé)人的角色,全程不直接寫代碼或執(zhí)行訓(xùn)練任務(wù),而是通過讀取磁盤上的實(shí)驗(yàn)記錄來做出下一步?jīng)Q策。他在兩種模式之間切換:協(xié)調(diào)模式下決定下一步應(yīng)該調(diào)用哪一個(gè)子智能體;篩選模式下依據(jù)訓(xùn)練信號(hào)保留有潛力的候選方案并終止無效方案來節(jié)約時(shí)間以及計(jì)算成本,并在進(jìn)展停滯時(shí)觸發(fā)修訂或者終止。

研究員智能體(Designer Agent)

負(fù)責(zé)想方案和改方案兩項(xiàng)核心任務(wù)。在設(shè)計(jì)模式下,他直接探索數(shù)據(jù)集特征,提出多個(gè)差異化、可行性強(qiáng)的建模計(jì)劃;在修訂模式下,他仔細(xì)診斷失敗原因(過擬合、欠擬合、收斂問題或者數(shù)據(jù)異常),并提出具體的改進(jìn)方案供編碼智能體重新實(shí)現(xiàn)。

編碼智能體(Coder Agent)

將設(shè)計(jì)方案轉(zhuǎn)化為可運(yùn)行的訓(xùn)練與推理流水線。編碼智能體的目標(biāo)是確保代碼正確完整,而非追求最終性能。他會(huì)在寫完代碼后執(zhí)行一次短時(shí)驗(yàn)證運(yùn)行以確保流水線可以端到端運(yùn)行,隨后將完整訓(xùn)練交由調(diào)優(yōu)器處理。

調(diào)優(yōu)器智能體(Tuner Agent)

接管訓(xùn)練過程,在已有代碼基礎(chǔ)上專注于性能提升。它采用先快速校準(zhǔn)、再?zèng)Q定是否投入的策略:先跑一段簡短的熱身訓(xùn)練觀察學(xué)習(xí)曲線,再?zèng)Q定是延長當(dāng)前方案還是進(jìn)行超參數(shù)調(diào)整。整個(gè)過程在固定計(jì)算預(yù)算內(nèi)完成。

系統(tǒng)設(shè)計(jì)

AIBuildAI 在系統(tǒng)層面還具備三項(xiàng)關(guān)鍵特征:

  • 并行效率:多條解決方案軌跡在獨(dú)立工作空間中并發(fā)運(yùn)行,避免互相干擾,允許系統(tǒng)同時(shí)探索多個(gè)方法并將資源集中于表現(xiàn)好的候選方案。
  • 可復(fù)現(xiàn)性:所有智能體通過存儲(chǔ)于磁盤中產(chǎn)出物(方案文檔、配置文件、日志、檢查點(diǎn))進(jìn)行協(xié)調(diào),而非依賴內(nèi)存中的臨時(shí)信息,確保每一步操作均可事后審查與復(fù)現(xiàn)。
  • 安全性:智能體僅被允許寫入自身軌跡目錄,數(shù)據(jù)集以只讀方式掛載,每次調(diào)用均生成可審計(jì)的操作日志。

實(shí)驗(yàn)結(jié)果



AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測試上進(jìn)行了評(píng)估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench 包含了來自 Kaggle 競賽的真實(shí)任務(wù),涵蓋圖像分類,目標(biāo)檢測 / 分割、自然語言理解與生成、時(shí)序信號(hào)建模以及結(jié)構(gòu)化表格預(yù)測等多個(gè)類別,共 75 個(gè)任務(wù),要求系統(tǒng)完成從原始數(shù)據(jù)到可提交模型的全流程開發(fā)。

截止 2026 年 3 月 6 號(hào)的榜單,AIBuildAI 以 63.1% 的綜合獲獎(jiǎng)率位居 MLE-Bench 總榜第一。上圖展示了 AIBuildAI(橙條)的綜合性能在所有的對比方法中實(shí)現(xiàn)了性能最佳。



上圖展示了 AIBuildAI 在語言理解與生成任務(wù)上的詳細(xì)結(jié)果。上半部分以 Billion Word Imputation 為例,完整呈現(xiàn)了 AIBuildAI 各智能體的運(yùn)行軌跡:Manager 依次調(diào)度 Setup、Designer(提出 6 個(gè)候選方案)、Coder(實(shí)現(xiàn)流水線)和 Tuner(迭代調(diào)參),最終 Aggregator 以 RoBERTa-large 為基礎(chǔ)生成提交文件,取得 5.5060 的最優(yōu)分?jǐn)?shù)。下半部分對比了 AIBuildAI 與 AIRA-dojo、MLEvolve 在 10 個(gè)具體語言任務(wù)上的性能表現(xiàn)。AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個(gè)任務(wù)上均取得最優(yōu)成績,充分驗(yàn)證了 AIBuildAI 在多樣化語言任務(wù)上的泛化能力。

總結(jié)

AIBuildAI 通過將 AI 開發(fā)流程分配到包括設(shè)計(jì)、編碼、調(diào)優(yōu)與協(xié)調(diào)等任務(wù)的專職智能體,并以基于產(chǎn)出物的狀態(tài)管理將各個(gè)智能體緊密協(xié)同,實(shí)現(xiàn)了端到端自動(dòng)化 AI 工程。不同于以往將代碼生成作為核心范式的單體系統(tǒng),AIBuildAI 顯示建模了訓(xùn)練動(dòng)態(tài)監(jiān)控、早停機(jī)制與超參數(shù)調(diào)整等關(guān)鍵環(huán)節(jié),更貼近真實(shí)工程師團(tuán)隊(duì)的工作方式。AIBuildAI 在 MLE-Bench 的 75 個(gè)任務(wù)上,以 63.1% 的獲獎(jiǎng)率位居第一,證明了結(jié)構(gòu)化多智能體協(xié)作在復(fù)雜工程工作自動(dòng)化上的可行性,也為邁向媲美人類專業(yè)工程師的自動(dòng) AI 系統(tǒng)提供了清晰的技術(shù)路線。

作者簡介:

謝澎濤,UCSD 副教授,研究受人類學(xué)習(xí)啟發(fā)的機(jī)器學(xué)習(xí)及其在 LLM、基礎(chǔ)模型與生物醫(yī)學(xué)的應(yīng)用。張睿一,UCSD 博士生,關(guān)注 LLM 效率、安全與測試時(shí)計(jì)算擴(kuò)展。秦佩嘉,UCSD 博士生,聚焦獎(jiǎng)勵(lì)模型與多智能體系統(tǒng)。曹啟,UCSD 博士生,主攻 LLM 推理。張力,UCSD 博士生,研究方向?yàn)闄C(jī)器視覺與視覺大模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新華社消息|伊朗外交部發(fā)言人:美國提出的建議非常極端且不合理

新華社消息|伊朗外交部發(fā)言人:美國提出的建議非常極端且不合理

新華社
2026-03-30 09:45:54
四十六歲殷桃曬網(wǎng)球照,沒修圖沒濾鏡,球鞋帶灰卻美到骨子里

四十六歲殷桃曬網(wǎng)球照,沒修圖沒濾鏡,球鞋帶灰卻美到骨子里

TVB的四小花
2026-03-30 11:46:05
采耳變賣淫?女技師可變裝,躺采色誘客人,有反應(yīng)了就直接脫褲子

采耳變賣淫?女技師可變裝,躺采色誘客人,有反應(yīng)了就直接脫褲子

烏娛子醬
2025-03-19 10:27:30
張雪峰的靈車細(xì)節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

張雪峰的靈車細(xì)節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

魔都姐姐雜談
2026-03-28 18:18:48
蒙古政壇徹底亂了!新任總理發(fā)動(dòng)高層清算,對改革派睚眥必報(bào)

蒙古政壇徹底亂了!新任總理發(fā)動(dòng)高層清算,對改革派睚眥必報(bào)

似水流年忘我
2026-03-21 04:08:54
張雪峰為何被公知攻擊?項(xiàng)立剛的評(píng)價(jià)一針見血:他愛國,還掙了錢

張雪峰為何被公知攻擊?項(xiàng)立剛的評(píng)價(jià)一針見血:他愛國,還掙了錢

談史論天地
2026-03-29 13:30:50
打!傾家蕩產(chǎn)也要打!以色列最新民調(diào):75%民眾要求死磕到底!

打!傾家蕩產(chǎn)也要打!以色列最新民調(diào):75%民眾要求死磕到底!

興史興談
2026-03-29 18:13:06
乒乓澳門世界杯首日:16人無爆冷,中日11人大獲全勝孫穎莎剃光頭

乒乓澳門世界杯首日:16人無爆冷,中日11人大獲全勝孫穎莎剃光頭

越嶺尋蹤
2026-03-31 00:38:28
收到1000鎊的罰款,因?yàn)榉欠ǖ估克罎⒘耍褐蝗恿藗€(gè)信封!

收到1000鎊的罰款,因?yàn)榉欠ǖ估??他崩潰了:只扔了個(gè)信封!

英國那些事兒
2026-03-29 23:19:16
注意!陳垣宇贏球后,說了一件事情,對王楚欽很不利

注意!陳垣宇贏球后,說了一件事情,對王楚欽很不利

十點(diǎn)街球體育
2026-03-31 00:40:03
向佐終于圍著老婆轉(zhuǎn)了!偷偷去看郭碧婷,穿情侶裝簡直不要太配!

向佐終于圍著老婆轉(zhuǎn)了!偷偷去看郭碧婷,穿情侶裝簡直不要太配!

精彩背后的故事
2026-03-31 03:53:50
復(fù)婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

復(fù)婚二胎傳聞落定七月,趙麗穎近況曝光讓人揪心

阿廢冷眼觀察所
2026-03-29 18:46:36
浙江6大房企全軍覆沒

浙江6大房企全軍覆沒

地產(chǎn)微資訊
2026-03-30 14:54:08
高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會(huì)失去大量客戶

高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會(huì)失去大量客戶

夜深愛雜談
2025-12-15 23:14:05
中東王爺可能在拋售港股!

中東王爺可能在拋售港股!

金牛遠(yuǎn)望號(hào)
2026-03-30 19:27:28
幾乎全是假貨!利潤高達(dá)2400%,為何有些消費(fèi)者前赴后繼爭相購買

幾乎全是假貨!利潤高達(dá)2400%,為何有些消費(fèi)者前赴后繼爭相購買

米果說識(shí)
2026-03-30 14:32:41
真正好消息!中國大陸將有2家企業(yè),能制造7nm芯片了?

真正好消息!中國大陸將有2家企業(yè),能制造7nm芯片了?

互聯(lián)網(wǎng).亂侃秀
2026-03-28 14:19:21
比超高音速更快!中國白帝2-30首飛在即,性能曝光,碾壓美X37B

比超高音速更快!中國白帝2-30首飛在即,性能曝光,碾壓美X37B

聞識(shí)
2026-03-29 00:23:01
突然!緊急救市,強(qiáng)迫平倉!

突然!緊急救市,強(qiáng)迫平倉!

中國基金報(bào)
2026-03-30 16:43:49
現(xiàn)在才知道,夏侯淵戰(zhàn)死,在古代戰(zhàn)爭史上,那是轟動(dòng)的大事

現(xiàn)在才知道,夏侯淵戰(zhàn)死,在古代戰(zhàn)爭史上,那是轟動(dòng)的大事

掠影后有感
2026-03-30 10:38:02
2026-03-31 04:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12640文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應(yīng)“很快到來”

頭條要聞

特朗普:對伊朗襲擊以煉油廠的回應(yīng)“很快到來”

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財(cái)經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

汽車要聞

限時(shí)12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

時(shí)尚
家居
手機(jī)
旅游
數(shù)碼

“小白鞋”今年春夏又火了!這5雙怎么搭都好看

家居要聞

東方法式美學(xué) 現(xiàn)代簡約

手機(jī)要聞

4999元起!超能小V單vivo X300s發(fā)布:全焦段蔡司影像、支持口紅增距鏡

旅游要聞

走!去蘇州河畔新開的書香文化“大船”看看

數(shù)碼要聞

OPPO Pad 5 Pro平板現(xiàn)身官網(wǎng),消息稱將搭載第五代驍龍8至尊版

無障礙瀏覽 進(jìn)入關(guān)懷版