国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

龍蝦也能養(yǎng)龍蝦!UCSD發(fā)布AIBuildAI智能體,MLE-Bench榜單第一

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】UCSD團(tuán)隊(duì)推出AIBuildAI智能體,無(wú)需編程,僅用自然語(yǔ)言描述任務(wù),即可自動(dòng)設(shè)計(jì)、編碼、訓(xùn)練、調(diào)參并優(yōu)化AI模型,分工協(xié)作,端到端完成AI開(kāi)發(fā)。在OpenAI MLE-Bench測(cè)試中,AIBuildAI以63.1%的獲獎(jiǎng)率位居第一,性能媲美人類專家,推動(dòng)AI開(kāi)發(fā)邁向全自動(dòng)化新時(shí)代。

近日,加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)開(kāi)發(fā)了AIBuildAI智能體,可以全自動(dòng)構(gòu)建AI模型(包括模型設(shè)計(jì),代碼實(shí)現(xiàn),模型訓(xùn)練,調(diào)參,性能評(píng)估,迭代優(yōu)化)。團(tuán)隊(duì)成員包括博士生Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及該校副教授Pengtao Xie。

開(kāi)發(fā)一個(gè)高性能AI模型非常耗時(shí)費(fèi)力,工程師需要反復(fù)設(shè)計(jì)模型、寫(xiě)代碼實(shí)現(xiàn)模型、構(gòu)建訓(xùn)練流水線、執(zhí)行超參數(shù)搜索,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。

這一過(guò)程對(duì)專業(yè)知識(shí)的依賴程度極高,人力成本也居高不下,非常耗費(fèi)時(shí)間。

為了解決這一問(wèn)題,UCSD的研究團(tuán)隊(duì)開(kāi)發(fā)了AIBuildAI智能體,充當(dāng)虛擬的AI工程師或AI科學(xué)家,全自動(dòng)構(gòu)建AI模型。用戶無(wú)需編程,只需要用自然語(yǔ)言對(duì)任務(wù)進(jìn)行描述,AIBuildAI自動(dòng)設(shè)計(jì)模型,寫(xiě)代碼實(shí)現(xiàn)模型,訓(xùn)練模型,調(diào)節(jié)超參數(shù),評(píng)估模型性能,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。


項(xiàng)目地址:https://github.com/aibuildai/AI-Build-AI

論文鏈接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf

OpenAI MLE-Bench測(cè)評(píng)結(jié)果:https://github.com/openai/mle-bench/pull/126

AIBuildAI在OpenAI MLE-Bench基準(zhǔn)測(cè)試的75個(gè)任務(wù)上以63.1%的獲獎(jiǎng)率位居榜首,其表現(xiàn)可媲美經(jīng)驗(yàn)豐富的AI工程師,實(shí)現(xiàn)了從任務(wù)描述到可部署模型的端到端自動(dòng)化。



AIBuildAI的設(shè)計(jì)靈感來(lái)源于真實(shí)的AI研究團(tuán)隊(duì)的工作流程。在典型的AI項(xiàng)目中,技術(shù)負(fù)責(zé)人統(tǒng)籌多條并行探索路線,研究員提出建模策略,工程師實(shí)現(xiàn)訓(xùn)練流水線,負(fù)責(zé)人定期評(píng)審結(jié)果、分配資源。AIBuildAI將這一工作流抽象為一個(gè)多智能體搜索過(guò)程:將整個(gè)開(kāi)發(fā)周期分解為多個(gè)專職智能體協(xié)作執(zhí)行,并通過(guò)集中化的管理器進(jìn)行統(tǒng)一調(diào)度。


技術(shù)核心

管理智能體(Manager Agent)

扮演項(xiàng)目運(yùn)行負(fù)責(zé)人的角色,全程不直接寫(xiě)代碼或執(zhí)行訓(xùn)練任務(wù),而是通過(guò)讀取磁盤上的實(shí)驗(yàn)記錄來(lái)做出下一步?jīng)Q策。他在兩種模式之間切換:協(xié)調(diào)模式下決定下一步應(yīng)該調(diào)用哪一個(gè)子智能體;篩選模式下依據(jù)訓(xùn)練信號(hào)保留有潛力的候選方案并終止無(wú)效方案來(lái)節(jié)約時(shí)間以及計(jì)算成本,并在進(jìn)展停滯時(shí)觸發(fā)修訂或者終止。

研究員智能體(Designer Agent)

負(fù)責(zé)想方案和改方案兩項(xiàng)核心任務(wù)。在設(shè)計(jì)模式下,他直接探索數(shù)據(jù)集特征,提出多個(gè)差異化、可行性強(qiáng)的建模計(jì)劃;在修訂模式下,他仔細(xì)診斷失敗原因(過(guò)擬合、欠擬合、收斂問(wèn)題或者數(shù)據(jù)異常),并提出具體的改進(jìn)方案供編碼智能體重新實(shí)現(xiàn)。

編碼智能體(Coder Agent)

將設(shè)計(jì)方案轉(zhuǎn)化為可運(yùn)行的訓(xùn)練與推理流水線。編碼智能體的目標(biāo)是確保代碼正確完整,而非追求最終性能。他會(huì)在寫(xiě)完代碼后執(zhí)行一次短時(shí)驗(yàn)證運(yùn)行以確保流水線可以端到端運(yùn)行,隨后將完整訓(xùn)練交由調(diào)優(yōu)器處理。

調(diào)優(yōu)器智能體(Tuner Agent)

接管訓(xùn)練過(guò)程,在已有代碼基礎(chǔ)上專注于性能提升。它采用先快速校準(zhǔn)、再?zèng)Q定是否投入的策略:先跑一段簡(jiǎn)短的熱身訓(xùn)練觀察學(xué)習(xí)曲線,再?zèng)Q定是延長(zhǎng)當(dāng)前方案還是進(jìn)行超參數(shù)調(diào)整。整個(gè)過(guò)程在固定計(jì)算預(yù)算內(nèi)完成。

系統(tǒng)設(shè)計(jì)

AIBuildAI在系統(tǒng)層面還具備三項(xiàng)關(guān)鍵特征:

  • 并行效率:多條解決方案軌跡在獨(dú)立工作空間中并發(fā)運(yùn)行,避免互相干擾,允許系統(tǒng)同時(shí)探索多個(gè)方法并將資源集中于表現(xiàn)好的候選方案。

  • 可復(fù)現(xiàn)性:所有智能體通過(guò)存儲(chǔ)于磁盤中產(chǎn)出物(方案文檔、配置文件、日志、檢查點(diǎn))進(jìn)行協(xié)調(diào),而非依賴內(nèi)存中的臨時(shí)信息,確保每一步操作均可事后審查與復(fù)現(xiàn)。

  • 安全性:智能體僅被允許寫(xiě)入自身軌跡目錄,數(shù)據(jù)集以只讀方式掛載,每次調(diào)用均生成可審計(jì)的操作日志。


實(shí)驗(yàn)結(jié)果


AIBuildAI在OpenAI MLE-Bench基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了來(lái)自Kaggle競(jìng)賽的真實(shí)任務(wù),涵蓋圖像分類,目標(biāo)檢測(cè)/分割、自然語(yǔ)言理解與生成、時(shí)序信號(hào)建模以及結(jié)構(gòu)化表格預(yù)測(cè)等多個(gè)類別,共75個(gè)任務(wù),要求系統(tǒng)完成從原始數(shù)據(jù)到可提交模型的全流程開(kāi)發(fā)。目前,AIBuildAI以63.1%的綜合獲獎(jiǎng)率位居MLE-Bench總榜第一。上圖展示了AIBuildAI(橙條)的綜合性能在所有的對(duì)比方法中實(shí)現(xiàn)了性能最佳。


上圖展示了AIBuildAI 在語(yǔ)言理解與生成任務(wù)上的詳細(xì)結(jié)果。上半部分以Billion Word Imputation為例,完整呈現(xiàn)了 AIBuildAI 各智能體的運(yùn)行軌跡:Manager依次調(diào)度Setup、Designer(提出6個(gè)候選方案)、Coder(實(shí)現(xiàn)流水線)和 Tuner(迭代調(diào)參),最終Aggregator以RoBERTa-large為基礎(chǔ)生成提交文件,取得5.5060的最優(yōu)分?jǐn)?shù)。下半部分對(duì)比了AIBuildAI與AIRA-dojo、MLEvolve在10個(gè)具體語(yǔ)言任務(wù)上的性能表現(xiàn)。

AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個(gè)任務(wù)上均取得最優(yōu)成績(jī),充分驗(yàn)證了 AIBuildAI 在多樣化語(yǔ)言任務(wù)上的泛化能力。

總結(jié)

AIBuildAI通過(guò)將AI開(kāi)發(fā)流程分配到包括設(shè)計(jì)、編碼、調(diào)優(yōu)與協(xié)調(diào)等任務(wù)的專職智能體,并以基于產(chǎn)出物的狀態(tài)管理將各個(gè)智能體緊密協(xié)同,實(shí)現(xiàn)了端到端自動(dòng)化AI工程。

不同于以往將代碼生成作為核心范式的單體系統(tǒng),AIBuildAI顯示建模了訓(xùn)練動(dòng)態(tài)監(jiān)控、早停機(jī)制與超參數(shù)調(diào)整等關(guān)鍵環(huán)節(jié),更貼近真實(shí)工程師團(tuán)隊(duì)的工作方式。

AIBuildAI在MLE-Bench的75個(gè)任務(wù)上,以63.1%的獲獎(jiǎng)率位居第一,證明了結(jié)構(gòu)化多智能體協(xié)作在復(fù)雜工程工作自動(dòng)化上的可行性,也為邁向媲美人類專業(yè)工程師的自動(dòng)AI系統(tǒng)提供了清晰的技術(shù)路線。

參考資料:

https://github.com/aibuildai/AI-Build-AI

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

沙雕小琳琳
2026-03-26 09:41:30
曝張雪峰遺囑內(nèi)容,和原配離婚原因被扒,三段感情時(shí)間線全曝光!

曝張雪峰遺囑內(nèi)容,和原配離婚原因被扒,三段感情時(shí)間線全曝光!

古希臘掌管松餅的神
2026-03-26 09:30:58
女子稱找高鐵乘務(wù)員投訴一名男子在列車口抽煙,被發(fā)了一個(gè)口罩,當(dāng)事人:乘務(wù)員的態(tài)度很好,但自己對(duì)這種情況無(wú)語(yǔ),希望高鐵全面禁煙

女子稱找高鐵乘務(wù)員投訴一名男子在列車口抽煙,被發(fā)了一個(gè)口罩,當(dāng)事人:乘務(wù)員的態(tài)度很好,但自己對(duì)這種情況無(wú)語(yǔ),希望高鐵全面禁煙

洪觀新聞
2026-03-25 14:56:54
“建議把中國(guó)分成7國(guó)、愿為美國(guó)死”,這位北大教授如今怎樣了?

“建議把中國(guó)分成7國(guó)、愿為美國(guó)死”,這位北大教授如今怎樣了?

近史閣
2026-03-24 22:26:15
再婚7天就散伙,54歲大媽:他為老不尊,67歲大爺:她不是女人

再婚7天就散伙,54歲大媽:他為老不尊,67歲大爺:她不是女人

熱心柚子姐姐
2026-03-25 09:34:25
實(shí)錘了,日媒爆料六本木高級(jí)陪酒女廣州運(yùn)毒被捕,日本網(wǎng)友這樣說(shuō)

實(shí)錘了,日媒爆料六本木高級(jí)陪酒女廣州運(yùn)毒被捕,日本網(wǎng)友這樣說(shuō)

日本物語(yǔ)
2026-03-25 20:56:54
張雪峰的財(cái)產(chǎn)幾個(gè)億,竟然沒(méi)買車,天天吃外賣,生活簡(jiǎn)樸到極致

張雪峰的財(cái)產(chǎn)幾個(gè)億,竟然沒(méi)買車,天天吃外賣,生活簡(jiǎn)樸到極致

魔都姐姐雜談
2026-03-25 15:59:12
南京女教師停職風(fēng)波反轉(zhuǎn)!大批家長(zhǎng)發(fā)聲力挺,懇請(qǐng)恢復(fù)崗位與聲譽(yù)

南京女教師停職風(fēng)波反轉(zhuǎn)!大批家長(zhǎng)發(fā)聲力挺,懇請(qǐng)恢復(fù)崗位與聲譽(yù)

火山詩(shī)話
2026-03-26 06:37:23
黎真主黨導(dǎo)彈襲擊以國(guó)防部及軍營(yíng)

黎真主黨導(dǎo)彈襲擊以國(guó)防部及軍營(yíng)

北青網(wǎng)-北京青年報(bào)
2026-03-26 10:19:17
伊朗發(fā)動(dòng)第81波行動(dòng),打擊以色列70多處目標(biāo)!內(nèi)塔尼亞胡:48小時(shí)內(nèi)盡可能多摧毀伊朗軍工設(shè)施;伊朗外長(zhǎng):以將美國(guó)推向沖突,沒(méi)有談判余地

伊朗發(fā)動(dòng)第81波行動(dòng),打擊以色列70多處目標(biāo)!內(nèi)塔尼亞胡:48小時(shí)內(nèi)盡可能多摧毀伊朗軍工設(shè)施;伊朗外長(zhǎng):以將美國(guó)推向沖突,沒(méi)有談判余地

每日經(jīng)濟(jì)新聞
2026-03-26 08:26:06
4月1日醫(yī)保7號(hào)令落地!1965-1985年出生的,這6件事務(wù)必抓緊辦

4月1日醫(yī)保7號(hào)令落地!1965-1985年出生的,這6件事務(wù)必抓緊辦

混沌錄
2026-03-25 15:50:11
特朗普?qǐng)?jiān)稱正在與伊朗談判:伊朗不敢認(rèn),其領(lǐng)導(dǎo)人“害怕被自己人干掉,也害怕被美國(guó)干掉”,美國(guó)在伊朗贏麻了

特朗普?qǐng)?jiān)稱正在與伊朗談判:伊朗不敢認(rèn),其領(lǐng)導(dǎo)人“害怕被自己人干掉,也害怕被美國(guó)干掉”,美國(guó)在伊朗贏麻了

極目新聞
2026-03-26 08:57:45
東契奇43分7助攻湖人戰(zhàn)勝步行者,勒布朗23分9板9助里夫斯25分

東契奇43分7助攻湖人戰(zhàn)勝步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
巴蒂:馬拉多納離世時(shí)身邊沒(méi)有人,最后走得像條狗一樣

巴蒂:馬拉多納離世時(shí)身邊沒(méi)有人,最后走得像條狗一樣

懂球帝
2026-03-26 06:43:02
到底有多無(wú)知,才能做出這樣的判決!

到底有多無(wú)知,才能做出這樣的判決!

槽三刀
2026-03-25 22:01:04
破解存量時(shí)代的內(nèi)卷競(jìng)爭(zhēng),農(nóng)夫山泉給出了正確答案

破解存量時(shí)代的內(nèi)卷競(jìng)爭(zhēng),農(nóng)夫山泉給出了正確答案

礪石商業(yè)評(píng)論
2026-03-26 09:46:36
張雪峰被罵8年,走后全網(wǎng)才發(fā)現(xiàn):他說(shuō)的5句話是給普通人的保命符

張雪峰被罵8年,走后全網(wǎng)才發(fā)現(xiàn):他說(shuō)的5句話是給普通人的保命符

奇思妙想草葉君
2026-03-25 13:22:05
美軍稱林肯號(hào)航母繼續(xù)對(duì)伊朗作戰(zhàn)

美軍稱林肯號(hào)航母繼續(xù)對(duì)伊朗作戰(zhàn)

界面新聞
2026-03-26 10:03:25
張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

阿纂看事
2026-03-25 21:31:59
1000億背后的陽(yáng)謀:拼多多利用中國(guó)制造的優(yōu)勢(shì),要狂掃國(guó)外市場(chǎng)

1000億背后的陽(yáng)謀:拼多多利用中國(guó)制造的優(yōu)勢(shì),要狂掃國(guó)外市場(chǎng)

風(fēng)向觀察
2026-03-25 20:46:14
2026-03-26 11:16:54
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14817文章數(shù) 66720關(guān)注度
往期回顧 全部

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬(wàn)元房產(chǎn)99%份額"閃離"

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬(wàn)元房產(chǎn)99%份額"閃離"

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
時(shí)尚
家居
手機(jī)
軍事航空

本地新聞

來(lái)永泰同安 赴一場(chǎng)春天的約會(huì)

《非窮盡列舉》,好看又絕望

家居要聞

傍海而居 靜觀蝴蝶海

手機(jī)要聞

米粉都更新了嗎?小米澎湃OS 3.1 重磅推送,實(shí)現(xiàn)安卓蘋(píng)果生態(tài)互通

軍事要聞

伊朗重申非交戰(zhàn)國(guó)家船只可安全通過(guò)霍爾木茲海峽

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版