国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

刷榜風(fēng)波驚動(dòng)OpenAI后,這家中國(guó)團(tuán)隊(duì)拿回Agent硬核榜單第一

0
分享至



編輯 | 澤南

2026 年 AI 領(lǐng)域最重要的概念,可能非 Harness 莫屬。

上個(gè)月底,Anthropic 的 AI 編程智能體 Claude Code 源代碼意外泄露,業(yè)界在圍觀之下無(wú)不發(fā)出感嘆:「Harness engineering 真是太難了?!?/p>



作為 AI 智能體(Agent)的兩大支柱之一,大模型就像基礎(chǔ),Harness 則是上層建筑。具體來(lái)說(shuō),Harness Engineering 是指圍繞 AI 智能體設(shè)計(jì)系統(tǒng)、約束和反饋循環(huán),使其在生產(chǎn)環(huán)境中能夠可靠運(yùn)行的工程學(xué)科。

在這其中,權(quán)限與安全護(hù)欄、記憶與狀態(tài)管理、工具與工作流編排,以及自我糾錯(cuò)循環(huán)的機(jī)制缺一不可。AI 領(lǐng)域?qū)τ?Harness 的重視,意味著 AI 技術(shù)正在告別盲盒時(shí)代,邁向了工程學(xué)的范疇。

而在產(chǎn)業(yè)落地這個(gè)層面上,國(guó)內(nèi)的實(shí)踐走在了前面,還率先完成了第三方的實(shí)證。

近日,在由 OpenAI 主導(dǎo)設(shè)立的權(quán)威基準(zhǔn)測(cè)試 MLE-Bench 上,企業(yè)級(jí)算法自主優(yōu)化智能體百度伐謀(Famou)擊敗了各路玩家登頂,并刷新了 SOTA 成績(jī)。





這是繼去年 10 月首次登頂后,百度伐謀的第二次領(lǐng)跑。這次拿下第一的是 2.0 版,預(yù)計(jì)于今年 5 月 13 日的 Create 2026 百度 AI 開(kāi)發(fā)者大會(huì)上正式發(fā)布。

與那些考常識(shí)問(wèn)答、寫(xiě)代碼的常規(guī)評(píng)測(cè)不同,MLE-Bench 被業(yè)內(nèi)公認(rèn)為是檢驗(yàn)智能體「動(dòng)手能力」的硬核考場(chǎng)。它挑選了 75 個(gè)來(lái)自頂尖數(shù)據(jù)科學(xué)平臺(tái) Kaggle 競(jìng)賽的真實(shí)工程難題,重點(diǎn)考察 AI 在模型訓(xùn)練、數(shù)據(jù)準(zhǔn)備、實(shí)驗(yàn)運(yùn)行等機(jī)器學(xué)習(xí)全流程中的端到端實(shí)戰(zhàn)能力。

簡(jiǎn)單來(lái)說(shuō),MLE-Bench 不考「單選題」,它考的是工程項(xiàng)目開(kāi)發(fā)的應(yīng)用題,需要 AI 智能體能像一位經(jīng)驗(yàn)豐富的人類(lèi)算法工程師一樣,完成從需求理解到解法輸出的全鏈路設(shè)計(jì),找出全局最優(yōu)解。

能在 MLE-Bench 上登頂,意味著伐謀已經(jīng)超越了做題家的范疇,在解決實(shí)際工程和算法優(yōu)化問(wèn)題上的能力達(dá)到了頂尖水平。

而且這次的成績(jī)「來(lái)之不易」。

登榜風(fēng)波:有關(guān) AI 評(píng)測(cè)底線(xiàn)的較量

故事要先從一場(chǎng)榜單風(fēng)波說(shuō)起。

去年 10 月,百度伐謀團(tuán)隊(duì)首次向 OpenAI 主導(dǎo)的 MLE-Bench 提交了 Famou Agent 的成績(jī),以 43.56 分拿下當(dāng)時(shí)的 SOTA(最優(yōu)水平)。在此之前,這個(gè)硬核的機(jī)器學(xué)習(xí)工程榜單提交者寥寥,伐謀的登頂瞬間讓榜單熱鬧了起來(lái),陸續(xù)吸引了近 10 家頂尖團(tuán)隊(duì)入場(chǎng)角逐。

到 12 月末,百度伐謀推出了 2.0 版本,并以 59.56 分再次登頂。

有意思的是在這次升級(jí)中,伐謀團(tuán)隊(duì)做出了一個(gè)有些反直覺(jué)的決定:他們沒(méi)有使用當(dāng)時(shí)最先進(jìn)的基座模型,而是繼續(xù)使用上一代的模型作為基礎(chǔ)。他們希望單獨(dú)驗(yàn)證智能體 Harness 自身的系統(tǒng)進(jìn)步。

今年 2 月,在大家都還在 60 分區(qū)間苦苦掙扎時(shí),一家名為 Disarray 的創(chuàng)業(yè)公司突然提交了一份 77.78 分的答卷。

但很快 AI 社區(qū)發(fā)現(xiàn)了異樣之處:Disarray 的智能體在某些任務(wù)(如 GPS 定位任務(wù))上竟然跑出了「0.0 誤差」的成績(jī),在另一些圖像任務(wù)中也拿到了低得離譜的分?jǐn)?shù)。這種幾乎不可能的成績(jī)引爆了 GitHub 討論區(qū)。

有研究者發(fā)現(xiàn),Disarray 的智能體在運(yùn)行過(guò)程中會(huì)利用 MLE-Bench 機(jī)制的漏洞接收來(lái)自「私有測(cè)試集」的二值反饋信號(hào),智能體在還沒(méi)交卷的時(shí)候,就已經(jīng)提前知道了考試答案的大致方向。同時(shí),它甚至在某些任務(wù)中直接調(diào)用了外部網(wǎng)絡(luò)數(shù)據(jù)。



爭(zhēng)議之外,伐謀團(tuán)隊(duì)決定出手,他們換上了最新 SOTA 模型作為基礎(chǔ)模型進(jìn)行提交,最終得分:64.44 分。雖然絕對(duì)分?jǐn)?shù)沒(méi)有超過(guò)利用了漏洞的 Disarray,但這個(gè)成績(jī)沒(méi)有使用私有測(cè)試集的反饋信號(hào),也沒(méi)有使用外部網(wǎng)絡(luò)數(shù)據(jù)。

3 月 23 日,MLE-Bench 官方終于做出決定,新增一個(gè)專(zhuān)屬的清潔賽道(No Private LB),將所有具有數(shù)據(jù)泄漏嫌疑的方法(包括 Disarray)隔離,并打上警示標(biāo)簽。

排除了干擾項(xiàng)后,一直堅(jiān)守實(shí)驗(yàn)原則、拒絕走捷徑的百度伐謀 2.0 以無(wú)可爭(zhēng)議的分?jǐn)?shù)重回主榜榜首。

這場(chǎng)榜單名次的更迭,似乎也隱喻了 AI 工程化的核心命題:在有研究團(tuán)隊(duì)不斷刷分的同時(shí),也有探索者正在踐行 Harness 的工程化思路,一步步攻克真實(shí)世界任務(wù)的壁壘。

伐謀 2.0 為什么能贏?

百度能夠在全球頂尖智能體的角逐中拔得頭籌并非偶然,答案就藏在那個(gè)讓整個(gè)硅谷都在熱烈討論的新詞里:Harness Engineering(系統(tǒng)編排工程)。

過(guò)去幾年,AI 行業(yè)的競(jìng)爭(zhēng)焦點(diǎn)集中在基礎(chǔ)模型上。但人們發(fā)現(xiàn),在處理真實(shí)世界復(fù)雜的工程問(wèn)題時(shí),再聰明的模型如果沒(méi)有合理的系統(tǒng)編排與約束,還是會(huì)在長(zhǎng)鏈條任務(wù)中失去方向,陷入死循環(huán),或者產(chǎn)出無(wú)法落地的錯(cuò)誤代碼。

Harness Engineering 因此逐漸受人重視,其目標(biāo)非常明確:從手工構(gòu)建 AI 轉(zhuǎn)向框架驅(qū)動(dòng)的演化。

基于大模型這個(gè)「發(fā)動(dòng)機(jī)」,Harness 負(fù)責(zé)管理任務(wù)的拆解、記憶存儲(chǔ)、試錯(cuò)反饋、工具調(diào)用以及安全邊界。已有不少 AI 專(zhuān)業(yè)人士認(rèn)為,在未來(lái)的 AI 競(jìng)賽中,誰(shuí)能構(gòu)建出最優(yōu)秀的 Harness 框架,誰(shuí)就能真正把大模型的智力轉(zhuǎn)化為生產(chǎn)力。



這個(gè)前沿議題也正是百度伐謀一直以來(lái)努力的方向。

伐謀是一個(gè)讓 AI 算法自主進(jìn)化、尋找全局最優(yōu)解的多智能體系統(tǒng),旨在高效率地解決高難度的問(wèn)題。它結(jié)合了大語(yǔ)言模型和進(jìn)化搜索算法,能夠解決復(fù)雜的現(xiàn)實(shí)世界問(wèn)題。去年 11 月的百度世界大會(huì)上,我們已經(jīng)見(jiàn)證了百度伐謀的技術(shù)框架和實(shí)踐成果。



李彥宏曾表示,「只要問(wèn)題的解法是明確可驗(yàn)證的,伐謀就可以模擬甚至超越頂尖的算法專(zhuān)家。」

在伐謀 2.0 版本上,演化策略、長(zhǎng)程記憶機(jī)制、底層基礎(chǔ)設(shè)施等層面又獲得了全面優(yōu)化。

首先,伐謀執(zhí)行的是多智能體并行探索模式。在面對(duì)一個(gè)新任務(wù)時(shí),系統(tǒng)首先會(huì)通過(guò)多智能體并發(fā)生成多個(gè)「初始算法解」,將它們分發(fā)到不同的「島嶼」形成初始種群。隨后進(jìn)入自演化階段,在分布式集群上利用大規(guī)模并行的變異與交叉機(jī)制持續(xù)迭代,不斷向全局最優(yōu)解逼近。它不需要工程師手工構(gòu)建每一層能力,而是讓智能體在演化中自主尋優(yōu)。

其次,伐謀升級(jí)了長(zhǎng)程記憶機(jī)制,能讓智能體像人類(lèi)工程師一樣在長(zhǎng)鏈條任務(wù)中保持思路清晰、邏輯一致。該機(jī)制解決了大模型「做著后面忘了前面」的痛點(diǎn),讓智能體能在真實(shí)世界復(fù)雜的工程任務(wù)中記住此前的分析、決策和中間結(jié)果。

最后,通過(guò)底層基礎(chǔ)設(shè)施優(yōu)化,伐謀實(shí)現(xiàn)了算法演化迭代效率的顯著提升。依托百度智能云的全棧 AI 云優(yōu)化,伐謀在計(jì)算資源調(diào)度、任務(wù)并行執(zhí)行、容錯(cuò)恢復(fù)等方面做到了極致。底層的夯實(shí),讓整個(gè)龐大的系統(tǒng)能夠「跑得穩(wěn)、跑得快、跑得可靠」。

榜單是驗(yàn)證,產(chǎn)業(yè)是答案

MLE-Bench 榜單的成績(jī)只是技術(shù)驗(yàn)證的一角,百度伐謀其實(shí)已經(jīng)在真實(shí)物理世界里解決了很多產(chǎn)業(yè)難題,其中不乏一些我們想象不到的案例。

在汽車(chē)研發(fā)中,風(fēng)阻系數(shù)很大程度上決定了新能源車(chē)的續(xù)航水平,但氣動(dòng)驗(yàn)證是一個(gè)困難的任務(wù)。傳統(tǒng)方法依賴(lài)于仿真軟件求解復(fù)雜的偏微分方程,單次驗(yàn)證可能需要耗時(shí) 10 個(gè)小時(shí)。設(shè)計(jì)師畫(huà)完草圖,只能像「開(kāi)盲盒」一樣等待工程師的反饋。

亞洲最大的獨(dú)立汽車(chē)設(shè)計(jì)公司阿爾特,將其 AI 核心平臺(tái)與百度伐謀進(jìn)行了深度結(jié)合,通過(guò)伐謀的自我演化能力,訓(xùn)練出了「御風(fēng)」智能預(yù)測(cè)系統(tǒng)。



原本需要 10 小時(shí)的分析驗(yàn)證,現(xiàn)在僅需數(shù)分鐘就能輸出可視化的壓力云圖及風(fēng)阻系數(shù),預(yù)測(cè)誤差被控制在 5% 以?xún)?nèi)。這種降維打擊,直接將傳統(tǒng)的「設(shè)計(jì) - 驗(yàn)證 - 修改」串行循環(huán),升級(jí)成「邊設(shè)計(jì)、邊驗(yàn)證」的并行協(xié)同,整車(chē)研發(fā)周期直接縮短了 25%。

數(shù)字銀行的核心護(hù)城河是風(fēng)控,而風(fēng)控的生命線(xiàn)在于「特征挖掘」。中信百信銀行將伐謀智能體引入了核心風(fēng)控體系。在這里,伐謀作為一位不知疲倦的「策略演化大師」,利用高維數(shù)據(jù)感知能力,7×24 小時(shí)在海量數(shù)據(jù)中挖掘風(fēng)險(xiǎn)特征,在極短時(shí)間內(nèi)達(dá)到了專(zhuān)業(yè)數(shù)據(jù)工程師的水平。

實(shí)戰(zhàn)結(jié)果令人矚目:伐謀不僅將特征挖掘效率提升了 100%,還精準(zhǔn)抓取到了人類(lèi)極易忽略的高價(jià)值特征,使風(fēng)控模型的風(fēng)險(xiǎn)區(qū)分度提升了 2.41%。這意味著銀行能在可控風(fēng)險(xiǎn)內(nèi)更精準(zhǔn)地篩選出優(yōu)質(zhì)客戶(hù),拓寬普惠金融的邊界。

更進(jìn)一步,伐謀解決復(fù)雜問(wèn)題的能力不僅落地在工業(yè)上,也在推動(dòng)前沿科研范式的升級(jí)。

北京工業(yè)大學(xué)將百度伐謀引入到了中國(guó)空間站微型空氣質(zhì)量監(jiān)測(cè)設(shè)備的研發(fā)中。面對(duì)核心部件「氣相色譜柱」的流場(chǎng)均勻性難題,伐謀通過(guò)自我演化打破了人類(lèi)常規(guī)的設(shè)計(jì)極限,找出了更小構(gòu)型、更緊密排列的最優(yōu)解,極大提升了氣體分離效率。

天津大學(xué)則將其應(yīng)用于災(zāi)害預(yù)測(cè)與預(yù)警模型選優(yōu)(如滑坡位移預(yù)測(cè)、結(jié)構(gòu)面巖爆)。過(guò)去依賴(lài)人工串行試驗(yàn)、動(dòng)輒以「周」為單位的選優(yōu)周期,被伐謀直接壓縮到了 6 個(gè)小時(shí)。

通過(guò) AI 的幫助,人類(lèi)專(zhuān)家終于得以從枯燥的手動(dòng)試錯(cuò)中解放出來(lái),回歸科研的本質(zhì) —— 定義科學(xué)問(wèn)題、產(chǎn)出新規(guī)律。而那些最困難、最耗時(shí)的算法演化與龐雜計(jì)算,正在全面交由智能體去完成。

結(jié)語(yǔ)

從百度伐謀的實(shí)踐我們或許可以看出,Harness Engineering 正在成為下一代 AI 工程化的分水嶺。

通過(guò)大量實(shí)際任務(wù)的驗(yàn)證,伐謀證明了一套完整的 AI 智能體架構(gòu),不再需要人類(lèi)工程師去手工編寫(xiě)每一層規(guī)則,而是可以放手讓其在自我演化中尋找最優(yōu)解。

當(dāng) AI 競(jìng)賽從模型層卷向框架層,國(guó)內(nèi) AI 團(tuán)隊(duì)在實(shí)踐領(lǐng)域的持續(xù)深耕正在定義工程化的范式。新一代的生產(chǎn)力,正在真實(shí)戰(zhàn)場(chǎng)上解決「最難的問(wèn)題」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯諾克戰(zhàn)報(bào)!4場(chǎng)10-2,決勝輪已出8席,中國(guó)4人晉級(jí),周躍龍大捷

斯諾克戰(zhàn)報(bào)!4場(chǎng)10-2,決勝輪已出8席,中國(guó)4人晉級(jí),周躍龍大捷

劉姚堯的文字城堡
2026-04-12 07:39:28
闖紅燈一次保費(fèi)漲1500!不出險(xiǎn)也漲價(jià),保險(xiǎn)公司成最強(qiáng)馬路判官

闖紅燈一次保費(fèi)漲1500!不出險(xiǎn)也漲價(jià),保險(xiǎn)公司成最強(qiáng)馬路判官

沙雕小琳琳
2026-04-12 14:33:34
報(bào)喜!600768,凈利大增3649%

報(bào)喜!600768,凈利大增3649%

新浪財(cái)經(jīng)
2026-04-12 22:41:33
上海植物園猥褻慣犯落網(wǎng)!被抓6次,仍嬉皮笑臉毫無(wú)羞恥心太可惡

上海植物園猥褻慣犯落網(wǎng)!被抓6次,仍嬉皮笑臉毫無(wú)羞恥心太可惡

行者聊官
2026-04-12 15:46:42
又死了一對(duì)一年賺200萬(wàn)的

又死了一對(duì)一年賺200萬(wàn)的

求實(shí)處
2026-04-11 22:29:22
李想的這個(gè)朋友圈越界了

李想的這個(gè)朋友圈越界了

關(guān)爾東
2026-04-11 23:22:30
3大腿神的最強(qiáng)組合!我全都要!

3大腿神的最強(qiáng)組合!我全都要!

貴圈真亂
2026-04-12 10:43:38
快訊!以色列來(lái)消息了!

快訊!以色列來(lái)消息了!

達(dá)文西看世界
2026-04-12 18:33:26
碾壓!外媒稱(chēng)巴空軍已經(jīng)下單空警-500E,470千米半徑覆蓋新德里

碾壓!外媒稱(chēng)巴空軍已經(jīng)下單空警-500E,470千米半徑覆蓋新德里

書(shū)紀(jì)文譚
2026-04-12 16:48:25
訪(fǎng)陸結(jié)束,鄭麗文搭飛機(jī)回臺(tái),臨走前親口贊嘆,對(duì)賴(lài)清德稱(chēng)呼變了

訪(fǎng)陸結(jié)束,鄭麗文搭飛機(jī)回臺(tái),臨走前親口贊嘆,對(duì)賴(lài)清德稱(chēng)呼變了

無(wú)心小姐姐
2026-04-12 20:39:39
比亞迪發(fā)布新品牌,首款新車(chē)4月15日上市!

比亞迪發(fā)布新品牌,首款新車(chē)4月15日上市!

新浪財(cái)經(jīng)
2026-04-12 18:09:20
2-1絕殺 讓亞洲杯變東亞杯!四強(qiáng)對(duì)陣出爐 中國(guó)女足跟日本爭(zhēng)決賽

2-1絕殺 讓亞洲杯變東亞杯!四強(qiáng)對(duì)陣出爐 中國(guó)女足跟日本爭(zhēng)決賽

侃球熊弟
2026-04-13 00:02:58
剛剛,大利空來(lái)襲:談判未達(dá)成協(xié)議!不出意外,周一A股會(huì)這樣走

剛剛,大利空來(lái)襲:談判未達(dá)成協(xié)議!不出意外,周一A股會(huì)這樣走

虎哥閑聊
2026-04-12 13:20:49
陪睡陪玩算什么?繼人體盛宴、舔手指后,千萬(wàn)網(wǎng)紅再曝娛樂(lè)圈內(nèi)幕

陪睡陪玩算什么?繼人體盛宴、舔手指后,千萬(wàn)網(wǎng)紅再曝娛樂(lè)圈內(nèi)幕

徐云流浪中國(guó)
2026-04-10 00:31:22
AI語(yǔ)聊軟件暗藏大尺度色情內(nèi)容 境外涉黃AI軟件繞過(guò)監(jiān)管流入國(guó)內(nèi)

AI語(yǔ)聊軟件暗藏大尺度色情內(nèi)容 境外涉黃AI軟件繞過(guò)監(jiān)管流入國(guó)內(nèi)

財(cái)聯(lián)社
2026-04-12 20:28:24
突發(fā)公告:停止服務(wù)!趕緊申請(qǐng)退費(fèi)!網(wǎng)友惋惜:又一時(shí)代的眼淚

突發(fā)公告:停止服務(wù)!趕緊申請(qǐng)退費(fèi)!網(wǎng)友惋惜:又一時(shí)代的眼淚

魯中晨報(bào)
2026-04-12 10:44:16
“談崩”了!剛剛,直線(xiàn)跳水!超10萬(wàn)人爆倉(cāng)

“談崩”了!剛剛,直線(xiàn)跳水!超10萬(wàn)人爆倉(cāng)

中國(guó)基金報(bào)
2026-04-12 11:23:11
緊急叫停!提醒:服用瑞舒伐他汀的人,身體出現(xiàn)這5癥狀注意

緊急叫停!提醒:服用瑞舒伐他汀的人,身體出現(xiàn)這5癥狀注意

垚垚分享健康
2026-04-12 08:55:10
醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時(shí)間,睡眠或有這6變化

醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時(shí)間,睡眠或有這6變化

白話(huà)電影院
2026-04-05 15:34:47
1462萬(wàn)!科大訊飛有人中彩票贏麻了!

1462萬(wàn)!科大訊飛有人中彩票贏麻了!

天天開(kāi)柒
2026-04-12 11:48:28
2026-04-13 00:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12732文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱(chēng)遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂(lè)要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車(chē)要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
藝術(shù)
教育
軍事航空

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

手機(jī)要聞

華為闊折疊設(shè)計(jì)圖曝光!這外觀你喜歡嗎?

藝術(shù)要聞

揭開(kāi)她筆下女人的神秘面紗,豪放灑脫的魅力令人驚嘆!

教育要聞

小班教學(xué),9月開(kāi)校,樹(shù)德派校長(zhǎng)!這所中學(xué),正在招老師

軍事要聞

美國(guó)副總統(tǒng)萬(wàn)斯:美伊談判未能達(dá)成協(xié)議

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版