国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

超越谷歌,全球第一!上交AI科學(xué)家王者歸來,登頂OpenAI MLE-bench

0
分享至

  

  新智元報道

  編輯:好困

  【新智元導(dǎo)讀】剛剛,由SciMaster團隊推出的AI機器學(xué)習(xí)專家ML-Master 2.0,基于國產(chǎn)開源大模型DeepSeek,在OpenAI權(quán)威基準測試MLE-bench中一舉擊敗Google、Meta、微軟等國際頂流,刷新全球SOTA,再次登頂!目前該功能已在SciMaster線上平臺開放waiting list,歡迎申請體驗。

  從《三體》中時刻干擾基礎(chǔ)物理實驗的「智子」,到《2001太空漫游》里具備自主決策能力的HAL,再到阿西莫夫筆下具有推理與科學(xué)探索能力的機器人,人類對一個問題的想象由來已久:

  如果智能體不再只是工具,而是能夠像科學(xué)家一樣,在復(fù)雜環(huán)境中長期探索、不斷修正假設(shè),科學(xué)會發(fā)生什么變化?

  

  很長一段時間里,這樣的設(shè)想更多停留在科學(xué)想象中;而隨著大模型能力的快速躍遷,它正逐漸演變?yōu)橐粋€正在被認真對待的現(xiàn)實技術(shù)命題。

  越來越多研究者開始意識到,真正的分水嶺并不在于AI能否把題「答對」,而在于它能否像科研人員一樣,在長期不確定的探索過程中不斷修正方向、積累經(jīng)驗,并在反復(fù)試錯中推動知識本身向前演化。

  Google DeepMind推出的AlphaEvolve,試圖讓AI在長時間的演化過程中不斷修正自身策略;

  OpenAI提出的Frontier Science,明確將衡量重點放在AI是否能夠在真實科研任務(wù)中持續(xù)工作、反復(fù)迭代;

  美國甚至啟動了號稱AI曼哈頓計劃Genesis Mission,嘗試將AI系統(tǒng)性地嵌入國家級科學(xué)研究體系之中。

  

  這些探索路徑雖不相同,卻共同指向一個核心共識:

  真正推動科學(xué)進步的AI,不是只會在競賽中給出標準答案,而是能夠在真實科研環(huán)境中,面對超長程科研任務(wù)時,經(jīng)受長時間試錯、不斷自我演化,并在持續(xù)迭代中逐步演化出可靠能力。

  正是在這樣的背景下,AI4AI(AIfor AI)逐漸成為一個至關(guān)重要的方向:

  它既是AI參與科學(xué)研究的重要形態(tài)之一,更直接關(guān)系到AI能否通過自身實踐推動能力增長,從而支撐更長期、更復(fù)雜的科研任務(wù)。

  因而,OpenAI所提出的MLE-bench中所聚焦的機器學(xué)習(xí)工程(Machine LearningEngineering, MLE)任務(wù),恰恰成為AI4AI場景下極為貼切的研究對象。

  相比理想化的答題類型任務(wù),真實的MLE科研往往需要在十幾個甚至數(shù)十小時內(nèi),持續(xù)經(jīng)歷實驗設(shè)計、代碼實現(xiàn)、調(diào)試修正與結(jié)果分析等完整閉環(huán),其過程高度依賴長期試錯與經(jīng)驗積累。

  這也使得MLE-bench成為少數(shù)能夠真實反映AI是否具備長期科研演化能力的評測基準之一。

  

  由上海交通大學(xué)人工智能學(xué)院、上海算法創(chuàng)新研究院、深勢科技組成的SciMaster團隊推出的面向真實機器學(xué)習(xí)科研任務(wù)的自主智能體ML-Master 2.0,就是這樣一個專門為「機器學(xué)習(xí)工程」而生的AI4AI(AI for AI)系統(tǒng)。

  結(jié)合EigenAI提供的穩(wěn)定高性能AI基礎(chǔ)設(shè)施,該智能體基于國產(chǎn)大模型DeepSeek-V3.2-Speciale,MLE-bench上擊敗Google,Meta,Microsoft等團隊構(gòu)建的一系列智能體,取得全球第一的成績。

  更重要的是,它已經(jīng)在多家科技公司與實驗室中落地,用于具身智能機器人訓(xùn)練、理論物理模擬與發(fā)現(xiàn)等前沿場景。

  

  這一結(jié)果不僅是一項榜單排名,更清晰地表明:

  在面向真實科研任務(wù)、強調(diào)長期演化與工程閉環(huán)的自主智能體方向上,中國研究者已經(jīng)具備與國際頂尖團隊同臺競爭、并實現(xiàn)領(lǐng)先突破的能力。

  ML-Master 2.0

  為真實機器學(xué)習(xí)科研而生的自主智能體

  在真實的機器學(xué)習(xí)工程(Machine Learning Engineering, MLE)中,科研并不是一次性「把題做對」。

  相反,它往往是一個漫長而反復(fù)的過程:

  設(shè)定實驗假設(shè)、編寫與修改代碼、定位bug、分析結(jié)果、推翻假設(shè)、再重新開始。這樣的循環(huán),可能持續(xù)幾個,甚至數(shù)十個小時。

  ML-Master 2.0正是圍繞這一真實科研場景被系統(tǒng)性設(shè)計出來的。

  與許多只關(guān)注短程推理或單次任務(wù)成功的智能體不同,它從設(shè)計之初就假定:

  沒有人類在旁實時糾錯;

  實驗失敗是常態(tài)而非例外;

  真正有價值的能力,來自長期反復(fù)試錯中的積累。

  在保留原有ML-Master探索—利用閉環(huán)的基礎(chǔ)上,ML-Master 2.0進一步著重長時間的探索中保持研究方向不跑偏并且將失敗轉(zhuǎn)化為可復(fù)用的經(jīng)驗的能力。

  這也直接引出了其關(guān)鍵設(shè)計理念之一:

  科研型智能體必須具備長期認知積累的能力,而不是將上下文視為一次性消耗的推理材料。

  超長程自主:能跑代碼,更能長期思考

  在ML-Master 2.0的設(shè)計中,這種能力被明確概括為一個核心概念:

  超長程自主(Ultra-Long-Horizon Autonomy)

  在MLE場景下,真正的自主性并不等價于更強的代碼生成能力,而體現(xiàn)在系統(tǒng)是否能夠:

  在長達數(shù)十小時的探索中持續(xù)圍繞同一科研目標展開;

  從大量失敗實驗中總結(jié)規(guī)律,而不是簡單重復(fù)嘗試;

  主動避開已經(jīng)驗證無效的技術(shù)路徑;

  將一次任務(wù)中獲得的經(jīng)驗遷移到后續(xù)的新任務(wù)中。

  換句話說,問題的關(guān)鍵并不在于「上下文夠不夠長」,而在于:

  這些上下文是否能夠被持續(xù)整理、篩選,并真正沉淀為可復(fù)用的認知資產(chǎn)。

  以「認知積累」為核心的ML-Master 2.0架構(gòu)

  基于上述思考,ML-Master 2.0構(gòu)建了一套圍繞長期科研探索的整體技術(shù)框架。

  在這一架構(gòu)中,上下文不再被視為「用完即丟」的推理輸入,而是被建模為一種具有生命周期的認知資產(chǎn)

  隨著科研過程不斷推進,系統(tǒng)內(nèi)部的認知逐步發(fā)生分化:

  Experience(經(jīng)驗)直接服務(wù)于當(dāng)前決策的即時執(zhí)行軌跡;

  Knowledge(知識)在同一任務(wù)中多次驗證后形成的穩(wěn)定結(jié)論;

  Wisdom(智慧)能夠跨任務(wù)復(fù)用的高層策略與認知原型。

  為了系統(tǒng)性地管理這一演化過程,ML-Master 2.0引入了層次化認知緩存(Hierarchical Cognitive Caching, HCC)機制。

  

  層次化認知緩存:為長程科研提供記憶支點

  從直觀層面看,層次化認知緩存并不是簡單地「把上下文存得更多」,而是讓不同時間尺度的認知各司其職:

  即時演化的經(jīng)驗用于保證當(dāng)前探索過程的連續(xù)性;

  階段性穩(wěn)定的知識在同一科研任務(wù)中被反復(fù)調(diào)用;

  跨任務(wù)沉淀的先驗智慧為新問題提供高質(zhì)量起點。

  在這一機制下,有價值的認知會在探索過程中被不斷篩選并逐步提升層級,而噪聲信息則會自然被淘汰。

  這使得ML-Master 2.0即使在長時間運行中,也能夠保持穩(wěn)定、可控的科研節(jié)奏,而不會陷入「上下文爆炸」或「遺忘歷史經(jīng)驗」的困境。

  ML-Master 2.0重登MLE-bench榜首

  在OpenAI MLE-bench的系統(tǒng)評測中,ML-Master 2.0在完全無人工干預(yù)的條件下,基于國產(chǎn)Deepseek-V3.2-Speciale開源大模型,取得了56.44%的獎牌率,位列榜單第一,相較于Google等團隊的基于閉源模型的智能體提升28.3%。

  并且ML-Master 2.0已經(jīng)開始在真實科研中發(fā)揮作用,參與協(xié)助理論計算物理以及具身智能等領(lǐng)域的前沿研究。

  

  走向真正的自主AI科學(xué)家

  ML-Master 2.0的優(yōu)異成果表明,通過將認知過程視為可積累、可遷移、可演化的資源,并以層次化方式對其進行管理,我們正在接近這樣一種智能體:

  它不僅能完成一次任務(wù),而是能夠在長期探索中,真正成長為一名自主的AI科學(xué)家。

  在全球AI4Science競逐加速的今天,我們很高興看到:

  中國團隊,正在用中國的開源大模型,參與并引領(lǐng)這一關(guān)鍵范式的轉(zhuǎn)變。

  此前,ML-Master的核心代碼已經(jīng)開源,研究者和工程師可以通過GitHub訪問并了解其整體設(shè)計與實現(xiàn)細節(jié)。

  與此同時,ML-Master 2.0所代表的這一整套「面向真實科研的自主智能體能力」,也將以產(chǎn)品形態(tài)逐步開放。

  該能力即將通過SciMaster平臺上線,面向機器學(xué)習(xí)與AI4Science場景提供更完整、更穩(wěn)定的使用體驗。

  目前該功能開放了Waiting List階段,感興趣的研究者與工程團隊可以在SciMaster主頁通過「SciMaster的朋友圈」提前申請體驗資格。

  

  項目地址:

  https://github.com/sjtu-sai-agents/ML-Master

  SciMaster主頁:

  https://scimaster.bohrium.com/chat/

  EigenAI主頁:

  https://www.eigenai.com/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
總統(tǒng)被擄走后,委內(nèi)瑞拉股市2026年已接近翻倍

總統(tǒng)被擄走后,委內(nèi)瑞拉股市2026年已接近翻倍

凱利經(jīng)濟觀察
2026-01-08 09:33:42
百億美元比特幣巨鱷落網(wǎng),起底柬埔寨賭詐“教父”陳志

百億美元比特幣巨鱷落網(wǎng),起底柬埔寨賭詐“教父”陳志

南方都市報
2026-01-08 20:07:09
宜家的問題已經(jīng)挺嚴重了

宜家的問題已經(jīng)挺嚴重了

蔚然未來消費
2026-01-08 08:34:50
俄羅斯赤道特遣隊撤回國內(nèi),美國捕馬撕去莫斯科最后一塊遮羞布

俄羅斯赤道特遣隊撤回國內(nèi),美國捕馬撕去莫斯科最后一塊遮羞布

史政先鋒
2026-01-07 19:38:07
一條新聞消失了

一條新聞消失了

深藍財經(jīng)
2026-01-07 14:22:05
中到大雪局部暴雪!山東迎強冷空氣,最低溫-10℃,9級大風(fēng)+降溫組團來襲

中到大雪局部暴雪!山東迎強冷空氣,最低溫-10℃,9級大風(fēng)+降溫組團來襲

齊魯壹點
2026-01-08 16:23:17
法官隱名 :一場悄無聲息的XXX

法官隱名 :一場悄無聲息的XXX

呦呦鹿鳴
2026-01-07 22:12:24
忍無可忍!籃球?qū)<彝磁褐辈グ岬讲耸袌觯珻BA早晚要出事

忍無可忍!籃球?qū)<彝磁褐辈グ岬讲耸袌?,CBA早晚要出事

體育哲人
2026-01-08 12:46:07
瑟瑟發(fā)抖!不到24小時,日本失去動武資格,中國再宣布對日新制裁

瑟瑟發(fā)抖!不到24小時,日本失去動武資格,中國再宣布對日新制裁

離離言幾許
2026-01-07 22:38:54
郭艾倫傷停!浙江35分狂勝廣州 徐昕僅2分陸文博16+4三分

郭艾倫傷停!浙江35分狂勝廣州 徐昕僅2分陸文博16+4三分

醉臥浮生
2026-01-08 21:09:49
唏噓!34歲J羅失業(yè)第8天+5年遭7隊拋棄 全網(wǎng)投簡歷求職無人回應(yīng)他

唏噓!34歲J羅失業(yè)第8天+5年遭7隊拋棄 全網(wǎng)投簡歷求職無人回應(yīng)他

風(fēng)過鄉(xiāng)
2026-01-08 20:41:14
上海通報:公職人員沈劍被查,涉嫌嚴重違紀違法

上海通報:公職人員沈劍被查,涉嫌嚴重違紀違法

上觀新聞
2026-01-08 12:10:08
終于輪到日本“強烈抗議”:130年了,日本從未像今天這樣憋屈

終于輪到日本“強烈抗議”:130年了,日本從未像今天這樣憋屈

小陳講史
2026-01-08 11:57:03
朝鮮不會成為第二個委內(nèi)瑞拉!因為朝鮮有兩個后盾

朝鮮不會成為第二個委內(nèi)瑞拉!因為朝鮮有兩個后盾

米君文史
2026-01-07 10:01:47
美媒曝光:美國出動海豹突擊隊在北大西洋扣押“貝拉1”號油輪

美媒曝光:美國出動海豹突擊隊在北大西洋扣押“貝拉1”號油輪

環(huán)球網(wǎng)資訊
2026-01-08 14:46:06
河北農(nóng)村怎么才能不挨凍?大V:在河北農(nóng)村蓋著16斤棉被,鼻子被凍傷

河北農(nóng)村怎么才能不挨凍?大V:在河北農(nóng)村蓋著16斤棉被,鼻子被凍傷

六子吃涼粉
2026-01-08 08:39:04
女子酒后跳河自殺身亡,孩子才兩歲半!丈夫向共同飲酒者和出租車司機索賠被駁回

女子酒后跳河自殺身亡,孩子才兩歲半!丈夫向共同飲酒者和出租車司機索賠被駁回

紅星新聞
2026-01-08 21:46:42
周琦專訪:趙睿當(dāng)初的首選不是首鋼;合作最舒服的后衛(wèi)是趙繼偉

周琦專訪:趙睿當(dāng)初的首選不是首鋼;合作最舒服的后衛(wèi)是趙繼偉

懂球帝
2026-01-08 20:06:44
訪華第2天,李在明得償所愿,不到24小時,高市對中國提出2個請求

訪華第2天,李在明得償所愿,不到24小時,高市對中國提出2個請求

近史博覽
2026-01-08 09:36:51
瘋傳!王石的瓜,好狗血!

瘋傳!王石的瓜,好狗血!

財經(jīng)要參
2026-01-05 22:13:08
2026-01-08 22:24:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14288文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

19歲小伙在柬疑被16萬轉(zhuǎn)賣 與母親視頻時按"酒窩"求救

頭條要聞

19歲小伙在柬疑被16萬轉(zhuǎn)賣 與母親視頻時按"酒窩"求救

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

時尚
親子
手機
本地
房產(chǎn)

190萬贊的爆款女孩,等待代表作

親子要聞

為兒童手表立規(guī),只是守衛(wèi)成長的第一步

手機要聞

一加手機2025年銷量增速位居行業(yè)第一:一加15/Ace 6銷量創(chuàng)新高

本地新聞

1986-2026,一通電話的時空旅程

房產(chǎn)要聞

豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

無障礙瀏覽 進入關(guān)懷版