超越谷歌，全球第一！上交AI科學(xué)家王者歸來，登頂OpenAI MLE-bench

2025-12-25 12:36:04　來源: 新智元

北京舉報

分享至

　　新智元報道

　　編輯：好困

　　【新智元導(dǎo)讀】剛剛，由SciMaster團隊推出的AI機器學(xué)習(xí)專家ML-Master 2.0，基于國產(chǎn)開源大模型DeepSeek，在OpenAI權(quán)威基準測試MLE-bench中一舉擊敗Google、Meta、微軟等國際頂流，刷新全球SOTA，再次登頂！目前該功能已在SciMaster線上平臺開放waiting list，歡迎申請體驗。

　　從《三體》中時刻干擾基礎(chǔ)物理實驗的「智子」，到《2001太空漫游》里具備自主決策能力的HAL，再到阿西莫夫筆下具有推理與科學(xué)探索能力的機器人，人類對一個問題的想象由來已久：

　　如果智能體不再只是工具，而是能夠像科學(xué)家一樣，在復(fù)雜環(huán)境中長期探索、不斷修正假設(shè)，科學(xué)會發(fā)生什么變化？

　　很長一段時間里，這樣的設(shè)想更多停留在科學(xué)想象中；而隨著大模型能力的快速躍遷，它正逐漸演變?yōu)橐粋€正在被認真對待的現(xiàn)實技術(shù)命題。

　　越來越多研究者開始意識到，真正的分水嶺并不在于AI能否把題「答對」，而在于它能否像科研人員一樣，在長期不確定的探索過程中不斷修正方向、積累經(jīng)驗，并在反復(fù)試錯中推動知識本身向前演化。

　　Google DeepMind推出的AlphaEvolve，試圖讓AI在長時間的演化過程中不斷修正自身策略；

　　OpenAI提出的Frontier Science，明確將衡量重點放在AI是否能夠在真實科研任務(wù)中持續(xù)工作、反復(fù)迭代；

　　美國甚至啟動了號稱「AI曼哈頓計劃」的Genesis Mission，嘗試將AI系統(tǒng)性地嵌入國家級科學(xué)研究體系之中。

　　這些探索路徑雖不相同，卻共同指向一個核心共識：

　　真正推動科學(xué)進步的AI，不是只會在競賽中給出標準答案，而是能夠在真實科研環(huán)境中，面對超長程科研任務(wù)時，經(jīng)受長時間試錯、不斷自我演化，并在持續(xù)迭代中逐步演化出可靠能力。

　　正是在這樣的背景下，AI4AI（AIfor AI）逐漸成為一個至關(guān)重要的方向：

　　它既是AI參與科學(xué)研究的重要形態(tài)之一，更直接關(guān)系到AI能否通過自身實踐推動能力增長，從而支撐更長期、更復(fù)雜的科研任務(wù)。

　　因而，OpenAI所提出的MLE-bench中所聚焦的機器學(xué)習(xí)工程（Machine LearningEngineering, MLE）任務(wù)，恰恰成為AI4AI場景下極為貼切的研究對象。

　　相比理想化的答題類型任務(wù)，真實的MLE科研往往需要在十幾個甚至數(shù)十小時內(nèi)，持續(xù)經(jīng)歷實驗設(shè)計、代碼實現(xiàn)、調(diào)試修正與結(jié)果分析等完整閉環(huán)，其過程高度依賴長期試錯與經(jīng)驗積累。

　　這也使得MLE-bench成為少數(shù)能夠真實反映AI是否具備長期科研演化能力的評測基準之一。

　　由上海交通大學(xué)人工智能學(xué)院、上海算法創(chuàng)新研究院、深勢科技組成的SciMaster團隊推出的面向真實機器學(xué)習(xí)科研任務(wù)的自主智能體ML-Master 2.0，就是這樣一個專門為「機器學(xué)習(xí)工程」而生的AI4AI（AI for AI）系統(tǒng)。

　　結(jié)合EigenAI提供的穩(wěn)定高性能AI基礎(chǔ)設(shè)施，該智能體基于國產(chǎn)大模型DeepSeek-V3.2-Speciale，在MLE-bench上擊敗Google，Meta，Microsoft等團隊構(gòu)建的一系列智能體，取得全球第一的成績。

　　更重要的是，它已經(jīng)在多家科技公司與實驗室中落地，用于具身智能機器人訓(xùn)練、理論物理模擬與發(fā)現(xiàn)等前沿場景。

　　這一結(jié)果不僅是一項榜單排名，更清晰地表明：

　　在面向真實科研任務(wù)、強調(diào)長期演化與工程閉環(huán)的自主智能體方向上，中國研究者已經(jīng)具備與國際頂尖團隊同臺競爭、并實現(xiàn)領(lǐng)先突破的能力。

　　ML-Master 2.0

　　為真實機器學(xué)習(xí)科研而生的自主智能體

　　在真實的機器學(xué)習(xí)工程（Machine Learning Engineering, MLE）中，科研并不是一次性「把題做對」。

　　相反，它往往是一個漫長而反復(fù)的過程：

　　設(shè)定實驗假設(shè)、編寫與修改代碼、定位bug、分析結(jié)果、推翻假設(shè)、再重新開始。這樣的循環(huán)，可能持續(xù)幾個，甚至數(shù)十個小時。

　　ML-Master 2.0正是圍繞這一真實科研場景被系統(tǒng)性設(shè)計出來的。

　　與許多只關(guān)注短程推理或單次任務(wù)成功的智能體不同，它從設(shè)計之初就假定：

　　沒有人類在旁實時糾錯；

　　實驗失敗是常態(tài)而非例外；

　　真正有價值的能力，來自長期反復(fù)試錯中的積累。

　　在保留原有ML-Master探索—利用閉環(huán)的基礎(chǔ)上，ML-Master 2.0進一步著重在長時間的探索中保持研究方向不跑偏，并且將失敗轉(zhuǎn)化為可復(fù)用的經(jīng)驗的能力。

　　這也直接引出了其關(guān)鍵設(shè)計理念之一：

　　科研型智能體必須具備長期認知積累的能力，而不是將上下文視為一次性消耗的推理材料。

　　超長程自主：能跑代碼，更能長期思考

　　在ML-Master 2.0的設(shè)計中，這種能力被明確概括為一個核心概念：

　　超長程自主（Ultra-Long-Horizon Autonomy）

　　在MLE場景下，真正的自主性并不等價于更強的代碼生成能力，而體現(xiàn)在系統(tǒng)是否能夠：

　　在長達數(shù)十小時的探索中持續(xù)圍繞同一科研目標展開；

　　從大量失敗實驗中總結(jié)規(guī)律，而不是簡單重復(fù)嘗試；

　　主動避開已經(jīng)驗證無效的技術(shù)路徑；

　　將一次任務(wù)中獲得的經(jīng)驗遷移到后續(xù)的新任務(wù)中。

　　換句話說，問題的關(guān)鍵并不在于「上下文夠不夠長」，而在于：

　　這些上下文是否能夠被持續(xù)整理、篩選，并真正沉淀為可復(fù)用的認知資產(chǎn)。

　　以「認知積累」為核心的ML-Master 2.0架構(gòu)

　　基于上述思考，ML-Master 2.0構(gòu)建了一套圍繞長期科研探索的整體技術(shù)框架。

　　在這一架構(gòu)中，上下文不再被視為「用完即丟」的推理輸入，而是被建模為一種具有生命周期的認知資產(chǎn)。

　　隨著科研過程不斷推進，系統(tǒng)內(nèi)部的認知逐步發(fā)生分化：

　　Experience（經(jīng)驗）：直接服務(wù)于當(dāng)前決策的即時執(zhí)行軌跡；

　　Knowledge（知識）：在同一任務(wù)中多次驗證后形成的穩(wěn)定結(jié)論；

　　Wisdom（智慧）：能夠跨任務(wù)復(fù)用的高層策略與認知原型。

　　為了系統(tǒng)性地管理這一演化過程，ML-Master 2.0引入了層次化認知緩存（Hierarchical Cognitive Caching, HCC）機制。

　　層次化認知緩存：為長程科研提供記憶支點

　　從直觀層面看，層次化認知緩存并不是簡單地「把上下文存得更多」，而是讓不同時間尺度的認知各司其職：

　　即時演化的經(jīng)驗，用于保證當(dāng)前探索過程的連續(xù)性；

　　階段性穩(wěn)定的知識，在同一科研任務(wù)中被反復(fù)調(diào)用；

　　跨任務(wù)沉淀的先驗智慧，為新問題提供高質(zhì)量起點。

　　在這一機制下，有價值的認知會在探索過程中被不斷篩選并逐步提升層級，而噪聲信息則會自然被淘汰。

　　這使得ML-Master 2.0即使在長時間運行中，也能夠保持穩(wěn)定、可控的科研節(jié)奏，而不會陷入「上下文爆炸」或「遺忘歷史經(jīng)驗」的困境。

　　ML-Master 2.0重登MLE-bench榜首

　　在OpenAI MLE-bench的系統(tǒng)評測中，ML-Master 2.0在完全無人工干預(yù)的條件下，基于國產(chǎn)Deepseek-V3.2-Speciale開源大模型，取得了56.44%的獎牌率，位列榜單第一，相較于Google等團隊的基于閉源模型的智能體提升28.3%。

　　并且ML-Master 2.0已經(jīng)開始在真實科研中發(fā)揮作用，參與協(xié)助理論計算物理以及具身智能等領(lǐng)域的前沿研究。

　　走向真正的自主AI科學(xué)家

　　ML-Master 2.0的優(yōu)異成果表明，通過將認知過程視為可積累、可遷移、可演化的資源，并以層次化方式對其進行管理，我們正在接近這樣一種智能體：

　　它不僅能完成一次任務(wù)，而是能夠在長期探索中，真正成長為一名自主的AI科學(xué)家。

　　在全球AI4Science競逐加速的今天，我們很高興看到：

　　中國團隊，正在用中國的開源大模型，參與并引領(lǐng)這一關(guān)鍵范式的轉(zhuǎn)變。

　　此前，ML-Master的核心代碼已經(jīng)開源，研究者和工程師可以通過GitHub訪問并了解其整體設(shè)計與實現(xiàn)細節(jié)。

　　與此同時，ML-Master 2.0所代表的這一整套「面向真實科研的自主智能體能力」，也將以產(chǎn)品形態(tài)逐步開放。

　　該能力即將通過SciMaster平臺上線，面向機器學(xué)習(xí)與AI4Science場景提供更完整、更穩(wěn)定的使用體驗。

　　目前該功能開放了Waiting List階段，感興趣的研究者與工程團隊可以在SciMaster主頁通過「SciMaster的朋友圈」提前申請體驗資格。

　　項目地址：

　　https://github.com/sjtu-sai-agents/ML-Master

　　SciMaster主頁：

　　https://scimaster.bohrium.com/chat/

　　EigenAI主頁：

　　https://www.eigenai.com/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.