国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

不卷跑分不養(yǎng)蝦,MiniMax M2.7 帶來了一個(gè)真正能打的 Cowork Agent

0
分享至


3月18日晚,Minimax 悄悄上了波大分。

更新了其最新的M2.7版本,并且官方還給出了一個(gè)核心定義:M2.7,是 MiniMax 第一代深度參與自身進(jìn)化的模型。

其不僅在指令遵循、辦公協(xié)同、Coding 方面有明顯提升,更重要的是它能夠自主搭建 Agent Harness。也就是說,它能搭出一套完整的任務(wù)框架,調(diào)用各種技能和工具,解決單個(gè)模型搞不定的問題,思考干活兩手抓,妥妥的“自我進(jìn)化”。

但這不是光說不練,Minimax還甩出了可驗(yàn)證的測試數(shù)據(jù)。在測試中,測試員給它甩在了MLE Lite 22道高難度競賽中,M2.7取得了9金5銀1銅的成績,僅次于Opus-4.6、GPT-5.4,與Gemini-3.1持平。

另外,在當(dāng)下行業(yè)最關(guān)注的 Agent 真實(shí)任務(wù)執(zhí)行能力評(píng)測上,M2.7 的表現(xiàn)同樣出圈。在基于標(biāo)準(zhǔn)化 OpenClaw Agent 測試的 PinchBench 榜單中,剛發(fā)布的 M2.7 快速登頂,以 86.2% 的任務(wù)成功率擊敗英偉達(dá) Nemotron 3,拿下了 Best score 榜單的全球第四名,僅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6,刷新了國內(nèi)大模型在該榜單的最好成績。


而此次更新僅僅距離 M2.5 過去一個(gè)月。接連刷新的榜單、肉眼可見的能力躍升,都在印證一件事:大模型的能力已經(jīng)不僅僅局限于答題、寫代碼的基礎(chǔ)能力,正在向自主規(guī)劃、自主迭代進(jìn)化。

尤其是 OpenClaw 爆火后,大家更在意的,已經(jīng)不是模型能不能寫代碼了,而是接進(jìn)真實(shí)工作流以后到底好不好用。說白了,就是把模型和工具真正接起來跑任務(wù)之后,它會(huì)不會(huì)掉鏈子,能不能把事情接著往下做。OpenClaw 本身就是沖著這種用法去的,所以現(xiàn)在大家都在找一個(gè)更合適的大模型接入。

我們第一時(shí)間拿到了上手評(píng)測的機(jī)會(huì)。這一次,我們核心要驗(yàn)證的只有一件事:接入 OpenClaw 之后,M2.7 的真實(shí)體驗(yàn)到底如何?M2.7 到底是不是現(xiàn)在國內(nèi)最好的 Cowork Agent?


長鏈路任務(wù)的穩(wěn)定性,才是真分水嶺

最近 OpenClaw 這波熱度,大家應(yīng)該都感受得到?,F(xiàn)在模型能接進(jìn)去,真不算新鮮事了,真正開始拉開差距的,是接進(jìn)去以后到底好不好使。任務(wù)短的時(shí)候,很多模型都還能裝得挺像樣;一旦開始掛 skills、開始疊約束、開始把流程拉長,問題就出來了,前面條件沒吃透,后面補(bǔ)充一句它就亂,做到一半直接掉線。

OpenClaw 本來就是沖著把模型和工具、會(huì)話、任務(wù)鏈路接起來去的,所以放在這個(gè)環(huán)境里測,反而更容易看出一個(gè)模型到底靠不靠譜。

第一個(gè)任務(wù)是一道約束很多的龍蝦活動(dòng)題,預(yù)算、人群、渠道、門店承載、風(fēng)險(xiǎn)和備選方案全都提前卡死,重點(diǎn)就看它會(huì)不會(huì)先把條件理清,再往下拆。

M2.7 這一步給我的感覺還不錯(cuò),沒有急著往外發(fā)散,而是先把約束撈出來,再拆任務(wù),再給方案,這種起手方式就比較讓人放心。而這也正是 M2.7 本次升級(jí)的核心強(qiáng)化方向 —— 復(fù)雜長鏈路任務(wù)的承接與落地,實(shí)測下來的表現(xiàn)的確不俗。

接著我把任務(wù)再拉長一點(diǎn)。先給一版基礎(chǔ)方案,然后一輪一輪往上加條件,不能打折、供應(yīng)鏈有限、門店人手少、目標(biāo)人群變了,最后再加一個(gè)更像真實(shí)業(yè)務(wù)會(huì)提的要求,希望這套活動(dòng)下個(gè)月還能復(fù)用成 SOP。

全程下來,M2.7 沒有出現(xiàn)很多模型常見的 “一加需求就推翻重寫” 的問題,始終能沿著初始的核心邏輯持續(xù)優(yōu)化迭代,這一點(diǎn)對(duì)于長流程工作流來說,至關(guān)重要。第三輪迭代中它出現(xiàn)了短暫的卡頓,能看出超長鏈路中仍有小幅波動(dòng),但在追問之后,它快速補(bǔ)齊了所有內(nèi)容,包括最小可復(fù)用版本、標(biāo)準(zhǔn)化執(zhí)行環(huán)節(jié)、人工決策節(jié)點(diǎn),完整承接,沒有出現(xiàn)信息遺漏。

跑完這兩組全鏈路任務(wù),M2.7 在 OpenClaw 里的表現(xiàn)已經(jīng)非常清晰:它最核心的價(jià)值,不是單輪輸出多么驚艷的答案,而是任務(wù)啟動(dòng)時(shí)邏輯清晰、鏈路拉長后不易散架、多輪迭代中不丟約束。在真實(shí)的工作流里,這種穩(wěn)定的持續(xù)交付能力,遠(yuǎn)比單輪的華麗輸出重要得多。而在復(fù)雜長鏈路任務(wù)的承接上,M2.7 已經(jīng)交出了國內(nèi)最好的 Cowork Agent該有的滿分答卷。


代碼能力全場景驗(yàn)證:從 “寫代碼” 到 “做項(xiàng)目” 的工程化躍升

真要看編程能力,還是得把項(xiàng)目丟過去。MiniMax 這次公開給出的方向里,Coding 的位置明顯更靠前。官方數(shù)據(jù)顯示,在 SWE-Pro 基準(zhǔn)測試中,M2.7 得分 56.22%,無限接近 Claude Opus 的頂級(jí)水平;在端到端完整項(xiàng)目交付的 VIBE-Pro 測試中得分 55.6%,在復(fù)雜工程系統(tǒng)理解的 Terminal Bench 2 測試中得分 57.0%。更重要的是,它的能力早已跳出了單純的代碼生成,延伸到了日志分析、Bug 定位、故障排障、工程重構(gòu)等高階開發(fā)領(lǐng)域,而這種變化,在實(shí)測中有著極為直觀的體感。


在前端測試環(huán)節(jié),我們給出了一個(gè)品牌展示官網(wǎng)的全量開發(fā)需求,這個(gè)任務(wù)的難度并非簡單的頁面拼接 ——它會(huì)包含品牌調(diào)性、視覺配色、頁面節(jié)奏、交互動(dòng)效、粒子特效等多個(gè)維度,并且多個(gè)維度必須同時(shí)達(dá)標(biāo),最終產(chǎn)出的才是一個(gè)能真正商用的官網(wǎng)。很多模型在這里最容易翻車的。而 M2.7 的表現(xiàn)也超出了我的意料,尤其是配合官方 Skill 協(xié)同運(yùn)行時(shí),頁面的完成度直接拉滿,完全沒有常見的模板化痕跡,視覺層次、品牌配色、交互動(dòng)效完全統(tǒng)一,最終交付的是一個(gè)可以直接上線使用的完整站點(diǎn),而非零散的代碼片段。

在后端測試環(huán)節(jié),我給 M2.7 的不是補(bǔ)幾段接口代碼的小任務(wù),而是一個(gè)從零開始往下搭的真實(shí)項(xiàng)目。技術(shù)棧用的是 Python、FastAPI 和 PostgreSQL,里面既有接口、數(shù)據(jù)模型、鑒權(quán)這些基礎(chǔ)環(huán)節(jié),也有遷移、測試、文檔和后續(xù)排障。這類任務(wù)真正難的地方,不在代碼量,而在上下文要一直對(duì)得上,前面定下來的結(jié)構(gòu),后面每一步都不能亂。 M2.7 這一輪最讓人驚喜的一點(diǎn),就是它在這種連續(xù)工程任務(wù)中,更像是資深開發(fā)的項(xiàng)目管理思維,而非單純的代碼生成工具:先搭好完整的項(xiàng)目骨架,再逐層補(bǔ)齊數(shù)據(jù)庫設(shè)計(jì)、業(yè)務(wù)接口、測試用例、接口文檔,項(xiàng)目上線跑通后,遇到問題還能自主排查、快速修復(fù),全程邏輯連貫,沒有出現(xiàn)任何架構(gòu)跑偏、上下文脫節(jié)的問題。

M2.7 這次編程能力最明顯的變化,不是某個(gè)點(diǎn)突然特別炸,而是工程感更強(qiáng)了。前端會(huì)往展示結(jié)果上收,后端也能按項(xiàng)目節(jié)奏一路往下推?,F(xiàn)在模型會(huì)寫代碼已經(jīng)不稀奇了,真正有價(jià)值的是項(xiàng)目跑起來之后還能不能繼續(xù)跟。就這一點(diǎn)看,M2.7 已經(jīng)不只是一個(gè)會(huì)生成代碼的模型了,而是在往真正能參與開發(fā)流程的 Cowork Agent 方向走。放到國內(nèi)這批模型里,這種工程參與感其實(shí)很少見。


辦公自動(dòng)化全鏈路考驗(yàn):覆蓋完整知識(shí)工作流的協(xié)同能力

Office 自動(dòng)化這塊,我沒有拿簡單表格來試,而是直接上了一條完整鏈路。先生成一套模擬經(jīng)營數(shù)據(jù),再基于數(shù)據(jù)做復(fù)雜金融圖表,最后把圖表和數(shù)據(jù)整理成網(wǎng)頁數(shù)據(jù)報(bào)告。這里測的已經(jīng)不是會(huì)不會(huì)寫公式,而是數(shù)據(jù)、圖表、分析和展示能不能連成一套結(jié)果。


M2.7 這一輪的表現(xiàn)比較扎實(shí)。數(shù)據(jù)生成不是隨便拼數(shù)字,收入、利潤率、現(xiàn)金流、營收這些指標(biāo)之間有基本邏輯;圖表也不是簡單折線圖,而是把幾個(gè)關(guān)鍵經(jīng)營指標(biāo)放進(jìn)同一個(gè)分析畫面里,信息密度和重點(diǎn)都?jí)?。繼續(xù)往下做網(wǎng)頁報(bào)告時(shí),它也沒有停在把圖貼上去,而是把核心結(jié)論、風(fēng)險(xiǎn)點(diǎn)和管理建議一起整理出來,最后形成的是一份能直接展示的頁面,不是一堆零散素材。


它現(xiàn)在展現(xiàn)出來的,已經(jīng)不是基礎(chǔ)表格處理能力了,而是復(fù)雜 Office 自動(dòng)化能力。數(shù)據(jù)清洗、圖表生成、分析歸納、匯報(bào)整理這一整條鏈路,它都能繼續(xù)往下做,多輪修改之后結(jié)構(gòu)也沒有明顯散掉。放到真實(shí)辦公場景里,這種表現(xiàn)比單獨(dú)會(huì)做 Excel、會(huì)寫報(bào)告更有參考價(jià)值,因?yàn)樗_始覆蓋的是更完整的知識(shí)工作流程。

從能力邊界來看,M2.7 的能力已經(jīng)不只是停留在辦公整理層面。其不僅能完整落地企業(yè)經(jīng)營分析全鏈路任務(wù),并且對(duì)于資料歸納、研究鏈路梳理、專業(yè)分析與結(jié)果匯總這類更高階的知識(shí)工作,也能輕松完成。


最佳 Cowork Agent 來了嗎?

這一輪測下來,M2.7 給我最明顯的感覺,已經(jīng)不只是編程能力繼續(xù)往上走了一點(diǎn),真正拉開差距的地方,在于它對(duì)智能體工作流的支持更完整了。尤其放進(jìn) OpenClaw 之后,這種變化會(huì)更明顯。任務(wù)交過去,它不只是給一段回答,很多時(shí)候是真的能順著任務(wù)往下做,過程中也沒那么容易散。單看這一點(diǎn),我會(huì)直接把 M2.7 放在國內(nèi)最好 Cowork Agent 的位置上。

如果用幾句話概括 M2.7 這次最值得看的地方,核心還是連續(xù)性、穩(wěn)定性和落地感。

不過更值得注意的是,它這次已經(jīng)開始顯出自我迭代能力。

官方給出的路徑很清楚,不只是讓模型調(diào)用 Agent Harness 干活,而是讓它基于短時(shí)記憶、自反饋和自優(yōu)化去反復(fù)調(diào)整自己的做事方法。內(nèi)部腳手架優(yōu)化里,M2.7 可以連續(xù)跑超過 100 輪分析失敗軌跡、規(guī)劃改動(dòng)、修改代碼、回跑評(píng)測、對(duì)比結(jié)果,再?zèng)Q定保留還是回退,內(nèi)部評(píng)測效果提升 30%。放到更重的機(jī)器學(xué)習(xí)任務(wù)里,它在 MLE Bench Lite 22 個(gè)任務(wù)上拿到 9 金 5 銀 1 銅,平均得牌率 66.6%。這說明它已經(jīng)不只是執(zhí)行任務(wù),也開始參與優(yōu)化完成任務(wù)的路徑。

當(dāng)下整個(gè)行業(yè)都在跟風(fēng)適配 OpenClaw,忙著教模型怎么用好人類打造的工具,卻很少有人真正去突破模型的能力邊界 —— 讓模型自己造工具、自己搭框架、自己完成迭代進(jìn)化。M2.7 自主搭建 Agent Harness 的能力,本質(zhì)上是讓模型擁有了自主打造 “任務(wù)操作臺(tái)” 的能力,它不再局限于人類給定的工具與框架,而是能根據(jù)任務(wù)需求,自主搭建完整的任務(wù)執(zhí)行體系,調(diào)度多智能體協(xié)同作業(yè),甚至能通過自反饋、自優(yōu)化,持續(xù)迭代這套體系本身。

更重要的是,它已經(jīng)深度參與到了 MiniMax 自身的模型研發(fā)流程中,成為了下一代模型研發(fā)的核心參與者,真正實(shí)現(xiàn)了 “模型訓(xùn)練模型” 的正向循環(huán)。這種自我迭代的技術(shù)創(chuàng)新,不僅讓 M2.7 坐穩(wěn)了國內(nèi)最好 Cowork Agent 的位置,更提前搶占了下一代大模型競爭的核心分水嶺,開啟了大模型自主進(jìn)化的全新紀(jì)元。

顯然,M2.7 更適合那些已經(jīng)不滿足于簡單問答的人。獨(dú)立開發(fā)者、全棧工程師、產(chǎn)品型開發(fā)者,或者本來就會(huì)把模型接進(jìn)自己工作流的人,用起來會(huì)更容易感受到它的價(jià)值。因?yàn)檫@類用戶真正關(guān)心的,從來不是模型會(huì)不會(huì)說幾句聰明話,而是能不能把任務(wù)拆開、持續(xù)推進(jìn)、出問題后繼續(xù)修正,最后把結(jié)果交出來。

借著M2.7,我們似乎也看到了最強(qiáng)的 Cowork Agent 長什么樣子,或許在未來,我們能看到 AI 能承接更多的任務(wù),解決更復(fù)雜的任務(wù)。

如果你當(dāng)下正在關(guān)注 OpenClaw 的生態(tài),或是正在尋找一款接入后足夠順手、足夠能打、能真正融入工作流的大模型,M2.7 絕對(duì)值得你親自上手實(shí)測。

體驗(yàn)地址如下,快來試試吧!

MiniMax Agent:

agent.minimaxi.com

Token Plan 訂閱:

https://platform.minimaxi.com/subscribe/token-plan

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
消息人士:伊朗外長離開巴基斯坦

消息人士:伊朗外長離開巴基斯坦

新華社
2026-04-25 22:35:09
戰(zhàn)與和的拉扯:美國無限反轉(zhuǎn)在消磨什么?日本擴(kuò)軍狂飆想干什么?

戰(zhàn)與和的拉扯:美國無限反轉(zhuǎn)在消磨什么?日本擴(kuò)軍狂飆想干什么?

上觀新聞
2026-04-25 18:49:05
73歲老人被85歲室友打到大小便失禁,養(yǎng)老院稱未聽到任何異常聲音,巡查頻次符合規(guī)定……

73歲老人被85歲室友打到大小便失禁,養(yǎng)老院稱未聽到任何異常聲音,巡查頻次符合規(guī)定……

新民周刊
2026-04-25 18:57:53
三折甩賣無人要!曾經(jīng)的中產(chǎn)鞋王,如今竟成智商稅代名詞

三折甩賣無人要!曾經(jīng)的中產(chǎn)鞋王,如今竟成智商稅代名詞

青眼財(cái)經(jīng)
2026-04-25 23:03:53
雷克薩斯全新一代ES:不做越級(jí),而做躍級(jí)

雷克薩斯全新一代ES:不做越級(jí),而做躍級(jí)

網(wǎng)上車市
2026-04-24 21:32:03
蔡磊的妻子段睿深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

蔡磊的妻子段睿深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

北緯的咖啡豆
2026-04-25 09:01:01
這臺(tái)大眾很不大眾 解讀一汽-大眾ID. AURA T6

這臺(tái)大眾很不大眾 解讀一汽-大眾ID. AURA T6

新出行
2026-04-25 14:01:58
歐洲用20年嚴(yán)格監(jiān)管美國科技巨頭,卻把自己管成美國的“經(jīng)濟(jì)農(nóng)奴”

歐洲用20年嚴(yán)格監(jiān)管美國科技巨頭,卻把自己管成美國的“經(jīng)濟(jì)農(nóng)奴”

風(fēng)向觀察
2026-04-25 14:32:55
隨著上海海港4-0,北京國安2-4,成都蓉城4-0,中超最新積分榜出爐

隨著上海海港4-0,北京國安2-4,成都蓉城4-0,中超最新積分榜出爐

側(cè)身凌空斬
2026-04-25 21:59:26
網(wǎng)易號(hào)平臺(tái)每日辟謠公告(四月二十四日)

網(wǎng)易號(hào)平臺(tái)每日辟謠公告(四月二十四日)

網(wǎng)易號(hào)官方平臺(tái)
2026-04-24 17:54:26
美國被曝考慮“懲罰”西班牙 桑切斯:支持盟友須遵守國際法

美國被曝考慮“懲罰”西班牙 桑切斯:支持盟友須遵守國際法

環(huán)球網(wǎng)資訊
2026-04-25 14:06:16
陳奕迅女兒陳康堤承認(rèn)與香港網(wǎng)球一哥黃澤林戀愛:是家人介紹的

陳奕迅女兒陳康堤承認(rèn)與香港網(wǎng)球一哥黃澤林戀愛:是家人介紹的

懂球帝
2026-04-25 16:34:10
敵人不是中國,70人要扒總統(tǒng)皮,特朗普連發(fā)4文,賀錦麗殺回政壇

敵人不是中國,70人要扒總統(tǒng)皮,特朗普連發(fā)4文,賀錦麗殺回政壇

生活魔術(shù)專家
2026-04-25 15:58:04
48小時(shí)內(nèi),美日都打算派高層訪華,特朗普說:我不生中國氣

48小時(shí)內(nèi),美日都打算派高層訪華,特朗普說:我不生中國氣

一口娛樂
2026-04-25 17:37:52
斯諾克世錦賽:丁俊暉第二階段7-9落后趙心童,瓦菲3連鞭逆轉(zhuǎn)NO.1

斯諾克世錦賽:丁俊暉第二階段7-9落后趙心童,瓦菲3連鞭逆轉(zhuǎn)NO.1

劉姚堯的文字城堡
2026-04-26 00:21:08
失聯(lián)十余日!兩屆奧運(yùn)冠軍,羽協(xié)主席張軍被查!后果與影響分析

失聯(lián)十余日!兩屆奧運(yùn)冠軍,羽協(xié)主席張軍被查!后果與影響分析

史海流年號(hào)
2026-04-25 08:22:32
霍爾木茲海峽,傳來大消息!伊朗總統(tǒng),最新發(fā)聲!比特幣跳水,超9.9萬人爆倉!

霍爾木茲海峽,傳來大消息!伊朗總統(tǒng),最新發(fā)聲!比特幣跳水,超9.9萬人爆倉!

證券時(shí)報(bào)e公司
2026-04-25 22:11:02
死了這條心!人民日?qǐng)?bào)表態(tài):中國不會(huì)救菲律賓,馬科斯投機(jī)到頭了

死了這條心!人民日?qǐng)?bào)表態(tài):中國不會(huì)救菲律賓,馬科斯投機(jī)到頭了

風(fēng)干迷茫人
2026-04-24 16:01:23
世錦賽戰(zhàn)報(bào):趙心童9-7領(lǐng)先丁俊暉!最終比分浮現(xiàn),勝者對(duì)陣墨菲

世錦賽戰(zhàn)報(bào):趙心童9-7領(lǐng)先丁俊暉!最終比分浮現(xiàn),勝者對(duì)陣墨菲

小火箭愛體育
2026-04-26 00:18:49
7499元,新機(jī)官宣:4月24日,全渠道首銷!

7499元,新機(jī)官宣:4月24日,全渠道首銷!

科技堡壘
2026-04-24 09:54:10
2026-04-26 05:00:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26482文章數(shù) 242272關(guān)注度
往期回顧 全部

數(shù)碼要聞

同檔最強(qiáng)小平板!OPPO Pad Mini下周首銷:3199元起

頭條要聞

媒體:美軍在中東罕見高密度集結(jié) 伊朗開始調(diào)整戰(zhàn)術(shù)

頭條要聞

媒體:美軍在中東罕見高密度集結(jié) 伊朗開始調(diào)整戰(zhàn)術(shù)

體育要聞

那一刻開始,兩支球隊(duì)的命運(yùn)悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒了

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

數(shù)碼
教育
旅游
公開課
軍事航空

數(shù)碼要聞

聯(lián)發(fā)科亮相2026北京車展:主動(dòng)式智能體座艙解決方案

教育要聞

高校重磅改革:40%課程將AI化

旅游要聞

美猴王VS水蜜桃,連云港、無錫文旅“雙向奔赴”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長:戰(zhàn)事不會(huì)“沒完沒了”

無障礙瀏覽 進(jìn)入關(guān)懷版