国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

實(shí)測 MiniMax M2.7:AI 狠起來,連自己都卷

0
分享至

龍蝦爆火之后,全網(wǎng)的注意力都盯著「它該怎么用」——本地部署還是云端、一鍵安裝還是敲命令、要不要接微信飛書……反而沒人再認(rèn)真問那個(gè)老問題:驅(qū)動龍蝦的那顆「大腦」,夠不夠聰明?

這倒不奇怪。OpenAI 和 Google 最近發(fā)布的幾款新模型,清一色都是 Mini、Flash 款,官方潛臺詞幾乎寫在臉上:專門給 Agent 大量消耗 Token 準(zhǔn)備的。

模型本身的能力邊界,反而成了最不被討論的話題。


一個(gè)真正適配龍蝦的模型,除了 Token 要量大管飽還實(shí)惠,更多的是模型要足夠聰明、動手能力和學(xué)習(xí)能力足夠強(qiáng)。

最近,MiniMax 正式推出了全新的 MiniMax M2.7 模型,主打「 開啟 AI 的自我進(jìn)化 」和做「 最強(qiáng)的 Cowork Agent 模型 」,既能處理代碼工作、常見的 Office 任務(wù),還能主動學(xué)習(xí)構(gòu)建穩(wěn)定的 Agent 系統(tǒng)。


具體來說, 它能做好的工作比大多數(shù)模型要更寬 。對于寫代碼,M2.7 能真正理解一個(gè)系統(tǒng)在運(yùn)行時(shí)發(fā)生了什么,做到了 SRE(網(wǎng)站可靠性工程)級別的系統(tǒng)推理,看日志、關(guān)聯(lián)時(shí)間線、推斷根因、給出有優(yōu)先級的處理方案。新模型在 SWE-Pro 上跑了 56.2%,幾乎追平 Opus 4.6。

辦公場景里它已經(jīng)夠用了 。 Excel、Word、PPT 的復(fù)雜編輯和多輪修改,M2.7 在這塊有明顯提升,金融分析這類需要專業(yè)知識 + 格式交付的場景尤其明顯。不能說它可以完全替代專業(yè)人士,但是真正進(jìn)入工作流,作為輔助完全可以。

它在多 Agent 協(xié)作里不會「斷掉」 。 這是 M2.7 專項(xiàng)打磨的能力,多角色場景下邊界清晰,面對包含 50+ Skills 的復(fù)雜環(huán)境,依然能保持極高的指令遵循能力。

然后是這次更新的重點(diǎn), 它開始參與優(yōu)化自己了 。 MiniMax 說 M2.7 是他們第一個(gè)深度參與迭代自己的模型,不只是「輔助迭代」,是「深度參與迭代自己」。能夠自我進(jìn)化,M2.7 可以自主迭代 Agent Harness(智能體腳手架)來勝任大部分的工作流。

實(shí)戰(zhàn)能力的提升,也讓 MiniMax M2.7 一發(fā)布就在龍蝦榜上迅速攀升,來到了最高分排行榜的第四名。


PinchBench 排行榜是為 OpenClaw 量身定做的模型評估基準(zhǔn),它測試的是大模型在 OpenClaw 真實(shí)業(yè)務(wù)場景下的表現(xiàn),圖中為任務(wù)成功率指標(biāo),MiniMax M2.7 排名第四,在 Claude Opus 4.6 之后|https://pinchbench.com/

我們也在 Claude Code、本地部署的龍蝦里,都接入了 MiniMax M2.7 模型,以及 MiniMax 提供的 MaxClaw,然后把真實(shí)的開發(fā)過程中遇到的 Bug、枯燥的金融數(shù)據(jù),還有大量的長流程任務(wù)統(tǒng)統(tǒng)交給它。

兩天的測試下來,我們發(fā)現(xiàn)不僅軟件要為了 AI 重做,就連 AI 模型本身,除了要理解人類的用意和產(chǎn)出人類滿意的結(jié)果, 模型更需要懂得 AI 的工作方式和工作流,還得學(xué)會自己優(yōu)化自己

用 AI 的工作流當(dāng)人類的助手

在 OpenClaw 等 Agent 框架爆火后,真正的「AI 時(shí)代工作流」應(yīng)該是,AI 作為核心運(yùn)轉(zhuǎn)樞紐,去調(diào)用幾十個(gè)工具、去指揮其他 AI 隊(duì)友、甚至去優(yōu)化 AI 自己的代碼。

在測試 MiniMax M2.7 是如何自我進(jìn)化之前,我想先看看它的 AI 工作流如何。它到底是不是一個(gè)好用的 Agent 模型,還是說拿去跑個(gè) benchmark 好看,實(shí)際用起來一言難盡。

我們從知名的機(jī)器學(xué)習(xí)挑戰(zhàn)賽 Kaggle 的網(wǎng)站上下載了一份股票的歷史數(shù)據(jù),然后按照比賽的要求,告訴 MiniMax M2.7 幫我實(shí)現(xiàn)對應(yīng)的需求,即根據(jù)給定的數(shù)據(jù),進(jìn)行合適的數(shù)據(jù)處理和特征工程,為我生成一份可視化的分析報(bào)告。

整個(gè)數(shù)據(jù)集的內(nèi)容相當(dāng)龐大,有超過 3000 行的表格數(shù)據(jù),整體文件大小來到 446.35 MB。把 5 個(gè)表格數(shù)據(jù)文件下載到本地之后,我們使用接入了 MiniMax M2.7 的 Claude Code 來完成這項(xiàng)工作。


要做好這份分析,需要模型是個(gè)數(shù)據(jù)分析師完成數(shù)據(jù)清洗和整理、宏觀分析師完成對應(yīng)的金融市場的洞察、統(tǒng)計(jì)分析師完成初步的數(shù)學(xué)建模、算法工程師要建立對應(yīng)的模型,最后還有網(wǎng)頁工程師要交出一個(gè)可視化的方案。

面對這樣一個(gè)復(fù)雜的任務(wù),MiniMax M2.7 充分利用了我已經(jīng)安裝的各種 Skills,它先使用 Anthropic 官方提供的 xlsx 完成了表格數(shù)據(jù)結(jié)構(gòu)的信息讀取,接著開始編寫 Python 代碼,自動安裝 Pandas 庫(常用來處理表格數(shù)據(jù)),一步一步進(jìn)行。


最后,MiniMax M2.7 也交出了一份完整的可視化方案,它同時(shí)生成了多張圖片用來展示收益率分布,不同特征的重要性和類別排名,以及綜合儀表盤。


而在可視化的網(wǎng)頁里,它利用 Streamlit 庫將數(shù)據(jù)腳本直接轉(zhuǎn)成了可交互的網(wǎng)頁系統(tǒng),所有的信息都可以直接動態(tài)查看。


這種大型的項(xiàng)目任務(wù),MiniMax 能夠順利完成,我們?nèi)粘9ぷ髦械霓k公和編程任務(wù),就更不用說了。

我們先是在手機(jī)上操作龍蝦,讓它幫我總結(jié)我放在電腦上的文件,然后要求 MiniMax M2.7 根據(jù)這份文件,幫我寫一個(gè)研究計(jì)劃 Word 文件,再整理一份相關(guān)論文的 Excel 文檔,最后是一個(gè)用來組會做匯報(bào)的 PPT 文檔,直接在手機(jī)上就能操作。


接入 MiniMax M2.7 的龍蝦能快速回應(yīng)需求


Office 三件套的處理如今是不在話下

在辦公領(lǐng)域的優(yōu)勢,也讓 MiniMax M2.7 在衡量專業(yè)知識與任務(wù)交付能力的 GDPval-AA 評測中,ELO 得分達(dá)到了 1495,國產(chǎn)模型最高。

前段時(shí)間,AI 工作助手的可視化面板很火,把龍蝦放到了真實(shí)的二次元風(fēng)格辦公室里,用一句話就能安裝到自己的 OpenClaw。我們也成功讓這只 Appso 小龍蝦有了自己的家,但是如果我想要修改二次元房間布局,可以怎么做呢?交給 MiniMax。


在 OpenClaw 的可視化本地界面里,我們直接發(fā)送「我想修改這個(gè)小房子的風(fēng)格該怎么做?」,MiniMax M2.7 會自動閱讀項(xiàng)目的代碼,然后告訴我們哪些地方是可以修改的,如何修改。


由于我輸入的要求是科技編輯部辦公室的風(fēng)格,然后它就幫我修改成了有星球大戰(zhàn)的海報(bào),還加了十幾個(gè)人坐在電腦前面碼字。

不過我們沒有在 OpenClaw 內(nèi)配置 Nano Banana Pro 的 API Key,所以 MiniMax M2.7 在 OpenClaw 里幫我選擇了用代碼的方式來生成簡單的圖片。


接著和它聊天,我們還能根據(jù)這個(gè)風(fēng)格設(shè)計(jì)一個(gè)編輯部大亨的游戲,誰做的任務(wù)多,誰的辦公室就大,就能升級。


如果是 MiniMax 官方的 MaxClaw,是直接支持多模態(tài)的生成,可以一步到位生成視頻、音頻、圖片等,不需要配置額外的 API。

我們使用官方提供的 gif-sticker-maker Skill 生成了幾張馬斯克的表情包。云端部署的 MaxClaw 能確保運(yùn)行環(huán)境的足夠安全,但是它不允許我們像操作本地電腦一樣,任意安裝不同的庫文件。

最后在將視頻轉(zhuǎn)成 GIF 時(shí),MaxClaw 提醒我,它沒有足夠的權(quán)限將 ffmpeg(一個(gè)開源的多媒體處理庫)安裝到云端服務(wù)器上。


在 MaxClaw 內(nèi)可以直接使用 MiniMax M2.7,它會自動調(diào)用海螺等視頻、音頻和圖片生成模型,為我們生成多媒體文件,而不需要額外配置專門的 API KEY。

點(diǎn)擊 MaxClaw 對話框下面的技能,我們就能看到所有安裝在 MaxClaw 的 Skills 詳情,并且點(diǎn)擊「問問 MaxClaw」,它會自動編輯一條消息「告訴我 frontend-dev 能做什么,并告訴我如何使用它」,引導(dǎo)我們學(xué)習(xí)如何使用這項(xiàng) Skill。


除了 GIF 生成這個(gè) Skill,MiniMax 還提供了包括前端開發(fā)、全棧后端、安卓和 iOS 應(yīng)用開發(fā)以及創(chuàng)作驚艷視覺效果的 GLSL 著色技術(shù)等技能庫,我們可以直接在龍蝦里發(fā)送「你能幫我安裝這個(gè)項(xiàng)目里的 Skill 嗎 https://github.com/MiniMax-AI/skills」,龍蝦會自動獲取 Skill 文檔完成安裝。


下載鏈接:https://github.com/MiniMax-AI/skills

AI 狠起來,連自己都卷

除了在日常工作和辦公領(lǐng)域上表現(xiàn)出的完整工作流,以及實(shí)際的交付能力,MiniMax M2.7 最讓我們感到特別的,還有它展現(xiàn)出的「 模型自迭代閉環(huán) 」。

MiniMax 曾提到人類研究員只需要把控大方向,把構(gòu)建系統(tǒng)的任務(wù)交給模型,它就能以解決方案架構(gòu)師的身份自主搭建開發(fā) Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一層運(yùn)行基礎(chǔ)設(shè)施。模型負(fù)責(zé)思考,harness 負(fù)責(zé)把這個(gè)「會想」的東西,變成一個(gè)能穩(wěn)定干活的系統(tǒng)。這個(gè)系統(tǒng)像是運(yùn)行層,負(fù)責(zé)讓 agent 在真實(shí)環(huán)境里穩(wěn)定運(yùn)行。


為了測試 M2.7 的極限,MiniMax 讓它去優(yōu)化某個(gè)內(nèi)部腳手架的軟件工程表現(xiàn)。結(jié)果,M2.7 全程零人工干預(yù),硬生生跑出了一個(gè)超過 100 輪的迭代循環(huán)。

它自己分析失敗軌跡,自己規(guī)劃改動,改完腳手架代碼再去跑評測,最后對比結(jié)果決定是保留還是回退。在不停歇自我互搏中,它自己發(fā)現(xiàn)了最優(yōu)解,最終讓評測集上的效果飆升了 30%。

這種「AI 搞科研」的能力也在公開的測試集上得到了驗(yàn)證,MiniMax M2.7 被扔進(jìn)了全球最大的機(jī)器學(xué)習(xí)競賽 Kaggle 的 MLE Lite 測試集。


22 道高難度競賽題,M2.7 依靠內(nèi)部的短時(shí)記憶文件和自反饋機(jī)制,每跑完一輪就給自己提優(yōu)化建議。

24 小時(shí)內(nèi),它一舉拿下了 9 枚金牌、5 枚銀牌、1 枚銅牌,得牌率 66.6%。

這個(gè)成績,僅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),與 Gemini-3.1 直接打平。

當(dāng)一個(gè)模型能夠以解決方案架構(gòu)師的身份,僅用 1 人 4 天時(shí)間,零人工編碼就搭出一套包含測試和代碼審查的 Agent 系統(tǒng)時(shí),AI 研發(fā)的齒輪,大概已經(jīng)換上了自動擋。

在極其硬核的生產(chǎn)力之外,MiniMax M2.7 的底層框架也賦予了它長程穩(wěn)定的記憶和極強(qiáng)的情商,這讓它在互動角色扮演(Roleplay)上,比傳統(tǒng)的閑聊機(jī)器人表現(xiàn)要好上不少。

官方在 GitHub 上開源了一個(gè)多模態(tài)交互系統(tǒng) OpenRoom ,一個(gè)萬物皆可互動的 Web GUI 空間,可以實(shí)時(shí)地讓 AI 與空間產(chǎn)生不同的交互。

AI 開始學(xué)會「自己工作」,這件事比寫好代碼更重要

體驗(yàn)下來,MiniMax M2.7 真正讓我們在意的,不是它把 Kaggle 競賽刷出了 66.6% 的得牌率,也不是 Office 三件套交付得足夠干凈。

而是它在試圖解決一件更底層的事: 讓 AI 真正理解工作流,并且參與到工作流的演化里

過去,軟件是人寫的、人用的?,F(xiàn)在,AI 開始寫軟件、改軟件、用軟件。當(dāng)一個(gè)模型能夠在沒有人工編碼的情況下,自己搭系統(tǒng)、自己測試、自己回退——「AI 研發(fā)」這件事的齒輪,某種程度上已經(jīng)換上了自動擋。

所謂「龍蝦到底該怎么用」,我想很快就不再是一個(gè)問題——因?yàn)闆Q定這一切的,不再是我們。

而是那個(gè),開始學(xué)會自己工作的 AI。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
他曾擔(dān)任廣東省委書記,被調(diào)任湖北省委書記時(shí),卻被年輕人代替

他曾擔(dān)任廣東省委書記,被調(diào)任湖北省委書記時(shí),卻被年輕人代替

老范談史
2026-04-22 09:22:44
英維克成交額超150億元

英維克成交額超150億元

證券時(shí)報(bào)
2026-04-22 15:32:13
《黑袍糾察隊(duì)》三大反派山寨封面,倆主演低調(diào)完婚!

《黑袍糾察隊(duì)》三大反派山寨封面,倆主演低調(diào)完婚!

美劇組|人人影視
2026-04-22 19:37:12
烏度卡:杜蘭特被包夾帶來了機(jī)會,但申京連續(xù)兩場打得太猶豫

烏度卡:杜蘭特被包夾帶來了機(jī)會,但申京連續(xù)兩場打得太猶豫

懂球帝
2026-04-22 15:35:10
偉偉道來 | 備戰(zhàn)

偉偉道來 | 備戰(zhàn)

經(jīng)濟(jì)觀察報(bào)
2026-04-22 14:26:02
好不容易送走了葉珂,又來了趙薇!悲催的黃曉明,終究繞不過女人坑

好不容易送走了葉珂,又來了趙薇!悲催的黃曉明,終究繞不過女人坑

八卦王者
2026-04-22 09:51:07
你喝的白酒只有七百年歷史,三千年酒文化跟它半毛錢關(guān)系都沒有

你喝的白酒只有七百年歷史,三千年酒文化跟它半毛錢關(guān)系都沒有

富貴說
2026-03-31 23:21:39
四年暴跌120億,微信是怎么“殺死”口香糖行業(yè)的?

四年暴跌120億,微信是怎么“殺死”口香糖行業(yè)的?

流蘇晚晴
2026-04-19 20:34:47
宋徽宗40歲寫的鶴骨體,讓現(xiàn)代書法家無地自容,網(wǎng)友:比瘦金體美

宋徽宗40歲寫的鶴骨體,讓現(xiàn)代書法家無地自容,網(wǎng)友:比瘦金體美

幸福娃3790
2025-11-07 12:26:54
東體:海港連夜就爭議判罰整理材料,向足協(xié)提起申訴

東體:海港連夜就爭議判罰整理材料,向足協(xié)提起申訴

懂球帝
2026-04-22 14:42:03
大不了關(guān)掉美國工廠!曹德旺談美國加征關(guān)稅:福耀絕不做賠本買賣

大不了關(guān)掉美國工廠!曹德旺談美國加征關(guān)稅:福耀絕不做賠本買賣

澎湃新聞
2026-04-22 17:42:34
時(shí)長超三小時(shí)的6部史詩級電影,全程無尿點(diǎn),看完直接封神

時(shí)長超三小時(shí)的6部史詩級電影,全程無尿點(diǎn),看完直接封神

小微看電影
2026-04-21 14:15:03
中國創(chuàng)最大軍售,印度十年難追趕上

中國創(chuàng)最大軍售,印度十年難追趕上

菠蘿欣賞家本尊
2026-04-21 14:39:43
美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

美加州熱氣球耗盡燃料降民居后院 13乘客淡定揮手 房主:難以置信

環(huán)球趣聞分享
2026-04-22 13:40:09
21歲小伙賣豬肉幫助撫養(yǎng)6個(gè)弟妹:羨慕同齡人上大學(xué)或出去打工,希望爸媽別再生了

21歲小伙賣豬肉幫助撫養(yǎng)6個(gè)弟妹:羨慕同齡人上大學(xué)或出去打工,希望爸媽別再生了

極目新聞
2026-04-21 22:03:17
一半中國人蛋白質(zhì)沒吃夠!醫(yī)生:60歲以上人群,每天這樣吃才達(dá)標(biāo)

一半中國人蛋白質(zhì)沒吃夠!醫(yī)生:60歲以上人群,每天這樣吃才達(dá)標(biāo)

王二哥老搞笑
2026-04-22 20:12:03
再年輕也沒用!安徽40歲美女孟麗去世,死因曝光,生前化療42次

再年輕也沒用!安徽40歲美女孟麗去世,死因曝光,生前化療42次

墨印齋
2026-04-22 06:06:41
周恩來逝世后誰當(dāng)總理,毛主席力推一人,此人婉拒:您考慮別人吧

周恩來逝世后誰當(dāng)總理,毛主席力推一人,此人婉拒:您考慮別人吧

飛哥談史
2026-04-22 08:10:09
左小青這狀態(tài),鯊瘋了!明媚動人,若隱若現(xiàn)

左小青這狀態(tài),鯊瘋了!明媚動人,若隱若現(xiàn)

只要高興就好
2025-12-10 19:09:26
伊斯蘭堡全城封鎖,美伊總統(tǒng)或歷史性握手,簽署“伊斯蘭堡宣言”

伊斯蘭堡全城封鎖,美伊總統(tǒng)或歷史性握手,簽署“伊斯蘭堡宣言”

民間胡扯老哥
2026-04-21 09:04:09
2026-04-22 22:56:49
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6299文章數(shù) 26823關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

女生3萬5買的比熊犬倆月后癱瘓 給犬做治療花了20多萬

頭條要聞

女生3萬5買的比熊犬倆月后癱瘓 給犬做治療花了20多萬

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財(cái)經(jīng)要聞

醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
旅游
本地
公開課

用了8年還心動,這筆錢是花得真值啊

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

旅游要聞

春來普陀,赴一場繡球花的河畔之約

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版