国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

35 天,從 M2.5 到 M2.7,模型訓了下一個自己

0
分享至


作者 | 董道力
郵箱 | dongdaoli@pingwest.com

M2.5 到 M2.7 的迭代速度,不正常。

大模型行業(yè)有一個默認節(jié)奏:一個主力版本發(fā)布后,團隊消化反饋、調(diào)整訓練方向、重新跑評測,準備周期通常以季度計。Anthropic 從 Claude 3.5 到 Claude 3.7 用了半年,Google 從 Gemini 2.0 到 2.5 用了三個月。

MiniMax M2.5 是 2 月 12 日發(fā)布的。3 月 19 日,M2.7 來了,僅僅 35 天。

這個速度在任何一家頭部模型公司都不正常。但更不正常的是:這 35 天里,參與迭代的不只是人。

1

自己用到"抓狂",才會做出別人沒想到的東西

理解 M2.7 之前,先要理解 MiniMax 為什么會走到這一步。

M 系列的起點,是 MiniMax 自己被模型用到抓狂。內(nèi)部各團隊一直在搭各種 Agent 解決業(yè)務問題,但沒有一款模型能同時滿足效果、價格、速度,這逼著 MiniMax 自己去造那個模型。

所以 M 系列從一開始就不是為了刷榜。M2 把價格打到 Claude 主力模型的 8%。M2.5 推出 Forge 框架,把 Agent 能力和模型基礎能力解耦。

每一代都在填自己踩過的坑。

到 M2.7,MiniMax 踩到了一個新坑:AI 研發(fā)本身的效率問題。

用 AI 迭代 AI,是整個行業(yè)正在收斂的前沿方向。但"想到"和"跑通"之間,隔著一個關鍵問題:Agent Harness。Harness 是執(zhí)行層,決定模型怎么調(diào)用工具、管理上下文、處理失敗和回退。傳統(tǒng)架構里,模型負責"想",Harness 負責"做",兩者解耦。當用 AI 搭建 Agent 的速度越來越快,真正的瓶頸就暴露出來了:Harness 本身的質(zhì)量,直接決定模型能力能釋放多少。

MiniMax 因此有了最強的動力去解決它,也由此走到了讓模型直接改造 Harness、參與下一代迭代的路上。

內(nèi)部有一個說法:"我們團隊最高產(chǎn)的成員,就是模型本身。"

M2.7 是這條路走到今天的結果。

1

自我進化是怎么運作的:三個層次

M2.7 的自迭代能力是三個層次遞進的閉環(huán)。

第一層,獨立接手生產(chǎn)問題。

以內(nèi)部 RL 實驗場景為例:研究員從一個實驗想法出發(fā),M2.7 自動監(jiān)控狀態(tài)、讀取日志、排查問題、修復代碼、提交 PR、完成冒煙測試。過去需要多位同事協(xié)作的工作,研究員只在關鍵決策節(jié)點介入,M2.7 承擔了整個工作流的 30-50%。

這還只是第一層:它能在真實環(huán)境里端到端完成任務。

第二層,它開始能改造自己運行的環(huán)境。

讓 M2.7 去優(yōu)化內(nèi)部 Harness 上的軟件工程表現(xiàn)。它全程自主運行,執(zhí)行"分析失敗軌跡→規(guī)劃改動→修改 Harness 代碼→運行評測→對比結果→決定保留或回退"的迭代循環(huán),超過 100 輪,最終評測集效果提升 30%。

M2.7 能改造自己運行的 Harness,意味著推理能力可以反哺執(zhí)行環(huán)境。這個飛輪一旦轉起來,迭代速度就不再只取決于人的工作效率。


第三層,它開始能自主迭代 ML 模型效果。

MLE-Bench Lite 22 道高難度題,M2.7 拿到 9 金 5 銀 1 銅,得牌率 66.6%,僅次于 Opus-4.6 和 GPT-5.4。

成績背后的方法更值得關注:每輪結束后自動生成短時記憶文件,對當前結果做自反饋,下一輪基于所有歷史輪次的記憶和反饋鏈規(guī)劃優(yōu)化方向。這套循環(huán)不是被提前設計好的,是它自己跑出來的。

數(shù)據(jù)印證了這件事。

M2.7 的 benchmark 漲幅有一個規(guī)律:Coding 相關榜單,普遍只漲 1-2 分,屬于正常迭代推進。但 MLE-Bench Lite 從 51.5 跳到 66.6,GDPval-AA 從 35 跳到 50,兩個榜單各提升 15 分,和其他榜單完全不在一個量級。

這兩個恰好是與自迭代能力最相關的榜單。一個直接測 AI 能否自主迭代 ML 模型,一個測 44 種真實職業(yè)場景的工作產(chǎn)出質(zhì)量。

提升最大的地方,正是模型自己參與最深的地方。


第三方數(shù)據(jù)也在印證。M2.7 發(fā)布后迅速攀升至 PinchBench 榜首,在最高分榜單中排名第四,擊敗 Nemotron 3。PinchBench 是專測模型驅(qū)動 OpenClaw Agent 時的真實表現(xiàn):安排會議、寫代碼、分類郵件、管理文件。

能在這里進前四,說明 M2.7 的提升不是某個方向的偏科。


1

數(shù)字員工能干什么:自迭代訓練之后

MiniMax 給 M2.7 的定位是"數(shù)字員工"。這次有了可量化的含義:不只是寫代碼,而是能在真實職場環(huán)境里處理跨領域復合任務。

能做到這些,是因為讓模型自己改造 Harness、自己跑優(yōu)化循環(huán),鍛煉出來的不只是"自我迭代"本身,而是一套可以遷移到任何復雜任務里的工作能力。

我們測試了三個典型職場場景。

現(xiàn)場排障:不只是寫代碼,還能讀懂生產(chǎn)環(huán)境

我們假定一個虛擬場景,我們是一個電商平臺,技術棧是 React 前端 + Node.js BFF + Java 后端 + MySQL。今天下午 3 點開始,用戶反饋"商品詳情頁加載很慢,有時候直接白屏"。以下是同一時間段各層的日志,幫我定位根因。

我們將所有日志丟給 M2.7 后,讓他定位處理問題。

[14:58:32] ERROR ChunkLoadError: Loading chunk 23 failed

[14:58:33] ERROR ChunkLoadError: Loading chunk 23 failed

[14:58:41] WARN LCP 8200ms (threshold: 2500ms)

[14:59:01] ERROR TypeError: Cannot read properties of undefined (reading 'price')

[14:59:01] ERROR at ProductDetail.render (ProductDetail.jsx:142)

[14:59:15] WARN LCP 9800ms (threshold: 2500ms)

[15:00:03] ERROR TypeError: Cannot read properties of undefined (reading 'price')

[14:58:31] INFO GET /api/product/detail?id=839201 - start

[14:58:31] INFO upstream: calling product-service /product/839201

[14:59:04] WARN upstream: product-service response 33412ms (timeout threshold: 30000ms)

[14:59:04] ERROR upstream timeout - returning empty payload to client

[14:59:04] INFO GET /api/product/detail?id=839201 - 504 - 33415ms

[14:58:44] INFO GET /api/product/detail?id=720155 - start

[14:58:44] INFO upstream: calling product-service /product/720155

[14:59:17] WARN upstream: product-service response 33201ms

[14:59:17] ERROR upstream timeout - returning empty payload to client

[14:59:17] INFO GET /api/product/detail?id=720155 - 504 - 33204ms

[14:58:31] INFO ProductController - getProduct(839201) start

[14:58:31] INFO ProductRepository - executing query:

SELECT p.*, r.avg_score, r.review_count

FROM products p

LEFT JOIN reviews r ON p.id = r.product_id

WHERE p.id = 839201

[14:59:03] WARN ProductRepository - slow query detected: 32871ms

[14:59:03] INFO ProductController - getProduct(839201) complete

[14:58:31] INFO [DB-POOL] active connections: 18/20

[14:58:45] WARN [DB-POOL] active connections: 20/20 - pool saturated

[14:59:01] WARN [DB-POOL] connection wait queue: 7 requests pending

[14:59:17] WARN [DB-POOL] connection wait queue: 12 requests pending

Time: 2026-03-19T14:58:31

Query_time: 32.871 Lock_time: 0.000 Rows_sent: 1 Rows_examined: 2847293

SELECT p.*, r.avg_score, r.review_count

FROM products p

LEFT JOIN reviews r ON p.id = r.product_id

WHERE p.id = 839201;

: 2026-03-19T14:58:44

_time: 33.201 Lock_time: 0.000 Rows_sent: 1 Rows_examined: 2847293

SELECT p.*, r.avg_score, r.review_count

FROM products p

LEFT JOIN reviews r ON p.id = r.product_id

WHERE p.id = 720155;

M2.7 沒有被前端日志帶跑。ChunkLoadError、LCP 超標、TypeError,它直接穿透這些表象,落在數(shù)據(jù)庫層:reviews.product_id 缺索引,284 萬行全表掃描,單次查詢耗時 32 秒。往上的連接池耗盡、BFF 504、前端報錯,是這一個問題的連鎖反應。證據(jù)鏈逐層標注,每層日志單獨引用,沒有跳步。




但修復方案還是比較書本的“標準答案”。它建議直接 CREATE INDEX,沒有提在 284 萬行生產(chǎn)表上這條命令會鎖表,也沒有給出先剝離 reviews 數(shù)據(jù)讓頁面先能加載的止血思路。

隨后我們加一句話,就像程序員教實習生那樣。

promtps:有個問題,思考一下,這張表現(xiàn)在有多少行,高峰期 QPS 大概多少?

M2.7 從慢查詢?nèi)罩纠锿扑愠鲆?guī)模和請求速率,然后自己說出來:高風險操作,不建議直接執(zhí)行,鎖表時間 1 到 60 分鐘不等,建議改用 pt-online-schema-change。

知道要加索引,并在被追問后識別出生產(chǎn)環(huán)境加索引本身就是一個新風險——這個反思動作,是數(shù)字員工和代碼生成工具之間最實質(zhì)的差距。


復雜 Office:處理 716 頁英語招股書

職場里不是所有工作都在寫代碼。處理 716 頁招股書和跑 Harness 迭代循環(huán),依賴的是同一種能力:在長上下文里定位關鍵信息,不丟失任務主線。

閱讀英文 PDF 是職場里很常見的麻煩。PDF 沒法網(wǎng)頁一鍵翻譯,劃詞翻譯容易選錯行,圖表里的數(shù)字根本沒法復制。我們把 716 頁的 MiniMax 英文招股書丟給 M2.7,三個需求:提取財務數(shù)據(jù)整理成 Excel、建收入預測模型、寫一份面向港股散戶的 500 字投資者摘要,中文指令,英文輸出。

promtps: 1、從招股書中提取以下數(shù)據(jù),整理成 Excel 表格,按年度排列:總收入、毛利率、研發(fā)支出、凈虧損、經(jīng)調(diào)整凈虧損(非 IFRS)、經(jīng)營現(xiàn)金流。時間跨度覆蓋 2022、2023、2024 年度及 2025 年前三季度。 2、基于以上數(shù)據(jù),幫我建一個簡單的收入預測模型,預測 2025 年全年收入。假設 Q4 收入環(huán)比 Q3 持平,給出兩個情景:樂觀(維持 Q3 增速)和保守(增速降一半)。 3、基于以上財務數(shù)據(jù),用 Word 寫一份 500 字的投資者摘要,受眾是不熟悉 AI 行業(yè)的港股散戶投資者,重點說清楚:這家公司現(xiàn)在靠什么賺錢、為什么一直虧損、什么時候可能扭虧。注意:結果用英語輸出

六項核心財務指標逐一從正文和附件會計師報告中定位,數(shù)字與招股書 Appendix I 原文比對無誤差。Non-IFRS、adjusted net loss、cash flows from operating activities,專業(yè)術語處理準確。預測模型搭了兩個情景,Word 文檔帶頁眉頁腳和數(shù)據(jù)表格,交出來的是可以直接給人看的格式。




當然,初稿不是終稿。M2.7 在部分公式邏輯和敘述框架,還需要使用者在基礎上調(diào)整,這和收到一份分析師初稿沒有區(qū)別,但從上傳文檔到拿到這份初稿,只花了幾分鐘。

換一個人來做,翻完這 716 頁,光是找對頁碼就要半個小時。

用 skill 培養(yǎng) M2.7,和培養(yǎng)新人一樣

一個真正的數(shù)字員工,不能只在干凈環(huán)境里好用。Skill 庫越大越穩(wěn),和 Harness 改造里"迭代 100 輪不跑偏"是一回事,復雜約束環(huán)境下的指令保持。這不是單獨優(yōu)化出來的,是自迭代訓練的直接溢出。

50+ Skills、60-150 個 feature list 堆上去,大多數(shù) Agent 的遵從能力就開始退化。M2.7 在這里做了專項優(yōu)化:工具庫越大,它越要穩(wěn),技能調(diào)用不亂、指令不丟、幾十步的長流程也能跑完。


我們還是以大家最熟悉的前端開發(fā)為例。一句話生成網(wǎng)頁的確很酷,但在真實工作場景里,"能跑"和"能交付"完全不同:字體是 AI 最愛的 Inter、配色是紫藍漸變、圖片是灰色占位塊、文案是 Lorem ipsum,每一項都在告訴人這是 AI 做的。

Frontend Studio 這個 Skill 做的事,就是用復雜的程序?qū)⒕W(wǎng)頁設計規(guī)范化。設計系統(tǒng)約束 AI 的審美邊界,動效引擎按場景分配工具庫,內(nèi)置 Python 腳本直接調(diào) MiniMax API 生成真實素材,營銷文案框架保證內(nèi)容有說服力,最后過一道質(zhì)量檢測再交付。

核心邏輯只有一句話:用復雜的約束換質(zhì)量。

M2.7 在這個 Skill 里的價值,在于它能穩(wěn)定走完這條流水線,設計、動效、素材、文案、構建、檢查,六個階段,每一步的規(guī)則都不少,指令不丟、技能不亂。把"用 AI 搭一個好看的頁面"這件事,從看運氣變成可重復的工程流程。


1

最高產(chǎn)的成員

MiniMax 說過:"我們團隊最高產(chǎn)的成員,就是模型本身。"

M2.5 時代,這句話的潛臺詞是:我們把模型用得比別人更狠。M2.7 之后,這句話的含義變了:模型不只是被用的那個,它是參與決策的那個。100 輪 Harness 迭代,它自己跑的;MLE-Bench 的自反饋循環(huán),它自己設計的;下一代模型的部分訓練方向,它參與了。

這就是為什么 35 天能做到。不是因為人更多、更努力,而是因為團隊里有一個成員不需要休息、不需要對齊會議、可以在晚上自己把評測跑完再給人看結論。迭代快,是數(shù)字生產(chǎn)力真正介入研發(fā)之后的自然結果。

從"MiniMax 給自己造了一個模型",到"模型給下一代模型做了研發(fā)",這一步的本質(zhì)是:AI 研發(fā)的速度上限,開始由模型自己的能力決定,而不只是工程師的數(shù)量。


點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
洞庭湖邊采藜蒿女子失聯(lián)4天后續(xù)!知情人曝細節(jié),丈夫痛哭發(fā)聲

洞庭湖邊采藜蒿女子失聯(lián)4天后續(xù)!知情人曝細節(jié),丈夫痛哭發(fā)聲

奇思妙想草葉君
2026-03-26 21:53:34
森林狼逆火箭:申京努力了,然而杜蘭特啊

森林狼逆火箭:申京努力了,然而杜蘭特啊

張佳瑋寫字的地方
2026-03-26 13:03:18
女同主播出軌大哥 被"正宮"直播對質(zhì)!真實長相曝光

女同主播出軌大哥 被"正宮"直播對質(zhì)!真實長相曝光

游民星空
2026-03-25 20:08:13
三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

三分命中率64.1%,斷層全聯(lián)盟第一!郭士強該給他一個國家隊名額

弄月公子
2026-03-26 11:03:13
美媒:特朗普團隊已密謀與伊朗“和談” 細節(jié)曝光

美媒:特朗普團隊已密謀與伊朗“和談” 細節(jié)曝光

新華社
2026-03-22 17:19:02
是否有中國船只順利通過霍爾木茲海峽?外交部回應

是否有中國船只順利通過霍爾木茲海峽?外交部回應

財聯(lián)社
2026-03-25 15:46:15
特朗普破防!伊朗和胡塞聯(lián)手“關門打狗”,美軍航母被逼入死局!

特朗普破防!伊朗和胡塞聯(lián)手“關門打狗”,美軍航母被逼入死局!

觸摸史跡
2026-03-27 00:48:15
曝張雪峰在蘇州舉辦葬禮,生前最后一次直播,趴桌子上身體已不適

曝張雪峰在蘇州舉辦葬禮,生前最后一次直播,趴桌子上身體已不適

180視角
2026-03-25 16:58:57
日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

有范又有料
2026-03-25 14:08:39
曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
“專利被宣告全部無效!宇樹科技IPO路上最大‘攔路虎’被徹底鏟除”

“專利被宣告全部無效!宇樹科技IPO路上最大‘攔路虎’被徹底鏟除”

新浪財經(jīng)
2026-03-26 22:53:31
這才叫殺瘋了!爛番茄100%動作神片,這不直接碾壓《鏢人》?

這才叫殺瘋了!爛番茄100%動作神片,這不直接碾壓《鏢人》?

動物奇奇怪怪
2026-03-26 17:48:01
悲催!鶴壁58歲知名律師心臟驟停去世,網(wǎng)友:死亡真的會隨時降臨

悲催!鶴壁58歲知名律師心臟驟停去世,網(wǎng)友:死亡真的會隨時降臨

火山詩話
2026-03-26 16:09:00
12年沒踢世界杯了 意大利晉級2026世界杯需連贏2場 概率僅63%

12年沒踢世界杯了 意大利晉級2026世界杯需連贏2場 概率僅63%

智道足球
2026-03-26 18:08:45
俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

懂球帝
2026-03-26 16:30:07
現(xiàn)在不是美國敢不敢打中國的問題,是中國讓不讓美國打的問題了

現(xiàn)在不是美國敢不敢打中國的問題,是中國讓不讓美國打的問題了

科普100克克
2026-03-27 01:31:10
首秀庫拉索,國足主帥邵佳一:國家隊的比賽沒有友誼賽

首秀庫拉索,國足主帥邵佳一:國家隊的比賽沒有友誼賽

澎湃新聞
2026-03-26 15:58:27
香港千億豪門要改姓?第一個跌落神壇的“四大家族”,出現(xiàn)了!

香港千億豪門要改姓?第一個跌落神壇的“四大家族”,出現(xiàn)了!

BenSir本色說
2026-03-26 22:08:00
人民日報、環(huán)球時報接連發(fā)出警示:日本的軍國主義獠牙已露出來了

人民日報、環(huán)球時報接連發(fā)出警示:日本的軍國主義獠牙已露出來了

賤議你讀史
2026-03-24 00:30:08
梅西球星卡在上海以1520萬成交,創(chuàng)足球卡全球最高成交價紀錄

梅西球星卡在上海以1520萬成交,創(chuàng)足球卡全球最高成交價紀錄

懂球帝
2026-03-26 14:54:51
2026-03-27 03:35:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
2960文章數(shù) 10473關注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

時尚
數(shù)碼
本地
旅游
公開課

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復仇了一萬遍

旅游要聞

河南開封萬歲山武俠城,游客買300元門票:給妻子拍照被保安阻攔

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版