国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiniMax-M2.7 開源了,本地部署指南

0
分享至

MiniMax-M2.7 上月推出,時隔半個多月,剛剛開源了

這次開源,可以發(fā)現(xiàn)很多更細節(jié)的內(nèi)容,不過我就不過多介紹了

因為我簡單測試之后,沒達到我的預期,主要介紹一下本地部署相關的內(nèi)容吧

我是用的 Nvidia 提供的線上測試,用例依然是閱讀理解+svg 代碼生成 + 審美

結果是比較跌眼睛的,甚至感覺有 Qwen3 的水平

與 GLM-5.1 半斤八兩

它倆都遠不及 Qwen3.6 Plus(僅代表本人觀點,僅此測試用例感受)


簡介

M2.7 的核心亮點:

  • 模型自我進化 :M2.7 能自主更新記憶、構建技能、改進學習流程,經(jīng)過 100+ 輪自主優(yōu)化,性能提升 30%

  • 專業(yè)軟件工程 :SWE-Pro 達到 56.22%,與 GPT-5.3-Codex 持平,生產(chǎn)環(huán)境事故恢復時間壓縮到 3 分鐘以內(nèi)

  • 專業(yè)辦公能力 :GDPval-AA ELO 1495,開源模型最高,Word/Excel/PPT 高保真多輪編輯

  • 原生 Agent Teams :支持多智能體協(xié)作,角色穩(wěn)定、自主決策

M2.7 模型技術規(guī)格藍圖

代碼能力號稱媲美 GPT-5.3-Codex


M2.7 基準性能全景 部署方式:生態(tài)全面開花 M2.7 部署生態(tài)全景

成本是 230GB 起步,我覺得 2 張 H200 可能都勉強,官方建議至少 4 張 H200


目前量化版本應該都在加急中,截止此刻,還都只創(chuàng)建好了文件夾而已

按照以往 unSloth 的戰(zhàn)績,壓縮到幾十 GB 不是難事


MLE Bench Lite 自我進化性能 Ollama

Ollama 最新版 已經(jīng)有 minimax-m2.7:cloud 可以免費使用了



M2.7 已登錄 Ollama 云端,商業(yè)許可可用

# 與 OpenClaw 一起使用
ollama launch openclaw --model minimax-m2.7:cloud


# 直接聊天
ollama run minimax-m2.7:cloud
Ollama 支持 MiniMax M2.7

這里要注意,目前 Ollama 上的 M2.7 走的是云端推理(:cloud 標簽),原因是 230B 參數(shù)的 MoE 模型本地跑起來需要的顯存實在太大

等后續(xù)量化版出來,應該會有本地可跑的版本

vLLM

vLLM 提供了 Day-0 支持,是目前最成熟的部署方案之一

# 基礎部署(4 卡 H200/H100/A100)
vllm serve MiniMaxAI/MiniMax-M2.7 \
--tensor-parallel-size 4 \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2 \
--compilation-config '{"mode":3,"pass_config":{"fuse_minimax_qk_norm":true}}' \
--enable-auto-tool-choice \
--trust-remote-code


# 8 卡部署(DP+EP 模式)
vllm serve MiniMaxAI/MiniMax-M2.7 \
--data-parallel-size 8 \
--enable-expert-parallel \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2 \
--enable-auto-tool-choice

Docker 一鍵啟動

docker run --gpus all \
-p 8000:8000 \
--ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
vllm/vllm-openai:minimax27 MiniMaxAI/MiniMax-M2.7 \
--tensor-parallel-size 4 \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2 \
--enable-auto-tool-choice \
--trust-remote-code

vLLM 支持 NVIDIA 和 AMD 兩大平臺:

  • NVIDIA :4×H200/H100/A100 張量并行,或 8 卡 DP+EP/TP+EP 模式

  • AMD :2× 或 4× MI300X/MI325X/MI350X/MI355X,支持 AITER 加速

系統(tǒng)需求:權重需要約 220GB 顯存,每 100 萬上下文 token 額外需要 240GB。

SGLang

SGLang 同樣提供了 Day-0 支持

sglang serve \
--model-path MiniMaxAI/MiniMax-M2.7 \
--tp 4 \
--tool-call-parser minimax-m2 \
--reasoning-parser minimax-append-think \
--trust-remote-code \
--mem-fraction-static 0.85

SGLang 的一個特點是支持 Thinking 模式,通過 minimax-append-think 解析器,可以把思考過程和最終內(nèi)容分開展示。

快速測試部署是否成功:

curl http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "MiniMaxAI/MiniMax-M2.7",
"messages": [
{"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
{"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]}
]
}'

M2.7 在 SGLang 上的推薦推理參數(shù):temperature=1.0,top_p=0.95,top_k=40。

NVIDIA 加持

NVIDIA 這次給了 MiniMax 很大的支持力度


NVIDIA 支持 MiniMax M2.7

GPU 加速端點:在 build.nvidia.com/minimaxai/minimax-m2.7 可以免費試用 M2.7

推理優(yōu)化:NVIDIA 和開源社區(qū)合作,為 vLLM 和 SGLang 做了兩個關鍵優(yōu)化:

  1. QK RMS Norm Kernel :將計算和通信操作融合到單個內(nèi)核中,減少了內(nèi)核啟動和顯存讀寫開銷

  2. FP8 MoE :集成了 TensorRT-LLM 的 FP8 MoE 模塊化內(nèi)核,專門針對 MoE 模型優(yōu)化

結果非常驚人——在 NVIDIA Blackwell Ultra GPU 上:

  • vLLM 吞吐量提升 2.5 倍 (一個月內(nèi)實現(xiàn))

  • SGLang 吞吐量提升 2.7 倍 (一個月內(nèi)實現(xiàn))

NemoClaw:NVIDIA 提供了開源參考棧 NemoClaw,一鍵部署 OpenClaw 持續(xù)運行助手

微調(diào)支持:通過 NeMo AutoModel 庫進行后訓練,支持 EP + PP 訓練方案。NeMo RL 庫還提供了 GRPO 強化學習的樣例配方(8K 和 16K 序列長度)

微調(diào)配方:

# NeMo AutoModel 微調(diào)配方
https://github.com/NVIDIA-NeMo/Automodel/blob/main/examples/llm_finetune/minimax_m2/minimax_m2.7_hellaswag_pp.yaml


# 分布式訓練文檔
https://github.com/NVIDIA-NeMo/Automodel/discussions/1786
Transformers

也可以用 HuggingFace Transformers 直接加載模型,參考 Transformers 部署指南 (huggingface.co/MiniMaxAI/MiniMax-M2.7/blob/main/docs/transformers_deploy_guide.md)

ModelScope

國內(nèi)用戶也可以從 ModelScope(modelscope.cn/models/MiniMax/MiniMax-M2.7) 下載模型權重

Tool Calling 和 Thinking 模式

M2.7 同時支持工具調(diào)用和思考模式,這讓它在 Agent 場景下更加靈活。

工具調(diào)用示例(以 SGLang 為例):

from openai import OpenAI

client = OpenAI(
base_url="http://localhost:30000/v1",
api_key="EMPTY"
)

tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get the current weather for a location",
"parameters": {
"type": "object",
"properties": {
"location": {
"type": "string",
"description": "The city name"
}
},
"required": ["location"]
}
}
}
]

response = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.7",
messages=[
{"role": "user", "content": "What's the weather in Beijing?"}
],
tools=tools
)

message = response.choices[0].message
if message.tool_calls:
for tool_call in message.tool_calls:
print(f"Tool Call: {tool_call.function.name}")
print(f" Arguments: {tool_call.function.arguments}")

Thinking 模式:通過 ... 標簽把思考過程包裹在內(nèi)容中。在流式輸出場景下,可以實時解析這些標簽,把思考和最終回答分開展示。

快速上手

如果你想快速體驗 M2.7,最簡單的方式:

方式一:API 調(diào)用

訪問 platform.minimax.io 注冊開發(fā)者賬號,通過 API 調(diào)用。

方式二:MiniMax Agent

訪問 agent.minimax.io 直接在線對話。

方式三:Ollama 云端

ollama run minimax-m2.7:cloud

方式四:NVIDIA 免費端點

訪問 build.nvidia.com/minimaxai/minimax-m2.7 在瀏覽器中直接測試。

.7

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中日情況有變,岸田已扛旗,數(shù)萬人逼高市辭職,052D抵近奄美大島

中日情況有變,岸田已扛旗,數(shù)萬人逼高市辭職,052D抵近奄美大島

林子說事
2026-04-21 12:11:30
中國開始殺雞儆猴!對兩大公司下達逐客令,巴拿馬反應出乎意料

中國開始殺雞儆猴!對兩大公司下達逐客令,巴拿馬反應出乎意料

花間悅語
2026-04-20 22:54:53
美伊?;鸬狡谇?8小時“極限博弈”:伊朗手握海峽“核按鈕”,特朗普威脅炸橋炸電廠

美伊?;鸬狡谇?8小時“極限博弈”:伊朗手握海峽“核按鈕”,特朗普威脅炸橋炸電廠

紅星新聞
2026-04-20 18:03:39
紐約球迷高喊“法克CJ”,麥科勒姆:我把這當作是對我的尊重

紐約球迷高喊“法克CJ”,麥科勒姆:我把這當作是對我的尊重

懂球帝
2026-04-21 12:18:08
貓咪被主人訓斥后離家,寧愿流浪也不回頭:家還在,但信任沒了

貓咪被主人訓斥后離家,寧愿流浪也不回頭:家還在,但信任沒了

超人強動物俱樂部
2026-04-21 07:59:04
美國人終于清醒了,質問:特朗普女婿庫什納有什么資格去談判?

美國人終于清醒了,質問:特朗普女婿庫什納有什么資格去談判?

光電科技君
2026-04-20 10:19:30
被房地產(chǎn)抽干的中國男人:失去消費力,也失去了話語權

被房地產(chǎn)抽干的中國男人:失去消費力,也失去了話語權

修明札記
2026-04-21 11:03:35
最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準時出海

最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準時出海

墨印齋
2026-04-21 11:17:31
7.5級強震發(fā)生后 日本對超15萬人發(fā)布避難指示

7.5級強震發(fā)生后 日本對超15萬人發(fā)布避難指示

財聯(lián)社
2026-04-20 18:08:22
黃圣依17年終錯付,楊子帶23歲新女友見91歲母親,銅錢盆搶鏡

黃圣依17年終錯付,楊子帶23歲新女友見91歲母親,銅錢盆搶鏡

卷史
2026-04-18 13:54:59
黃埔最強大腦放走朱德八百殘兵,精于算計卻不善前線指揮

黃埔最強大腦放走朱德八百殘兵,精于算計卻不善前線指揮

嘮叨說歷史
2026-03-14 10:54:31
白宮稱美伊正處于達成協(xié)議的“邊緣”

白宮稱美伊正處于達成協(xié)議的“邊緣”

界面新聞
2026-04-21 12:34:47
沉默1天,中國準時發(fā)話,“高市下崗”傳遍全境,石破茂判斷沒錯

沉默1天,中國準時發(fā)話,“高市下崗”傳遍全境,石破茂判斷沒錯

動漫里的童話
2026-04-21 10:54:50
7-3到7-10!19歲小孩哥爆冷失敗,無緣1紀錄,囧哥脫險會師小鋼炮

7-3到7-10!19歲小孩哥爆冷失敗,無緣1紀錄,囧哥脫險會師小鋼炮

劉姚堯的文字城堡
2026-04-21 08:00:02
火箭VS湖人G2傷情報告出爐,夫妻組合繼續(xù)缺陣,杜蘭特出戰(zhàn)成疑

火箭VS湖人G2傷情報告出爐,夫妻組合繼續(xù)缺陣,杜蘭特出戰(zhàn)成疑

世界體育圈
2026-04-21 09:54:25
一個重磅數(shù)據(jù)刷屏:廣東人口已達1.65億,新時代的"孔雀東南飛"上演

一個重磅數(shù)據(jù)刷屏:廣東人口已達1.65億,新時代的"孔雀東南飛"上演

市井大實話
2026-04-20 11:00:49
許家印大兒的加拿大生活:無錢但自由、每天抽中華、二弟前途未卜

許家印大兒的加拿大生活:無錢但自由、每天抽中華、二弟前途未卜

茶喝多了睡不著
2026-04-15 22:15:05
媒體人:廣東隊滑落至第五不能只怪杜鋒,陣容先天就有短板

媒體人:廣東隊滑落至第五不能只怪杜鋒,陣容先天就有短板

懂球帝
2026-04-20 23:43:05
亞馬爾勞倫斯頒獎禮發(fā)聲:梅西是歷史最佳,我渴望追隨他的腳步

亞馬爾勞倫斯頒獎禮發(fā)聲:梅西是歷史最佳,我渴望追隨他的腳步

老瑋是個手藝人
2026-04-21 11:03:20
印度油輪霍爾木茲海峽遭炮擊,船員喊話錄音:你們批準我們通行,卻又向我們開火

印度油輪霍爾木茲海峽遭炮擊,船員喊話錄音:你們批準我們通行,卻又向我們開火

紅星新聞
2026-04-19 17:03:18
2026-04-21 13:28:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3341文章數(shù) 11138關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

特朗普公開對伊開戰(zhàn)真正原因:不是因為以色列

頭條要聞

特朗普公開對伊開戰(zhàn)真正原因:不是因為以色列

體育要聞

“被優(yōu)化”8年后,國乒方博決定換一條路重新上場

娛樂要聞

周潤發(fā)時隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財經(jīng)要聞

減速機訂單已排到明年!

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

家居
健康
手機
教育
時尚

家居要聞

詩意光影 窺見自然之境

干細胞抗衰4大誤區(qū),90%的人都中招

手機要聞

一加Ace 6至尊版手機官宣首發(fā)《逆戰(zhàn):未來》165幀+精致畫質

教育要聞

用生命影響生命——王鳴鳳家教好故事

“爆冷”又如何?陳法拉的人生本就是一場逆襲大戲

無障礙瀏覽 進入關懷版