国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

M2.5登頂OpenRouter:如何做出大家最需要的那個(gè)模型

0
分享至


作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com

先看一組數(shù)據(jù):

評估模型編程能力的主流榜單SWE-bench Verified上,Claude Opus 4.6 得分80.8%,Gemini 3.1 Pro 80.6%,MiniMax 2.5 80.2%,GLM-5 77.8%,Kimi K2.5 76.8%。

最大分差也不超過4分,差距就這么點(diǎn)大。開發(fā)者今天其實(shí)已經(jīng)很難只靠這些“考試分?jǐn)?shù)”來選擇要用的模型。

但最近還有另一組很有意思的數(shù)據(jù),來自最重要的模型調(diào)用平臺(tái)之一OpenRouter:


官方統(tǒng)計(jì)顯示,最近其平臺(tái)上的token調(diào)用激增,且其中很多需求來自100K-1M長文本任務(wù),也就是agent工作流最典型消耗區(qū)間。刺激這些需求爆發(fā)的一個(gè)重要因素是一個(gè)新模型的發(fā)布——MiniMax M2.5。單是在OpenRouter上,它發(fā)布后七天的調(diào)用量就到了破紀(jì)錄的 3.07T tokens。

這說明什么?

今天公開的benchmark也就是打榜式的評測已經(jīng)沒那么重要了,因?yàn)椴顒e不再明顯。但與此同時(shí),真實(shí)使用者的感受越來越關(guān)鍵,做好了,你就可以成為最受歡迎的那一個(gè),因?yàn)橛脩魝儗δP偷男枨筮h(yuǎn)遠(yuǎn)未被滿足。

所以,關(guān)鍵的問題變成,如何做出大家最需要的那個(gè)模型。

可以先來看看這個(gè)備受歡迎的MiniMax M2.5是一個(gè)什么樣的模型。

1.模型部署上:10B激活參數(shù),實(shí)戰(zhàn)中總結(jié)的甜點(diǎn)位

MiniMax M2.5,一個(gè)總參數(shù) 230B,激活參數(shù)只有10b的模型。它不會(huì)叫自己端側(cè)模型,但已經(jīng)是私有化部署最友好的模型。這是一個(gè)實(shí)戰(zhàn)中總結(jié)出來的性價(jià)比甜點(diǎn)位,也是頭部模型里這種友好度里的唯一選擇。

2.價(jià)格:沒有波動(dòng),這是開發(fā)者最在意的負(fù)擔(dān)

人們想盡可能多消耗token,但對價(jià)格變化又有負(fù)擔(dān),M2.5通過各種工程和算法更新,在性能提升同時(shí),把價(jià)格維持住了,這其實(shí)說明MiniMax自己也清楚知道真實(shí)的開發(fā)者的最大負(fù)擔(dān)是什么。

3.模型的核心能力:死磕Coding和Agent,讓開發(fā)者真的認(rèn)真考慮用它替代Claude

此次M2.5在編程上性能提升的來源,不再是“不論過程只管對標(biāo)結(jié)果”的方式,而是把開發(fā)過程里的代碼工程甚至開發(fā)思維訓(xùn)練到模型里。M2.5的spec能力就是一個(gè)典型的代表。

官方報(bào)告這樣形容:M2.5 具備了像架構(gòu)師一樣思考和構(gòu)建的能力,比如模型演化出了原生 Spec 行為:在動(dòng)手寫代碼前,以架構(gòu)師視角主動(dòng)拆解功能、結(jié)構(gòu)和 UI 設(shè)計(jì),實(shí)現(xiàn)完整的前期規(guī)劃。

M系列階段性目標(biāo)明確,此時(shí)此刻,它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已經(jīng)做到80.2%的水平,同時(shí)約1 元/小時(shí)的成本給你100 tokens/秒的吞吐,還要什么自行車。

這當(dāng)然是個(gè)帶有賭注成分的決定,并且需要做出trade off,但目前看起來效果不錯(cuò)收益明顯。大量Claude Code用戶在選擇模型時(shí)真的逃不開要考慮M系列模型,這就很能說明問題。

4.推理:推理效率的極致優(yōu)化,每一環(huán)都是在解決業(yè)務(wù)壓力

M2.5在工程化上持續(xù)補(bǔ)全:平衡吞吐和穩(wěn)定的Windowed FIFO,把大量重復(fù)前綴合并處理、解放出40倍效率的樹狀結(jié)構(gòu)……推理的每個(gè)環(huán)節(jié)都在繼續(xù)優(yōu)化。

5.以及可能是最重要的,又一個(gè)技術(shù)創(chuàng)新:RL框架Forge

MiniMax在技術(shù)上一直挺有追求,不少新的思路是它第一批嘗試然后反饋給行業(yè)里,比如此前的交錯(cuò)思維鏈?zhǔn)酵评淼取6@一次它重點(diǎn)介紹了用在M2.5訓(xùn)練里的一個(gè)新的 RL 框架 Forge 。

這是一個(gè)工業(yè)級的Agent RL 訓(xùn)練方案,也就是它的目標(biāo)非常務(wù)實(shí),就是面向真實(shí)復(fù)雜的場景大規(guī)模訓(xùn)練AI Agent。

上個(gè)階段把Agent訓(xùn)入模型的方式其實(shí)依然粗糙,它們有點(diǎn)“混為一談”的感覺,而Forge這次核心探索了對Agent部分和模型本身基礎(chǔ)能力做解耦的方法。

先把Agent和它需要的環(huán)境抽象出來,與模型本身區(qū)分開,然后在兩者間增加一個(gè)中間層,既扮演物理隔離的作用,也提供智能調(diào)度和實(shí)施策略調(diào)整的角色。這很巧妙。


更有意思的是,這樣解耦后,還解鎖了一個(gè)新的scale的方向,就是把各種Agent框架放進(jìn)去做訓(xùn)練,最終獲得泛化能力。這是個(gè)非常有用,甚至直接能影響開發(fā)者體驗(yàn)的泛化,它讓M2.5可以適配各種見過沒見過的“腳手架”。

這同樣是真實(shí)agent場景里非常需要的能力。

看過M 2.5的這些訓(xùn)練重點(diǎn),你會(huì)發(fā)現(xiàn),它的這些優(yōu)化都不是為了刷榜,而是為了解決非常具體的問題——在Agent的需求快速取代了所謂對話場景的需求后,模型該提供什么樣的智能。

它需要在效果和價(jià)格上找到微妙平衡,持續(xù)提升性能的同時(shí)降低成本。

這說來簡單,但對這個(gè)度的把握很難。模型廠要對這些開發(fā)者的需求有最直接的感知。而MiniMax的“手感”其實(shí)正來自這家公司自己內(nèi)部。

M2.5背后,MiniMax 的M系列模型最重要的研發(fā)思路就是要解決它內(nèi)部各個(gè)團(tuán)隊(duì)在開發(fā)agent的過程里遇到的問題。

閆俊杰曾在M1發(fā)布后分享過:“公司內(nèi)部的小伙伴一直在搭建各種各樣的Agent,來幫助解決公司飛速發(fā)展中遇到的各項(xiàng)挑戰(zhàn)……但是我們發(fā)現(xiàn)沒有一款模型在這些Agent上能完全滿足我們的需求。這里面的挑戰(zhàn)在于好的模型需要在效果、價(jià)格和推理速度上取得好的平衡,這幾乎是一個(gè)‘不可能三角’……我們一直在探索,能不能有一款模型能在效果、價(jià)格和速度上能取得比較好的平衡,從而讓更多的人能受益于Agent時(shí)代的智能提升?!?/p>

所以,MiniMax M2發(fā)布時(shí),它做到當(dāng)時(shí)Claude主力模型價(jià)格的8%,而最新的MiniMax M2.5價(jià)格是Claude主力模型的1/12。甚至,M2.5直接被形容為“1萬美元可以讓4個(gè)Agent連續(xù)工作一年”的模型,這幾乎意味著你可以不需要考慮使用成本地近乎無限使用它。

同時(shí),從死磕編程能力、開發(fā)Forge框架再到各種推理優(yōu)化,它繼續(xù)榨出更好的模型效果和更快推理速度。



而其中像Forge框架這種創(chuàng)新,就是整個(gè)M2.5背后思路的典型代表:只有那些自己在日常工作環(huán)境里對各種agent腳手架之間的適配感到過絕望,對真實(shí)環(huán)境里模型與agent能力之間的關(guān)系真正“抓狂”過的模型團(tuán)隊(duì)才會(huì)去解決這些問題。

M2.5顯然是MiniMax自己在面對“不可能三角”時(shí)最需要的那類模型?,F(xiàn)在,它也成了開發(fā)者們最需要的那類模型。

所以作為模型公司本身,當(dāng)你一直在牌桌上,你自己其實(shí)就是最能檢驗(yàn)?zāi)P蛯?shí)際能力和體驗(yàn)的第一道關(guān)。

當(dāng)一家模型公司自己對生產(chǎn)力AI的需求達(dá)到最先進(jìn)程度,它自己面對的體驗(yàn)困局也就會(huì)是人們最重要和普遍的需求,它的創(chuàng)新方向就會(huì)是大家期待的模型的進(jìn)步方向。

它自己喜歡的那個(gè)模型,就會(huì)是大家最喜歡的模型。


點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣州佳兆業(yè)破產(chǎn)

廣州佳兆業(yè)破產(chǎn)

地產(chǎn)微資訊
2026-02-28 20:38:44
價(jià)值60萬元被“秒空”!排隊(duì)4小時(shí)也要搶,有人請假趕來 ,線上1分鐘賣出3億元....

價(jià)值60萬元被“秒空”!排隊(duì)4小時(shí)也要搶,有人請假趕來 ,線上1分鐘賣出3億元....

深圳晚報(bào)
2026-02-28 14:42:32
美“福特”號航母駛離希臘克里特島

美“福特”號航母駛離希臘克里特島

財(cái)聯(lián)社
2026-02-26 16:57:07
東航、國航、南航,集體公告!

東航、國航、南航,集體公告!

每日經(jīng)濟(jì)新聞
2026-02-28 23:06:38
馬年首虎!涉嫌嚴(yán)重違紀(jì)違法,韓嵩被查

馬年首虎!涉嫌嚴(yán)重違紀(jì)違法,韓嵩被查

中國基金報(bào)
2026-02-28 20:55:42
哈梅內(nèi)伊身亡,115名孩童葬身空襲!戰(zhàn)爭之下,醫(yī)務(wù)人員的堅(jiān)守有多痛?

哈梅內(nèi)伊身亡,115名孩童葬身空襲!戰(zhàn)爭之下,醫(yī)務(wù)人員的堅(jiān)守有多痛?

醫(yī)脈圈
2026-03-01 11:10:40
1.2億驚天逆襲!曼城棄子打臉瓜迪奧拉,切爾西看懂1個(gè)秘密?

1.2億驚天逆襲!曼城棄子打臉瓜迪奧拉,切爾西看懂1個(gè)秘密?

卿子書
2026-03-01 09:12:59
一位腫瘤醫(yī)生的忠告:這世上除了生死,都是小事

一位腫瘤醫(yī)生的忠告:這世上除了生死,都是小事

洞見
2026-02-28 21:27:24
巨痛!滬上知名兒童游樂機(jī)構(gòu),兩歲寶摔落骨折!后面的事,家長更“心痛”

巨痛!滬上知名兒童游樂機(jī)構(gòu),兩歲寶摔落骨折!后面的事,家長更“心痛”

上觀新聞
2026-03-01 12:27:05
第5波伊朗導(dǎo)彈雨殺到,美軍航母基地劇烈大爆炸:徹底攔不住了!

第5波伊朗導(dǎo)彈雨殺到,美軍航母基地劇烈大爆炸:徹底攔不住了!

卷史
2026-03-01 12:23:09
伊朗,現(xiàn)代人類文明的傷疤

伊朗,現(xiàn)代人類文明的傷疤

科海識(shí)貝sci
2026-01-15 16:44:32
全球警戒!美軍瘋狂換裝M7,一場針對大國的火力革命,已經(jīng)開始!

全球警戒!美軍瘋狂換裝M7,一場針對大國的火力革命,已經(jīng)開始!

璠爺財(cái)事通
2026-02-26 19:00:04
賣國求榮!為討美國歡心,不惜將總統(tǒng)送進(jìn)大牢,如今結(jié)局大快人心

賣國求榮!為討美國歡心,不惜將總統(tǒng)送進(jìn)大牢,如今結(jié)局大快人心

顧史
2026-01-22 20:28:11
22歲男孩樊宸鑠去世!是家中獨(dú)子,死因曝光,網(wǎng)友:名字取大了

22歲男孩樊宸鑠去世!是家中獨(dú)子,死因曝光,網(wǎng)友:名字取大了

天天熱點(diǎn)見聞
2026-02-28 11:14:44
比光纖還猛!MLCC進(jìn)入全面漲價(jià)  十大產(chǎn)業(yè)龍頭坐享業(yè)績與股價(jià)齊升

比光纖還猛!MLCC進(jìn)入全面漲價(jià) 十大產(chǎn)業(yè)龍頭坐享業(yè)績與股價(jià)齊升

元芳說投資
2026-03-01 06:00:08
伊朗第7輪導(dǎo)彈洗地開始,美航母基地遭殃,以色列先發(fā)制人成笑話

伊朗第7輪導(dǎo)彈洗地開始,美航母基地遭殃,以色列先發(fā)制人成笑話

黑鷹觀軍事
2026-02-28 22:32:24
芒果首播《江山為聘》:雙強(qiáng)掃黑,吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

芒果首播《江山為聘》:雙強(qiáng)掃黑,吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

阿廢冷眼觀察所
2026-03-01 10:47:21
1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

1996年, 施瓦辛格在家中無事,和35歲200斤女傭發(fā)生不當(dāng)關(guān)系

南權(quán)先生
2026-01-20 15:49:53
伊朗前王儲(chǔ)巴列維宣布將返回伊朗領(lǐng)導(dǎo)革命

伊朗前王儲(chǔ)巴列維宣布將返回伊朗領(lǐng)導(dǎo)革命

一種觀點(diǎn)
2026-01-19 19:36:11
臺(tái)軍女飛行員郭文靜:只要長官敢下令,我會(huì)毫不猶豫的擊落殲20!

臺(tái)軍女飛行員郭文靜:只要長官敢下令,我會(huì)毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
2026-03-01 14:52:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2896文章數(shù) 10458關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

揮兵伊朗之際 特朗普開炮"絕不允許企業(yè)干涉軍隊(duì)作戰(zhàn)"

頭條要聞

揮兵伊朗之際 特朗普開炮"絕不允許企業(yè)干涉軍隊(duì)作戰(zhàn)"

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺(tái) 雷軍:為新SU7量產(chǎn)作準(zhǔn)備

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
親子
教育
藝術(shù)

普通人穿衣不需要太復(fù)雜!顏色恰當(dāng)、搭配和諧,高級又耐看

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

親子要聞

回顧:浙江幼師幼兒園潛伏22年,警察曝光真實(shí)身份,家長后怕不已

教育要聞

國家統(tǒng)計(jì)局最新數(shù)據(jù)!研究生招生首破140萬

藝術(shù)要聞

2025第四屆“精神·圖式”——中國寫意油畫雙年展 | 入選油畫選刊

無障礙瀏覽 進(jìn)入關(guān)懷版