国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

超越DeepSeek-V4!羅福莉交出小米最強開源模型,首日適配5家國產(chǎn)芯片

0
分享至


智東西
作者 李水青
編輯 云鵬

智東西4月28日報道,剛剛,小米開源羅福莉帶隊研發(fā)的MiMo-V2.5系列模型,采用MIT協(xié)議,允許商用推理部署與二次訓練,無需額外授權。


▲MiMo-V2.5-Pro在Hugging Face的開源頁面截圖

此前,該系列模型于4月23日開啟公測,包括MiMo-V2.5-Pro、MiMo-V2.5兩款模型。模型具備更強Agent能力,支持100萬上下文,且Token效率大幅提升。

MiMo-V2.5-Pro的完整基準測試結(jié)果今日公布,小米稱其在GDPVal-AA(Elo)、Claw-Eval(pass^3)等多項測評中超過了最新開源的DeepSeek-V4-Pro模型,也超過了發(fā)布不久的Kimi K2.6等主流閉源模型,實現(xiàn)總體最佳。


▲MiMo-V2.5-Pro的最新測評成績

開源首日,MiMo-V2.5-Pro宣布已完成與阿里平頭哥、亞馬遜云科技、AMD、百度昆侖芯、燧原科技、沐曦、天數(shù)智芯多個芯片廠商的接入適配。MiMo-V2.5系列模型同步完成SGLang和vLLM主流推理框架的Day 0適配。

與此同時,小米還推出百萬億Token創(chuàng)造者激勵計劃,計劃30天內(nèi)免費發(fā)放總計100萬億Token權益;推出Agent生態(tài)共建計劃,目前已與OpenCode、Hermes Agent、KiloCode等Agent框架廠商展開合作。

模型權重合集:
https://huggingface.co/collections/XiaomiMiMo/mimo-v25
更多細節(jié)參考模型Blog:
https://mimo.xiaomi.com/index#blog
百萬億Token計劃申請網(wǎng)址:
https://100t.xiaomimimo.com/

一、模型技術細節(jié)公布,測評超越DeepSeek-V4

由小米最新公開的模型卡可知,小米迄今為止最強模型MiMo-V2.5-Pro是一款擁有1.02萬億(1.02T)個參數(shù)的混合專家模型,其中420億(42B)個激活參數(shù),基于混合注意力架構,相比前代模型在通用智能能力、復雜軟件工程和長時域任務處理方面均實現(xiàn)了顯著提升。

MiMo-V2.5-Pro繼承了MiMo-V2-Flash的混合注意力機制和多標記預測(MTP)設計。局部滑動窗口注意力(SWA)和全局注意力(GA)以6:1的比例交錯使用,窗口大小為128個Token,在長上下文情況下,通過可學習的注意力池偏置,將鍵值緩存存儲空間減少了近7倍,同時保持了性能。一個輕量級的MTP模塊,采用密集前饋神經(jīng)網(wǎng)絡(FFN),原生集成用于訓練和推理,輸出吞吐量大約提升了三倍,并加速了強化學習(RL)的部署。


▲MiMo-V2.5-Pro的模型架構及訓練過程

該模型預訓練使用27萬億(27T)個Token,采用FP8混合精度,原生序列長度為32K,上下文擴展至1M個Token。后訓練遵循MiMo-V2-Flash中引入的三階段范式:1、監(jiān)督式微調(diào),在精心挑選的數(shù)據(jù)對上建立基礎的指令跟蹤;2、領域?qū)>柧殻渲胁煌慕處熌P头謩e通過針對特定領域的強化學習進行優(yōu)化,涵蓋數(shù)學、安全、智能工具使用等領域;3、多教師策略蒸餾(MOPD),其中單個學生模型在每位專精教師的Token級指導下,從自身的展開中學習策略,并將所有教師的能力融合到一個統(tǒng)一的模型中。

再來看看MiMo-V2.5,這是一個3100億(310B)參數(shù)的稀疏MoE模型,擁有150億(15B)激活參數(shù),在48萬億(48T)個Token上進行訓練。它的語言主干框架繼承了MiMo-V2-Flash的混合滑動窗口注意力機制,并搭載自研預訓練視覺、音頻編碼器,兩類編碼器通過輕量化投影模塊完成跨模塊融合。


▲MiMo-V2.5架構

訓練過程分為五個階段:1、基于多樣化語料開展文本預訓練,搭建大語言模型主干網(wǎng)絡;2、進行投影層預熱訓練,實現(xiàn)音視頻、視覺投影器與語言模型的對齊融合;3、依托高質(zhì)量跨模態(tài)數(shù)據(jù)集,開展大規(guī)模多模態(tài)預訓練;4、執(zhí)行監(jiān)督微調(diào)與智能體后訓練,在此過程中將上下文窗口從32K逐步擴容至256K,最終達到100萬Token;5、最后是通過強化學習(RL)與多目標偏好蒸餾(MOPD),進一步強化模型的感知、邏輯推理與智能體執(zhí)行能力。

從小米最新公布的測評結(jié)果來看,MiMo-V2.5在Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro等多項測評中大幅超越了DeepSeek最新發(fā)布的DeepSeek-V4-Flash。


▲MiMo-V2.5最新測評情況

二、開源首日,完成阿里平頭哥沐曦等7家芯片廠商適配

小米還公布了芯片生態(tài)與推理框架最新適配情況,MiMo-V2.5-Pro開源首日完成多個芯片廠商的接入適配:

阿里平頭哥:基于真武810E及全棧自研AI軟件棧實現(xiàn)深度適配。

亞馬遜云科技:基于Trainium2芯片與Neuron SDK + vLLM推理框架完成深度適配,實現(xiàn)開源即全球可用的首日適配。下一代3nm制程Trainium3將進一步釋放模型性能。

AMD:依托ROCm開源軟件棧提供Day-0適配及全面優(yōu)化支持。

百度昆侖芯:通過底層算子優(yōu)化與軟硬件協(xié)同加速,保障模型穩(wěn)定高效運行。

燧原科技:基于自研馭算TopsRider軟件棧深度優(yōu)化,在燧原L600上完成全量適配。

沐曦:基于曦云C系列及全棧自研MXMACA軟件棧,實現(xiàn)Triton語法到沐曦GPU指令集的端到端原生支持。

天數(shù)智芯:實現(xiàn)Day 0級深度適配。

此外,MiMo-V2.5系列模型同步完成SGLang和vLLM主流推理框架的Day 0適配。

三、免費發(fā)放100萬億Token,已與Hermes Agent等合作

與此同時,小米還同步推出MiMo Orbit計劃,包含兩部分:“百萬億Token創(chuàng)造者激勵計劃”,與面向Agent框架團隊的“Agent生態(tài)共建計劃”。

在百萬億Token創(chuàng)造者激勵計劃方面,小米面向全球AI用戶免費發(fā)放Token,30天內(nèi)發(fā)放總計100萬億Token權益,贈完即止。

該計劃采取申請制,通過者最高獲得Max檔位Token Plan,包含16億Credits,價值659元。活動時間:北京時間2026年4月28日00:00至5月28日00:00。

Agent生態(tài)共建計劃方面,小米面向全球Agent框架團隊提供專項支持,為框架提供MiMo Token限免支持,同時參與和贊助框架平臺的AI Hackathon等共創(chuàng)活動。

其目前已與OpenCode、Hermes Agent、KiloCode等Agent框架廠商展開深度合作。

結(jié)語:多款國產(chǎn)開源模型“亮劍”交鋒

近期,大模型行業(yè)開源力度持續(xù)加碼,模型與國產(chǎn)及國際芯片的“Day 0”適配已從亮點變?yōu)閯傂?,推理效率和部署成本成為下一階段競爭的核心。同時,百億級Token免費激勵與Agent框架生態(tài)共建,反映出行業(yè)正從“拼參數(shù)”轉(zhuǎn)向“拼應用”。

值得關注的是,小米MiMo-V2.5-Pro在多項基準評測中直接超越DeepSeek最新開源的DeepSeek-V4-Pro模型,可謂與DeepSeek在開源賽道發(fā)起“亮劍”交鋒,有望倒逼行業(yè)更快降低推理成本、提升Agent真實任務完成率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國國務院宣布:批準向以色列、阿聯(lián)酋、卡塔爾和科威特的86億美元巨額軍售!且不需國會審查

美國國務院宣布:批準向以色列、阿聯(lián)酋、卡塔爾和科威特的86億美元巨額軍售!且不需國會審查

魯中晨報
2026-05-02 18:03:06
聞泰科技“帶帽”首日一字跌停 封單超41億元

聞泰科技“帶帽”首日一字跌停 封單超41億元

財聞
2026-05-06 11:08:36
1992年,陸定一問秦川:如果黨的一把手腐敗了,那么該由誰來管?

1992年,陸定一問秦川:如果黨的一把手腐敗了,那么該由誰來管?

阿器談史
2026-04-26 14:13:38
新西蘭鄰國HIV爆發(fā)!感染方式太瘋狂,“像野火一樣蔓延,已成國家危機”

新西蘭鄰國HIV爆發(fā)!感染方式太瘋狂,“像野火一樣蔓延,已成國家危機”

發(fā)現(xiàn)新西蘭
2026-05-06 13:20:33
提鞋都不配?國米名宿無情貶低槍手邊后衛(wèi) 認為他跟廷貝爾差太遠

提鞋都不配?國米名宿無情貶低槍手邊后衛(wèi) 認為他跟廷貝爾差太遠

雪狼侃體育
2026-05-06 19:18:33
蔣介石在他的日記里坦言:重慶談判時放走毛澤東,全是因為這2點

蔣介石在他的日記里坦言:重慶談判時放走毛澤東,全是因為這2點

倫倫媽愛歷史
2026-05-02 10:01:48
斯洛伐克擬派F-16戰(zhàn)機參加北約防空任務,從2028年起計劃參與北約輪換式防空任務,并將為此部署兩套來自以色列的Barak MX防空系統(tǒng)

斯洛伐克擬派F-16戰(zhàn)機參加北約防空任務,從2028年起計劃參與北約輪換式防空任務,并將為此部署兩套來自以色列的Barak MX防空系統(tǒng)

魯中晨報
2026-05-06 19:54:03
1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

興趣知識
2026-05-05 17:43:16
牛皮吹得沒邊了,某國產(chǎn)車企要沖擊2000萬輛,這是要碾壓豐田么?

牛皮吹得沒邊了,某國產(chǎn)車企要沖擊2000萬輛,這是要碾壓豐田么?

柏銘銳談
2026-05-04 20:40:53
小鹿好局痛失,淚灑賽場,中韓女團五強對決,韓國3:1獲勝

小鹿好局痛失,淚灑賽場,中韓女團五強對決,韓國3:1獲勝

月滿大江流
2026-05-06 16:58:31
妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

千秋文化
2026-03-25 21:49:57
估值數(shù)億美元,A.O.史密斯中國要賣了

估值數(shù)億美元,A.O.史密斯中國要賣了

融資中國
2026-05-05 09:59:32
以色列死局已定,無人能救!

以色列死局已定,無人能救!

大國觀察眼
2026-04-28 06:05:05
賈斯汀·比伯:一場音樂節(jié)如何讓播放量暴漲18倍

賈斯汀·比伯:一場音樂節(jié)如何讓播放量暴漲18倍

熱搜摘要官
2026-05-05 18:09:18
內(nèi)部人士爆料:東契奇赴西班牙療傷純屬假消息,歐洲之行另有原因

內(nèi)部人士爆料:東契奇赴西班牙療傷純屬假消息,歐洲之行另有原因

夜白侃球
2026-05-06 15:19:02
伊斯蘭革命衛(wèi)隊:如果美國再犯錯誤,就燒毀報廢他們的巨型戰(zhàn)艦!

伊斯蘭革命衛(wèi)隊:如果美國再犯錯誤,就燒毀報廢他們的巨型戰(zhàn)艦!

混沌錄
2026-04-30 00:12:11
“最美港姐”上浪姐一夜爆火!網(wǎng)友:完全是真人版迪士尼在逃公主……

“最美港姐”上浪姐一夜爆火!網(wǎng)友:完全是真人版迪士尼在逃公主……

美芽
2026-05-06 18:30:49
森林狼主帥:文班至少4個蓋帽是干擾球 沒必要申訴那是浪費時間

森林狼主帥:文班至少4個蓋帽是干擾球 沒必要申訴那是浪費時間

羅說NBA
2026-05-06 05:52:40
官宣:杰倫·布朗因公開批評裁判將被處以5萬美元罰款

官宣:杰倫·布朗因公開批評裁判將被處以5萬美元罰款

北青網(wǎng)-北京青年報
2026-05-06 19:59:03
吳宜澤:奧沙利文在決賽關鍵時刻給我發(fā)短信,讓我試著打出自己的風格

吳宜澤:奧沙利文在決賽關鍵時刻給我發(fā)短信,讓我試著打出自己的風格

懂球帝
2026-05-05 21:25:07
2026-05-06 20:35:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11749文章數(shù) 117061關注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

最新GDP!全國30強城市,又變了

汽車要聞

領克10/領克10+ 無論能源形式 領克都要快樂

態(tài)度原創(chuàng)

手機
數(shù)碼
時尚
藝術
公開課

手機要聞

蘋果折疊屏iPhone Ultra機模再曝,展開后形態(tài)酷似iPad mini

數(shù)碼要聞

消息稱三星蘇州家電生產(chǎn)繼續(xù),傳聞此前未能與塞夫就國行銷售談妥

夏天的白裙,可以像赫本那樣穿

藝術要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版