国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

小米 MiMo-V2 三張牌:1T 參數(shù)旗艦、全模態(tài) Omni、情感 TTS,分別在解決什么

0
分享至


上周,OpenRouter 上悄悄出現(xiàn)了兩個(gè)沒有任何介紹的匿名模型:Hunter AlphaHealer Alpha。沒有宣發(fā),沒有官方認(rèn)領(lǐng),只有調(diào)用量在持續(xù)攀升——多天沖上日榜前列,開發(fā)者社區(qū)開始炸鍋。


有人猜這是 DeepSeek V4,參數(shù)規(guī)格高度吻合,連 OpenClaw 創(chuàng)始人 Peter Steinberger 也忍不住在 X 上公開發(fā)帖打聽身份。

3 月 19 日凌晨,謎底揭曉:Hunter Alpha 是MiMo-V2-Pro的早期測試版,Healer Alpha 是MiMo-V2-Omni的早期測試版。兩個(gè)模型的主人,是小米。


當(dāng)天,小米 MiMo 官方同步正式發(fā)布三款新模型:MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS。只看名字可能會(huì)覺得這又是一輪常規(guī)迭代;把三者放在一起看,小米這次真正想講的是"我已經(jīng)開始搭一整套 Agent 能力底座"。官方給 Pro 的定位是旗艦基座模型,給 Omni 的定位是全模態(tài) Agent 模型,給 TTS 的定位是給 Agent 補(bǔ)上"聲音、情緒和表達(dá)力"。三個(gè)模型覆蓋了從"大腦"到"感知與執(zhí)行"再到"輸出層"的完整鏈路。

MiMo-V2-Pro 負(fù)責(zé)想,MiMo-V2-Omni 負(fù)責(zé)看、聽、做,MiMo-V2-TTS 負(fù)責(zé)說。這波發(fā)布最值得看的,也正是這條清晰的路線:小米在把 AI 從"對(duì)話框里的回答機(jī)器",往"能調(diào)用工具、理解界面、處理真實(shí)任務(wù)、自然表達(dá)"的系統(tǒng)層智能體方向推進(jìn)。

一、MiMo-V2-Pro:對(duì)標(biāo) Claude 去的 Agent 旗艦,偏偏只賣五分之一的價(jià)

先看MiMo-V2-Pro。按照官方說法,這是面向真實(shí)世界 agentic workload 的旗艦基座模型,目標(biāo)是去完成任務(wù)。模型總參數(shù)超過 1T,激活參數(shù)42B,支持1M token上下文;架構(gòu)上延續(xù)上一代 Hybrid Attention,混合比例從 5:1 提升至 7:1,同時(shí)保留輕量級(jí) MTP 層以提升生成效率。官方強(qiáng)調(diào)的關(guān)鍵詞很明確:complex workflows、production engineering tasks、tool-call stability、multi-step reasoning

跑分上,MiMo-V2-Pro 是這次三款里官方公開數(shù)據(jù)最完整的。小米在官方頁直接標(biāo)注:按 Artificial Analysis Intelligence Index,MiMo-V2-Pro 全球第 8、中文大模型第 2。


Agent 相關(guān) benchmark 上,它在PinchBench 拿到 84.0,在ClawEval 拿到 61.5,兩項(xiàng)均為全球第 3,官方明確標(biāo)注"接近 Claude Opus 4.6"。對(duì)照數(shù)據(jù):PinchBench 上 Claude Sonnet 4.6 為 86.9、Claude Opus 4.6 為 86.3、Gemini 3 Pro 為 70.7;ClawEval 上 Claude Opus 4.6 和 Sonnet 4.6 均為 66.3,Gemini 3 Pro 為 51.9,GPT-5.2 為 50.0。這兩個(gè)評(píng)測考的是工具調(diào)用、多步規(guī)劃、復(fù)雜任務(wù)鏈上的穩(wěn)定性——Agent 場景里最核心也最難做的部分。MiMo-V2-Pro 在這個(gè)維度上,已經(jīng)和 Claude Opus 4.6 基本站在同一梯隊(duì)。


驗(yàn)證方式上,小米沒有只放幾張實(shí)驗(yàn)室對(duì)比圖。Hunter Alpha 在 OpenRouter 上跑了一周盲測——總調(diào)用量超過 1T tokens,多天登頂日榜。官方展示的調(diào)用來源幾乎全是 coding/agent 工具,尤以OpenClaw、Kilo Code、Roo Code為主。開發(fā)者對(duì)它的感知,從一開始就落在"能干活"上。

案例上,官方給了兩個(gè)方向。一個(gè)是前端開發(fā):在 OpenClaw 里,MiMo-V2-Pro 可以根據(jù)一條 prompt 直接生成完整網(wǎng)頁,官方展示的例子是一個(gè)90 年代印刷雜志風(fēng)格的網(wǎng)頁,版式、字體、噪點(diǎn)和翻頁感這些細(xì)節(jié)都有覆蓋。

用同樣的提示詞在 MiMo Claw 實(shí)測了一下,生成的網(wǎng)頁有目錄交互、完整頁面元素、整體排版也算得上美觀,圖片渲染稍有瑕疵,但完成度已經(jīng)相當(dāng)不錯(cuò)。

不到三分鐘,一次性生成的版本,無抽卡

另一個(gè)官方案例更直接:讓它做一個(gè) 3D 塔防游戲,要求使用 Three.js 或 Babylon.js,實(shí)現(xiàn) 3D 渲染、關(guān)卡模式、敵人波次、升級(jí)路徑、動(dòng)態(tài)背景和完整控制邏輯。官方想傳達(dá)的很清楚——這個(gè)模型瞄準(zhǔn)的是端到端工程交付,代碼補(bǔ)全只是其中最基礎(chǔ)的一層。

價(jià)格是 MiMo-V2-Pro 另一個(gè)值得單獨(dú)說的點(diǎn)。官方頁把 API 價(jià)格和 Claude 4.6 系列并排列出:256K 以內(nèi),輸入/輸出分別為 $1/$3 每百萬 tokens;256K 到 1M 為 $2/$6。Claude Sonnet 4.6 是 $3/$15,Claude Opus 4.6 是 $5/$25。同等 Agent 能力梯隊(duì),價(jià)格約為五分之一——這個(gè)價(jià)差對(duì)大規(guī)模調(diào)用的 agent 框架來說,是實(shí)質(zhì)性的成本差異,也是小米最直接的市場切入點(diǎn)。


二、MiMo-V2-Omni:感知與行動(dòng)原生綁定,最有想象空間的那款

如果說 Pro 是"大腦",MiMo-V2-Omni才是這次最有未來感的東西。官方對(duì)它的定義是omni foundation model:把圖像、視頻、音頻編碼器直接融合進(jìn)同一個(gè)共享 backbone,形成一條統(tǒng)一感知流。更關(guān)鍵的是訓(xùn)練目標(biāo)——這個(gè)模型從一開始,就同時(shí)學(xué)三件事:場景是什么、接下來會(huì)發(fā)生什么、現(xiàn)在該做什么。感知和行動(dòng)在架構(gòu)層就是綁定的。

官方公開的 benchmark 數(shù)據(jù),感知側(cè)六個(gè)分?jǐn)?shù):MMAU-Pro 69.4、BigBench Audio 94.0、MMMU-Pro 76.8、CharXiv RQ 80.1、Video-MME 85.3、FutureOmni 66.7。從對(duì)照表可以直接讀出:MMAU-Pro 69.4高于 Gemini 3 Pro 的 67.0;CharXiv RQ 80.1高于 Claude Opus 4.6 的 77.4;FutureOmni 66.7高于 Gemini 3 Pro 的 62.9 和 Claude Opus 4.6 的 60.3。官方總結(jié):音頻理解整體超過 Gemini 3 Pro,圖像理解超過 Claude Opus 4.6,視頻理解支持原生音視頻聯(lián)合輸入,并具備 future reasoning 能力。


行動(dòng)側(cè)數(shù)據(jù)更值得關(guān)注:MM-BrowserComp 52.0、OmniGAIA 49.8、ClawEval 54.8、PinchBench 85.6。其中MM-BrowserComp 52.0明顯高于 Gemini 3 Pro 的 37.2 和 GPT-5.2 的 47.4;PinchBench 85.6高于 Gemini 3 Pro 的 70.7、Gemini 3 Flash 的 75.0 和 GPT-5.2 的 77.0,非常接近 Claude Opus 4.6 的 86.3。MM-BrowserComp 測的是模型在真實(shí)瀏覽器環(huán)境里完成任務(wù)的能力,這個(gè)分?jǐn)?shù)比兩個(gè)主要對(duì)手高出 5-15 個(gè)百分點(diǎn),是執(zhí)行維度上相當(dāng)顯著的差距。


代碼與任務(wù)能力上還有SWE-Bench Verified 74.8、GDPVal 1410


官方給了三個(gè)案例,每個(gè)都指向一類具體場景。

第一個(gè)是自動(dòng)駕駛視覺大腦:給它一段海邊小鎮(zhèn)的行車記錄儀視頻,讓它實(shí)時(shí)識(shí)別潛在風(fēng)險(xiǎn)。模型的輸出是"并線風(fēng)險(xiǎn)、盲區(qū)、行人橫穿、車道收窄、街邊雙排停車帶來的側(cè)向風(fēng)險(xiǎn)"——已經(jīng)接近駕駛決策層的信息,目標(biāo)檢測只是基礎(chǔ)。

第二個(gè)是跨平臺(tái)購物 Agent:任務(wù)是扮演一個(gè)喜歡旅行攝影的學(xué)生,在小紅書上搜三款小米 17 的選購建議,整理推薦,再去京東下單,并盡量和客服談到更低價(jià)格。整個(gè)流程里,MiMo-V2-Omni 在 OpenClaw 配合下自主瀏覽帖子、比較賣家、與客服自然語言談價(jià)、加購并走到結(jié)算,期間還處理了非標(biāo)準(zhǔn) DOM、多標(biāo)簽頁上下文管理、平臺(tái)反自動(dòng)化打斷后的恢復(fù),全程沒有人工干預(yù)。任務(wù)鏈結(jié)構(gòu)——跨平臺(tái)、跨模態(tài)、遇到干擾后自主恢復(fù)——已經(jīng)非常接近真實(shí)電商和辦公場景里 Agent 工作流的復(fù)雜度。

第三個(gè)案例更極端:從零做一個(gè) 15 秒介紹視頻,然后上傳到 TikTok。模型先自己設(shè)計(jì) 4 個(gè)鏡頭,再合成低頻 bass、電子音、轉(zhuǎn)場 whoosh 和 glitch 細(xì)節(jié)音效;渲染中碰到中文字體報(bào)錯(cuò),自己診斷并修復(fù);打開 TikTok 上傳頁后,發(fā)現(xiàn)描述輸入框不是標(biāo)準(zhǔn)文本元素,自行分析 DOM、找到正確交互方式,填完文案、發(fā)布、點(diǎn)贊、評(píng)論,最后確認(rèn)視頻通過審核公開上線。這個(gè)案例想說明的是:Omni 已經(jīng)開始展現(xiàn)出閉環(huán)自主完成任務(wù)的能力——從內(nèi)容生成到平臺(tái)發(fā)布,中間出了問題,自己解決。

三、MiMo-V2-TTS:給 Agent 裝上情感,被低估最久的那層體驗(yàn)

第三個(gè)模型MiMo-V2-TTS,表面看起來最不"炸",但可能是最容易直接走進(jìn)產(chǎn)品的那一個(gè)。行業(yè)這兩年幾乎所有討論都集中在推理能力、工具調(diào)用、代碼質(zhì)量上,但真正到產(chǎn)品里,用戶接觸到的是最后那層——它怎么說話,有沒有情緒,是否自然,是不是像一個(gè)真實(shí)存在的智能體。這層體驗(yàn)長期被當(dāng)成錦上添花,但在終端產(chǎn)品里,它直接影響用戶粘性。MiMo-V2-TTS 要做的,就是把這層認(rèn)真填上。官方的說法很直接:給 Agent 一個(gè)聲音,甚至給它"靈魂"。

技術(shù)上,MiMo-V2-TTS 建在小米自研的Audio Tokenizermulti-codebook joint speech-text modeling架構(gòu)上,預(yù)訓(xùn)練數(shù)據(jù)超過1 億小時(shí)語音數(shù)據(jù),后續(xù)做了多維度強(qiáng)化學(xué)習(xí)。重點(diǎn)在三件事:多粒度風(fēng)格控制、自然韻律還原、唱歌能力。它可以理解自由文本風(fēng)格描述,比如"剛睡醒、略微沙啞"、"幾乎是耳語式的深情表達(dá)"、"憤怒但盡量克制",而不是只能從 happy/sad/angry/neutral 的下拉菜單里選。

更細(xì)的一層,是它可以在生成時(shí)同步輸出非語言事件——咳嗽、停頓、遲疑、嘆氣、笑聲等,強(qiáng)調(diào)的是這些信號(hào)在建模階段就和上下文一并處理,而不是后期拼進(jìn)去的音效。它還支持方言和角色音色,包括東北話、四川話、粵語、臺(tái)灣普通話,以及孫悟空、林黛玉這類角色風(fēng)格。目標(biāo)是把一段文本表演出來,而不只是念出來。

最值得單獨(dú)說的是唱歌。官方明確寫明支持 singing voice synthesis,并表示這可能是當(dāng)前首個(gè)在商業(yè)可用 API 中原生同時(shí)支持說話和唱歌的 TTS 能力。同一套架構(gòu),既能做耳語式對(duì)話,也能生成帶音高和節(jié)奏的演唱,中間不用切模型、不用切模式。對(duì)內(nèi)容生產(chǎn)、虛擬人、陪伴型 Agent、AI 主播和短視頻工具來說,這是非常直接的能力補(bǔ)充。

需要說明的是,目前官方公開頁里,MiMo-V2-TTS 沒有像 Pro 和 Omni 那樣給出一套完整的 benchmark 排名表,更多展示的是能力樣例和產(chǎn)品方向。TTS 的質(zhì)量本身就很難量化,最終檢驗(yàn)只能靠真實(shí)產(chǎn)品里的用戶體驗(yàn)。這個(gè)模型的核心命題只有一個(gè):能不能把人機(jī)交互的體驗(yàn)往上拉一個(gè)臺(tái)階。

四、寫在最后

把這三款模型放在一起看,小米在推進(jìn)的目標(biāo)已經(jīng)超出了"能對(duì)話、會(huì)回答的大模型"范疇,落點(diǎn)在 Agent 時(shí)代的系統(tǒng)層底座。MiMo-V2-Pro 負(fù)責(zé)規(guī)劃、推理、長上下文和復(fù)雜工具鏈;MiMo-V2-Omni 負(fù)責(zé)多模態(tài)理解、界面感知和跨環(huán)境執(zhí)行;MiMo-V2-TTS 負(fù)責(zé)把這一切變成自然、可持續(xù)交互的產(chǎn)品體驗(yàn)。

有意思的是,小米這次挑的案例——自動(dòng)駕駛、電商談價(jià)、短視頻生成上傳、3D 游戲搭建、方言情緒語音——幾乎全是小米自己生態(tài)里能直接落地的場景。

至于最終效果怎樣,網(wǎng)址在此:

https://mimo.xiaomi.com/zh

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
醫(yī)院的專家號(hào)剛放出就瞬間“秒空”,上海三甲醫(yī)院緊急報(bào)警!警方:對(duì)倒賣醫(yī)院號(hào)源犯罪團(tuán)伙的李某、鄭某等人依法刑事拘留

醫(yī)院的專家號(hào)剛放出就瞬間“秒空”,上海三甲醫(yī)院緊急報(bào)警!警方:對(duì)倒賣醫(yī)院號(hào)源犯罪團(tuán)伙的李某、鄭某等人依法刑事拘留

大風(fēng)新聞
2026-04-22 15:12:13
斯諾克世錦賽太殘酷:隨著奧沙利文10-2,已有5名中國選手止步32強(qiáng)

斯諾克世錦賽太殘酷:隨著奧沙利文10-2,已有5名中國選手止步32強(qiáng)

俯身沖頂
2026-04-22 22:16:48
"下單時(shí)2200,現(xiàn)在漲到3700",在淘寶買15張顯卡,5店鋪均拒發(fā)貨;淘寶:無法強(qiáng)制,望買家理解

"下單時(shí)2200,現(xiàn)在漲到3700",在淘寶買15張顯卡,5店鋪均拒發(fā)貨;淘寶:無法強(qiáng)制,望買家理解

大風(fēng)新聞
2026-04-22 15:44:05
段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

阿鳧愛吐槽
2026-04-22 10:20:09
4月前19天乘用車零售同比大跌26%,房地產(chǎn)的今天就是汽車的明天?

4月前19天乘用車零售同比大跌26%,房地產(chǎn)的今天就是汽車的明天?

風(fēng)向觀察
2026-04-22 18:24:13
河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機(jī)未逃離當(dāng)場被控制

河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機(jī)未逃離當(dāng)場被控制

極目新聞
2026-04-22 15:36:21
AC米蘭、國米等俱樂部球員被曝參加集體嫖娼派對(duì),檢方:至少50至70名球員參加,“賽后派對(duì)”實(shí)為賣淫活動(dòng),超100名受害女性來自不同國家

AC米蘭、國米等俱樂部球員被曝參加集體嫖娼派對(duì),檢方:至少50至70名球員參加,“賽后派對(duì)”實(shí)為賣淫活動(dòng),超100名受害女性來自不同國家

極目新聞
2026-04-22 18:59:07
杜蕾斯供應(yīng)商宣布漲價(jià)

杜蕾斯供應(yīng)商宣布漲價(jià)

第一財(cái)經(jīng)資訊
2026-04-22 14:42:25
老人不要拼命追求長壽,該走就走,60歲去世和80歲去世沒本質(zhì)區(qū)別

老人不要拼命追求長壽,該走就走,60歲去世和80歲去世沒本質(zhì)區(qū)別

暖風(fēng)吹過竹林
2026-04-22 08:11:22
王毅這次出訪不一般,身邊多帶了一個(gè)人!東南亞三國要變天了?

王毅這次出訪不一般,身邊多帶了一個(gè)人!東南亞三國要變天了?

閆樹軍論評(píng)
2026-04-22 15:47:07
任澤平退款731萬,恒大高管們開始退錢了

任澤平退款731萬,恒大高管們開始退錢了

互聯(lián)網(wǎng)大觀
2026-04-22 13:44:17
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

夜深愛雜談
2026-04-22 20:16:44
職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

運(yùn)籌帷幄的籃球
2026-04-22 14:25:28
美軍扣船不到48小時(shí),中美在安理會(huì)大吵一架,孫磊對(duì)各國作出表率

美軍扣船不到48小時(shí),中美在安理會(huì)大吵一架,孫磊對(duì)各國作出表率

基斯默默
2026-04-22 10:19:14
伊朗“蚊子艦隊(duì)”曝光:藏身洞穴,時(shí)速185公里,還可從隱蔽陣地發(fā)射導(dǎo)彈與無人機(jī),被美方視為霍爾木茲海峽的主要威脅

伊朗“蚊子艦隊(duì)”曝光:藏身洞穴,時(shí)速185公里,還可從隱蔽陣地發(fā)射導(dǎo)彈與無人機(jī),被美方視為霍爾木茲海峽的主要威脅

揚(yáng)子晚報(bào)
2026-04-22 09:54:29
非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

遠(yuǎn)方風(fēng)林
2026-04-22 11:58:01
與伊朗談判取消  特朗普再次上演TACO,宣布延長停火期

與伊朗談判取消 特朗普再次上演TACO,宣布延長停火期

劉耘博士
2026-04-22 10:49:40
中央定調(diào)!4月起公務(wù)員退休徹底取消彈性延遲,體制內(nèi)真繃不住了

中央定調(diào)!4月起公務(wù)員退休徹底取消彈性延遲,體制內(nèi)真繃不住了

愛下廚的阿椅
2026-04-22 17:30:09
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
網(wǎng)傳孫吉被前妻實(shí)名舉報(bào):騙婚、出軌、海外擁有巨額不明資產(chǎn)

網(wǎng)傳孫吉被前妻實(shí)名舉報(bào):騙婚、出軌、海外擁有巨額不明資產(chǎn)

懂球帝
2026-04-22 12:46:51
2026-04-23 00:40:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
272文章數(shù) 37關(guān)注度
往期回顧 全部

數(shù)碼要聞

機(jī)械革命發(fā)布3款無界14 2026筆記本,國補(bǔ)到手3654.15元起

頭條要聞

醫(yī)院主任"巨額財(cái)產(chǎn)來源不明" 被指向女兒轉(zhuǎn)賬超800萬

頭條要聞

醫(yī)院主任"巨額財(cái)產(chǎn)來源不明" 被指向女兒轉(zhuǎn)賬超800萬

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

時(shí)尚
教育
游戲
健康
公開課

用了8年還心動(dòng),這筆錢是花得真值啊

教育要聞

3分鐘學(xué)會(huì)一個(gè)雅思7分句/段(第340期)

曝次世代Xbox主機(jī)性能炸裂!是PS6兩倍 將顛覆市場

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版