国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

羅福莉又上分了!小米連甩4款模型,讓AI超逼真配音

0
分享至


智東西
作者 程茜
編輯 心緣

智東西4月24日報道,今天,小米MiMo-V2.5家族語音模型系列正式發(fā)布:MiMo-V2.5-TTS Series、MiMo-V2.5-ASR,前者可免費體驗,后者發(fā)布即開源。其中TTS Series包括語音、語音設計、語音克隆模型三款。


就在昨天,小米MiMo官宣MiMo-V2.5中旗艦推理模型MiMo-V2.5、全模態(tài)Agent模型V2.5-Pro開啟公測、即將開源,再加上今天的4款語音模型,該系列共計6款模型。

MiMo-V2.5-TTS Series包含三款模型:語音模型MiMo-V2.5-TTS、語音設計模型MiMo-V2.5-TTS-VoiceDesign、語音克隆模型MiMo-V2.5-TTS-VoiceClone,MiMo-V2.5-ASR是這些語音模型的聽覺基座,發(fā)布即開源。

MiMo-V2.5-TTS的模型集成多款音色、支持一句話復刻音色、定制全新音色等。MiMo-V2.5-ASR則支持中英雙語、中文方言、強噪音、多說話人等復雜場景的語音識別。

小米此次發(fā)布的幾大模型,均為智能體場景打造,其在官方文章里透露了幾大模型可以搭配使用的智能體式創(chuàng)作鏈路:用MiMo-V2.5-Pro作為規(guī)劃與編劇,拆任務、寫劇本、排節(jié)奏、決定剪輯順序;用MiMo-V2.5-TTS Series提供音色與素材,VoiceDesign生成音色、VoiceClone合成內(nèi)容;MiMo-V2.5扮演裁判,聽反饋的音頻中角色一不一致、節(jié)奏對不對、有沒有跟用戶初衷偏離。

其放出了一條經(jīng)這一套鏈路生成的音頻:

https://oss.zhidx.com/39b5545ddd0d31e4ca8895613acdeb2a/69ea4200/uploads/2026/04/69eb083e59674_69eb083e538e7_69eb083e538a1_Agent%E8%87%AA%E5%B7%B1%E5%81%9A%E9%9F%B3%E9%A2%91.mp3

不過音頻中,有出現(xiàn)主人公邊說邊自己旁白的情況,且爺爺?shù)穆曇籼攸c并沒有在整個說話環(huán)節(jié)都保持一致,中間會突然背離需求的“嗓門啞、拖長音”,語氣突然變快等。

小米MiMo大模型負責人是原DeepSeek核心成員、被業(yè)內(nèi)稱為“天才少女”的羅福莉,今天凌晨,她在社交平臺轉發(fā)了大語言模型智能體端到端透明基準測試框架Claw-Eval、香港應用科技大學博士生Lei Li的帖子,其帖子提到,MiMo V2.5 Pro目前在Claw-Eval排名第3,MiMo V2.5排5,接下來是DeepSeek V4嗎?


雷軍昨日轉發(fā)了小米-V2.5系列發(fā)布微博,并配文“繼續(xù)進步!”


語音模型均可以在MiMo-Studio免費體驗,面向開發(fā)者,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone均在Xiaomi MiMo API開放平臺限時免費提供。

在開源方面,MiMo-V2.5-ASR目前已開源模型權重和代碼,MiMo-V2.5-TTS相關模型的接入Skill全面開源。

MiMo-Studio 快速體驗地址:https://aistudio.xiaomimimo.com/#/c

MiMo-V2.5-ASR開源地址:https://github.com/XiaomiMiMo/MiMo-V2.5-ASR

MiMo-V2.5-TTS模型的接入Skill開源地址:https://github.com/XiaomiMiMo/MiMo-Skills

一、三款語音模型+一款聽覺模型,小米為通用語音智能放大招

MiMo-V2.5-TTS Series包含三款模型,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone。

三款模型的相同之處在于,其擁有統(tǒng)一的風格指令遵循、音頻標簽控制與文本理解能力。

不同之處在于針對的創(chuàng)作需求:

MiMo-V2.5-TTS內(nèi)置多款音色,支持語速、情緒、語氣等精細化控制,開箱即用,能滿足多場景表達;MiMo-V2.5-TTS-VoiceDesign支持一句話快速定義并生成全新音色;MiMo-V2.5-TTS-VoiceClone能通過少量樣本高保真復刻目標音色,同時保持穩(wěn)定的風格指令遵循與音頻標簽控制能力。

MiMo-V2.5-ASR發(fā)布即開源。根據(jù)小米官方信息,該模型在中英雙語、中文方言、Code-Switch、強噪音、多說話人等復雜真實場景下的語音識別性能達到業(yè)界領先水平。


小米官方總結了這一模型的八大特點:

中文方言:支持吳語、粵語、閩南語、四川話等方言;

英文復雜場景:在AMI等復雜英文場景Open ASR Leaderboard上達到領先水平;

Code-Switch:中英Code-Switch語音轉錄自由流暢,無需預設語種標簽;

歌曲識別:中英文歌曲歌詞識別,在伴奏與人聲混合場景下保持高精度;

強噪音場景:在高噪音、遠場拾音等復雜聲學環(huán)境中保持魯棒識別;

多說話人:支持多人交叉對話場景的準確轉錄,如會議場景;

強知識關聯(lián):古詩詞、專業(yè)術語、人名、地名等知識密集型內(nèi)容的精準識別;

原生標點:結合語音韻律與語義原生輸出標點,轉寫結果即拿即用,無需后處理。

其提到,對于智能體應用、內(nèi)容創(chuàng)作工具、會議系統(tǒng)、語音交互產(chǎn)品而言,MiMo-V2.5-ASR已經(jīng)在復雜真實世界語音中經(jīng)過驗證。

二、導演劇本、音頻標簽都能看懂,沒需求只看音頻文本也能傳達情緒

智東西實際體驗了MiMo-V2.5-TTS系列幾款模型的效果。

首先是MiMo-V2.5-TTS,根據(jù)官方信息,該模型從情緒、語氣、語速、發(fā)聲方式到語言風格等多個維度,都能理解并遵循,其還可以支持導演劇本級的結構化輸入:把人物、場景、詳細指導分層描述,各層按自己的節(jié)奏獨立更新、自由組合。

智東西選擇了知性女聲,上傳的指令是“聲音輕柔舒緩,語速很慢,帶著安撫人心的溫度,說話時像在給客人遞一杯熱咖啡,語氣溫柔又有耐心,像開了幾十年書店的老板娘。”

https://oss.zhidx.com/a5306e8f9755591888fa2c00afd53a59/69ea4200/uploads/2026/04/69eaca3a40aab_69eaca3a383b4_69eaca3a3836e_%E8%80%81%E6%9D%BF%E5%A8%98.wav

生成的音頻中,老板娘說話整體語速偏慢、換氣舒緩,沒有急促感,字句之間留白自然,整體符合語言生成的需求。

其次,除了自然語言指令,該模型還支持行內(nèi)音頻標簽,用于在文本特定位置精準控制情緒、狀態(tài)或風格。標簽支持中英雙語和開放文本描述,允許在同一段文本中靈活混用。

智東西上傳了一段茶館說書人的音頻標簽文本,提示詞為

(洪亮,開場)話說那江湖之上,有位少年俠客,仗劍走天涯。

(壓低聲音,神秘)可誰也不知道,他腰間那把劍,藏著一段血海深仇。

(拔高聲調(diào),激昂)今日,他終于要回來了!

https://oss.zhidx.com/cd74afb87029babda1c37e2698debad5/69ea4200/uploads/2026/04/69eac916bcd9c_69eac916b13ce_69eac916b138a_%E8%AF%B4%E4%B9%A6.wav

整體來看,音頻中的三句話都符合前面的音頻標簽特征,但每一句之間的銜接仍有優(yōu)化的空間,會出現(xiàn)聲音突然從高變低,又突然拔高的情況。

最后是文本理解能力,即使用戶沒有上傳具體需求,模型也能根據(jù)文本判斷其中的韻律與情感,在音頻中表現(xiàn)出標點的停頓、句式的起伏等。

官方提示詞為“Ten… nine… eight… seven… six… five… four… three… TWO… ONE… ZERO! LAUNCH! LAUNCH! WE HAVE LIFTOFF! GO GO GO! SHE’S CLIMBING! ALTITUDE 1,000… 5,000… 10,000 FEET AND CLIMBING! BEAUTIFUL! AB-SO-LUTE-LY BEAUTIFUL!”

https://oss.zhidx.com/7200e145ca4c8a5e3dcd73cbf057b3d1/69ea4200/uploads/2026/04/69eb087415165_69eb087411e7a_69eb087411e40_%E5%80%92%E6%95%B0.mp3

如上面這段提示詞,模型感知到文本的節(jié)奏逐漸加快,從倒計時階段的專業(yè)、冷靜到最后情緒爬升與贊嘆時,還原出了人物的情緒變化。

三、無需參考音頻生成全新音色,還支持一句話復刻

另外兩個是音色設計和克隆模型。

音色設計模型MiMo-V2.5-TTS-VoiceDesign無需任何參考音頻,支持用戶通過自然語言描述從零生成一款全新音色。其可以自由使用年齡、性別、口音、音質(zhì)、發(fā)聲方式、性格氣質(zhì)等維度進行描述,模型即可合成對應的角色音色。

智東西上傳的提示詞是“一位20多歲的女性,說南方軟語,聲線慵懶松弛,帶一點點剛睡醒的鼻音,她是深夜電臺主播念稿時尾音輕放,讀聽眾留言時會放柔語氣?!?/p>

https://oss.zhidx.com/f227d7880cbaf01f32aad6d846507b03/69ea4200/uploads/2026/04/69eacc29cbba2_69eacc29bf53b_69eacc29bf501_1337854033_2ced17b706eea30cc90849ab71b278f3838974723809309239.wav

生成的音頻確實聲線慵懶,聽起來是一位年輕女氣,但說話時仍然是普通話,沒有南方軟語的特征。其聲音為了刻意保持慵懶松弛,會在尾音時可以壓低聲音,會減弱松弛感。

此外,小米官方給出了一段示例,其提示次是“一位年邁的老先生,說帶北方口音的普通話,語速緩慢而沉穩(wěn),嗓音略帶沙啞和滄桑感,仿佛一位飽經(jīng)風霜的老爺爺在講故事,充滿歲月的智慧”。

https://oss.zhidx.com/c1310d41bf52d4015d21a4d3eaa5026e/69ea4200/uploads/2026/04/69eb08880113a_69eb0887f1a75_69eb0887f1a2c_getvoice.mp3

音色克隆模型MiMo-V2.5-TTS-VoiceClone,用戶可以讓其復刻一位真人播客、配音演員、品牌代言人,或者用戶本人的聲音。

其只需提供一段數(shù)秒的參考音頻,無需額外的訓練、標注或微調(diào)過程,復刻后的聲音可以保留原始說話人的音色身份,以及氣息、節(jié)奏、習慣性停頓等個人特征。

小米放出的官方案例,用嚴肅、字正腔圓的新聞播報聲線,復刻了《康熙微服私訪記》中的一段經(jīng)典臺詞,極具反差感。

https://oss.zhidx.com/491757d8d821845f15efc628eded3744/69ea4200/uploads/2026/04/69eb08a5eaa5a_69eb08a5e7519_69eb08a5e74df_getvoice-1.mp3

其新音色的提示詞為“用尖銳刻薄的嗓音,帶著狐假虎威的得意感說話,在提到大人物的身份時故意放慢語速并加重語氣,營造壓迫感。”

文本為“你以為我是誰,也敢在這兒跟我耍橫?我告訴你,站在我身后的那個人,說出來嚇死你——是當今的——萬歲爺!你今天要是不給我個說法,我讓你這鋪子明天就開不了門。”

https://oss.zhidx.com/312f7cd291cf015feb9ca2caf4cd39ba/69ea4200/uploads/2026/04/69eb08b31a62a_69eb08b31714f_69eb08b317110_getvoice-2.mp3

音頻中,音色與新聞播報的聲線保持一致,在說“萬歲爺”、“開不了門”等重點內(nèi)容時,還可以拉長聲線、加重語氣。

結語:語音AI四大研發(fā)路線,打造真正通用語音智能

小米公布了其下一步研發(fā)方向:

1、更大規(guī)模的語音預訓練與強化學習后訓練:MiMo-V2.5-TTS-Series 證明了大規(guī)模預訓練與后訓練的巨大收益,擴大這兩者的規(guī)模:通過更多的數(shù)據(jù)、更大的模型、更強的算力,讓更強大的語音智能從規(guī)模中涌現(xiàn);更加精細的獎勵建模與強化學習算法,推動模型邁向更高階的語音表達智能。

2、通用音頻生成:語音只是第一步,他們正在將能力擴展到更廣義的音頻生成:環(huán)境音效、動作聲、氛圍鋪底,乃至短樂句與旋律片段,逐步建模出一個完整的聲音世界。他們認為真正的通用音頻模型,不是把語音、音效、音樂簡單拼在一起,而是讓它們在同一套空間里彼此理解、協(xié)同創(chuàng)作。

3、上下文理解能力:上下文理解意味著模型不再只是一個“逐句執(zhí)行的工具”,而是一個懂得故事語境的表達者。這是其邁向真正通用語音智能的關鍵一步。

4、通用語音理解能力:他們的目標是,讓方言、噪音、中英混雜這些“真實世界的常態(tài)”不再成為語音識別的短板。未來,他們將持續(xù)擴展更多方言覆蓋、并深化上下文感知能力。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國國務院宣布:批準向以色列、阿聯(lián)酋、卡塔爾和科威特的86億美元巨額軍售!且不需國會審查

美國國務院宣布:批準向以色列、阿聯(lián)酋、卡塔爾和科威特的86億美元巨額軍售!且不需國會審查

魯中晨報
2026-05-02 18:03:06
聞泰科技“帶帽”首日一字跌停 封單超41億元

聞泰科技“帶帽”首日一字跌停 封單超41億元

財聞
2026-05-06 11:08:36
1992年,陸定一問秦川:如果黨的一把手腐敗了,那么該由誰來管?

1992年,陸定一問秦川:如果黨的一把手腐敗了,那么該由誰來管?

阿器談史
2026-04-26 14:13:38
新西蘭鄰國HIV爆發(fā)!感染方式太瘋狂,“像野火一樣蔓延,已成國家危機”

新西蘭鄰國HIV爆發(fā)!感染方式太瘋狂,“像野火一樣蔓延,已成國家危機”

發(fā)現(xiàn)新西蘭
2026-05-06 13:20:33
提鞋都不配?國米名宿無情貶低槍手邊后衛(wèi) 認為他跟廷貝爾差太遠

提鞋都不配?國米名宿無情貶低槍手邊后衛(wèi) 認為他跟廷貝爾差太遠

雪狼侃體育
2026-05-06 19:18:33
蔣介石在他的日記里坦言:重慶談判時放走毛澤東,全是因為這2點

蔣介石在他的日記里坦言:重慶談判時放走毛澤東,全是因為這2點

倫倫媽愛歷史
2026-05-02 10:01:48
斯洛伐克擬派F-16戰(zhàn)機參加北約防空任務,從2028年起計劃參與北約輪換式防空任務,并將為此部署兩套來自以色列的Barak MX防空系統(tǒng)

斯洛伐克擬派F-16戰(zhàn)機參加北約防空任務,從2028年起計劃參與北約輪換式防空任務,并將為此部署兩套來自以色列的Barak MX防空系統(tǒng)

魯中晨報
2026-05-06 19:54:03
1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

興趣知識
2026-05-05 17:43:16
牛皮吹得沒邊了,某國產(chǎn)車企要沖擊2000萬輛,這是要碾壓豐田么?

牛皮吹得沒邊了,某國產(chǎn)車企要沖擊2000萬輛,這是要碾壓豐田么?

柏銘銳談
2026-05-04 20:40:53
小鹿好局痛失,淚灑賽場,中韓女團五強對決,韓國3:1獲勝

小鹿好局痛失,淚灑賽場,中韓女團五強對決,韓國3:1獲勝

月滿大江流
2026-05-06 16:58:31
妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

千秋文化
2026-03-25 21:49:57
估值數(shù)億美元,A.O.史密斯中國要賣了

估值數(shù)億美元,A.O.史密斯中國要賣了

融資中國
2026-05-05 09:59:32
以色列死局已定,無人能救!

以色列死局已定,無人能救!

大國觀察眼
2026-04-28 06:05:05
賈斯汀·比伯:一場音樂節(jié)如何讓播放量暴漲18倍

賈斯汀·比伯:一場音樂節(jié)如何讓播放量暴漲18倍

熱搜摘要官
2026-05-05 18:09:18
內(nèi)部人士爆料:東契奇赴西班牙療傷純屬假消息,歐洲之行另有原因

內(nèi)部人士爆料:東契奇赴西班牙療傷純屬假消息,歐洲之行另有原因

夜白侃球
2026-05-06 15:19:02
伊斯蘭革命衛(wèi)隊:如果美國再犯錯誤,就燒毀報廢他們的巨型戰(zhàn)艦!

伊斯蘭革命衛(wèi)隊:如果美國再犯錯誤,就燒毀報廢他們的巨型戰(zhàn)艦!

混沌錄
2026-04-30 00:12:11
“最美港姐”上浪姐一夜爆火!網(wǎng)友:完全是真人版迪士尼在逃公主……

“最美港姐”上浪姐一夜爆火!網(wǎng)友:完全是真人版迪士尼在逃公主……

美芽
2026-05-06 18:30:49
森林狼主帥:文班至少4個蓋帽是干擾球 沒必要申訴那是浪費時間

森林狼主帥:文班至少4個蓋帽是干擾球 沒必要申訴那是浪費時間

羅說NBA
2026-05-06 05:52:40
官宣:杰倫·布朗因公開批評裁判將被處以5萬美元罰款

官宣:杰倫·布朗因公開批評裁判將被處以5萬美元罰款

北青網(wǎng)-北京青年報
2026-05-06 19:59:03
吳宜澤:奧沙利文在決賽關鍵時刻給我發(fā)短信,讓我試著打出自己的風格

吳宜澤:奧沙利文在決賽關鍵時刻給我發(fā)短信,讓我試著打出自己的風格

懂球帝
2026-05-05 21:25:07
2026-05-06 20:35:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11749文章數(shù) 117061關注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應

頭條要聞

中國發(fā)布阻斷禁令后魯比奧聲稱將二次制裁 外交部回應

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

最新GDP!全國30強城市,又變了

汽車要聞

領克10/領克10+ 無論能源形式 領克都要快樂

態(tài)度原創(chuàng)

本地
時尚
房產(chǎn)
藝術
軍事航空

本地新聞

用青花瓷的方式,打開西溪濕地

夏天的白裙,可以像赫本那樣穿

房產(chǎn)要聞

遙遙領先!這個澄邁頂流紅盤,憑什么持續(xù)霸榜

藝術要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

軍事要聞

實施不到48小時 特朗普緊急喊停"霍爾木茲自由計劃"

無障礙瀏覽 進入關懷版