国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MiniMax讓AI語音有了新基建

0
分享至

撰文| 郝 鑫

編輯| 吳先之

熟悉MiniMax的人都了解這家公司的調(diào)性——不鳴則已,一鳴驚人。

要么選擇低調(diào),要么發(fā)動(dòng)技術(shù)連招,其發(fā)展路徑呈現(xiàn)出鮮明的“技術(shù)深潛”與“節(jié)點(diǎn)式爆發(fā)“的雙重特征。

十月的最后一周,再次進(jìn)入MiniMax式技術(shù)迭代新周期。MiniMax模型“全家桶”全面向Agent方向進(jìn)化,基礎(chǔ)文本模型M1升級(jí)至M2,“專為Agent和代碼而生”;視頻模型升級(jí)至Hailuo 2.3,Hailuo Video Agent迭代為“全模態(tài)全能創(chuàng)作”的Media Agent;新的語音模型Speech 2.6,重新定義下一代Voice Agent的語音模型。


MiniMax創(chuàng)始人閆俊杰在開篇引用了《老子》里的一個(gè)詞“大巧若拙”,大意是技術(shù)最高境界的“巧”,要回歸本質(zhì),解決實(shí)際問題,這幾乎奠定了本次升級(jí)的基調(diào)。

語音模型升級(jí)亦是如此,Speech 2.6并非只是單純刷模型指標(biāo),而是一次綜合性的更新。一方面是模型能力提升,涉及新增利用Lora提升流利度、特殊格式讀取等功能。另一方面是對(duì)端到端API的工程優(yōu)化,比如低延時(shí)、首包優(yōu)化等。

也是一次從技術(shù)落地到場(chǎng)景的再深化,其核心目標(biāo)是給做智能語音助手、客服系統(tǒng)、多輪對(duì)話產(chǎn)品等B端廠商和開發(fā)者,提供一個(gè)“開箱即用”的引擎。

從誕生起,MiniMax便確定了多模態(tài)全棧自研的戰(zhàn)略,表現(xiàn)為多線并進(jìn)、交叉突破。放眼望去,Speech 2.6 Agent化的背后是更廣闊的Voice Agent賽道。

有研究報(bào)告估測(cè),2030年Voice Agent市場(chǎng)規(guī)模保守估計(jì),可達(dá)百億美元級(jí)別,若技術(shù)發(fā)展超預(yù)期,可能進(jìn)一步上漲。

更快、更懂行、更完美

為什么要專門針對(duì)Voice Agent來優(yōu)化?

Voice Agent可以理解為“語音交互代理人”,它是連接用戶語音指令與后端服務(wù)的核心橋梁。與傳統(tǒng)語音指令識(shí)別不同,不只是簡(jiǎn)單將語音轉(zhuǎn)成文字,而是具備完整的交互能力。

小到智能音箱日常問答,大到企業(yè)客服系統(tǒng)的智能應(yīng)答,幾乎所有需要“用說話代替打字”的場(chǎng)景,都依賴Voice Agent來承接需求、理解意圖并給出反饋。可以說,Voice Agent是當(dāng)前覆蓋范圍最廣、用戶需求最迫切的語音交互形態(tài),對(duì)其優(yōu)化就是直接提升所有語音場(chǎng)景的效率和體驗(yàn)。

如果把Voice Agent 比作行駛的汽車,那么語音模型就是發(fā)動(dòng)機(jī)。語音模型的性能直接決定了Voice Agent的場(chǎng)景化效果,Voice Agent的背后必須擁有一個(gè)強(qiáng)大的語音模型底座。

Speech 2.6正是延續(xù)了上述思路,在繼續(xù)提高語音模型性能的基礎(chǔ)上,全面升級(jí)突破Voice Agent場(chǎng)景,實(shí)現(xiàn)超低延時(shí),專業(yè)格式無障礙和更高自然度。

用戶對(duì)語音的敏感度遠(yuǎn)高于文字,快一毫秒或遲一毫秒,效果相去甚遠(yuǎn)。在日常語音交互中最煩人的就是“卡殼”,Speech 2.6這回把“首包響應(yīng)時(shí)間”壓到了250毫秒,體感相當(dāng)于眨一下眼三分之一的時(shí)間。據(jù)我們了解,雖然國(guó)外部分頂流模型宣稱可達(dá)到75毫秒,但實(shí)際場(chǎng)景測(cè)試過程中平均保持在200-300毫秒。MiniMax的250毫秒響應(yīng)速度,已經(jīng)達(dá)到了語音賽道絕對(duì)頭部的水平。

用戶最直觀的感受就是幾乎感覺不到卡頓,像真人聊天一樣流暢。像這個(gè)案例就是最常見的客服咨詢場(chǎng)景,在音色上已經(jīng)分辨不出人和AI的區(qū)別,AI能精準(zhǔn)、連續(xù)識(shí)別用戶的意圖,比如“你是不是助理”“有什么新功能”“有沒有優(yōu)惠”等。在無縫銜接作出回答的同時(shí),完成了反問和留資,具備了人類對(duì)話中的精髓——“有來有往”。

第二個(gè)升級(jí)的點(diǎn)是,模型變得“更聰明”和“更懂行”。以前用語音模型,遇到電話、郵箱、網(wǎng)址、數(shù)學(xué)公式這類專業(yè)內(nèi)容,得手動(dòng)改寫輸入,比如要讀出“guang-zi@tech.com”必須要寫成“guang dash zi at tech dot com”,否則AI可能會(huì)讀錯(cuò)。時(shí)間識(shí)別也是同樣問題,要正確讀出“2025-10-29”,就得嚴(yán)格輸入“二零二五年十月二十九日”。而升級(jí)后的Speech 2.6無需人工教學(xué),直接就能解碼讀出來。

別看這個(gè)點(diǎn)細(xì)微,但卻有大用處。試想一下所有涉及語音交互的場(chǎng)景,最重要的就是獲取信息和建聯(lián),如果在關(guān)鍵環(huán)節(jié)出錯(cuò),那之前所有都淪為了無效溝通。對(duì)開發(fā)者來說省事又高效,尤其是智能客服、日程管理、教育類語音代理團(tuán)隊(duì),不用再花精力調(diào)prompt或改文本,相關(guān)的技術(shù)棧都能簡(jiǎn)化,

還有一個(gè)亮點(diǎn)功能是“化腐朽為神奇”,做音色克隆時(shí),最怕用戶提供的錄音素材不完美,比如說話結(jié)巴、帶口音、非母語不流利等。Speech 2.6新增的“Fluent Lora”功能,哪怕素材是“磕磕巴巴”的,也能復(fù)刻出流暢自然的聲音。

舉個(gè)例子,你想復(fù)刻一位外國(guó)友人的中文語音,但他中文說得慢且有口音,以前生成的AI語音可能也跟著結(jié)巴。現(xiàn)在Speech 2.6直接用他的原始錄音,但生成的語音依然流暢自然。這對(duì)需要大量用戶自定義音色的場(chǎng)景,例如有聲書、個(gè)性化語音助手非常實(shí)用。

Voice Agent,把行業(yè)重做一遍

回顧MiniMax Speech系列模型的自我演進(jìn)歷程,某種意義上也是國(guó)內(nèi)AI語音技術(shù),從模仿擬人逐漸走向交互智能的縮影。

今年5月份,MiniMax發(fā)布語音模型MiniMax Speech 02,創(chuàng)新的“Zero-Shot”能力,通過一個(gè)模型,提供任意“語言×任意口音×任意音色”的無限組合,豐富了語音生成的多樣性。

彼時(shí),Speech 02一經(jīng)推出,就登頂“Artificial Analysis Speech Arena”和“Hugging Face TTS Arena”兩大權(quán)威榜單,力壓ElevenLabs、OpenAI等國(guó)際頂尖競(jìng)爭(zhēng)對(duì)手。

8月份,MiniMax Speech 2.5上線,進(jìn)一步把各項(xiàng)技能點(diǎn)滿,實(shí)現(xiàn)三大新突破:多語種表現(xiàn)力更強(qiáng)、音色復(fù)刻更像、40個(gè)語種覆蓋更廣。多語種能力直接瞄準(zhǔn)國(guó)際市場(chǎng),為MiniMax出海奠定了基礎(chǔ)。

最后來到剛更新的Speech 2.6,揭開Voice Agent新篇章,開始針對(duì)實(shí)用場(chǎng)景進(jìn)行綜合提升,反映其背后商業(yè)化的清晰戰(zhàn)略。大模型與語音技術(shù)深度融合,正在推動(dòng)AI語音從工具屬性向與場(chǎng)景綁定的智能體演進(jìn),從前一階段的能聽懂升級(jí)為會(huì)思考、善溝通。


在商業(yè)世界,入口是一個(gè)極具吸引力的詞語。大模型之戰(zhàn)開啟之后,語音交互再次被認(rèn)為是具有增長(zhǎng)前景長(zhǎng)的新入口。落地到許多人力密集的傳統(tǒng)行業(yè),很多都可以用Voice Agent來重新做一遍。這里面有兩條邏輯貫穿始終,一是“成本歸零”,二是“服務(wù)擴(kuò)展性”。

To B場(chǎng)景中,Voice Agent可以替代大量重復(fù)性的人工溝通工作,如客服、外呼銷售、員工培訓(xùn)等。理論上,若AI成本可以持續(xù)下降,上述行業(yè)的人工成本也可以無限趨近于零,這將是一次重要的降本增效革命。一旦成本結(jié)構(gòu)轉(zhuǎn)變,商業(yè)模式將迎來重構(gòu),身處于這些行業(yè)的企業(yè)有機(jī)會(huì)追求更高的價(jià)值,從以成本為中心向以利潤(rùn)為中心轉(zhuǎn)型。

價(jià)值鏈的重塑體現(xiàn)在企業(yè)級(jí)服務(wù),Voice Agent的價(jià)值在于它能直接切入業(yè)務(wù)核心。一個(gè)可靠的Voice Agent可以直接嵌入這些工作流,成為用戶與SaaS系統(tǒng)交互的首要觸點(diǎn)。協(xié)同內(nèi)外部系統(tǒng),Voice Agent可以將整個(gè)業(yè)務(wù)流程打穿,推動(dòng)全鏈路效率革命。例如,在汽車試駕場(chǎng)景,用戶說“想試駕新款SUV”,Agent立即匹配庫存數(shù)據(jù),若車型有現(xiàn)車則直接推薦最近門店,否則自動(dòng)調(diào)整推薦其他車型或時(shí)間,整個(gè)過程無需人工介入。

生態(tài)和商業(yè)化

回到現(xiàn)實(shí),Voice Agent市場(chǎng)發(fā)展仍在早期,還處于從技術(shù)驗(yàn)證期向企業(yè)級(jí)落地的轉(zhuǎn)型階段。盡管行業(yè)已經(jīng)有了基建層向應(yīng)用層過渡的趨勢(shì),但整體呈現(xiàn)出“倒金字塔式”競(jìng)爭(zhēng)格局,上層垂直行業(yè)應(yīng)用層企業(yè)眾多,既有傳統(tǒng)又有新玩家,最底層能夠穩(wěn)定向上輸出技術(shù)能力的基建企業(yè)數(shù)量較少。

毫無疑問,MiniMax就是其中典型的“基建狂魔”。其Speech系列語音模型,不綁定特定行業(yè)場(chǎng)景,而是通過底層技術(shù)和工程優(yōu)化,為B端廠商和開發(fā)者提供可復(fù)用的技術(shù)模塊。通過開源模型和API服務(wù),將音色模仿、語音生成等能力封裝為標(biāo)準(zhǔn)化的工具,以降低企業(yè)接入門檻。技術(shù)能力向上下游延伸,與文本、視頻、音樂等多模態(tài)能力形成協(xié)同效應(yīng)。

語音領(lǐng)域始終是MiniMax的技術(shù)主場(chǎng),早在行業(yè)初期就達(dá)成了多個(gè)“國(guó)內(nèi)首個(gè)”成就。國(guó)內(nèi)首個(gè)使用大模型語音技術(shù)開放多角色配音商用接口,首個(gè)開設(shè)語音模型海外API服務(wù),以及首個(gè)與聲網(wǎng)、騰訊和即構(gòu)科技聯(lián)合研發(fā)Realtime API實(shí)時(shí)交互服務(wù)方案。這導(dǎo)致一段時(shí)間內(nèi),客戶對(duì)其語音模型的認(rèn)可度一度超越了文本大模型。

得益于此,MiniMax目前進(jìn)入了海內(nèi)外客戶語音模型選型的核心廠商名單,包括一些大廠。市場(chǎng)反饋尤為直觀,很多人向我們反映,在同期產(chǎn)品中,MiniMax語音模型更具性價(jià)比。不少客戶對(duì)MiniMax的小語種功能印象深刻,特別是粵語的表達(dá),“標(biāo)準(zhǔn)到接近電視臺(tái)播報(bào)水平”。

海外客戶主要為開發(fā)者平臺(tái)和AI語音代理基礎(chǔ)設(shè)施提供商,以技術(shù)驅(qū)動(dòng)和生態(tài)集成為導(dǎo)向,這些客戶大多追求快速集成、高自定義性和全球部署能力。其中,MiniMax語音模型的超低延遲、情感語言控制和多語言優(yōu)化等功能,成為被采納的主要參考。目前海外最流行的兩家Voice Agent開源平臺(tái),Livekit與Pipecat已接入MiniMax Speech TTS Model,展現(xiàn)了MiniMax在高性能語音代理生態(tài)中的適配性。

國(guó)內(nèi)客戶覆蓋領(lǐng)域則更廣闊,包括教育硬件、智能玩具等C端消費(fèi)級(jí)產(chǎn)品,銷售、搜索等B端行業(yè)解決方案以及通過開發(fā)者平臺(tái)賦能技術(shù)型客戶,以高自然度的語音技術(shù),滿足不同場(chǎng)景下更人性化、更高效的交互需求。

教育類客戶中,愛小伴AI奶龍作為IP衍生玩具,利用MiniMax還原角色聲線,支持故事講述和情感互動(dòng),體現(xiàn)“寓教于陪”的定位;聽力熊學(xué)習(xí)機(jī)基于自研TeeniGPT大模型,集成MiniMax語音能力進(jìn)行自然對(duì)話,增強(qiáng)學(xué)生學(xué)習(xí)的互動(dòng)體驗(yàn)。

面向C端的智能助手與硬件,MiniMax利用語音技術(shù)幫助企業(yè)提升用戶體驗(yàn),增強(qiáng)用戶粘性,其客戶涉及了榮耀、魅族、小米等硬件廠商。在B端銷售領(lǐng)域,MiniMax與“Megaview AI助手”達(dá)成合作,語音生成與情感識(shí)別能力其提供底層支持,提高業(yè)務(wù)效率。

不難看出,除了技術(shù)升級(jí)外,MiniMax的語音模型已經(jīng)進(jìn)入了商業(yè)驗(yàn)證期。對(duì)比同行,MiniMax在B端業(yè)務(wù)的風(fēng)格呈現(xiàn)出輕交付、重質(zhì)量特點(diǎn)。通過標(biāo)準(zhǔn)化、模塊化的API輸出技術(shù)能力,降低合作伙伴的集成成本,優(yōu)點(diǎn)是周期短和風(fēng)險(xiǎn)小,靠用戶的正向反饋將帶來后期穩(wěn)定增長(zhǎng)。這種模式使其能夠快速擴(kuò)大覆蓋業(yè)務(wù)范圍,但又能保持技術(shù)研發(fā)的聚焦性,這點(diǎn)對(duì)一家資源有限的創(chuàng)業(yè)公司極其重要。

短期內(nèi),Voice Agent市場(chǎng)還卡在技術(shù)環(huán)節(jié)。這意味著具備核心技術(shù)標(biāo)準(zhǔn)制定能力的企業(yè)將主導(dǎo)底層生態(tài),而率先完成行業(yè)場(chǎng)景深度適配的解決方案商將贏得上層市場(chǎng)。

未來,語音交互可能成為企業(yè)數(shù)字化轉(zhuǎn)型的標(biāo)配接口,但真正的贏家將是那些能同時(shí)駕馭技術(shù)深度與場(chǎng)景廣度的生態(tài)構(gòu)建者。

微信號(hào)|TMTweb

公眾號(hào)|光子星球

別忘了掃碼關(guān)注我們!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
香港餐廳收內(nèi)地客“天價(jià)”小費(fèi)?港人怒批:香港結(jié)業(yè)潮是有原因的

香港餐廳收內(nèi)地客“天價(jià)”小費(fèi)?港人怒批:香港結(jié)業(yè)潮是有原因的

朝子亥
2026-01-06 11:35:03
詹姆斯30+8+8創(chuàng)兩大歷史第1神跡!東契奇30+10,墨菲42分創(chuàng)紀(jì)錄

詹姆斯30+8+8創(chuàng)兩大歷史第1神跡!東契奇30+10,墨菲42分創(chuàng)紀(jì)錄

一將籃球
2026-01-07 12:16:03
湖人更新背靠背客戰(zhàn)馬刺傷情報(bào)告:詹姆斯出戰(zhàn)成疑

湖人更新背靠背客戰(zhàn)馬刺傷情報(bào)告:詹姆斯出戰(zhàn)成疑

懂球帝
2026-01-08 03:19:07
外媒:丹麥?zhǔn)紫嗑娣Q,美國(guó)若吞并格陵蘭島將意味著北約終結(jié)

外媒:丹麥?zhǔn)紫嗑娣Q,美國(guó)若吞并格陵蘭島將意味著北約終結(jié)

環(huán)球網(wǎng)資訊
2026-01-06 11:57:15
美專家:中國(guó)人不可怕,可怕的是他們買光刻機(jī)卻不是用來生產(chǎn)芯片

美專家:中國(guó)人不可怕,可怕的是他們買光刻機(jī)卻不是用來生產(chǎn)芯片

隨夢(mèng)而飛起
2026-01-08 04:25:52
天然氣對(duì)華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰教他走的?

天然氣對(duì)華毀約,加入歐美稀土戰(zhàn)略,哈薩克斯坦這路誰教他走的?

策略述
2025-12-27 17:20:34
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

漢史趣聞
2025-11-08 09:27:32
在交易傳聞甚囂塵上之際,太陽隊(duì)老板向狄龍·布魯克斯做出承諾

在交易傳聞甚囂塵上之際,太陽隊(duì)老板向狄龍·布魯克斯做出承諾

好火子
2026-01-08 05:54:51
幾乎全是假貨!利潤(rùn)高達(dá)2400%,咋消費(fèi)者還前赴后繼爭(zhēng)相購(gòu)買?

幾乎全是假貨!利潤(rùn)高達(dá)2400%,咋消費(fèi)者還前赴后繼爭(zhēng)相購(gòu)買?

奇思妙想草葉君
2026-01-05 23:13:15
票房破14億,只是開始,謝霆鋒、周星馳、張頌文要掀起一波新高潮

票房破14億,只是開始,謝霆鋒、周星馳、張頌文要掀起一波新高潮

胡一舸南游y
2026-01-07 19:22:53
美媒:越南無法取代中國(guó)成為世界工廠

美媒:越南無法取代中國(guó)成為世界工廠

參考消息
2026-01-07 14:07:10
美軍大批軍機(jī)飛歐洲!調(diào)動(dòng)模式與去年“空襲伊朗”驚人相似,抓一艘逃亡17天油輪?

美軍大批軍機(jī)飛歐洲!調(diào)動(dòng)模式與去年“空襲伊朗”驚人相似,抓一艘逃亡17天油輪?

紅星新聞
2026-01-06 19:14:23
就在剛剛,23家A股上市公司發(fā)布重大利空消息,看看都有哪些?

就在剛剛,23家A股上市公司發(fā)布重大利空消息,看看都有哪些?

股市皆大事
2026-01-08 08:05:36
瘋了?利物浦 8700 萬砸曼聯(lián)舊將!薩拉赫接班人竟是這爭(zhēng)議王

瘋了?利物浦 8700 萬砸曼聯(lián)舊將!薩拉赫接班人竟是這爭(zhēng)議王

瀾歸序
2026-01-08 06:53:53
各地都在取消期末統(tǒng)考,我在想:當(dāng)教育變成“開盲盒”,我們?cè)撊绾瓮粐?>
    </a>
        <h3>
      <a href=萌芽研究所BUD
2026-01-07 22:48:46
曾揚(yáng)言讓中國(guó)給全世界道歉,慘遭央視開除的阿丘,如今過得怎么樣

曾揚(yáng)言讓中國(guó)給全世界道歉,慘遭央視開除的阿丘,如今過得怎么樣

廚房里的神
2026-01-07 08:27:10
2026寒假教育大變局!補(bǔ)課按下暫停鍵,孩子的假期終于回歸本質(zhì)!

2026寒假教育大變局!補(bǔ)課按下暫停鍵,孩子的假期終于回歸本質(zhì)!

復(fù)轉(zhuǎn)這些年
2026-01-07 23:51:15
叛徒確定,取代馬杜羅后還能拿5000萬?數(shù)月前就已通過美國(guó)面試

叛徒確定,取代馬杜羅后還能拿5000萬?數(shù)月前就已通過美國(guó)面試

墜入二次元的海洋
2026-01-08 05:47:20
美媒:中國(guó)洲際隱身轟炸機(jī)高清照首次亮相。遠(yuǎn)超B21

美媒:中國(guó)洲際隱身轟炸機(jī)高清照首次亮相。遠(yuǎn)超B21

世家寶
2026-01-07 11:59:10
變壓器海外賣瘋了?相關(guān)上市公司:需求旺盛但未“供不應(yīng)求”

變壓器海外賣瘋了?相關(guān)上市公司:需求旺盛但未“供不應(yīng)求”

財(cái)聯(lián)社
2026-01-07 20:15:29
2026-01-08 09:00:49
光子星球 incentive-icons
光子星球
細(xì)微之處,看見未來!
1351文章數(shù) 2136關(guān)注度
往期回顧 全部

科技要聞

雷軍:現(xiàn)在聽到營(yíng)銷這兩個(gè)字都有點(diǎn)惡心

頭條要聞

牛彈琴:美國(guó)又干了件石破天驚的事 俄羅斯遭沉重打擊

頭條要聞

牛彈琴:美國(guó)又干了件石破天驚的事 俄羅斯遭沉重打擊

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭(zhēng)英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

藝術(shù)
親子
手機(jī)
時(shí)尚
公開課

藝術(shù)要聞

書法巨匠的七重門:人品與創(chuàng)新的深度探討

親子要聞

車?yán)遄映蕴?,孩子差點(diǎn)就沒命!

手機(jī)要聞

消息稱聯(lián)想旗下摩托羅拉首款大折疊Razr Fold起售價(jià)1500美元

藍(lán)色+灰色、紅色+棕色,這4組配色怎么搭都好看!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版