国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Soul App開源播客語(yǔ)音合成模型SoulX-Podcast,支持流暢自然多輪語(yǔ)音對(duì)話

0
分享至

近日,Soul App AI團(tuán)隊(duì)(Soul AI Lab)正式開源播客語(yǔ)音合成模型SoulX-Podcast。該模型是一款專為多人、多輪對(duì)話場(chǎng)景打造的語(yǔ)音生成模型,支持中、英、川、粵等多語(yǔ)種/方言與副語(yǔ)言風(fēng)格,能穩(wěn)定輸出超60分鐘、自然流暢、角色切換準(zhǔn)確、韻律起伏豐富的多輪語(yǔ)音對(duì)話。

除了播客場(chǎng)景以外,SoulX-Podcast在通用語(yǔ)音合成或克隆場(chǎng)景下也表現(xiàn)出色,帶來(lái)更真實(shí)、更生動(dòng)的語(yǔ)音體驗(yàn)。


SoulX-Podcast表現(xiàn)


Demo Page: https://soul-ailab.github.io/soulx-podcast
Technical Report: https://arxiv.org/pdf/2510.23541
Source Code: https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast

SoulX-Podcast亮點(diǎn):流暢自然多輪對(duì)話、多方言、超長(zhǎng)播客生成

零樣本克隆的多輪對(duì)話能力

在零樣本克隆播客生成場(chǎng)景中,SoulX-Podcast 展現(xiàn)出卓越的語(yǔ)音生成能力。它不僅能高度還原參考語(yǔ)音的音色與風(fēng)格,更能根據(jù)對(duì)話語(yǔ)境靈活調(diào)節(jié)韻律與節(jié)奏,讓每一段對(duì)話都自然流暢、富有節(jié)奏感。無(wú)論是多輪長(zhǎng)時(shí)對(duì)話,還是情感層次豐富的交流,SoulX-Podcast 都能保持聲音的連貫與表達(dá)的真實(shí)。此外,SoulX-Podcast 還支持笑聲、清嗓等多種副語(yǔ)言元素的可控生成,讓合成語(yǔ)音更具臨場(chǎng)感與表現(xiàn)力。

多語(yǔ)種和跨方言的克隆能力

除中英文外,SoulX-Podcast 同樣支持四川話、河南話、粵語(yǔ)等多種主流方言。更值得關(guān)注的是,SoulX-Podcast 實(shí)現(xiàn)了跨方言音色克隆——即便僅提供普通話的參考語(yǔ)音,模型也能靈活生成帶有四川話、河南話、粵語(yǔ)等方言特征的自然語(yǔ)音。

超長(zhǎng)播客生成

SoulX-Podcast可以支持超長(zhǎng)播客的生成,并維持穩(wěn)定的音色與風(fēng)格。

聚焦語(yǔ)音,AI重構(gòu)情感紐帶

一直以來(lái),聲音都是傳遞信息和情感的重要媒介,也最能在溝通中賦予“情緒溫度”和“陪伴感”。在Soul,用戶積極通過語(yǔ)音實(shí)時(shí)互動(dòng),表達(dá)自我、分享交流,收獲新關(guān)系,語(yǔ)音成為用戶構(gòu)建鏈接的“情感紐帶”,“語(yǔ)音社交”也成為平臺(tái)頗具代表性的標(biāo)簽之一。

在推進(jìn)AI+社交的過程中,智能對(duì)話、語(yǔ)音生成、情感化表達(dá)等語(yǔ)音能力是Soul重點(diǎn)布局的方向。此前,平臺(tái)端到端全雙工語(yǔ)音通話大模型全面升級(jí),并在站內(nèi)開啟內(nèi)測(cè)。新模型賦予 AI 自主決策對(duì)話節(jié)奏的能力,AI可主動(dòng)打破沉默、適時(shí)打斷用戶、邊聽邊說(shuō)、時(shí)間語(yǔ)義感知、并行發(fā)言討論等,實(shí)現(xiàn)更接近生活日常的交互對(duì)話和“類真人”的情感陪伴體驗(yàn)。

同時(shí),團(tuán)隊(duì)推出了自研的語(yǔ)音生成大模型、語(yǔ)音識(shí)別大模型、語(yǔ)音對(duì)話大模型等語(yǔ)音大模型能力,快速應(yīng)用于“虛擬伴侶”、 群聊派對(duì)(多人語(yǔ)音互動(dòng)場(chǎng)景)等多元場(chǎng)景中。

例如,9月,Soul 的兩位虛擬人——孟知時(shí)與嶼你——在群聊派對(duì)中發(fā)起了一場(chǎng)持續(xù)約40分鐘的對(duì)話,在沒有任何額外投流、僅依靠虛擬人自身自然流量的情況下,這場(chǎng)活動(dòng)迅速引爆社區(qū),房間互動(dòng)熱度刷新平臺(tái)紀(jì)錄,受到了廣大用戶的熱烈歡迎。

這一成功案例讓 Soul 的 AI 技術(shù)與虛擬IP運(yùn)營(yíng)團(tuán)隊(duì)深刻意識(shí)到:“虛擬IP + AI語(yǔ)音對(duì)話” 正在成為虛擬內(nèi)容生態(tài)的重要增長(zhǎng)點(diǎn)。它不僅展現(xiàn)了虛擬人的人格魅力與表達(dá)張力,更揭示了 AI 在內(nèi)容創(chuàng)作與社交互動(dòng)中的全新潛能。

然而,當(dāng)時(shí)業(yè)界能夠穩(wěn)定支持多輪自然對(duì)話的開源播客生成模型相對(duì)較少,并且當(dāng)場(chǎng)景從單人獨(dú)白擴(kuò)展到多人對(duì)話與長(zhǎng)篇播客時(shí),也普遍面臨一些問題。為此,Soul 團(tuán)隊(duì)決定開源 SoulX-Podcast, 希望能攜手 AIGC 社區(qū),共同探索 AI 語(yǔ)音在內(nèi)容創(chuàng)作、社交表達(dá)與虛擬生態(tài)中的更多可能。

開源新階段,探索AI+社交更多可能

相比傳統(tǒng)的單說(shuō)話人語(yǔ)音合成系統(tǒng),播客語(yǔ)音合成系統(tǒng)不僅需要保持文本與語(yǔ)音的精準(zhǔn)一致,還要具備更強(qiáng)的上下文理解能力,以實(shí)現(xiàn)多輪對(duì)話間語(yǔ)音銜接的自然流暢與節(jié)奏的動(dòng)態(tài)變化。此外,面對(duì)多角色交互和超長(zhǎng)對(duì)話場(chǎng)景,系統(tǒng)還需在音色一致性、風(fēng)格延續(xù)性以及角色切換的準(zhǔn)確性上實(shí)現(xiàn)更高水平的控制與建模。

近來(lái),已有部分開源研究開始探索播客或?qū)υ拡?chǎng)景下的多說(shuō)話人、多輪次語(yǔ)音合成能力。然而,這些工作仍主要聚焦于普通話或英語(yǔ),對(duì)中文受眾廣泛的方言(如粵語(yǔ)、四川話、河南話等)支持不足。此外,在多輪語(yǔ)音對(duì)話場(chǎng)景中,恰當(dāng)?shù)母闭Z(yǔ)言表達(dá)——如嘆息、呼吸、笑聲——對(duì)提升對(duì)話的生動(dòng)性與自然度至關(guān)重要,但現(xiàn)有模型對(duì)此普遍關(guān)注不足。

而SoulX-Podcast正是希望解決這些痛點(diǎn):不僅支持多輪、多角色的長(zhǎng)對(duì)話生成,同時(shí)兼顧方言覆蓋和副語(yǔ)言表達(dá)能力,使播客語(yǔ)音更貼近真實(shí)交流場(chǎng)景、富有表現(xiàn)力與生動(dòng)感,從而提升聽眾的沉浸體驗(yàn)和內(nèi)容傳播力。

整體SoulX-Podcast模型基礎(chǔ)結(jié)構(gòu)上采用了常用的LLM + Flow Matching的語(yǔ)音生成范式,前者建模語(yǔ)義token,后者進(jìn)一步建模聲學(xué)特征。在基于LLM的語(yǔ)義token建模方面,SoulX-Podcast 以 Qwen3-1.7B 作為基座模型,并基于原始文本模型參數(shù)進(jìn)行初始化,以充分繼承其語(yǔ)言理解能力。

盡管SoulX-Podcast是專為多人、多輪對(duì)話場(chǎng)景設(shè)計(jì)的系統(tǒng),但在傳統(tǒng)的單人語(yǔ)音合成與零樣本語(yǔ)音克隆任務(wù)中同樣表現(xiàn)優(yōu)異。在播客生成任務(wù)中,相較于近期相關(guān)工作,SoulX-Podcast 在語(yǔ)音可懂度與音色相似度方面均取得了最佳結(jié)果。


SoulX-Podcast在播客場(chǎng)景下的表現(xiàn)



SoulX-Podcast在通用TTS上的表現(xiàn),*官方模型的復(fù)現(xiàn)結(jié)果


此次 SoulX-Podcast 的開源,是 Soul 在開源社區(qū)領(lǐng)域的一次全新嘗試,也是一個(gè)新的起點(diǎn)。 Soul團(tuán)隊(duì)表示,未來(lái)將持續(xù)聚焦語(yǔ)音對(duì)話合成、全雙工語(yǔ)音通話、擬人化表達(dá)、視覺交互等核心交互能力的提升,并加速技術(shù)在多樣化應(yīng)用場(chǎng)景與整體生態(tài)中的融合落地,為用戶帶來(lái)更加沉浸、智能且富有溫度的交互體驗(yàn),持續(xù)提升個(gè)體的幸福感與歸屬感。同時(shí),團(tuán)隊(duì)將進(jìn)一步深化開源生態(tài)建設(shè),與全球開發(fā)者攜手,共同拓展 AI 語(yǔ)音等前沿能力的邊界,探索 “AI +社交” 的更多可能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
轟21+7+7,老詹預(yù)定一項(xiàng)歷史第一!湖人22戰(zhàn)17勝2年1100萬(wàn)撿到寶

轟21+7+7,老詹預(yù)定一項(xiàng)歷史第一!湖人22戰(zhàn)17勝2年1100萬(wàn)撿到寶

鍋?zhàn)踊@球
2026-03-04 15:15:07
紅色資本家榮毅仁89歲在北京逝世,留下的5個(gè)子女,今現(xiàn)狀如何?

紅色資本家榮毅仁89歲在北京逝世,留下的5個(gè)子女,今現(xiàn)狀如何?

南書房
2026-02-05 19:25:03
內(nèi)蒙古草兔為何泛濫成災(zāi)?就連吃貨都無(wú)能為力,牧民直言:不敢碰

內(nèi)蒙古草兔為何泛濫成災(zāi)?就連吃貨都無(wú)能為力,牧民直言:不敢碰

一曲一場(chǎng)談
2026-02-25 03:42:27
一只蒼蠅困死整個(gè)大陸?無(wú)法種地不能養(yǎng)馬,這才是非洲的窮根!

一只蒼蠅困死整個(gè)大陸?無(wú)法種地不能養(yǎng)馬,這才是非洲的窮根!

你是我心中最美星空
2026-02-27 07:53:59
從概念走向現(xiàn)實(shí),中國(guó)量子手機(jī)將進(jìn)入尋常百姓家

從概念走向現(xiàn)實(shí),中國(guó)量子手機(jī)將進(jìn)入尋常百姓家

經(jīng)濟(jì)觀察報(bào)
2026-03-03 17:17:06
女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開放了

女生主動(dòng)起來(lái)有多黏人?網(wǎng)友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
2026年,第一個(gè)“撐不住”的車企出現(xiàn)了,巨虧1780億!

2026年,第一個(gè)“撐不住”的車企出現(xiàn)了,巨虧1780億!

i王石頭
2026-03-04 15:21:36
年薪60萬(wàn)!一企業(yè)招聘985應(yīng)屆生,入職滿12個(gè)月發(fā)放,每月發(fā)5000

年薪60萬(wàn)!一企業(yè)招聘985應(yīng)屆生,入職滿12個(gè)月發(fā)放,每月發(fā)5000

火山詩(shī)話
2026-03-04 11:48:25
誰(shuí)斬殺了程序員高廣輝?

誰(shuí)斬殺了程序員高廣輝?

灑家君澤
2026-01-26 13:57:01
李雨桐再錘薛之謙!指控他濫殺無(wú)辜,恐怕要坐牢,張杰無(wú)辜受牽連

李雨桐再錘薛之謙!指控他濫殺無(wú)辜,恐怕要坐牢,張杰無(wú)辜受牽連

離離言幾許
2026-03-03 11:09:30
沉默整整9天,毛寧一錘定音,中美戰(zhàn)機(jī)已交手,美方要見中國(guó)代表

沉默整整9天,毛寧一錘定音,中美戰(zhàn)機(jī)已交手,美方要見中國(guó)代表

古事尋蹤記
2026-03-01 07:04:32
美國(guó)精英想不通:為什么每次要打壓中國(guó)時(shí),總有意外發(fā)生?

美國(guó)精英想不通:為什么每次要打壓中國(guó)時(shí),總有意外發(fā)生?

聚焦真實(shí)瞬間
2026-01-26 10:19:09
《鵝鴨殺》霸榜兩個(gè)月的奇跡背后,是游戲發(fā)行的一次革命。

《鵝鴨殺》霸榜兩個(gè)月的奇跡背后,是游戲發(fā)行的一次革命。

差評(píng)XPIN
2026-03-05 00:08:59
越南副主席黃文歡,因不滿反華被判死刑,投奔中國(guó)后,結(jié)局如何?

越南副主席黃文歡,因不滿反華被判死刑,投奔中國(guó)后,結(jié)局如何?

近史談
2026-02-15 07:41:48
明日驚蟄,不論多忙,記得:1要打,2要吃,忌3事,平安過春天

明日驚蟄,不論多忙,記得:1要打,2要吃,忌3事,平安過春天

阿龍美食記
2026-03-04 13:41:25
美媒:衛(wèi)星圖像等顯示,伊朗襲擊對(duì)至少7座美軍基地通信雷達(dá)系統(tǒng)造成破壞

美媒:衛(wèi)星圖像等顯示,伊朗襲擊對(duì)至少7座美軍基地通信雷達(dá)系統(tǒng)造成破壞

環(huán)球網(wǎng)資訊
2026-03-04 20:22:43
揭秘IF椰子水關(guān)聯(lián)公司

揭秘IF椰子水關(guān)聯(lián)公司

雷達(dá)財(cái)經(jīng)
2026-03-04 19:24:13
單場(chǎng)15+10+6+2,近25年僅7人做到,這便是火箭拒絕引進(jìn)瓊斯的原因

單場(chǎng)15+10+6+2,近25年僅7人做到,這便是火箭拒絕引進(jìn)瓊斯的原因

移動(dòng)擋拆
2026-03-05 06:26:09
伊朗遇襲身亡高層官員分布一覽

伊朗遇襲身亡高層官員分布一覽

網(wǎng)易新聞出品
2026-03-03 11:58:56
以媒:庫(kù)爾德武裝開始在伊朗境內(nèi)開展地面活動(dòng)

以媒:庫(kù)爾德武裝開始在伊朗境內(nèi)開展地面活動(dòng)

界面新聞
2026-03-05 07:20:13
2026-03-05 09:51:00
財(cái)經(jīng)新媒體 incentive-icons
財(cái)經(jīng)新媒體
源于《財(cái)經(jīng)》,廣于財(cái)經(jīng)。
4741文章數(shù) 34187關(guān)注度
往期回顧 全部

科技要聞

4599元起!MacBook Neo發(fā)布:搭載A18 Pro

頭條要聞

速覽"十四五"時(shí)期經(jīng)濟(jì)社會(huì)發(fā)展成就:GDP年均增長(zhǎng)5.4%

頭條要聞

速覽"十四五"時(shí)期經(jīng)濟(jì)社會(huì)發(fā)展成就:GDP年均增長(zhǎng)5.4%

體育要聞

2026年中超,為什么值得你多看一眼?

娛樂要聞

謝謝謝娜 貢獻(xiàn)出26年內(nèi)娛的第一個(gè)笑話

財(cái)經(jīng)要聞

李強(qiáng)正在作政府工作報(bào)告

汽車要聞

鴻蒙智行首款獵裝車 尚界Z7/Z7T首發(fā)

態(tài)度原創(chuàng)

教育
時(shí)尚
旅游
健康
軍事航空

教育要聞

新學(xué)期,湖工大這么干!

打底衫,條紋的最適合春天!

旅游要聞

廈門以數(shù)智科技和潮流元素提升節(jié)日氛圍

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

軍事要聞

伊朗首次使用"哈迪德110"高速無(wú)人機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版