国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

YingMusic-Singer突破“改詞擠字”難題,強(qiáng)化學(xué)習(xí)落地SVS

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

歌聲合成(SVS)指的是給定歌詞和旋律,系統(tǒng)自動“唱”出一段完整的歌聲。歌聲合成在音樂制作與互動娛樂中極具潛力,但要實(shí)現(xiàn)真正的“任意歌詞配任意旋律”,仍然有很多工作需要做:

  • 依賴高成本強(qiáng)對齊數(shù)據(jù):傳統(tǒng) SVS 系統(tǒng)普遍依賴精確的音素級時長對齊和人工標(biāo)注的 MIDI 信息,這不僅制作成本極高,限制了數(shù)據(jù)規(guī)模,也導(dǎo)致模型難以泛化。

  • 歌詞-旋律不匹配難題:現(xiàn)有模型通常只能在“固定歌詞對應(yīng)固定旋律”的場景下工作。當(dāng)用戶嘗試更改歌詞(尤其是字?jǐn)?shù)改變)時,由于音素?cái)?shù)量與原始旋律節(jié)拍不匹配,模型容易出現(xiàn)發(fā)音生硬、節(jié)奏錯位或“擠字”現(xiàn)象 。

  • 缺乏 Zero-shot 能力:大多數(shù)系統(tǒng)難以在未見過的音色或復(fù)雜的韻律結(jié)構(gòu)下保持穩(wěn)定,生成效果往往伴隨音質(zhì)退化,且推理時仍需依賴外部 MIDI 輸入 。

針對上述痛點(diǎn),巨人網(wǎng)絡(luò) AI Lab、西工大 ASLP-lab聯(lián)合推出了 YingMusic-Singer,這是一套無需精確旋律標(biāo)注、支持任意歌詞與旋律自由組合的 SVS 模型 ?,F(xiàn)已上線始智AI-wisemodel開源社區(qū),同時支持部署在線體驗(yàn)和API,歡迎使用。


模型地址

https://wisemodel.cn/models/Giant_AILab/YingMusic-Singer

01.

結(jié)構(gòu)化旋律引導(dǎo)與GRPO強(qiáng)化學(xué)習(xí)


圖1:YingMusic-Singer 模型整體架構(gòu)圖

1、基于DiT的無需標(biāo)注的旋律引導(dǎo)

為了擺脫對人工強(qiáng)標(biāo)注的依賴,同時確保歌詞發(fā)音的可理解性,團(tuán)隊(duì)在原有 DiT 生成框架上引入了無需標(biāo)注的旋律建模模塊,并設(shè)計(jì)了相應(yīng)的弱對齊機(jī)制,其核心設(shè)計(jì)包括:

  • 在線旋律提取與聯(lián)合優(yōu)化:設(shè)計(jì)了一個參數(shù)可學(xué)的旋律編碼器,直接從參考音頻中提取幀級旋律表征,并與基于 DiT 的生成模型進(jìn)行端到端聯(lián)合訓(xùn)練 。通過引入教師模型的蒸餾約束,確保提取的表征既包含準(zhǔn)確的旋律語義,又能自適應(yīng)下游生成任務(wù)。

  • CKA 表示層對齊約束:為了確保生成歌聲遵循參考旋律的走向,團(tuán)隊(duì)引入了中心核對齊(CKA)損失 。該機(jī)制顯式地最大化旋律表征與 DiT 模型預(yù)測流(predicted flow)特征之間的相關(guān)性,使模型在優(yōu)化中顯示的關(guān)注輸入特征中的旋律對齊關(guān)系,使模型可以精準(zhǔn)復(fù)現(xiàn)參考音頻中的旋律結(jié)構(gòu)。


圖2 :句級歌詞處理邏輯

2、句級時長建模:

傳統(tǒng) SVS 系統(tǒng)往往難以在 不依賴精確音素標(biāo)注的前提下,同時支持 靈活調(diào)整歌詞結(jié)構(gòu)與長度。為解決這一限制,我們的模型基于十萬條僅帶句級時間戳的弱標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,在無需精確音素對齊的情況下,仍能學(xué)習(xí)歌詞音節(jié)在旋律中的合理布局。由此,系統(tǒng)在“改詞”等高自由度場景中也能保持與目標(biāo)旋律的穩(wěn)定契合,從根本上降低了對昂貴標(biāo)注和嚴(yán)格音素時長對齊的依賴。


圖 3:YingMusic-Singer GRPO 實(shí)現(xiàn)方式圖

3、基于 Flow-GRPO 的強(qiáng)化學(xué)習(xí)后訓(xùn)練

這是首次將強(qiáng)化學(xué)習(xí)引入 基于 DiT的SVS 任務(wù) 。為了進(jìn)一步提升發(fā)音清晰度與旋律效果,使模型可以自適應(yīng)的權(quán)衡內(nèi)容生成準(zhǔn)確度與旋律遵循度,團(tuán)隊(duì)進(jìn)行了如下研究:

  • 構(gòu)建多維獎勵函數(shù):融合了內(nèi)容準(zhǔn)確度(Content Accuracy)和旋律準(zhǔn)確性(Melody Similarity)作為獎勵信號 。

  • Flow-GRPO 策略優(yōu)化:采用組相對策略優(yōu)化(GRPO)算法對模型網(wǎng)絡(luò)進(jìn)行微調(diào) ,通過在生成空間中探索更優(yōu)解,模型在保持多樣性的同時,提升了在復(fù)雜歌詞下的咬字清晰度和旋律還原度。

02.

實(shí)驗(yàn)效果


為評估YingMusic-Singer在內(nèi)容與旋律控制方面的性能,我們完成了零樣本歌聲合成及歌聲編輯(含結(jié)構(gòu)與歌詞修改)實(shí)驗(yàn)。在零樣本音色轉(zhuǎn)換任務(wù)中,模型通過目標(biāo)歌詞、樂譜符號(如MIDI)和參考音頻,生成既符合目標(biāo)內(nèi)容與音符要求、又保留參考音色的歌聲。本模型的獨(dú)特性在于將類樂譜信息轉(zhuǎn)化為參考演唱旋律,實(shí)現(xiàn)從旋律到歌聲的端到端合成。

  • 實(shí)驗(yàn)指標(biāo)顯示,經(jīng)過后訓(xùn)練的 YingMusic-Singer 在多數(shù)任務(wù)中表現(xiàn)優(yōu)異:其歌詞轉(zhuǎn)錄錯誤率(WER)最低,音高相關(guān)性(FPC)達(dá)到競爭水平。此外,在主觀評估中本模型的自然度評分更高,雖然客觀旋律相似度指標(biāo) FPC 略低于 Vevo 但仍超過80% 閾值,且 WER 顯著更低,說明其在保持旋律輪廓的同時實(shí)現(xiàn)了更優(yōu)的內(nèi)容還原。這印證了后訓(xùn)練策略能有效平衡內(nèi)容準(zhǔn)確度、自然度與旋律跟隨這三個常相互制約的目標(biāo)。

  • 在改變歌詞與句子結(jié)構(gòu)的編輯任務(wù)中,Vevo 與本模型均保持低 WER 與高 F0 相關(guān)性,表明對于歌聲編輯而言,保持音素單元的旋律走向比嚴(yán)格遵循原始歌詞結(jié)構(gòu)更為關(guān)鍵。

03.

結(jié)論

YingMusic-Singer 通過無需精確標(biāo)注的旋律引導(dǎo)Flow-GRPO 強(qiáng)化學(xué)習(xí),擺脫了傳統(tǒng) SVS 技術(shù)對高成本的標(biāo)注數(shù)據(jù)的依賴 。該系統(tǒng)在很大程度上緩解了歌詞替換中“清晰度”與“旋律死板對齊”的矛盾,在大幅降低詞錯誤率的同時保持了自然的音樂表現(xiàn)力。這一進(jìn)步為大眾用戶提供了更自由、低門檻的音樂創(chuàng)作能力,推動 SVS 技術(shù)從“可用”向“好用、易用”邁出了關(guān)鍵一步。

04.

在線體驗(yàn)/API

wisemodel社區(qū)—鏡像上線 了“巨人網(wǎng)絡(luò)AI LAB/ YingMusic-Singer ” 的鏡像 ,支持一鍵創(chuàng)建在線體驗(yàn)或者API服務(wù), 選中該鏡像,點(diǎn)擊部署在線體驗(yàn)或者創(chuàng)建開發(fā)環(huán)境。


進(jìn)入后,根據(jù)需要填寫相應(yīng)的信息,點(diǎn)擊“提交訂單”按鈕,體驗(yàn)進(jìn)入后臺的啟動階段。大概等待1分鐘左右,體驗(yàn)進(jìn)入運(yùn)行中的狀態(tài)。


公開狀態(tài)的在線體驗(yàn)可以在wisemodel社區(qū)-體驗(yàn)與API”的頁面上點(diǎn)擊相應(yīng)的體驗(yàn),進(jìn)入體驗(yàn)的頁面;私有狀態(tài)的在線體驗(yàn)需要前往“用戶中心-我的資源-體驗(yàn)”進(jìn)入體驗(yàn)的頁面。



巨人網(wǎng)絡(luò) AI Lab 成立于 2022 年,是隸屬于巨人網(wǎng)絡(luò)的人工智能技術(shù)落地與研究機(jī)構(gòu)。今年以來,團(tuán)隊(duì)多項(xiàng)人工智能研究成果入選ACM MM、ICASSP、Interspeech等國際頂級學(xué)術(shù)會議,覆蓋多模態(tài)生成、音視頻合成及多智能體等技術(shù)方向。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
20分32分42分!上海全員殺瘋,一夜爆3門慘案,3-12名亂成一鍋粥

20分32分42分!上海全員殺瘋,一夜爆3門慘案,3-12名亂成一鍋粥

后仰大風(fēng)車
2026-03-26 06:05:05
五枚導(dǎo)彈,攔下四枚,就那漏網(wǎng)的一枚,不偏不倚,正好砸中…

五枚導(dǎo)彈,攔下四枚,就那漏網(wǎng)的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
突發(fā)大利好!重大利好!光模塊傳來重大利好!周四這概念要起飛嗎

突發(fā)大利好!重大利好!光模塊傳來重大利好!周四這概念要起飛嗎

Thurman在昆明
2026-03-26 01:53:49
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
中國最有名的9條家訓(xùn),讀懂一條旺家三代,建議收藏反復(fù)背誦

中國最有名的9條家訓(xùn),讀懂一條旺家三代,建議收藏反復(fù)背誦

長風(fēng)文史
2026-03-25 17:58:23
張雪峰的影響力,被嚴(yán)重低估了

張雪峰的影響力,被嚴(yán)重低估了

黔有虎
2026-03-26 14:32:34
隨著雷霆12連勝被終結(jié),湖人137-130,西部最新排名出爐!馬刺第2

隨著雷霆12連勝被終結(jié),湖人137-130,西部最新排名出爐!馬刺第2

薇說體育
2026-03-26 10:48:02
老師穿短裙蕾絲襪上課,學(xué)生連頭都不敢抬!老師穿衣底線到底在哪

老師穿短裙蕾絲襪上課,學(xué)生連頭都不敢抬!老師穿衣底線到底在哪

小羽叨叨叨
2026-03-26 13:24:34
多人被立案偵查!中山發(fā)布工礦商貿(mào)行業(yè)生產(chǎn)安全事故評估報(bào)告

多人被立案偵查!中山發(fā)布工礦商貿(mào)行業(yè)生產(chǎn)安全事故評估報(bào)告

南方都市報(bào)
2026-03-26 19:30:16
路透社:歐盟警告越南,敢用中國5G,就讓外資撤光!

路透社:歐盟警告越南,敢用中國5G,就讓外資撤光!

泠泠說史
2026-03-26 18:06:17
7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

觀威海
2026-03-26 09:55:04
“我用房子貸的款卻進(jìn)了他們口袋”,佛山一男子稱遭遇套路貸;警方立案偵查,3人被批捕后取保候?qū)?>
    </a>
        <h3>
      <a href=大風(fēng)新聞
2026-03-26 16:56:40
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

素衣讀史
2026-03-25 21:05:22
保姆偷拿我兩瓶茅臺,我辭退未揭穿,臨走她指我舊鞋,剪開后我懵了...

保姆偷拿我兩瓶茅臺,我辭退未揭穿,臨走她指我舊鞋,剪開后我懵了...

感覺會火
2026-03-26 12:06:22
張雪峰家屬:周六舉行追悼會!平時沒胸悶、沒心臟病,能放心運(yùn)動嗎?醫(yī)生提醒

張雪峰家屬:周六舉行追悼會!平時沒胸悶、沒心臟病,能放心運(yùn)動嗎?醫(yī)生提醒

上觀新聞
2026-03-26 14:45:10
快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
603444,業(yè)績大增!擬10派70元!

603444,業(yè)績大增!擬10派70元!

證券時報(bào)e公司
2026-03-26 19:32:17
越扒越有!張雪峰去世早有預(yù)兆,他的2個不良愛好,或成催命符

越扒越有!張雪峰去世早有預(yù)兆,他的2個不良愛好,或成催命符

叨嘮
2026-03-26 00:57:32
3-1奪冠!中國女乒29歲王牌復(fù)蘇:組最強(qiáng)豪陣劍指世乒賽

3-1奪冠!中國女乒29歲王牌復(fù)蘇:組最強(qiáng)豪陣劍指世乒賽

李喜林籃球絕殺
2026-03-26 20:29:48
伊朗發(fā)起的第81波打擊

伊朗發(fā)起的第81波打擊

舍長阿爺談事
2026-03-26 23:38:25
2026-03-27 03:23:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

房產(chǎn)
健康
家居
時尚
本地

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

傍海而居 靜觀蝴蝶海

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

無障礙瀏覽 進(jìn)入關(guān)懷版