国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

清華新作ControlAudio:聲音何時響、說啥話?都能按劇本可控生成

0
分享至



本文第一作者是江宇軒,清華大學博士生,研究方向為生成模型、文生音頻和多模態(tài)學習,指導老師為朱軍教授與竇維蓓教授。

文本到音頻(Text-to-Audio, TTA)生成技術近年來取得了顯著進展,從早期的簡單聲效合成逐步發(fā)展到基于擴散模型的高保真音頻生成,能夠較好地還原復雜的自然語言描述,為影視配音、游戲音效及多媒體內容創(chuàng)作提供了重要的技術支撐。

然而,現(xiàn)有 TTA 技術在精細化控制方面仍面臨挑戰(zhàn):一方面,模型難以實現(xiàn)對聲音事件發(fā)生時間的精確控制;另一方面,生成的語音內容往往不夠清晰,缺乏可理解性。

針對這一問題,清華大學研究團隊提出了 ControlAudio,一種基于漸進式擴散建模的文生音頻方法。該方法通過系統(tǒng)性的數(shù)據構建流程與漸進式建模策略,在統(tǒng)一框架下實現(xiàn)了對時間結構與語音內容的聯(lián)合建模。

目前,該工作已被 ACL 2026 Main Conference 接收,并擬推薦為口頭報告。



  • 論文地址:https://arxiv.org/abs/2510.08878
  • 效果試聽:https://control-audio.github.io/Control-Audio

研究背景

文生音頻系統(tǒng)旨在合成與自然語言描述一致的音頻內容(如「鳥兒正在鳴叫」),在高保真生成方面已取得顯著進展,但在精細化控制維度仍存在明顯不足:

  • 精確的時間控制:如「鳥兒在 2 至 5 秒間鳴叫」;
  • 可理解語音生成:如「鳥兒在鳴叫,同時一名男子在說:『今天天氣真好』」。

然而,由于帶有精確時間標注和語音轉錄的信息難以大規(guī)模獲取,可控 TTA 系統(tǒng)在規(guī)?;柧毰c生成能力上仍受到限制。同時,現(xiàn)有方法通常僅關注單一控制維度,尚未在統(tǒng)一框架下同時實現(xiàn)時間控制與可理解語音生成。

核心方法

本文提出 ControlAudio,一種漸進式擴散建模方法,通過逐步建模文本、時間與音素等不同粒度的條件信息,實現(xiàn)可控的 TTA 生成。整體方法包含三個核心部分:

  1. 數(shù)據構造與表征:通過人工標注與仿真生成相結合的方式構建多層級數(shù)據,并設計結構化提示詞(Structured Prompt),使預訓練文本編碼器能夠統(tǒng)一編碼文本、時間與音素信息;
  2. 模型訓練:采用漸進式訓練策略。首先在大規(guī)模文本 - 音頻數(shù)據上預訓練擴散模型,隨后逐步引入時間與語音內容信息進行建模,使模型逐步具備更細粒度的控制能力;
  3. 引導采樣:針對擴散模型「由粗到細」的生成特性,設計漸進式引導采樣策略,在推理過程中先生成整體時間結構,再逐步細化語音內容。



漸進式擴散建模

ControlAudio 將多條件建模拆解為一個由粗到細的漸進過程。

在訓練階段,模型分三步逐步引入控制信號:首先在大規(guī)模文本 - 音頻數(shù)據上預訓練,學習基礎的文本到音頻生成能力;隨后在包含時間標注的數(shù)據上進行微調,使模型能夠控制聲音事件的時間結構;最后進一步引入音素信息進行聯(lián)合訓練,實現(xiàn)對語音內容的建模。

在這一過程中,通過使用 Text、Text + Timing 以及 Text + Timing + Phoneme 等不同條件組合,逐步提升模型對細粒度控制信號的建模能力。



在推理階段,方法提出了漸進式引導采樣策略:在擴散早期,僅使用文本與時間條件進行引導,先生成整體的時間結構;在后期階段,再引入音素信息并提高引導強度,用于細化語音內容。該設計與擴散模型由粗到細的生成過程一致,從而在時間對齊與語音清晰度上取得更好的效果。

數(shù)據集構建

針對可控 TTA 所需的時間標注與語音內容數(shù)據稀缺問題,ControlAudio 構建了一個多來源的數(shù)據體系,將真實標注與仿真數(shù)據相結合。

首先,在真實數(shù)據方面,基于具有時間標注的 AudioSet-SL,篩選包含語音的片段,并通過分離與轉寫流程,獲得帶有時間戳與語音內容的信息,將原始的 ?text, audio? 擴展為 ?text, timing, phoneme, audio? 的細粒度數(shù)據。在此基礎上,進一步構建大規(guī)模仿真數(shù)據。

方法從真實數(shù)據中統(tǒng)計語音活動分布,并據此合成單人或多人語音片段,按照合理的時間結構進行排列,并與背景音頻混合生成復雜音頻場景。該流程額外擴展了超過 17 萬條訓練樣本,提升了數(shù)據規(guī)模與多樣性。

此外,在結構化提示詞的構建過程中,ControlAudio 引入基于鏈式推理(Chain-of-Thought, CoT)的自動生成流程,將自然語言描述解析為「事件 — 時間 — 語音內容」的結構化表示,為模型提供更加清晰的條件輸入。



實驗結果

為了驗證 ControlAudio 的有效性,團隊首先在時間可控音頻生成的 AudioCondition 測試集上進行評估。相比現(xiàn)有方法,在事件時間對齊指標上取得顯著提升,同時在 FAD、CLAP 等音頻質量指標上保持競爭力甚至更優(yōu)表現(xiàn)。



在包含語音生成的評測任務中,ControlAudio 同樣展現(xiàn)出更強的語音可理解性與整體音頻質量,驗證了其在統(tǒng)一框架下同時建模時間結構與語音內容的能力。



在文生音頻任務中,ControlAudio 同樣取得了與當前主流方法相當甚至更優(yōu)的生成質量,在引入時間與語音控制能力的同時,并未降低基礎的文本到音頻生成性能。



總結與展望

ControlAudio 從數(shù)據構建、模型訓練到采樣策略三個層面系統(tǒng)性地解決了文生音頻中的精細化控制問題,在統(tǒng)一框架下實現(xiàn)了文本、時間與語音內容的協(xié)同建模,并在多項任務上取得了優(yōu)于現(xiàn)有方法的表現(xiàn)。

相比以往僅關注單一控制維度的工作,ControlAudio 展現(xiàn)了更強的通用性與擴展?jié)摿Α?/strong>

隨著音頻與多模態(tài)生成模型的發(fā)展,越來越多系統(tǒng)開始探索 Speech、Audio、Music 的統(tǒng)一建模范式。研究團隊希望ControlAudio 所提出的「多粒度條件統(tǒng)一建模 + 漸進式生成」思路,能夠為通用音頻生成提供一種可擴展的技術路徑,推動模型從單一任務走向更復雜、多維度可控的內容生成。

樣本展示

Text Prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm.

Timing Prompt:Music : 0.00s - 10.00s; Beeps : 1.00s - 1.20s 3.00s - 3.20s 4.90s - 5.10s 6.90s - 7.10s; Typing : 1.20s - 7.80s; Alarm : 7.85s - 8.50s.

Structured prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm. @{Music. & <0.00,10.00>}@{Beeps. & <1.00,1.20><3.00,3.20><4.90,5.10><6.90,7.10>}@{Typing. & <1.20,7.80>}@{Alarm. & <7.85,8.50>}



Text Prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking.

Content Prompt:and contain them until that person can be taken into custody effectively and safely on the part of the other team of police sheriffs.

Structured prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking. @{Crowd talking ambience & <0.00,10.00>}@{Male speech, man speaking & <0.46,5.14>"And contain them until that person can be taken into custody effectively and safely."<5.64,8.22>"On the part of the other team of police sheriffs."}@{Dog barking & <9.26,9.46>}



Text Prompt:Females voice narrating a scene as music is playing and rain drops are falling.

Content Prompt:Daniel came out of the airport. He raised one arm to hail a taxi.

Structured prompt:Females voice narrating a scene as music is playing and rain drops are falling. @{Music & <0.00,10.00>}@{Female speech, woman narrating & <2.62,4.65>"Daniel came out of the airport."<5.37,8.26>"He raised one arm to hail a taxi."}@{Rain falling & <8.26,10.00>}



Text Prompt:Splashing water followed by a girl speaking then scraping and spitting.

Content Prompt:This is the last time you did that first thing. Same thing.

Structured prompt:Splashing water followed by a girl speaking then scraping and spitting. @{Splashing water & <0.00,1.38>}@{Female speech, girl speaking & <1.57,4.52>"This is the last time you did that first thing. Same thing."}@{Scraping & <4.66,6.81><7.10,8.00>}@{Spitting & <8.10,8.48>}



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
周立波是個好同志,因為他敢講真話

周立波是個好同志,因為他敢講真話

布衣亂彈
2026-04-11 18:06:24
大快人心!張敬軒復出泡湯,霍汶希被拖下水,英皇如坐針氈

大快人心!張敬軒復出泡湯,霍汶希被拖下水,英皇如坐針氈

一盅情懷
2026-04-21 19:20:32
全新一代問界M9今晚發(fā)布,HUAWEI SOUND Ultimate非凡系列上車

全新一代問界M9今晚發(fā)布,HUAWEI SOUND Ultimate非凡系列上車

IT之家
2026-04-22 16:07:34
馬杜羅被捕100天之后,委內瑞拉代總統(tǒng)終于翻臉,掀起內部大清洗

馬杜羅被捕100天之后,委內瑞拉代總統(tǒng)終于翻臉,掀起內部大清洗

墨蘭史書
2026-04-22 19:10:03
15次丟球權+單刀必進踢飛!被捧殺的王鈺棟,早已不堪大用?

15次丟球權+單刀必進踢飛!被捧殺的王鈺棟,早已不堪大用?

圣西羅的太陽
2026-04-22 13:43:09
加工販賣淫穢手辦6萬件獲刑 《原神》可莉手辦遭盜版

加工販賣淫穢手辦6萬件獲刑 《原神》可莉手辦遭盜版

游民星空
2026-04-22 19:20:25
日本請求訪華,與中方高層會面,不到24小時,高市連干2件蠢事

日本請求訪華,與中方高層會面,不到24小時,高市連干2件蠢事

生活魔術專家
2026-04-22 17:16:37
情侶登瑞士雪山忘情親密10分鐘 氣象鏡頭全直播

情侶登瑞士雪山忘情親密10分鐘 氣象鏡頭全直播

環(huán)球趣聞分享
2026-04-22 13:40:09
5月初偏財運爆發(fā),這3個生肖迎來意外驚喜,翻身日子就在眼前

5月初偏財運爆發(fā),這3個生肖迎來意外驚喜,翻身日子就在眼前

毅談生肖
2026-04-22 11:35:16
町田是第二支首次參加亞冠就進決賽的日本球隊,上支為2007奪冠的浦和

町田是第二支首次參加亞冠就進決賽的日本球隊,上支為2007奪冠的浦和

懂球帝
2026-04-22 12:01:19
女學生婚后回母校捐款,張桂梅怒斥“滾出去”,她為何如此憤怒

女學生婚后回母校捐款,張桂梅怒斥“滾出去”,她為何如此憤怒

每一次點擊
2026-04-21 09:40:42
古力娜扎:真空上陣是放飛自我還是資本博弈?

古力娜扎:真空上陣是放飛自我還是資本博弈?

娛樂領航家
2026-04-02 21:00:03
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
爆料瘋傳,中南醫(yī)院“王護士長”被扒,她到底有沒有問題啊!

爆料瘋傳,中南醫(yī)院“王護士長”被扒,她到底有沒有問題啊!

觀星賞月
2026-04-22 13:10:32
徐子淇在富豪老公面前真敢穿,豐滿身材穿薄紗挖洞裙,真豁得出去

徐子淇在富豪老公面前真敢穿,豐滿身材穿薄紗挖洞裙,真豁得出去

蓓小西
2026-04-21 12:27:46
毛主席和董必武各推薦一人進黃埔軍校,1個流芳百世,1個遺臭萬年

毛主席和董必武各推薦一人進黃埔軍校,1個流芳百世,1個遺臭萬年

品點歷史
2026-04-22 06:00:14
英媒:吳宜澤是中國斯諾克流水線最新旗艦產品,他有一項隱藏技能

英媒:吳宜澤是中國斯諾克流水線最新旗艦產品,他有一項隱藏技能

楊華評論
2026-04-21 15:38:52
中方已做最壞準備,一旦中美爆發(fā)戰(zhàn)爭,中國三大底牌一個比一個狠

中方已做最壞準備,一旦中美爆發(fā)戰(zhàn)爭,中國三大底牌一個比一個狠

草莓信箱
2026-04-14 09:10:54
老當益壯!斯馬特:我從詹姆斯身上看到了兩個字——偉大

老當益壯!斯馬特:我從詹姆斯身上看到了兩個字——偉大

懂球帝
2026-04-22 13:48:26
2:1取勝阿森納之后,曼城馬上就遭到一個致命暴擊,英超爭冠懸了

2:1取勝阿森納之后,曼城馬上就遭到一個致命暴擊,英超爭冠懸了

零度眼看球
2026-04-22 06:38:02
2026-04-22 20:04:50
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12831文章數(shù) 142633關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

健康
游戲
家居
時尚
公開課

干細胞抗衰4大誤區(qū),90%的人都中招

《黑旗RE》官宣直播!B站抖音中文預告片首發(fā)!

家居要聞

極簡繪夢 克制和諧

初夏穿赫本的白褲子,清新又高級!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版