国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港大聯(lián)合字節(jié)跳動(dòng)提出JoVA: 聯(lián)合自注意力視頻-音頻聯(lián)合生成模型

0
分享至



作者介紹:本文第一作者黃小虎同學(xué),目前是香港大學(xué)的三年級(jí)在讀博士生,導(dǎo)師是韓鍇教授。黃小虎的研究方向是以視頻為中心的領(lǐng)域,包括音視頻生成、視頻理解以及視頻識(shí)別。

視頻 - 音頻聯(lián)合生成的研究近期在開(kāi)源與閉源社區(qū)都備受關(guān)注,其中,如何生成音視頻對(duì)齊的內(nèi)容是研究的重點(diǎn)。

近日,來(lái)自香港大學(xué)和字節(jié)跳動(dòng)的研究團(tuán)隊(duì)提出了一種簡(jiǎn)單有效的框架 ——JoVA,它支持視頻和音頻的 Token 在一個(gè) Transformer 的注意力模塊中直接進(jìn)行跨模態(tài)交互。為了解決人物說(shuō)話(huà)時(shí)的 “口型 - 語(yǔ)音同步” 問(wèn)題,JoVA 引入了一個(gè)基于面部關(guān)鍵點(diǎn)檢測(cè)的嘴部區(qū)域特定損失 (Mouth-area specific loss)。

實(shí)驗(yàn)表明,JoVA 只采用了約 190 萬(wàn)條訓(xùn)練數(shù)據(jù),便在口型同步準(zhǔn)確率、語(yǔ)音質(zhì)量和整體生成保真度上,達(dá)到了先進(jìn)水平。



  • 項(xiàng)目主頁(yè): https://visual-ai.github.io/jova/
  • 論文地址:https://arxiv.org/abs/2512.13677

一、研究背景與動(dòng)機(jī)

目前的開(kāi)源解決方案通常分為兩大類(lèi)別:一類(lèi)是 “級(jí)聯(lián)式”,即先生成視頻再配音,或者先生成語(yǔ)音再驅(qū)動(dòng)視頻生成,這種方式在一定程度上會(huì)導(dǎo)致音頻和畫(huà)面的割裂;另一類(lèi)是 “端到端的聯(lián)合生成”,試圖同時(shí)輸出視頻和音頻。

如下圖 a, 現(xiàn)有的端到端方法(如 OVi 和 Universe 等),為了實(shí)現(xiàn)雙模態(tài)對(duì)齊,需要在自注意力層 (self-attention) 之外,額外設(shè)計(jì)融合模塊或跨注意力層 (Cross-attention)。這不僅破壞了 Transformer 架構(gòu)的簡(jiǎn)潔性,還可能阻礙進(jìn)一步的數(shù)據(jù)和模態(tài)擴(kuò)展。

相比之下,JoVA 采用了更加簡(jiǎn)潔的設(shè)計(jì)(如圖 b),直接使用聯(lián)合自注意力層 (joint self-attention) 進(jìn)行兩種模態(tài)特征的融合與對(duì)齊。它同時(shí)承擔(dān)了單模態(tài)內(nèi)的建模以及跨模態(tài)的融合任務(wù),無(wú)需引入任何新的模塊。



二、方法設(shè)計(jì)

1. 架構(gòu)描述

JoVA 采用 Waver 作為基礎(chǔ)模型。為了實(shí)現(xiàn)音頻生成,JoVA 首先通過(guò)復(fù)制預(yù)訓(xùn)練視頻主干網(wǎng)絡(luò) (Backbone) 的參數(shù)來(lái)初始化音頻擴(kuò)散模型。在特征提取方面,采用了 MMAudio VAE 將原始音頻轉(zhuǎn)換為聲譜圖潛在表示 (Latent Representation)。

音頻分支的訓(xùn)練沿用了與視頻分支相同的流匹配 (Flow Matching) 目標(biāo)函數(shù)。在預(yù)訓(xùn)練階段,視頻和音頻模態(tài)是獨(dú)立訓(xùn)練的;而在后續(xù)階段,兩者被統(tǒng)一整合進(jìn)同一個(gè)架構(gòu)中進(jìn)行并行處理。此外,對(duì)于視頻生成,模型支持參考圖像 (Reference Image) 作為條件輸入。該圖像經(jīng)由視頻 VAE 編碼后,在通道維度上與噪聲視頻潛特征進(jìn)行拼接。



2. 音頻 - 視頻 - 文本聯(lián)合自注意力層

為了實(shí)現(xiàn)模態(tài)間的融合,JoVA 在 Transformer 塊內(nèi)部采用聯(lián)合自注意力機(jī)制(Joint Self-Attention)。具體而言,視頻 Token、音頻 Token 以及對(duì)應(yīng)的文本 Token 被拼接在一起,輸入到共享的自注意力層中進(jìn)行處理。這種設(shè)計(jì)允許不同模態(tài)的 Token 在每一層都進(jìn)行直接的信息交換,既保留了各自的預(yù)訓(xùn)練知識(shí),又實(shí)現(xiàn)了特征融合。為了確保視頻與音頻在時(shí)間維度上的精確同步,模型采用了源自 MMAudio 的時(shí)間對(duì)齊旋轉(zhuǎn)位置編碼(Temporal-aligned RoPE),在時(shí)間維度上同步了兩種模態(tài)的位置編碼。

3. 潛空間嘴部區(qū)域感知監(jiān)督(Mouth-Aware Supervision)

為了解決人像生成中的唇形同步問(wèn)題,JoVA 引入了一種針對(duì)嘴部區(qū)域的增強(qiáng)監(jiān)督策略。該過(guò)程包含三個(gè)步驟:

1. 區(qū)域定位:首先在原始視頻幀上進(jìn)行面部關(guān)鍵點(diǎn)檢測(cè),計(jì)算出覆蓋嘴部區(qū)域的像素級(jí)邊界框。

2. 潛空間映射:將像素空間的邊界框映射到 VAE 的潛空間。這包括空間上的縮放(除以空間下采樣因子 s)和時(shí)間上的滑動(dòng)窗口聚合(根據(jù)時(shí)間下采樣因子 t 合并窗口內(nèi)的邊界框),以精確定位潛特征中的嘴部區(qū)域。

3. 加權(quán)損失:在訓(xùn)練目標(biāo)函數(shù)中引入了專(zhuān)門(mén)的嘴部損失項(xiàng)。該損失僅對(duì)視頻潛特征中的嘴部掩碼區(qū)域計(jì)算流匹配損失,并通過(guò)權(quán)重系數(shù)進(jìn)行調(diào)節(jié)。最終的總損失函數(shù)由視頻損失、音頻損失和嘴部區(qū)域損失共同構(gòu)成,從而在不增加推理階段架構(gòu)復(fù)雜度的前提下,強(qiáng)制模型學(xué)習(xí)細(xì)粒度的唇形 - 語(yǔ)音對(duì)齊。



如下圖,我們可以發(fā)現(xiàn),這種映射方式可以很好地在潛空間定位到嘴部區(qū)域:



三、訓(xùn)練數(shù)據(jù)集構(gòu)建

作者構(gòu)建了包含三個(gè)部分的訓(xùn)練數(shù)據(jù)集:Text2Audio(環(huán)境音)、Text2Video-Audio(自然場(chǎng)景視聽(tīng)對(duì))以及 Text2Avatar-Speech(數(shù)字人 / 說(shuō)話(huà)人視頻),總共約 1.9M 的訓(xùn)練樣本。數(shù)據(jù)標(biāo)注采用了一套自動(dòng)化流水線(xiàn):使用 Tarsier2 生成視頻描述,Audio-flamingo3 生成音頻描述,并利用 Whisper 進(jìn)行自動(dòng)語(yǔ)音識(shí)別(ASR)以獲取語(yǔ)音文本。

在實(shí)施細(xì)節(jié)上,采用兩階段訓(xùn)練策略:先進(jìn)行語(yǔ)音單模態(tài)獨(dú)立訓(xùn)練(80K 步),再進(jìn)行聯(lián)合視聽(tīng)訓(xùn)練(50K 步),并在推理時(shí)使用了分類(lèi)器無(wú)關(guān)引導(dǎo)(Classifier-Free Guidance)以提升生成質(zhì)量。



四、實(shí)驗(yàn)結(jié)果

1. SOTA 方法對(duì)比

在 UniAvatar-Bench(作者精選的 100 個(gè)樣本)和 Verse-Bench(600 個(gè)多樣化樣本)兩個(gè)基準(zhǔn)上進(jìn)行了評(píng)估。對(duì)比對(duì)象包括兩類(lèi):一是使用真實(shí)音頻驅(qū)動(dòng)的視頻生成模型(如 Wan-S2V, Fantasy-Talking),二是聯(lián)合視聽(tīng)生成模型(如 Universe-1, OVI)。

UniAvatar-Bench 表現(xiàn):JoVA 在整體性能上表現(xiàn)最佳。

  • 唇形同步(LSE-C):得分為 6.64,不僅優(yōu)于聯(lián)合生成模型 OVI (6.41) 和 Universe-1 (1.62),甚至超過(guò)了使用真實(shí)音頻驅(qū)動(dòng)的 Wan-S2V (6.43),證明了嘴部監(jiān)督策略的有效性。
  • 語(yǔ)音與音頻質(zhì)量:在文本轉(zhuǎn)語(yǔ)音準(zhǔn)確性上,JoVA 取得了最低的詞錯(cuò)誤率(WER 0.18);在音頻生成指標(biāo)(FD, KL, CE, CU, PQ)上均取得最佳分?jǐn)?shù)。
  • 視頻質(zhì)量:在動(dòng)態(tài)程度(MS 0.98)和美學(xué)評(píng)分(AS 0.47)上均領(lǐng)先。雖然身份一致性(ID 0.78)低于音頻驅(qū)動(dòng)模型,但在聯(lián)合生成任務(wù)中處于合理范圍。



Verse-Bench 表現(xiàn):JoVA 展現(xiàn)了在多樣化場(chǎng)景下的魯棒性。

  • 語(yǔ)音準(zhǔn)確性:WER 低至 0.11,驗(yàn)證了其穩(wěn)健的語(yǔ)音合成能力。
  • 視聽(tīng)對(duì)齊:LSE-C 得分為 6.51,略低于 OVI (6.61) 但遠(yuǎn)高于 Universe (1.62)。
  • 綜合質(zhì)量:在保持最高視頻動(dòng)態(tài)(MS 0.80)和美學(xué)質(zhì)量(AS 0.48)的同時(shí),音頻生成的一致性(CS, CE)也達(dá)到了最優(yōu)水平。



模型擴(kuò)展性與效率分析

研究進(jìn)一步對(duì)比了基于 Waver-1.6B(總參數(shù)量 3.2B)和 Waver-12B(總參數(shù)量 24B)主干網(wǎng)絡(luò)的 JoVA 模型性能:

  • 小模型的高效性:僅使用 3.2B 參數(shù)和 1.9M 訓(xùn)練數(shù)據(jù)的 JoVA 模型,其 LSE-C 得分達(dá)到 6.20,顯著優(yōu)于參數(shù)量更大(7.1B)且訓(xùn)練數(shù)據(jù)更多(6.4M)的 Universe-1 模型(LSE-C 1.62),并與 10.9B 參數(shù)的 OVI 模型具備競(jìng)爭(zhēng)力。
  • 大模型的性能上限:隨著參數(shù)量增加至 24B,JoVA 在各項(xiàng)指標(biāo)上均達(dá)到最佳水平(LSE-C 提升至 6.64,WER 降至 0.18)。



2. 融合實(shí)驗(yàn)對(duì)比

為了驗(yàn)證各模塊的有效性,作者進(jìn)行了多項(xiàng)消融實(shí)驗(yàn):

嘴部感知損失(Mouth-Aware Loss)的影響:

  • 當(dāng)權(quán)重為 0.0 時(shí),模型無(wú)法學(xué)習(xí)細(xì)粒度的唇形對(duì)齊(LSE-C 僅為 1.39)。
  • 增加權(quán)重至 5.0 時(shí),LSE-C 顯著提升至 6.64,且未損害其他音頻或視頻質(zhì)量指標(biāo)。這表明針對(duì)嘴部區(qū)域的顯式監(jiān)督對(duì)于實(shí)現(xiàn)精確同步至關(guān)重要。



時(shí)間對(duì)齊 RoPE 的影響:

  • 采用時(shí)間對(duì)齊的 RoPE(視頻和音頻共享時(shí)間維度的位置編碼)相比未對(duì)齊版本,LSE-C 從 6.58 提升至 6.64。
  • 盡管在音頻分布相似度(FD)上存在輕微折損(0.58 vs 0.69),但該設(shè)計(jì)顯著增強(qiáng)了幀級(jí)的時(shí)間對(duì)應(yīng)關(guān)系,更利于人像視頻生成。



聯(lián)合自注意力 vs. 交叉注意力:

  • 對(duì)比結(jié)果顯示,聯(lián)合自注意力(Joint Self-Attention) 機(jī)制在唇形同步(LSE-C 6.64)和語(yǔ)音準(zhǔn)確性(WER 0.18)上均優(yōu)于交叉注意力變體。
  • 特別是帶線(xiàn)性適配層的交叉注意力方案表現(xiàn)最差(LSE-C 1.63)。這證實(shí)了在統(tǒng)一的注意力空間內(nèi)直接處理多模態(tài) Token,比通過(guò)獨(dú)立的交叉注意力模塊更能促進(jìn)特征的有效對(duì)齊。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
委內(nèi)瑞拉總統(tǒng)夫人,披肩金發(fā)少女感十足,比總統(tǒng)大10歲

委內(nèi)瑞拉總統(tǒng)夫人,披肩金發(fā)少女感十足,比總統(tǒng)大10歲

牛牛叨史
2026-01-07 13:35:21
總局公示四位馬拉松女將獲國(guó)際健將,張水華“走錯(cuò)考場(chǎng)”無(wú)緣認(rèn)證

總局公示四位馬拉松女將獲國(guó)際健將,張水華“走錯(cuò)考場(chǎng)”無(wú)緣認(rèn)證

楊華評(píng)論
2026-01-06 17:42:06
受林彪直接領(lǐng)導(dǎo)的老將軍們:談紅軍時(shí)期的林彪,大都評(píng)價(jià)相似

受林彪直接領(lǐng)導(dǎo)的老將軍們:談紅軍時(shí)期的林彪,大都評(píng)價(jià)相似

春秋硯
2025-12-30 06:00:05
國(guó)產(chǎn)香煙加了助燃劑?測(cè)試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

國(guó)產(chǎn)香煙加了助燃劑?測(cè)試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

回旋鏢
2026-01-01 21:00:24
英達(dá)直播間喊話(huà)巴圖遭3分鐘沉默,網(wǎng)友:惦記曾被視為累贅的孩子

英達(dá)直播間喊話(huà)巴圖遭3分鐘沉默,網(wǎng)友:惦記曾被視為累贅的孩子

詩(shī)意世界
2026-01-02 22:52:32
朝鮮誰(shuí)都不服,卻主動(dòng)將三位中國(guó)人寫(xiě)進(jìn)教科書(shū),還為其樹(shù)立了銅像

朝鮮誰(shuí)都不服,卻主動(dòng)將三位中國(guó)人寫(xiě)進(jìn)教科書(shū),還為其樹(shù)立了銅像

云霄紀(jì)史觀
2025-12-27 15:49:05
2026集采落地!爸媽的原研藥:價(jià)格腰斬+供應(yīng)管夠

2026集采落地!爸媽的原研藥:價(jià)格腰斬+供應(yīng)管夠

王二哥老搞笑
2026-01-07 10:03:06
宜家中國(guó)七家門(mén)店2月將停止運(yùn)營(yíng),涉及上海、廣州等多地商場(chǎng)

宜家中國(guó)七家門(mén)店2月將停止運(yùn)營(yíng),涉及上海、廣州等多地商場(chǎng)

南方都市報(bào)
2026-01-07 12:04:14
王石的體面,被田樸珺扯得干干凈凈

王石的體面,被田樸珺扯得干干凈凈

言叔財(cái)經(jīng)視角
2026-01-05 13:50:10
密密麻麻!浙江24歲女子后悔,短短一年內(nèi)敏感部位全長(zhǎng)滿(mǎn)!醫(yī)生:早該重視了……

密密麻麻!浙江24歲女子后悔,短短一年內(nèi)敏感部位全長(zhǎng)滿(mǎn)!醫(yī)生:早該重視了……

臺(tái)州交通廣播
2026-01-07 06:53:53
孫紅雷陪老婆逛街被抓拍!55歲穿得比媳婦還靚,身高差成最大看點(diǎn)

孫紅雷陪老婆逛街被抓拍!55歲穿得比媳婦還靚,身高差成最大看點(diǎn)

小咪侃娛圈
2026-01-07 14:05:32
99年朱總理訪(fǎng)美,被問(wèn)中國(guó)給克林頓30萬(wàn)獻(xiàn)金,總理:怎么才30萬(wàn)?

99年朱總理訪(fǎng)美,被問(wèn)中國(guó)給克林頓30萬(wàn)獻(xiàn)金,總理:怎么才30萬(wàn)?

WarOH協(xié)虎
2024-12-01 22:10:02
鄭爽工作室發(fā)聲,曬爽爸和張恒家人對(duì)話(huà)錄音,對(duì)方抱怨管不了孩子

鄭爽工作室發(fā)聲,曬爽爸和張恒家人對(duì)話(huà)錄音,對(duì)方抱怨管不了孩子

心靜物娛
2026-01-07 11:20:19
我媽90歲還能生活自理,她的長(zhǎng)壽秘訣就一句:“別老想著走動(dòng)”

我媽90歲還能生活自理,她的長(zhǎng)壽秘訣就一句:“別老想著走動(dòng)”

蟬吟槐蕊
2025-12-28 14:32:30
福建艦快滿(mǎn)編了殲-35卻撐不住中國(guó)艦載機(jī)要換大號(hào)

福建艦快滿(mǎn)編了殲-35卻撐不住中國(guó)艦載機(jī)要換大號(hào)

阿芒娛樂(lè)說(shuō)
2026-01-07 12:26:16
72年,李敏挺孕肚來(lái)中南海探親,毛主席罕見(jiàn)怒道:孔令華太不像話(huà)

72年,李敏挺孕肚來(lái)中南海探親,毛主席罕見(jiàn)怒道:孔令華太不像話(huà)

歷史龍?jiān)w
2026-01-06 14:10:03
住建部:已查清全國(guó)住房數(shù)量,房屋過(guò)剩問(wèn)題嚴(yán)重,7.7億㎡待售

住建部:已查清全國(guó)住房數(shù)量,房屋過(guò)剩問(wèn)題嚴(yán)重,7.7億㎡待售

小裝修
2026-01-06 09:35:17
四川成都一佳人好漂亮,身高168cm,體重47kg 美的讓人移不開(kāi)眼

四川成都一佳人好漂亮,身高168cm,體重47kg 美的讓人移不開(kāi)眼

東方不敗然多多
2026-01-07 10:20:04
2025年,內(nèi)娛最賺錢(qián)的10位明星,劉德華第四,第一名讓人意外

2025年,內(nèi)娛最賺錢(qián)的10位明星,劉德華第四,第一名讓人意外

林雁飛
2026-01-06 13:15:06
中國(guó)干細(xì)胞治療大突破!1.98萬(wàn)治愈多種絕癥,醫(yī)保也覆蓋了?

中國(guó)干細(xì)胞治療大突破!1.98萬(wàn)治愈多種絕癥,醫(yī)保也覆蓋了?

Thurman在昆明
2026-01-07 01:48:56
2026-01-07 14:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12069文章數(shù) 142530關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

頭條要聞

古巴公布32名陣亡軍人姓名和照片 年齡介于26歲至67歲

頭條要聞

古巴公布32名陣亡軍人姓名和照片 年齡介于26歲至67歲

體育要聞

賣(mài)水果、搬磚的小伙,與哈蘭德?tīng)?zhēng)英超金靴

娛樂(lè)要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

農(nóng)大教授科普:無(wú)需過(guò)度擔(dān)憂(yōu)蔬菜農(nóng)殘

汽車(chē)要聞

蔚來(lái)2025百萬(wàn)臺(tái)收官 一場(chǎng)遲到的自我修復(fù)

態(tài)度原創(chuàng)

本地
教育
親子
公開(kāi)課
軍事航空

本地新聞

云游內(nèi)蒙|初見(jiàn)呼和浩特,古今交融的北疆都會(huì)

教育要聞

初二這一年,差不多就能看出孩子將來(lái)上什么大學(xué)了

親子要聞

幫忙帶娃被網(wǎng)暴后續(xù),小姑子曬出多張證據(jù),親戚透露更多內(nèi)情

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項(xiàng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版