国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港大聯(lián)合字節(jié)跳動提出JoVA: 聯(lián)合自注意力視頻-音頻聯(lián)合生成模型

0
分享至



作者介紹:本文第一作者黃小虎同學(xué),目前是香港大學(xué)的三年級在讀博士生,導(dǎo)師是韓鍇教授。黃小虎的研究方向是以視頻為中心的領(lǐng)域,包括音視頻生成、視頻理解以及視頻識別。

視頻 - 音頻聯(lián)合生成的研究近期在開源與閉源社區(qū)都備受關(guān)注,其中,如何生成音視頻對齊的內(nèi)容是研究的重點(diǎn)。

近日,來自香港大學(xué)和字節(jié)跳動的研究團(tuán)隊(duì)提出了一種簡單有效的框架 ——JoVA,它支持視頻和音頻的 Token 在一個 Transformer 的注意力模塊中直接進(jìn)行跨模態(tài)交互。為了解決人物說話時的 “口型 - 語音同步” 問題,JoVA 引入了一個基于面部關(guān)鍵點(diǎn)檢測的嘴部區(qū)域特定損失 (Mouth-area specific loss)。

實(shí)驗(yàn)表明,JoVA 只采用了約 190 萬條訓(xùn)練數(shù)據(jù),便在口型同步準(zhǔn)確率、語音質(zhì)量和整體生成保真度上,達(dá)到了先進(jìn)水平。



  • 項(xiàng)目主頁: https://visual-ai.github.io/jova/
  • 論文地址:https://arxiv.org/abs/2512.13677

一、研究背景與動機(jī)

目前的開源解決方案通常分為兩大類別:一類是 “級聯(lián)式”,即先生成視頻再配音,或者先生成語音再驅(qū)動視頻生成,這種方式在一定程度上會導(dǎo)致音頻和畫面的割裂;另一類是 “端到端的聯(lián)合生成”,試圖同時輸出視頻和音頻。

如下圖 a, 現(xiàn)有的端到端方法(如 OVi 和 Universe 等),為了實(shí)現(xiàn)雙模態(tài)對齊,需要在自注意力層 (self-attention) 之外,額外設(shè)計(jì)融合模塊或跨注意力層 (Cross-attention)。這不僅破壞了 Transformer 架構(gòu)的簡潔性,還可能阻礙進(jìn)一步的數(shù)據(jù)和模態(tài)擴(kuò)展。

相比之下,JoVA 采用了更加簡潔的設(shè)計(jì)(如圖 b),直接使用聯(lián)合自注意力層 (joint self-attention) 進(jìn)行兩種模態(tài)特征的融合與對齊。它同時承擔(dān)了單模態(tài)內(nèi)的建模以及跨模態(tài)的融合任務(wù),無需引入任何新的模塊。



二、方法設(shè)計(jì)

1. 架構(gòu)描述

JoVA 采用 Waver 作為基礎(chǔ)模型。為了實(shí)現(xiàn)音頻生成,JoVA 首先通過復(fù)制預(yù)訓(xùn)練視頻主干網(wǎng)絡(luò) (Backbone) 的參數(shù)來初始化音頻擴(kuò)散模型。在特征提取方面,采用了 MMAudio VAE 將原始音頻轉(zhuǎn)換為聲譜圖潛在表示 (Latent Representation)。

音頻分支的訓(xùn)練沿用了與視頻分支相同的流匹配 (Flow Matching) 目標(biāo)函數(shù)。在預(yù)訓(xùn)練階段,視頻和音頻模態(tài)是獨(dú)立訓(xùn)練的;而在后續(xù)階段,兩者被統(tǒng)一整合進(jìn)同一個架構(gòu)中進(jìn)行并行處理。此外,對于視頻生成,模型支持參考圖像 (Reference Image) 作為條件輸入。該圖像經(jīng)由視頻 VAE 編碼后,在通道維度上與噪聲視頻潛特征進(jìn)行拼接。



2. 音頻 - 視頻 - 文本聯(lián)合自注意力層

為了實(shí)現(xiàn)模態(tài)間的融合,JoVA 在 Transformer 塊內(nèi)部采用聯(lián)合自注意力機(jī)制(Joint Self-Attention)。具體而言,視頻 Token、音頻 Token 以及對應(yīng)的文本 Token 被拼接在一起,輸入到共享的自注意力層中進(jìn)行處理。這種設(shè)計(jì)允許不同模態(tài)的 Token 在每一層都進(jìn)行直接的信息交換,既保留了各自的預(yù)訓(xùn)練知識,又實(shí)現(xiàn)了特征融合。為了確保視頻與音頻在時間維度上的精確同步,模型采用了源自 MMAudio 的時間對齊旋轉(zhuǎn)位置編碼(Temporal-aligned RoPE),在時間維度上同步了兩種模態(tài)的位置編碼。

3. 潛空間嘴部區(qū)域感知監(jiān)督(Mouth-Aware Supervision)

為了解決人像生成中的唇形同步問題,JoVA 引入了一種針對嘴部區(qū)域的增強(qiáng)監(jiān)督策略。該過程包含三個步驟:

1. 區(qū)域定位:首先在原始視頻幀上進(jìn)行面部關(guān)鍵點(diǎn)檢測,計(jì)算出覆蓋嘴部區(qū)域的像素級邊界框。

2. 潛空間映射:將像素空間的邊界框映射到 VAE 的潛空間。這包括空間上的縮放(除以空間下采樣因子 s)和時間上的滑動窗口聚合(根據(jù)時間下采樣因子 t 合并窗口內(nèi)的邊界框),以精確定位潛特征中的嘴部區(qū)域。

3. 加權(quán)損失:在訓(xùn)練目標(biāo)函數(shù)中引入了專門的嘴部損失項(xiàng)。該損失僅對視頻潛特征中的嘴部掩碼區(qū)域計(jì)算流匹配損失,并通過權(quán)重系數(shù)進(jìn)行調(diào)節(jié)。最終的總損失函數(shù)由視頻損失、音頻損失和嘴部區(qū)域損失共同構(gòu)成,從而在不增加推理階段架構(gòu)復(fù)雜度的前提下,強(qiáng)制模型學(xué)習(xí)細(xì)粒度的唇形 - 語音對齊。



如下圖,我們可以發(fā)現(xiàn),這種映射方式可以很好地在潛空間定位到嘴部區(qū)域:



三、訓(xùn)練數(shù)據(jù)集構(gòu)建

作者構(gòu)建了包含三個部分的訓(xùn)練數(shù)據(jù)集:Text2Audio(環(huán)境音)、Text2Video-Audio(自然場景視聽對)以及 Text2Avatar-Speech(數(shù)字人 / 說話人視頻),總共約 1.9M 的訓(xùn)練樣本。數(shù)據(jù)標(biāo)注采用了一套自動化流水線:使用 Tarsier2 生成視頻描述,Audio-flamingo3 生成音頻描述,并利用 Whisper 進(jìn)行自動語音識別(ASR)以獲取語音文本。

在實(shí)施細(xì)節(jié)上,采用兩階段訓(xùn)練策略:先進(jìn)行語音單模態(tài)獨(dú)立訓(xùn)練(80K 步),再進(jìn)行聯(lián)合視聽訓(xùn)練(50K 步),并在推理時使用了分類器無關(guān)引導(dǎo)(Classifier-Free Guidance)以提升生成質(zhì)量。



四、實(shí)驗(yàn)結(jié)果

1. SOTA 方法對比

在 UniAvatar-Bench(作者精選的 100 個樣本)和 Verse-Bench(600 個多樣化樣本)兩個基準(zhǔn)上進(jìn)行了評估。對比對象包括兩類:一是使用真實(shí)音頻驅(qū)動的視頻生成模型(如 Wan-S2V, Fantasy-Talking),二是聯(lián)合視聽生成模型(如 Universe-1, OVI)。

UniAvatar-Bench 表現(xiàn):JoVA 在整體性能上表現(xiàn)最佳。

  • 唇形同步(LSE-C):得分為 6.64,不僅優(yōu)于聯(lián)合生成模型 OVI (6.41) 和 Universe-1 (1.62),甚至超過了使用真實(shí)音頻驅(qū)動的 Wan-S2V (6.43),證明了嘴部監(jiān)督策略的有效性。
  • 語音與音頻質(zhì)量:在文本轉(zhuǎn)語音準(zhǔn)確性上,JoVA 取得了最低的詞錯誤率(WER 0.18);在音頻生成指標(biāo)(FD, KL, CE, CU, PQ)上均取得最佳分?jǐn)?shù)。
  • 視頻質(zhì)量:在動態(tài)程度(MS 0.98)和美學(xué)評分(AS 0.47)上均領(lǐng)先。雖然身份一致性(ID 0.78)低于音頻驅(qū)動模型,但在聯(lián)合生成任務(wù)中處于合理范圍。



Verse-Bench 表現(xiàn):JoVA 展現(xiàn)了在多樣化場景下的魯棒性。

  • 語音準(zhǔn)確性:WER 低至 0.11,驗(yàn)證了其穩(wěn)健的語音合成能力。
  • 視聽對齊:LSE-C 得分為 6.51,略低于 OVI (6.61) 但遠(yuǎn)高于 Universe (1.62)。
  • 綜合質(zhì)量:在保持最高視頻動態(tài)(MS 0.80)和美學(xué)質(zhì)量(AS 0.48)的同時,音頻生成的一致性(CS, CE)也達(dá)到了最優(yōu)水平。



模型擴(kuò)展性與效率分析

研究進(jìn)一步對比了基于 Waver-1.6B(總參數(shù)量 3.2B)和 Waver-12B(總參數(shù)量 24B)主干網(wǎng)絡(luò)的 JoVA 模型性能:

  • 小模型的高效性:僅使用 3.2B 參數(shù)和 1.9M 訓(xùn)練數(shù)據(jù)的 JoVA 模型,其 LSE-C 得分達(dá)到 6.20,顯著優(yōu)于參數(shù)量更大(7.1B)且訓(xùn)練數(shù)據(jù)更多(6.4M)的 Universe-1 模型(LSE-C 1.62),并與 10.9B 參數(shù)的 OVI 模型具備競爭力。
  • 大模型的性能上限:隨著參數(shù)量增加至 24B,JoVA 在各項(xiàng)指標(biāo)上均達(dá)到最佳水平(LSE-C 提升至 6.64,WER 降至 0.18)。



2. 融合實(shí)驗(yàn)對比

為了驗(yàn)證各模塊的有效性,作者進(jìn)行了多項(xiàng)消融實(shí)驗(yàn):

嘴部感知損失(Mouth-Aware Loss)的影響:

  • 當(dāng)權(quán)重為 0.0 時,模型無法學(xué)習(xí)細(xì)粒度的唇形對齊(LSE-C 僅為 1.39)。
  • 增加權(quán)重至 5.0 時,LSE-C 顯著提升至 6.64,且未損害其他音頻或視頻質(zhì)量指標(biāo)。這表明針對嘴部區(qū)域的顯式監(jiān)督對于實(shí)現(xiàn)精確同步至關(guān)重要。



時間對齊 RoPE 的影響:

  • 采用時間對齊的 RoPE(視頻和音頻共享時間維度的位置編碼)相比未對齊版本,LSE-C 從 6.58 提升至 6.64。
  • 盡管在音頻分布相似度(FD)上存在輕微折損(0.58 vs 0.69),但該設(shè)計(jì)顯著增強(qiáng)了幀級的時間對應(yīng)關(guān)系,更利于人像視頻生成。



聯(lián)合自注意力 vs. 交叉注意力:

  • 對比結(jié)果顯示,聯(lián)合自注意力(Joint Self-Attention) 機(jī)制在唇形同步(LSE-C 6.64)和語音準(zhǔn)確性(WER 0.18)上均優(yōu)于交叉注意力變體。
  • 特別是帶線性適配層的交叉注意力方案表現(xiàn)最差(LSE-C 1.63)。這證實(shí)了在統(tǒng)一的注意力空間內(nèi)直接處理多模態(tài) Token,比通過獨(dú)立的交叉注意力模塊更能促進(jìn)特征的有效對齊。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
竇文濤《圓桌派》不嫌丟人嗎

竇文濤《圓桌派》不嫌丟人嗎

智識漂流
2025-12-30 18:31:38
2026汽車“以舊換新”國補(bǔ)調(diào)整為按車價比例補(bǔ)貼,最高不超2萬元

2026汽車“以舊換新”國補(bǔ)調(diào)整為按車價比例補(bǔ)貼,最高不超2萬元

IT之家
2025-12-30 18:51:05
來了!約基奇最新傷情狀態(tài)!這可是NBA當(dāng)代第一人

來了!約基奇最新傷情狀態(tài)!這可是NBA當(dāng)代第一人

籃球?qū)崙?zhàn)寶典
2025-12-30 23:22:27
媒體們賣力宣傳俄羅斯游,老藝術(shù)家們的腳步卻停留在了洛杉磯

媒體們賣力宣傳俄羅斯游,老藝術(shù)家們的腳步卻停留在了洛杉磯

林中木白
2025-12-30 12:25:50
房地產(chǎn)2026新政,國家?guī)唾u房人省錢了!

房地產(chǎn)2026新政,國家?guī)唾u房人省錢了!

櫻桃大房子
2025-12-30 21:05:36
2026央視跨年晚會正式官宣!最被期待明星排名出爐,周深僅排第4

2026央視跨年晚會正式官宣!最被期待明星排名出爐,周深僅排第4

洲洲影視娛評
2025-12-30 17:11:13
蔡磊證實(shí),病情接近終末期,“五體癱軟,無法言語。壓痛、口水、嗆咳、吞咽、憋氣每天都在折磨我,呼吸功能進(jìn)一步減弱……”

蔡磊證實(shí),病情接近終末期,“五體癱軟,無法言語。壓痛、口水、嗆咳、吞咽、憋氣每天都在折磨我,呼吸功能進(jìn)一步減弱……”

揚(yáng)子晚報
2025-12-30 14:43:33
西安事變真相:蔣家7侄陣亡護(hù)蔣,雙方死傷超600,血債被記五十四年

西安事變真相:蔣家7侄陣亡護(hù)蔣,雙方死傷超600,血債被記五十四年

磊子講史
2025-12-30 18:03:15
聯(lián)盟第一人,還是倒下了!掘金還有底牌嗎?

聯(lián)盟第一人,還是倒下了!掘金還有底牌嗎?

籃球盛世
2025-12-30 21:21:52
633元羽絨服大結(jié)局:"蘇某"報警,商家恐怕永久閉店,廠家刪視頻

633元羽絨服大結(jié)局:"蘇某"報警,商家恐怕永久閉店,廠家刪視頻

奇思妙想草葉君
2025-12-29 23:49:54
成龍新片口碑大爆,演技被稱贊,有望成金像獎影帝,票房劍指20億

成龍新片口碑大爆,演技被稱贊,有望成金像獎影帝,票房劍指20億

影視高原說
2025-12-30 14:19:26
4-1終結(jié)維拉11連勝!阿森納5分領(lǐng)跑鎖定半程冠軍 特羅薩德傳射

4-1終結(jié)維拉11連勝!阿森納5分領(lǐng)跑鎖定半程冠軍 特羅薩德傳射

狍子歪解體壇
2025-12-31 06:12:57
4-1大勝!阿爾特塔擊敗埃梅里,英超領(lǐng)頭羊狂飆:豪取6連勝

4-1大勝!阿爾特塔擊敗埃梅里,英超領(lǐng)頭羊狂飆:豪取6連勝

足球狗說
2025-12-31 06:13:04
溫州市委書記張振豐已任浙江省委常委

溫州市委書記張振豐已任浙江省委常委

澎湃新聞
2025-12-30 21:34:26
12月30日俄烏:精心包裝的謊言,遠(yuǎn)比不上澤連斯基的睿智

12月30日俄烏:精心包裝的謊言,遠(yuǎn)比不上澤連斯基的睿智

山河路口
2025-12-30 17:48:08
嘴上不捂裹腳布,人話才能得人心!蔣萬安上海演講虜獲無數(shù)大陸粉

嘴上不捂裹腳布,人話才能得人心!蔣萬安上海演講虜獲無數(shù)大陸粉

瑜說還休
2025-12-30 13:21:41
35歲金晨近照曝光翻車了!腫脹的像發(fā)面饅頭,越來越像網(wǎng)紅了

35歲金晨近照曝光翻車了!腫脹的像發(fā)面饅頭,越來越像網(wǎng)紅了

小徐講八卦
2025-12-30 07:31:30
一個國家正在崩塌:伊朗女孩扔掉頭巾,如同大清朝開始剪辮子

一個國家正在崩塌:伊朗女孩扔掉頭巾,如同大清朝開始剪辮子

老范談史
2025-12-29 15:59:06
華為孟晚舟:鴻蒙5.0以上終端設(shè)備超3600萬,鯤鵬已發(fā)展380萬開發(fā)者

華為孟晚舟:鴻蒙5.0以上終端設(shè)備超3600萬,鯤鵬已發(fā)展380萬開發(fā)者

界面新聞
2025-12-30 10:17:58
上海炒股冠軍肺腑之言:如果你有10萬資金,建議死啃520均線戰(zhàn)法

上海炒股冠軍肺腑之言:如果你有10萬資金,建議死啃520均線戰(zhàn)法

股經(jīng)縱橫談
2025-12-30 20:08:56
2025-12-31 06:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12022文章數(shù) 142523關(guān)注度
往期回顧 全部

科技要聞

估值150億的智元,開始批量"制造"小獨(dú)角獸

頭條要聞

轟-6K飛行員:已到達(dá)任務(wù)空域?qū)棞?zhǔn)備完畢 可以發(fā)射

頭條要聞

轟-6K飛行員:已到達(dá)任務(wù)空域?qū)棞?zhǔn)備完畢 可以發(fā)射

體育要聞

聯(lián)盟第一人倒下了!掘金還有底牌嗎?

娛樂要聞

林俊杰女友被扒 父親涉經(jīng)濟(jì)案卷款13億?

財經(jīng)要聞

朱光耀:美關(guān)稅政策正使WTO名存實(shí)亡

汽車要聞

標(biāo)配華為乾崑ADS 4 Pro 華境S明年上半年上市

態(tài)度原創(chuàng)

教育
房產(chǎn)
健康
公開課
軍事航空

教育要聞

初中三年,哪一步錯都不行

房產(chǎn)要聞

瘋了!2025海南拿地榜巨變:榜首狂砸80億,民企火力全開!

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

福建海警艦艇與臺海巡船對峙航行

無障礙瀏覽 進(jìn)入關(guān)懷版