国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

多模態(tài)情感分析的三重解耦表征學(xué)習(xí)

0
分享至

Triple disentangled representation learning for multimodal affective analysis

用于多模態(tài)情感分析的三重解耦表征學(xué)習(xí)

https://www.sciencedirect.com/science/article/pii/S156625352400441X



摘要:

在多模態(tài)情感分析(MAA)任務(wù)中,不同模態(tài)之間存在的異質(zhì)性推動(dòng)了對(duì)解耦(disentanglement)方法的探索,使其成為一個(gè)關(guān)鍵研究方向。許多新興研究聚焦于從輸入數(shù)據(jù)中解耦出模態(tài)不變(modality-invariant)表示和模態(tài)特異性(modality-specific)表示,然后將它們?nèi)诤嫌糜陬A(yù)測。然而,我們的研究表明,模態(tài)特異性表示可能包含與任務(wù)無關(guān)甚至沖突的信息,從而降低了所學(xué)多模態(tài)表示的有效性。我們重新審視了解耦問題,并提出了一種新穎的三重解耦方法——TriDiRA,該方法從輸入數(shù)據(jù)中解耦出模態(tài)不變表示、有效的模態(tài)特異性表示以及無效的模態(tài)特異性表示。通過僅融合模態(tài)不變表示和有效的模態(tài)特異性表示,TriDiRA 能夠顯著緩解在模型訓(xùn)練和預(yù)測過程中跨模態(tài)的無關(guān)與沖突信息所帶來的負(fù)面影響。在四個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們提出的三重解耦方法具有優(yōu)異的有效性和泛化能力,性能超越了當(dāng)前最先進(jìn)的(SOTA)方法。代碼已公開于:https://anonymous.4open.science/r/TriDiRA 。

關(guān)鍵詞:多模態(tài)學(xué)習(xí),情感分析,表征學(xué)習(xí)

  1. 引言人們通過協(xié)同利用多種感官來感知世界,因?yàn)槎嗄B(tài)感知能夠從不同方面提供更全面的信息 [1–3]。近年來,由于信息更加豐富,多模態(tài)學(xué)習(xí)顯著提升了多模態(tài)情感分析(MAA,包括情感回歸和情緒分類)的性能 [4,5]。一項(xiàng)新興研究 [6] 證實(shí),不同模態(tài)通常既包含一致的情感信息,也包含互補(bǔ)的情感信息,其中互補(bǔ)信息能夠顯著提升模型性能。

許多先前的方法開發(fā)了復(fù)雜的機(jī)制,以融合來自不同模態(tài)的互補(bǔ)信息 [7,8]。其中大多數(shù)方法將每個(gè)模態(tài)的信息視為一個(gè)整體。然而,由于模態(tài)之間的異質(zhì)性以及信息的多樣性,它們往往學(xué)到了粗糙或冗余的多模態(tài)表示 [9,10]。隨后,一些研究試圖通過首先學(xué)習(xí)模態(tài)的潛在表示,再從每個(gè)模態(tài)中提取理想特性,從而改進(jìn)多模態(tài)融合。這些方法大致可分為兩類:(1) 一致性表征學(xué)習(xí) [11–13],主要關(guān)注模態(tài)間的一致信息。它將來自不同模態(tài)的特征視為一個(gè)統(tǒng)一的整體進(jìn)行學(xué)習(xí)和評(píng)估,并利用相關(guān)性 [13]、互信息 [11] 和相似性 [12,14] 等約束條件,引導(dǎo)模型主要從包含一致信息的模態(tài)中學(xué)習(xí)。然而,這類方法無意中忽略了每個(gè)模態(tài)所特有的互補(bǔ)信息。(2) 解耦表征學(xué)習(xí),不僅學(xué)習(xí)一致表征,還學(xué)習(xí)每個(gè)模態(tài)的特異性表征 [9,15,16]。與第一類方法相比,這是一種更細(xì)粒度的多模態(tài)表征學(xué)習(xí)。如圖1(b)所示,所有這些方法都采用二元解耦策略,將每個(gè)模態(tài)的表征分解為模態(tài)不變表征和模態(tài)特異性表征 u 。它們認(rèn)為這兩部分都與標(biāo)簽相關(guān),并將它們

融合用于預(yù)測。然而,我們的研究發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:模態(tài)不變表征通常與給定標(biāo)簽一致,但在模態(tài)特異性表征中,只有部分信息與標(biāo)簽語義一致且具有實(shí)際意義。例如,如圖1(a)所示,一個(gè)人正在推薦一部有趣的電影。她的面部表情和語調(diào)表明她覺得這部電影“有趣”。但某些文本信息,例如“messed up”(一團(tuán)糟)這樣的詞語,卻反映出負(fù)面情感。由于前述方法忽視了這一問題,此類無關(guān)甚至沖突的信息實(shí)際上會(huì)損害模型的訓(xùn)練和預(yù)測效果。



本文的貢獻(xiàn)如下:

(1) 我們重新審視了MAA問題,并提出了一種新穎的三重解耦模型TriDiRA,該模型從每個(gè)模態(tài)中解耦出模態(tài)不變表征和有效的模態(tài)特異性表征用于預(yù)測,同時(shí)排除無效的模態(tài)特異性表征。據(jù)我們所知,TriDiRA是文獻(xiàn)中首個(gè)用于情感分析任務(wù)的三重解耦模型。

(2) 我們引入了一個(gè)雙輸出注意力模塊。它可以通過高度動(dòng)態(tài)的交互,實(shí)現(xiàn)模態(tài)特異性子空間與標(biāo)簽相關(guān)子空間之間更好的交集,從而有助于提升三重解耦的有效性。

(3) 在情感回歸和多情緒分類數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了我們所提方法的有效性。

  1. 相關(guān)工作2.1 多模態(tài)表征學(xué)習(xí)

多模態(tài)表征學(xué)習(xí)旨在從每個(gè)模態(tài)中提取有效的語義信息并將其融合。大多數(shù)先前的工作聚焦于學(xué)習(xí)不同模態(tài)之間的一致性信息。例如,Mittal 等人 [17] 提出了 M3ER 方法,該方法引入了一個(gè)檢查步驟,利用典型相關(guān)分析(Canonical Correlational Analysis, CCA)[18] 有效區(qū)分無效模態(tài)與有效模態(tài)。類似地,Sun 等人 [19] 提出了 ICCN 模型,通過結(jié)合特征對(duì)的外積與深度典型相關(guān)分析(Deep Canonical Correlation Analysis, DCCA)[13] 來探索有用的多模態(tài)嵌入特征。與此不同的是,Han 等人 [11] 設(shè)計(jì)了 MMIM,旨在在輸入層和融合層同時(shí)最大化互信息(Mutual Information, MI)[20],以在多模態(tài)融合過程中保留與標(biāo)簽相關(guān)的信息。Yu 等人 [21] 提出了 Self-MM,這是一種多模態(tài)與單模態(tài)任務(wù)聯(lián)合訓(xùn)練策略,分別促進(jìn)模態(tài)間一致性的學(xué)習(xí)。Mai 等人 [12] 應(yīng)用了模態(tài)內(nèi)/模態(tài)間對(duì)比學(xué)習(xí)以及半對(duì)比學(xué)習(xí),以處理樣本間和類別間的關(guān)系,同時(shí)縮小模態(tài)差距。Lin 等人 [22] 引入了一種新穎的極向量與強(qiáng)度向量混合模型(Polar-Vector and Strength-Vector mixer model),稱為 PSMixer,其設(shè)計(jì)目的是減輕多模態(tài)數(shù)據(jù)集中固有噪聲的影響。

若干研究聚焦于文本模態(tài)。例如,Zhang 等人 [23] 提出了 ALMT 框架,旨在在多尺度文本特征的指導(dǎo)下學(xué)習(xí)能夠抑制無關(guān)和沖突信息的表征。在另一項(xiàng)研究中,Wang 等人 [24] 提出了 CENet 模型,通過將視覺和聲學(xué)數(shù)據(jù)整合到單一語言模型框架中,以增強(qiáng)文本表征。此外,Wang 等人 [25] 引入了 TETFN,這是一個(gè)創(chuàng)新框架,通過學(xué)習(xí)以文本為導(dǎo)向的成對(duì)跨模態(tài)映射,以獲得有效的統(tǒng)一多模態(tài)表征。最近的一項(xiàng)工作 UniMSE [26] 將情感分析與情緒識(shí)別任務(wù)統(tǒng)一起來,并同時(shí)利用模態(tài)間對(duì)比學(xué)習(xí)來獲取具有判別性的多模態(tài)表征。

盡管如此,這些方法中的大多數(shù)可能會(huì)忽略各模態(tài)所獨(dú)有的互補(bǔ)特征。

2.2 二元解耦表征學(xué)習(xí)

近期的研究采用動(dòng)態(tài)分析并學(xué)習(xí)每個(gè)模態(tài)內(nèi)針對(duì)單個(gè)樣本的特征,從而形成一種細(xì)粒度的多模態(tài)表征學(xué)習(xí)方法。這些方法將特征分解為兩部分:在模態(tài)間共享的模態(tài)不變表征,以及每個(gè)模態(tài)私有的模態(tài)特異性表征。受域分離網(wǎng)絡(luò)(Domain Separation Network, DSN)[27] 的啟發(fā),Hazarika 等人 [15] 提出了開創(chuàng)性工作 MISA,將每個(gè)模態(tài)的特征投影到一個(gè)模態(tài)不變子空間和一個(gè)模態(tài)特異性子空間中,隨后使用 Transformer [28] 對(duì)這兩個(gè)子空間的表征進(jìn)行融合。Yang 等人 [9] 提出了 FDMER,通過改進(jìn)解耦約束,并以對(duì)抗方式引導(dǎo)特征解耦,確保不同的表征被準(zhǔn)確地映射到各自對(duì)應(yīng)的子空間中。另一種方法 TAILOR [29] 同樣將模態(tài)特征解耦為兩組,并引入了一個(gè)類似 BERT 的 Transformer [30] 編碼器,以粒度遞減的方式逐步融合這些特征。此外,Yang 等人 [31] 提出使用自注意力模塊來增強(qiáng)模態(tài)特異性特征,并采用分層跨模態(tài)注意力模塊來探索模態(tài)不變特征之間的相關(guān)性。Li 等人 [16] 提出了一種解耦的多模態(tài)蒸餾方法,用于解耦模態(tài)特異性和模態(tài)不變信息。Yin 等人 [32] 設(shè)計(jì)了一個(gè) Token 解耦模塊和一個(gè) Token 互注意力 Transformer,以有效挖掘并整合情感信息。Liu 等人 [33] 引入了一種腦機(jī)耦合學(xué)習(xí)方法,利用腦電圖(EEG)信號(hào)與視覺圖像及其共享與私有表征進(jìn)行聯(lián)合建模。

然而,值得注意的是,上述方法中極少有考慮到模態(tài)特異性表征中可能存在的無關(guān)或沖突表征。

我們提出的三重解耦策略 TriDiRA 重新審視了這一問題,聚焦于標(biāo)簽相關(guān)子空間與模態(tài)相關(guān)子空間。由于這兩個(gè)子空間存在交集,TriDiRA 通過僅利用模態(tài)不變表征和有效的模態(tài)特異性表征,既能從模態(tài)特異性表征中學(xué)習(xí)互補(bǔ)信息,又能同時(shí)排除無關(guān)和沖突的信息。

  1. 方法

3.1 任務(wù)定義


我們提出的 TriDiRA 模型由三個(gè)模塊組成:特征提取、特征解耦和特征融合,如圖2所示。具體細(xì)節(jié)如下所述。


3.2 特征提取

近期,基于 Transformer 的多模態(tài)學(xué)習(xí)在特征提取和融合方面展現(xiàn)了顯著的有效性。然而,隨著模態(tài)數(shù)量的增加,模型結(jié)構(gòu)變得日益復(fù)雜,導(dǎo)致參數(shù)數(shù)量激增。一項(xiàng)新興研究 [34] 表明,模型中的統(tǒng)一架構(gòu)可以處理不同模態(tài)的任意配置,并通過在不同模態(tài)間共享部分參數(shù)實(shí)現(xiàn)更高的參數(shù)效率 [35]。受此啟發(fā),我們采用了一個(gè)統(tǒng)一的特征提取模塊,如圖2所示。該模塊包含三個(gè)模態(tài)特異性的 Transformer 編碼器和一個(gè)共享的 Transformer 編碼器。


3.3 解耦模塊





3.4 損失函數(shù)

每個(gè)解耦后的表征都具有自身的特性。為了獲得它們,我們精心設(shè)計(jì)了以下用于聯(lián)合優(yōu)化的損失函數(shù),包括任務(wù)損失、相似性損失、獨(dú)立性損失和重構(gòu)損失。

3.4.1 任務(wù)損失




3.4.2 相似性損失



3.4.3 獨(dú)立性損失



  1. 實(shí)驗(yàn)4.1 數(shù)據(jù)集

為了與現(xiàn)有的解耦方法 [9,15,16,31] 進(jìn)行比較,我們遵循它們的實(shí)驗(yàn)協(xié)議,并在三個(gè)基準(zhǔn)數(shù)據(jù)集 CMU-MOSI [39]、CMU-MOSEI [40] 和 UR-FUNNY [41] 上測試所有方法。這些數(shù)據(jù)集為每個(gè)話語(utterance)提供了多模態(tài)信號(hào)(文本、視覺和音頻)。由于這些數(shù)據(jù)集在回歸/分類任務(wù)中使用情感極性或強(qiáng)度作為標(biāo)簽,我們額外引入了一個(gè)包含六類情緒的 MELD [42] 數(shù)據(jù)集,以評(píng)估所有方法的泛化能力。此外,與在實(shí)驗(yàn)室環(huán)境中采集的數(shù)據(jù)(例如 IEMOCAP)不同,上述所有數(shù)據(jù)集中的語句均來自真實(shí)場景(in the wild),這正是我們測試的主要目標(biāo)。四個(gè)數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息列于表1。


CMU-MOSI 包含從93個(gè)視頻中切分出的2199個(gè)話語視頻片段,其中89名個(gè)體就有趣話題表達(dá)自己的觀點(diǎn)。每個(gè)片段都經(jīng)過人工標(biāo)注,情感值范圍為 ?3 到 +3,表示所表達(dá)情感的極性(正/負(fù))及其相對(duì)強(qiáng)度(由絕對(duì)值體現(xiàn))。

CMU-MOSEI 在 CMU-MOSI 的基礎(chǔ)上進(jìn)行了擴(kuò)展,增大了數(shù)據(jù)規(guī)模。它包含22856個(gè)已標(biāo)注的視頻片段(話語),來自5000個(gè)視頻、1000名個(gè)體和250個(gè)不同話題。

UR-FUNNY 提供了來自 TED 演講的16514個(gè)多模態(tài)話語樣本,涵蓋多樣化的主題和演講者。每個(gè)話語被標(biāo)注為二元標(biāo)簽:幽默(humor)或非幽默(non-humor)。

MELD 包含7274個(gè)多方對(duì)話的視頻片段,其標(biāo)簽遵循 Ekman 提出的六種基本情緒類別,包括:喜悅(joy)、悲傷(sadness)、恐懼(fear)、憤怒(anger)、驚訝(surprise)和厭惡(disgust)。

4.2 評(píng)估指標(biāo)

遵循先前工作 [9,11,15],評(píng)估在兩個(gè)任務(wù)上進(jìn)行:分類與回歸。對(duì)于 CMU-MOSI 和 CMU-MOSEI 數(shù)據(jù)集,報(bào)告分類任務(wù)中的二分類準(zhǔn)確率(Acc-2)、F1分?jǐn)?shù)和七分類準(zhǔn)確率(Acc-7)。請(qǐng)注意,Acc-2 和 F1-Score 有兩種計(jì)算方式:負(fù)/非負(fù)(包含零)和負(fù)/正(排除零)。我們還報(bào)告了回歸任務(wù)中的平均絕對(duì)誤差(MAE)和皮爾遜相關(guān)系數(shù)(Corr)。對(duì)于 UR-FUNNY 數(shù)據(jù)集,報(bào)告二分類準(zhǔn)確率(Acc-2)和 F1-Score。對(duì)于 MELD 數(shù)據(jù)集,報(bào)告六分類準(zhǔn)確率(Acc-6)。除 MAE 外,所有指標(biāo)的數(shù)值越高代表性能越好。

4.3 實(shí)驗(yàn)設(shè)置

對(duì)于文本特征,所有數(shù)據(jù)集均采用基于 BERT 的未區(qū)分大小寫預(yù)訓(xùn)練模型 [30]。在 CMU-MOSI、CMU-MOSEI 和 MELD 數(shù)據(jù)集上,使用 librosa [43] 提取梅爾頻譜圖以獲得聲學(xué)特征,并使用預(yù)訓(xùn)練的 EffecientNet [44] 獲取視覺特征。UR-FUNNY 使用 COVAREP [45] 提取聲學(xué)特征,使用 OpenFace [46] 提取面部表情特征。UR-FUNNY 的多模態(tài)特征是詞對(duì)齊的,而其他三個(gè)數(shù)據(jù)集使用詞不對(duì)齊的特征。所有方法均在一塊 RTX 3090 GPU 上進(jìn)行訓(xùn)練和測試。每次實(shí)驗(yàn)重復(fù)五次,報(bào)告平均結(jié)果。


為解決在四個(gè)數(shù)據(jù)集上訓(xùn)練時(shí)的收斂問題,采用了兩階段訓(xùn)練策略。在第一階段,訓(xùn)練不含 DS 模塊(解耦模塊)的模型。在第二階段,將 DS 模塊和多頭注意力模塊插入后繼續(xù)訓(xùn)練。此外,關(guān)于隨機(jī)種子,第一階段應(yīng)用其最優(yōu)權(quán)重,第二階段則采用五個(gè)隨機(jī)種子的平均值。

4.4 與 SOTA 方法的比較

4.4.1 對(duì)比方法

由于 TriDiRA 是首個(gè)三重解耦方法,性能對(duì)比主要與二元解耦方法 [9,15,16,29,31,32] 進(jìn)行。我們首先核查了它們?cè)谖墨I(xiàn)中報(bào)告的性能,然后選出了前四名(FDMER [9]、DMD [16]、MFSA [31] 和 TMT [32])以及代表性方法(MISA [15])作為對(duì)比對(duì)象。我們還考察了多模態(tài)表征學(xué)習(xí)方法 [11,12,17,19,21–24,26]。前六名方法(MMIM [11]、UniMSE [26]、HyCon [12]、PS-Mixer [22]、CENet (B)1 [24] 和 ALMT [23])也被納入對(duì)比范圍。

4.4.2 結(jié)果與分析

4.4.2.1 情感分析。

在 MOSI 和 MOSEI 上的評(píng)估結(jié)果列于表3??梢杂^察到,TriDiRA 在大多數(shù)指標(biāo)上(包括回歸和分類)均優(yōu)于所有重新實(shí)現(xiàn)的對(duì)比方法。



至于一致性表征學(xué)習(xí)方法,MMIM [11]、HyCon [12]、CENet [24] 和 ALMT [23] 均聚焦于縮小模態(tài)差距;PS-Mixer [22] 則旨在減少噪聲并促進(jìn)多模態(tài)融合。這些方法都能有效改進(jìn)多模態(tài)融合與預(yù)測,但可能會(huì)忽略某些模態(tài)特異性表征。而 TriDiRA 能進(jìn)一步利用這些表征以獲取互補(bǔ)信息,從而實(shí)現(xiàn)更優(yōu)的性能。

一項(xiàng)新興工作 UniMSE [26] 通過生成通用標(biāo)簽,將四個(gè)異構(gòu)數(shù)據(jù)集統(tǒng)一起來。它通過大幅擴(kuò)展訓(xùn)練數(shù)據(jù)顯著提升了表征學(xué)習(xí)效果,并取得了當(dāng)前最優(yōu)(SOTA)成績。相比之下,TriDiRA 僅依賴給定的數(shù)據(jù)集,卻憑借在學(xué)習(xí)過程中剔除無效表征,達(dá)到了可比的結(jié)果。

4.4.2.2 幽默檢測
由于幽默數(shù)據(jù)通常在不同模態(tài)間包含不一致的信息,我們專門在 UR-FUNNY(一個(gè)二分類數(shù)據(jù)集)上驗(yàn)證了 TriDiRA 的有效性。表4中的結(jié)果顯示出與表3中 ACC-2 結(jié)果相似的趨勢(shì),TriDiRA 同樣取得了最佳性能。


4.4.2.3 情緒分類
為測試 TriDiRA 與其他方法的魯棒性,還在更具挑戰(zhàn)性的情緒分類數(shù)據(jù)集 MELD 上進(jìn)行了比較。表4中的結(jié)果表明,TriDiRA 通過捕捉有效的情緒信息,優(yōu)于其他方法。

簡言之,TriDiRA 在情感回歸和多情緒分類任務(wù)上的優(yōu)越性表明其具有顯著的泛化能力。

二元解耦方法將模態(tài)特異性表征視為與標(biāo)簽相關(guān),如同模態(tài)不變表征一樣。

然而,我們發(fā)現(xiàn)并非所有樣本在各模態(tài)中都包含與標(biāo)簽一致的信息,也就是說,模態(tài)特異性表征可能包含與標(biāo)簽沖突的信息。因此,僅在包含沖突信息的樣本上評(píng)估模型是很有意義的。然而,很少有數(shù)據(jù)集提供單模態(tài)的標(biāo)注。為了識(shí)別包含沖突信息的樣本,我們?cè)趶V泛使用的 MOSI 數(shù)據(jù)集上應(yīng)用了 Self-MM 模型 [21]——該模型旨在為每個(gè)模態(tài)生成偽標(biāo)簽——以篩選樣本,并構(gòu)建一個(gè)新的子集用于進(jìn)一步評(píng)估。篩選標(biāo)準(zhǔn)是:如果 Self-MM 輸出的任意一個(gè)單模態(tài)標(biāo)簽與給定標(biāo)簽在回歸任務(wù)上的差異較大(≥2.5),則該樣本被選中。最終,從原始測試集中選出了 103 個(gè)樣本。我們認(rèn)為這些樣本的一個(gè)或多個(gè)模態(tài)可能包含與標(biāo)簽沖突的信息。該子集可通過 https://anonymous.4open.science/r/TriDiRA 獲取。

所有對(duì)比方法均在此子集上進(jìn)行了評(píng)估。表5所示的結(jié)果表明,TriDiRA 在 MAE 指標(biāo)上相比其他方法提升了 9.5% 至 46.7%,在相關(guān)系數(shù)(correlation)指標(biāo)上提升了 3.9% 至 23.1%。如此顯著的性能提升部分解釋了為何 TriDiRA 在第 4.4 節(jié)中優(yōu)于所有對(duì)比方法。然而,人們?nèi)钥煽闯?TriDiRA 在該子集上尚有進(jìn)一步改進(jìn)的空間。CENet (B) [24] 在 ACC-7 指標(biāo)上取得了最佳性能,而 TriDiRA 獲得了次優(yōu)結(jié)果。這可能歸因于 CENet 更側(cè)重于文本模態(tài),而在 CMU-MOSI 數(shù)據(jù)集中,相當(dāng)一部分沖突樣本主要依賴文本信息。此外,我們發(fā)現(xiàn)一小部分樣本的三個(gè)模態(tài)均與給定標(biāo)簽相沖突。表5中列出的所有方法均無法正確處理這類樣本。這一問題將在第5節(jié)“討論與結(jié)論”中進(jìn)一步探討。

4.6 解耦表征的披露







4.7 消融研究

如圖2所示,TriDiRA 由三個(gè)模塊組成:特征提取、特征解耦和特征融合。模型優(yōu)化中使用了五個(gè)損失函數(shù)。我們?cè)?MOSI 數(shù)據(jù)集上對(duì)每個(gè)模塊和損失函數(shù)進(jìn)行評(píng)估,并在表8中報(bào)告其有效性。

模塊的重要性:我們?cè)O(shè)置了一個(gè)基線模型,用于測試每個(gè)關(guān)鍵模塊的影響。該基線由三個(gè)模態(tài)特異性 Transformer 編碼器和多頭自注意力 Transformer 組成(如圖2所示),因?yàn)檫@兩者均為廣泛采用的特征提取與特征融合方法。隨后,分別將解耦模塊(DS)和共享 Transformer(ST)模塊插入基線模型中進(jìn)行評(píng)估。我們可以觀察到,DS 模塊在提升模型性能方面發(fā)揮了重要作用。ST 模塊能夠?qū)R異構(gòu)的多模態(tài)特征,從而提升模型性能,尤其在回歸任務(wù)上表現(xiàn)更為明顯。DS 模塊不僅能在不同模態(tài)間對(duì)齊有效表征,還能捕捉互補(bǔ)信息。將這兩個(gè)模塊結(jié)合,將進(jìn)一步增強(qiáng) DS 模塊提取有效表征的能力。


模態(tài)的重要性:我們系統(tǒng)地進(jìn)行了實(shí)驗(yàn),通過依次排除單個(gè)模態(tài)來評(píng)估各模態(tài)對(duì)性能的影響。如表8所示,文本模態(tài)在多模態(tài)情感分析任務(wù)中起著最關(guān)鍵的作用。而使用多模態(tài)數(shù)據(jù)可以獲得最優(yōu)性能,表明模型能夠捕捉互補(bǔ)特性,從而學(xué)習(xí)到更全面的信息。



損失權(quán)重設(shè)置:為展示模型在不同損失權(quán)重組合下的性能變化,我們?cè)?MOSI 數(shù)據(jù)集上報(bào)告了詳細(xì)結(jié)果(見表9)??梢钥闯?,權(quán)重組合 (a) 能帶來 TriDiRA 更優(yōu)的性能,因此后續(xù)實(shí)驗(yàn)均采用該組合 (a)。

4.8 正則項(xiàng)的變化趨勢(shì)

這些損失函數(shù)作為衡量模型對(duì)三種表征解耦效果的指標(biāo)。因此,我們?cè)?CMU-MOSI 數(shù)據(jù)集的訓(xùn)練集上追蹤了訓(xùn)練過程中各損失的變化。圖6展示了六種不同損失函數(shù)及整體模型損失的收斂曲線??梢钥闯?,所有損失均隨著訓(xùn)練輪數(shù)(epochs)的增加而呈下降趨勢(shì),并且在40個(gè)epoch內(nèi)即可收斂。這表明模型確實(shí)在按照設(shè)計(jì)學(xué)習(xí)所需的表征。

  1. 討論與結(jié)論

我們提出了 TriDiRA——一種新穎的三重解耦表征學(xué)習(xí)方法,旨在防止模型受到模態(tài)特異性表征中無關(guān)或沖突信息的干擾。盡管 TriDiRA 表面上看似是對(duì)二元解耦學(xué)習(xí)的升級(jí),但它通過深入考察多模態(tài)情感分析(MAA)任務(wù)的本質(zhì),解決了一個(gè)被二元方法所忽視的核心問題。因此,TriDiRA 在情感回歸和情緒分類任務(wù)上均顯著優(yōu)于當(dāng)前最先進(jìn)的(SOTA)方法,并展現(xiàn)出更強(qiáng)的泛化能力。通過兩個(gè)第三方評(píng)估器進(jìn)行的探索性分析揭示了其理想特性:通過剔除與標(biāo)簽無關(guān)的表征,有效表征的質(zhì)量得到了提升。

在未來的工作中,相似性損失與獨(dú)立性損失的建模方式為引入多樣化的正則化替代方案提供了可能。因此,我們計(jì)劃探索其他選項(xiàng),以進(jìn)一步增強(qiáng)三重解耦的效果,特別是提升模態(tài)不變表征的質(zhì)量。此外,我們識(shí)別出一些樣本,其全部三個(gè)模態(tài)所包含的語義均與給定標(biāo)簽相沖突。這引出了一個(gè)開放性問題:這類樣本中是否仍存在模態(tài)不變表征?以及如何從中解耦出可用于預(yù)測的表征?這一問題同樣適用于一致性表征學(xué)習(xí)方法,也是未來需要解決的重要挑戰(zhàn)。

原文鏈接:https://www.sciencedirect.com/science/article/pii/S156625352400441X

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會(huì)黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國手段已升級(jí),日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

星耀國際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

過了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

揚(yáng)子晚報(bào)
2026-01-27 21:52:52
性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會(huì)促癌?華中大最新:性行為缺失會(huì)削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機(jī)場“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

首都機(jī)場“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

瀟湘晨報(bào)
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

大風(fēng)新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

爬山遺失80克金吊墜男子:把對(duì)講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

魯中晨報(bào)
2026-01-27 16:23:14
沉默24小時(shí)后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財(cái)長得寸進(jìn)尺

沉默24小時(shí)后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財(cái)長得寸進(jìn)尺

天仙無味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國家

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

健康
旅游
本地
公開課
軍事航空

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

旅游要聞

紅燈籠映北海:皇家園林里的年味,藏著中國人的精神原鄉(xiāng)!

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美海軍"林肯"號(hào)航母打擊群抵達(dá)中東地區(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版