国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

自加權(quán)學(xué)習(xí)框架用于自適應(yīng)局部判別分析

0
分享至

Self-weighted learning framework for adaptive locality discriminantanalysis

自加權(quán)學(xué)習(xí)框架用于自適應(yīng)局部判別分析

https://www.sciencedirect.com/science/article/pii/S003132032200259X



摘要
線性判別分析(LDA)是最重要的降維技術(shù)之一,被廣泛應(yīng)用于許多領(lǐng)域。然而,傳統(tǒng)的LDA算法旨在從數(shù)據(jù)中捕獲全局結(jié)構(gòu),而忽略了局部信息。這可能導(dǎo)致LDA在一些具有復(fù)雜幾何分布的真實(shí)世界數(shù)據(jù)集中失敗。盡管有許多先前的研究專注于保留局部信息,但它們都面臨同樣的問題:從原始空間獲得的成對數(shù)據(jù)點(diǎn)的鄰域關(guān)系可能不可靠,特別是在噪聲較大的情況下。因此,我們提出了一種新穎的自加權(quán)學(xué)習(xí)框架,稱為自加權(quán)自適應(yīng)局部判別分析(SALDA),用于基于局部感知的降維。所提出的框架可以自適應(yīng)地學(xué)習(xí)一個內(nèi)在的低維子空間,以便我們可以在理想的子空間下探索樣本之間更好的鄰域關(guān)系。此外,我們的模型可以自動學(xué)習(xí)為同一類中的成對數(shù)據(jù)點(diǎn)分配權(quán)重,并且與其他經(jīng)典的局部感知方法相比不需要額外的參數(shù)。最后,實(shí)驗(yàn)結(jié)果表明,該算法在合成數(shù)據(jù)集和真實(shí)世界基準(zhǔn)數(shù)據(jù)集上均具有有效性和優(yōu)越性。

關(guān)鍵詞:監(jiān)督降維、線性判別分析、重加權(quán)方法

  1. 引言


    在許多現(xiàn)實(shí)世界的應(yīng)用中,例如生物信息學(xué)[1,2]、醫(yī)學(xué)圖像分析[3,4]和人臉識別[5,6],確實(shí)存在大量高維數(shù)據(jù)。這些具有眾多冗余特征的高維數(shù)據(jù)通常會降低實(shí)際技術(shù)的性能,例如高光譜圖像中的分類問題[7,8]。幸運(yùn)的是,基于一個合理的假設(shè)——即高維數(shù)據(jù)很可能位于一個低維流形上,降維成為提取少量判別性特征的常用方法。作為一種分析高維數(shù)據(jù)的關(guān)鍵技術(shù),降維在機(jī)器學(xué)習(xí)及其他領(lǐng)域中發(fā)揮著重要作用。

降維的目標(biāo)是減少冗余特征,同時保留數(shù)據(jù)的內(nèi)在信息。在過去二十年中,降維問題吸引了全球?qū)W者越來越多的關(guān)注。因此,近年來提出了許多擴(kuò)展算法,尤其是兩類經(jīng)典算法:主成分分析(PCA)[9]和線性判別分析(LDA)[10]。對于無監(jiān)督算法PCA而言,它通過全局保留原始數(shù)據(jù)中的最大協(xié)方差信息,有效解決降維問題。與PCA不同,LDA是一種有監(jiān)督方法,能夠?qū)W習(xí)一個最優(yōu)投影矩陣,使得同類數(shù)據(jù)點(diǎn)之間的距離最小化,而不同類之間的距離最大化。本文聚焦于LDA算法的研究。

LDA算法在降維領(lǐng)域中扮演著重要角色,并在有監(jiān)督學(xué)習(xí)中表現(xiàn)優(yōu)異。為解決相關(guān)問題,研究者已提出多種LDA的擴(kuò)展算法,例如半監(jiān)督LDA(SLDA)[11]和正則化最大-最小LDA(MMLDA)[12]。然而,這類LDA算法仍存在一些缺陷。第一個瓶頸是小樣本問題(Small Sample Size, SSS)[13],當(dāng)數(shù)據(jù)維度大于樣本數(shù)量時經(jīng)常出現(xiàn)。第二個瓶頸是過度降維問題(over-reducing problem)[14],這是因?yàn)長DA算法受其模型約束,最多只能將數(shù)據(jù)維度降至c?1(其中c表示數(shù)據(jù)中的類別數(shù)量),因此可能不適用于類別較多的數(shù)據(jù)集。最后,LDA算法基于高斯分布假設(shè);盡管它們擅長處理高斯分布數(shù)據(jù),但對于更復(fù)雜的數(shù)據(jù)卻難以有效處理。這主要是因?yàn)閭鹘y(tǒng)LDA算法僅關(guān)注捕獲數(shù)據(jù)的全局結(jié)構(gòu),而忽略了局部信息,導(dǎo)致其在現(xiàn)實(shí)應(yīng)用中穩(wěn)定性不足。

針對上述三個問題,已有許多方法被提出以提升LDA算法的性能。近年來,過度降維和小樣本(SSS)問題已通過傳統(tǒng)LDA的變體[15,16]等方法得到有效解決。此外,不同于Fisher準(zhǔn)則,Li等人[17]基于最大間隔準(zhǔn)則(Maximum Margin Criterion, MMC)提出了一些新的特征提取器來應(yīng)對SSS問題。為進(jìn)一步克服上述LDA的第三個問題,圖學(xué)習(xí)方法[18,19]被引入LDA框架。文獻(xiàn)[20]提出了一種LDA的擴(kuò)展算法——局部Fisher判別分析(Local Fisher Discriminant Analysis, LFDA),該方法在最大化類間可分性的同時,能夠捕捉類內(nèi)的局部結(jié)構(gòu)。此外,Cai等人[21]利用k近鄰算法(KNN)[22]構(gòu)建類內(nèi)圖和類間圖,并提出了局部敏感判別分析(Locality Sensitive Discriminant Analysis, LSDA)模型,將原始數(shù)據(jù)集投影到一個新的低維子空間。與此同時,Nie等人[23]提出了一種成對形式的LDA,稱為鄰域MinMax投影(Neighborhood MinMax Projection, NMMP),旨在最小化同類成對點(diǎn)之間的距離,并盡可能分離不同類的數(shù)據(jù)點(diǎn)。此外,F(xiàn)an等人[24]提出了一種名為局部線性判別分析(Local Linear Discriminant Analysis, LLDA)的新模型,可學(xué)習(xí)一個變換矩陣以處理復(fù)雜數(shù)據(jù)集。然而,該算法需要使用整個輸入數(shù)據(jù)集的一部分來獲取變換矩陣,因此難以有效處理大規(guī)模數(shù)據(jù)集。

最后但同樣重要的是,對于大量基于局部感知(locality-aware)的方法,通常采用KNN技術(shù)作為預(yù)處理步驟來構(gòu)建相似性圖。因此,圖的質(zhì)量在很大程度上依賴于近鄰數(shù)量k的選擇。此外,這些方法通?;谠伎臻g中的距離度量來學(xué)習(xí)數(shù)據(jù)樣本間的鄰接關(guān)系。然而,直接在原始空間中使用距離度量并不可靠,因?yàn)楸举|(zhì)上相似的點(diǎn)在原始空間的距離度量下可能相距甚遠(yuǎn)。關(guān)于這一觀點(diǎn),我們將在“相關(guān)工作”一節(jié)中給出更詳細(xì)的說明。

因此,本文提出了一種新穎的自加權(quán)自適應(yīng)局部判別分析(Self-Weighted Adaptive Locality Discriminant Analysis, SALDA)框架,以解決上述問題。該框架通過拉近本質(zhì)相似的點(diǎn)、推遠(yuǎn)不相似的點(diǎn)來學(xué)習(xí)變換矩陣。與大多數(shù)局部感知算法類似,SALDA專注于探索數(shù)據(jù)點(diǎn)的局部鄰域關(guān)系。本文的主要貢獻(xiàn)如下:

  1. 與傳統(tǒng)LDA方法需要額外步驟先構(gòu)建相似性圖不同,我們將圖學(xué)習(xí)的思想嵌入LDA方法中,進(jìn)一步提出了一種通用的降維框架SALDA。通過挖掘數(shù)據(jù)的局部結(jié)構(gòu),SALDA能夠處理更復(fù)雜的分布數(shù)據(jù),例如非高斯數(shù)據(jù)和多模態(tài)數(shù)據(jù)。
  2. 與當(dāng)前局部感知技術(shù)通常需在原始數(shù)據(jù)空間中使用KNN構(gòu)建鄰接圖不同,我們的SALDA方法能夠自動探索數(shù)據(jù)點(diǎn)之間的鄰接關(guān)系,無需引入額外的流程和參數(shù)。此外,我們的方法基于目標(biāo)子空間中的距離(而非原始空間)來發(fā)現(xiàn)鄰接關(guān)系,從而使SALDA對噪聲更具魯棒性和可靠性。
  3. 為求解所提出的SALDA框架,我們設(shè)計(jì)了一種基于重加權(quán)(re-weighted)方法的通用高效算法,并在理論上證明了該算法的收斂性。在合成數(shù)據(jù)集和八個真實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的SALDA方法優(yōu)于其他經(jīng)典降維算法。

本文是對會議版本[25]的實(shí)質(zhì)性擴(kuò)展。與先前版本相比,我們在本文中進(jìn)一步闡釋了SALDA旨在解決的問題,并通過圖1和圖2提供了可視化解釋。此外,我們擴(kuò)展了所提出的模型,設(shè)計(jì)了一個更適合處理降維問題的框架,并提出了一種統(tǒng)一的優(yōu)化算法來求解該框架。我們對所提框架進(jìn)行了理論分析,并證明了其收斂性。在實(shí)驗(yàn)部分,我們在合成數(shù)據(jù)和八個真實(shí)世界數(shù)據(jù)集上驗(yàn)證了算法性能,并進(jìn)一步將SALDA與其他前沿方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果充分展示了SALDA算法的優(yōu)越性。此外,本文還開展了算法收斂性分析以及SALDA中超參數(shù)p的敏感性分析,在八個基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了SALDA算法的魯棒性。

本文其余部分組織如下:第2節(jié)簡要回顧LDA;第3節(jié)提出用于降維的自加權(quán)自適應(yīng)局部判別分析(SALDA)框架,并相應(yīng)設(shè)計(jì)了一種高效的優(yōu)化算法;第4節(jié)對SALDA進(jìn)行理論分析并介紹若干擴(kuò)展;第5節(jié)展示所提方法的實(shí)驗(yàn)結(jié)果;最后,第6節(jié)對全文進(jìn)行總結(jié)。


  1. 相關(guān)工作

在本節(jié)中,我們將回顧傳統(tǒng)的線性判別分析方法(LDA),并證明根據(jù)所提出模型的推導(dǎo),LDA 會賦予同一類中的樣本相等的權(quán)重。因此,這使得 LDA 僅關(guān)注數(shù)據(jù)中的全局結(jié)構(gòu)。對于如圖1所示的復(fù)雜分布數(shù)據(jù),傳統(tǒng)LDA模型可能會陷入平凡解。因此,在我們的工作中,我們提出了一種新模型來解決這一問題。




通過LDA獲得的最優(yōu)投影矩陣 W 在最小化類內(nèi)距離和最大化類間距離的約束下。為了得到LDA的數(shù)學(xué)公式,我們首先定義三個變量如下:




從問題(6)可以看出,基于跡的LDA對同一類樣本具有相等的權(quán)重,這使得LDA只能捕捉全局結(jié)構(gòu)。因此,LDA在高斯分布數(shù)據(jù)集上表現(xiàn)良好,但在復(fù)雜分布數(shù)據(jù)集上無法獲得理想結(jié)果。由于這種LDA算法忽略了數(shù)據(jù)的局部結(jié)構(gòu),并迫使同一類中的成對點(diǎn)盡可能接近,即使這些成對點(diǎn)距離較遠(yuǎn)。

為了解決上述問題,提出了許多局部感知算法來研究局部數(shù)據(jù)結(jié)構(gòu)。對于局部Fisher判別分析(LFDA),它利用了親和矩陣的概念來定義局部類內(nèi)散布矩陣 和局部類間散布矩陣,因此LFDA可以有效地從原始數(shù)據(jù)空間捕獲局部信息。LDA和局部方法LFDA的降維實(shí)驗(yàn)結(jié)果如圖2所示(所提出的模型SALDA將在第3節(jié)定義)。對于圖1(a)中所示的單峰分布數(shù)據(jù),LDA和LFDA都能將不同類別的數(shù)據(jù)點(diǎn)分開并找到正確的投影方向。然而,對于圖1(b)中所示的多峰分布數(shù)據(jù)(即同一類中的點(diǎn)形成幾個獨(dú)立的組),LDA由于不同類別的點(diǎn)重疊而表現(xiàn)不佳,而LFDA仍然表現(xiàn)良好。類似于LFDA,所提出的LSDA方法引入了KNN技術(shù)來構(gòu)建類內(nèi)和類間圖,以便在降維過程中利用構(gòu)建的圖來保留局部信息。近年來,這種圖學(xué)習(xí)的思想在局部LDA方法中得到了廣泛應(yīng)用,如局部線性判別分析(LLDA)、非參數(shù)判別分析(NDA)和自適應(yīng)局部線性判別分析(ALLDA)。

這些局部感知方法研究了局部數(shù)據(jù)結(jié)構(gòu),并在某些情況下取得了良好的結(jié)果。然而,這些方法學(xué)習(xí)到的鄰域關(guān)系可能不可靠。這有兩個主要原因。首先,KNN技術(shù)通常作為這些局部感知方法的預(yù)處理步驟來構(gòu)建相似性圖。因此,最近鄰數(shù) k 可能嚴(yán)重影響相似性圖的質(zhì)量,進(jìn)而影響降維性能。其次,直接利用原始空間的距離度量并不可靠。這里,我們給出了一個例子來說明它們的弱點(diǎn)。在圖2中,玩具數(shù)據(jù)集由兩個類別組成,以不同的形狀和顏色顯示。對于圖2(a)中描述的傳統(tǒng)局部感知方法,它基于原始空間的距離在相同類別內(nèi)找到鄰近點(diǎn),這在有噪聲的數(shù)據(jù)集上無法實(shí)現(xiàn)高性能。此外,它依賴于KNN處理和參數(shù) k 的選擇,這可能進(jìn)一步影響算法的最終性能(圖2(a)中 )。

因此,基于上述分析,我們打算提出一種新方法來研究期望子空間中的局部數(shù)據(jù)結(jié)構(gòu)。此外,我們的方法可以自適應(yīng)地學(xué)習(xí)數(shù)據(jù)點(diǎn)之間的相似性權(quán)重,而無需引入額外參數(shù),即學(xué)習(xí)子空間中的鄰近點(diǎn)將具有較大的權(quán)重,而距離較遠(yuǎn)的點(diǎn)將具有較小甚至為零的權(quán)重。在圖2(b)中,這些實(shí)線表示從內(nèi)在子空間中學(xué)習(xí)到的點(diǎn)之間的大權(quán)重。通過利用這種方法,我們可以捕獲可靠的鄰域關(guān)系,性能將優(yōu)于其他局部感知方法。

  1. 自加權(quán)自適應(yīng)局部判別分析

在本節(jié)中,我們提出了一種名為自加權(quán)自適應(yīng)局部判別分析(SALDA)的新型框架,用于降維問題。首先,我們提出了SALDA框架的目標(biāo)函數(shù),并對我們的模型進(jìn)行了理論分析。然后,通過在通用框架中引入一個設(shè)計(jì)好的函數(shù),我們提出了一種特定的算法來優(yōu)化這個模型,并進(jìn)一步在實(shí)驗(yàn)中評估我們的算法性能。提出了許多基于局部感知的方法來捕獲數(shù)據(jù)的局部結(jié)構(gòu)。但是從原始特征空間來看,所提出的方法可能無法學(xué)習(xí)到鄰域之間的可靠關(guān)系,特別是在嚴(yán)重噪聲的情況下。此外,KNN技術(shù)通常作為這些方法的預(yù)處理步驟,這需要額外的努力來調(diào)整KNN中的參數(shù)。

與之前的局部感知方法不同,我們提出了一種新的局部感知降維方法,自適應(yīng)地從內(nèi)在子空間中學(xué)習(xí)數(shù)據(jù)點(diǎn)之間的權(quán)重。所提出的模型旨在通過最小化內(nèi)在相似點(diǎn)之間的距離,同時盡可能遠(yuǎn)地分離不相似的點(diǎn),來學(xué)習(xí)一個最優(yōu)投影 W。為了捕獲數(shù)據(jù)中隱藏的局部結(jié)構(gòu)信息,我們需要獲得理想子空間中點(diǎn)之間的鄰域關(guān)系。因此,SALDA的新型通用框架可以描述為以下形式:






為了獲得直觀的形式,我們通過在所提出的框架SALDA中最小化一個函數(shù)來展示特定的算法,該算法用于解決以下問題:


在這里,我們將推導(dǎo)出一個高效的算法來解決當(dāng)時的這個問題。

與問題(6)相比,我們知道每個類內(nèi)數(shù)據(jù)對之間的權(quán)重可能不會在目標(biāo)函數(shù)(10)中明確定義。因此,基于之前的分析,我們將展示SALDA如何為每對數(shù)據(jù)生成有意義的權(quán)重。

在每次迭代中,我們需要解決問題(8)。通過圖嵌入框架的公式推導(dǎo),問題(8)可以進(jìn)一步重新表述為:







3.1 算法的復(fù)雜度



  1. 理論分析

在本節(jié)中,提出了一種有效的算法來解決一個一般問題,該問題將方程(7)和(10)視為特殊情況。此外,稍后將展示所提出算法在問題(10)與LDA之間的緊密聯(lián)系。

4.1 解決一般問題的算法

在本部分中,我們考慮解決以下一般問題:






4.2 算法2的收斂性分析

在本節(jié)中,我們將證明所提出的算法2的收斂性,可以分為兩個步驟。首先,我們給出定理1來證明問題(13) 的目標(biāo)值將通過算法2收斂到一個固定值。其次,基于引理1和定理2,可以證明收斂解是問題(13) 的局部最優(yōu)值。然后,具體的證明過程如下:




4.3. 與LDA的聯(lián)系

根據(jù)方程(8),所提出方法在方程(10)中的類內(nèi)散布矩陣可以推導(dǎo)為:


這與LDA具有相似的形式。

從方程(5)和(28)可以看出,LDA和我們的方法都是監(jiān)督降維方法。它們的形式和目標(biāo)相似:它們都旨在最大化類間散布矩陣并最小化類內(nèi)散布矩陣。




根據(jù)定理3,可以進(jìn)一步得出結(jié)論:問題(28)可轉(zhuǎn)化為問題(5)的形式。因此,傳統(tǒng)的LDA算法是我們所提出的SALDA框架的一個特例。

  1. 實(shí)驗(yàn)


    本節(jié)在合成數(shù)據(jù)集和八個真實(shí)世界數(shù)據(jù)集上開展實(shí)驗(yàn),以驗(yàn)證所提出方法的有效性。我們選取了一些當(dāng)前最先進(jìn)的基于局部感知(locality-aware)的方法,與所提出的SALDA算法進(jìn)行比較。此外,本部分還對SALDA進(jìn)行了參數(shù)分析和收斂性分析。

5.1 合成數(shù)據(jù)集
本小節(jié)在兩個名為Synthetic-1和Synthetic-2的合成數(shù)據(jù)集上執(zhí)行SALDA算法,以驗(yàn)證我們算法的有效性。這兩個合成數(shù)據(jù)集均包含三個類別,其前兩個維度的數(shù)據(jù)點(diǎn)位于三個同心圓上,如圖3(a)和(e)所示。為驗(yàn)證SALDA算法的有效性,我們在這些數(shù)據(jù)集中添加了八個維度的高斯噪聲,從而構(gòu)成10維的合成數(shù)據(jù)集。噪聲維度由高斯分布生成,取值范圍從0到N。在本實(shí)驗(yàn)中,我們將噪聲水平N分別設(shè)為5(Synthetic-1)和100(Synthetic-2)。對于SALDA,本實(shí)驗(yàn)中參數(shù)p設(shè)為1。圖3中同時展示了LDA [10] 和局部感知模型LFDA [20] 的結(jié)果,以與我們的算法進(jìn)行對比。

如圖3所示,所提出的SALDA算法在從原始數(shù)據(jù)集中捕獲局部結(jié)構(gòu)信息方面表現(xiàn)更優(yōu)。特別是從圖3(d)和(h)可見,我們的模型能夠分別為這兩個不同噪聲水平的合成數(shù)據(jù)集學(xué)習(xí)出理想的二維子空間。而對于LDA,從圖3(b)和(f)可以看出,由于LDA僅關(guān)注全局結(jié)構(gòu),無法學(xué)習(xí)到具有判別性的子空間。從圖3(c)可見,LFDA具備挖掘局部信息的能力,在噪聲水平為5時取得了良好性能。然而,圖3(g)表明,當(dāng)數(shù)據(jù)維度受到嚴(yán)重噪聲污染時,LFDA可能無法獲得穩(wěn)定的結(jié)果。這是因?yàn)長FDA是在原始空間而非最優(yōu)子空間中學(xué)習(xí)鄰域信息。


為進(jìn)一步驗(yàn)證我們的SALDA模型具備捕捉數(shù)據(jù)間局部結(jié)構(gòu)的能力,我們在Synthetic-1和Synthetic-2數(shù)據(jù)集上對SALDA所獲得的相似性圖S進(jìn)行了可視化。圖4展示了在兩個合成數(shù)據(jù)集上的可視化結(jié)果。此處,對于所得到的圖S,我們將其中大于255的元素統(tǒng)一設(shè)為255,以便更好地可視化。從圖4(a)和(b)均可看出,圖S中的每個塊都非常稀疏,僅少數(shù)元素具有較大的數(shù)值。這表明我們的模型在所期望的子空間中充分考慮了類內(nèi)樣本之間的局部信息。因此,只有那些在投影后彼此相鄰且屬于同一類的樣本才具有較高的相似度。


綜上所述,基于圖3和圖4的分析結(jié)果,我們可以得出結(jié)論:所提出的SALDA模型能夠自適應(yīng)地從所學(xué)習(xí)的子空間中為每個樣本捕獲鄰域信息。此外,我們的模型在處理含噪聲維度的數(shù)據(jù)集時更加穩(wěn)健,并能從原始空間中獲得更具判別性的最優(yōu)子空間。

5.2 真實(shí)世界數(shù)據(jù)集
5.2.1 數(shù)據(jù)集
本實(shí)驗(yàn)選取了八個真實(shí)世界數(shù)據(jù)集來測試我們SALDA模型的性能,包括USPS [37]、YALE [38]、PIE [39]、MSRA [40] 以及四個UCI數(shù)據(jù)集 [41]:Australian、Heart、Diabetes和Pima。這些數(shù)據(jù)集的詳細(xì)介紹如下:

USPS數(shù)據(jù)集是一個手寫數(shù)字圖像數(shù)據(jù)庫,包含超過9000張圖像。在本實(shí)驗(yàn)中,我們從中選取六個數(shù)字以驗(yàn)證算法性能,每張數(shù)字圖像的尺寸為16×16。

YALE數(shù)據(jù)集由耶魯大學(xué)計(jì)算視覺與控制中心提供,包含15個不同個體的165張正面人臉圖像,拍攝條件涵蓋不同的面部表情、光照條件和面部細(xì)節(jié)。在本實(shí)驗(yàn)中,每張圖像被下采樣至32×32大小。

CMU PIE數(shù)據(jù)集共包含68個受試者,總計(jì)41,368張人臉圖像。這些圖像由13臺同步相機(jī)和21個閃光燈在不同姿態(tài)、光照和表情條件下拍攝而成。我們選取PIE數(shù)據(jù)集中名為POSE07的子集用于實(shí)驗(yàn),每張圖像被下采樣至32×32大小。

MSRA數(shù)據(jù)庫由微軟亞洲研究院收集,包含12個個體在不同背景和光照條件下的圖像。每位個體至少采集64張人臉圖像,每張圖像被調(diào)整為16×16大小。

四個UCI數(shù)據(jù)集包括Australian、Heart、Diabetes和Pima,均來自UCI機(jī)器學(xué)習(xí)庫,它們的類別分布并不復(fù)雜。

表1列出了這些基準(zhǔn)數(shù)據(jù)集的詳細(xì)信息。在本實(shí)驗(yàn)中,主成分分析(PCA)[9] 被用作預(yù)處理步驟,以加快處理速度并節(jié)省計(jì)算時間。所有對比算法均在相同的預(yù)處理數(shù)據(jù)集上執(zhí)行。對于這八個基準(zhǔn)數(shù)據(jù)集,我們首先隨機(jī)選取每類樣本的30%作為訓(xùn)練集,其余樣本作為測試集。在獲得最優(yōu)投影矩陣W?后,我們將投影后的訓(xùn)練集作為已知標(biāo)簽信息,并在投影后的測試集上采用K近鄰(KNN)技術(shù)作為分類器。通過投影后測試樣本與投影后訓(xùn)練樣本之間的最近鄰關(guān)系,即可獲得最終的分類結(jié)果。在本實(shí)驗(yàn)中,分類器KNN的參數(shù)k(即近鄰數(shù)量)設(shè)為1。

5.2.2 對比方法
為驗(yàn)證所提出方法的優(yōu)越性,我們選取LDA以及若干當(dāng)前最先進(jìn)的局部感知(locality-aware)方法作為對比算法,包括:局部Fisher判別分析(LFDA)[20]、局部敏感判別分析(LSDA)[21]、局部線性判別分析(LLDA)[24]、非參數(shù)判別分析(NDA)[29]、最大間隔準(zhǔn)則(MMC)[17]、面向可分性的子類判別分析(SSDA)[42]、自適應(yīng)判別分析(ADA)[43]、自適應(yīng)局部線性判別分析(ALLDA)[30],以及一種名為多類Fukunaga-Koontz判別分析(FKDA)[44] 的Fukunaga-Koontz方法。在投影后的測試數(shù)據(jù)集上采用KNN算法以獲得最終的分類結(jié)果。此外,直接在預(yù)處理后的原始數(shù)據(jù)集上使用KNN所得的分類結(jié)果被用作基線(baseline)。

SALDA中的參數(shù)p在區(qū)間(0, 2]范圍內(nèi)進(jìn)行調(diào)整,具體的參數(shù)分析細(xì)節(jié)將在第5.3節(jié)中介紹。在本實(shí)驗(yàn)中,我們將參數(shù)p設(shè)為1,并將我們的SALDA算法與其他先進(jìn)方法進(jìn)行比較。此外,為確保實(shí)驗(yàn)的公平性,其他對比算法中的參數(shù)均按照其各自原始論文中的設(shè)定進(jìn)行配置。特別地,我們將LDA的降維維度設(shè)為c?1(其中c為類別數(shù))。對于其他降維方法,我們在維度范圍m∈[1, d?1](d為原始特征維度)內(nèi)采用貪心策略(greedy strategy)選擇最優(yōu)維度。最終的分類結(jié)果通過KNN算法在經(jīng)各對比算法降維后的測試集上獲得。我們在八個真實(shí)世界基準(zhǔn)數(shù)據(jù)集上分別獨(dú)立運(yùn)行所有對比方法十次。表2報(bào)告了不同方法在最優(yōu)降維維度下所取得的最大平均分類準(zhǔn)確率及其標(biāo)準(zhǔn)差。


5.2.3 性能
表2記錄了實(shí)驗(yàn)結(jié)果。其中最優(yōu)結(jié)果以粗體標(biāo)出,次優(yōu)結(jié)果以下劃線標(biāo)出。從表2可得出以下結(jié)論:

  1. 可以觀察到,SALDA在幾乎所有相關(guān)方法中均取得了更優(yōu)且更穩(wěn)定的性能。特別是與其他局部感知(locality-aware)方法相比,我們的SALDA算法在大多數(shù)基準(zhǔn)數(shù)據(jù)集上獲得了更好的效果。這種優(yōu)越性能的原因在于:大多數(shù)傳統(tǒng)的局部感知方法基于原始空間中的距離來學(xué)習(xí)鄰域關(guān)系,而這種距離可能無法可靠地揭示數(shù)據(jù)的內(nèi)在局部結(jié)構(gòu),從而進(jìn)一步影響分類性能。與以往方法不同,SALDA在所期望的子空間中自動尋找鄰近點(diǎn),并將本質(zhì)上相似的點(diǎn)拉近,因此自然取得了良好的結(jié)果。
  2. 從結(jié)果可以看出,大多數(shù)局部感知方法的表現(xiàn)優(yōu)于LDA。這一現(xiàn)象的主要原因是:LDA僅關(guān)注全局?jǐn)?shù)據(jù)結(jié)構(gòu),忽略了局部結(jié)構(gòu),導(dǎo)致其在處理復(fù)雜分布數(shù)據(jù)時性能較差。相比之下,其他局部感知方法通過挖掘局部鄰域關(guān)系,在這些基準(zhǔn)數(shù)據(jù)集上取得了更好的結(jié)果。
  3. 對于這些競爭性方法而言,它們依賴KNN過程來尋找每個數(shù)據(jù)點(diǎn)的鄰居,因此需要額外調(diào)節(jié)參數(shù)k。而眾所周知,SALDA能夠自動學(xué)習(xí)點(diǎn)對之間的權(quán)重,無需手動設(shè)置此類參數(shù)。因此,與以往方法相比,我們的方法使用更為便捷,在實(shí)際應(yīng)用中具有更強(qiáng)的實(shí)用性。

5.3 參數(shù)與收斂性分析

根據(jù)公式(10),我們的方法中僅存在一個參數(shù) p(其中 0 < p ≤ 2)。為評估該參數(shù)對性能的影響,我們采用網(wǎng)格搜索法,將 p 設(shè)置在 [0.1, 0.4, 0.7, 1.0, 1.3, 1.6, 1.9] 范圍內(nèi)。


仿真實(shí)驗(yàn)(參見圖5)在八個數(shù)據(jù)集上運(yùn)行,以展示所提出的SALDA算法在不同參數(shù) p 下的分類準(zhǔn)確率變化。從圖5可見,當(dāng) p 取不同值時,分類準(zhǔn)確率存在波動??傮w而言,當(dāng) p 調(diào)整為1時,我們的方法在這些數(shù)據(jù)集上獲得了最佳結(jié)果。此外,從圖5(a)、(d)、(g)和(h)所示的USPS、MSRA、Diabetes和Pima數(shù)據(jù)集來看,甚至存在比 p=1 時更優(yōu)的性能表現(xiàn)。因此,在第5.2節(jié)的實(shí)驗(yàn)中,使用 p=1 的本方法與其他競爭算法進(jìn)行比較是合理的。當(dāng)然,若在實(shí)際應(yīng)用中對所提出的方法實(shí)施網(wǎng)格搜索,則可獲得更好的性能。

此外,為進(jìn)一步驗(yàn)證我們的算法在真實(shí)場景中的性能,我們分析了該算法在所呈現(xiàn)的八個基準(zhǔn)數(shù)據(jù)集(包括USPS、YALE、PIE、MSRA、Australian、Heart、Diabetes和Pima)上的收斂性。

SALDA在這些數(shù)據(jù)集上獲得的收斂曲線分別如圖6的各個子圖所示。可以看出,我們的算法在所有這些基準(zhǔn)數(shù)據(jù)集上均能在10至15次迭代內(nèi)收斂,這表明我們的算法易于優(yōu)化,并且在處理高維數(shù)據(jù)集時效率非常高。此外,圖6所示結(jié)果表明,SALDA在真實(shí)世界基準(zhǔn)數(shù)據(jù)集上表現(xiàn)非常穩(wěn)定。


  1. 結(jié)論

在本研究中,我們提出了一種新的基于局部感知的降維框架(SALDA)。與傳統(tǒng)的LDA算法相比,所提出的方法能夠從原始數(shù)據(jù)空間中自適應(yīng)地學(xué)習(xí)一個最優(yōu)子空間,從而更有效地從期望子空間中獲取鄰域關(guān)系,即使在存在嚴(yán)重噪聲維度的情況下亦然。此外,SALDA能夠自動為同一類內(nèi)的數(shù)據(jù)點(diǎn)對分配權(quán)重,這對我們的模型捕捉局部信息非常有用。因此,我們的SALDA模型能夠更有效、更穩(wěn)健地處理具有復(fù)雜分布的真實(shí)世界數(shù)據(jù)集。在合成數(shù)據(jù)集和真實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)一步表明,我們的模型優(yōu)于其他經(jīng)典的基于局部感知的方法。

在本文中,我們將?p-范數(shù)引入到我們的框架中以解決降維問題,這有助于我們的模型保留局部信息并增強(qiáng)對噪聲的魯棒性。然而,?p-范數(shù)無法使我們的框架具備處理含異常值數(shù)據(jù)的能力。因此,在未來的工作中,我們計(jì)劃將?2,1-范數(shù)[45]引入我們的框架,以應(yīng)對異常值問題。

原文鏈接:https://www.sciencedirect.com/science/article/pii/S003132032200259X

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實(shí)!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實(shí)!成本2元售價19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

星耀國際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

過了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

揚(yáng)子晚報(bào)
2026-01-27 21:52:52
性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機(jī)場“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

首都機(jī)場“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

瀟湘晨報(bào)
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

大風(fēng)新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

爬山遺失80克金吊墜男子:把對講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

魯中晨報(bào)
2026-01-27 16:23:14
沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財(cái)長得寸進(jìn)尺

沉默24小時后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財(cái)長得寸進(jìn)尺

天仙無味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財(cái)經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

本地
房產(chǎn)
手機(jī)
數(shù)碼
旅游

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

房產(chǎn)要聞

實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

手機(jī)要聞

蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

旅游要聞

紅燈籠映北海:皇家園林里的年味,藏著中國人的精神原鄉(xiāng)!

無障礙瀏覽 進(jìn)入關(guān)懷版