大數(shù)據(jù)培訓(xùn)_PCA降維
PCA(Principal Component Analysis,主成分分析)
在高維向量空間中,隨著維度的增加,數(shù)據(jù)呈現(xiàn)出越來(lái)越稀疏的分布特點(diǎn),增加后續(xù)算法的復(fù)雜度,而很多時(shí)候雖然數(shù)據(jù)維度較高,但是很多維度之間存在相關(guān)性,他們表達(dá)的信息有重疊。
PCA的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。
這k維特征稱為主成分,是重新構(gòu)造出來(lái)的k維特征,而不是簡(jiǎn)單地從n維特征中去除其余n-k維特征(這也是與特征選擇特征子集的方法的區(qū)別)。
PCA的目的是在高維數(shù)據(jù)中找到最大方差的方向,接著映射它到比最初維數(shù)小或相等的新的子空間。
?

?PCA算法流程
輸入:訓(xùn)練樣本集 D=x(1),x(2),...,x(m)D=x(1),x(2),...,x(m) ,低維空間維數(shù) d′d′ ;
過(guò)程:.
1:對(duì)所有樣本進(jìn)行中心化(去均值操作): x(i)j←x(i)j?1m∑mi=1x(i)jxj(i)←xj(i)?1m∑i=1mxj(i) ;
2:計(jì)算樣本的協(xié)方差矩陣 XXTXXT ;
3:對(duì)協(xié)方差矩陣 XXTXXT 做特征值分解 ;
4:取最大的 d′d′ 個(gè)特征值所對(duì)應(yīng)的特征向量 w1,w2,...,wd′w1,w2,...,wd′
5:將原樣本矩陣與投影矩陣相乘: X?WX?W 即為降維后數(shù)據(jù)集 X′X′。其中 XX 為 m×nm×n 維,W=[w1,w2,...,wd′]W=[w1,w2,...,wd′] 為 n×d′n×d′ 維。
6:輸出:降維后的數(shù)據(jù)集 X′
PCA算法分析優(yōu)點(diǎn):使得數(shù)據(jù)更易使用,并且可以去除數(shù)據(jù)中的噪聲,使得其他機(jī)器學(xué)習(xí)任務(wù)更加精確。該算法往往作為預(yù)處理步驟,在數(shù)據(jù)應(yīng)用到其他算法之前清洗數(shù)據(jù)。
缺點(diǎn):數(shù)據(jù)維度降低并不代表特征的減少,因?yàn)榻稻S仍舊保留了較大的信息量,對(duì)結(jié)果過(guò)擬合問(wèn)題并沒(méi)有幫助。不能將降維算法當(dāng)做解決過(guò)擬合問(wèn)題方法。如果原始數(shù)據(jù)特征維度并不是很大,也并不需要進(jìn)行降維。