培訓(xùn)啦 IT技術(shù)

大數(shù)據(jù)培訓(xùn)_PCA降維

教培參考

教育培訓(xùn)行業(yè)知識(shí)型媒體

發(fā)布時(shí)間: 2025年05月17日 03:20

2025年【IT技術(shù)】報(bào)考條件/培訓(xùn)費(fèi)用/專業(yè)咨詢 >>

IT技術(shù)報(bào)考條件是什么?IT技術(shù)培訓(xùn)費(fèi)用是多少?IT技術(shù)專業(yè)課程都有哪些?

點(diǎn)擊咨詢

大數(shù)據(jù)培訓(xùn)_PCA降維

PCA(Principal Component Analysis,主成分分析)
在高維向量空間中,隨著維度的增加,數(shù)據(jù)呈現(xiàn)出越來(lái)越稀疏的分布特點(diǎn),增加后續(xù)算法的復(fù)雜度,而很多時(shí)候雖然數(shù)據(jù)維度較高,但是很多維度之間存在相關(guān)性,他們表達(dá)的信息有重疊。
PCA的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。
這k維特征稱為主成分,是重新構(gòu)造出來(lái)的k維特征,而不是簡(jiǎn)單地從n維特征中去除其余n-k維特征(這也是與特征選擇特征子集的方法的區(qū)別)。

PCA的目的是在高維數(shù)據(jù)中找到最大方差的方向,接著映射它到比最初維數(shù)小或相等的新的子空間。

?

?PCA算法流程

輸入:訓(xùn)練樣本集 D=x(1),x(2),...,x(m)D=x(1),x(2),...,x(m) ,低維空間維數(shù) d′d′ ;
過(guò)程:.
1:對(duì)所有樣本進(jìn)行中心化(去均值操作): x(i)j←x(i)j?1m∑mi=1x(i)jxj(i)←xj(i)?1m∑i=1mxj(i) ;
2:計(jì)算樣本的協(xié)方差矩陣 XXTXXT ;
3:對(duì)協(xié)方差矩陣 XXTXXT 做特征值分解 ;
4:取最大的 d′d′ 個(gè)特征值所對(duì)應(yīng)的特征向量 w1,w2,...,wd′w1,w2,...,wd′
5:將原樣本矩陣與投影矩陣相乘: X?WX?W 即為降維后數(shù)據(jù)集 X′X′。其中 XX 為 m×nm×n 維,W=[w1,w2,...,wd′]W=[w1,w2,...,wd′] 為 n×d′n×d′ 維。
6:輸出:降維后的數(shù)據(jù)集 X′
PCA算法分析
優(yōu)點(diǎn):使得數(shù)據(jù)更易使用,并且可以去除數(shù)據(jù)中的噪聲,使得其他機(jī)器學(xué)習(xí)任務(wù)更加精確。該算法往往作為預(yù)處理步驟,在數(shù)據(jù)應(yīng)用到其他算法之前清洗數(shù)據(jù)。
缺點(diǎn):數(shù)據(jù)維度降低并不代表特征的減少,因?yàn)榻稻S仍舊保留了較大的信息量,對(duì)結(jié)果過(guò)擬合問(wèn)題并沒(méi)有幫助。不能將降維算法當(dāng)做解決過(guò)擬合問(wèn)題方法。如果原始數(shù)據(jù)特征維度并不是很大,也并不需要進(jìn)行降維。
溫馨提示:
本文【大數(shù)據(jù)培訓(xùn)_PCA降維】由作者教培參考提供。該文觀點(diǎn)僅代表作者本人,培訓(xùn)啦系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)空間服務(wù),若存在侵權(quán)問(wèn)題,請(qǐng)及時(shí)聯(lián)系管理員或作者進(jìn)行刪除。
我們采用的作品包括內(nèi)容和圖片部分來(lái)源于網(wǎng)絡(luò)用戶投稿,我們不確定投稿用戶享有完全著作權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果侵犯了您的權(quán)利,請(qǐng)聯(lián)系我站將及時(shí)刪除。
內(nèi)容侵權(quán)、違法和不良信息舉報(bào)
Copyright @ 2025 培訓(xùn)啦 All Rights Reserved 版權(quán)所有.