spss——主成分分析详解

文章目录

概念应用场景优缺点优点缺点

spss实例8、将原始特征数据进行标准化计算过程

概念

一个非监督学习的降维方法只需要特征值分解,就可以对数据进行压缩,去噪旨在利用降维思想,把多指标转化为少数几个的综合指标每个主成分都能够反映原始变量的大部分信息,且信息不重复

应用场景

在一个图像矩阵中,有些元素特征不明显,很难用来做识别,而有些元素特征很明显,表明其方差很大(元素的方差可以度量其相对整个样本的离散度),这些元素就可以作为图像识别的主要依据,

PCA的作用就是,去除那些方差小,特征不明显的维,保留方差大,特征明显的维

优缺点

优点

仅仅需要以方差衡量信息量,不受数据集其他因素的影响

各主成分正交,

计算方法简单,主要运算是特征值分解,易于实现

缺点

主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强

方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响

spss实例

1、如果有缺失值,要先对数据进行处理 2、将处理好后的数据导入spss

3、找到主成分分析 4、将除分类列外其他导入,我的这个案例中,有一列考核列,也不需要放入,因为不属于影响因素 5、勾选系数:因为要生成成分得分系数矩阵进行最后的得分计算 6、勾选碎石图:可以更直观的主成分分布,点击确定 点击确认后经过计算。导出结果为 7、观察总方差解释图:提取提取载荷平方和的个数,就是主成分个数,最后一个主成分的占比就是选取的所有的主成分的占比总和

8、将原始特征数据进行标准化

勾选:将被抓另存变量 9,通过系数得分矩阵和标准化数据进行对应相乘

计算过程

x就是所有的特征变量

f

1

=

0.073

X

1

+

0.0008

X

2

.

.

.

+

0.203

X

11

f1 = -0.073 * X1 + -0.0008*X2)...+0.203*X11

f1=−0.073∗X1+−0.0008∗X2)...+0.203∗X11

f

2

=

0.372

X

1

+

0.157

X

2

.

.

.

0.123

X

11

f2 = -0.372* X1 + -0.157*X2)...-0.123*X11

f2=−0.372∗X1+−0.157∗X2)...−0.123∗X11

F

=

23.2

/

70.3

f

1

+

(

14.0

/

70.3

)

f

2...

F = (23.2 /70.3 )f1 + (14.0/70.3)f2...

F=(23.2/70.3)f1+(14.0/70.3)f2...