【数学建模】主成分分析法PCA
主成分分析(PCA)是一种无监督学习,通过线性变换来实现数据降维,并尽可能保留信息量(数据的方差).
主成分分析的原理
对源数据进行分析,找到一组能够捕捉数据中最大变异性的坐标轴,并使用更少的维度来近似拟合原始数据.
主成分分析的步骤
数据去中心化:
对数据表X中的每个属性减去这一列的均值, 消除数据平均水平对数据表的影响.求协方差矩阵 $C_1$
$$C = \frac{1}{n-1}\overline{X}^T\overline{X} $$对 $C_1$ 进行特征值分解
$$C = Q\sum{Q^T}$$对特征值排序: 挑选更大的k个特征值,将特征值向量组成矩阵P
对矩阵 $P$ 进行线性变换 $F=PX$ 得到主成分分析后的矩阵. 矩阵的列为一个主成分,特征值经过归一化就为权重.
注意: 实际上,PCA的底层做矩阵分解时更多使用奇异值分析(SVD).