pca主成分分析算法,pca主成分分析举例

　　把你所学的东西组织起来，而不是一个专业的数学或者统计的学生。欢迎指正和讨论！啊！

　　一、原则理解

　　成分分析(PCA)是一种降维方法，旨在减少特征的数量，最大限度地保留数据中的有用信息。我理解为坐标轴的旋转，把原来的N维转化为K个相互垂直的维，用这些维来描述我们的数据。

　　由于特征(因子)n)通常小于观测值或样本(观测值/样本)的数量(m)，主成分分析最终最多会有n个主成分，即砾石图中的BBS。

　　大家举的第一个例子肯定会告诉我一维下降，那我也举个例子。在这个过程中，我们完成了均值归一化。两个原始维度Gene1和Gene2的绿点是原始数据的分布模式。如果我们想降低维数，我们应该寻找一条覆盖尽可能多的变化的线，要么投影距离最短，要么是我们的PC1找到这条从投影点到原点的红色虚线(绿色十字)。

　　假设PC1线的斜率为0.25，可以说一个PC1由四个基因1和一个基因2组成。所以可以说，主成分是特征的线性组合。

　　在这个直角三角形中，如果斜边的长度为1，则第1部分的PC1由基因1的0.97部分和基因2的0.242部分组成(比例相同)，这两个数可以称为加载分数。

　　上一步最大化：ssd，每个投影点到原点的距离的平方和，称为主分量的特征值，ssd/n-1称为主分量的变差。在本例中，假设PC1=15，pc2=3，则总数为15 ^ 3=18。PC1占15/18=83%，PC2占17%。这是砾石地图。

　　垂直于PC2和PC1的主要分量与相互垂直的分量相同，如下图所示。

　　如果有更多的特征，我们还会发现更多的主要组件和更多的轴，按此顺序排列。

　　如果“像我”需要复习矩阵的特征值和特征向量，这个视频讲的很清楚。【工程数学基础】1_特征值与特征值_ ((欢呼)-bilibiliww . bilibili

　　第二，用python实现PCA

　　1)标准化数据(矩阵X)

　　2)求解cov(XT)的特征值和特征向量

　　ew，ev=NP。EIG(NP.cov ) (x.t))))))).

　　python中求特征值和特征向量的函数：numpy。EIG(一))。

　　(ew)特征值。