2.4.1 主成分分析的原理及模型_Python机器学习算法与应用-QQ阅读女生古言网

书名：Python机器学习算法与应用
作者名：邓立国
本章字数：700字
更新时间：2020-11-23 14:57:13

2.4.1　主成分分析的原理及模型

1．主成分分析原理

主成分分析采取一种数学降维的方法，找出几个综合变量来代替原来众多的变量，使这些综合变量能尽可能地代表原来变量的信息量，而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫作主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量重新组合为一组新的相互无关的综合变量来代替原来的变量。通常，数学上的处理方法就是将原来的变量进行线性组合，作为新的综合变量，但是这种组合如果不加以限制，就可以有很多，应该如何选择呢？如果将选取的第一个线性组合（第一个综合变量）记为F₁，自然希望它尽可能多地反映原来变量的信息，这里“信息”用方差来测量，即希望Var(F₁)越大，表示F₁包含的信息越多。在所有的线性组合中所选取的F₁应该是方差最大的，故称F₁为第一主成分。如果第一主成分不足以代表原来p个变量的信息，再考虑选取F₂（第二个线性组合）。为了有效地反映原来的信息，F₁已有的信息不需要出现在F₂中，用数学语言表达就是要求Cov(F₁, F₂)=0，称F₂为第二主成分，以此类推，可以构造出第三、四、…p个主成分。