PCA
- 样本投影方向:最大方差
0 引论
0.1 矩阵论
实对称阵:实对称矩阵的不同特征值对应的特征向量一定正交
正交矩阵
=>
- 合同矩阵
设A是n阶对称矩阵,则必有正交矩阵p,
- 相似矩阵
0.2 概率方法
- 协方差=随机变量的变化趋势
- Cov(x,y)>0 => x和y变化趋势相同
- Cov(x,y)=0 => x和y不相关
- Cov(x,y)<0 ==""> x和y变化趋势相反
1. PCA定义(样本点投影的方差最大)
- 特征的相关性
- 将多个特征综合为少数特征
- 主成分分析
1.1 原理推导
- 设n个特征的m个样本,
=>设单位向量u(u的摸是1)
- 为了得到向量Au,求向量的方差( 设Au是去均值化的,即每个数据减去每列计算得到的均值,如此得,E(Au)=0)
上式:是协方差矩阵,且
=>
- 令方差为:
=>
=>
()
1.2 pca的解释
- A中的列向量取均值化
- 是协方差矩阵
- u是的特征向量
- 的值大小为原始观察数据的特征在向量u方向的投影值得方差
1.3 个数的选择
设表示的特征值(由大到小), 其中:是的特征值,保留k个主要成分,保留百分比
2. PCA的解释
- 降低数据维度,使得降低了维度的数据之间的方差最大
* 符号定义
数据集合,;目标:将数据投影到的空间中,同时最大化投影数据的方差
设单位向量:
数据被投影到上
数据的平均值:
投影后的平均值:
- 投影数据的方差:
其中:是数据的协方差矩阵:
2.1 最大化方差法
- 最大化数据的方差:
- 最大化中需要防止:,限制条件:
=>拉格朗日函数:
=>求导后,驻点:
=>表明一定是S的一个特征向量:
=>
将设置为与具有最大的特征值的特征向量相等时,方差会达到最大值=>这个特征是第一主成分
同理推广到
2.2 最小化误差
- 基于最小误差的投影
- 设:D维基向量的单位正交集合
- 数据表示为:
其中:
- 使用M<D维的变量来表示近似数据点
- 设置损失函数
=>
- J的拉格朗日函数:
=>驻点:
=>