特征选择

1. 维度和距离

就是要从n维向量中选取m个特征，把原向量降维成为一个m维向量。但是降维必须保证类别的可分离性或者说分类器的性能下降不多。

在图像处理中叫做图像压缩、特征提取。重在最优区分（可分离性）。

在模式识别中叫做特征选择。重在最优描述（保真性）。

聚类变换认为：重要的分量就是能让变换后类内距离小的分量。

类内距离小，意味着抱团抱得紧。

可以证明，为了让变换后类内距离小，必须保留方差小的分量，并且赋予更大的权值。

直观上好理解：对于某一类来说，某个分量的观察值会有起伏，这是由观察误差引起的。如果某个数据的方差越小，则表明观察值越可靠。那么，对那些方差小的分量给予较大的权值（这是因为这些分量更可靠），反之给予更小的权值。这样变换后，同类的点就能包得更紧了。

为了让变换后类内距离小，必须保留方差小的分量，并且赋予更大的权值。

就要把方差小的分量筛选出来。主轴变换或叫主成分分析(PCA-principal componenet analysis)能解决这个问题