特征选择

  • 简单说,特征选择就是降维。

http://blog.csdn.net/ycheng_sjtu/article/details/25343043


1. 维度和距离

* 特征选择的任务

就是要从n维向量中选取m个特征,把原向量降维成为一个m维向量。但是降维必须保证类别的可分离性或者说分类器的性能下降不多。

* 降维这件小事

在图像处理中叫做图像压缩、特征提取。重在最优区分(可分离性)。

在模式识别中叫做特征选择。重在最优描述(保真性)。

* 降维方法

  • L1-正则
  • pca/svd
  • 聚类
  • KL变换

2. 聚类

  • 舍去不重要的分量,这就是降维。

* 聚类思路

聚类变换认为:重要的分量就是能让变换后类内距离小的分量。

类内距离小,意味着抱团抱得紧。

可以证明,为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值。

* 直观理解

直观上好理解:对于某一类来说,某个分量的观察值会有起伏,这是由观察误差引起的。如果某个数据的方差越小,则表明观察值越可靠。那么,对那些方差小的分量给予较大的权值(这是因为这些分量更可靠),反之给予更小的权值。这样变换后,同类的点就能包得更紧了。

* 证明一下:

为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值。

* 类变换是沿着类内距离最小的方向降维,这直接导致了保留方差小的分量。

* 主要方法

  • PCA

就要把方差小的分量筛选出来。 主轴变换或叫主成分分析(PCA-principal componenet analysis)能解决这个问题


3. K-L变换


4. 分散度

results matching ""

    No results matching ""