kmeans

1. kmean算法

设输入样本： $S=x_1,x_2,...,x_m$

$label=arg\min\limits_{1\leq j\leq k}||x_i-\mu_j||$

$\mu_j=\frac{1}{|c_j|}\sum\limits_{i\in c_j}x_i$

初始化的seed点应该尽可能远

从上面的算法描述上可以看到，算法的关键是第3步，如何将D(x)反映到点被选择的概率上，一种算法如下

先从我们的数据库随机挑个随机点当“种子点”
对于每个点，我们都计算其和最近的一个“种子点”的距离D(x)并保存在一个数组里，然后把这些距离加起来得到Sum(D(x))。
然后，再取一个随机值，用权重的方式来取计算下一个“种子点”。这个算法的实现是，先取一个能落在Sum(D(x))中的随机值Random，然后用Random -= D(x)，直到其<=0，此时的点就是下一个“种子点”。
重复2和3直到k个聚类中心被选出来
利用这k个初始的聚类中心来运行标准的k-means算法