分类算法

分类是一个有监督的学习过程，目标数据库中有哪些类别是已知的，分类过程需要做的就是把每一条记录归到对应的类别之中。由于必须事先知道各个类别的信息，并且所有待分类的数据条目都默认有对应的类别，因此分类算法也有其局限性，当上述条件无法满足时，我们就需要尝试聚类分析。

分类和聚类的区别

聚类和分类是两种不同的分析。

分类的目的是为了确定一个点的类别，具体有哪些类别是已知的，常用的算法是 KNN (k-nearest neighbors algorithm)，是一种有监督学习。聚类的目的是将一系列点分成若干类，事先是没有类别的，常用的算法是 K-Means 算法，是一种无监督学习。

两者也有共同点，那就是它们都包含这样一个过程：对于想要分析的目标点，都会在数据集中寻找离它最近的点，即二者都用到了 NN (Nears Neighbor) 算法。