标签归档:K-Means

Machine Learning-聚类(Clustering)(一)-K均值算法

之前机器学习系列的所有文章讲得都是监督学习(supervised learning),今天我们来讲一讲无监督学习(unsupervised learning)。本文覆盖Coursera Machine Learning Week 8的内容,将会介绍一个无监督学习算法-K均值聚类算法(K-means Algorithm for clustering)

K-means Algorithm
无监督学习和监督学习最大的不同是他不需要对样本数据集打标签,而是只根据样本数据分析其内在规律而自动进行簇分类。直观意义上的理解:比如我们有这样一堆样本数据,他的分布如下图:
clustering_1
事先我们并没有对样本数据打标签以标识它属于哪个分类,通过聚类算法,我们希望这堆看上去很容易被分开的数据能够自动分类。那么具体怎么做呢?

对于K个分类的聚类算法而言,步骤如下:

  • 1).首先,我们先随机选取K个样本点,我们称之为“簇中心”(cluster centroids),如下图所示:
    clustering_2
  • 2).对每一个簇中心(1-K),我们找到所有离该中心最近的样本点,并且给它涂上不同的颜色,如下图所示:
    clustering_3
  • [……]

    继续阅读