一、聚类算法概述
聚类是一种无监督学习方法,其目标是将相似的数据样本自动分组到若干个类别中。聚类分析广泛应用于数据挖掘、图像分析、信号处理等领域。
聚类算法大致可以分为以下几类:
- 层次聚类算法(Hierarchical Clustering)
- 划分聚类算法(Partitioning Clustering)
- 基于密度的聚类算法(Density-based Clustering)
- 基于网格的聚类算法(Grid-based Clustering)
- 模型聚类算法(Model-based Clustering)
下面我们以K-means算法为例进行介绍。
二、K-means算法
K-means算法是一种基于划分的聚类算法,其主要思想是将所有数据点划分到K个集群中,使得同一集群内的样本点是相似的,不同集群内的样本点是不相似的。K-means算法的具体过程如下:
- 随机选取K个数据点作为初始的聚类中心;
- 计算所有数据点到聚类中心的距离,将其归为距离最近的聚类中心所在的集群内;
- 计算每个集群的重心,作为新的聚类中心;
- 重复步骤2和3,直至满足收敛条件。
下面是K-means算法的代码实现:
import numpy as np class KMeans: def __init__(self, k=3, max_iters=100): self.K = k self.max_iters = max_iters def fit(self, X): self.centroids = X[np.random.choice(len(X), self.K, replace=False)] for i in range(self.max_iters): clusters = [[] for _ in range(self.K)] for x in X: distances = [np.linalg.norm(x-c) for c in self.centroids] cluster_idx = np.argmin(distances) clusters[cluster_idx].append(x) prev_centroids = self.centroids self.centroids = [np.mean(cluster, axis=0) for cluster in clusters] if np.all(prev_centroids == self.centroids): break self.labels = np.zeros(len(X)) for i, cluster in enumerate(clusters): for x in cluster: self.labels[X.tolist().index(x.tolist())] = i return self.labels
三、K-means算法应用举例
以下是一个简单的数据集,其中包含了40个样本点:
import matplotlib.pyplot as plt data = np.vstack(((np.random.randn(10, 2) * 0.75 + np.array([1, 0])), (np.random.randn(10, 2) * 0.25 + np.array([-0.5, 0.5])), (np.random.randn(10, 2) * 0.5 + np.array([-0.5, -0.5])), (np.random.randn(10, 2) * 0.5 + np.array([0.5, -0.5])), (np.random.randn(10, 2) * 0.5 + np.array([0.5, 0.5])))) plt.scatter(data[:,0], data[:,1]) plt.show()
运行结果如下:
我们可以使用K-means算法将这40个点聚成3类,代码如下:
kmeans = KMeans(k=3, max_iters=100) labels = kmeans.fit(data) colors = ['r', 'g', 'b'] for i in range(kmeans.K): plt.scatter(data[labels==i][:,0], data[labels==i][:,1], color=colors[i]) plt.scatter(kmeans.centroids[:,0], kmeans.centroids[:,1], marker='x', color='black') plt.show()
运行结果如下:
四、K-means算法的优缺点
K-means算法是一种快速且易于实现的聚类算法,但是也存在一些缺点,如下所示:
- 需要预先指定类别数,如果K值选择不当,会导致聚类性能较差;
- 对于非凸形状或密度不均匀的数据分布,聚类效果较差;
- 算法对初始值非常敏感,不同的初始值可能会得到不同的聚类结果;
- 只能适用于连续型的数值型特征,对于离散型或文本型特征不可使用。
五、总结
聚类分析是一种无监督学习方法,其主要目的是将相似的数据样本自动分组到若干个类别中。本文介绍了K-means算法,并提供了一个简单的代码实现和应用,同时对K-means算法的优缺点进行了分析。在实际应用中,需要根据数据特点选择合适的聚类算法,并选取合适的K值来提高聚类性能。