您的位置:

聚类问题探究

一、聚类算法概述

聚类是一种无监督学习方法,其目标是将相似的数据样本自动分组到若干个类别中。聚类分析广泛应用于数据挖掘、图像分析、信号处理等领域。

聚类算法大致可以分为以下几类:

  • 层次聚类算法(Hierarchical Clustering)
  • 划分聚类算法(Partitioning Clustering)
  • 基于密度的聚类算法(Density-based Clustering)
  • 基于网格的聚类算法(Grid-based Clustering)
  • 模型聚类算法(Model-based Clustering)

下面我们以K-means算法为例进行介绍。

二、K-means算法

K-means算法是一种基于划分的聚类算法,其主要思想是将所有数据点划分到K个集群中,使得同一集群内的样本点是相似的,不同集群内的样本点是不相似的。K-means算法的具体过程如下:

  1. 随机选取K个数据点作为初始的聚类中心;
  2. 计算所有数据点到聚类中心的距离,将其归为距离最近的聚类中心所在的集群内;
  3. 计算每个集群的重心,作为新的聚类中心;
  4. 重复步骤2和3,直至满足收敛条件。

下面是K-means算法的代码实现:

import numpy as np

class KMeans:
    def __init__(self, k=3, max_iters=100):
        self.K = k
        self.max_iters = max_iters

    def fit(self, X):
        self.centroids = X[np.random.choice(len(X), self.K, replace=False)]
        for i in range(self.max_iters):
            clusters = [[] for _ in range(self.K)]
            for x in X:
                distances = [np.linalg.norm(x-c) for c in self.centroids]
                cluster_idx = np.argmin(distances)
                clusters[cluster_idx].append(x)
            prev_centroids = self.centroids
            self.centroids = [np.mean(cluster, axis=0) for cluster in clusters]
            if np.all(prev_centroids == self.centroids):
                break
        self.labels = np.zeros(len(X))
        for i, cluster in enumerate(clusters):
            for x in cluster:
                self.labels[X.tolist().index(x.tolist())] = i
        return self.labels

三、K-means算法应用举例

以下是一个简单的数据集,其中包含了40个样本点:

import matplotlib.pyplot as plt

data = np.vstack(((np.random.randn(10, 2) * 0.75 + np.array([1, 0])),
                  (np.random.randn(10, 2) * 0.25 + np.array([-0.5, 0.5])),
                  (np.random.randn(10, 2) * 0.5 + np.array([-0.5, -0.5])),
                  (np.random.randn(10, 2) * 0.5 + np.array([0.5, -0.5])),
                  (np.random.randn(10, 2) * 0.5 + np.array([0.5, 0.5]))))
plt.scatter(data[:,0], data[:,1])
plt.show()

运行结果如下:

我们可以使用K-means算法将这40个点聚成3类,代码如下:

kmeans = KMeans(k=3, max_iters=100)
labels = kmeans.fit(data)
colors = ['r', 'g', 'b']
for i in range(kmeans.K):
    plt.scatter(data[labels==i][:,0], data[labels==i][:,1], color=colors[i])
plt.scatter(kmeans.centroids[:,0], kmeans.centroids[:,1], marker='x', color='black')
plt.show()

运行结果如下:

四、K-means算法的优缺点

K-means算法是一种快速且易于实现的聚类算法,但是也存在一些缺点,如下所示:

  • 需要预先指定类别数,如果K值选择不当,会导致聚类性能较差;
  • 对于非凸形状或密度不均匀的数据分布,聚类效果较差;
  • 算法对初始值非常敏感,不同的初始值可能会得到不同的聚类结果;
  • 只能适用于连续型的数值型特征,对于离散型或文本型特征不可使用。

五、总结

聚类分析是一种无监督学习方法,其主要目的是将相似的数据样本自动分组到若干个类别中。本文介绍了K-means算法,并提供了一个简单的代码实现和应用,同时对K-means算法的优缺点进行了分析。在实际应用中,需要根据数据特点选择合适的聚类算法,并选取合适的K值来提高聚类性能。