一、K-means clustering简介
K-means clustering是一种数据聚类算法,其工作原理是将数据点划分为k个聚类,每个聚类的中心点就是这个聚类内数据点的平均值。分类是通过算法最小化聚类中心和数据点之间的距离来实现的。
在这种算法中,k是预定的,也就是说,我们需要先确定聚类的数量。算法的总体目标是最小化每个数据点到其所属聚类中心点的距离平方和。 这被称为平方误差和(误差函数)。 因此,K-means clustering也被称为SSE(clustering sum of squares)。
二、sklearn k-means模块介绍
sklearn k-means是scikit-learn工具包中的一部分,在机器学习、计算机视觉、自然语言处理等领域都被广泛应用。sklearn k-means是一种基于贪心算法的无监督学习方法,可以在不知道数据的标签情况下自动将数据集划分为k个不同的类别。
三、K-means clustering算法流程
1.随机选择k个数据点作为初始的簇中心。
2.依据每个数据点与k个中心点的距离,将数据点分配给距离最近的中心点所在的簇。
3.重新计算每个簇的中心点。
4.重复步骤2、3,直到能够找到一种最好的聚类方式或到达预先设定的最大迭代次数。
四、sklearn k-means代码实现
from sklearn.cluster import KMeans from sklearn.datasets import make_blobs # 创建一个数据集 X,y =make_blobs(n_samples=1000,n_features=2,centers=4,random_state=1) # 设置聚类的数量为4,初始化中心点的随机种子为0 estimator = KMeans(n_clusters=4,random_state=0) # 训练模型 estimator.fit(X) # 预测数据 y_pred =estimator.predict(X)
五、sklearn k-means常用参数介绍
1. n_clusters(int): 聚类数量
2. init:{'k-means++','random',ndarray}初始化方法,默认是k-means++,即选择距离较远的点作为初始簇中心。
3. n_init(int):有多少个不同基础设施运行算法。
4. max_iter(int): 最大迭代数。
5. tol(float): 浮点型数字,代表在两次迭代之间减少的平局平方误差。
六、sklearn k-means优缺点
1. 优点:
(1)算法简单直观,易于实现。
(2)适用于大规模数据集,能减轻计算负担。
(3)可以针对数据进行无监督分组及处理。
2. 缺点:
(1)需要预设簇数。
(2)初始点的选择会影响聚类效果。
(3)对于密集型或规则型簇存在着一些局限性。
七、sklearn k-means案例应用
下面我们利用sklearn k-means算法来对鸢尾花数据进行聚类分析。
from sklearn.datasets import load_iris from sklearn.cluster import KMeans import matplotlib.pyplot as plt # 加载鸢尾花数据集 iris = load_iris() x = iris.data # 构建模型 kmeans = KMeans(n_clusters=3, random_state=0) # 训练模型,输出结果 y_kmeans = kmeans.fit_predict(x) print(y_kmeans) # 可视化结果 plt.scatter(x[:, 0], x[:, 1], c=y_kmeans, s=50, cmap='viridis') plt.show()
八、结论
本文详细的介绍了sklearn k-means算法的基本原理、流程、应用及其优缺点。通过阅读本文,相信读者可以对sklearn k-means算法有进一步的了解,并可以在实际应用中更好的运用该算法。