一、聚类模型简介
kmeans模型是聚类模型的一种,聚类模型是将样本数据根据它们之间的相似性进行分组的过程。在聚类模型中,将数据分成若干个组,每个组内的数据之间尽可能相似,而不同组的数据之间差异较大。
二、聚类模型中的k值
在kmeans聚类模型中,需要确定聚类的极端数量,也就是k值。具体来说,聚类算法将所有的样本点分别赋予某个类,并计算各类的中心点;然后,聚类算法将每个样本点重新分配到最近的类中,再重新计算各类的中心点。依此类推,直到各类的中心点不再改变为止。在这个过程中,k值的确定是至关重要的。
三、经验法则决定k值
在一些特定情况下,k值可以通过经验法则来决定。最常用的经验法则是肘部法则,在肘部法则中,对于不同的k值,计算损失函数(样本到聚类中心点的距离平方和)的均值。以k值为横坐标,损失函数均值为纵坐标绘制一个图表,选择“肘部”(就是坐标系上图像突然拐弯的地方)上的点作为k值。
import matplotlib.pyplot as plt from sklearn.cluster import KMeans from scipy.spatial.distance import cdist X = [] # 样本集 # 计算损失函数 distortions = [] K = range(1, 10) for k in K: kmeans = KMeans(n_clusters=k) kmeans.fit(X) distortions.append(sum(np.min(cdist(X, kmeans.cluster_centers_, 'euclidean'), axis=1)) / X.shape[0]) # 绘制图表 plt.plot(K, distortions, 'bx-') plt.xlabel('k') plt.ylabel('Distortion') plt.title('Elbow Method For Optimal k') plt.show()
四、统计学方法决定k值
统计学方法是确定k值的常用方法之一。其中,Gap统计量是一种广泛使用的统计方法,它通过计算实际数据的总体分布和随机数据的总体分布之间的差异来确定最佳的聚类数。
import numpy as np from scipy.cluster import vq def optimalK(data, nrefs=3, maxClusters=15): """ Determines the optimal number of clusters for k-means clustering Keyword arguments: --------------------- data : array, shape = [n_samples, n_features] input data nrefs : number of times reference distributions are sampled (default 3) maxClusters : Maximum number of clusters to test for (default 15) Returns: --------------------- k : list, shape = [nc] optimal number of clusters for each iteration Gap : list, shape = [nc] gap statistic of optimal clustering """ # inner dispersion W = np.zeros(maxClusters) for i in range(1, maxClusters + 1): centroids, variance = vq.kmeans(data, i) W[i-1] = variance # gap statistic -- inner dispersion refDisp = np.zeros((data.shape[1],maxClusters,nrefs)) # dispersion for reference distributions for k in range(1,maxClusters+1): for i in range(nrefs): randomData = np.random.random_sample(size=data.shape) centroids,variance = vq.kmeans(randomData,k) refDisp[:, k-1, i] = variance # gap statistic Gap = np.zeros(maxClusters) for k in range(1,maxClusters+1): Gap[k-1] = np.mean(np.log(refDisp[:, k-1,:])) - np.log(W[k-1]) # number of clusters k = Gap.argmax()+1 return k, Gap
五、信息准则方法决定k值
信息准则是确定k值的常用方法之一,AIC和BIC是两个常用的信息准则。其中,AIC(Akaike信息准则)越小越好,BIC(贝叶斯信息准则)也是越小越好。这两个信息准则都会考虑k值对模型复杂度和对数据的拟合程度之间的权衡。
from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score, aic, bic def optimalK_AIC_BIC(X, max_clusters): aic_scores = [aic(KMeans(n_clusters=k).fit(X)) for k in range(1, max_clusters+1)] bic_scores = [bic(KMeans(n_clusters=k).fit(X)) for k in range(1, max_clusters+1)] return aic_scores.index(min(aic_scores)) + 1, bic_scores.index(min(bic_scores)) + 1 # 评估聚类结果 n_clusters = 4 km = KMeans(n_clusters=n_clusters, random_state=42) km.fit(X) labels = km.labels_ silhouette = silhouette_score(X, labels) calinski_harabasz = calinski_harabasz_score(X, labels) davies_bouldin = davies_bouldin_score(X, labels) print("Silhouette score: {}".format(silhouette)) print("Calinski-Harabasz score: {}".format(calinski_harabasz)) print("Davies-Bouldin score: {}".format(davies_bouldin))
六、基于图形的决定k值的方法
基于图形的方法是确定k值的另一种常用方法。通过绘制一些图形,例如散点图、箱形图、直方图等,来观察数据的分布情况,进而决定k值。当观察数据分布时发现明显的聚类和离群值时,可以通过观察传递图(传递图中每个节点所代表的点最终分类到的聚类为同一聚类)的形态,来决定k的取值。