一、定义
系统聚类法是一种基于数据点之间距离来进行聚类的方法。它将所有数据点都看作独立的类,然后不断地将距离最近的两个点合并成一类,直至只剩下一个类或者满足一定的终止条件为止。
代码示例:
from sklearn.cluster import AgglomerativeClustering clustering = AgglomerativeClustering().fit(X)
二、距离计算方法
在系统聚类法中,距离计算方法是非常重要的。常见的距离计算方法有欧氏距离、曼哈顿距离、余弦相似度等。对于不同的应用场景,选择合适的距离计算方法才能得到更好的聚类效果。
代码示例:
from scipy.spatial.distance import pdist, squareform # 计算欧氏距离 distances = pdist(X, metric='euclidean') squareform(distances)
三、聚类可视化
通过聚类可视化,我们可以更直观地了解每个簇的数据分布情况。对于高维数据,可以使用降维方法,如PCA或者t-SNE将数据降低到二维或三维,然后进行可视化。
代码示例:
import matplotlib.pyplot as plt from sklearn.decomposition import PCA pca = PCA(n_components=2) X_pca = pca.fit_transform(X) plt.scatter(X_pca[:, 0], X_pca[:, 1], c=clustering.labels_)
四、簇的评价指标
在聚类过程中,如何评价聚类效果是一个非常重要的问题。常见的簇的评价指标有轮廓系数、Davies-Bouldin指数、Calinski-Harabasz指数等。
代码示例:
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score # 计算轮廓系数 silhouette_score(X, clustering.labels_) # 计算Davies-Bouldin指数 davies_bouldin_score(X, clustering.labels_) # 计算Calinski-Harabasz指数 calinski_harabasz_score(X, clustering.labels_)
五、终止条件
在系统聚类法中,终止条件可以是类数达到预先设定的值,也可以是距离达到某个设定的阈值。针对不同的应用场景,选择不同的终止条件是很重要的。
代码示例:
clustering = AgglomerativeClustering(n_clusters=5).fit(X) # 或者 clustering = AgglomerativeClustering(distance_threshold=1.5).fit(X)