使用四个指标进行Kmeans聚类的具体步骤以及公式
K-means聚类算法是一种常用的无监督学习算法,其步骤如下:
- 随机选择K个初始聚类中心点。
- 对于每个样本,计算其与每个聚类中心的距离。常用的距离度量方法有欧氏距离、曼哈顿距离等。假设共有N个样本和K个聚类中心,则计算出一个N×K的距离矩阵。
- 将每个样本分配到与其距离最近的聚类中心所对应的簇中。
- 更新每个簇的聚类中心,计算每个簇内所有样本的平均值作为新的聚类中心。
- 重复步骤3和步骤4,直到聚类中心不再变化或达到预设的迭代次数。
四个指标在K-means聚类算法中的应用:
- SSE(Sum of Squared Errors):衡量样本点与其所属聚类中心的距离的平方和。其公式为:SSE = Σ(d^2),其中d为样本点到其所属聚类中心的距离。
- Silhouette系数:衡量样本点与其所属聚类的紧密程度和与其他聚类的分离程度。其公式为:s = (b - a) / max(a, b),其中a为样本点与其所属聚类中心的平均距离,b为样本点与最近的其他聚类中心的平均距离。
- Dunn指数:衡量聚类的紧密程度和分离程度。其公式为:Dunn = min(d(i, j)) / max(d(k, l)),其中d(i, j)为不同聚类中心i和j之间的距离,d(k, l)为同一聚类中心k和l之间的距离。
- Calinski-Harabasz指数:衡量聚类的紧密程度和分离程度。其公式为:CH = (BSS / WSS) × ((N - K) / (K - 1)),其中BSS为类间平方和,WSS为类内平方和,N为样本数,K为聚类数。
以上指标可用于评估K-means聚类算法的聚类效果,对于目标不同的聚类任务可以选择适合的指标进行评估
原文地址: https://www.cveoy.top/t/topic/iiJz 著作权归作者所有。请勿转载和采集!