进行Kmeans聚类的具体步骤以及公式
K-means聚类算法是一种常用的无监督学习算法,其具体步骤如下:
- 初始化:选择要生成的聚类数量k,随机选择k个数据点作为初始的聚类中心点。
- 分配:对于每个数据点,计算其与k个聚类中心点的距离,并将该数据点分配到距离最近的聚类中心点所属的簇。
- 更新:对于每个簇,计算该簇中所有数据点的均值,将该均值作为新的聚类中心点。
- 重复分配和更新步骤,直到聚类中心点不再变化或达到最大迭代次数。
K-means聚类算法的公式如下:
-
距离计算公式:通常使用欧氏距离来计算数据点之间的距离,公式如下:
其中,𝑑(𝑥, 𝑦)表示点𝑥和𝑦之间的距离,𝑥_𝑖和𝑦_𝑖表示点𝑥和𝑦在第𝑖个维度上的值,𝑛表示数据点的维度数量。
-
簇内平方和(WCSS):用于评估聚类的好坏程度,即数据点与其所属簇中心点之间的距离的平方和,公式如下:
其中,𝑁表示数据点的数量,𝑐_𝑘表示第𝑘个簇的中心点,𝑥_𝑖表示第𝑖个数据点。
K-means聚类算法的目标是最小化簇内平方和,即找到最佳的聚类中心点和分配方式
原文地址: https://www.cveoy.top/t/topic/iiJf 著作权归作者所有。请勿转载和采集!