K-Means 聚类算法步骤、公式及优化 | 数据挖掘与机器学习

日期: 2027-01-31
标签: 常规

K-Means聚类是一种无监督学习算法，用于将样本点分为K个不同的类别。其具体步骤如下：

初始化：随机选择K个中心点作为初始聚类中心。
分配样本：对于每个样本点，计算其与各个聚类中心的距离，并将其分配到距离最近的聚类中心所属的类别中。
更新中心点：对于每个聚类，计算其所包含样本点的平均值，得到新的聚类中心。
重复步骤2和3，直到聚类中心不再变化或达到最大迭代次数。

K-Means聚类的公式如下：

距离计算公式：
- 欧氏距离：𝑑(𝑥, 𝑐) = √(𝑥₁−𝑐₁)² + (𝑥₂−𝑐₂)² + ... + (𝑥ₙ−𝑐ₙ)²
- 曼哈顿距离：𝑑(𝑥, 𝑐) = |𝑥₁−𝑐₁| + |𝑥₂−𝑐₂| + ... + |𝑥ₙ−𝑐ₙ|
- 余弦相似度：𝑑(𝑥, 𝑐) = 1 - 𝑥·𝑐 / (||𝑥|| * ||𝑐||)
其中，𝑥表示样本点的特征向量，𝑐表示聚类中心的特征向量。
新的聚类中心计算公式： 𝑐 = (𝑥₁ + 𝑥₂ + ... + 𝑥ₘ) / 𝑚

其中，𝑚表示聚类中的样本点数目，𝑥₁, 𝑥₂, ..., 𝑥ₘ表示该聚类中的样本点的特征向量。

需要注意的是，K-Means聚类算法可能会陷入局部最优解，因此通常需要多次运行算法，并选择最优的聚类结果。

原文地址: https://www.cveoy.top/t/topic/p0TM 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录