K-Means 聚类算法步骤、公式及优化 | 数据挖掘与机器学习
K-Means聚类是一种无监督学习算法,用于将样本点分为K个不同的类别。其具体步骤如下:
- 初始化:随机选择K个中心点作为初始聚类中心。
- 分配样本:对于每个样本点,计算其与各个聚类中心的距离,并将其分配到距离最近的聚类中心所属的类别中。
- 更新中心点:对于每个聚类,计算其所包含样本点的平均值,得到新的聚类中心。
- 重复步骤2和3,直到聚类中心不再变化或达到最大迭代次数。
K-Means聚类的公式如下:
-
距离计算公式:
- 欧氏距离:𝑑(𝑥, 𝑐) = √(𝑥₁−𝑐₁)² + (𝑥₂−𝑐₂)² + ... + (𝑥ₙ−𝑐ₙ)²
- 曼哈顿距离:𝑑(𝑥, 𝑐) = |𝑥₁−𝑐₁| + |𝑥₂−𝑐₂| + ... + |𝑥ₙ−𝑐ₙ|
- 余弦相似度:𝑑(𝑥, 𝑐) = 1 - 𝑥·𝑐 / (||𝑥|| * ||𝑐||)
其中,𝑥表示样本点的特征向量,𝑐表示聚类中心的特征向量。
-
新的聚类中心计算公式: 𝑐 = (𝑥₁ + 𝑥₂ + ... + 𝑥ₘ) / 𝑚
其中,𝑚表示聚类中的样本点数目,𝑥₁, 𝑥₂, ..., 𝑥ₘ表示该聚类中的样本点的特征向量。
需要注意的是,K-Means聚类算法可能会陷入局部最优解,因此通常需要多次运行算法,并选择最优的聚类结果。
原文地址: https://www.cveoy.top/t/topic/p0TM 著作权归作者所有。请勿转载和采集!