经典密度峰值聚类(DBSCAN)存在一些缺点,例如:

  1. 对于不同密度的数据集,需要手动调整参数,如半径'r'和最小密度阈值。
  2. 对于高维数据集,由于所谓的'密度'不再是传统意义上的密度,聚类效果可能不佳。
  3. 对于非球形簇或不同密度的簇,聚类效果可能不佳。

为了克服这些缺点,可以使用基于密度的层次聚类(HDBSCAN)作为改进算法:

  1. HDBSCAN 可以自动选择最佳的密度阈值,无需手动调整参数。
  2. HDBSCAN 使用可变形簇的概念,可以更好地处理非球形簇和不同密度的簇。
  3. HDBSCAN 采用了基于连通图的聚类方式,可以更好地处理高维数据集。

时间复杂度分析 计算距离次数的时间复杂度为 O(n^2),其中 n 为数据集的大小。比较大小的时间复杂度为 O(n^2logn)。 空间复杂度为 O(n),需要存储数据集和计算的中间结果。

提出算法相较于DBSCAN的优点

  1. 不需要手动调整参数,适用于不同密度的数据集。
  2. 可以处理高维数据集和非球形簇。
  3. 采用基于连通图的聚类方式,可以更好地处理噪声点。

存在的问题

  1. 对于非常大的数据集,计算距离次数和存储空间开销较大。
  2. 对于非常稀疏的数据集,可能会存在过多的噪声点。
密度峰值聚类算法优化:解决DBSCAN局限性并提升性能

原文地址: https://www.cveoy.top/t/topic/pqqO 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录