密度峰值聚类算法优化:解决DBSCAN局限性并提升性能
经典密度峰值聚类(DBSCAN)存在一些缺点,例如:
- 对于不同密度的数据集,需要手动调整参数,如半径'r'和最小密度阈值。
- 对于高维数据集,由于所谓的'密度'不再是传统意义上的密度,聚类效果可能不佳。
- 对于非球形簇或不同密度的簇,聚类效果可能不佳。
为了克服这些缺点,可以使用基于密度的层次聚类(HDBSCAN)作为改进算法:
- HDBSCAN 可以自动选择最佳的密度阈值,无需手动调整参数。
- HDBSCAN 使用可变形簇的概念,可以更好地处理非球形簇和不同密度的簇。
- HDBSCAN 采用了基于连通图的聚类方式,可以更好地处理高维数据集。
时间复杂度分析 计算距离次数的时间复杂度为 O(n^2),其中 n 为数据集的大小。比较大小的时间复杂度为 O(n^2logn)。 空间复杂度为 O(n),需要存储数据集和计算的中间结果。
提出算法相较于DBSCAN的优点
- 不需要手动调整参数,适用于不同密度的数据集。
- 可以处理高维数据集和非球形簇。
- 采用基于连通图的聚类方式,可以更好地处理噪声点。
存在的问题
- 对于非常大的数据集,计算距离次数和存储空间开销较大。
- 对于非常稀疏的数据集,可能会存在过多的噪声点。
原文地址: https://www.cveoy.top/t/topic/pqqO 著作权归作者所有。请勿转载和采集!