Python实现简单密度聚类算法

下面是一个使用Python实现的简单密度聚类算法的示例代码：

import numpy as np
from sklearn.metrics.pairwise import euclidean_distances

def density_clustering(data, epsilon, min_pts):
    # 初始化聚类标记
    labels = np.zeros(len(data))
    cluster_id = 0

    for i in range(len(data)):
        if labels[i] != 0:
            continue
        
        # 找到data[i]的邻居点
        neighbors = find_neighbors(data, i, epsilon)
        
        # 如果邻居点数量小于min_pts，则将data[i]标记为噪声点
        if len(neighbors) < min_pts:
            labels[i] = -1
        else:
            # 对密度可达的点进行聚类
            cluster_id += 1
            expand_cluster(data, labels, i, neighbors, cluster_id, epsilon, min_pts)
    
    return labels


def find_neighbors(data, idx, epsilon):
    # 计算data[idx]与其他点之间的欧式距离
    distances = euclidean_distances(data[idx].reshape(1, -1), data)[0]
    
    # 返回与data[idx]距离小于epsilon的点的索引
    return np.where(distances < epsilon)[0]


def expand_cluster(data, labels, idx, neighbors, cluster_id, epsilon, min_pts):
    # 将data[idx]标记为当前聚类
    labels[idx] = cluster_id
    
    i = 0
    while i < len(neighbors):
        neighbor_idx = neighbors[i]
        
        # 如果neighbor_idx是噪声点，则将其标记为当前聚类
        if labels[neighbor_idx] == -1:
            labels[neighbor_idx] = cluster_id
        
        # 如果neighbor_idx还未被访问过，则标记为当前聚类，并找出其邻居点
        elif labels[neighbor_idx] == 0:
            labels[neighbor_idx] = cluster_id
            new_neighbors = find_neighbors(data, neighbor_idx, epsilon)
            
            # 如果neighbor_idx的邻居点数量大于等于min_pts，则将其邻居点添加到neighbors中
            if len(new_neighbors) >= min_pts:
                neighbors = np.concatenate((neighbors, new_neighbors))
        
        i += 1


# 示例用法
data = np.array([[1, 1], [1.5, 2], [3, 3], [4, 4], [4.5, 5]])
epsilon = 1
min_pts = 2

labels = density_clustering(data, epsilon, min_pts)
print(labels)

该代码实现了一个简单的密度聚类算法，其中density_clustering函数是主要的聚类函数，它接收数据集、邻域半径epsilon和最小邻居点数min_pts作为输入，并返回每个数据点的聚类标签。find_neighbors函数用于找到一个数据点的邻居点，expand_cluster函数用于扩展一个聚类。在示例用法中，我们使用一个简单的二维数据集进行聚类，并打印出每个数据点的聚类标签。