DBSCAN无监督分类模型实现：基于心电信号的聚类分析

使用DBSCAN进行心电信号聚类分析

本示例展示了如何使用scikit-learn库中的DBSCAN算法对869个心电信号数据进行无监督分类，并将结果存储在本地。

数据准备:

数据文件：abnormal_list.txt，包含869个CSV文件名，每一行为一个CSV名字，CSV文件保存在当前目录下的Abnormal目录中。
每个CSV文件只有一列数据，每列数据有361行，数据格式是浮点数类型，代表心电信号。

代码示例:

import os
import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt

# 读取abnormal_list.txt中的文件名
with open('abnormal_list.txt', 'r') as f:
    filenames = f.read().splitlines()

# 读取csv文件并将其转换为numpy数组
data = []
for filename in filenames:
    filepath = os.path.join('Abnormal', filename)
    df = pd.read_csv(filepath, header=None)
    data.append(df.values.flatten())
data = np.array(data)

# 使用DBSCAN进行聚类
dbscan = DBSCAN(eps=0.5, min_samples=5)
labels = dbscan.fit_predict(data)

# 将每个csv文件的类别结果保存在本地
for i, filename in enumerate(filenames):
    with open(f'cluster_results/{filename}', 'w') as f:
        f.write(str(labels[i]))

# 绘制聚类可视化图并保存在本地
plt.figure(figsize=(8, 8))
markers = ['o', 's', '^', 'd', 'v']  # 不同类别使用不同形状标记
for i in range(-1, 4):  # -1为噪声点
    plt.scatter(data[labels == i, 0], data[labels == i, 1], marker=markers[i+1], label=f'Cluster {i+1}')
plt.legend()
plt.savefig('cluster_visualization.png')
plt.show()

代码说明:

读取CSV文件数据并将其转换为NumPy数组。
使用DBSCAN算法进行聚类，并保存聚类结果到本地。
绘制聚类可视化图，每个类别用不同的形状标记，并保存到本地。

注意事项:

由于每个CSV文件只有一列数据，因此需要使用flatten()方法将其展开为一维数组。
DBSCAN算法需要指定eps和min_samples两个参数，分别表示邻域半径和最小样本数。这两个参数的具体取值需要根据数据特点进行调整。

扩展阅读: