年龄 BMI 白细胞计数 红细胞计数 血红蛋白计数 血小板计数56 35 7425 4248807 14 11213246 29 12101 4429425 10 12936757 33 4178 4621191 12 15152259 32 3661 4606375 11 18768458 22 11785 3882456 15 13122842 26 11620 4747333 12 1772
进行如下操作:
- 导入数据并查看数据结构
data <- read.csv("data.csv")
str(data)
- 对数据进行标准化处理
data_scaled <- scale(data)
- 使用“肘部法则”确定最佳的聚类数
wss <- (nrow(data_scaled)-1)*sum(apply(data_scaled,2,var))
for(i in 2:15) wss[i] <- sum(kmeans(data_scaled,centers=i)$withinss)
plot(1:15, wss, type="b", xlab="Number of Clusters", ylab="Within groups sum of squares")
- 根据肘部法则确定最佳聚类数为3,进行k-means聚类
set.seed(123)
k <- kmeans(data_scaled, 3)
- 查看聚类结果
table(k$cluster)
- 可视化聚类结果
library(cluster)
clusplot(data_scaled, k$cluster, color=TRUE, shade=TRUE, labels=2, lines=0)
``
原文地址: https://www.cveoy.top/t/topic/gAx4 著作权归作者所有。请勿转载和采集!