R语言K-Means聚类分析：鸢尾花数据集特征选择与结果比较

本示例展示使用K-Means聚类算法对鸢尾花数据集进行聚类分析的R语言代码。通过不同的数据子集，我们可以比较不同的聚类结果，并将其与真实标签进行比较。这可以帮助我们选择最佳的特征子集并确定最佳的聚类数。

kmeans_fit1 <- kmeans(iris_new[,1:3], centers = 3)
kmeans_fit1
table(kmeans_fit1$cluster, iris$Species)

kmeans_fit2 <- kmeans(iris_new[,c(1,3,4)], centers = 3)
kmeans_fit2
table(kmeans_fit2$cluster, iris$Species)

kmeans_fit3 <- kmeans(iris_new[,c(2,3,4)], centers = 3)
kmeans_fit3
table(kmeans_fit3$cluster, iris$Species)

kmeans_fit4 <- kmeans(iris_new[,c(1:2,4)], centers = 3)
kmeans_fit4
table(kmeans_fit4$cluster, iris$Species)

代码说明:

使用 kmeans() 函数进行聚类分析，指定 centers = 3 表示将数据分为3个簇。
通过不同的特征子集 iris_new[,1:3]、iris_new[,c(1,3,4)] 等进行聚类，并使用 table() 函数比较聚类结果与真实标签 iris$Species 的差异。

分析结果:

通过比较不同特征子集的聚类结果，我们可以观察到：

特征选择对聚类结果有显著影响。
不同的特征组合可能导致不同的聚类效果。
可以根据实际情况选择最佳的特征子集和聚类数。

结论:

本示例展示了使用K-Means聚类算法进行特征选择和聚类结果比较的方法。通过分析不同特征子集的聚类结果，我们可以选择最佳的特征组合并确定最佳的聚类数，从而获得更准确的聚类结果。