问题描述宋体小四左对齐采用R自带的数据集iris已知150组鸢尾花花瓣长、宽和花萼长、宽数据且数据标明每组观测值对应的鸢尾花的种类。对150组数据进行描述了解数据的基本统计特征分析鸢尾花花瓣长、宽和花萼长、宽间的相关性并对数据进行分类。

解决方案（宋体小四左对齐）

1.基本统计特征

使用R语言中的summary函数可以得到如下基本统计特征：

属性名花萼长度花萼宽度花瓣长度花瓣宽度
最小值 4.3000 2.0000 1.0000 0.1000
最大值 7.9000 4.4000 6.9000 2.5000
中位数 5.8000 3.0000 4.3500 1.3000
平均值 5.8433 3.0573 3.7580 1.1993
标准差 0.8281 0.4359 1.7653 0.7622

从上表可以看出，花瓣长度的标准差最大，说明花瓣长度的数据分布比较分散。

2.相关性分析

使用R语言中的cor函数可以得到如下相关系数矩阵：

  Sepal.Length  Sepal.Width  Petal.Length  Petal.Width

Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411 Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259 Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654 Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000

从上表可以看出，花瓣长度和花瓣宽度之间的相关系数最大（0.9628654），说明花瓣长度和宽度之间的相关性比较强。

3.数据分类

可以采用机器学习算法对数据进行分类，例如决策树、支持向量机等。这里以决策树算法为例，使用R语言中的rpart包进行分类。

首先将数据集随机分为训练集和测试集：

set.seed(123) trainIndex <- sample(1:nrow(iris), 0.7*nrow(iris)) trainData <- iris[trainIndex, ] testData <- iris[-trainIndex, ]

然后使用rpart包中的rpart函数构建决策树：

library(rpart) dtree <- rpart(Species ~., data=trainData, method="class")

使用plot函数可以绘制出决策树的图形，如下所示：

最后使用predict函数对测试数据进行分类：

prediction <- predict(dtree, testData, type="class")

使用confusionMatrix函数可以得到混淆矩阵和分类准确率：

library(caret) cm <- confusionMatrix(prediction, testData$Species) accuracy <- cm$overall["Accuracy"] print(paste("分类准确率为：", round(accuracy*100, 2), "%"))

经过实验，决策树算法对该数据集的分类准确率可以达到95%以上

问题描述宋体小四左对齐采用R自带的数据集iris已知150组鸢尾花花瓣长、宽和花萼长、宽数据且数据标明每组观测值对应的鸢尾花的种类。对150组数据进行描述了解数据的基本统计特征分析鸢尾花花瓣长、宽和花萼长、宽间的相关性并对数据进行分类。