使用决策树分类器对鸢尾花数据集进行分类

本文将介绍如何使用 Python 中的 sklearn 库构建决策树分类器，并用其对著名的鸢尾花数据集进行分类预测。

1. 加载数据集和数据预处理

from sklearn import tree
from sklearn import datasets
from sklearn.model_selection import train_test_split

# 加载iris数据集
iris = datasets.load_iris()
X = iris.data # 特征数据
y = iris.target # 标签数据
print('样本数量: ', len(y))

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

首先，我们导入所需的库：tree 用于构建决策树模型，datasets 用于加载鸢尾花数据集，train_test_split 用于将数据集划分为训练集和测试集。

然后，我们加载鸢尾花数据集，并将其特征数据存储在 X 中，标签数据存储在 y 中。

接下来，我们使用 train_test_split 函数将数据集划分为训练集和测试集。test_size 参数指定测试集占总数据集的比例，random_state 参数用于确保每次运行代码时数据集划分的一致性。

2. 模型训练

# 模型初始化并训练
clf = tree.DecisionTreeClassifier() # 初始化决策树分类器
clf.fit(X_train, y_train) # 训练分类器

我们使用 tree.DecisionTreeClassifier() 初始化一个决策树分类器，然后使用训练集数据 (X_train, y_train) 对其进行训练。

3. 模型预测和评估

# 预测结果
ans = clf.predict(X_test) # 对测试集进行预测

# 计算准确率
cnt = 0
for i in range(len(y_test)):
    if abs(ans[i] - y_test[i]) < 1e-1:
        cnt += 1
print('准确率: ', (cnt * 100.0 / len(y_test)),'%')

我们使用训练好的模型对测试集数据 (X_test) 进行预测，并将预测结果存储在 ans 中。

然后，我们通过比较预测结果和真实标签 (y_test) 来计算模型的准确率。

4. 总结

本文介绍了如何使用 Python 中的 sklearn 库构建决策树分类器，并用其对鸢尾花数据集进行分类预测。决策树分类器是一种简单而有效的分类方法，适用于各种数据集。