Python机器学习代码：随机森林模型实现及最佳预估器选择

以下是一个简单的随机森林模型的代码实现，包括最佳预估器和比对结果。

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# 加载鸢尾花数据集
iris = load_iris()

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

# 创建随机森林模型
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# 训练模型
rf.fit(X_train, y_train)

# 预测测试集
y_pred = rf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print('随机森林模型的准确率为：', accuracy)

在这个例子中，我们使用了sklearn内置的鸢尾花数据集，并将数据集分为训练集和测试集。然后我们创建了一个随机森林模型，包含100个决策树。接下来，我们使用训练数据拟合模型，并使用测试数据进行预测。最后，我们计算了模型的准确率，并将结果打印出来。

在实际应用中，我们可以使用交叉验证等技术来选择最佳的预估器数量和超参数。

使用交叉验证选择最佳预估器

下面是使用交叉验证选择最佳预估器的代码实现：

from sklearn.model_selection import GridSearchCV

# 定义参数范围
param_grid = {
    'n_estimators': [50, 100, 150, 200],
    'max_depth': [None, 5, 10, 15],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# 创建随机森林模型
rf = RandomForestClassifier(random_state=42)

# 使用网格搜索选择最佳预估器
grid_search = GridSearchCV(rf, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 输出最佳预估器和最佳参数
print('最佳预估器为：', grid_search.best_estimator_)
print('最佳参数为：', grid_search.best_params_)

# 使用最佳预估器进行预测
y_pred = grid_search.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print('随机森林模型的准确率为：', accuracy)

在这个例子中，我们使用了GridSearchCV来进行交叉验证选择最佳预估器。我们定义了一些参数范围，并将它们作为参数传递给GridSearchCV。然后我们创建了一个随机森林模型，并使用GridSearchCV来搜索最佳预估器和最佳参数。最后，我们输出了最佳预估器和最佳参数，并使用最佳预估器进行预测和计算准确率。