在 Python 中,使用 scikit-learn 库可以轻松地将数据集划分成训练集和测试集,这是构建和评估机器学习模型的关键步骤。

步骤:

  1. 导入 train_test_split 模块:
from sklearn.model_selection import train_test_split
  1. 准备数据集和标签:
data = [[1, 2], [3, 4], [5, 6], [7, 8]]
labels = [0, 1, 0, 1]
  1. 使用 train_test_split 函数划分:
train_data, test_data, train_labels, test_labels = train_test_split(data, labels, test_size=0.2, random_state=42)
  • test_size 参数指定测试集所占的比例。
  • random_state 参数用于设定随机种子,确保每次划分的结果一致。
  1. 将划分后的数据集赋给变量:
# 输出训练集和测试集的大小
print('训练集大小:', len(train_data))
print('测试集大小:', len(test_data))

示例代码:

from sklearn.model_selection import train_test_split

# 准备数据集和标签
data = [[1, 2], [3, 4], [5, 6], [7, 8]]
labels = [0, 1, 0, 1]

# 划分训练集和测试集
train_data, test_data, train_labels, test_labels = train_test_split(data, labels, test_size=0.2, random_state=42)

# 输出训练集和测试集的大小
print('训练集大小:', len(train_data))
print('测试集大小:', len(test_data))

通过以上代码,您已经学会了如何在 Python 中使用 scikit-learn 库划分数据集,并理解了测试集比例和随机种子的重要性。这将有助于您构建更准确可靠的机器学习模型。

Python 数据集划分:训练集和测试集的最佳实践

原文地址: https://www.cveoy.top/t/topic/op8e 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录