Python 数据集划分:训练集和测试集的最佳实践
在 Python 中,使用 scikit-learn 库可以轻松地将数据集划分成训练集和测试集,这是构建和评估机器学习模型的关键步骤。
步骤:
- 导入 train_test_split 模块:
from sklearn.model_selection import train_test_split
- 准备数据集和标签:
data = [[1, 2], [3, 4], [5, 6], [7, 8]]
labels = [0, 1, 0, 1]
- 使用 train_test_split 函数划分:
train_data, test_data, train_labels, test_labels = train_test_split(data, labels, test_size=0.2, random_state=42)
test_size参数指定测试集所占的比例。random_state参数用于设定随机种子,确保每次划分的结果一致。
- 将划分后的数据集赋给变量:
# 输出训练集和测试集的大小
print('训练集大小:', len(train_data))
print('测试集大小:', len(test_data))
示例代码:
from sklearn.model_selection import train_test_split
# 准备数据集和标签
data = [[1, 2], [3, 4], [5, 6], [7, 8]]
labels = [0, 1, 0, 1]
# 划分训练集和测试集
train_data, test_data, train_labels, test_labels = train_test_split(data, labels, test_size=0.2, random_state=42)
# 输出训练集和测试集的大小
print('训练集大小:', len(train_data))
print('测试集大小:', len(test_data))
通过以上代码,您已经学会了如何在 Python 中使用 scikit-learn 库划分数据集,并理解了测试集比例和随机种子的重要性。这将有助于您构建更准确可靠的机器学习模型。
原文地址: https://www.cveoy.top/t/topic/op8e 著作权归作者所有。请勿转载和采集!