Python 数据集划分：训练集和测试集的最佳实践

在 Python 中，使用 scikit-learn 库可以轻松地将数据集划分成训练集和测试集，这是构建和评估机器学习模型的关键步骤。

步骤：

导入 train_test_split 模块：

from sklearn.model_selection import train_test_split

准备数据集和标签：

data = [[1, 2], [3, 4], [5, 6], [7, 8]]
labels = [0, 1, 0, 1]

使用 train_test_split 函数划分：

train_data, test_data, train_labels, test_labels = train_test_split(data, labels, test_size=0.2, random_state=42)

test_size 参数指定测试集所占的比例。
random_state 参数用于设定随机种子，确保每次划分的结果一致。

将划分后的数据集赋给变量：

# 输出训练集和测试集的大小
print('训练集大小：', len(train_data))
print('测试集大小：', len(test_data))

示例代码：

from sklearn.model_selection import train_test_split

# 准备数据集和标签
data = [[1, 2], [3, 4], [5, 6], [7, 8]]
labels = [0, 1, 0, 1]

# 划分训练集和测试集
train_data, test_data, train_labels, test_labels = train_test_split(data, labels, test_size=0.2, random_state=42)

# 输出训练集和测试集的大小
print('训练集大小：', len(train_data))
print('测试集大小：', len(test_data))

通过以上代码，您已经学会了如何在 Python 中使用 scikit-learn 库划分数据集，并理解了测试集比例和随机种子的重要性。这将有助于您构建更准确可靠的机器学习模型。