如何使用 train_test_split 函数分割 2*200000 数据集 - Python 机器学习 - 常规

使用 train_test_split 函数将 2200000 的数据分割，可以按照以下步骤进行操作：\n\n1. 导入 train_test_split 函数：首先需要导入 sklearn 库中的 train_test_split 函数。可以使用以下代码导入：\npython\nfrom sklearn.model_selection import train_test_split\n\n2. 准备数据：将 2200000 的数据准备好，分别存储在 X 和 y 中，其中 X 为特征数据，y 为目标数据。\n\n3. 调用 train_test_split 函数：使用 train_test_split 函数将数据分割成训练集和测试集。可以使用以下代码调用函数：\npython\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n\n其中，X 为特征数据，y 为目标数据，test_size 为测试集的比例，random_state 为随机种子，用于确保每次分割的结果一致。\n\n4. 查看分割结果：可以使用 print 语句输出分割后的数据集大小，以确认分割是否成功。例如：\npython\nprint("训练集大小：", X_train.shape, y_train.shape)\nprint("测试集大小：", X_test.shape, y_test.shape)\n\n以上代码将输出训练集和测试集的大小。\n\n通过以上步骤，就可以使用 train_test_split 函数将 2*200000 的数据分割成训练集和测试集。