使用 train_test_split 函数分割 2*200000 数据集（含 batch 分割）

要将 2200000 的数据分割成训练集和测试集，可以使用 train_test_split 函数。该函数可以将数据集随机分割成训练集和测试集，按照指定的比例划分。\n\n下面是一个示例代码，演示如何使用 train_test_split 函数将 2200000 的数据分割成训练集和测试集，其中每个 batch 的大小为 1024：\n\npython\nfrom sklearn.model_selection import train_test_split\n\n# 假设你的数据存储在一个名为 data 的变量中，形状为 (2, 200000)\ndata = ...\n\n# 将数据分割成训练集和测试集\ntrain_data, test_data = train_test_split(data.T, test_size=0.2, shuffle=True)\n\n# 将训练集和测试集分割成 batch\ntrain_batches = [train_data[i:i+1024] for i in range(0, len(train_data), 1024)]\ntest_batches = [test_data[i:i+1024] for i in range(0, len(test_data), 1024)]\n\n# 输出分割后的训练集和测试集的大小\nprint("训练集大小:", len(train_batches))\nprint("测试集大小:", len(test_batches))\n\n\n在上述代码中，我们首先导入了 train_test_split 函数，然后将数据集存储在一个名为 data 的变量中。接下来，我们使用 train_test_split 函数将数据集分割成训练集和测试集，其中 test_size 参数指定了测试集的比例（这里设为 0.2，即 20% 的数据作为测试集），shuffle 参数指定是否打乱数据集。然后，我们将训练集和测试集分割成 batch，每个 batch 的大小为 1024。最后，我们输出了分割后训练集和测试集的大小。\n\n注意：上述代码中，我们对数据进行了转置操作，因为 train_test_split 函数默认将数据按行划分，而我们希望按列划分。所以在传入 train_test_split 函数之前，我们将数据进行了转置。