使用 train_test_split 函数分割 2*200000 数据集(含 batch 分割)
要将 2200000 的数据分割成训练集和测试集,可以使用 train_test_split 函数。该函数可以将数据集随机分割成训练集和测试集,按照指定的比例划分。\n\n下面是一个示例代码,演示如何使用 train_test_split 函数将 2200000 的数据分割成训练集和测试集,其中每个 batch 的大小为 1024:\n\npython\nfrom sklearn.model_selection import train_test_split\n\n# 假设你的数据存储在一个名为 data 的变量中,形状为 (2, 200000)\ndata = ...\n\n# 将数据分割成训练集和测试集\ntrain_data, test_data = train_test_split(data.T, test_size=0.2, shuffle=True)\n\n# 将训练集和测试集分割成 batch\ntrain_batches = [train_data[i:i+1024] for i in range(0, len(train_data), 1024)]\ntest_batches = [test_data[i:i+1024] for i in range(0, len(test_data), 1024)]\n\n# 输出分割后的训练集和测试集的大小\nprint("训练集大小:", len(train_batches))\nprint("测试集大小:", len(test_batches))\n\n\n在上述代码中,我们首先导入了 train_test_split 函数,然后将数据集存储在一个名为 data 的变量中。接下来,我们使用 train_test_split 函数将数据集分割成训练集和测试集,其中 test_size 参数指定了测试集的比例(这里设为 0.2,即 20% 的数据作为测试集),shuffle 参数指定是否打乱数据集。然后,我们将训练集和测试集分割成 batch,每个 batch 的大小为 1024。最后,我们输出了分割后训练集和测试集的大小。\n\n注意:上述代码中,我们对数据进行了转置操作,因为 train_test_split 函数默认将数据按行划分,而我们希望按列划分。所以在传入 train_test_split 函数之前,我们将数据进行了转置。
原文地址: https://www.cveoy.top/t/topic/pzrY 著作权归作者所有。请勿转载和采集!