Python 数据预处理:从原始数据集筛选训练数据
这段代码使用 Python 的 Pandas 库,从原始数据集 (raw_df) 中筛选出不包含在测试数据集 (test_df) 中的数据,并将筛选后的数据赋值给训练数据集 (train_df)。
代码解释:
-
train_df = raw_df[~raw_df['Id'].isin(test_df['Id'])]raw_df:原始数据集。test_df:测试数据集。'Id':数据集中的一个列名,用于标识每个数据点的唯一性。isin():判断raw_df['Id']中的每个值是否包含在test_df['Id']中。~:取反操作,筛选出raw_df['Id']中不包含在test_df['Id']中的值。[]:将筛选后的数据赋值给train_df。
代码功能:
这段代码通过判断原始数据集 (raw_df) 中每个数据点的唯一标识 (Id) 是否存在于测试数据集 (test_df) 中,来筛选出不包含在测试数据集中的数据点。最终,将筛选后的数据赋值给训练数据集 (train_df)。
原文地址: https://www.cveoy.top/t/topic/n8Y7 著作权归作者所有。请勿转载和采集!