Python Pandas 数据处理:如何从原始数据集中提取训练数据
这段代码使用 Python Pandas 库从原始数据集 (raw_df) 中提取训练数据 (train_df),方法是将原始数据集中不包含在测试数据集 (test_df) 中的数据筛选出来。
代码解释:
train_df = raw_df[~raw_df['Id'].isin(test_df['Id'])]
raw_df: 原始数据集。test_df: 测试数据集。~: 取反操作。raw_df['Id']: 原始数据集中的 'Id' 列。test_df['Id']: 测试数据集中的 'Id' 列。.isin():判断一个值是否在另一个序列中,返回一个布尔型的 Series 对象。
代码执行步骤:
- 使用
.isin()函数判断原始数据集中 'Id' 列的值是否在测试数据集中。如果在,则返回True,否则返回False。 - 对结果使用
~取反操作,得到一个布尔型的 Series 对象,表示在原始数据集中,哪些数据的 'Id' 列不在测试数据集中。 - 使用这个布尔型 Series 对象对原始数据集进行索引,得到不包含测试数据的原始数据集,即训练数据集
train_df。
.isin() 函数的作用是判断一个值是否在另一个序列中,返回一个布尔型的 Series 对象。在这段代码中,它的作用是判断 raw_df 中的 'Id' 列的值是否在 test_df 中。如果在,则返回 True,否则返回 False。
通过这种方式,可以从原始数据集中提取训练数据,并确保训练数据与测试数据不重叠。
原文地址: https://www.cveoy.top/t/topic/n8ZJ 著作权归作者所有。请勿转载和采集!