这段代码使用 Python Pandas 库从原始数据集 (raw_df) 中提取训练数据 (train_df),方法是将原始数据集中不包含在测试数据集 (test_df) 中的数据筛选出来。

代码解释:

train_df = raw_df[~raw_df['Id'].isin(test_df['Id'])]
  • raw_df: 原始数据集。
  • test_df: 测试数据集。
  • ~: 取反操作。
  • raw_df['Id']: 原始数据集中的 'Id' 列。
  • test_df['Id']: 测试数据集中的 'Id' 列。
  • .isin():判断一个值是否在另一个序列中,返回一个布尔型的 Series 对象。

代码执行步骤:

  1. 使用 .isin() 函数判断原始数据集中 'Id' 列的值是否在测试数据集中。如果在,则返回 True,否则返回 False
  2. 对结果使用 ~ 取反操作,得到一个布尔型的 Series 对象,表示在原始数据集中,哪些数据的 'Id' 列不在测试数据集中。
  3. 使用这个布尔型 Series 对象对原始数据集进行索引,得到不包含测试数据的原始数据集,即训练数据集 train_df

.isin() 函数的作用是判断一个值是否在另一个序列中,返回一个布尔型的 Series 对象。在这段代码中,它的作用是判断 raw_df 中的 'Id' 列的值是否在 test_df 中。如果在,则返回 True,否则返回 False

通过这种方式,可以从原始数据集中提取训练数据,并确保训练数据与测试数据不重叠。

Python Pandas 数据处理:如何从原始数据集中提取训练数据

原文地址: https://www.cveoy.top/t/topic/n8ZJ 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录