Python Pandas 数据处理：如何从原始数据集中提取训练数据

日期: 2026-04-03
标签: 常规

这段代码使用 Python Pandas 库从原始数据集 (raw_df) 中提取训练数据 (train_df)，方法是将原始数据集中不包含在测试数据集 (test_df) 中的数据筛选出来。

代码解释：

train_df = raw_df[~raw_df['Id'].isin(test_df['Id'])]

raw_df: 原始数据集。
test_df: 测试数据集。
~: 取反操作。
raw_df['Id']: 原始数据集中的 'Id' 列。
test_df['Id']: 测试数据集中的 'Id' 列。
.isin()：判断一个值是否在另一个序列中，返回一个布尔型的 Series 对象。

代码执行步骤：

使用 .isin() 函数判断原始数据集中 'Id' 列的值是否在测试数据集中。如果在，则返回 True，否则返回 False。
对结果使用 ~ 取反操作，得到一个布尔型的 Series 对象，表示在原始数据集中，哪些数据的 'Id' 列不在测试数据集中。
使用这个布尔型 Series 对象对原始数据集进行索引，得到不包含测试数据的原始数据集，即训练数据集 train_df。

.isin() 函数的作用是判断一个值是否在另一个序列中，返回一个布尔型的 Series 对象。在这段代码中，它的作用是判断 raw_df 中的 'Id' 列的值是否在 test_df 中。如果在，则返回 True，否则返回 False。

通过这种方式，可以从原始数据集中提取训练数据，并确保训练数据与测试数据不重叠。

Python Pandas 数据处理：如何从原始数据集中提取训练数据

原文地址: https://www.cveoy.top/t/topic/n8ZJ 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录

上一篇: 心理健康寄语：致过去的自己，三行诗歌感悟
下一篇: ANSYS 软件应用与组成详解：从结构分析到多物理场仿真