Python Pandas 数据处理:查找、删除重复行

本示例演示如何使用 Python Pandas 库查找和删除数据集中重复的行。

import pandas as pd
data = {'学生姓名': ['张三', '李四', '王五', '李四', '钱七'],
         '年龄': [18, 19, 20, 19, 18]}

df = pd.DataFrame(data)

# 查找并显示数据集中的重复行
duplicate_rows = df[df.duplicated()]
print(duplicate_rows)

# 删除重复行
df = df.drop_duplicates()

# 显示删除重复行后的数据集
print(df)

代码解释

  1. 导入 Pandas 库: import pandas as pd
  2. 创建 DataFrame: 使用字典 data 创建一个 Pandas DataFrame df
  3. 查找重复行: 使用 df.duplicated() 方法查找 DataFrame 中的重复行,并将结果存储在 duplicate_rows 变量中。
  4. 删除重复行: 使用 df.drop_duplicates() 方法删除 DataFrame 中的重复行,并更新 df 变量。
  5. 显示结果: 使用 print() 函数分别输出包含重复行的 DataFrame 和删除重复行后的 DataFrame。

通过以上步骤,我们成功地查找并删除了数据集中重复的行,并展示了最终结果。

提示:

  • df.duplicated() 方法默认情况下会查找所有列的重复行,可以通过参数 subset 指定要检查的列。
  • df.drop_duplicates() 方法默认情况下会保留第一条重复行,可以通过参数 keep='last' 保留最后一条重复行。
Python Pandas 数据处理:查找、删除重复行

原文地址: https://www.cveoy.top/t/topic/dTRq 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录