Python Pandas 数据处理：查找、删除重复行

本示例演示如何使用 Python Pandas 库查找和删除数据集中重复的行。

import pandas as pd
data = {'学生姓名': ['张三', '李四', '王五', '李四', '钱七'],
         '年龄': [18, 19, 20, 19, 18]}

df = pd.DataFrame(data)

# 查找并显示数据集中的重复行
duplicate_rows = df[df.duplicated()]
print(duplicate_rows)

# 删除重复行
df = df.drop_duplicates()

# 显示删除重复行后的数据集
print(df)

代码解释

导入 Pandas 库： import pandas as pd
创建 DataFrame： 使用字典 data 创建一个 Pandas DataFrame df。
查找重复行： 使用 df.duplicated() 方法查找 DataFrame 中的重复行，并将结果存储在 duplicate_rows 变量中。
删除重复行： 使用 df.drop_duplicates() 方法删除 DataFrame 中的重复行，并更新 df 变量。
显示结果： 使用 print() 函数分别输出包含重复行的 DataFrame 和删除重复行后的 DataFrame。

通过以上步骤，我们成功地查找并删除了数据集中重复的行，并展示了最终结果。

提示：

df.duplicated() 方法默认情况下会查找所有列的重复行，可以通过参数 subset 指定要检查的列。
df.drop_duplicates() 方法默认情况下会保留第一条重复行，可以通过参数 keep='last' 保留最后一条重复行。