Python Pandas 数据处理:查找、删除重复行
Python Pandas 数据处理:查找、删除重复行
本示例演示如何使用 Python Pandas 库查找和删除数据集中重复的行。
import pandas as pd
data = {'学生姓名': ['张三', '李四', '王五', '李四', '钱七'],
'年龄': [18, 19, 20, 19, 18]}
df = pd.DataFrame(data)
# 查找并显示数据集中的重复行
duplicate_rows = df[df.duplicated()]
print(duplicate_rows)
# 删除重复行
df = df.drop_duplicates()
# 显示删除重复行后的数据集
print(df)
代码解释
- 导入 Pandas 库:
import pandas as pd - 创建 DataFrame: 使用字典
data创建一个 Pandas DataFramedf。 - 查找重复行: 使用
df.duplicated()方法查找 DataFrame 中的重复行,并将结果存储在duplicate_rows变量中。 - 删除重复行: 使用
df.drop_duplicates()方法删除 DataFrame 中的重复行,并更新df变量。 - 显示结果: 使用
print()函数分别输出包含重复行的 DataFrame 和删除重复行后的 DataFrame。
通过以上步骤,我们成功地查找并删除了数据集中重复的行,并展示了最终结果。
提示:
df.duplicated()方法默认情况下会查找所有列的重复行,可以通过参数subset指定要检查的列。df.drop_duplicates()方法默认情况下会保留第一条重复行,可以通过参数keep='last'保留最后一条重复行。
原文地址: https://www.cveoy.top/t/topic/dTRq 著作权归作者所有。请勿转载和采集!