Python Pandas 数据清洗:处理缺失值实战指南

在数据分析中,我们经常会遇到数据集存在缺失值的情况。本教程将使用 Python Pandas 库演示如何查找、显示和填充数据集中的缺失值。

示例数据集:

我们使用一个学生成绩数据集作为示例,其中包含学生姓名、数学成绩和语文成绩。

import pandas as pd

data = {'学生姓名': ['张三', '李四', '王五', '赵六', '钱七'],
        '数学成绩': [85, None, 92, 78, 88],
        '语文成绩': [90, 86, None, 77, 91]}
df = pd.DataFrame(data)

1. 查找并显示数据集中的空值和缺失值

使用 isnull() 方法可以查找并显示数据集中的空值和缺失值。

res = df.isnull()
print(res)

2. 使用适当的方法填充缺失值

我们使用以下方法填充缺失值:

  • 使用平均值填充数学成绩:df['数学成绩'].fillna(df['数学成绩'].mean(), inplace=True)
  • 使用中位数填充语文成绩:df['语文成绩'].fillna(df['语文成绩'].median(), inplace=True)
df['数学成绩'].fillna(df['数学成绩'].mean(), inplace=True)
df['语文成绩'].fillna(df['语文成绩'].median(), inplace=True)

3. 显示填充后的数据集

print(df)

最终结果:

本教程演示了使用 Python Pandas 处理缺失值的常见方法。您可以根据实际情况选择合适的填充方法。

Python Pandas 数据清洗:处理缺失值实战指南

原文地址: https://www.cveoy.top/t/topic/dTSB 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录