Python Pandas 数据清洗:处理缺失值实战指南
Python Pandas 数据清洗:处理缺失值实战指南
在数据分析中,我们经常会遇到数据集存在缺失值的情况。本教程将使用 Python Pandas 库演示如何查找、显示和填充数据集中的缺失值。
示例数据集:
我们使用一个学生成绩数据集作为示例,其中包含学生姓名、数学成绩和语文成绩。
import pandas as pd
data = {'学生姓名': ['张三', '李四', '王五', '赵六', '钱七'],
'数学成绩': [85, None, 92, 78, 88],
'语文成绩': [90, 86, None, 77, 91]}
df = pd.DataFrame(data)
1. 查找并显示数据集中的空值和缺失值
使用 isnull() 方法可以查找并显示数据集中的空值和缺失值。
res = df.isnull()
print(res)
2. 使用适当的方法填充缺失值
我们使用以下方法填充缺失值:
- 使用平均值填充数学成绩:
df['数学成绩'].fillna(df['数学成绩'].mean(), inplace=True) - 使用中位数填充语文成绩:
df['语文成绩'].fillna(df['语文成绩'].median(), inplace=True)
df['数学成绩'].fillna(df['数学成绩'].mean(), inplace=True)
df['语文成绩'].fillna(df['语文成绩'].median(), inplace=True)
3. 显示填充后的数据集
print(df)
最终结果:
本教程演示了使用 Python Pandas 处理缺失值的常见方法。您可以根据实际情况选择合适的填充方法。
原文地址: https://www.cveoy.top/t/topic/dTSB 著作权归作者所有。请勿转载和采集!