Python 数据清洗:删除特定列并筛选建筑面积小于300平米的房源
Python 数据清洗:删除特定列并筛选建筑面积小于300平米的房源
本文将演示如何使用 Python 对房源数据进行清洗,主要包括以下步骤:
- 删除特定列:删除 '小区名字', '户型', '朝向', '楼层', '装修', '区域', '单价' 等列。
- 筛选建筑面积:筛选 '建筑面积' 小于 300 平米的房源。
- 删除空值:删除所有空值。
以下是代码示例:
# 假设 data_copy 为原始房源数据
del data_copy['小区名字']
del data_copy['户型']
del data_copy['朝向']
del data_copy['楼层']
del data_copy['装修']
del data_copy['区域']
del data_copy['单价']
data_copy.dropna(axis=0, how='any', inplace=True) # 删除data数据中的所有空值
new_data = data_copy[data_copy['建筑面积']<300].reset_index(drop=True)
# 获取'建筑面积'小于300平米的房子信息,并重置索引
new_data = new_data.drop(['小区名字', '户型', '朝向', '楼层', '装修', '区域', '单价'], axis=1)
new_data = new_data.dropna()
new_data
解释:
del data_copy['小区名字']等语句用于删除指定列。data_copy.dropna(axis=0, how='any', inplace=True)用于删除所有含有空值的记录。new_data = data_copy[data_copy['建筑面积']<300]用于筛选出 '建筑面积' 小于 300 平米的记录。reset_index(drop=True)用于重置索引,避免原索引混淆。new_data.drop(['小区名字', '户型', '朝向', '楼层', '装修', '区域', '单价'], axis=1)用于删除指定列。new_data.dropna()用于再次删除所有含有空值的记录。
通过以上步骤,我们可以成功筛选出满足条件的房源数据,并进行进一步的分析和处理。
原文地址: https://www.cveoy.top/t/topic/KsL 著作权归作者所有。请勿转载和采集!