Python 数据清洗:删除特定列并筛选建筑面积小于300平米的房源

本文将演示如何使用 Python 对房源数据进行清洗,主要包括以下步骤:

  1. 删除特定列:删除 '小区名字', '户型', '朝向', '楼层', '装修', '区域', '单价' 等列。
  2. 筛选建筑面积:筛选 '建筑面积' 小于 300 平米的房源。
  3. 删除空值:删除所有空值。

以下是代码示例:

# 假设 data_copy 为原始房源数据
del data_copy['小区名字']
del data_copy['户型']
del data_copy['朝向']
del data_copy['楼层']
del data_copy['装修']
del data_copy['区域']
del data_copy['单价']

data_copy.dropna(axis=0, how='any', inplace=True)  # 删除data数据中的所有空值

new_data = data_copy[data_copy['建筑面积']<300].reset_index(drop=True)
# 获取'建筑面积'小于300平米的房子信息,并重置索引
new_data = new_data.drop(['小区名字', '户型', '朝向', '楼层', '装修', '区域', '单价'], axis=1)
new_data = new_data.dropna()
new_data

解释:

  • del data_copy['小区名字'] 等语句用于删除指定列。
  • data_copy.dropna(axis=0, how='any', inplace=True) 用于删除所有含有空值的记录。
  • new_data = data_copy[data_copy['建筑面积']<300] 用于筛选出 '建筑面积' 小于 300 平米的记录。
  • reset_index(drop=True) 用于重置索引,避免原索引混淆。
  • new_data.drop(['小区名字', '户型', '朝向', '楼层', '装修', '区域', '单价'], axis=1) 用于删除指定列。
  • new_data.dropna() 用于再次删除所有含有空值的记录。

通过以上步骤,我们可以成功筛选出满足条件的房源数据,并进行进一步的分析和处理。

Python 数据清洗:删除特定列并筛选建筑面积小于300平米的房源

原文地址: https://www.cveoy.top/t/topic/KsL 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录