这段代码使用 Pandas 库对数据框 df 进行筛选、分组、分位数计算和透视表创建,主要步骤如下:

  1. 筛选: 使用条件 df['近30日直播+短视频数量'] > 0 选择 '近30日直播+短视频数量' 列中大于 0 的行,并保留 '归属大区'、'归属城市' 和 '近30日直播+短视频数量' 三列。

  2. 分组: 使用 groupby(['归属大区','归属城市']) 对数据进行分组,以便按地区统计。

  3. 分位数计算: 使用 quantile([0.3, 0.6, 0.9]) 计算每个分组的 30%、60% 和 90% 分位数。

  4. 重置索引: 使用 reset_index() 将分组后的结果重新设置索引,使 '归属大区' 和 '归属城市' 列变为普通列。

  5. 透视表创建: 使用 pivot(index=['归属大区','归属城市'],columns='level_2',values=['近30日直播+短视频数量']) 将 'level_2' 列的值转化为列名,'近30日直播+短视频数量' 列的值作为新的列,形成一个新的数据框 df_threshold1

最终,df_threshold1 中的每一行代表一个特定的 '归属大区' 和 '归属城市' 组合,该组合下的 '近30日直播+短视频数量' 列的值为对应分位数的值。

通过这些步骤,我们可以分析不同地区近 30 日直播和短视频数量的分布情况,例如,可以了解哪个地区直播和短视频数量的增长速度最快,或者哪个地区的用户对直播和短视频内容最感兴趣。

Pandas 数据分析:筛选、分组、分位数计算与透视表创建

原文地址: https://www.cveoy.top/t/topic/dU9Z 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录