Pandas 数据分析:筛选、分组、分位数计算与透视表创建
这段代码使用 Pandas 库对数据框 df 进行筛选、分组、分位数计算和透视表创建,主要步骤如下:
-
筛选: 使用条件
df['近30日直播+短视频数量'] > 0选择 '近30日直播+短视频数量' 列中大于 0 的行,并保留 '归属大区'、'归属城市' 和 '近30日直播+短视频数量' 三列。 -
分组: 使用
groupby(['归属大区','归属城市'])对数据进行分组,以便按地区统计。 -
分位数计算: 使用
quantile([0.3, 0.6, 0.9])计算每个分组的 30%、60% 和 90% 分位数。 -
重置索引: 使用
reset_index()将分组后的结果重新设置索引,使 '归属大区' 和 '归属城市' 列变为普通列。 -
透视表创建: 使用
pivot(index=['归属大区','归属城市'],columns='level_2',values=['近30日直播+短视频数量'])将 'level_2' 列的值转化为列名,'近30日直播+短视频数量' 列的值作为新的列,形成一个新的数据框df_threshold1。
最终,df_threshold1 中的每一行代表一个特定的 '归属大区' 和 '归属城市' 组合,该组合下的 '近30日直播+短视频数量' 列的值为对应分位数的值。
通过这些步骤,我们可以分析不同地区近 30 日直播和短视频数量的分布情况,例如,可以了解哪个地区直播和短视频数量的增长速度最快,或者哪个地区的用户对直播和短视频内容最感兴趣。
原文地址: https://www.cveoy.top/t/topic/dU9Z 著作权归作者所有。请勿转载和采集!