Python Pandas 数据分析:特征描述统计与类别分组
本文将介绍如何利用 Python Pandas 库进行数据分析,重点讲解如何对数据集进行特征描述性统计分析,并根据类别进行分组比较。
代码示例:
data_a = data[['特征1', '特征2', '特征3', '特征4', '特征5', '特征6', '特征7', '特征8', '特征9']]
data_a1 = data_a[data_a['类别'] == 0].describe()
data_a2 = data_a[data_a['类别'] == 1].describe()
describe = pd.concat([data_a1, data_a2], axis=1)
describe.drop(['类别', '类别'], axis=1)
describe
代码解释:
-
data_a = data[['特征1', '特征2', '特征3', '特征4', '特征5', '特征6', '特征7', '特征8', '特征9']]: 从原始数据data中选取指定的特征列,生成一个新的数据集data_a。 -
data_a1 = data_a[data_a['类别'] == 0].describe(): 从data_a中选取类别列为 0 的行,对其进行描述性统计分析,生成一个新的数据集data_a1。 -
data_a2 = data_a[data_a['类别'] == 1].describe(): 从data_a中选取类别列为 1 的行,对其进行描述性统计分析,生成一个新的数据集data_a2。 -
describe = pd.concat([data_a1, data_a2], axis=1): 将data_a1和data_a2按列方向拼接起来,生成一个新的数据集describe。 -
describe.drop(['类别', '类别'], axis=1): 删除describe中的类别列,生成最终的数据集并输出。
通过以上代码,我们可以对不同类别的数据进行描述性统计分析,并观察不同类别之间特征的差异。
原文地址: http://www.cveoy.top/t/topic/f1YB 著作权归作者所有。请勿转载和采集!