Python Pandas数据分析实战:从入门到进阶

前言本教程将带你学习如何使用Python Pandas库进行数据分析。Pandas是一个强大的数据操作和分析库,提供了高效的数据结构和数据分析工具。

1. 数据加载与初步探索

1.1 读取Excel文件到DataFramepythonimport pandas as pd

读取Excel文件到DataFramedf = pd.read_excel('data.xlsx')

1.2 打印后4行数据的信息python# 打印后4行数据的信息tail4 = df.tail(4)print('后4行数据:')print(tail4)

1.3 数值型数据的主要统计信息python# 数值型数据的主要统计信息df_num = df.describe()print('数值型数据的主要统计信息:')print(df_num)

1.4 类别型数据的主要统计信息python# 类别型数据的主要统计信息df_obj = df.describe(include='object')print('类别型数据的主要统计信息:')print(df_obj)


2. 数据选择与过滤

2.1 筛选技术部门员工的所有信息python# 筛选技术部门员工的所有信息tech_df = df[df['部门'] == '技术']print('技术部门员工的所有信息:')print(tech_df)

2.2 筛选2019年入职员工,展示其所有信息python# 筛选2019年入职员工,展示其所有信息df_2019 = df[df['入职年份'] == 2019]print('2019年入职员工信息:')print(df_2019)

2.3 筛选薪资在15000-20000之间(两端都包含) python# 筛选薪资在15000-20000之间 (两端都包含) sal_df = df[(df['薪资'] >= 15000) & (df['薪资'] <= 20000)]print('薪资在15000-20000之间的员工信息:')print(sal_df)


3. 计算

3.1 根据入职时间计算员工的工作年限(当前年份-入职年份),并设为新的一列。python# 根据入职时间计算员工的工作年限(当前年份-入职年份),并设为新的一列。df['work_years'] = pd.datetime.now().year - df['入职年份']print('添加工作年限列后的数据:')print(df)

3.2 对入职年限高于5年的员工,加薪10%python# 对入职年限高于5年的员工,加薪10%df.loc[df['work_years'] > 5, '薪资'] = df['薪资'] * 1.1print('特定员工加薪10%后的数据:')print(df)


4. 数据统计与分组

4.1 按部门分组,平均薪资和年龄python# 按部门分组,平均薪资和年龄mean_sal_age = df.groupby('部门').agg({'薪资': 'mean', '年龄': 'mean'})print('各部门的平均薪资和年龄:')print(mean_sal_age)


5. 问题回答

5.1 工作年限小于2年的员工中,年薪最低的员工属于哪个部门python# 工作年限小于2年的员工中,年薪最低的员工属于哪个部门min_sal_dept = df[df['work_years'] < 2]['部门'][df['薪资'].idxmin()]print(f'工作年限小于2年的员工中年薪最低员工所在部门:{min_sal_dept}')

5.2 年薪最高的员工比最低的员工年长几岁python# 年薪最高的员工比最低的员工年长几岁age_diff = df[df['薪资'].idxmax()]['年龄'] - df[df['薪资'].idxmin()]['年龄']print(f'年薪最高的员工比最低的员工年长{age_diff}岁')

Python Pandas数据分析实战:从入门到进阶

原文地址: https://www.cveoy.top/t/topic/yBi 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录