数据预处理与分析:各国饮酒习惯对比
以下是您提供的数据预处理和数据操作的步骤:
- 数据预处理: (1) 导入Excel表格中的数据到DataFrame中:
import pandas as pd
df = pd.read_excel('data.xlsx')
请将'data.xlsx'替换为您实际的数据文件名。
(2) 查看数据的前5行和后8行:
print(df.head(5)) # 查看前5行
print(df.tail(8)) # 查看后8行
- 数据操作: (1) 查看数据中各变量类型:
print(df.dtypes)
(2) 将啤酒销量改成object类型:
df['啤酒销量'] = df['啤酒销量'].astype('object')
(3) 将列名的英文改为中文格式:
df.rename(columns={'啤酒销量': '啤酒销售量', '烈酒销量': '烈酒销售量', '红酒销量': '红酒销售量'}, inplace=True)
(4) 初步查看数据类型和大小:
print(df.info()) # 查看数据类型和大小
(5) 查看数据数值统计情况:
print(df.describe()) # 查看数值统计情况
(6) 查看索引值:
print(df.index) # 查看索引值
(7) 将索引值修改为所在的大洲:
df.set_index('大洲', inplace=True)
(8) 查看缺失值情况:
print(df.isnull().sum()) # 查看缺失值情况
(9) 采用恰当的方法对缺失值进行填充: 根据您的数据和填充需求,选择适当的方法进行缺失值填充,例如使用均值、中位数或众数填充:
df['啤酒销售量'].fillna(df['啤酒销售量'].mean(), inplace=True)
df['烈酒销售量'].fillna(df['烈酒销售量'].median(), inplace=True)
df['红酒销售量'].fillna(df['红酒销售量'].mode()[0], inplace=True)
- 饮酒情况对比: 下面是根据您提供的问题进行相关的操作和分析。
(1) 查找啤酒、烈酒和红酒的消耗量都高于相应酒种消耗量75%分位国家:
beer_threshold = df['啤酒销售量'].quantile(0.75)
liquor_threshold = df['烈酒销售量'].quantile(0.75)
wine_threshold = df['红酒销售量'].quantile(0.75)
beer_countries = df[df['啤酒销售量'] > beer_threshold]['国家']
liquor_countries = df[df['烈酒销售量'] > liquor_threshold]['国家']
wine_countries = df[df['红酒销售量'] > wine_threshold]['国家']
print('啤酒消耗量高于75%分位的国家:', beer_countries.tolist())
print('烈酒消耗量高于75%分位的国家:', liquor_countries.tolist())
print('红酒消耗量高于75%分位的国家:', wine_countries.tolist())
(2) 统计(1)中各大洲国家的个数:
beer_countries_count = beer_countries.value_counts()
liquor_countries_count = liquor_countries.value_counts()
wine_countries_count = wine_countries.value_counts()
print('啤酒消耗量高于75%分位的各大洲国家个数:
', beer_countries_count)
print('烈酒消耗量高于75%分位的各大洲国家个数:
', liquor_countries_count)
print('红酒消耗量高于75%分位的各大洲国家个数:
', wine_countries_count)
(3) 统计各个大洲各类酒的消耗总量:
continent_beer_sum = df.groupby('大洲')['啤酒销售量'].sum()
continent_liquor_sum = df.groupby('大洲')['烈酒销售量'].sum()
continent_wine_sum = df.groupby('大洲')['红酒销售量'].sum()
print('各大洲啤酒消耗总量:
', continent_beer_sum)
print('各大洲烈酒消耗总量:
', continent_liquor_sum)
print('各大洲红酒消耗总量:
', continent_wine_sum)
(4) 计算各类酒占各大洲总消耗量的比重:
beer_percentage = df['啤酒销售量'] / df['啤酒销售量'].sum()
liquor_percentage = df['烈酒销售量'] / df['烈酒销售量'].sum()
wine_percentage = df['红酒销售量'] / df['红酒销售量'].sum()
print('各大洲啤酒消耗量的比重:
', beer_percentage)
print('各大洲烈酒消耗量的比重:
', liquor_percentage)
print('各大洲红酒消耗量的比重:
', wine_percentage)
- 通过饮酒情况对比,对各大洲的饮酒习惯进行分析: 根据上述操作的结果,您可以分析各大洲的饮酒习惯。例如,您可以比较各大洲的酒种消耗量、高消耗量国家的分布情况、饮酒习惯与大洲的关联等。请根据您的具体需求和数据来进行分析和解读。
原文地址: https://www.cveoy.top/t/topic/bLnZ 著作权归作者所有。请勿转载和采集!