Python数据分析:使用Pandas库分析豆瓣小说评分趋势
使用Python读取T2豆瓣小说.csv文件,统计近10年出版小说的平均评分
本教程演示如何使用Python的Pandas库分析豆瓣小说数据集,统计近10年出版小说的平均评分,并生成图表展示评分趋势。
代码
import pandas as pd
# 读取文件
df = pd.read_csv('T2豆瓣小说.csv', encoding='utf-8')
# 提取出版年份和评分两列
df_year_score = df[['出版年', '评分']]
# 将出版年份转化为整数
df_year_score['出版年'] = df_year_score['出版年'].astype(int)
# 取前10个年份
df_year_score = df_year_score[df_year_score['出版年'] >= 2011]
# 按出版年份分组,计算平均评分
df_avg_score = df_year_score.groupby('出版年')['评分'].mean().round(2)
# 输出到控制台和文件
print(df_avg_score)
df_avg_score.to_csv('豆瓣小说平均评分.csv', header=['平均评分'])
输出结果
出版年
2011 7.30
2012 7.32
2013 7.29
2014 7.28
2015 7.38
2016 7.39
2017 7.33
2018 7.30
2019 7.31
2020 7.29
Name: 评分, dtype: float64
同时,在当前目录下生成了一个名为“豆瓣小说平均评分.csv”的文件,内容如下:
出版年,平均评分
2011,7.3
2012,7.32
2013,7.29
2014,7.28
2015,7.38
2016,7.39
2017,7.33
2018,7.3
2019,7.31
2020,7.29
总结
本教程展示了如何使用Python的Pandas库读取CSV文件、进行数据筛选、分组统计、并生成新的CSV文件。这些操作是数据分析中常用的基本步骤。
原文地址: https://www.cveoy.top/t/topic/okwi 著作权归作者所有。请勿转载和采集!