Python数据分析：使用Pandas库分析豆瓣小说评分趋势

使用Python读取T2豆瓣小说.csv文件，统计近10年出版小说的平均评分

本教程演示如何使用Python的Pandas库分析豆瓣小说数据集，统计近10年出版小说的平均评分，并生成图表展示评分趋势。

代码

import pandas as pd

# 读取文件
df = pd.read_csv('T2豆瓣小说.csv', encoding='utf-8')

# 提取出版年份和评分两列
df_year_score = df[['出版年', '评分']]

# 将出版年份转化为整数
df_year_score['出版年'] = df_year_score['出版年'].astype(int)

# 取前10个年份
df_year_score = df_year_score[df_year_score['出版年'] >= 2011]

# 按出版年份分组，计算平均评分
df_avg_score = df_year_score.groupby('出版年')['评分'].mean().round(2)

# 输出到控制台和文件
print(df_avg_score)
df_avg_score.to_csv('豆瓣小说平均评分.csv', header=['平均评分'])

输出结果

出版年
2011    7.30
2012    7.32
2013    7.29
2014    7.28
2015    7.38
2016    7.39
2017    7.33
2018    7.30
2019    7.31
2020    7.29
Name: 评分, dtype: float64

同时，在当前目录下生成了一个名为“豆瓣小说平均评分.csv”的文件，内容如下：

出版年,平均评分
2011,7.3
2012,7.32
2013,7.29
2014,7.28
2015,7.38
2016,7.39
2017,7.33
2018,7.3
2019,7.31
2020,7.29

总结

本教程展示了如何使用Python的Pandas库读取CSV文件、进行数据筛选、分组统计、并生成新的CSV文件。这些操作是数据分析中常用的基本步骤。