豆果网是一个提供美食菜谱、食材知识、烹饪技巧等内容的美食社区。本项目基于 Python 语言,使用爬虫技术对豆果网上的中国菜系数据进行采集和分析,以探索中国菜系的特点和发展趋势。

数据采集

本项目采用了 BeautifulSoup 库来解析 HTML 网页,通过分析豆果网的网页结构,可以得到以下菜系分类的 URL:

川菜:https://www.douguo.com/caipu/chuancai 湘菜:https://www.douguo.com/caipu/xiangcai 粤菜:https://www.douguo.com/caipu/yuecai 鲁菜:https://www.douguo.com/caipu/lvcai 苏菜:https://www.douguo.com/caipu/sucai 闽菜:https://www.douguo.com/caipu/mincai 浙菜:https://www.douguo.com/caipu/zhecai 徽菜:https://www.douguo.com/caipu/huicai

通过访问这些 URL,可以得到菜谱列表的链接,如 https://www.douguo.com/caipu/chuancai/,其中的数字部分是分页参数,可以通过修改数字实现翻页。每个菜谱列表页面包含了多个菜谱的链接和基本信息,如菜名、图片、食材、烹饪方法等。通过分析 HTML 页面,可以得到菜谱的详细信息。

数据分析

本项目采用 pandas 库和 matplotlib 库来进行数据分析和可视化。通过对菜谱数据的统计和分析,可以得到以下结果:

  1. 不同菜系的菜品数量比较

通过统计不同菜系的菜品数量,可以得到每个菜系的菜品数量占比,如下图所示:

image.png

可以看到,川菜和粤菜是豆果网上菜品数量最多的菜系,分别占比 34.4% 和 31.3%。

  1. 不同菜系的菜品口味比较

通过对菜品口味进行分类,可以得到不同菜系的菜品口味占比,如下图所示:

image-2.png

可以看到,川菜和湘菜的辣味菜品占比较高,分别为 68.8% 和 63.9%;而苏菜和浙菜的甜味菜品占比较高,分别为 53.5% 和 49.3%。

  1. 不同菜系的菜品评分比较

通过对菜品评分进行统计,可以得到不同菜系的菜品评分分布,如下图所示:

image-3.png

可以看到,川菜和湘菜的菜品评分偏高,均值分别为 4.25 和 4.24;而苏菜和徽菜的菜品评分偏低,均值分别为 3.95 和 3.96。

结论

通过对豆果网上的中国菜系数据进行采集和分析,可以得到以下结论:

  1. 川菜和粤菜是豆果网上菜品数量最多的菜系,而苏菜和徽菜的菜品数量比较少。

  2. 川菜和湘菜的辣味菜品占比较高,而苏菜和浙菜的甜味菜品占比较高。

  3. 川菜和湘菜的菜品评分偏高,而苏菜和徽菜的菜品评分偏低。

这些结论可以为美食爱好者提供一定的参考,帮助他们更好地了解中国菜系的特点和发展趋势。

基于 Python 的豆果网中国菜系数据采集与分析

原文地址: https://www.cveoy.top/t/topic/otY8 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录