Python网络爬虫实战:电影数据采集与分析
Python网络爬虫实战:电影数据采集与分析
互联网已经成为海量信息的载体,分析市场趋势、监视竞争对手或获取销售线索,数据采集和分析能力已经成为驱动业务决策的关键技能。如何有效地提取并利用这些信息成了一个巨大的挑战,而网络爬虫是一种很好的自动采集数据的通用手段。电影数据的爬取主要爬取电影数据中的电影名及电影介绍。具体要用到的技术有Python的urllib库爬取页面,lxml库进行数据的xpath规则解析。
任务描述
请根据提供的数据文件完成以下操作:
- 环境搭建
- 将本地网页放入tomcat的webapp文件夹下,启动tomcat。
- 建立Python工程
spider_analysis。 - 创建Python文件编写爬虫,导入相应的依赖模块urllib和lxml。
- 爬虫代码实现
- 定义请求头。
- 打开请求网页。
- 解析视频信息数据,存入列表
list。 - 遍历
list列表,解析电影名及描述,并打印。 - 为爬虫添加异常处理。
实施条件
测试所需的软硬件设备见表 4-6-1。
表 4-6-1 考点提供的主要设备及软件
| 序号 | 设备、软件名称 | 规格/技术参数、用途 | 备注 | |---|---|---|---| | 1 | 大数据技术实训 机房 | 测试场地 | 保证参考人员有足够间距 | | 2 | 计算机 | CPU 奔腾 4 以上,内存 2G 以上。 XP 或 Win7 操作系统、 linux 操作系统(ubuntu 或 centos) | 用于软件开发和软件部署, 每人 一台。 | | 3 | Pycharm2018.2 或 IntelliJ IDEA2018.2 | 开发工具 | 参考人员选用一种开发工具 | | 4 | Chrome55 或以上 | 浏览器 |
考核时量
考核时间为120分钟。
评分细则
评分细则见表 4-6-2。
表 4-6-2 学生成绩数据分析与可视化评分细则
| 要求类别 | 评价项 | 分值 | 评分细则 | |---|---|---|---| | 技能要求 | 启动Tomcat | 10分 | 导入网页项目错误,扣5分;启动tomcat项目失败,扣5分。 | | | 创建工程 | 5分 | 创建工程错误,扣5分。 | | | 编写爬虫 | 10分 | 导入urllib和lxml模块错误,扣5分;未创建爬虫代码模块,扣5分;无需和参考答案一致。 | | | 爬虫数据爬取 | 25分 | 定义请求头错误,扣5分;定义请求地址并打开错误,扣5分;获取请求数据失败,扣5分;请求数据解码失败,扣5分;无需跟参考答案一致。 | | | 爬虫数据解析 | 30分 | 将响应数据用lxml模块转变为html文本错误,扣5分;解析html数据获得电影信息失败,扣5分;遍历电影信息数据错误或失败,扣5分;解析电影名字错误,扣5分;解析电影描述错误,扣5分;打印电影信息错误,扣5分;无需跟参考答案一致,保存截图。 | | | 异常处理 | 10分 | 未添加异常处理,扣5分;异常处理未包含响应码和异常原因,扣5分。 | | 素质要求 | 项目文档 | 5分 | 按题目的考核要求提交考核结果的文档,文件命名和排版规范。 | | | 职业素养 | 5分 | 注重实训场所的安全管理规定,遵守操作规程和考场纪律。 |
提交内容
任务完成后,需要提交以下内容:
- Tomcat项目文件,放入webapp文件夹下。
- Python工程文件,包括爬虫代码。
- 项目文档,包括实施条件、评分细则和考核结果的说明。
评分标准
- 启动Tomcat:10分,导入网页项目错误扣5分,启动tomcat项目失败扣5分。
- 创建工程:5分,创建工程错误扣5分。
- 编写爬虫:10分,导入urllib和lxml模块错误扣5分,未创建爬虫代码模块扣5分。
- 爬虫数据爬取:25分,定义请求头错误扣5分,定义请求地址并打开错误扣5分,获取请求数据失败扣5分,请求数据解码失败扣5分。
- 爬虫数据解析:30分,将响应数据用lxml模块转变为html文本错误扣5分,解析html数据获得电影信息失败扣5分,遍历电影信息数据错误或失败扣5分,解析电影名字错误扣5分,解析电影描述错误扣5分,打印电影信息错误扣5分。
- 异常处理:10分,未添加异常处理扣5分,异常处理未包含响应码和异常原因扣5分。
- 项目文档:5分,按要求提交考核结果的文档,文件命名和排版规范。
- 职业素养:5分,注重实训场所的安全管理规定,遵守操作规程和考场纪律。
请根据以上要求完成任务,并提交相关文件。
原文地址: https://www.cveoy.top/t/topic/fw1L 著作权归作者所有。请勿转载和采集!