Python网络爬虫实战：电影数据采集与分析

互联网已经成为海量信息的载体，分析市场趋势、监视竞争对手或获取销售线索，数据采集和分析能力已经成为驱动业务决策的关键技能。如何有效地提取并利用这些信息成了一个巨大的挑战，而网络爬虫是一种很好的自动采集数据的通用手段。电影数据的爬取主要爬取电影数据中的电影名及电影介绍。具体要用到的技术有Python的urllib库爬取页面，lxml库进行数据的xpath规则解析。

任务描述

请根据提供的数据文件完成以下操作：

环境搭建
- 将本地网页放入tomcat的webapp文件夹下，启动tomcat。
- 建立Python工程spider_analysis。
- 创建Python文件编写爬虫，导入相应的依赖模块urllib和lxml。
爬虫代码实现
- 定义请求头。
- 打开请求网页。
- 解析视频信息数据，存入列表list。
- 遍历list列表，解析电影名及描述，并打印。
- 为爬虫添加异常处理。

实施条件

测试所需的软硬件设备见表 4-6-1。

表 4-6-1 考点提供的主要设备及软件

| 序号 | 设备、软件名称 | 规格/技术参数、用途 | 备注 | |---|---|---|---| | 1 | 大数据技术实训机房 | 测试场地 | 保证参考人员有足够间距 | | 2 | 计算机 | CPU 奔腾 4 以上，内存 2G 以上。 XP 或 Win7 操作系统、 linux 操作系统（ubuntu 或 centos） | 用于软件开发和软件部署，每人一台。 | | 3 | Pycharm2018.2 或 IntelliJ IDEA2018.2 | 开发工具 | 参考人员选用一种开发工具 | | 4 | Chrome55 或以上 | 浏览器 |

考核时量

考核时间为120分钟。

评分细则

评分细则见表 4-6-2。

表 4-6-2 学生成绩数据分析与可视化评分细则

| 要求类别 | 评价项 | 分值 | 评分细则 | |---|---|---|---| | 技能要求 | 启动Tomcat | 10分 | 导入网页项目错误，扣5分；启动tomcat项目失败，扣5分。 | | | 创建工程 | 5分 | 创建工程错误，扣5分。 | | | 编写爬虫 | 10分 | 导入urllib和lxml模块错误，扣5分；未创建爬虫代码模块，扣5分；无需和参考答案一致。 | | | 爬虫数据爬取 | 25分 | 定义请求头错误，扣5分；定义请求地址并打开错误，扣5分；获取请求数据失败，扣5分；请求数据解码失败，扣5分；无需跟参考答案一致。 | | | 爬虫数据解析 | 30分 | 将响应数据用lxml模块转变为html文本错误，扣5分；解析html数据获得电影信息失败，扣5分；遍历电影信息数据错误或失败，扣5分；解析电影名字错误，扣5分；解析电影描述错误，扣5分；打印电影信息错误，扣5分；无需跟参考答案一致，保存截图。 | | | 异常处理 | 10分 | 未添加异常处理，扣5分；异常处理未包含响应码和异常原因，扣5分。 | | 素质要求 | 项目文档 | 5分 | 按题目的考核要求提交考核结果的文档，文件命名和排版规范。 | | | 职业素养 | 5分 | 注重实训场所的安全管理规定，遵守操作规程和考场纪律。 |

提交内容

任务完成后，需要提交以下内容：

Tomcat项目文件，放入webapp文件夹下。
Python工程文件，包括爬虫代码。
项目文档，包括实施条件、评分细则和考核结果的说明。

评分标准

启动Tomcat：10分，导入网页项目错误扣5分，启动tomcat项目失败扣5分。
创建工程：5分，创建工程错误扣5分。
编写爬虫：10分，导入urllib和lxml模块错误扣5分，未创建爬虫代码模块扣5分。
爬虫数据爬取：25分，定义请求头错误扣5分，定义请求地址并打开错误扣5分，获取请求数据失败扣5分，请求数据解码失败扣5分。
爬虫数据解析：30分，将响应数据用lxml模块转变为html文本错误扣5分，解析html数据获得电影信息失败扣5分，遍历电影信息数据错误或失败扣5分，解析电影名字错误扣5分，解析电影描述错误扣5分，打印电影信息错误扣5分。
异常处理：10分，未添加异常处理扣5分，异常处理未包含响应码和异常原因扣5分。
项目文档：5分，按要求提交考核结果的文档，文件命名和排版规范。
职业素养：5分，注重实训场所的安全管理规定，遵守操作规程和考场纪律。

请根据以上要求完成任务，并提交相关文件。