Python爬虫实战：抓取豆瓣电影《穿靴子的猫2》影评数据

本教程将使用Python爬虫技术，借助Selenium库抓取豆瓣电影《穿靴子的猫2》的所有影评数据，并将其存储为JSON格式文件。学习如何使用Python进行网页抓取、数据处理和文件存储。

步骤:

使用Selenium库，点击进入电影全部影评:
- 首先，打开Chrome浏览器，进入《穿靴子的猫2》的豆瓣电影页面：https://movie.douban.com/subject/25868125/
- 然后，点击页面上的“全部影评”按钮，进入全部影评页面。
从’https://movie.douban.com/subject/2586812/comments?start=0&limit=20&status=P&sort=new_score’地址开始，抓取第一页的评论人名称、评论时间以及评论:
- 使用Python中的requests库发送GET请求，获取该页面的HTML代码。
- 解析HTML代码，提取评论人名称、评论时间以及评论内容。
继续抓取2-3页的所有评论人名称、评论时间以及评论:
- 分析网页结构，找到下一页的URL地址。
- 使用循环，依次抓取2-3页的评论数据。
将抓取到的数据以文件存储的方式，存储为json格式数据内容:
- 使用Python中的json库，将抓取到的数据写入JSON文件。

代码示例:

import time
import json
from selenium import webdriver

# 打开浏览器
browser = webdriver.Chrome()

# 进入电影全部影评页面
browser.get('https://movie.douban.com/subject/25868125/comments?status=P')

# 等待页面加载完成
time.sleep(5)

# 点击加载更多按钮，直到全部加载完毕
while True:
    try:
        load_more = browser.find_element_by_class_name('more')
        load_more.click()
        time.sleep(2)
    except:
        break

# 获取所有评论
comments = []
comment_items = browser.find_elements_by_class_name('comment-item')
for comment_item in comment_items:
    comment = {}
    comment['username'] = comment_item.find_element_by_class_name('comment-info').find_element_by_tag_name('a').text
    comment['time'] = comment_item.find_element_by_class_name('comment-time').get_attribute('title')
    comment['content'] = comment_item.find_element_by_class_name('short').text
    comments.append(comment)

# 存储为json格式数据
with open('comments.json', 'w', encoding='utf-8') as f:
    json.dump(comments, f, ensure_ascii=False)

# 关闭浏览器
browser.quit()

注意:

为了确保代码正常运行，需要安装Selenium库和Chrome浏览器驱动程序。
由于豆瓣网站的反爬虫机制，代码可能需要进行调整，例如添加随机延时、模拟用户行为等。
本教程仅供学习参考，请勿用于任何非法用途。