Python爬虫实战：抓取豆瓣电影《穿靴子的猫2》全部影评数据

本文将详细介绍如何使用Python爬虫技术，利用Selenium和BeautifulSoup库，抓取豆瓣电影《穿靴子的猫2》所有页面的影评数据。具体步骤如下：

1. 使用Selenium库，点击进入电影全部影评内容

首先，我们需要使用Selenium库，模拟浏览器访问豆瓣电影《穿靴子的猫2》的页面（https://movie.douban.com/subject/25868125/）。

在页面中，需要点击'全部影评'按钮，进入所有影评页面。

2. 使用BeautifulSoup库抓取每一页的影评数据

进入所有影评页面后，我们可以使用BeautifulSoup库，解析网页结构，提取每页的影评数据。

3. 解析每条影评的评分、评论内容、评论时间等信息

最后，使用正则表达式或BeautifulSoup库，解析每条影评的评分、评论内容、评论时间等信息，并保存到本地文件中。

代码示例：

# 导入必要的库
from selenium import webdriver
from bs4 import BeautifulSoup
import re

# 初始化浏览器驱动
driver = webdriver.Chrome()

# 打开豆瓣电影《穿靴子的猫2》页面
driver.get('https://movie.douban.com/subject/25868125/')

# 点击'全部影评'按钮
driver.find_element_by_link_text('全部影评').click()

# 获取所有影评页面的HTML内容
html_content = driver.page_source

# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(html_content, 'html.parser')

# 提取每条影评数据
for review_item in soup.find_all('div', class_='comment-item'):
    # 获取评论评分
    rating = review_item.find('span', class_='rating_nums').text

    # 获取评论内容
    content = review_item.find('span', class_='short').text

    # 获取评论时间
    time = review_item.find('span', class_='comment-time').text

    # 将数据保存到本地文件中
    with open('reviews.txt', 'a', encoding='utf-8') as f:
        f.write(f'评分：{rating}, 内容：{content}, 时间：{time}
')

# 关闭浏览器驱动
driver.quit()

注意：

以上代码仅供参考，实际应用中需要根据豆瓣电影网页的结构进行调整。
抓取网站数据时，请遵守网站的robots协议，避免过度抓取造成网站服务器压力。