Python爬虫实战：抓取豆瓣电影《穿靴子的猫2》全部影评数据

本教程将使用Python爬虫技术，以豆瓣电影《穿靴子的猫2》为例，演示如何使用Selenium库抓取电影的所有页面的影评数据，并以JSON格式存储。教程涵盖了代码规范和注释，确保代码可读性。

步骤1：借助Selenium库，点击进入电影全部影评

使用Selenium库打开电影页面：https://movie.douban.com/subject/25868125/
找到“全部影评”按钮并点击进入全部影评页面。

步骤2：从'https://movie.douban.com/subject/25868125/comments?start=0&limit=20&status=P&sort=new_score'地址开始，抓取第一页的评论人名称、评论时间以及评论

使用Selenium库访问第一页评论页面。
使用Beautiful Soup库解析HTML代码，提取评论人名称、评论时间和评论内容。
将提取到的数据存储在一个字典中。

步骤3：继续抓取2-3页的所有评论人名称、评论时间以及评论

使用Selenium库模拟翻页操作，进入第二页和第三页。
重复步骤2中的操作，抓取每一页的评论数据。
将所有页面的评论数据存储在一个列表中。

步骤4：将抓取到的数据以文件存储的方式，存储为json格式数据

使用JSON库将抓取到的数据写入一个JSON文件。

步骤5：代码命名规范和注释清晰内容：，确保代码可读性

变量命名规范，使用有意义的名称，例如：user_name、comment_time、comment_content
注释清晰，解释代码的功能和逻辑。

完整代码示例：

# 导入必要的库
from selenium import webdriver
from bs4 import BeautifulSoup
import json

# 定义目标页面地址
movie_url = 'https://movie.douban.com/subject/25868125/'
comment_url = 'https://movie.douban.com/subject/25868125/comments?start=0&limit=20&status=P&sort=new_score'

# 初始化浏览器
browser = webdriver.Chrome()

# 打开电影页面
browser.get(movie_url)

# 点击“全部影评”按钮
# ...

# 获取评论数据
comments = []
for i in range(3):  # 抓取前三页评论
    browser.get(comment_url)
    soup = BeautifulSoup(browser.page_source, 'html.parser')
    # 获取所有评论元素
    comment_elements = soup.find_all('div', class_='comment-item')
    for comment_element in comment_elements:
        # 获取评论人名称
        user_name = comment_element.find('a', class_='name').text.strip()
        # 获取评论时间
        comment_time = comment_element.find('span', class_='comment-time').text.strip()
        # 获取评论内容
        comment_content = comment_element.find('span', class_='short').text.strip()
        
        # 将评论数据存储在字典中
        comment = {'user_name': user_name, 'comment_time': comment_time, 'comment_content': comment_content}
        
        # 将评论字典添加到评论列表中
        comments.append(comment)
    
    # 翻页
    # ...

# 关闭浏览器
browser.close()

# 将评论数据写入JSON文件
with open('comments.json', 'w', encoding='utf-8') as f:
    json.dump(comments, f, ensure_ascii=False, indent=4)

注意：

以上代码示例仅供参考，实际操作需要根据具体情况进行调整。
确保已安装必要的库，例如：Selenium、Beautiful Soup、JSON。
由于豆瓣电影的反爬虫机制，可能需要修改代码以绕过反爬虫机制。
遵守豆瓣电影网站的爬虫规则，避免过度爬取，影响网站运行。

希望本教程能够帮助您学习使用Python爬虫技术抓取网页数据！