Python爬虫实战：抓取豆瓣电影《穿靴子的猫2》影评数据

免责声明： 本文仅供学习交流使用，请在法律允许的范围内使用爬虫技术，不要侵犯他人的合法权益。

使用 Python 和 Selenium 爬取豆瓣电影《穿靴子的猫2》影评数据：

以下是一个使用 Python 语言和 Selenium 库实现的示例代码，可以爬取《穿靴子的猫2》在豆瓣电影上的影评数据。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 创建浏览器对象
browser = webdriver.Chrome()

# 访问url地址
url = 'https://movie.douban.com/subject/26698897/comments?status=P'
browser.get(url)

# 循环爬取所有页的影评数据
while True:
    # 定位元素点击
    try:
        next_button = WebDriverWait(browser, 10).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '.comment .next a'))
        )
        next_button.click()
    except:
        break

# 关闭浏览器
browser.close()

代码解析：

创建浏览器对象：使用 webdriver.Chrome() 创建一个 Chrome 浏览器对象。
访问 URL 地址：使用 browser.get(url) 访问豆瓣电影《穿靴子的猫2》的影评页面。
循环爬取所有页的影评数据：使用 while True 循环，每次循环都定位到“下一页”按钮的元素，点击该元素可以加载出下一页的影评数据。如果没有下一页按钮了，就退出循环。
定位元素点击：使用 WebDriverWait 和 EC.presence_of_element_located 定位到“下一页”按钮的元素，并使用 next_button.click() 点击该元素。
关闭浏览器：使用 browser.close() 关闭浏览器对象。

注意：

上面的代码只是一个示例，实际爬取时还需要对网站的反爬措施进行处理，比如设置 user-agent、延时等。
爬取到的数据也需要进行清洗和处理，才能得到有用的信息。

更多学习：

Selenium 文档： https://www.selenium.dev/
Python 爬虫入门教程：https://www.runoob.com/python/python-web-spider.html
豆瓣电影 API：https://developers.douban.com/wiki/?title=movie_v2