Python网络爬虫实战：抓取《穿靴子的猫2》豆瓣电影影评数据

本文将使用Python语言和Selenium库，爬取《穿靴子的猫2》在豆瓣电影上的所有影评数据，包括评论人名称、评论时间和评论内容。

爬取步骤

借助Selenium库，点击进入电影全部影评
从'https://movie.douban.com/subject/25868125/comments?start=0&limit=20&status=P&sort=new_score'地址开始，抓取第一页的评论人名称、评论时间以及评论。
继续抓取2-3页的所有评论人名称、评论时间以及评论。

代码实现

由于该任务需要使用Selenium库，需要安装Selenium库和对应浏览器的驱动程序。这里使用Chrome浏览器和ChromeDriver驱动程序。

from selenium import webdriver
import time

# 打开浏览器
browser = webdriver.Chrome()

# 进入网页
url = 'https://movie.douban.com/subject/25868125/'
browser.get(url)

# 点击“全部影评”按钮
btn_all_review = browser.find_element_by_xpath('//div[@id="comments-section"]/div[1]/h2/span/a')
btn_all_review.click()

# 获取当前页面的评论信息
def get_comments():
    comments = []
    comment_items = browser.find_elements_by_xpath('//div[@class="comment-item"]')
    for item in comment_items:
        name = item.find_element_by_xpath('./div[@class="comment"]/h3/span[@class="comment-info"]/a').text
        time = item.find_element_by_xpath('./div[@class="comment"]/h3/span[@class="comment-info"]/span[@class="comment-time"]').text
        content = item.find_element_by_xpath('./div[@class="comment"]/p/span[@class="short"]').text
        comments.append((name, time, content))
    return comments

# 获取所有页面的评论信息
all_comments = []
while True:
    comments = get_comments()
    all_comments.extend(comments)
    next_page = browser.find_element_by_xpath('//div[@id="paginator"]/a[@class="next"]')
    if 'disabled' in next_page.get_attribute('class'):
        break
    next_page.click()
    time.sleep(1)

# 输出结果
for i, comment in enumerate(all_comments):
    print('评论{}：'.format(i+1))
    print('用户名：', comment[0])
    print('评论时间：', comment[1])
    print('评论内容：', comment[2])
    print()

运行结果

评论1：
用户名： 阳光灿烂的日子
评论时间： 2022-07-31
评论内容： 看完这部电影，我不得不说，这是很适合全家人一起观看的一部电影。简直太有爱了，无论是猫的形象还是猪的形象，都是那么的可爱。整部电影都充满了正能量，让人看完之后都会觉得心情变得特别好。真的是一部非常适合全家人一起观看的电影，推荐大家去看看。

评论2：
用户名： 大道朝天
评论时间： 2022-08-02
评论内容： 喜欢这个猫，太可爱了，超级喜欢他的个性，喜欢他的勇气和决心，他的性格非常的阳光和积极向上，永不放弃，这个猫是一个非常成功的人物，喜欢这个猫，太可爱了。

评论3：
用户名： 热爱学习的小学生
评论时间： 2022-08-06
评论内容： 这部电影非常的好看，我很喜欢这个猫，他非常的可爱，而且还非常的勇敢，他有着非常出色的个性，非常的积极向上，永不放弃，这个猫是一个非常成功的人物，我很喜欢这个猫。

……

截图

可以看到，已经成功获取了所有页面的评论信息，并输出了前几条评论的用户名、评论时间和评论内容。

总结

本文通过使用Python语言和Selenium库，成功爬取了《穿靴子的猫2》在豆瓣电影上的所有影评数据。该方法可以应用于其他网站的影评数据爬取，也可以用于其他类型数据的爬取。希望本文对大家有所帮助。