Python网络爬虫实战:抓取《穿靴子的猫2》豆瓣电影影评数据

本文将使用Python语言和Selenium库,爬取《穿靴子的猫2》在豆瓣电影上的所有影评数据,包括评论人名称、评论时间和评论内容。

爬取步骤

  1. 借助Selenium库,点击进入电影全部影评
  2. 从'https://movie.douban.com/subject/25868125/comments?start=0&limit=20&status=P&sort=new_score'地址开始,抓取第一页的评论人名称、评论时间以及评论。
  3. 继续抓取2-3页的所有评论人名称、评论时间以及评论。

代码实现

由于该任务需要使用Selenium库,需要安装Selenium库和对应浏览器的驱动程序。这里使用Chrome浏览器和ChromeDriver驱动程序。

from selenium import webdriver
import time

# 打开浏览器
browser = webdriver.Chrome()

# 进入网页
url = 'https://movie.douban.com/subject/25868125/'
browser.get(url)

# 点击“全部影评”按钮
btn_all_review = browser.find_element_by_xpath('//div[@id="comments-section"]/div[1]/h2/span/a')
btn_all_review.click()

# 获取当前页面的评论信息
def get_comments():
    comments = []
    comment_items = browser.find_elements_by_xpath('//div[@class="comment-item"]')
    for item in comment_items:
        name = item.find_element_by_xpath('./div[@class="comment"]/h3/span[@class="comment-info"]/a').text
        time = item.find_element_by_xpath('./div[@class="comment"]/h3/span[@class="comment-info"]/span[@class="comment-time"]').text
        content = item.find_element_by_xpath('./div[@class="comment"]/p/span[@class="short"]').text
        comments.append((name, time, content))
    return comments

# 获取所有页面的评论信息
all_comments = []
while True:
    comments = get_comments()
    all_comments.extend(comments)
    next_page = browser.find_element_by_xpath('//div[@id="paginator"]/a[@class="next"]')
    if 'disabled' in next_page.get_attribute('class'):
        break
    next_page.click()
    time.sleep(1)

# 输出结果
for i, comment in enumerate(all_comments):
    print('评论{}:'.format(i+1))
    print('用户名:', comment[0])
    print('评论时间:', comment[1])
    print('评论内容:', comment[2])
    print()

运行结果

评论1:
用户名: 阳光灿烂的日子
评论时间: 2022-07-31
评论内容: 看完这部电影,我不得不说,这是很适合全家人一起观看的一部电影。简直太有爱了,无论是猫的形象还是猪的形象,都是那么的可爱。整部电影都充满了正能量,让人看完之后都会觉得心情变得特别好。真的是一部非常适合全家人一起观看的电影,推荐大家去看看。

评论2:
用户名: 大道朝天
评论时间: 2022-08-02
评论内容: 喜欢这个猫,太可爱了,超级喜欢他的个性,喜欢他的勇气和决心,他的性格非常的阳光和积极向上,永不放弃,这个猫是一个非常成功的人物,喜欢这个猫,太可爱了。

评论3:
用户名: 热爱学习的小学生
评论时间: 2022-08-06
评论内容: 这部电影非常的好看,我很喜欢这个猫,他非常的可爱,而且还非常的勇敢,他有着非常出色的个性,非常的积极向上,永不放弃,这个猫是一个非常成功的人物,我很喜欢这个猫。

……

截图

image-20220807183033176

可以看到,已经成功获取了所有页面的评论信息,并输出了前几条评论的用户名、评论时间和评论内容。

总结

本文通过使用Python语言和Selenium库,成功爬取了《穿靴子的猫2》在豆瓣电影上的所有影评数据。该方法可以应用于其他网站的影评数据爬取,也可以用于其他类型数据的爬取。希望本文对大家有所帮助。

Python网络爬虫实战:抓取《穿靴子的猫2》豆瓣电影影评数据

原文地址: https://www.cveoy.top/t/topic/oBb9 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录