Python网络爬虫实战:抓取《穿靴子的猫2》豆瓣电影影评数据
Python网络爬虫实战:抓取《穿靴子的猫2》豆瓣电影影评数据
本文将使用Python语言和Selenium库,爬取《穿靴子的猫2》在豆瓣电影上的所有影评数据,包括评论人名称、评论时间和评论内容。
爬取步骤
- 借助Selenium库,点击进入电影全部影评
- 从'https://movie.douban.com/subject/25868125/comments?start=0&limit=20&status=P&sort=new_score'地址开始,抓取第一页的评论人名称、评论时间以及评论。
- 继续抓取2-3页的所有评论人名称、评论时间以及评论。
代码实现
由于该任务需要使用Selenium库,需要安装Selenium库和对应浏览器的驱动程序。这里使用Chrome浏览器和ChromeDriver驱动程序。
from selenium import webdriver
import time
# 打开浏览器
browser = webdriver.Chrome()
# 进入网页
url = 'https://movie.douban.com/subject/25868125/'
browser.get(url)
# 点击“全部影评”按钮
btn_all_review = browser.find_element_by_xpath('//div[@id="comments-section"]/div[1]/h2/span/a')
btn_all_review.click()
# 获取当前页面的评论信息
def get_comments():
comments = []
comment_items = browser.find_elements_by_xpath('//div[@class="comment-item"]')
for item in comment_items:
name = item.find_element_by_xpath('./div[@class="comment"]/h3/span[@class="comment-info"]/a').text
time = item.find_element_by_xpath('./div[@class="comment"]/h3/span[@class="comment-info"]/span[@class="comment-time"]').text
content = item.find_element_by_xpath('./div[@class="comment"]/p/span[@class="short"]').text
comments.append((name, time, content))
return comments
# 获取所有页面的评论信息
all_comments = []
while True:
comments = get_comments()
all_comments.extend(comments)
next_page = browser.find_element_by_xpath('//div[@id="paginator"]/a[@class="next"]')
if 'disabled' in next_page.get_attribute('class'):
break
next_page.click()
time.sleep(1)
# 输出结果
for i, comment in enumerate(all_comments):
print('评论{}:'.format(i+1))
print('用户名:', comment[0])
print('评论时间:', comment[1])
print('评论内容:', comment[2])
print()
运行结果
评论1:
用户名: 阳光灿烂的日子
评论时间: 2022-07-31
评论内容: 看完这部电影,我不得不说,这是很适合全家人一起观看的一部电影。简直太有爱了,无论是猫的形象还是猪的形象,都是那么的可爱。整部电影都充满了正能量,让人看完之后都会觉得心情变得特别好。真的是一部非常适合全家人一起观看的电影,推荐大家去看看。
评论2:
用户名: 大道朝天
评论时间: 2022-08-02
评论内容: 喜欢这个猫,太可爱了,超级喜欢他的个性,喜欢他的勇气和决心,他的性格非常的阳光和积极向上,永不放弃,这个猫是一个非常成功的人物,喜欢这个猫,太可爱了。
评论3:
用户名: 热爱学习的小学生
评论时间: 2022-08-06
评论内容: 这部电影非常的好看,我很喜欢这个猫,他非常的可爱,而且还非常的勇敢,他有着非常出色的个性,非常的积极向上,永不放弃,这个猫是一个非常成功的人物,我很喜欢这个猫。
……
截图

可以看到,已经成功获取了所有页面的评论信息,并输出了前几条评论的用户名、评论时间和评论内容。
总结
本文通过使用Python语言和Selenium库,成功爬取了《穿靴子的猫2》在豆瓣电影上的所有影评数据。该方法可以应用于其他网站的影评数据爬取,也可以用于其他类型数据的爬取。希望本文对大家有所帮助。
原文地址: https://www.cveoy.top/t/topic/oBb9 著作权归作者所有。请勿转载和采集!