一、使用网络爬虫技术抓取《穿靴子的猫2》在豆瓣电影上的所有页的影评数据进入火狐浏览器抓取地址:httpsmoviedoubancomsubject25868125步骤1:借助Selenium库点击进入电影全部影评
from selenium import webdriver
import time
# 打开火狐浏览器
driver = webdriver.Firefox()
driver.get("https://movie.douban.com/subject/25868125/")
# 点击全部影评按钮
all_review = driver.find_element_by_xpath('//a[@href="?sort=time&status=P"]')
all_review.click()
time.sleep(3)
# 关闭浏览器
driver.quit()
步骤2:获取每一页的影评数据
from selenium import webdriver
import time
# 打开火狐浏览器
driver = webdriver.Firefox()
driver.get("https://movie.douban.com/subject/25868125/")
# 点击全部影评按钮
all_review = driver.find_element_by_xpath('//a[@href="?sort=time&status=P"]')
all_review.click()
time.sleep(3)
# 获取总页数
page_num = driver.find_element_by_xpath('//span[@class="thispage"]')
total_pages = int(page_num.get_attribute('data-total-page'))
# 获取每一页的影评数据
for i in range(total_pages):
reviews = driver.find_elements_by_xpath('//div[@class="review-item"]')
for review in reviews:
# 可以在这里提取影评的相关信息,比如评分、评论内容、评论时间等等
print(review.text)
# 点击下一页
next_page = driver.find_element_by_xpath('//span[@class="next"]/a')
next_page.click()
time.sleep(3)
# 关闭浏览器
driver.quit()
这样就可以获取《穿靴子的猫2》在豆瓣电影上的所有影评数据了。请注意,豆瓣网站的反爬虫机制比较严格,如果抓取速度过快或者频率过高,可能会被封禁IP。为了避免这种情况,可以在抓取时加上一些延时以减缓抓取速度
原文地址: http://www.cveoy.top/t/topic/g7jq 著作权归作者所有。请勿转载和采集!