免责声明: 本文仅供学习交流使用,请在法律允许的范围内使用爬虫技术,不要侵犯他人的合法权益。

使用 Python 和 Selenium 爬取豆瓣电影《穿靴子的猫2》影评数据:

以下是一个使用 Python 语言和 Selenium 库实现的示例代码,可以爬取《穿靴子的猫2》在豆瓣电影上的影评数据。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 创建浏览器对象
browser = webdriver.Chrome()

# 访问url地址
url = 'https://movie.douban.com/subject/26698897/comments?status=P'
browser.get(url)

# 循环爬取所有页的影评数据
while True:
    # 定位元素点击
    try:
        next_button = WebDriverWait(browser, 10).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '.comment .next a'))
        )
        next_button.click()
    except:
        break

# 关闭浏览器
browser.close()

代码解析:

  1. 创建浏览器对象:使用 webdriver.Chrome() 创建一个 Chrome 浏览器对象。
  2. 访问 URL 地址:使用 browser.get(url) 访问豆瓣电影《穿靴子的猫2》的影评页面。
  3. 循环爬取所有页的影评数据:使用 while True 循环,每次循环都定位到“下一页”按钮的元素,点击该元素可以加载出下一页的影评数据。如果没有下一页按钮了,就退出循环。
  4. 定位元素点击:使用 WebDriverWaitEC.presence_of_element_located 定位到“下一页”按钮的元素,并使用 next_button.click() 点击该元素。
  5. 关闭浏览器:使用 browser.close() 关闭浏览器对象。

注意:

  • 上面的代码只是一个示例,实际爬取时还需要对网站的反爬措施进行处理,比如设置 user-agent、延时等。
  • 爬取到的数据也需要进行清洗和处理,才能得到有用的信息。

更多学习:


原文地址: https://www.cveoy.top/t/topic/oA2e 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录