使用Python爬取豆瓣电影《穿靴子的猫2》所有影评数据 - 无需代理IP

本文将介绍如何使用Python爬取豆瓣电影《穿靴子的猫2》所有页面的影评数据。我们将使用requests库发送HTTP请求,并使用BeautifulSoup库解析HTML页面内容。

代码示例

import requests
from bs4 import BeautifulSoup
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

url = 'https://movie.douban.com/subject/26302973/comments?start={}&limit=20&sort=new_score&status=P'

start_urls = [url.format(i) for i in range(0, 500, 20)]

for start_url in start_urls:
    response = requests.get(start_url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    comments = soup.find_all('span', class_='short')
    for comment in comments:
        print(comment.text.strip())
    time.sleep(1)

代码解析

  1. 导入requests和BeautifulSoup库,用于请求网页和解析网页数据。

  2. 定义请求头headers,用于模拟浏览器请求。

  3. 定义url和start_urls,用于构造请求链接。

  4. 遍历start_urls,发送请求并解析网页数据。

  5. 使用BeautifulSoup库的find_all方法,找到所有class为'short'的span标签,即影评数据。

  6. 遍历影评数据,打印每条影评的内容。

  7. 使用time库的sleep方法,控制请求频率,避免请求过于频繁被封IP。

注意事项

  • 该代码仅供学习参考,请勿用于任何违法行为。
  • 爬取数据时请注意遵守网站的使用条款。
  • 建议使用代理IP,以避免被网站封锁。

总结

本文介绍了如何使用Python爬取豆瓣电影《穿靴子的猫2》所有页面的影评数据。通过使用requests和BeautifulSoup库,我们可以轻松地获取到目标数据。


原文地址: https://www.cveoy.top/t/topic/oA0h 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录