Python爬取豆瓣电影《穿靴子的猫2》所有影评数据 - 无需代理IP - 常规

使用Python爬取豆瓣电影《穿靴子的猫2》所有影评数据 - 无需代理IP

本文将介绍如何使用Python爬取豆瓣电影《穿靴子的猫2》所有页面的影评数据。我们将使用requests库发送HTTP请求，并使用BeautifulSoup库解析HTML页面内容。

代码示例

import requests
from bs4 import BeautifulSoup
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

url = 'https://movie.douban.com/subject/26302973/comments?start={}&limit=20&sort=new_score&status=P'

start_urls = [url.format(i) for i in range(0, 500, 20)]

for start_url in start_urls:
    response = requests.get(start_url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    comments = soup.find_all('span', class_='short')
    for comment in comments:
        print(comment.text.strip())
    time.sleep(1)

代码解析

导入requests和BeautifulSoup库，用于请求网页和解析网页数据。
定义请求头headers，用于模拟浏览器请求。
定义url和start_urls，用于构造请求链接。
遍历start_urls，发送请求并解析网页数据。
使用BeautifulSoup库的find_all方法，找到所有class为'short'的span标签，即影评数据。
遍历影评数据，打印每条影评的内容。
使用time库的sleep方法，控制请求频率，避免请求过于频繁被封IP。

注意事项

该代码仅供学习参考，请勿用于任何违法行为。
爬取数据时请注意遵守网站的使用条款。
建议使用代理IP，以避免被网站封锁。

总结

本文介绍了如何使用Python爬取豆瓣电影《穿靴子的猫2》所有页面的影评数据。通过使用requests和BeautifulSoup库，我们可以轻松地获取到目标数据。