抓取豆瓣电影《穿靴子的猫2》影评数据的代码如下:

import requests
from bs4 import BeautifulSoup
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

url = 'https://movie.douban.com/subject/26787574/comments?start={}&limit=20&sort=new_score&status=P'

comments = []

for i in range(0, 500, 20):
    r = requests.get(url.format(i), headers=headers)
    soup = BeautifulSoup(r.text, 'html.parser')
    comment_div_list = soup.find_all('div', class_='comment')
    for item in comment_div_list:
        comment = item.find('span', class_='short').string.strip()
        comments.append(comment)
    time.sleep(2)

print(comments)

解释:

  1. 首先需要导入requests和BeautifulSoup库
  2. 设置请求头headers,模拟浏览器请求,防止被封禁IP
  3. 定义要爬取的url,使用format()方法替换页码
  4. 定义一个空列表comments,用来存储所有评论数据
  5. 循环遍历每一页,每页有20条评论,所以每次加20
  6. 发送请求,获取HTML页面
  7. 使用BeautifulSoup解析HTML页面,找到所有class为'comment'的div标签
  8. 遍历div标签,找到评论内容
  9. 将评论内容添加到comments列表中
  10. 程序休眠2秒,防止请求过于频繁
  11. 最后输出所有评论数据
Python爬取豆瓣电影《穿靴子的猫2》影评数据代码示例

原文地址: https://www.cveoy.top/t/topic/oA3X 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录