豆瓣电影《穿靴子的猫》影评数据爬取教程

抓取豆瓣电影上的影评数据需要以下步骤：

使用 Python 编写爬虫程序，利用 requests 库向豆瓣电影网站发送请求，获取网页源代码。
使用 BeautifulSoup 库对网页进行解析，提取出影评数据。
使用正则表达式或其他方法对影评数据进行清洗和格式化。
将清洗后的数据存储到本地文件或数据库中。

以下是一个简单的示例程序，可以获取《穿靴子的猫》在豆瓣电影上的所有页的影评数据：

import requests
from bs4 import BeautifulSoup

base_url = 'https://movie.douban.com/subject/1292213/comments'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

for page in range(1, 21):
    url = base_url + '?start=' + str((page - 1) * 20) + '&limit=20&sort=new_score&status=P'
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    comments = soup.find_all('span', class_='short')
    
    with open('comments.txt', 'a', encoding='utf-8') as f:
        for comment in comments:
            f.write(comment.text + '\n')

该程序每次获取 20 条影评数据，总共获取 20 页数据。通过循环遍历每一页并使用 find_all 方法获取每一页的影评数据，最后将数据写入到本地文件 comments.txt 中。