Python爬取豆瓣电影TOP250: 电影名称和评分数据获取教程

想要获取豆瓣电影TOP250的电影名称和评分数据吗？本文将详细介绍如何使用Python进行爬取。

所需工具

requests: 用于向网站发送请求获取网页内容。
BeautifulSoup: 用于解析HTML代码，方便提取所需信息。
正则表达式: 用于更精准地匹配和提取特定内容。

代码示例

import requests
from bs4 import BeautifulSoup
import re

url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

movies = soup.find_all('div', {'class': 'hd'})
ratings = soup.find_all('span', {'class': 'rating_num'})

for i in range(len(movies)):
    movie_name = movies[i].a.span.text.strip()
    rating = ratings[i].text.strip()
    print(f'{movie_name} - {rating}')

代码解释

首先，使用requests.get()方法获取豆瓣电影TOP250网页内容。
使用BeautifulSoup解析HTML代码。
通过soup.find_all()方法找到包含电影名称和评分的HTML标签。
提取电影名称和评分，并打印输出。

注意事项

爬取网站数据可能会违反网站的使用条款，因此在进行爬取操作时，请务必遵守相关的法律法规和道德规范。建议您在爬取数据前阅读网站的robots.txt文件，了解网站对爬虫的限制。

希望本文能够帮助您成功爬取豆瓣电影TOP250数据！