Python爬取豆瓣电影TOP250: 电影名称和评分数据获取教程
Python爬取豆瓣电影TOP250: 电影名称和评分数据获取教程
想要获取豆瓣电影TOP250的电影名称和评分数据吗?本文将详细介绍如何使用Python进行爬取。
所需工具
- requests: 用于向网站发送请求获取网页内容。
- BeautifulSoup: 用于解析HTML代码,方便提取所需信息。
- 正则表达式: 用于更精准地匹配和提取特定内容。
代码示例
import requests
from bs4 import BeautifulSoup
import re
url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', {'class': 'hd'})
ratings = soup.find_all('span', {'class': 'rating_num'})
for i in range(len(movies)):
movie_name = movies[i].a.span.text.strip()
rating = ratings[i].text.strip()
print(f'{movie_name} - {rating}')
代码解释
- 首先,使用
requests.get()方法获取豆瓣电影TOP250网页内容。 - 使用
BeautifulSoup解析HTML代码。 - 通过
soup.find_all()方法找到包含电影名称和评分的HTML标签。 - 提取电影名称和评分,并打印输出。
注意事项
爬取网站数据可能会违反网站的使用条款,因此在进行爬取操作时,请务必遵守相关的法律法规和道德规范。建议您在爬取数据前阅读网站的robots.txt文件,了解网站对爬虫的限制。
希望本文能够帮助您成功爬取豆瓣电影TOP250数据!
原文地址: https://www.cveoy.top/t/topic/nuCz 著作权归作者所有。请勿转载和采集!