Python爬取豆瓣电影TOP250: 电影名称和评分数据获取教程

想要获取豆瓣电影TOP250的电影名称和评分数据吗?本文将详细介绍如何使用Python进行爬取。

所需工具

  • requests: 用于向网站发送请求获取网页内容。
  • BeautifulSoup: 用于解析HTML代码,方便提取所需信息。
  • 正则表达式: 用于更精准地匹配和提取特定内容。

代码示例

import requests
from bs4 import BeautifulSoup
import re

url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

movies = soup.find_all('div', {'class': 'hd'})
ratings = soup.find_all('span', {'class': 'rating_num'})

for i in range(len(movies)):
    movie_name = movies[i].a.span.text.strip()
    rating = ratings[i].text.strip()
    print(f'{movie_name} - {rating}')

代码解释

  1. 首先,使用requests.get()方法获取豆瓣电影TOP250网页内容。
  2. 使用BeautifulSoup解析HTML代码。
  3. 通过soup.find_all()方法找到包含电影名称和评分的HTML标签。
  4. 提取电影名称和评分,并打印输出。

注意事项

爬取网站数据可能会违反网站的使用条款,因此在进行爬取操作时,请务必遵守相关的法律法规和道德规范。建议您在爬取数据前阅读网站的robots.txt文件,了解网站对爬虫的限制。

希望本文能够帮助您成功爬取豆瓣电影TOP250数据!

Python爬取豆瓣电影TOP250: 电影名称和评分数据获取教程

原文地址: https://www.cveoy.top/t/topic/nuCz 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录