以下是一个简单的爬虫案例,用于从网站上获取电影的信息。

  1. 首先,我们需要确定网站的URL和目标页面的结构。假设我们使用豆瓣电影作为目标网站,我们将从'https://movie.douban.com/top250'这个页面获取电影的信息。

  2. 接下来,我们需要使用Python的requests库来发送HTTP请求并获取页面的HTML代码。我们将使用GET方法来请求页面,并将响应存储在一个变量中。

import requests

url = 'https://movie.douban.com/top250'
response = requests.get(url)
  1. 现在我们已经获得了页面的HTML代码,接下来我们需要使用BeautifulSoup库来解析HTML代码并提取我们需要的信息。我们将使用BeautifulSoup的find_all方法来查找电影标题、评分和导演等信息。
from bs4 import BeautifulSoup

soup = BeautifulSoup(response.content, 'html.parser')
movies = soup.find_all('div', class_='hd')

for movie in movies:
    title = movie.a.span.text.strip()
    link = movie.a['href']
    rating = movie.next_sibling.find('span', class_='rating_num').text.strip()
    director = movie.next_sibling.next_sibling.find('p', class_='').text.strip().split('   ')[0].replace('导演: ', '')

    print('电影名:', title)
    print('评分:', rating)
    print('导演:', director)
    print('链接:', link)
  1. 最后,我们可以将这些信息保存到本地文件中,以便将来使用。我们将使用Python的csv模块,将电影标题、评分、导演和链接存储在csv文件中。
import csv

with open('movies.csv', 'w', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    writer.writerow(['电影名', '评分', '导演', '链接'])
    for movie in movies:
        title = movie.a.span.text.strip()
        link = movie.a['href']
        rating = movie.next_sibling.find('span', class_='rating_num').text.strip()
        director = movie.next_sibling.next_sibling.find('p', class_='').text.strip().split('   ')[0].replace('导演: ', '')

        writer.writerow([title, rating, director, link])

这就是一个简单的爬虫案例,用于从豆瓣电影网站上获取电影信息。当然,这只是一个示例,实际的爬虫可能会更复杂,需要处理更多的数据和异常情况。

Python爬虫案例:从豆瓣电影获取电影信息

原文地址: https://www.cveoy.top/t/topic/nGOm 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录