Python爬虫入门：从基础到实战 - 豆瓣电影Top250案例 - 常规

Python爬虫入门：从基础到实战 - 豆瓣电影Top250案例

本教程将带你从零开始学习Python爬虫，涵盖以下内容：

爬虫基础：了解爬虫的概念、用途和工作原理。
链接组成部分：学习URL的结构和组成，以及如何解析URL。
动态静态数据：区分动态和静态数据，并学习如何获取动态数据。
网络请求库：掌握requests库的使用，发送网络请求并获取网页数据。
保存下载文件：学习如何将爬取的数据保存到本地文件。
目录操作：掌握os库的使用，进行文件和目录操作。
bs4数据定位解析提取库：使用BeautifulSoup库对HTML进行解析，定位和提取所需数据。
站长之家图片素材：学习如何从站长之家爬取图片素材。
B站视频下载案例：实战演练如何爬取B站视频。
movipy音视频编辑模块：了解如何使用movipy库进行音视频编辑。

豆瓣电影Top250爬虫案例

以下是一个简单的爬虫源码示例，用于爬取豆瓣电影Top250的电影名称和评分：

import requests
from bs4 import BeautifulSoup

def get_movie_info(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    movie_list = soup.find_all('div', class_='hd')

    for movie in movie_list:
        title = movie.a.span.text
        rating = movie.parent.find('span', class_='rating_num').text
        print(f'电影名称：{title}，评分：{rating}')

def main():
    for i in range(10):
        url = f'https://movie.douban.com/top250?start={i*25}'
        get_movie_info(url)

if __name__ == '__main__':
    main()

这个爬虫程序使用了requests库发送网络请求，使用BeautifulSoup库对HTML进行解析和定位元素，然后提取电影名称和评分进行打印输出。循环爬取豆瓣电影Top250的每一页，每页包含25部电影，共爬取10页。