Python爬虫实战：抓取漫画排行榜并保存数据

想要学习如何使用Python抓取网站数据并保存到本地文件吗？本文将带你一步步实现一个简单的爬虫，抓取漫画排行榜数据并保存到文本文件中。

项目目标:

从目标网站抓取漫画排行榜数据，包括漫画标题和评分。
将抓取到的数据保存到本地文本文件。

使用工具:

Python 3
requests库: 用于发送HTTP请求获取网页内容
BeautifulSoup库: 用于解析HTML网页内容

代码实现:

import requests
from bs4 import BeautifulSoup

def main():
    # 定义目标URL
    url = 'https://bgm.tv/anime/browser/airtime/2022'

    # 发送HTTP请求并获取页面内容
    response = requests.get(url)
    html = response.text

    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(html, 'html.parser')

    # 找到漫画排行榜的父元素
    rankings = soup.find('ul', class_='browserFull')

    # 创建一个空列表，用于保存漫画信息
    manga_list = []

    # 遍历排行榜中的每个漫画
    for manga in rankings.find_all('li'):
        # 提取漫画的标题和评分
        title = manga.find('a', class_='l')['title']
        score = manga.find('span', class_='rank')['title']

        # 将漫画信息添加到列表中
        manga_list.append({'标题': title, '评分': score})

    # 将漫画信息保存到文件中
    with open('manga_rankings.txt', 'w', encoding='utf-8') as file:
        for manga in manga_list:
            file.write(f'漫画标题: {manga['标题']}
')
            file.write(f'漫画评分: {manga['评分']}
')
            file.write('------------------
')

    print('数据保存成功！')

if __name__ == '__main__':
    main()

代码解析:

导入必要的库: requests 和 BeautifulSoup
定义 main() 函数，包含爬虫的主要逻辑
设置目标网站URL
使用 requests.get() 发送HTTP请求获取网页内容
使用 BeautifulSoup 解析HTML内容
使用 find() 和 find_all() 方法定位需要提取的数据
将提取到的数据存储到列表中
打开本地文件，使用 write() 方法将数据写入文件
运行代码，查看结果

总结:

通过以上步骤，我们成功地使用Python爬取了漫画排行榜数据并保存到本地文件。你可以根据自己的需求修改代码，例如抓取其他网站的数据或者将数据保存到其他格式的文件中。