Python爬虫实战:抓取漫画排行榜并保存数据

想要学习如何使用Python抓取网站数据并保存到本地文件吗?本文将带你一步步实现一个简单的爬虫,抓取漫画排行榜数据并保存到文本文件中。

项目目标:

  • 从目标网站抓取漫画排行榜数据,包括漫画标题和评分。
  • 将抓取到的数据保存到本地文本文件。

使用工具:

  • Python 3
  • requests库: 用于发送HTTP请求获取网页内容
  • BeautifulSoup库: 用于解析HTML网页内容

代码实现:

import requests
from bs4 import BeautifulSoup

def main():
    # 定义目标URL
    url = 'https://bgm.tv/anime/browser/airtime/2022'

    # 发送HTTP请求并获取页面内容
    response = requests.get(url)
    html = response.text

    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(html, 'html.parser')

    # 找到漫画排行榜的父元素
    rankings = soup.find('ul', class_='browserFull')

    # 创建一个空列表,用于保存漫画信息
    manga_list = []

    # 遍历排行榜中的每个漫画
    for manga in rankings.find_all('li'):
        # 提取漫画的标题和评分
        title = manga.find('a', class_='l')['title']
        score = manga.find('span', class_='rank')['title']

        # 将漫画信息添加到列表中
        manga_list.append({'标题': title, '评分': score})

    # 将漫画信息保存到文件中
    with open('manga_rankings.txt', 'w', encoding='utf-8') as file:
        for manga in manga_list:
            file.write(f'漫画标题: {manga['标题']}
')
            file.write(f'漫画评分: {manga['评分']}
')
            file.write('------------------
')

    print('数据保存成功!')

if __name__ == '__main__':
    main()

代码解析:

  1. 导入必要的库: requestsBeautifulSoup
  2. 定义 main() 函数,包含爬虫的主要逻辑
  3. 设置目标网站URL
  4. 使用 requests.get() 发送HTTP请求获取网页内容
  5. 使用 BeautifulSoup 解析HTML内容
  6. 使用 find()find_all() 方法定位需要提取的数据
  7. 将提取到的数据存储到列表中
  8. 打开本地文件,使用 write() 方法将数据写入文件
  9. 运行代码,查看结果

总结:

通过以上步骤,我们成功地使用Python爬取了漫画排行榜数据并保存到本地文件。你可以根据自己的需求修改代码,例如抓取其他网站的数据或者将数据保存到其他格式的文件中。

Python爬虫实战:抓取漫画排行榜并保存数据

原文地址: https://www.cveoy.top/t/topic/byec 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录