Python爬虫实战:抓取漫画排行榜并保存数据
Python爬虫实战:抓取漫画排行榜并保存数据
想要学习如何使用Python抓取网站数据并保存到本地文件吗?本文将带你一步步实现一个简单的爬虫,抓取漫画排行榜数据并保存到文本文件中。
项目目标:
- 从目标网站抓取漫画排行榜数据,包括漫画标题和评分。
- 将抓取到的数据保存到本地文本文件。
使用工具:
- Python 3
- requests库: 用于发送HTTP请求获取网页内容
- BeautifulSoup库: 用于解析HTML网页内容
代码实现:
import requests
from bs4 import BeautifulSoup
def main():
# 定义目标URL
url = 'https://bgm.tv/anime/browser/airtime/2022'
# 发送HTTP请求并获取页面内容
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(html, 'html.parser')
# 找到漫画排行榜的父元素
rankings = soup.find('ul', class_='browserFull')
# 创建一个空列表,用于保存漫画信息
manga_list = []
# 遍历排行榜中的每个漫画
for manga in rankings.find_all('li'):
# 提取漫画的标题和评分
title = manga.find('a', class_='l')['title']
score = manga.find('span', class_='rank')['title']
# 将漫画信息添加到列表中
manga_list.append({'标题': title, '评分': score})
# 将漫画信息保存到文件中
with open('manga_rankings.txt', 'w', encoding='utf-8') as file:
for manga in manga_list:
file.write(f'漫画标题: {manga['标题']}
')
file.write(f'漫画评分: {manga['评分']}
')
file.write('------------------
')
print('数据保存成功!')
if __name__ == '__main__':
main()
代码解析:
- 导入必要的库:
requests和BeautifulSoup - 定义
main()函数,包含爬虫的主要逻辑 - 设置目标网站URL
- 使用
requests.get()发送HTTP请求获取网页内容 - 使用
BeautifulSoup解析HTML内容 - 使用
find()和find_all()方法定位需要提取的数据 - 将提取到的数据存储到列表中
- 打开本地文件,使用
write()方法将数据写入文件 - 运行代码,查看结果
总结:
通过以上步骤,我们成功地使用Python爬取了漫画排行榜数据并保存到本地文件。你可以根据自己的需求修改代码,例如抓取其他网站的数据或者将数据保存到其他格式的文件中。
原文地址: https://www.cveoy.top/t/topic/byec 著作权归作者所有。请勿转载和采集!