Python爬取图片:解析并下载ACGnoon网站图片
Python爬取图片:解析并下载ACGnoon网站图片
import requests
from bs4 import BeautifulSoup
url = 'https://www.acgnoon.com/'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
img_tags = soup.find_all('img')
for img_tag in img_tags:
img_url = img_tag.get('src')
if img_url.endswith('.jpg') or img_url.endswith('.png'):
img_data = requests.get(img_url).content
with open('images/' + img_url.split('/')[-1], 'wb') as handler:
handler.write(img_data)
错误内容:
提示:第一行代码中的'python'应该是注释符号'#’,将其改为'#'即可。
解决方法:
将代码第一行的'python'修改为'#'即可。
代码解释:
- 导入必要的库:requests 用于发送网络请求,BeautifulSoup 用于解析 HTML 内容。
- 设置目标网站 URL。
- 使用 requests 库发送 GET 请求获取网站的 HTML 内容。
- 使用 BeautifulSoup 库解析 HTML 内容。
- 使用
find_all('img')方法获取所有 img 标签。 - 循环遍历 img 标签,获取每个图片的 URL。
- 检查图片 URL 是否以 '.jpg' 或 '.png' 结尾。
- 使用 requests 库下载图片数据。
- 使用
with open语句以二进制写入模式打开文件,将图片数据写入文件。
注意:
- 确保你已经安装了 requests 和 BeautifulSoup 库。
- 确保你拥有目标网站的爬取权限。
- 不要过度频繁地爬取网站,以免造成网站服务器负担。
- 建议在代码运行前备份网站数据,以防意外情况发生。
原文地址: https://www.cveoy.top/t/topic/nht9 著作权归作者所有。请勿转载和采集!