Python爬取图片:解析并下载ACGnoon网站图片

import requests
from bs4 import BeautifulSoup

url = 'https://www.acgnoon.com/'
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, 'html.parser')
img_tags = soup.find_all('img')

for img_tag in img_tags:
    img_url = img_tag.get('src')
    if img_url.endswith('.jpg') or img_url.endswith('.png'):
        img_data = requests.get(img_url).content
        with open('images/' + img_url.split('/')[-1], 'wb') as handler:
            handler.write(img_data)

错误内容:

提示:第一行代码中的'python'应该是注释符号'#’,将其改为'#'即可。

解决方法:

将代码第一行的'python'修改为'#'即可。

代码解释:

  1. 导入必要的库:requests 用于发送网络请求,BeautifulSoup 用于解析 HTML 内容。
  2. 设置目标网站 URL。
  3. 使用 requests 库发送 GET 请求获取网站的 HTML 内容。
  4. 使用 BeautifulSoup 库解析 HTML 内容。
  5. 使用 find_all('img') 方法获取所有 img 标签。
  6. 循环遍历 img 标签,获取每个图片的 URL。
  7. 检查图片 URL 是否以 '.jpg' 或 '.png' 结尾。
  8. 使用 requests 库下载图片数据。
  9. 使用 with open 语句以二进制写入模式打开文件,将图片数据写入文件。

注意:

  • 确保你已经安装了 requests 和 BeautifulSoup 库。
  • 确保你拥有目标网站的爬取权限。
  • 不要过度频繁地爬取网站,以免造成网站服务器负担。
  • 建议在代码运行前备份网站数据,以防意外情况发生。
Python爬取图片:解析并下载ACGnoon网站图片

原文地址: https://www.cveoy.top/t/topic/nht9 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录