使用 Python 从网站抓取图片并保存 - PyCharm 实践指南

本指南将带您了解如何使用 Python 的 requestsBeautifulSoup 库从网站抓取图片并保存到本地磁盘。我们将以 https://www.acgnoon.com/ 为例,展示如何提取网页中的所有图片 URL,并将其保存为 .jpg.png 格式。

步骤:

  1. 准备环境:

    • 打开 PyCharm 软件。
    • 新建一个 Python 文件:点击 File -> New Project,选择 Python,然后输入项目名称和存储路径,点击 Create
  2. 编写代码:

    • 将以下代码复制到 PyCharm 中:
    import requests
    from bs4 import BeautifulSoup
    
    url = 'https://www.acgnoon.com/'
    response = requests.get(url)
    html = response.text
    
    soup = BeautifulSoup(html, 'html.parser')
    img_tags = soup.find_all('img')
    
    for img_tag in img_tags:
        img_url = img_tag.get('src')
        if img_url.endswith('.jpg') or img_url.endswith('.png'):
            img_data = requests.get(img_url).content
            with open('images/' + img_url.split('/')[-1], 'wb') as handler:
                handler.write(img_data)
    
  3. 安装库:

    • 在运行代码之前,需要安装 requestsbeautifulsoup4 两个库。在 PyCharm 的 Terminal 中使用以下命令安装:
    pip install requests
    pip install beautifulsoup4
    
  4. 运行代码:

    • 点击运行按钮,或者使用快捷键 Shift + F10,等待程序运行完成。

说明:

  • 代码首先使用 requests 库获取网站内容。
  • 然后使用 BeautifulSoup 库解析 HTML 代码,找到所有 img 标签。
  • 循环遍历所有 img 标签,获取每个图片的 URL,并判断其是否为 .jpg.png 格式。
  • 如果是,则使用 requests 库下载图片内容,并保存到本地磁盘的 images 文件夹中。

注意:

  • 在运行代码之前,请确保 images 文件夹已存在。
  • 该代码仅作为示例,您可能需要根据实际情况进行修改。
  • 为了避免对目标网站造成过大的压力,建议您在抓取图片时设置合理的延迟时间。
  • 请尊重网站的robots协议,不要抓取禁止抓取的内容。
使用 Python 从网站抓取图片并保存 - PyCharm 实践指南

原文地址: https://www.cveoy.top/t/topic/nht6 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录