使用 Python 从网站抓取图片并保存 - PyCharm 实践指南 - 常规

使用 Python 从网站抓取图片并保存 - PyCharm 实践指南

本指南将带您了解如何使用 Python 的 requests 和 BeautifulSoup 库从网站抓取图片并保存到本地磁盘。我们将以 https://www.acgnoon.com/ 为例，展示如何提取网页中的所有图片 URL，并将其保存为 .jpg 或 .png 格式。

步骤:

准备环境:
- 打开 PyCharm 软件。
- 新建一个 Python 文件：点击 File -> New Project，选择 Python，然后输入项目名称和存储路径，点击 Create。

编写代码:

将以下代码复制到 PyCharm 中：

import requests
from bs4 import BeautifulSoup

url = 'https://www.acgnoon.com/'
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, 'html.parser')
img_tags = soup.find_all('img')

for img_tag in img_tags:
    img_url = img_tag.get('src')
    if img_url.endswith('.jpg') or img_url.endswith('.png'):
        img_data = requests.get(img_url).content
        with open('images/' + img_url.split('/')[-1], 'wb') as handler:
            handler.write(img_data)

安装库:
- 在运行代码之前，需要安装 requests 和 beautifulsoup4 两个库。在 PyCharm 的 Terminal 中使用以下命令安装：
```
pip install requests
pip install beautifulsoup4
```
运行代码:
- 点击运行按钮，或者使用快捷键 Shift + F10，等待程序运行完成。

说明:

代码首先使用 requests 库获取网站内容。
然后使用 BeautifulSoup 库解析 HTML 代码，找到所有 img 标签。
循环遍历所有 img 标签，获取每个图片的 URL，并判断其是否为 .jpg 或 .png 格式。
如果是，则使用 requests 库下载图片内容，并保存到本地磁盘的 images 文件夹中。

注意:

在运行代码之前，请确保 images 文件夹已存在。
该代码仅作为示例，您可能需要根据实际情况进行修改。
为了避免对目标网站造成过大的压力，建议您在抓取图片时设置合理的延迟时间。
请尊重网站的robots协议，不要抓取禁止抓取的内容。