使用 Python 从网站抓取图片并保存 - PyCharm 实践指南
使用 Python 从网站抓取图片并保存 - PyCharm 实践指南
本指南将带您了解如何使用 Python 的 requests 和 BeautifulSoup 库从网站抓取图片并保存到本地磁盘。我们将以 https://www.acgnoon.com/ 为例,展示如何提取网页中的所有图片 URL,并将其保存为 .jpg 或 .png 格式。
步骤:
-
准备环境:
- 打开 PyCharm 软件。
- 新建一个 Python 文件:点击
File -> New Project,选择Python,然后输入项目名称和存储路径,点击Create。
-
编写代码:
- 将以下代码复制到 PyCharm 中:
import requests from bs4 import BeautifulSoup url = 'https://www.acgnoon.com/' response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'html.parser') img_tags = soup.find_all('img') for img_tag in img_tags: img_url = img_tag.get('src') if img_url.endswith('.jpg') or img_url.endswith('.png'): img_data = requests.get(img_url).content with open('images/' + img_url.split('/')[-1], 'wb') as handler: handler.write(img_data) -
安装库:
- 在运行代码之前,需要安装
requests和beautifulsoup4两个库。在 PyCharm 的Terminal中使用以下命令安装:
pip install requests pip install beautifulsoup4 - 在运行代码之前,需要安装
-
运行代码:
- 点击运行按钮,或者使用快捷键
Shift + F10,等待程序运行完成。
- 点击运行按钮,或者使用快捷键
说明:
- 代码首先使用
requests库获取网站内容。 - 然后使用
BeautifulSoup库解析 HTML 代码,找到所有img标签。 - 循环遍历所有
img标签,获取每个图片的 URL,并判断其是否为.jpg或.png格式。 - 如果是,则使用
requests库下载图片内容,并保存到本地磁盘的images文件夹中。
注意:
- 在运行代码之前,请确保
images文件夹已存在。 - 该代码仅作为示例,您可能需要根据实际情况进行修改。
- 为了避免对目标网站造成过大的压力,建议您在抓取图片时设置合理的延迟时间。
- 请尊重网站的robots协议,不要抓取禁止抓取的内容。
原文地址: https://www.cveoy.top/t/topic/nht6 著作权归作者所有。请勿转载和采集!