写一个python爬虫 将这个网站 httpswwwcraftdosE8S0PiAPUp9kHbbBD432236-0758-45EB-8FD6-6E338776806C4-E3808AE9808FE6988EE78987E3808BE5AFBCE8AFBB2 里的图片全都下载下来
以下是一个使用Python的爬虫程序,可以将给定网站中的所有图片下载到本地存储:
import requests
from bs4 import BeautifulSoup
import os
# 创建目录用于存储图片
if not os.path.exists("images"):
os.mkdir("images")
# 请求网站
url = "https://www.craft.do/s/E8S0PiAPUp9kHb/b/BD432236-0758-45EB-8FD6-6E338776806C/4.-%E3%80%8A%E9%80%8F%E6%98%8E%E7%89%87%E3%80%8B%E5%AF%BC%E8%AF%BB2"
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.text, "html.parser")
# 遍历所有图片链接,并下载图片
for img in soup.find_all("img"):
img_url = img.get("src")
if img_url.startswith("https"):
img_response = requests.get(img_url)
img_name = img_url.split("/")[-1]
with open(f"images/{img_name}", "wb") as f:
f.write(img_response.content)
print(f"Downloaded {img_name}")
这个程序使用了requests库和BeautifulSoup库。首先,程序检查是否存在名为images的文件夹,如果不存在,则创建一个。接着,程序使用requests库获取给定网站的HTML。然后,程序使用BeautifulSoup库解析HTML。
在解析HTML后,程序使用find_all方法查找所有img标签。对于每个img标签,程序获取其src属性,并下载图片。图片的名称为其URL的最后一部分。下载的图片存储在名为images的文件夹中。
请注意,如果网站使用JavaScript动态加载图片,则需要使用Selenium等工具来模拟浏览器行为
原文地址: https://www.cveoy.top/t/topic/crqr 著作权归作者所有。请勿转载和采集!