Python爬虫教程:如何从网页中提取图片
以下是一个简单的Python爬虫脚本,用于爬取指定网页的所有图片。该脚本使用了requests和BeautifulSoup库。
import requests
from bs4 import BeautifulSoup
import os
# 创建目录用于存储图片
if not os.path.exists('images'):
os.mkdir('images')
# 指定要爬取的网页
url = 'https://www.example.com/'
# 发送请求获取网页内容
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.content, 'html.parser')
# 遍历网页中的所有图片标签
for img in soup.find_all('img'):
# 获取图片的链接
img_url = img.get('src')
if not img_url.startswith('http'):
img_url = url + img_url
# 发送请求下载图片
response = requests.get(img_url)
# 将图片保存到本地
with open('images/' + img_url.split('/')[-1], 'wb') as f:
f.write(response.content)
print('下载完成:', img_url)
在该脚本中,我们使用了requests库来发送HTTP请求,并使用BeautifulSoup库解析网页内容。我们遍历了网页中的所有图片标签,并获取了每个图片的链接。然后,我们使用requests库下载每个图片,并将其保存到本地的images目录中。最后,我们打印出每个图片的下载完成信息。
请注意,该脚本仅用于学习和研究目的。在实际应用中,您应该尊重网站的版权和隐私政策,并遵守相关法律法规。
原文地址: https://www.cveoy.top/t/topic/oUuw 著作权归作者所有。请勿转载和采集!