这里提供一个简单的 Python 爬取二次元图片的程序,使用的是 requests 和 BeautifulSoup 库。

首先,我们需要导入这两个库:

import requests
from bs4 import BeautifulSoup

然后,我们需要确定要爬取的网站和页面,这里以一个二次元图片网站的首页为例:

url = 'https://www.acgnoon.com/'

接下来,我们需要使用 requests 库来获取网页的 HTML 代码:

response = requests.get(url)
html = response.text

然后,我们可以使用 BeautifulSoup 库来解析 HTML 代码,找到所有的图片链接:

soup = BeautifulSoup(html, 'html.parser')
img_tags = soup.find_all('img')

现在,我们可以遍历所有的图片链接,将它们保存到本地:

for img_tag in img_tags:
    img_url = img_tag.get('src')
    if img_url.endswith('.jpg') or img_url.endswith('.png'):
        img_data = requests.get(img_url).content
        with open('images/'+img_url.split('/')[-1], 'wb') as handler:
            handler.write(img_data)

这里,我们只保存了以.jpg 和 .png 结尾的图片,如果需要保存其他格式的图片,可以自行更改代码。

最后,完整的代码如下:

import requests
from bs4 import BeautifulSoup

url = 'https://www.acgnoon.com/'
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, 'html.parser')
img_tags = soup.find_all('img')

for img_tag in img_tags:
    img_url = img_tag.get('src')
    if img_url.endswith('.jpg') or img_url.endswith('.png'):
        img_data = requests.get(img_url).content
        with open('images/'+img_url.split('/')[-1], 'wb') as handler:
            handler.write(img_data)

注意,这里将图片保存到了 images 文件夹下,如果需要保存到其他位置,可以自行更改代码。另外,爬取网站的时候要遵守法律法规,不要爬取不良内容。

Python 爬取二次元图片教程:使用 requests 和 BeautifulSoup 库

原文地址: https://www.cveoy.top/t/topic/nhtY 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录