以下是一个简单的Python爬虫,可以爬取一个网站各个域名的访问数量:

import requests
from bs4 import BeautifulSoup
from collections import defaultdict

# 设置要爬取的网站URL
url = 'http://example.com/'

# 发送HTTP请求,获取网站内容
response = requests.get(url)

# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')

# 创建一个字典,用于记录各个域名的访问数量
domain_counts = defaultdict(int)

# 遍历网站中的所有链接
for link in soup.find_all('a'):
    # 获取链接的URL
    href = link.get('href')
    if href:
        # 解析URL,获取域名
        domain = href.split('/')[2]
        # 增加该域名的访问数量
        domain_counts[domain] += 1

# 输出各个域名的访问数量
for domain, count in domain_counts.items():
    print(f'{domain}: {count}')

这个爬虫首先发送HTTP请求,获取网站内容,然后使用BeautifulSoup解析HTML内容。接着,它遍历网站中的所有链接,并解析出链接的域名。最后,它使用一个字典来记录各个域名的访问数量,并输出结果

写一段能够爬取一个网站各个域名访问数量的python爬虫

原文地址: https://www.cveoy.top/t/topic/eUKI 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录