写一段能够爬取一个网站各个域名访问数量的python爬虫
以下是一个简单的Python爬虫,可以爬取一个网站各个域名的访问数量:
import requests
from bs4 import BeautifulSoup
from collections import defaultdict
# 设置要爬取的网站URL
url = 'http://example.com/'
# 发送HTTP请求,获取网站内容
response = requests.get(url)
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.content, 'html.parser')
# 创建一个字典,用于记录各个域名的访问数量
domain_counts = defaultdict(int)
# 遍历网站中的所有链接
for link in soup.find_all('a'):
# 获取链接的URL
href = link.get('href')
if href:
# 解析URL,获取域名
domain = href.split('/')[2]
# 增加该域名的访问数量
domain_counts[domain] += 1
# 输出各个域名的访问数量
for domain, count in domain_counts.items():
print(f'{domain}: {count}')
这个爬虫首先发送HTTP请求,获取网站内容,然后使用BeautifulSoup解析HTML内容。接着,它遍历网站中的所有链接,并解析出链接的域名。最后,它使用一个字典来记录各个域名的访问数量,并输出结果
原文地址: https://www.cveoy.top/t/topic/eUKI 著作权归作者所有。请勿转载和采集!