py爬取网页链接的时候怎么知道爬取的层级

在爬取网页链接时，可以通过设置深度或层级参数来控制爬取的层级。以下是一种可能的实现方式：

定义一个变量 depth，初始值为0，用于表示当前爬取的层级。
在爬取每个链接之前，判断当前的 depth 是否小于或等于目标层级。如果超过目标层级，则停止爬取该链接以避免继续深入。
在每次爬取一个链接时，将 depth 值传递给下一层级的爬取函数，并将 depth+1 作为参数传递给下一层级的链接爬取函数。
在下一层级的爬取函数中，将接收到的 depth 值与目标层级进行比较，以决定是否继续爬取链接。

下面是一个示例代码，演示如何使用 depth 控制爬取的层级：

import requests
from bs4 import BeautifulSoup

def crawl(url, depth, max_depth):
    if depth > max_depth:
        return
    
    # 爬取链接的代码
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # 处理链接
    for link in soup.find_all('a'):
        next_url = link.get('href')
        
        # 爬取下一层级的链接
        crawl(next_url, depth+1, max_depth)

# 设置初始链接和目标层级
start_url = 'https://example.com'
target_depth = 2

# 调用爬取函数
crawl(start_url, 0, target_depth)

在上述示例中，crawl 函数接收 url、depth 和 max_depth 作为参数。在处理链接之前，会检查当前的 depth 是否小于或等于 max_depth，如果超过了目标层级，则停止爬取该链接。如果 depth 没有超过目标层级，则会递归调用 crawl 函数，将 depth+1 作为参数传递给下一层级的链接爬取函数