CrawlSpider设置爬取深度

CrawlSpider是Scrapy框架提供的一个爬虫类，用于构建基于规则的通用爬虫。CrawlSpider默认会处理所有的链接，并根据规则提取链接并继续爬取。

要设置CrawlSpider的爬取深度，可以通过设置DEPTH_LIMIT参数来实现。DEPTH_LIMIT参数用于限制爬取的深度，即爬虫会在达到指定的深度后停止爬取。可以将DEPTH_LIMIT设置为一个整数，表示最大的爬取深度。

以下是一个示例代码，展示如何设置CrawlSpider的爬取深度为3：

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class MySpider(CrawlSpider):
    name = 'myspider'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com']
    rules = [
        Rule(LinkExtractor(allow=()), callback='parse_item', follow=True),
    ]

    custom_settings = {
        'DEPTH_LIMIT': 3
    }

    def parse_item(self, response):
        # 解析和处理爬取的数据
        pass

在上述示例中，DEPTH_LIMIT被设置为3，表示爬虫只会爬取深度为3的页面。如果想爬取更深的页面，可以将DEPTH_LIMIT设置为更大的值