scrapy 写个全量爬取页面的代码

日期: 2025-01-04 03:55:25

标签: 时尚

下面是一个使用Scrapy框架编写的全量爬取页面的代码示例：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['https://example.com']
    allowed_domains = ['example.com']
    visited_urls = set()

    def parse(self, response):
        # 解析页面并提取数据
        # ...

        # 获取页面中的所有链接
        links = response.css('a::attr(href)').getall()

        for link in links:
            if link.startswith('http'):
                if link not in self.visited_urls:
                    self.visited_urls.add(link)
                    yield scrapy.Request(link, callback=self.parse)

在这个代码中，我们定义了一个名为MySpider的Spider类，它继承自Scrapy的Spider类。我们通过设置start_urls属性来指定起始URL，然后在parse方法中解析页面并提取数据。接着，我们使用response.css('a::attr(href)').getall()方法获取页面中的所有链接，并使用scrapy.Request方法递归地爬取这些链接。

注意：这只是一个简单的示例代码，实际应用中会根据具体需求进行适当的改进，如添加数据存储、异常处理等

原文地址: https://www.cveoy.top/t/topic/ihy0 著作权归作者所有。请勿转载和采集!