Python分布式爬取京东首页并保存到CSV文件

使用Python的分布式爬虫框架Scrapy可以实现对京东首页的分布式爬取。以下是一个示例代码，演示了如何使用Scrapy爬取京东首页（https://www.jd.com/?cu=true&utm_source=kong&utm_medium=tuiguang&utm_campaign=t_220520384_&utm_term=e5350244deaf493f94c38ffcb94a0ed3）并将数据保存到CSV文件中：

首先，创建一个Scrapy项目：

scrapy startproject jd_crawler

cd jd_crawler
scrapy genspider jd_spider jd.com

修改 jd_crawler/jd_crawler/spiders/jd_spider.py 文件，将其内容替换为以下代码：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from jd_crawler.items import JdCrawlerItem

class JdSpiderSpider(CrawlSpider):
    name = 'jd_spider'
    allowed_domains = ['jd.com']
    start_urls = ['https://www.jd.com/?cu=true&utm_source=kong&utm_medium=tuiguang&utm_campaign=t_220520384_&utm_term=e5350244deaf493f94c38ffcb94a0ed3']

    rules = (
        Rule(LinkExtractor(allow=r''), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        item = JdCrawlerItem()
        item['link'] = response.url
        yield item

创建一个Item，在 jd_crawler/jd_crawler/items.py 文件中，将其内容替换为以下代码：

import scrapy

class JdCrawlerItem(scrapy.Item):
    link = scrapy.Field()

修改 jd_crawler/jd_crawler/settings.py 文件，将 ROBOTSTXT_OBEY 设置为 False：

ROBOTSTXT_OBEY = False

创建一个Pipeline，在 jd_crawler/jd_crawler/pipelines.py 文件中，将其内容替换为以下代码：

import csv

class JdCrawlerPipeline:
    def __init__(self):
        self.filename = 'jd_links.csv'

    def open_spider(self, spider):
        self.file = open(self.filename, 'w', newline='', encoding='utf-8')
        self.writer = csv.writer(self.file)

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        self.writer.writerow([item['link']])
        return item

在 jd_crawler/jd_crawler/settings.py 文件中，启用Pipeline并禁用其他Pipeline：

ITEM_PIPELINES = {
    'jd_crawler.pipelines.JdCrawlerPipeline': 300,
}

执行命令开始运行爬虫：

scrapy crawl jd_spider

以上代码将在当前目录下创建一个名为 jd_links.csv 的CSV文件，并将京东首页中的所有链接存储到该文件中。每个链接将占据CSV文件中的一行。

请注意，为了实现真正的分布式爬取，还需要设置和配置分布式爬虫框架的相关组件，例如分布式调度器和分布式存储等。以上代码只是一个示例，演示了如何使用Scrapy进行爬取，并将数据保存到CSV文件中。具体的分布式设置和配置需要根据实际需求和使用的框架进行进一步的研究和实现。