scrapy框架 CrawlerRunner使用

CrawlerRunner是Scrapy框架中的一个异步执行引擎，可以用于同时运行多个Spider。下面是一个使用CrawlerRunner的示例：

首先，需要导入必要的模块：

from twisted.internet import reactor, defer
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging
from scrapy.utils.project import get_project_settings
from myproject.spiders import MySpider1, MySpider2

然后，在程序的入口处，创建一个CrawlerRunner对象：

def main():
    configure_logging()
    runner = CrawlerRunner(get_project_settings())

接着，定义一个函数用于同时运行多个Spider：

@defer.inlineCallbacks
def crawl():
    yield runner.crawl(MySpider1)
    yield runner.crawl(MySpider2)
    reactor.stop()

最后，调用crawl函数来启动爬虫：

crawl()
reactor.run()

这里使用了Twisted框架的@defer.inlineCallbacks装饰器，使得crawl函数可以使用协程语法。在crawl函数中，通过yield runner.crawl(MySpider1)和yield runner.crawl(MySpider2)来分别启动两个Spider的运行，然后调用reactor.stop()来停止运行。最后，调用reactor.run()来启动异步事件循环。

需要注意的是，在使用CrawlerRunner时，必须先调用configure_logging()来配置日志，然后通过get_project_settings()获取Scrapy项目的设置。另外，需要将具体的Spider类导入，并在crawl函数中使用yield runner.crawl()来启动爬虫的运行。

以上就是使用Scrapy框架的CrawlerRunner的基本示例。希望对你有帮助