Scrapy 重定向处理技巧：使用 handle_httpstatus_list 和 dont_redirect 配置

在Scrapy中处理重定向，可以使用`handle_httpstatus_list`和`dont_redirect`两个Scrapy的settings配置来解决。\n\n1. 使用`handle_httpstatus_list`配置来处理特定的HTTP状态码，包括重定向状态码。在Scrapy的settings.py文件中添加以下配置：\n\npython\nhandle_httpstatus_list = [301, 302]\n\n\n这样Scrapy会将这些状态码作为正常的响应处理，而不会被当作错误处理。\n\n2. 使用`dont_redirect`配置来控制是否自动重定向。在Scrapy的settings.py文件中添加以下配置：\n\npython\nREDIRECT_ENABLED = False\n\n\n这样Scrapy在遇到重定向时，不会自动进行重定向，而是将重定向的URL作为正常的响应返回。\n\n另外，如果需要自定义处理重定向逻辑，可以通过重写`start_requests`方法来实现。在Spider中重写`start_requests`方法，可以自定义处理重定向的逻辑。\n\n以下是一个处理重定向的示例代码：\n\npython\nimport scrapy\n\nclass MySpider(scrapy.Spider):\n name = 'my_spider'\n\n def start_requests(self):\n urls = ['http://www.example.com']\n for url in urls:\n yield scrapy.Request(url, callback=self.parse, dont_filter=True)\n\n def parse(self, response):\n if response.status == 301 or response.status == 302:\n # 处理重定向\n redirect_url = response.headers.get('Location')\n yield scrapy.Request(redirect_url, callback=self.parse, dont_filter=True)\n else:\n # 处理正常响应\n # ...\n\n\n在上面的代码中，如果遇到301或302状态码，会获取重定向的URL，并发送新的请求进行处理。如果是其他状态码，就会处理正常的响应。