Scrapy HtmlResponse: 配置回调函数并创建新的HTML响应对象

在 Scrapy 中，可以通过使用HtmlResponse类来创建一个HTML响应对象，并将其作为参数传递给回调函数。\n\n首先，你需要在Spider类中定义一个回调函数，用于处理HTML响应。回调函数接收一个response参数，其中包含了HTTP请求的响应信息。\n\npython\nimport scrapy\n\nclass MySpider(scrapy.Spider):\n name = 'example'\n\n def start_requests(self):\n urls = [\n 'http://www.example.com/page1',\n 'http://www.example.com/page2',\n 'http://www.example.com/page3',\n ]\n for url in urls:\n yield scrapy.Request(url=url, callback=self.parse)\n\n def parse(self, response):\n # 在这里处理HTML响应\n # 可以使用response.xpath()或response.css()来提取数据\n # 也可以使用response.follow()来跟踪链接并发送请求\n pass\n\n\n在parse方法中，你可以使用response.xpath()或response.css()来提取数据，也可以使用response.follow()来跟踪链接并发送请求。\n\n如果你想在parse方法中创建一个新的HTML响应对象，并将其传递给另一个回调函数进行处理，可以使用HtmlResponse类。\n\npython\nimport scrapy\nfrom scrapy.http import HtmlResponse\n\nclass MySpider(scrapy.Spider):\n name = 'example'\n\n def start_requests(self):\n urls = [\n 'http://www.example.com/page1',\n 'http://www.example.com/page2',\n 'http://www.example.com/page3',\n ]\n for url in urls:\n yield scrapy.Request(url=url, callback=self.parse)\n\n def parse(self, response):\n # 在这里处理HTML响应\n # 可以使用response.xpath()或response.css()来提取数据\n # 也可以使用response.follow()来跟踪链接并发送请求\n\n # 创建一个新的HTML响应对象\n new_response = HtmlResponse(\n url='http://www.example.com/page4',\n body='<html><body><h1>Hello, World!</h1></body></html>',\n encoding='utf-8'\n )\n\n # 将新的HTML响应对象传递给另一个回调函数进行处理\n yield scrapy.Request(url=new_response.url, callback=self.parse_new)\n\n def parse_new(self, response):\n # 在这里处理新的HTML响应\n pass\n\n\n在上面的示例中，我们首先创建了一个新的HTML响应对象new_response，然后通过yield scrapy.Request()将其传递给parse_new方法进行处理。\n\n请注意，HtmlResponse类的构造函数接受url、body和encoding参数。url参数是新响应的URL地址，body参数是HTML内容的字符串，encoding参数是HTML内容的编码方式。