这段代码是一个私有方法,用于从爬取到的网页响应中提取要爬取的链接,并生成新的请求。

代码解析如下:

  • 首先,检查传入的响应对象是否是HtmlResponse类型,如果不是则返回。
  • 创建一个空的集合seen,用于存储已经处理过的链接,避免重复处理。
  • 遍历所有的规则,获取每个规则对应的链接提取器,然后提取链接。
  • 对提取到的链接进行遍历,如果链接不在seen集合中,将其加入到seen集合中,并构建新的请求。
  • 最后通过yield关键字返回处理后的请求对象。

简而言之,这段代码的功能是从网页响应中提取要爬取的链接,并生成新的请求对象。

def _requests_to_followself response if not isinstanceresponse HtmlResponse return seen = set for rule_index rule in enumerateself_rules links =

原文地址: http://www.cveoy.top/t/topic/ilfH 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录