可以使用实验环境右侧工具栏中的剪切板将上面的 HTML 文本复制粘贴到实验环境中,注意剪切板只支持二进制文本的复制,中文会变成问号,粘贴到文件里面之后需要自己手动修改一下。 进入 scrapy shell ,由于没有下载链接,我们将 example.html 文档手动构建成 response 对象,然后就可以在 response 对象上直接使用 xpath 方法了:

from scrapy.http import HtmlResponse

body 的数据类型是字符串

body = open('example.html').read()

HtmlResponse 接收两个参数,url 为自定义的网址

body 参数的值应为字节码,所以需要使用字符串的 encode 方法进行编码

response = HtmlResponse(url='http://example.com', body=body.encode('utf-8'))

这里的 response 对象是指什么内容:这里的 response 对象是一个由 Scrapy 提供的用于表示网页响应的对象。在这个例子中,我们手动构建了一个 response 对象,模拟了一个网页的响应,以便在实验环境中使用 xpath 方法来提取数据。

Scrapy Shell 中手动构建 Response 对象并使用 XPath

原文地址: https://www.cveoy.top/t/topic/ffLE 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录