scrapy 使用selenium driverfind_element获取页面高度

在Scrapy中，不能直接使用Selenium的driver.find_element方法来获取页面的高度。因为Scrapy是一个基于异步的网络爬虫框架，而Selenium是一个用于自动化浏览器操作的工具。它们的工作方式不同，Scrapy并不会加载整个页面，而是通过发送HTTP请求来获取页面的部分内容。

要获取页面的高度，可以通过Scrapy的response对象来获取页面的源代码，然后使用正则表达式或其他方法来提取出页面的高度信息。以下是一个示例代码：

import re
from scrapy import Spider, Request

class MySpider(Spider):
    name = 'my_spider'
    
    def start_requests(self):
        yield Request(url='http://example.com', callback=self.parse)

    def parse(self, response):
        # 提取页面的源代码
        html = response.body.decode('utf-8')

        # 使用正则表达式提取页面的高度信息
        height_match = re.search(r'height: (\d+)px;', html)
        if height_match:
            height = int(height_match.group(1))
            print(f"页面高度为: {height}px")
        else:
            print("无法获取页面高度")

在这个示例中，我们首先通过response.body属性获取页面的源代码，然后使用正则表达式height: (\d+)px;来提取页面高度信息。如果正则表达式匹配成功，就可以获取到页面的高度。否则，表示无法获取页面高度。

需要注意的是，这种方法只能获取到页面中直接定义的高度信息，无法获取到通过JavaScript动态计算得到的高度。如果需要获取动态生成的页面高度，可以考虑使用Selenium来模拟浏览器操作，然后通过driver.execute_script方法来执行JavaScript代码获取页面高度