Scrapy 配置谷歌浏览器驱动 (Mac 环境) - 详细步骤指南 - 常规

在 Mac 环境下配置 Scrapy 使用谷歌浏览器驱动，你需要按照以下步骤操作：\n\n1. 安装 Chrome 浏览器：在 Mac 上安装 Chrome 浏览器，可以从官方网站下载并按照提示进行安装。\n\n2. 下载 ChromeDriver：ChromeDriver 是用于连接 Scrapy 和 Chrome 浏览器的桥梁，你可以从 ChromeDriver 的官方网站下载对应的驱动版本。下载完成后，将 ChromeDriver 解压缩。\n\n3. 将 ChromeDriver 移动到 /usr/local/bin 目录下：打开终端，执行以下命令将 ChromeDriver 移动到 /usr/local/bin 目录下。\n\n\nsudo mv /path/to/chromedriver /usr/local/bin\n\n\n请将 "/path/to/chromedriver" 替换为你 ChromeDriver 解压缩后的路径。\n\n4. 配置 Scrapy 的 settings.py 文件：在你的 Scrapy 项目中，找到 settings.py 文件，并添加以下配置：\n\n\nSELENIUM_DRIVER_NAME = 'chrome'\nSELENIUM_DRIVER_EXECUTABLE_PATH = '/usr/local/bin/chromedriver'\nSELENIUM_DRIVER_ARGUMENTS=['--headless'] # 可选，如果需要在无界面模式下运行浏览器\n\n\n5. 安装 Scrapy 和 Selenium：使用 pip 命令安装 Scrapy 和 Selenium。\n\n\npip install scrapy\npip install selenium\n\n\n6. 编写 Spider 代码：在你的 Scrapy 项目中，编写 Spider 代码，可以使用 Selenium 来控制浏览器进行网页抓取。\n\n\nimport scrapy\nfrom scrapy_selenium import SeleniumRequest\n\nclass MySpider(scrapy.Spider):\n name = 'myspider'\n\n def start_requests(self):\n yield SeleniumRequest(\n url='http://example.com',\n callback=self.parse\n )\n\n def parse(self, response):\n # 处理网页响应\n pass\n\n\n7. 运行 Scrapy：在终端中，切换到你的 Scrapy 项目目录下，执行以下命令运行 Scrapy。\n\n\nscrapy crawl myspider\n\n\n这样，你就可以在 Mac 环境下使用 Scrapy 和谷歌浏览器驱动进行网页抓取了。