Python爬虫示例：使用Scrapy提取网页标题和正文内容

当涉及到编写一个完整的爬虫案例时，一个简单的示例是爬取并提取一个网页的标题和正文内容。以下是使用Python和Scrapy框架的爬虫示例：

首先，确保你已经安装了Scrapy库。你可以使用以下命令进行安装：

pip install scrapy

创建一个新的Scrapy爬虫项目。在命令行中执行以下命令：

scrapy startproject example_project

cd example_project

创建一个新的爬虫。执行以下命令：

scrapy genspider example_spider example.com

这将在项目中创建一个名为example_spider的爬虫，并指定初始URL为example.com。

打开生成的爬虫文件example_spider.py，并修改parse方法部分。将其更新为以下代码：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.css('title::text').get()
        content = response.css('body p::text').getall()

        yield {
            'title': title,
            'content': ' '.join(content)
        }

在这个示例中，我们使用CSS选择器来提取标题和正文内容。title::text选择器用于提取标题文本，body p::text选择器用于提取正文段落的文本内容。提取的标题和正文内容将作为字典的形式通过yield关键字输出。

在命令行中执行以下命令来运行爬虫并将结果保存到文件中：

scrapy crawl example_spider -o output.json

这将运行名为example_spider的爬虫，并将提取的数据保存到output.json文件中。

这只是一个简单的示例，你可以根据实际需求对爬虫进行更复杂的配置和数据处理。建议查阅Scrapy的官方文档和教程，了解更多关于Scrapy的用法和功能。

希望这个示例能对你有所帮助！如果还有其他问题，请随时提问。