Python爬虫代码示例：使用requests和BeautifulSoup

想要学习如何使用Python编写简单的网页爬虫吗？以下是一个示例，它使用requests库来获取网页内容，并使用BeautifulSoup库来解析HTML，方便您提取所需数据。

import requests
from bs4 import BeautifulSoup

def crawl_website(url):
    # 发送GET请求获取网页内容
    response = requests.get(url)
    
    # 检查请求是否成功
    if response.status_code == 200:
        # 使用BeautifulSoup解析HTML
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # 在此处编写您的代码来提取所需的数据
        # 例如，您可以使用soup.find()或soup.find_all()来查找特定的元素
        
        # 返回提取的数据（示例中返回整个HTML文档）
        return soup.prettify()
    
    # 如果请求失败，则返回空字符串
    return ''

# 在此处替换为您要爬取的网页URL
url = 'https://example.com'

# 调用爬虫函数
result = crawl_website(url)

# 打印结果
print(result)

代码说明:

首先，我们需要导入requests和BeautifulSoup库。
crawl_website 函数接收一个URL作为参数，并返回提取的数据。
在函数内部，我们使用requests.get()方法发送一个GET请求到指定的URL，获取网页内容。
然后，我们检查响应的状态码是否为200，如果是，则使用BeautifulSoup解析HTML内容。
接下来，您可以使用soup.find()或soup.find_all()等方法来查找和提取您需要的数据。
最后，函数返回提取的数据。

注意事项:

这只是一个简单的示例，您可以根据自己的需要扩展代码来提取所需的数据。
确保在使用爬虫代码时遵守网站的使用条款和法律法规，例如robots.txt协议。
爬取频率过快可能会对目标网站造成压力，请合理控制爬取速度。