Python 天气预报数据爬取实战教程

本教程将带你使用 Python 编写程序，爬取指定城市的天气预报数据，并将其保存到本地文件或数据库中。

目标：

编写一个 Python 程序，实现以下功能：

用户输入需要查询的城市名称。
使用网络爬虫技术，从指定的天气预报网站上获取该城市的天气数据。
爬取的数据包括日期、天气现象（如晴、雨、阴等）、最高温度、最低温度等信息。
爬取的数据可以保存到本地文件中（如 CSV 文件），也可以保存到数据库中（如 MySQL、MongoDB 等）。
程序需要处理异常情况，如网络连接失败、城市名称错误等。

步骤：

分析目标网站： 首先需要选择一个天气预报网站，并分析其 HTML 结构，确定需要爬取的数据所在的标签和属性。
发送 HTTP 请求： 使用 requests 库发送 HTTP 请求获取网页内容。
解析 HTML： 使用 BeautifulSoup 库解析 HTML，提取需要的数据。
数据提取： 可以使用正则表达式或其他方法从解析后的 HTML 中提取数据。
数据存储： 可以使用 pandas 库将数据保存到 CSV 文件中，也可以使用数据库操作库（如 MySQLdb、pymongo 等）将数据保存到数据库中。
异常处理： 编写代码处理各种异常情况，例如网络连接失败、网页结构改变、数据解析错误等。

代码示例：

import requests
from bs4 import BeautifulSoup
import pandas as pd

def get_weather(city):
    """获取指定城市的天气预报数据"""
    url = f'https://www.weather.com.cn/weather/{city}'  # 替换为目标网站的 URL
    try:
        response = requests.get(url)
        response.raise_for_status()  # 检查 HTTP 状态码
        soup = BeautifulSoup(response.content, 'html.parser')
        # 使用 BeautifulSoup 解析 HTML，并提取所需数据
        # ...
        return data  # 返回提取到的天气数据
    except requests.exceptions.RequestException as e:
        print(f'网络连接错误: {e}')
        return None

# 用户输入城市名称
city = input('请输入要查询的城市名称：')

# 获取天气数据
weather_data = get_weather(city)

# 保存数据到 CSV 文件
if weather_data:
    df = pd.DataFrame(weather_data)
    df.to_csv('weather.csv', index=False)
    print('数据已保存到 weather.csv 文件')

注意事项：

遵守网站的爬虫规则： 不要对网站进行恶意访问或对网站服务器造成过大负担。
设置爬虫的请求头： 模拟浏览器行为，避免被网站屏蔽。
注意异常处理： 避免程序因为异常情况而崩溃。
代码可读性和可维护性： 使用适当的命名和注释，将代码分成合适的函数和模块。

其他提示：

可以在代码中使用 time.sleep() 函数，避免频繁请求同一个网站。
可以使用代理服务器来隐藏自己的 IP 地址。
可以使用数据库来存储爬取的数据，方便后续的分析和使用。

通过本教程，你将学习如何使用 Python 进行天气预报数据爬取，并掌握基本的网络爬虫技术、数据提取和存储方法。祝你学习愉快！