Python爬虫实战: 抓取中国沿海海运价格

想要了解中国沿海最新的海运价格？本教程将教你使用Python构建一个简单的网络爬虫，从货运网站抓取实时价格数据。

项目目标

本项目的目标是从类似'http://www.56yun.cn'的网站上抓取中国沿海海运价格。我们将使用以下Python库：

requests: 用于发送HTTP请求并获取网页内容。
BeautifulSoup4: 用于解析HTML网页，提取所需数据。

Python代码示例

以下是一个简单的Python程序，可以帮助你收集中国沿海海运价格：

import requests
from bs4 import BeautifulSoup

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 定义一个函数，用于获取指定网站的HTML内容
def get_html(url):
    response = requests.get(url, headers=headers)
    response.encoding = 'utf-8'
    html = response.text
    return html

# 定义一个函数，用于解析HTML内容并提取价格信息
def get_price(html):
    soup = BeautifulSoup(html, 'html.parser')
    prices = soup.find_all('span', class_='price')
    for price in prices:
        print(price.text)

# 主程序
if __name__ == '__main__':
    # 定义需要收集价格的网站列表
    urls = ['http://www.56yun.cn/price/2019-03-04.html',
            'http://www.56yun.cn/price/2019-03-05.html',
            'http://www.56yun.cn/price/2019-03-06.html']

    # 遍历网站列表，获取价格信息
    for url in urls:
        html = get_html(url)
        get_price(html)

代码解释

导入库: 首先，我们导入requests和BeautifulSoup库。
设置请求头: 我们定义了一个headers字典，模拟浏览器发送请求，避免被网站识别为爬虫程序。
获取HTML内容: get_html函数使用requests.get()方法获取指定URL的网页内容，并指定编码为'utf-8'，最后返回HTML文本。
解析HTML并提取价格: get_price函数使用BeautifulSoup解析HTML，使用find_all()方法查找所有class为'price'的span标签，并打印标签内的文本内容，即价格信息。
主程序: 定义了需要抓取的网站列表urls，遍历列表，调用get_html和get_price函数获取并打印每个网页的价格信息。

注意事项

在实际应用中，你需要根据目标网站的HTML结构修改代码，以准确地提取价格信息。
请遵守 robots.txt 协议，不要频繁请求网站，避免对服务器造成压力。
本教程仅供学习和研究使用，请勿用于非法用途。

希望本教程能帮助你入门Python网络爬虫，并成功抓取中国沿海海运价格数据！