Python 多进程爬虫示例代码：加速网站数据采集

以下是一个使用多进程爬取网站数据的 Python 示例代码：

import requests
from multiprocessing import Process

def crawl(url):
    response = requests.get(url)
    # 处理爬取到的数据

if __name__ == '__main__':
    urls = ['http://www.example.com/page1', 'http://www.example.com/page2', 'http://www.example.com/page3']
    processes = []
    for url in urls:
        p = Process(target=crawl, args=(url,))
        processes.append(p)
        p.start()
    for p in processes:
        p.join()

该示例代码中首先定义了一个名为 'crawl' 的函数，该函数接收一个 URL 参数，使用 'requests' 库爬取该 URL 对应的网页数据，并对数据进行处理。

在 'if name == 'main':' 中，定义了一个 URL 列表 'urls'，该列表包含需要爬取的网页 URL。

接下来，创建一个进程列表 'processes'，遍历 'urls' 列表，为每个 URL 创建一个进程，使用 'Process' 类来创建进程，将 'crawl' 函数作为进程的目标函数，并将 URL 作为参数传递给该函数。

创建完所有进程之后，遍历 'processes' 列表，调用 'join' 方法等待所有进程执行完毕。通过使用多进程的方式，可以同时爬取多个网页，提高爬取效率。