Python 多进程爬虫示例代码:加速网站数据采集
以下是一个使用多进程爬取网站数据的 Python 示例代码:
import requests
from multiprocessing import Process
def crawl(url):
response = requests.get(url)
# 处理爬取到的数据
if __name__ == '__main__':
urls = ['http://www.example.com/page1', 'http://www.example.com/page2', 'http://www.example.com/page3']
processes = []
for url in urls:
p = Process(target=crawl, args=(url,))
processes.append(p)
p.start()
for p in processes:
p.join()
该示例代码中首先定义了一个名为 'crawl' 的函数,该函数接收一个 URL 参数,使用 'requests' 库爬取该 URL 对应的网页数据,并对数据进行处理。
在 'if name == 'main':' 中,定义了一个 URL 列表 'urls',该列表包含需要爬取的网页 URL。
接下来,创建一个进程列表 'processes',遍历 'urls' 列表,为每个 URL 创建一个进程,使用 'Process' 类来创建进程,将 'crawl' 函数作为进程的目标函数,并将 URL 作为参数传递给该函数。
创建完所有进程之后,遍历 'processes' 列表,调用 'join' 方法等待所有进程执行完毕。通过使用多进程的方式,可以同时爬取多个网页,提高爬取效率。
原文地址: https://www.cveoy.top/t/topic/oFYY 著作权归作者所有。请勿转载和采集!