Python爬取114best.com网站电话号码及对应信息

本文将介绍如何使用Python爬取'https://www.114best.com/tel/'网站的标签内的电话号码对应信息及其电话号码，不包括标签内的标签。我们将使用正则表达式提取内容，并最终将结果保存为CSV文件。

代码实现

import requests
import re
import csv

url = 'https://www.114best.com/tel/'

response = requests.get(url)
html = response.text

# 提取电话号码对应信息及其电话号码
pattern = r'<td>(.*?)</td>\s*<td>(\d+)</td>'
result = re.findall(pattern, html)

# 打印提取结果
for item in result:
    print(item[0], item[1])

# 保存结果到CSV文件
with open('114best.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['电话号码对应信息', '电话号码'])
    for item in result:
        writer.writerow([item[0], item[1]])

代码解释

导入必要的库：requests用于发送HTTP请求，re用于正则表达式匹配，csv用于写入CSV文件。
定义目标URL：url = 'https://www.114best.com/tel/'
发送HTTP请求：response = requests.get(url)
获取网页HTML内容：html = response.text
定义正则表达式：pattern = r'<td>(.*?)</td>\s*<td>(\d+)</td>'，用于匹配标签内的电话号码对应信息和电话号码。
使用re.findall(pattern, html)提取匹配结果，并将结果存储在result列表中。
循环遍历result列表，打印每个电话号码对应信息和电话号码。
打开一个名为114best.csv的CSV文件，写入表头和提取到的数据。

运行结果

运行代码后，可以在当前目录下生成一个名为114best.csv的文件，其中包含提取到的电话号码对应信息和电话号码。

注意

由于网站结构可能发生变化，需要根据实际情况调整正则表达式。
此代码仅用于学习和研究目的，请勿用于任何违法行为。
爬取网站数据时请尊重网站的robots.txt文件，避免对网站造成负担。