Python爬取114best.com网站电话号码及对应信息

本文将介绍如何使用Python爬取'https://www.114best.com/tel/'网站的标签内的电话号码对应信息及其电话号码,不包括标签内的标签。我们将使用正则表达式提取内容,并最终将结果保存为CSV文件。

代码实现

import requests
import re
import csv

url = 'https://www.114best.com/tel/'

response = requests.get(url)
html = response.text

# 提取电话号码对应信息及其电话号码
pattern = r'<td>(.*?)</td>\s*<td>(\d+)</td>'
result = re.findall(pattern, html)

# 打印提取结果
for item in result:
    print(item[0], item[1])

# 保存结果到CSV文件
with open('114best.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['电话号码对应信息', '电话号码'])
    for item in result:
        writer.writerow([item[0], item[1]])

代码解释

  1. 导入必要的库:requests用于发送HTTP请求,re用于正则表达式匹配,csv用于写入CSV文件。
  2. 定义目标URL:url = 'https://www.114best.com/tel/'
  3. 发送HTTP请求:response = requests.get(url)
  4. 获取网页HTML内容:html = response.text
  5. 定义正则表达式:pattern = r'<td>(.*?)</td>\s*<td>(\d+)</td>',用于匹配标签内的电话号码对应信息和电话号码。
  6. 使用re.findall(pattern, html)提取匹配结果,并将结果存储在result列表中。
  7. 循环遍历result列表,打印每个电话号码对应信息和电话号码。
  8. 打开一个名为114best.csv的CSV文件,写入表头和提取到的数据。

运行结果

运行代码后,可以在当前目录下生成一个名为114best.csv的文件,其中包含提取到的电话号码对应信息和电话号码。

注意

  • 由于网站结构可能发生变化,需要根据实际情况调整正则表达式。
  • 此代码仅用于学习和研究目的,请勿用于任何违法行为。
  • 爬取网站数据时请尊重网站的robots.txt文件,避免对网站造成负担。
Python爬取114best.com网站电话号码及对应信息

原文地址: https://www.cveoy.top/t/topic/mZv4 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录