Python爬取114best.com网站电话号码及对应信息
Python爬取114best.com网站电话号码及对应信息
本文将介绍如何使用Python爬取'https://www.114best.com/tel/'网站的
代码实现
import requests
import re
import csv
url = 'https://www.114best.com/tel/'
response = requests.get(url)
html = response.text
# 提取电话号码对应信息及其电话号码
pattern = r'<td>(.*?)</td>\s*<td>(\d+)</td>'
result = re.findall(pattern, html)
# 打印提取结果
for item in result:
print(item[0], item[1])
# 保存结果到CSV文件
with open('114best.csv', 'w', encoding='utf-8', newline='') as f:
writer = csv.writer(f)
writer.writerow(['电话号码对应信息', '电话号码'])
for item in result:
writer.writerow([item[0], item[1]])
代码解释
- 导入必要的库:requests用于发送HTTP请求,re用于正则表达式匹配,csv用于写入CSV文件。
- 定义目标URL:
url = 'https://www.114best.com/tel/' - 发送HTTP请求:
response = requests.get(url) - 获取网页HTML内容:
html = response.text - 定义正则表达式:
pattern = r'<td>(.*?)</td>\s*<td>(\d+)</td>',用于匹配标签内的电话号码对应信息和电话号码。 - 使用
re.findall(pattern, html)提取匹配结果,并将结果存储在result列表中。- 循环遍历
result列表,打印每个电话号码对应信息和电话号码。- 打开一个名为
114best.csv的CSV文件,写入表头和提取到的数据。运行结果
运行代码后,可以在当前目录下生成一个名为
114best.csv的文件,其中包含提取到的电话号码对应信息和电话号码。注意
- 由于网站结构可能发生变化,需要根据实际情况调整正则表达式。
- 此代码仅用于学习和研究目的,请勿用于任何违法行为。
- 爬取网站数据时请尊重网站的robots.txt文件,避免对网站造成负担。
原文地址: https://www.cveoy.top/t/topic/mZv4 著作权归作者所有。请勿转载和采集!
- 使用