Python爬取云代理可用IP并写入文件
以下是使用Python实现爬取云代理可用IP并写入文件的示例代码:
import requests
from lxml import etree
# 爬取网页地址
url = 'http://www.ip3366.net/free/?stype=1&page=1'
# 请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
# 发送请求,获取响应
response = requests.get(url, headers=headers)
html = response.text
# 使用lxml库解析HTML
selector = etree.HTML(html)
# 获取IP地址和端口号
ip_list = selector.xpath('//tbody/tr/td[1]/text()')
port_list = selector.xpath('//tbody/tr/td[2]/text()')
# 将IP地址和端口号写入文件
with open('ip.txt', 'w') as f:
for i in range(len(ip_list)):
f.write(ip_list[i] + ':' + port_list[i] + '\n')
说明:
- 使用requests库发送请求,获取云代理网页的HTML代码。
- 使用lxml库解析HTML,获取IP地址和端口号。
- 将IP地址和端口号写入文件。
原文地址: https://www.cveoy.top/t/topic/ndrX 著作权归作者所有。请勿转载和采集!