以正则表达式写一段Python爬虫代码
这里是一个简单的Python爬虫代码,可以使用正则表达式来提取HTML页面中的链接:
import re
import urllib.request
# 定义目标网站
url = "http://www.example.com"
# 打开网站并读取HTML页面
response = urllib.request.urlopen(url)
html = response.read()
# 使用正则表达式提取所有链接
links = re.findall('"((http|ftp)s?://.*?)"', html)
# 打印结果
for link in links:
print(link[0])
这段代码使用Python的urllib库打开一个网站,然后使用正则表达式提取所有链接。正则表达式'"((http|ftp)s?://.*?)"'可以匹配以"http://"、"https://"、"ftp://"或"ftps://"开头的所有链接。这些链接将被存储在一个列表中,并逐个打印出来。
原文地址: http://www.cveoy.top/t/topic/biyw 著作权归作者所有。请勿转载和采集!