这里是一个简单的Python爬虫代码,可以使用正则表达式来提取HTML页面中的链接:

import re
import urllib.request

# 定义目标网站
url = "http://www.example.com"

# 打开网站并读取HTML页面
response = urllib.request.urlopen(url)
html = response.read()

# 使用正则表达式提取所有链接
links = re.findall('"((http|ftp)s?://.*?)"', html)

# 打印结果
for link in links:
    print(link[0])

这段代码使用Python的urllib库打开一个网站,然后使用正则表达式提取所有链接。正则表达式'"((http|ftp)s?://.*?)"'可以匹配以"http://"、"https://"、"ftp://"或"ftps://"开头的所有链接。这些链接将被存储在一个列表中,并逐个打印出来。

以正则表达式写一段Python爬虫代码

原文地址: http://www.cveoy.top/t/topic/biyw 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录