使用Python和XPath从HTML中提取网址 - 代码示例
使用Python和XPath从HTML中提取网址 - 代码示例
本教程演示如何在shell中使用Python的lxml库和XPath表达式从HTML中提取网址。提供一个简单的示例代码,并解释如何构建XPath表达式以提取特定元素的属性。
示例代码:
import requests
from lxml import etree
# 发送请求并获取HTML内容
url = "https://example.com"
response = requests.get(url)
html = response.text
# 使用lxml解析HTML
tree = etree.HTML(html)
# 使用XPath提取网址
urls = tree.xpath("//a/@href")
# 输出结果
for url in urls:
print(url)
在上面的示例中,我们首先发送请求获取HTML内容,然后使用lxml库解析HTML并构建一个XPath解析树。接下来,使用XPath表达式 //a/@href 来提取所有<a>标签的href属性值,即网址。最后,使用循环遍历提取到的网址,并输出结果。
请注意,这只是一个简单的示例代码,实际使用时可能需要根据具体的HTML结构和需求来编写XPath表达式。
原文地址: https://www.cveoy.top/t/topic/pZQI 著作权归作者所有。请勿转载和采集!