使用Python和XPath从HTML中提取网址 - 代码示例

本教程演示如何在shell中使用Python的lxml库和XPath表达式从HTML中提取网址。提供一个简单的示例代码，并解释如何构建XPath表达式以提取特定元素的属性。

示例代码：

import requests
from lxml import etree

# 发送请求并获取HTML内容
url = "https://example.com"
response = requests.get(url)
html = response.text

# 使用lxml解析HTML
tree = etree.HTML(html)

# 使用XPath提取网址
urls = tree.xpath("//a/@href")

# 输出结果
for url in urls:
    print(url)

在上面的示例中，我们首先发送请求获取HTML内容，然后使用lxml库解析HTML并构建一个XPath解析树。接下来，使用XPath表达式 //a/@href 来提取所有<a>标签的href属性值，即网址。最后，使用循环遍历提取到的网址，并输出结果。

请注意，这只是一个简单的示例代码，实际使用时可能需要根据具体的HTML结构和需求来编写XPath表达式。