使用Python和XPath从HTML中提取网址 - 代码示例

本教程演示如何在shell中使用Python的lxml库和XPath表达式从HTML中提取网址。提供一个简单的示例代码,并解释如何构建XPath表达式以提取特定元素的属性。

示例代码:

import requests
from lxml import etree

# 发送请求并获取HTML内容
url = "https://example.com"
response = requests.get(url)
html = response.text

# 使用lxml解析HTML
tree = etree.HTML(html)

# 使用XPath提取网址
urls = tree.xpath("//a/@href")

# 输出结果
for url in urls:
    print(url)

在上面的示例中,我们首先发送请求获取HTML内容,然后使用lxml库解析HTML并构建一个XPath解析树。接下来,使用XPath表达式 //a/@href 来提取所有<a>标签的href属性值,即网址。最后,使用循环遍历提取到的网址,并输出结果。

请注意,这只是一个简单的示例代码,实际使用时可能需要根据具体的HTML结构和需求来编写XPath表达式。

使用Python和XPath从HTML中提取网址 - 代码示例

原文地址: https://www.cveoy.top/t/topic/pZQI 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录