Python XPath 提取 href 属性链接:示例代码详解
Python XPath 提取 href 属性链接:示例代码详解
想要使用 XPath 提取 href 属性的链接,可以使用以下 Python 代码:
from lxml import etree
html = '''
<tr class="chaxun_con">
<td height="25" align="center">
1
</td>
<td align="center">
<a href="/eportal/ui?pageId=723920&id=1706c551c2a94bba9c3734b9ac5a75cb">北京英克信息科技有限公司</a>
</td>
</tr>
'''
# 将HTML字符串转换为Element对象
root = etree.HTML(html)
# 使用XPath提取href属性的链接
links = root.xpath('//tr[@class="chaxun_con"]/td[2]/a/@href')
# 打印链接
for link in links:
print(link)
代码解释:
- 导入
lxml库:from lxml import etree - 定义 HTML 字符串:
html - 使用
etree.HTML(html)将 HTML 字符串转换为 Element 对象。 - 使用 XPath 表达式
//tr[@class="chaxun_con"]/td[2]/a/@href提取所有<a>标签中的 href 属性值。 - 遍历提取到的链接并打印出来。
输出:
/eportal/ui?pageId=723920&id=1706c551c2a94bba9c3734b9ac5a75cb
总结:
这段代码利用 lxml 库和 XPath 表达式,可以方便快捷地从 HTML 中提取所有 href 属性链接。这在网页爬虫、数据分析等场景中十分有用。
原文地址: https://www.cveoy.top/t/topic/pUEH 著作权归作者所有。请勿转载和采集!