Python XPath 提取 href 属性链接：示例代码详解

想要使用 XPath 提取 href 属性的链接，可以使用以下 Python 代码：

from lxml import etree

html = '''
<tr class="chaxun_con">
    <td height="25" align="center">
       1
    </td>
    <td align="center">
        <a href="/eportal/ui?pageId=723920&id=1706c551c2a94bba9c3734b9ac5a75cb">北京英克信息科技有限公司</a>
    </td>
</tr>
'''

# 将HTML字符串转换为Element对象
root = etree.HTML(html)

# 使用XPath提取href属性的链接
links = root.xpath('//tr[@class="chaxun_con"]/td[2]/a/@href')

# 打印链接
for link in links:
    print(link)

代码解释：

导入 lxml 库：from lxml import etree
定义 HTML 字符串：html
使用 etree.HTML(html) 将 HTML 字符串转换为 Element 对象。
使用 XPath 表达式 //tr[@class="chaxun_con"]/td[2]/a/@href 提取所有 <a> 标签中的 href 属性值。
遍历提取到的链接并打印出来。

输出：

/eportal/ui?pageId=723920&id=1706c551c2a94bba9c3734b9ac5a75cb

总结：

这段代码利用 lxml 库和 XPath 表达式，可以方便快捷地从 HTML 中提取所有 href 属性链接。这在网页爬虫、数据分析等场景中十分有用。