Python XPath 提取 href 属性链接:示例代码详解

想要使用 XPath 提取 href 属性的链接,可以使用以下 Python 代码:

from lxml import etree

html = '''
<tr class="chaxun_con">
    <td height="25" align="center">
       1
    </td>
    <td align="center">
        <a href="/eportal/ui?pageId=723920&id=1706c551c2a94bba9c3734b9ac5a75cb">北京英克信息科技有限公司</a>
    </td>
</tr>
'''

# 将HTML字符串转换为Element对象
root = etree.HTML(html)

# 使用XPath提取href属性的链接
links = root.xpath('//tr[@class="chaxun_con"]/td[2]/a/@href')

# 打印链接
for link in links:
    print(link)

代码解释:

  1. 导入 lxml 库:from lxml import etree
  2. 定义 HTML 字符串:html
  3. 使用 etree.HTML(html) 将 HTML 字符串转换为 Element 对象。
  4. 使用 XPath 表达式 //tr[@class="chaxun_con"]/td[2]/a/@href 提取所有 <a> 标签中的 href 属性值。
  5. 遍历提取到的链接并打印出来。

输出:

/eportal/ui?pageId=723920&id=1706c551c2a94bba9c3734b9ac5a75cb

总结:

这段代码利用 lxml 库和 XPath 表达式,可以方便快捷地从 HTML 中提取所有 href 属性链接。这在网页爬虫、数据分析等场景中十分有用。

Python XPath 提取 href 属性链接:示例代码详解

原文地址: https://www.cveoy.top/t/topic/pUEH 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录