Linux 中使用 Python 和 XPath 提取 HTML 内容 - 示例指南 - 常规

在 Linux 中，可以使用 Python 的 lxml 库来解析 HTML 并使用 XPath 来提取内容。下面是一个示例代码：

from lxml import etree

# HTML 内容
html = '''
<html>
  <body>
    <div>
      <h1>Title</h1>
      <p>Paragraph 1</p>
      <p>Paragraph 2</p>
    </div>
  </body>
</html>
'''

# 解析 HTML
tree = etree.HTML(html)

# 使用 XPath 提取内容
title = tree.xpath('//h1/text()')[0]
paragraphs = tree.xpath('//p/text()')

# 打印提取的内容
print("Title:", title)
print("Paragraphs:")
for p in paragraphs:
    print(p)

输出结果为：

Title: Title
Paragraphs:
Paragraph 1
Paragraph 2

在此示例中，我们首先使用 lxml 库的 etree 模块将 HTML 内容解析为一个可操作的树结构。然后，我们使用 XPath 表达式来提取标题和段落的文本内容。注意，XPath 表达式中的 // 表示从根节点开始匹配，text() 用于提取节点的文本内容。最后，我们使用 print 语句将提取的内容打印出来。

Linux 中使用 Python 和 XPath 提取 HTML 内容 - 示例指南