Linux 中使用 Python 和 XPath 提取 HTML 内容 - 示例指南
在 Linux 中,可以使用 Python 的 lxml 库来解析 HTML 并使用 XPath 来提取内容。下面是一个示例代码:
from lxml import etree
# HTML 内容
html = '''
<html>
<body>
<div>
<h1>Title</h1>
<p>Paragraph 1</p>
<p>Paragraph 2</p>
</div>
</body>
</html>
'''
# 解析 HTML
tree = etree.HTML(html)
# 使用 XPath 提取内容
title = tree.xpath('//h1/text()')[0]
paragraphs = tree.xpath('//p/text()')
# 打印提取的内容
print("Title:", title)
print("Paragraphs:")
for p in paragraphs:
print(p)
输出结果为:
Title: Title
Paragraphs:
Paragraph 1
Paragraph 2
在此示例中,我们首先使用 lxml 库的 etree 模块将 HTML 内容解析为一个可操作的树结构。然后,我们使用 XPath 表达式来提取标题和段落的文本内容。注意,XPath 表达式中的 // 表示从根节点开始匹配,text() 用于提取节点的文本内容。最后,我们使用 print 语句将提取的内容打印出来。
原文地址: https://www.cveoy.top/t/topic/p1aD 著作权归作者所有。请勿转载和采集!