调用HTML类进行初始化这样就成功构造了一个XPath解析对象
,可以使用XPath表达式进行查询和定位元素了。
示例代码:
from lxml import html
# 构造HTML文档
doc = """
<html>
<head>
<title>示例文档</title>
</head>
<body>
<div id="content">
<h1>示例标题</h1>
<p>示例段落</p>
<ul>
<li>列表项1</li>
<li>列表项2</li>
<li>列表项3</li>
</ul>
</div>
</body>
</html>
"""
# 初始化XPath解析对象
tree = html.fromstring(doc)
# 使用XPath表达式查询元素
title = tree.xpath('//title/text()')[0]
print("标题:", title)
content_div = tree.xpath('//div[@id="content"]')[0]
print("内容:", content_div.text_content())
li_items = tree.xpath('//li')
print("列表项:")
for item in li_items:
print(item.text_content())
输出结果:
标题: 示例文档
内容:
示例标题
示例段落
列表项1
列表项2
列表项3
列表项:
列表项1
列表项2
列表项3
``
原文地址: https://www.cveoy.top/t/topic/eZnF 著作权归作者所有。请勿转载和采集!