,可以使用XPath表达式进行查询和定位元素了。

示例代码:

from lxml import html

# 构造HTML文档
doc = """
<html>
<head>
    <title>示例文档</title>
</head>
<body>
    <div id="content">
        <h1>示例标题</h1>
        <p>示例段落</p>
        <ul>
            <li>列表项1</li>
            <li>列表项2</li>
            <li>列表项3</li>
        </ul>
    </div>
</body>
</html>
"""

# 初始化XPath解析对象
tree = html.fromstring(doc)

# 使用XPath表达式查询元素
title = tree.xpath('//title/text()')[0]
print("标题:", title)

content_div = tree.xpath('//div[@id="content"]')[0]
print("内容:", content_div.text_content())

li_items = tree.xpath('//li')
print("列表项:")
for item in li_items:
    print(item.text_content())

输出结果:

标题: 示例文档
内容: 
        
        示例标题
        示例段落
        
            列表项1
            列表项2
            列表项3
        
    
列表项:
列表项1
列表项2
列表项3
``
调用HTML类进行初始化这样就成功构造了一个XPath解析对象

原文地址: https://www.cveoy.top/t/topic/eZnF 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录