Python XPath 提取 class 为 top 的 div 标签内容 - 包含内嵌标签 - 常规

使用 Python 的 lxml 库可以实现 XPath 选取 class 为 'top' 的 div 标签内包含的全部内容包括内嵌标签本身，示例代码如下：

from lxml import etree

html = '''
<div class='top'>
    <h1>标题</h1>
    <p>段落1</p>
    <p>段落2</p>
    <ul>
        <li>列表项1</li>
        <li>列表项2</li>
    </ul>
</div>
'''

root = etree.HTML(html)
div_top = root.xpath('//div[@class='top']')[0]
content = etree.tostring(div_top, encoding='utf-8').decode('utf-8')

print(content)

输出结果如下：

<div class='top'>
    <h1>标题</h1>
    <p>段落1</p>
    <p>段落2</p>
    <ul>
        <li>列表项1</li>
        <li>列表项2</li>
    </ul>
</div>

可以看到，输出结果包含 class 为 'top' 的 div 标签内的全部内容，包括内嵌标签本身。

Python XPath 提取 class 为 top 的 div 标签内容 - 包含内嵌标签