使用 Python 的 lxml 库可以实现 XPath 选取 class 为 'top' 的 div 标签内包含的全部内容包括内嵌标签本身,示例代码如下:

from lxml import etree

html = '''
<div class='top'>
    <h1>标题</h1>
    <p>段落1</p>
    <p>段落2</p>
    <ul>
        <li>列表项1</li>
        <li>列表项2</li>
    </ul>
</div>
'''

root = etree.HTML(html)
div_top = root.xpath('//div[@class='top']')[0]
content = etree.tostring(div_top, encoding='utf-8').decode('utf-8')

print(content)

输出结果如下:

<div class='top'>
    <h1>标题</h1>
    <p>段落1</p>
    <p>段落2</p>
    <ul>
        <li>列表项1</li>
        <li>列表项2</li>
    </ul>
</div>

可以看到,输出结果包含 class 为 'top' 的 div 标签内的全部内容,包括内嵌标签本身。

Python XPath 提取 class 为 top 的 div 标签内容 - 包含内嵌标签

原文地址: http://www.cveoy.top/t/topic/m5kA 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录