Python XPath 提取 class 为 top 的 div 标签内容 - 包含内嵌标签
使用 Python 的 lxml 库可以实现 XPath 选取 class 为 'top' 的 div 标签内包含的全部内容包括内嵌标签本身,示例代码如下:
from lxml import etree
html = '''
<div class='top'>
<h1>标题</h1>
<p>段落1</p>
<p>段落2</p>
<ul>
<li>列表项1</li>
<li>列表项2</li>
</ul>
</div>
'''
root = etree.HTML(html)
div_top = root.xpath('//div[@class='top']')[0]
content = etree.tostring(div_top, encoding='utf-8').decode('utf-8')
print(content)
输出结果如下:
<div class='top'>
<h1>标题</h1>
<p>段落1</p>
<p>段落2</p>
<ul>
<li>列表项1</li>
<li>列表项2</li>
</ul>
</div>
可以看到,输出结果包含 class 为 'top' 的 div 标签内的全部内容,包括内嵌标签本身。

原文地址: http://www.cveoy.top/t/topic/m5kA 著作权归作者所有。请勿转载和采集!