Python BeautifulSoup 获取文本:完整指南和示例
使用 BeautifulSoup 库可以轻松获取 HTML 或 XML 文档中的文本内容。以下是一个示例代码:
from bs4 import BeautifulSoup
html = '''
<html>
<body>
<div class='content'>
<h1>Title</h1>
<p>Paragraph 1</p>
<p>Paragraph 2</p>
</div>
</body>
</html>
'''
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
print(text)
输出结果为:
Title
Paragraph 1
Paragraph 2
在这个例子中,我们首先创建了一个 HTML 字符串。然后使用 BeautifulSoup 解析这个字符串,并指定解析器为 html.parser。接下来,我们使用 get_text() 方法从解析后的文档中提取文本内容。最后,我们将提取到的文本打印出来。
注意,get_text() 方法会提取所有的文本内容,包括标签中的文本和标签之间的文本。如果只想提取特定标签中的文本,可以使用 find() 或 find_all() 方法来定位到特定的标签,然后再使用 get_text() 方法提取文本内容。例如,如果只想提取 <p> 标签中的文本,可以使用以下代码:
from bs4 import BeautifulSoup
html = '''
<html>
<body>
<div class='content'>
<h1>Title</h1>
<p>Paragraph 1</p>
<p>Paragraph 2</p>
</div>
</body>
</html>
'''
soup = BeautifulSoup(html, 'html.parser')
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.get_text())
输出结果为:
Paragraph 1
Paragraph 2
这个例子中,我们首先使用 find_all() 方法找到所有的 <p> 标签,然后遍历这些标签,使用 get_text() 方法提取文本内容,并将提取到的文本打印出来。
原文地址: https://www.cveoy.top/t/topic/piaG 著作权归作者所有。请勿转载和采集!