使用 BeautifulSoup 库可以轻松获取 HTML 或 XML 文档中的文本内容。以下是一个示例代码:

from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class='content'>
    <h1>Title</h1>
    <p>Paragraph 1</p>
    <p>Paragraph 2</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()

print(text)

输出结果为:

Title
Paragraph 1
Paragraph 2

在这个例子中,我们首先创建了一个 HTML 字符串。然后使用 BeautifulSoup 解析这个字符串,并指定解析器为 html.parser。接下来,我们使用 get_text() 方法从解析后的文档中提取文本内容。最后,我们将提取到的文本打印出来。

注意,get_text() 方法会提取所有的文本内容,包括标签中的文本和标签之间的文本。如果只想提取特定标签中的文本,可以使用 find()find_all() 方法来定位到特定的标签,然后再使用 get_text() 方法提取文本内容。例如,如果只想提取 <p> 标签中的文本,可以使用以下代码:

from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class='content'>
    <h1>Title</h1>
    <p>Paragraph 1</p>
    <p>Paragraph 2</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
paragraphs = soup.find_all('p')

for p in paragraphs:
    print(p.get_text())

输出结果为:

Paragraph 1
Paragraph 2

这个例子中,我们首先使用 find_all() 方法找到所有的 <p> 标签,然后遍历这些标签,使用 get_text() 方法提取文本内容,并将提取到的文本打印出来。

Python BeautifulSoup 获取文本:完整指南和示例

原文地址: https://www.cveoy.top/t/topic/piaG 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录