Python BeautifulSoup 获取文本：完整指南和示例

使用 BeautifulSoup 库可以轻松获取 HTML 或 XML 文档中的文本内容。以下是一个示例代码：

from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class='content'>
    <h1>Title</h1>
    <p>Paragraph 1</p>
    <p>Paragraph 2</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()

print(text)

输出结果为：

Title
Paragraph 1
Paragraph 2

在这个例子中，我们首先创建了一个 HTML 字符串。然后使用 BeautifulSoup 解析这个字符串，并指定解析器为 html.parser。接下来，我们使用 get_text() 方法从解析后的文档中提取文本内容。最后，我们将提取到的文本打印出来。

注意，get_text() 方法会提取所有的文本内容，包括标签中的文本和标签之间的文本。如果只想提取特定标签中的文本，可以使用 find() 或 find_all() 方法来定位到特定的标签，然后再使用 get_text() 方法提取文本内容。例如，如果只想提取 <p> 标签中的文本，可以使用以下代码：

from bs4 import BeautifulSoup

html = '''
<html>
<body>
<div class='content'>
    <h1>Title</h1>
    <p>Paragraph 1</p>
    <p>Paragraph 2</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
paragraphs = soup.find_all('p')

for p in paragraphs:
    print(p.get_text())

输出结果为：

Paragraph 1
Paragraph 2

这个例子中，我们首先使用 find_all() 方法找到所有的 <p> 标签，然后遍历这些标签，使用 get_text() 方法提取文本内容，并将提取到的文本打印出来。