基于python在一段文本中按照案例一案例二分段提取文本内容有什么好方法
有多种方法可以基于Python在一段文本中按照“案例一”、“案例二”等关键词分段提取文本内容。以下是其中的一种方法:
import re
def extract_text(text):
# 使用正则表达式将文本按照关键词分割成段落
pattern = r'案例[一二三四五六七八九十]+'
paragraphs = re.split(pattern, text)
# 去除空白段落
paragraphs = [p.strip() for p in paragraphs if p.strip()]
# 将段落与对应的案例编号组成字典
result = {}
for i in range(len(paragraphs)):
case_num = re.findall(pattern, text)[i]
result[case_num] = paragraphs[i]
return result
# 示例文本
text = """
案例一
这是案例一的内容。
案例二
这是案例二的内容。
案例三
这是案例三的内容。
"""
# 提取文本内容
extracted_text = extract_text(text)
# 打印结果
for case_num, content in extracted_text.items():
print(f"{case_num}: {content}")
输出结果为:
案例一: 这是案例一的内容。
案例二: 这是案例二的内容。
案例三: 这是案例三的内容。
在上述代码中,我们使用了re.split()函数将文本按照关键词"案例一"、"案例二"等分割成段落。然后,我们使用re.findall()函数找到每个段落对应的案例编号,并将段落与案例编号组成字典。最后,我们打印出结果
原文地址: https://www.cveoy.top/t/topic/hI7T 著作权归作者所有。请勿转载和采集!