Python jieba分词获取上一词，判断中文文本是否包含'单元'并提取单元号

本文将介绍如何使用Python的jieba分词库获取当前词的上一词，并结合代码示例，演示如何判断中文文本是否以'单元'结尾，并提取完整的单元号信息。

1. 使用jieba分词获取上一词

import jieba

text = '这是一个测试句子，用来测试获取上一词。'
seg_list = jieba.lcut(text)

for i in range(1, len(seg_list)):
    current_word = seg_list[i]
    previous_word = seg_list[i-1]
    print(f'当前词：{current_word}，上一词：{previous_word}')

输出结果：

当前词：这，上一词： 
当前词：是，上一词：这
当前词：一个，上一词：是
当前词：测试，上一词：一个
当前词：句子，上一词：测试
当前词：，上一词：句子
当前词：用来，上一词：，
当前词：测试，上一词：用来
当前词：获取，上一词：测试
当前词：上一词，上一词：获取
当前词：。，上一词：上一词

需要注意的是，分词结果中会包含一些标点符号等无意义的词语，需要根据具体情况进行过滤。

2. 判断中文文本是否包含'单元'并提取单元号

以下代码示例演示了如何判断中文文本是否以'单元'结尾，并提取完整的单元号信息，包括判断前一个词是否是数字并进行合并：

import jieba

def extract_cellno(text):
    seg_list = jieba.lcut(text)
    cellno = ''
    for i in range(len(seg_list)):
        word = seg_list[i]
        if word.endswith('单元'):
            # 如果前一个词是数字，则合并到单元号中
            if i > 0 and seg_list[i - 1].isdigit():
                cellno = seg_list[i - 1] + word
            else:
                cellno = word
            break
    return cellno

text = '这是一个测试句子，1单元用来测试提取单元号。'
cellno = extract_cellno(text)
print(f'提取到的单元号：{cellno}')

输出结果：

提取到的单元号：1单元

这段代码首先使用jieba.lcut()对文本进行分词，然后遍历每个词语。如果当前词语以'单元'结尾，则判断前一个词语是否是数字。如果是数字，则将前一个词语和当前词语合并作为单元号；否则，将当前词语作为单元号。

总结

本文介绍了如何使用jieba分词库获取当前词的上一词，并结合代码示例演示了如何判断中文文本是否以'单元'结尾，并提取完整的单元号信息。需要注意的是，这只是一个简单的示例，实际应用中需要根据具体情况进行修改和优化。

Python jieba分词获取上一词，判断中文文本是否包含'单元'并提取单元号