基于python 使用正则提取中文

日期: 2027-03-08

标签: 科技

可以使用正则表达式提取中文，示例如下：

import re

text = "我爱Python，Python爱我"
pattern = re.compile(r'[\u4e00-\u9fa5]+')
result = re.findall(pattern, text)
print(result)

输出结果为：['我爱', '爱我']

正则表达式[\u4e00-\u9fa5]+表示匹配一个或多个中文字符。re.findall()函数用于在字符串中查找所有匹配的内容，并返回一个列表。以上代码中，通过正则表达式提取出了字符串中的中文字符，并将结果存储在列表result中，最后打印出来。

请注意，以上示例只能提取出中文字符，无法提取出中文词语。如果需要提取中文词语，可以使用中文分词工具，如jieba等。

原文地址: https://www.cveoy.top/t/topic/hJfs 著作权归作者所有。请勿转载和采集!