基于python 使用正则提取中文
可以使用正则表达式提取中文,示例如下:
import re
text = "我爱Python,Python爱我"
pattern = re.compile(r'[\u4e00-\u9fa5]+')
result = re.findall(pattern, text)
print(result)
输出结果为:['我爱', '爱我']
正则表达式[\u4e00-\u9fa5]+表示匹配一个或多个中文字符。re.findall()函数用于在字符串中查找所有匹配的内容,并返回一个列表。以上代码中,通过正则表达式提取出了字符串中的中文字符,并将结果存储在列表result中,最后打印出来。
请注意,以上示例只能提取出中文字符,无法提取出中文词语。如果需要提取中文词语,可以使用中文分词工具,如jieba等。
原文地址: https://www.cveoy.top/t/topic/hJfs 著作权归作者所有。请勿转载和采集!