提取文件中的中文
要提取文件中的中文,可以使用Python的正则表达式模块re来实现。下面是一个示例代码,可以读取文件,提取其中的中文内容并打印出来:
import re
def extract_chinese(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
content = file.read()
chinese = re.findall(r'[\u4e00-\u9fa5]+', content) # 使用正则表达式提取中文
for word in chinese:
print(word)
# 示例用法
extract_chinese('file.txt')
在上述代码中,我们首先使用open
函数打开文件,然后使用read
方法读取文件的内容。接下来,使用正则表达式[\u4e00-\u9fa5]+
来匹配中文字符。[\u4e00-\u9fa5]
是一个Unicode范围,表示所有的中文字符。+
表示匹配连续的多个中文字符。re.findall
函数将返回一个列表,其中包含所有匹配到的中文内容。最后,我们使用一个循环将结果逐个打印出来。
请注意,在示例代码中,假设文件的编码为UTF-8。如果文件的编码不同,请将代码中的encoding
参数修改为相应的编码。

原文地址: http://www.cveoy.top/t/topic/i2x3 著作权归作者所有。请勿转载和采集!