python 两个中文大文件内容对比提取重复部分到文档的高效率代码
以下是一个用于提取两个中文大文件内容重复部分的高效率代码示例:
def extract_duplicate_content(file1, file2, output_file):
with open(file1, 'r', encoding='utf-8') as f1, open(file2, 'r', encoding='utf-8') as f2, open(output_file, 'w', encoding='utf-8') as output:
content1 = set(f1.readlines())
content2 = set(f2.readlines())
duplicates = content1.intersection(content2)
for line in duplicates:
output.write(line)
print("重复部分已提取到文件:", output_file)
# 示例用法
file1 = 'file1.txt'
file2 = 'file2.txt'
output_file = 'output.txt'
extract_duplicate_content(file1, file2, output_file)
上述代码的思路是,首先使用open函数打开两个文件,并使用readlines方法将文件内容读取到列表中。然后,将两个列表转换为集合类型,以便进行快速的交集操作。接下来,使用intersection方法找到两个集合的重复部分。最后,将重复部分写入到输出文件中。
请注意,这个示例假设文件中的每一行都是一个完整的句子或段落。如果文件中的行不是按句子或段落划分的,你可能需要根据具体情况进行适当的修改。
原文地址: https://www.cveoy.top/t/topic/hUZY 著作权归作者所有。请勿转载和采集!