Python高效对比两个大文件重复内容并提取

在处理大型文本文件时，如何快速高效地找到两个文件之间的重复内容并提取出来是一个常见的需求。本文将介绍一种利用Python内置数据结构和函数来实现这一目标的高效方法。

代码示例

以下代码展示了如何使用Python提取两个中文大文件内容的重复部分：pythondef extract_duplicate_content(file1, file2, output_file): with open(file1, 'r', encoding='utf-8') as f1, open(file2, 'r', encoding='utf-8') as f2, open(output_file, 'w', encoding='utf-8') as output: content1 = set(f1.readlines()) content2 = set(f2.readlines()) duplicates = content1.intersection(content2)

    for line in duplicates:            output.write(line)

print('重复部分已提取到文件：', output_file)

示例用法file1 = 'file1.txt'file2 = 'file2.txt'output_file = 'output.txt'extract_duplicate_content(file1, file2, output_file)

代码解读

打开文件： 使用 open() 函数打开需要对比的两个文件以及用于存储结果的输出文件。encoding='utf-8' 确保正确处理中文编码。2. 读取内容并转换为集合： 使用 readlines() 方法将每个文件的内容读取为一个列表，其中每行文本作为列表中的一个元素。然后，利用 set() 函数将列表转换为集合。集合的特点是元素唯一，可以高效地进行交集操作。3. 提取重复内容： 使用 intersection() 方法找到两个集合的交集，即两个文件中的重复行。4. 写入输出文件： 遍历重复行集合，将每行内容写入输出文件。5. 示例调用： 演示如何调用 extract_duplicate_content() 函数，传入文件路径作为参数。

优化说明

使用集合进行去重和查找交集操作，相比于直接使用列表比较，效率更高，尤其适用于处理大型文件。* 代码使用了 with open() 语句，确保在操作完成后自动关闭文件，避免资源泄露。

注意事项

该代码示例假设文件中的每一行都是独立的文本单元。如果需要按其他规则判断重复内容，例如段落或句子，需要对代码进行相应调整。* 处理超大型文件时，可以考虑使用迭代器或分块读取的方式，避免一次性将所有内容加载到内存中导致内存溢出。

希望本文能够帮助你使用 Python 高效地对比两个大文件并提取重复内容。