Pandas高效合并两个上亿行CSV文件并去重

使用Pandas库可以高效地合并两个上亿行CSV文件并去除重复数据。以下是一个示例代码：

import pandas as pd

# 读取两个CSV文件
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')

# 合并两个DataFrame
df_combined = pd.concat([df1, df2])

# 去重
df_combined = df_combined.drop_duplicates()

# 将结果保存到新的CSV文件
df_combined.to_csv('combined.csv', index=False)

在代码中，首先使用pd.read_csv()函数读取两个CSV文件并将其保存为两个DataFrame对象。然后，使用pd.concat()函数将两个DataFrame对象合并成一个新的DataFrame对象。最后，使用drop_duplicates()函数去除重复的行。最终，使用to_csv()函数将结果保存到一个新的CSV文件中。

请注意，由于两个CSV文件都非常大，这个操作可能需要一些时间和计算资源。如果内存不足以同时加载两个文件，可以考虑逐块读取和处理数据，或者使用Dask等分布式计算工具来处理大规模数据。