Pandas高效合并两个上亿行CSV文件并去重
使用Pandas库可以高效地合并两个上亿行CSV文件并去除重复数据。以下是一个示例代码:
import pandas as pd
# 读取两个CSV文件
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')
# 合并两个DataFrame
df_combined = pd.concat([df1, df2])
# 去重
df_combined = df_combined.drop_duplicates()
# 将结果保存到新的CSV文件
df_combined.to_csv('combined.csv', index=False)
在代码中,首先使用pd.read_csv()函数读取两个CSV文件并将其保存为两个DataFrame对象。然后,使用pd.concat()函数将两个DataFrame对象合并成一个新的DataFrame对象。最后,使用drop_duplicates()函数去除重复的行。最终,使用to_csv()函数将结果保存到一个新的CSV文件中。
请注意,由于两个CSV文件都非常大,这个操作可能需要一些时间和计算资源。如果内存不足以同时加载两个文件,可以考虑逐块读取和处理数据,或者使用Dask等分布式计算工具来处理大规模数据。
原文地址: https://www.cveoy.top/t/topic/fQ3R 著作权归作者所有。请勿转载和采集!