使用Pandas库可以高效地合并两个上亿行CSV文件并去除重复数据。以下是一个示例代码:

import pandas as pd

# 读取两个CSV文件
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')

# 合并两个DataFrame
df_combined = pd.concat([df1, df2])

# 去重
df_combined = df_combined.drop_duplicates()

# 将结果保存到新的CSV文件
df_combined.to_csv('combined.csv', index=False)

在代码中,首先使用pd.read_csv()函数读取两个CSV文件并将其保存为两个DataFrame对象。然后,使用pd.concat()函数将两个DataFrame对象合并成一个新的DataFrame对象。最后,使用drop_duplicates()函数去除重复的行。最终,使用to_csv()函数将结果保存到一个新的CSV文件中。

请注意,由于两个CSV文件都非常大,这个操作可能需要一些时间和计算资源。如果内存不足以同时加载两个文件,可以考虑逐块读取和处理数据,或者使用Dask等分布式计算工具来处理大规模数据。

Pandas高效合并两个上亿行CSV文件并去重

原文地址: https://www.cveoy.top/t/topic/fQ3R 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录