Pandas 海量数据去重：高效处理上亿条数据

在 Pandas 中，可以使用 drop_duplicates() 方法高效地去除重复行，即使数据量高达上亿条。

示例代码：

import pandas as pd

# 创建一个包含上亿条数据的 DataFrame
data = pd.DataFrame({'col1': [1, 2, 3, 1, 2, 3, 1, 2, 3],
                     'col2': [4, 5, 6, 4, 5, 6, 4, 5, 6]})

# 去重
data = data.drop_duplicates()

# 打印去重后的 DataFrame
print(data)

这段代码会输出去重后的 DataFrame，其中重复行已被删除。在这个示例中，原始 DataFrame 有 9 行数据，经过去重后只剩下 3 行数据。

注意：

drop_duplicates() 方法会返回一个新的 DataFrame，原始的 DataFrame 不会被修改。
如果你想直接在原始 DataFrame 上进行修改，可以使用 inplace 参数：

data.drop_duplicates(inplace=True)

这样会直接在原始的 DataFrame 上进行修改，而不返回新的 DataFrame。

此外，drop_duplicates() 方法还有其他参数可以根据需要进行调整，例如：

subset：指定要检查重复值的列。
keep：指定保留重复项的规则，可选值为 'first'、'last' 或 'False'。

通过灵活运用这些参数，你可以根据具体场景对海量数据进行高效去重处理。