在 Pandas 中,可以使用 drop_duplicates() 方法高效地去除重复行,即使数据量高达上亿条。

示例代码:

import pandas as pd

# 创建一个包含上亿条数据的 DataFrame
data = pd.DataFrame({'col1': [1, 2, 3, 1, 2, 3, 1, 2, 3],
                     'col2': [4, 5, 6, 4, 5, 6, 4, 5, 6]})

# 去重
data = data.drop_duplicates()

# 打印去重后的 DataFrame
print(data)

这段代码会输出去重后的 DataFrame,其中重复行已被删除。在这个示例中,原始 DataFrame 有 9 行数据,经过去重后只剩下 3 行数据。

注意:

  • drop_duplicates() 方法会返回一个新的 DataFrame,原始的 DataFrame 不会被修改。
  • 如果你想直接在原始 DataFrame 上进行修改,可以使用 inplace 参数:
data.drop_duplicates(inplace=True)

这样会直接在原始的 DataFrame 上进行修改,而不返回新的 DataFrame。

此外,drop_duplicates() 方法还有其他参数可以根据需要进行调整,例如:

  • subset:指定要检查重复值的列。
  • keep:指定保留重复项的规则,可选值为 'first'、'last' 或 'False'。

通过灵活运用这些参数,你可以根据具体场景对海量数据进行高效去重处理。

Pandas 海量数据去重:高效处理上亿条数据

原文地址: https://www.cveoy.top/t/topic/fQ3s 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录