Pandas 海量数据去重:高效处理上亿条数据
在 Pandas 中,可以使用 drop_duplicates() 方法高效地去除重复行,即使数据量高达上亿条。
示例代码:
import pandas as pd
# 创建一个包含上亿条数据的 DataFrame
data = pd.DataFrame({'col1': [1, 2, 3, 1, 2, 3, 1, 2, 3],
'col2': [4, 5, 6, 4, 5, 6, 4, 5, 6]})
# 去重
data = data.drop_duplicates()
# 打印去重后的 DataFrame
print(data)
这段代码会输出去重后的 DataFrame,其中重复行已被删除。在这个示例中,原始 DataFrame 有 9 行数据,经过去重后只剩下 3 行数据。
注意:
drop_duplicates()方法会返回一个新的 DataFrame,原始的 DataFrame 不会被修改。- 如果你想直接在原始 DataFrame 上进行修改,可以使用
inplace参数:
data.drop_duplicates(inplace=True)
这样会直接在原始的 DataFrame 上进行修改,而不返回新的 DataFrame。
此外,drop_duplicates() 方法还有其他参数可以根据需要进行调整,例如:
subset:指定要检查重复值的列。keep:指定保留重复项的规则,可选值为 'first'、'last' 或 'False'。
通过灵活运用这些参数,你可以根据具体场景对海量数据进行高效去重处理。
原文地址: https://www.cveoy.top/t/topic/fQ3s 著作权归作者所有。请勿转载和采集!