Pandas:合并并去重两个上亿行 DataFrame 的特定列
要将两个上亿行的 DataFrame 的特定列合并并去重,可以使用 Pandas 的 concat 和 drop_duplicates 函数。
首先,使用 concat 函数将两个 DataFrame 按列合并。假设两个 DataFrame 分别为 df1 和 df2,列合并后的结果为 df_merged,可以使用以下代码:
import pandas as pd
df_merged = pd.concat([df1, df2], axis=1)
接下来,使用 drop_duplicates 函数去除重复的行。假设要去重的列为 column_name,可以使用以下代码:
df_merged = df_merged.drop_duplicates(subset='column_name')
最后,df_merged 就是合并并去重后的 DataFrame。
原文地址: https://www.cveoy.top/t/topic/fQ3B 著作权归作者所有。请勿转载和采集!