要将两个上亿行的 DataFrame 的特定列合并并去重,可以使用 Pandas 的 concatdrop_duplicates 函数。

首先,使用 concat 函数将两个 DataFrame 按列合并。假设两个 DataFrame 分别为 df1df2,列合并后的结果为 df_merged,可以使用以下代码:

import pandas as pd

df_merged = pd.concat([df1, df2], axis=1)

接下来,使用 drop_duplicates 函数去除重复的行。假设要去重的列为 column_name,可以使用以下代码:

df_merged = df_merged.drop_duplicates(subset='column_name')

最后,df_merged 就是合并并去重后的 DataFrame。

Pandas:合并并去重两个上亿行 DataFrame 的特定列

原文地址: https://www.cveoy.top/t/topic/fQ3B 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录